华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」

作者 | 新智元  编辑 | 自动驾驶与AI

点击下方卡片,关注“自动驾驶与AI”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【语义分割】技术交流群

后台回复【领域综述】获取自动驾驶全栈近80篇综述论文!

Meta的「分割一切」的横空出世,让许多人惊呼CV不存在了。

基于这一模型,众网友纷纷做了进一步工作,比如Grounded SAM。

将Stable Diffusion、Whisper、ChatGPT结合使用,就能做到通过语音让一只狗变成一只猴子。

da92ac7d409a0d886ff472ea3674f32b.png

而现在,不仅仅是语音,你可以通过多模态提示实现一次性分割所有地方的一切。

具体怎么做?

鼠标点一下,直接选中分割内容。

c85e6f0de5e0fc2da33a60512d5e9569.png

张口一句话。

b93d5566a4142776981592fb6d754e66.png

随手一涂,完整的表情包就来了。

7312db0302d2f01632aa3d1122996355.png

甚至,还能分割视频。

f1796d584a78ac684651d2e951f88d37.gif

最新研究SEEM是由威斯康星大学麦迪逊分校、微软研究院等机构的学者共同完成。

通过SEEM使用不同种类的提示,视觉提示(点、标记、框、涂鸦和图像片段)、以及语言提示(文本和音频)轻松分割图像。

125502db8143afe3393daecf9f5b72aa.png

论文地址:https://arxiv.org/pdf/2304.06718.pdf

这个论文标题有意思的地方在于,与2022年上映的一部美国科幻电影「瞬息全宇宙」(Everything Everywhere All at Once)的名字非常相似。

bd90c3330183a793939cc3543b6fad22.png

英伟达科学家Jim Fan表示,奥斯卡最佳论文标题奖颁给「Segment Everything Everywhere All at Once」

拥有一个统一的、多功能的任务规范界面是扩大大型基础模型规模的关键。多模态提示是未来的方向。

3cbc3567e9ea3392c5ed19a2e274ff65.png

看过论文后,网友表示,CV现在也要开始拥抱大模型了,研究生未来出路在哪?

4e7be1f722b200d26fcebd50ae965677.png

奥斯卡最佳标题论文


正是受到基于提示的LLMs通用接口发展的启发,研究人员提出了SEEM。

如图所示,SEEM模型可以在没有提示的开放集中执行任何分割任务,比如语义分割、实例分割和全景分割。

cf34520966ed97ca91c193d2588596eb.png

此外,它还支持任意组合的视觉,文本和引用区域提示,允许多功能和交互式的引用分割。

在模型架构上,SEEM采用了常见的编码器-解码器架构。其独特的地方在于具有查询和提示之间复杂的交互。

351731cc6d89a20b179fa02f86213666.png

特征和提示被相应的编码器,或采样器编码到一个联合的视觉语义空间。

可学习查询是随机初始化,SEEM解码器接受可学习查询、图像特征和文本提示作为输入和输出,包括类和掩码嵌入,用于掩码和语义预测。

值得一提的是,SEEM模型有多轮交互。每一轮都包含一个人工循环和一个模型循环。

在人工循环中,人工接收上一次迭代的掩码输出,并通过视觉提示给出下一轮解码的正反馈。在模型循环中,模型接收并更新未来预测的记忆提示。

ea990d2131d517e665d6b20263581174.png

通过SEEM,给一个擎天柱卡车的图,就能分割任何目标图像上的擎天柱。

4ef5b6956482829d9d4828950841d2cb.png

通过用户输入的文本生成掩模,进行一键分割。

36f2b4145e0f8b488c5d43b4e3e8cd32.png

另外,SEEM通过对引用图像的简单点击,或涂鸦,就能够对目标图像上有相似语义的对象进行分割。

720581858504379e751c9bfc8b9b7eab.png

此外,SEEM非常了解解空间关系。左上行斑马被涂鸦后,也会分割出最左边的斑马。

f6423dffb6c48412a643e45deaaabb18.png

SEEM还可以将图像引用到视频掩码,不需要任何视频数据训练,都能完美分割视频。

f6c6b63b23d2868cd9c7eed3cee013e8.gif

9147533464e9befa116e1b2cd05940af.png

数据集和设置上,SEEM在三种数据集接受了训练:全景分割,引用分割和交互式分割。

交互式分割

在交互式分割上,研究者将SEEM与最先进的交互式分割模型进行了比较。

作为一个通用模型,SEEM获得了RITM,SimpleClick等相当的性能。而且与SAM取得非常相似的性能,SAM还多用了50个分割数据进行训练。

值得注意的是,与现有的交互式模型不同,SEEM是第一个不仅支持经典的分割任务,而且还支持广泛的多模态输入,包括文本、点、涂鸦、边界框和图像,提供了强大的组合能力。

e7e604430162eaee82bd710518f757b9.png

通用分割

通过对所有分割任务预先训练的一组参数,研究者可以直接评估它在通用分割数据集上的性能。

SEEM实现了比较好的全景视图,实例和语义分割性能。

573d351b2165a65ee96352d3198fc76a.png

研究人员对SEEM有四个期望目标:

1. 多功能性:通过引入多功能提示引擎处理不同类型的提示,包括点、框、涂鸦、遮罩、文本和另一图像的引用区域;

2. 复合性:通过学习一个联合视觉-语义空间,为视觉和文本提示组合即时查询进行推理;

3. 交互性:通过整合可学习的记忆提示,通过掩码引导的交叉注意力保留对话历史信息;

4. 语义感知:通过使用文本编码器对文本查询和遮罩标签进行编码,实现开放词汇表的分割。

和SAM区别

Meta提出的SAM模型,可以在一个统一框架prompt encoder内,指定一个点、一个边界框、一句话,一键分割出物体。

0601aca946f4906e789b8057db243032.gif

SAM具有广泛的通用性,即具有了零样本迁移的能力,足以涵盖各种用例,不需要额外训练,就可以开箱即用地用于新的图像领域,无论是水下照片,还是细胞显微镜。

ab14dc337dd68e94c97420357c3bdee6.gif

研究者就三个分割任务(边缘检测、开放集和交互式分割)的交互和语义能力对SEEM和SAM进行了比较。

在开放集分割上,同样需要高水平的语义,并且不需要交互。

与SAM相比,SEEM涵盖了更广泛的交互和语义层次。

SAM只支持有限的交互类型,比如点和边界框,而忽视了高语义任务,因为它本身不输出语义标签。

对于SEEM,研究者点出了两个亮点:

首先,SEEM有一个统一的提示编码器,将所有的视觉和语言提示编码到一个联合表示空间中。因此,SEEM可以支持更通用的用法,它有可能扩展到自定义提示。

其次,SEEM在文本掩码和输出语义感知预测方面做得很好。

b595ba8e422df4523e764d114a86891a.png

作者介绍


论文一作Xueyan Zou

她目前是威斯康星大学麦迪逊分校的计算机科学系博士生,导师是Yong Jae Lee教授。

在此之前,Zou在加州大学戴维斯分校度过了三年时光,由同一位导师指导,并与Fanyi Xiao博士密切合作。

她在香港浸会大学获得了学士学位,由PC Yuen教授和褚晓文教授指导。

93a446466fa1048de245dd7726c17cd0.png

Jianwei Yang

d5178c64c7223b8c4fedf7424e11548d.png

Yang是Redmond微软研究院深度学习组的高级研究员,由高剑峰博士指导。

Yang的研究主要集中在计算机视觉、视觉与语言和机器学习。他主要研究不同层次的结构化视觉理解,以及如何进一步利用它们通过语言和环境的体现与人类进行智能交互。

在2020年3月加入微软之前,Yang在佐治亚理工学互动计算学院获得了计算机科学博士学位,他的导师是Devi Parikh教授,他还与Dhruv Batra教授密切合作。

高剑峰

e4fbe9540bcbd2c8b6ed0f454f2e8d5e.png

高剑峰是微软研究院的杰出科学家和副总裁,IEEE会员,以及ACM杰出会员。

目前,高剑峰领导着深度学习小组。该小组的任务是推动深度学习的最先进技术及其在自然语言和图像理解方面的应用,并在对话模型和方法方面取得进展。

研究主要包括,用于自然语言理解和生成的神经语言模型、神经符号计算、视觉语言的基础和理解、对话式人工智能等等。

2014年到2018年,高剑峰在微软人工智能与研究部和Redmond微软研究院的深度学习技术中心(DLTC)担任商业人工智能的合作伙伴研究经理。

2006年到2014年,高剑峰在自然语言处理组担任首席研究员。

Yong Jae Lee

effac2443ae3331be71be07ad293d036.png

Lee是威斯康星大学麦迪逊分校计算机科学系的副教授。

他在2021年秋季加入威斯康星大学麦迪逊分校之前,曾在Cruise担任过一年的人工智能客座教师,在此之前,他在加州大学戴维斯分校担任了6年的助理和副教授。

他还曾在卡内基梅隆大学的机器人研究所做了一年的博士后研究员。

他于2012年5月在德克萨斯大学奥斯汀分校获得博士学位,师从Kristen Grauman,并于2006年5月在伊利诺伊大学厄巴纳-香槟分校获得学士学位。

他还曾作为微软研究院的暑期实习生与Larry Zitnick和Michael Cohen一起工作。

目前,Lee的研究集中在计算机视觉和机器学习。Lee对创建强大的视觉识别系统格外感兴趣,该系统可以在最少的人类监督下理解视觉数据。

目前,SEEM已经开放了演示demo:

https://huggingface.co/spaces/xdecoder/SEEM

快上手试试吧。

参考资料:

https://twitter.com/DrJimFan/status/1649835393163091969

https://www.reddit.com/r/MachineLearning/comments/12lf2l3/r_seem_segment_everything_everywhere_all_at_once/

https://t.co/U6so7iuxpv

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知等多个方向学习视频,欢迎大家自取(扫码进入学习)

f25af6a9937439919e5a49c4b42a1838.png

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

4d3eef22434578303f355d41d4041c79.jpeg

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

df8fcc0b25ef8c80f5cca5030efd3cbf.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13097.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SEEM:微软基于 CV 大模型新作,分割“瞬息全宇宙”

文 | 智商掉了一地 交互式视觉分割新作,具有语义感知的新模型~ 自从 Meta 发布了“分割一切”的 SAM 之后,各种二创如雨后春笋般冒出,昨天微软的一篇论文又在推特上引起讨论,虽然最开始吸引小编的是它的名字——分割“瞬息全宇宙”…

带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性

带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性 1.什么是语言模型? 大家或多或少都听过 ChatGPT 是一个 LLMs,那 LLMs 是什么?LLMs 全称是 Large Language…

分享一个ChatGPT提示词技巧

先说原理: 核心点:利用ChatGPT的训练特性模仿功能; 先从网上找10来个优质的提示词; 然后把这些优质提示词“喂”给ChatGPT,目的是让它学会这些优质提示词的套路; 接着,我们再提供一个主题&a…

GPT-4发布!能打败ChatGPT的只有OpenAI自己!

众所周知,chatGPT的对话生成模型用的是GPT3.5,而今发布的GPT4相比GPT3,又有了巨大的升级: 输入仅文本 > 输入文本和图像,具备了强大的识图能力 文字输入限制3k字 > 2.5w字 准确率、对细节的理解能力大幅提升 o…

ChatGPT,音乐,与数据库

小编君是个不务正业,喜欢搞跨界,干啥啥不成的DBA,大概在十一年前就有个不成熟的妄念,能否用计算机来写音乐? ▌用ChatGPT来搞音乐? 音乐是一个个的音符,按照乐理规则排列的。音符之间是否和谐…

吴恩达 ChatGPT Prompt Engineering for Developers 系列课程笔记--08 Chatbot

08 Chatbot ChatGPT的一种重要功能是作为一个聊天机器人,本节将展示如何和ChatGPT进行对话 1) 不同的角色(Roles) 前面几节的课程中,我们通过如下函数调用ChatGPT的接口,输入用户输入的prompt,返回模型生…

大厂对ChatGPT的开发利用和评估案例收录

ChatGPT已经进入各行各业,但是实际在工作中的有哪些应用呢?这里分享互联网一线大厂分享的一些实际使用案例,所有文章收录到 大厂对ChatGPT的开发利用和评估案例收录https://www.webhub123.com/#/home/detail?projectHashid67792343&owne…

ChatGPT专业应用:生成导播规划表

正文共 971 字,阅读大约需要 5 分钟 直播运营必备技巧,您将在5分钟后获得以下超能力: 生成导播规划表 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自身技能。 推荐人 | Kim 编辑者…

ChatGPT专业应用:生成节目串词

正文共 839 字,阅读大约需要 5 分钟 主持人必备技巧,您将在5分钟后获得以下超能力: 生成节目串词 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自身技能。 推荐人 | Kim 编辑者 | …

4月份读书学习好文记录

4月份学习记录 找到自己感兴趣的方向,而不是人云亦云,知道自己想要的是什么,而不是一直得过且过! 差距是怎么出现的,四年来的点点滴滴!!! 一个前端大佬的十年回顾 | 漫画前端的前世…

一览 A16z 在 2023 年重点关注的 Crypto 和 Web3 游戏想法

原文来自:a16z 编译:DeFi 之道 隔夜的粥 注:顶级投资机构 a16z 刚刚发布了一份综合关注清单,列出了科技建设者在未来一年可能要解决的“大想法”,这份清单涵盖了消费科技、游戏、AI、Crypto 等多个领域,以下是一些让 a…

让ChatGPT分析下五一出行的数据

这个五一的真的真的真的很火,哪哪都是人人人人人人。 刚好看到官媒发出了五一期间的旅游宏观数据,我们就来简单分析下。 有了ChatGPT以后,就没必要自己亲自动手啦,直接丢给ChatGPT: 好吧,不得不说&#xff…

放大招:三步搞定ChatGPT提示词,轻松写出高质量提问,最新经验分享

在撰写ChatGPT提示语的时候,有一个基本的三层结构,经过在工作和生活上的实践,有助于解决大多数不同类型的任务。 尤其在你的问题有点复杂,想不清楚要怎么问比较好的时候,通过三层结构,让我们有结构的提出问…

ChatGPT旋风如何“卷”到汽车行业?

国产版ChatGPT究竟如何,还需静待上线后才能见分晓。 坐上车,ChatGPT即将驶向风口。 人气爆棚的ChatGPT,最近又把热度带到了汽车行业。 先是,百度即将内测的生成式对话产品“文心一言”的朋友圈不断扩大,吉利、长城、海…

ChatGPT的出现,会帮助汽车行业实现L4级别的自动驾驶吗?

编辑 | 汽车人 原文链接:https://www.zhihu.com/question/583534193 点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心【全栈算法】技术交流群 回答一 作者:Naiyan Wang 链接:h…

ChatGPT技术如何助力汽车门店销售服务水平提升?

过往,由于线下销售过程没有数字化记录,销售顾问的销讲要点执行情况、客户在体验展车、试乘试驾等过程中的反馈,没法真实全面地记录下来,因此很难做精细化的销售管理和客户心声分析。销售沟通过程不透明、员工服务质量难评估。 在…

和 GPT-4 结队编程开发批量删除 chatGPT 对话插件

我和 GPT-4 一起开发了一个 Chrome 插件,可以批量删除 chatGPT 网页版上的对话,废话少说,先看效果: youtube[1]Github 地址[2]插件地址[3] 视频号地址(手机上可以用微信扫码): 背景 作为一名后端…

使用chargpt加 midjourney 生成高质量的图片

如果你还不知道如何使用chargpt(网站不对国内开放),请看我的另一篇文章 首先介绍一下 chargpt 是一个最近火到爆炸的人工智能聊天工具,可以用它来生成图片,因为默认chargpt是不能直接输出图片的,需要给它指令已markdown的格式输出…

利用 AI 作图帮助理解知识

一、背景 人类对图形的接受和处理能力高于对文字和数字的处理能力。 如果我们学习某个知识的时候,能够找到配套的图,理解会好很多。 但,并不是所有的知识都有配图。 然而,人工智能的时代已经来临,为什么不尝试用 AI…

【分享】阿里版ChatGPT—通义千问(初体验)

哈喽,大家好,我是木易巷~ 在上个月4月7号,木易巷开始申请阿里云大模型开始邀请测试「通义千问」,到今天早上,木易巷收到了申请通过的短信。 官网地址:tongyi.aliyun.com 迫不及待去测试了一下,效…