SEEM:微软基于 CV 大模型新作,分割“瞬息全宇宙”

cb254796aa4480847b380ad2c3685688.png

文 | 智商掉了一地

交互式视觉分割新作,具有语义感知的新模型~

自从 Meta 发布了“分割一切”的 SAM 之后,各种二创如雨后春笋般冒出,昨天微软的一篇论文又在推特上引起讨论,虽然最开始吸引小编的是它的名字——分割“瞬息全宇宙”(《Everything,Everywhere, All at Once》),看到后满脑子都是杨紫琼斩获奥斯卡最佳女主角的这个电影:

16e711361487bc299095d007dea28800.png
▲图1 用 SEEM 分割电影剧照(图源Twitter)

哈哈扯远了...回归正题:

这是个视觉理解方面的多模态 AI 交互研究,受到 LLM 基于 prompt 的通用界面开发的启发,作者提出了一个名为 SEEM 的模型,它能够在一次操作中完成各种分割任务,包括语义、实例和全景分割,同时也支持各种 prompt 类型和它们的任意组合

作者指出,SEEM 有以下 4 个亮点:

  1. 多功能性(Versatile):处理各种类型的 prompt ,例如点击、框选、多边形、涂鸦、文本和参考图像;

  2. 组合式(Compositional):处理 prompt 的任何组合;

  3. 交互性(Interactive):与用户多轮交互,得益于 SEEM 的记忆 prompt 来存储会话历史记录;

  4. 语义感知(Semantic-aware):为任何预测的掩码提供语义标签。

0c6f4f01051b9a8f3a8e353f0e919f64.png
▲图2 SEEM 可以执行任何细分任务

论文题目:
Segment Everything Everywhere All at Once

论文链接:
https://arxiv.org/abs/2304.06718

项目地址:
https://github.com/ux-decoder/segment-everything-everywhere-all-at-once

Demo地址:
https://36771ee9c49a4631.gradio.app/


图像分割:SAM 与 SEEM

在分割问题领域,Meta 几天前提出的 SAM 提供了一个通用且全自动的图像分割方法,它的创新之处在于可以同时执行交互式分割和自动分割,并且可以通过灵活的 prompt 界面来适应新任务和新领域。它解决了传统方法需要很多手动注释和对于特定对象的限制的问题,具有很高的适用性和可扩展性。

自从 SAM 开始,视觉 prompt 的一阵风便吹向了计算机视觉领域。作者比较了 SEEM 和 SAM 的在交互性和语义性方面的区别与联系,:

  • SEEM 在交互性和语义性方面的覆盖范围更广,支持更多类型的 prompt ,并理解语义;而 SAM 只支持受限的交互类型,比如点和框,同时也无法输出语义标签。这主要因为 SEEM 具有统一的 prompt 编码器,将所有视觉和语言 prompt 编码为一个联合表示空间,因此可以支持更具泛化性的用法,并有潜力扩展到自定义 prompt

  • SEEM 在文本到 Mask(grounding 分割)方面表现得很好,可以输出具有语义感知的预测。因此,作者指出 SEEM 的交互和语义性能力更强。

82aba9dd7d1ba7c755e83cf83021aaf3.png
▲图3 与 SAM 在三种任务上的比较

SEEM 模型采用了一种通用的编码器-解码器架构,主要关注 query 和 prompt 之间的复杂交互。模型由文本编码器和视觉采样器组成。文本和视觉 prompt 被编码成可学习的查询,然后送入 SEEM 模型中,并输出 Mask 和语义标签。视觉 prompt 被编码成池化图像特征,然后在 SEEM 解码器中使用 Self-Attention 和 Cross-Attention。如图 4(a) 所示:

f5e242972a8f1e416ea6f0e796683520.png
▲图4 (a)各种 prompt 被编码到一个联合的视觉-语义空间。(b)模型与人之间的多轮交互

SEEM 与人之间的多轮交互如图 4(b),主要包括以下 3 个步骤:

  1. 人给出 prompt;

  2. 模型向人发送预测结果;

  3. 模型更新记忆 prompt。

多功能性

主要利用视觉 prompt 来处理非文本输入(如点、框、涂鸦和另一张图像的指定区域),并将其统一以 token 的形式在同一视觉嵌入空间中表示。该模型采用均匀采样方式获取指定区域的最多 512 个图像特征,同时在语义分割和目标参照分割中,模型通过学习一个共同的视觉-语义空间来实现视觉 prompt 与文本 prompt 的自然对齐。该设计可以避免先前方法中因空间转换耗费大量计算资源以及难以泛化到未见过 prompt 的问题。

组合式

为了满足用户在实际应用中可能使用不同类型或组合输入的需求,组合式提示(prompt)方法必不可少。然而,模型训练过程中面临两个问题:

  1. 训练数据往往只包含单一类型的输入(如无、文本、视觉);

  2. 即使使用视觉 prompt 将所有非文本类型的 prompt 统一到一起与文本 prompt 对齐,它们嵌入的空间仍然不同。

为解决这些问题,提出了一种新的方法:使用不同类型的输出来匹配不同类型的 prompt。在训练过程中,通过匹配 Mask 嵌入 和类型嵌入 ,选择匹配的输出索引,以适应不同的 prompt 类型。实验结果表明,相较于只使用 或 并针对所有 prompt 类型进行匹配的方法,该方法更具优势。在训练后,模型能够熟悉所有 prompt 类型,支持多种组合方式,包括无 prompt 、单个 prompt 类型,或同时使用视觉和文本 prompt。特别的是,即使没有接受这样的训练,可以简单地连接视觉和文本 prompt 并输入到 SEEM 解码器中。

交互性

通常需要多次交互才能完成图像分割的细化,就像 ChatGPT 对话过程一样。在模型中提出了一种称为“记忆 prompt”的新型 prompt 方式,通过它们将来自先前迭代的 Mask 知识传递给当前迭代。与以前使用网络来编码 Mask 的模型不同,SEEM 模型只需要使用几个记忆 prompt 即可,它们使用 Mask 引导的交叉注意力结合特征图来编码历史信息。更新后的记忆 prompt 通过自注意力与其他的 prompt 进行交互,传递当前交互轮次的历史信息。不过这种设计虽然可以轻松扩展以支持同时交互分割多个对象,但还需要进一步的研究。

语义感知

这里的设计与之前的类别无关的交互式分割方法(如 Simple Click 和 SAM)不同,在联合视觉-语义空间中对齐了视觉 prompt 特征与文本特征,因此能够为来自各种 prompt 组合的 Mask 赋予语义标签,如图 4(a) 所示,计算了 Mask 嵌入和视觉采样之间的相似度矩阵。尽管没有为交互式分割训练任何语义标签,但由于联合视觉-语义空间的作用,计算出的 logits 已经较好地对齐了。

有趣的结果

作者提供了体验 Demo,访问链接已经放在了本文的开头,感兴趣的朋友可以自己试试看。在实验中展示了以下可视化的实验结果:

如图 5 所示,在点击分割中,SEEM 超越 SAM 的地方在于支持用户的任意格式点击或勾勒。此外,它同时给出了分割 Mask 的语义标签。

0e4f9ff776d14d59ebb1a795265459ab.png
▲图5 点击分割

如下图所示,参考的文本显示在 Mask 上,同时,SEEM 适用于卡通、电影和游戏领域的各种类型的输入图像。

ff34586c2880fe43d72661512c3f2b4d.pnga881fb49eaeea080ec568d2b67a589d0.png

图 7 中,给出一个具有简单空间提示的参考图像,SEEM 可以分割出不同目标图像中语义相似的内容。

a494caebf5484b92ac5a4ec7232b78af.png
▲图7 参考图像的分割

图 8 展示了即使面对由模糊或强烈形变引起的明显外观变化,也能精确地分割所需对象。

c85930ae97ea78ecec3adca50e1a5484.png
▲图8 使用“第一帧+一笔画”方法进行 zero-shot 视频目标分割

同时在 Demo 中还可以体验将音频转换为文本 prompt 来分割对象的操作,如图 9 所示:

1871a381b14a7b193e0130cb1d4c37c4.png
▲图9 用音频来分割图像

小结

对于 SEEM 模型,在交互和 prompt 方面可以总结如下:

  • 可以同时进行所有可能的 prompt 组合的语义分割,具有很好的泛化性能,能够处理多种词汇和多种视觉 prompt。

  • 可以与用户进行交互,接受多种视觉 prompt,包括点击、框选、多边形、涂抹、文本和参考图像分割。这使得模型对于不同的任务和用户需求有很好的适应能力。

  • 使用了一个 prompt 编码器将视觉 prompt 映射到一个联合的视觉-语义空间中,这使得模型可以适应不同类型的 prompt 并灵活地组合它们,从而提高分割的效果和精度。

相信未来会有更多基于交互式计算机视觉的研究涌现,这将使我们改变观念、重新审视该领域。这些研究可能涌现于图像理解和多模态学习领域,为智能交互的发展带来崭新的可能性。让我们拭目以待,期待更多的新研究与发现吧~

b86991a417afd67308280d9877ba922b.png

卖萌屋作者:智商掉了一地

北理工计算机硕士在读,近期沉迷于跟 ChatGPT 唠嗑,对一切新颖的 NLP 应用充满好奇,正在努力成为兴趣广泛的斜杠青年~

作品推荐

  1. 我是粉红猪佩奇,我要把粉色吹风机写进 IJCAI 论文!

  2. AI取代人类,可以自动生成prompt了

  3. ICLR 2023 最高分论文被锤抄袭??

  4. AI讲话总爱“结巴”?这篇NeurIPS论文找到了病因,结巴率已接近人类!

  5. 如何提升大规模Transformer的训练效果?Primer给出答案

  6. Yoshua Bengio:我的一生

8ed0b675b97d39c20c203cc4777c5ab5.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13096.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性

带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性 1.什么是语言模型? 大家或多或少都听过 ChatGPT 是一个 LLMs,那 LLMs 是什么?LLMs 全称是 Large Language…

分享一个ChatGPT提示词技巧

先说原理: 核心点:利用ChatGPT的训练特性模仿功能; 先从网上找10来个优质的提示词; 然后把这些优质提示词“喂”给ChatGPT,目的是让它学会这些优质提示词的套路; 接着,我们再提供一个主题&a…

GPT-4发布!能打败ChatGPT的只有OpenAI自己!

众所周知,chatGPT的对话生成模型用的是GPT3.5,而今发布的GPT4相比GPT3,又有了巨大的升级: 输入仅文本 > 输入文本和图像,具备了强大的识图能力 文字输入限制3k字 > 2.5w字 准确率、对细节的理解能力大幅提升 o…

ChatGPT,音乐,与数据库

小编君是个不务正业,喜欢搞跨界,干啥啥不成的DBA,大概在十一年前就有个不成熟的妄念,能否用计算机来写音乐? ▌用ChatGPT来搞音乐? 音乐是一个个的音符,按照乐理规则排列的。音符之间是否和谐…

吴恩达 ChatGPT Prompt Engineering for Developers 系列课程笔记--08 Chatbot

08 Chatbot ChatGPT的一种重要功能是作为一个聊天机器人,本节将展示如何和ChatGPT进行对话 1) 不同的角色(Roles) 前面几节的课程中,我们通过如下函数调用ChatGPT的接口,输入用户输入的prompt,返回模型生…

大厂对ChatGPT的开发利用和评估案例收录

ChatGPT已经进入各行各业,但是实际在工作中的有哪些应用呢?这里分享互联网一线大厂分享的一些实际使用案例,所有文章收录到 大厂对ChatGPT的开发利用和评估案例收录https://www.webhub123.com/#/home/detail?projectHashid67792343&owne…

ChatGPT专业应用:生成导播规划表

正文共 971 字,阅读大约需要 5 分钟 直播运营必备技巧,您将在5分钟后获得以下超能力: 生成导播规划表 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自身技能。 推荐人 | Kim 编辑者…

ChatGPT专业应用:生成节目串词

正文共 839 字,阅读大约需要 5 分钟 主持人必备技巧,您将在5分钟后获得以下超能力: 生成节目串词 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自身技能。 推荐人 | Kim 编辑者 | …

4月份读书学习好文记录

4月份学习记录 找到自己感兴趣的方向,而不是人云亦云,知道自己想要的是什么,而不是一直得过且过! 差距是怎么出现的,四年来的点点滴滴!!! 一个前端大佬的十年回顾 | 漫画前端的前世…

一览 A16z 在 2023 年重点关注的 Crypto 和 Web3 游戏想法

原文来自:a16z 编译:DeFi 之道 隔夜的粥 注:顶级投资机构 a16z 刚刚发布了一份综合关注清单,列出了科技建设者在未来一年可能要解决的“大想法”,这份清单涵盖了消费科技、游戏、AI、Crypto 等多个领域,以下是一些让 a…

让ChatGPT分析下五一出行的数据

这个五一的真的真的真的很火,哪哪都是人人人人人人。 刚好看到官媒发出了五一期间的旅游宏观数据,我们就来简单分析下。 有了ChatGPT以后,就没必要自己亲自动手啦,直接丢给ChatGPT: 好吧,不得不说&#xff…

放大招:三步搞定ChatGPT提示词,轻松写出高质量提问,最新经验分享

在撰写ChatGPT提示语的时候,有一个基本的三层结构,经过在工作和生活上的实践,有助于解决大多数不同类型的任务。 尤其在你的问题有点复杂,想不清楚要怎么问比较好的时候,通过三层结构,让我们有结构的提出问…

ChatGPT旋风如何“卷”到汽车行业?

国产版ChatGPT究竟如何,还需静待上线后才能见分晓。 坐上车,ChatGPT即将驶向风口。 人气爆棚的ChatGPT,最近又把热度带到了汽车行业。 先是,百度即将内测的生成式对话产品“文心一言”的朋友圈不断扩大,吉利、长城、海…

ChatGPT的出现,会帮助汽车行业实现L4级别的自动驾驶吗?

编辑 | 汽车人 原文链接:https://www.zhihu.com/question/583534193 点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心【全栈算法】技术交流群 回答一 作者:Naiyan Wang 链接:h…

ChatGPT技术如何助力汽车门店销售服务水平提升?

过往,由于线下销售过程没有数字化记录,销售顾问的销讲要点执行情况、客户在体验展车、试乘试驾等过程中的反馈,没法真实全面地记录下来,因此很难做精细化的销售管理和客户心声分析。销售沟通过程不透明、员工服务质量难评估。 在…

和 GPT-4 结队编程开发批量删除 chatGPT 对话插件

我和 GPT-4 一起开发了一个 Chrome 插件,可以批量删除 chatGPT 网页版上的对话,废话少说,先看效果: youtube[1]Github 地址[2]插件地址[3] 视频号地址(手机上可以用微信扫码): 背景 作为一名后端…

使用chargpt加 midjourney 生成高质量的图片

如果你还不知道如何使用chargpt(网站不对国内开放),请看我的另一篇文章 首先介绍一下 chargpt 是一个最近火到爆炸的人工智能聊天工具,可以用它来生成图片,因为默认chargpt是不能直接输出图片的,需要给它指令已markdown的格式输出…

利用 AI 作图帮助理解知识

一、背景 人类对图形的接受和处理能力高于对文字和数字的处理能力。 如果我们学习某个知识的时候,能够找到配套的图,理解会好很多。 但,并不是所有的知识都有配图。 然而,人工智能的时代已经来临,为什么不尝试用 AI…

【分享】阿里版ChatGPT—通义千问(初体验)

哈喽,大家好,我是木易巷~ 在上个月4月7号,木易巷开始申请阿里云大模型开始邀请测试「通义千问」,到今天早上,木易巷收到了申请通过的短信。 官网地址:tongyi.aliyun.com 迫不及待去测试了一下,效…

技术动态 | 再谈知识图谱与ChatGPT如何结合:参数化与形式化知识库的现实问题、结合要素和具体路线...

转载公众号 | 老刘说NLP 在之前的文章《ChatGPT下的知识图谱审视:一次关于必然影响、未来方向的讨论实录与总结》中,我们谈到了目前的一些思考,但不够具体,具体两者应该如何结合,并没有指出具体的实践方向,…