视觉领域的ChatGPT,Segment Anything

一、简介

        这是一个新的图像分割任务、模型和数据集。我们建立了迄今为止最大的分割数据集,其中包含了超过11M张经过授权和尊重隐私的图像,分割掩码总数达到10亿。我们的模型经过设计和训练,可以接受提示,因此可以在新的图像分布和任务上进行零样本迁移。我们对其在众多任务上的能力进行评估,并发现其零样本性能令人印象深刻,往往与甚至优于以前的完全监督结果。我们发布了“Segment Anything”模型(SAM)和相应的数据集(SA-1B)。具体信息请参见https://segment-anything.com。

二、方法

        我们接下来介绍用于可提示分割的Segment Anything Model (SAM)。SAM包括三个组件,如图所示:一个图像编码器,一个灵活的提示编码器和一个快速的掩模解码器。

图像编码器。基于可扩展性和强大的预训练方法,我们使用了一个被MAE预训练的Vision Transformer (ViT),最小程度上适应处理高分辨率输入。图像编码器对每个图像运行一次,并可以在提示模型之前应用。

提示编码器。我们考虑两组提示:稀疏提示(点、框、文本)和密集提示(掩模)。我们将点和框表示为位置编码,并将每个提示类型的学习嵌入与自由形式文本一起求和,使用CLIP的现成文本编码器。使用卷积将密集提示(即掩模)嵌入,并将其逐元素求和与图像嵌入一起。

掩模解码器。掩模解码器高效地将图像嵌入、提示嵌入和输出令牌映射到掩模。这种设计受到的启发,采用Transformer解码器块的一个修改,后面紧随动态掩模预测头部。我们的修改解码器块在两个方向上使用提示自注意力和交叉注意力(提示到图像嵌入和反之亦然)来更新所有嵌入。运行两个块后,我们上采样图像嵌入,并使用MLP将输出令牌映射到动态线性分类器,然后计算每个图像位置的掩模前景概率。

       解决模糊性。对于一个模糊的提示,模型会平均多个有效掩模,以解决模糊性。为了解决这个问题,我们修改模型,为一个单一提示预测多个输出掩模(见下图)。我们发现3个掩模输出足以解决大多数常见情况(嵌套掩模通常最多只有三层:整体、部分和子部分)。在训练期间,我们仅反向传播掩模的最小损失。为了对掩模进行排序,模型为每个掩模预测置信度分数(即估计的IoU)。

损失和训练。我们使用中使用的焦点损失和Dice损失的线性组合来监督掩模预测。我们使用几何提示的混合训练可提示分割任务。按照的做法,我们模拟一个交互式设置,对每个掩模随机采样11轮,使SAM能够无缝地融入我们的数据引擎。

三、局限

       虽然SAM的表现很好,但它并不完美。它可能会错过细微的结构,有时会产生小的断开组件,并且不会像“放大”等计算量更大的方法那样产生清晰的边界。一般来说,当提供许多点时,我们期望专门的交互式分割方法能够优于SAM。与这些方法不同,SAM被设计为通用性和使用范围的广泛性,而不是高IoU交互式分割。此外,当使用重型图像编码器时,SAM可以实时处理提示,但SAM的整体性能仍不是实时的。我们对文本到掩码任务的探索性质并不完全健壮,尽管我们相信通过更多的努力可以改进它。虽然SAM可以执行许多任务,但如何设计简单的提示来实现语义分割和全景分割仍不清楚。最后,有一些特定领域的工具,我们认为在其各自领域中能够优于SAM。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13737.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于Redis数据库,我问了ChatGPT几个问题

最近互联网刮起了一阵ChatGPT风,从程序猿、产品经理、运营再到大学生,都在跟ChatGPT对话!例如: 请帮我检查这段代码的BUG 请帮我设计一款功能像虹科VUZIX一样的智能AR眼镜 虹科Domo数据可视化工具有什么功能 帮我写一篇关于Weka并…

C语言字符串围棋盘放麦粒,围棋高手(民间)用C编写的围棋程序。

围棋高手(民间)用C编写的围棋程序。 #include void main() { int n,m,x,y,temp,j0,i0 ; printf("输入棋盘的横格数,竖格数:\n"); scanf("%d,%d",&x,&y); printf("%d,%d\n",x,y); n2*x1 ; m2*y1 ; printf("%…

一步一步实现一个完整的围棋游戏

一、画棋盘 可以理解为简单的字符画技巧:第一行、中间与最后一行不同;对于每一行,第一列,中间与最后一列不同。 画星位是有一点技巧的,重点理解这个公式的含义: ((i-4)%60 && (j-4)%60) #include…

与 ChatGPT 对战国际象棋:仅用三个月,它从完败到完胜!

【CSDN 编者按】也许将来可能会被 OpenAI 的机器人打败,但在那之前依然可以享受人类之于机器的优越感! 原文链接:https://villekuosmanen.medium.com/i-played-chess-against-chatgpt-4-and-lost-c5798a9049ca 未经授权,禁止转载&…

QQ围棋棋谱

腾讯围棋分享出来的链接: https://huanle.qq.com/act/a20170110wq/index-photo.html?type1&chess02000022001100000002020020221121000000002202022122112200002200000222111102000200020020222211200022020202211111200000122222211010120000011111210120221…

GPT-3核心成员出走打造ChatGPT最强竞品,估值50亿美元

来源:量子位 | 公众号 QbitAI 因不满老东家成为微软附庸,11名OpenAI前员工怒而出走。 如今带着“ChatGPT最强竞品”杀回战场,新公司估值50亿美元,一出手就获得3亿美元融资。 这家公司名叫Anthropic,新推出的聊天机器人…

ChatGPT 最强插件,即将开放!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 今年 3 月份时,OpenAI 正式在 ChatGPT 上集成了插件系统(Plugins),被视为其打造 AI 帝国下的第一步棋。 当时除了上线插件系统外&#xff0c…

原来GPT-4订阅后无法删除信用卡

前言 前段时间写了一篇代开Plus的文章,《ChatGPT Plus代充代开服务:解决客户需求的有效方式》今天有一网友找我代开,他没有信用卡,本着帮助友人(其实是想赚点酬劳费)精神,我就使用了自己的信用卡给对方开了,后面发现,竟然发现无法删除信用卡,这不有点尴尬了,特写此…

chatgpt赋能python:Python如何校验18位身份证号

Python如何校验18位身份证号 在中国,身份证号是每个人的唯一标识符,18位身份证号也是现行标准。但是,假如你的应用程序涉及到用户身份认证,你在处理身份证号码时必须非常小心。使用Python可以很容易地进行身份证号校验&#xff0…

这个学期,110多所高校把AI和大模型带进校园

2023 年春季学期,飞桨校园 AI Day 已登陆全国 114 所高校,为同学们提供了丰富的 AI 学习交流机会。 截至目前,超过 400 所高校的同学线上参与 AI 知识竞赛 PK ,累计 2 万余名同学参与春季 AI Day 活动,更有 65 所高校举…

Fox AI横空出世,集成了GPT 3.5,GPT4.0, Midjourney等多种先进的AI模型!

友情提示:文章虽长但句句是精华,跳着看别怪FoxGPT没帮你挣着钱!别看说的就是你。 Fox AI:https://foxgpt.club/ 在人工智能领域,Fox AI以其独特的集合式应用模式,引领着技术的新潮流。这款由广东松狐科技有限公司精心打造的产品…

飞桨AI Day落地澳门高校!助力大湾区打造产教融合新范式

为了推动大湾区建设产教融合的人工智能技术生态,加快培养助力社会经济高质量发展的复合型 AI 人才,飞桨校园 AI Day 登陆澳门,开展《AI 技术发展趋势与人才培养》主题讲座 ,邀请多位澳门科技大学及百度嘉宾,解读当下AI…

简谈我对人工智能的理解与它的应用发展现状

谈起人工智能(Artificial Intelligence),英文缩写 AI,人们理解模糊、众说纷纭、喜忧参半,乐观者认为它极大地推动了产业界的进展,是目前乃至未来引领科技前沿的硬核方向之一,悲观者认为即使在某…

这一波AI浪潮如何重塑互联网产业

人工智能将如何改变互联网以及对企业与消费者关系未来的威胁 微信搜索关注《Java学研大本营》,加入读者群,分享更多精彩 我一遍又一遍地听到或读到诸如“人工智能将绝对改变游戏规则”或“人工智能将改变一切!”之类的话。这些既是轻描淡写又…

Laf v1.0 发布:函数计算只有两种,30s 放弃的和 30s 上线的

一般情况下,开发一个系统都需要前端和后端,仅靠一个人几乎无法胜任,需要考虑的特性和功能非常多,比如: 需要一个数据库来存放数据;需要一个文件存储来存放各种文件,比如图片文件;后…

chatGPT对企业的发展有什么影响

ChatGPT目前正在全世界范围内掀起风暴,成为炙手可热的一个名词。作为基于人工智能的工具的最新产品,目前ChatGPT呈现给我们的似乎只是足够有趣,且从目前已知的信息来看,它似乎还没有任何商业运作相关的计划,大多应用聚…

ChatGPT成功背后的技术原因及其对生命科学领域的启发

来源:机器之心 本文约7000字,建议阅读10分钟本文介绍了ChatGPT成功背后的技术原因及思考。 ChatGPT 是 OpenAI 开发的一个基于文本生成技术的对话机器人,以其惊艳的效果迅速出圈,在这个低迷的 2023 年初,凭着一己之力重…

完美免翻使用官方Chat GPT

承接上篇博客(青龙面板安装教程,小白也可以) 前提:拥有服务器,安装部署宝塔,安装Docker容器(详情可见上篇),全程需要魔法自行解决,需要有自己的官方Chat GPT…

案例拆解丨ChatGPT+塔罗牌,批量起号、暴利引流,小白也能轻松月入10000+

ChatGPT 的出现,大大拉低了很多行业的门槛,比如客服、教育、翻译、自媒体……而塔罗牌占卜,肯定也是其中之一。 塔罗牌是一种占卜工具,由78张牌组成。可以用于占卜、灵性探索、个人成长和自我发现。 这是一个相对小众&#xff0c…