【论文阅读】Segment Anything(SAM)——可分割一切的CV大模型

【前言】随着ChatGPT席卷自然语言处理,Facebook凭借着Segment Anything在CV圈也算扳回一城。迄今为止,github的star已经超过3万,火的可谓一塌糊涂。作为AI菜鸟,可不得自己爬到巨人肩膀上瞅一瞅~

论文地址:https://arxiv.org/abs/2304.02643

代码地址:GitHub - facebookresearch/segment-anything: The repository provides code for running inference with the SegmentAnything Model (SAM), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.

demo地址:

Segment Anything | Meta AI

1. 引言

作者首先阐述了此项研究的目的,那就是开发一个可提示的(promptable)模型,在大型数据集上通过特定的任务对其进行预训练,使之具有很强的泛化性,即能够通过提示(prompt)解决新数据集上的一系列下游分割任务。

实现此目的需要解决的问题包括:

  • 什么样的任务可以具有zero-shot的泛化性?
  • 对应的网络结构是怎样的?
  • 什么样的数据集能够驱动此类任务和模型?

通过分析上述问题,作者提出了一套解决思路:首先需要定义一个可提示的分割任务(a promptable segmentation task),该任务可提供强大的预训练基础以支持一系列的下游应用。其次,开发一个支持灵活提示(flexible prompting)并能够实时输出分割掩膜的模型。最后需要一个具有丰富多样性的大规模数据集用于模型训练。

总言之,集齐任务(Task)、模型(Model)、数据(Data)三剑客,就可以召唤zero-shot的应用了。如下图所示。

  • 任务Task:建立一个可提示的分割任务,使得对于点、框选、mask、文本等任意形式的分割提示,都可返回一个有效的分割掩膜。即使输入的提示比较模棱两可,模型都能输出较合理的分割结果(比如一个点可能指向衣服,也可能指向人,输出的掩膜必须是这些潜在目标中的某一个,而不是随意生成的)。
  • 模型Model:模型需要支持灵活的提示并能实时计算交互生成的掩膜,因此作者设计了一个图像编码器和一个提示编码器,然后通过一个轻量化的掩膜解码器进行结合并预测输出分割掩膜。
  • 数据Data:强泛化性的模型需要丰富多样性的大规模数据集,为此作者建立一个数据引擎,通过人工(全人工)、半自动(人工校验)、全自动三个阶段生成数据,构建了数据集SA-1B,包括超过1.1千万的影像和10亿掩膜,是现有数据集规模的400多倍。

下面分别具体介绍这三部分的内容。

2. Segment Anything Task

在NLP的翻译任务中,提示prompt为下一个文本(token),由此可以设计分割任务的提示,即前景/背景的点、边界框、掩膜或文本等任何可以表明分割目标的信息。对于给定任意提示,模型都可以返回一个有效的分割掩膜(“有效”可以简单理解为当一个提示是模棱两可的时候都能得到合理的掩膜输出)。

针对同一提示可能存在的多种合理输出(一列为一组)

【预训练】该分割任务需要结合一系列提示(点、边界框、掩膜或文本等)进行模型预训练,并将模型输出结果与真实结果进行对比。与交互式分割不同,本任务针对任意的提示都可预测一个有效的掩膜,因此需要选择特定的模型和训练损失函数。

【Zero-shot transfer】因为该预训练模型在推理时可对任何提示作出响应,因此可结合相应的提示完成下游任务。

【相关任务】分割是一个广泛的领域,包括交互式分割、语义分割、实例分割、目标检测、前景分割等。这个可提示的分割任务的目标是建立一个适用于大多数分割任务的通用模型,能够作为一个组件在新的、不同的任务上进行推理。

3. Segment Anything Model

该模型基于Transformer结构,由图像编码器(Image Encoder)、提示编码器(Prompt Encoder)和掩膜解码器(Mask Decoder)组成。

【Image Encoder】对MAE(Masked Auto-Encoder)预训练的ViT模型进行了少量处理,以支持高分辨率的影像数据输入。

【Prompt Encoder】考虑了两种不同的提示:通过位置编码表示点和框等稀疏的提示,并用CLIP表示自由格式的文本,之后对不同的提示进行求和;密集的提示(masks)采用卷积进行编码并使用image embedding进行逐元素累加。

【Mask Decoder】将image embedding、 prompt embeddings以及输出的token映射为mask掩膜。由一个transformer解码块后接一个动态掩膜预测头组成。(主要是通过自注意力机制和交叉注意力机制,建立图像与提示之间在嵌入embedding和token空间中的非线性映射关系,然后再上采样解码成图像。)

轻量级Mask Encoder 的网络结构

 

【模糊输出的解决办法】针对单个提示,模型可存在多个输出(3种输出足够解决大多数问题)。在训练时,只对最小loss的掩膜进行后向传播。最后可通过置信度对输出的每个mask进行排序。

【效率】在CPU的浏览器上可达50ms,支持无缝实时交互。

【训练】模型损失函数为 focal loss 和 dice loss的线性组合,以避免类别不平衡或数据噪声的影响。

4. Segment Anything Data Engine

【模型辅助的人工阶段】通过基于SAM的交互式标注工具进行标注并优化,标注时没有给掩膜赋予标签信息。在这个阶段,SAM首先通过常见公开的分割数据集进行训练,提供非精确的掩膜信息(此处SAM的作用类似于EISeg交互式标注工具),并对掩膜进行优化,然后仅采用优化后新生成的标注数据进行再次训练。六次迭代训练后,共生成了12万张图像的430万掩膜。

【半自动阶段】首先自动检测显著的目标,然后人工校正未被标注的目标,达到增加样本多样性的目的。迭代训练后共生成了18万张图像的590万掩膜。

【全自动阶段】自动化的基础是: ①大规模、多样性的掩膜样本数据提升了模型的性能;②开发了一个模糊感知模型,即使存在多种可能的结果,也能有合理的输出。

具体地,通过生成32x32的格网,并在每个格网点预测一系列对应的有效目标掩膜而实现。输出结果采用(IOU=0.5)+NMS进行生成,共计11亿的高质量掩膜。

5. Segment Anything Dataset

通过三个阶段生成了数据集SA-1B,该数据集包括:

  • 影像:1.1千万张,通过下采样保证最短边长为1500。
  • 掩膜:11亿,99.1%为全自动生成(SA-1B只包含全自动生成的数据)。
  • 掩膜质量:随机采样500张图,并采用交互式工具修正,然后通过IOU进行结果比对,95%影像对的IOU精度高于90%。

后面作者也采用了一系列方式来验证SA-1B的质量和可靠性,以及该模型在不同任务中的应用效果,可参见文章第5-7章。一句话言之就是构建了一个非常大规模、高质量的分割数据集和一个具有强泛化性的支持可提示任务的模型

6. Discussion

  • 该模型可作为计算机视觉的基准模型(foundation model)并用于下游任务。
  • 通过创建SAM与其他组件的接口,使得SAM具有较强的可集成性。
  • SAM具有泛化性和通用性,并能够实时处理提示信息。

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28326.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

文心一言App在苹果AppStore上架;首款搭载ChatGPT的自行车问世;QQ Windows全新上架|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

马斯克每周“硬核”工作 120 小时,网友:“只要醒着都在工作?”

整理 | 朱珂欣 出品 | CSDN(ID:CSDNnews) 众所周知,自从埃隆马斯克(Elon Musk)去年收购 Twitter 起,可谓是坐拥“热搜体质”:接管 Twitter 一周后的“灭霸式”裁员、与工程师在 T…

华为盘古3.0大模型的访问入口在哪里?

体验入口:盘古NLP大模型_LLM_大语言模型_华为云 (huaweicloud.com) 网盘链接:https://pan.baidu.com/s/1TsZ78aMcbYXEY9IMXW7QDQ?pwdpn1t 提取码:pn1t 终于,华为的大模型动向来了! 盘古大模型3.0,今…

ChatGPT实战:如何规划自己的职业生涯?

ChatGPT的出现,不仅改变了人们对人工智能技术的认识,也对经济社会发展产生了深远的影响。那么,在ChatGPT时代,人们应该如何规划自己的职业呢? 职业规划是一个有意义且重要的过程,它可以帮助你在职业生涯中…

基于ChatGPT和私有知识库搭建Quivr项目

准备工作 安装docker和docker-compose申请supabase账号 拉取Quivr代码 git clone https://github.com/StanGirard/Quivr.git 复制.XXXXX_env文件 cp .backend_env.example backend/.env cp .frontend_env.example frontend/.env 更新backend/.env和frontend/.env文件 ba…

图像标注工具CVAT

图像标注工具CVAT 简介创建账户教程 简介 CVAT支持多用户在线协同。 OpenCV团队正在使用该工具来标注不同属性的数百万个对象,特有的功能: (1)关键帧之间的边界框插值 (2)自动标注(使用TensorFlow OD API 和 Intel OpenVINO IR格式的深度学习模型&#…

无需人工标注,自生成指令框架打破ChatGPT等LLM的成本瓶颈

来源:机器之心 当前,大型语言模型的性能已经达到了很高的水平,除了进一步挖掘其潜力,我们还应该关注到模型背后的人工标注成本。 ChatGPT 是今年年底 AI 圈的新晋顶流,人们惊叹于它强大的问答语言能力和掌握的编程知识…

NLP之情感分析:基于python实现中文文本情感分析

NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分) 输出结果 1、测试对象 data1 今天上海的天气真好!我的心情非常高兴!如果去旅游的话我会非常兴奋!和你一起去旅游我会更加幸福! data2 …

详细介绍NLP对话系统

任务型对话系统 任务型对话系统主要应用于固定领域。任务型对话的广泛应用的方法有两种,一种是模块法,另一种是端到端的方法。 模块法是将对话响应视为模块,每个模块负责特定的任务,并将处理结果传送给下一个模块。 端到端的任务…

python实现中文情感分析与可视化

目录 一、导入原始数据 二、结巴分词/绘制词云图 三、计算情感值,情感分析 # 方法一、SnowNLP计算情感得分 # 方法二、使用字典计算情感得分 四、# 数据可视化展示 五、绘制相关系数热力图 一、导入原始数据 #导入模块 import pandas as pd import numpy as np …

《PlumGPT:让你的聊天更智能,更有趣》

《PlumGPT:让你的聊天更智能,更有趣!》 文章目录 《PlumGPT:让你的聊天更智能,更有趣!》前言一、入口地址二、开始注册三、开始验证四、进入首页五、功能点介绍1.Light mode2.Help3.My account4.Log out 六…

【句子互动转载】1. 对话系统趋势分析

作者:李佳芮_chatbot 链接:https://www.jianshu.com/p/89d621c9cffe 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 本章我会带领大家了解对话系统的趋势,以及为什么我们要搭建一个…

【四】情感对话 Improving Multi-turn Emotional Support Dialogue Generation with Lookahead Strategy Planning

【四】情感支撑对话论文最近进展 Emotion Support Conversation 今天给大家分享一篇在EMNLP 2022的关于情感对话的论文。主要思想是从策略安排的角度来有效地提供情感支撑,并且通过理解用户的状态达到更好的生成效果。 相关情感支撑论文综述整理指路 -> 点这里…

【一】情感对话 Towards Emotional Support Dialog Systems 论文阅读

【一】情感支撑对话论文最近进展 Emotion Support Conversation 今天给大家介绍一下Towards Emotional Support Dialog Systems这篇由黄老师团队发表在2021 ACL的数据集。 相关论文综述整理指路 -> 点这里 主要分成以下几个部分进行介绍: 研究背景实例介绍ES…

ChatGPT接口返回代码高亮显示的实现逻辑

官方API:POST https://api.openai.com/v1/chat/completions 我们在使用openai提供的接口时,返回的数据如果包含代码,会发现代码是没有样式的,它们一般是用包含的一段文本。 如图: 怎么样才能做到和官方一样的美观呢&…

还在crud?快来学习架构设计啦---微服务下的依赖管理(maven篇)

文章目录 一、前言二、实战2.1 创建父工程统一依赖的版本管理2.2 创建公共使用的 common工程2.3 创建子工程并引入父工程的依赖以及公共工程2.4 搭建启动环境2.5 启动程序开始验证 三、总结 一、前言 2023年口罩放开的第一年,大多数人都是想着重新开始,…

ChatGPT 4.0 —— Code Interpreter

📎产品销售数据集.csv 选取以上的数据集作为输入,对Code Interpreter 进行测试 1.输入指定数据集,要求给出该数据集的概貌 2.请分析销售的总金额和其他变量的关系 Python Script: # Import required libraries import matplotlib.pyplot a…

500行JavaScript代码在前端根据数据生成CAD工程剖面图

前言 ​ 用数据生成CAD图,一般采用的ObjectArx对CAD二次开发完成。ObjectARX是AutoDesk公司针对AutoCAD平台上的二次开发而推出的一个开发软件包,它提供了以C为基础的面向对象的开发环境及应用程序接口,能访问和创建AutoCAD图形数据库。而由…

SolidWorks+thonny esp32 电磁控制,程序算法搞起来了,我的结构-仿真-电磁-控制-算法的学习之路

来个自我介绍,本科是微电子制造专业,隶属于机电工程学院,所以机械,电子,控制,流体,材料,结构这些基础都有,而且水平不低。工作了13年,主要干机械,…

有趣的技术探索分享小合集

Chatgpt 现世仅两个月,已经达到了 1 亿月活跃用户,不但影响了世界范围内的知识工作者,还在各行各业掀起了科技创新的热潮。在信息大爆炸、新科技不断涌出的现阶段,拥有面向未来的科技趋势的重要的洞察力,并由此改变所处…