​汇集198篇论文,首篇关于Segment Anything Model的综述来了!

4596c26b49f2d168b729f805cbeb2656.gif

©PaperWeekly 原创 · 作者 | 小马

单位 | FightingCV公众号运营者

研究方向 | 计算机视觉

写在前面

四月份,AI Research 提出的基础分割模型 Segment Anything Model(SAM)火爆了整个网络,各种基于 SAM 的二创项目也如雨后春笋搬出现,仅仅用了一个月的时间,SAM 就达到了 70+ 的引用量极大地推动了计算机视觉基础模型的发展。

正当很多人还没弄清楚 SAM 到底做了什么的时候,港科大提出了第一篇关于 SAM 的综述。作为第一个全面回顾基于 SAM 基础模型的面向愿景和超越愿景的任务分割的进展,这篇文章通过讨论其历史发展、最新进展以及对广泛应用的深远影响,重点讨论了其在各种任务和数据类型中的应用。接下来,我们就用一篇文章来介绍 SAM 的“上下五千年”吧!

13281f3faaecfdd24374c0ddc722aa21.png

SAM的简介

基础模型在过去几年中彻底改变了人工智能(AI),这要归功于它们对网络规模数据集的全面预训练以及对广泛的下游任务的强大的零样本泛化。最近,自然语言处理(NLP)社区经历了向开发大型语言模型(LLM)的重大转变,导致了一系列开创性的工作,例如 BERT、T5、GPT-3 和 GPT-4。这些模型最令人惊叹的应用之一是 ChatGPT,这是一个由 OpenAI 开发的 AI 聊天机器人,它利用一个名为 GPT-3.5 的大型语言模型来生成对用户输入的类似人类的响应。

由于基础模型在 NLP 中的巨大成功,研究者受到启发,开始探索计算机视觉(CV)社区中的大型视觉模型。其中一项研究是扩展 vision transformer(如 VIT-G、VIT-22B、Swin Transformer V2 和 VideoMAE V2),追求 LLM 中展示的强大泛化能力。

此外,大量的工作致力于添加附加模态的知识,以增强大型视觉模型(LVM)的能力。一些值得注意的工作包括 CLIP 和 ALIGN,它们采用文本编码器和图像编码器来使用对比学习从海量噪声图像文本数据中学习图像和文本对的视觉和语言表示。在预训练之后,所学习的语义知识可用于关于新数据分布的新视觉概念,使得该模型在诸如图像-文本检索和图像生成的各种下游任务中具有零样本迁移能力。

尽管这一进展为 CV 的发展带来了新的动力,但所获得的深层模型的泛化能力仍然有限。最近,CV 社区见证了探索与任务无关的基础模型的热潮。任务不可知的基础模型的这一新的研究趋势是最近由一个被称为 segment anything model (SAM) 的模型引发的,该模型是为一般图像分割而设计的。SAM 是一个可提示的模型,使用可提示的分割任务对 1100 万张图像进行了超过 10 亿个掩码的训练,从而实现了强大的零样本泛化。

最近,社会各界提出了大量扩展工作,以探索 SAM 的能力边界并将其应用于各种任务,例如,医学图像分析、图像修复、图像编辑、样式传递、基础设施检测、伪装对象检测、镜像和透明对象检测、图像字幕、视听定位、视频对象跟踪、3D 重建、少样本对象计数以及对抗性攻击。

作为 SAM 的同期工作,SegGPT 将不同的分割任务统一到一个情境学习框架中,该框架表现出很强的零样本能力。SEEM 也提出了一种比 SAM 更通用的分割系统,它引入了比 SAM 更多样化的提示,包括视觉提示(点、框、涂鸦、掩码)、文本提示和引用提示(另一幅图像的引用区域)。作者认为,在 SEEM 中引入的统一提示方案可以将不同的提示编码到联合视觉-语义空间中,从而产生强大的零样本泛化能力,以解决不可见的用户提示进行分割。

此外,一些开创性的工作探索了用于检测/分割开放词汇场景中的任何内容的通用人工智能方法,例如 Grouding Dino、OVSeg、V3Det 和 OpenSeg。这些进展使许多研究人员相信,多功能基础模型是迈向人工通用智能(AGI)的关键一步。

ef0a9fb13dd4a5f6e0fa3337e6a5247e.png

背景和技术

2.1 图像分割

2.1.1 经典分割

图像分割是一项基本的计算机视觉任务,它通过将每个像素分配到一个类或对象来将数字图像分成多个部分。传统上,分割包括三个主要任务:语义、实例和全景。语义分割将每个像素分配给预定义的语义类别标签。实例分割进一步分离同一类的实例。全景分割将语义分割和实例分割相结合,以更全面地理解场景。研究人员在过去的研究中对上述任务进行了充分的探索。

由于上述任务在像素级的操作一致性,许多研究试图使用一个统一的框架来同时提供三种分割方法的解决方案,如 K-Net、MaskFormer 和 Mask2Former。

2.1.2 交互式分割

交互分割是一种特殊的分割任务,其特征是利用来自用户交互的指导的信息。尽管这是一个长期存在的挑战,但这个问题已经有了相当大的改善。通常,用户提供一些初始输入,例如点、笔划或边界框,以指示对象的大致位置和形状。然后,该算法根据用户的反馈迭代地细化分割,例如纠正错误标记的区域或添加缺失的部分。交互式分割对于许多需要精确提取对象的应用非常有用,例如医学图像分析、照片编辑和数据标注。

2.2 基础模型

基础模型是构建能够适应各种下游任务的人工智能系统的新范式。它们的基础是在海量数据上训练大型神经网络,通常使用自监督学习技术。这使他们能够学习可以迁移到不同域和应用程序的一般表示和功能。

基础模型的发展可以追溯到深度学习和自监督学习在自然语言处理领域的兴起,这使得从原始文本数据中学习强大的表示成为可能。早期的基础模型的例子是预先训练的 LLM,例如 BERT、T5 和 GPT 系列,它们在广泛的 NLP 任务中展示了令人印象深刻的能力和表现。

在 CV 研究中,现有的基础模型试图利用在大规模数据上训练的 LLM,并在从不同的大规模图文数据中学习通用视觉表征方面表现出出色的性能。代表工作包括 CLIP、Align、Florence、VLBERT、X-LXMERT 和 Dall-E,试图捕捉视觉和语言之间的跨模态交互。它们可以被迁移或直接作用于分类、检索、目标检测、视频理解、视觉问答、图像字幕和图像生成任务。

计算机视觉和多模态学习的基础模型仍然是一个活跃的研究领域,在改进其性能、稳健性、可解释性和社会影响方面存在许多挑战和机会。

2.3 Segment Anything Model

04136558637729e0d0e12b27400d5506.png

SAM 来自 Meta 在 2023 年的 Segment Anything(SA)项目。通过发现在 NLP 和 CV 领域出现的基础模型表现出很强的性能,研究人员试图建立一个类似的模型,可以统一整个图像分割任务。

然而,分割领域中的可用数据不足,并且与其设计目的不同。因此,如图1所示,他们将路径分为三个步骤,即任务、模型和数据。相应地,提出了一种分割任务方案,包括提示的分割任务(提示包括提供分割目标的位置、范围、掩码或文本描述)、能够接受多个提示输入并实现交互使用的 SAM 以及使用超过 10 亿掩码构成的的数据集 SA-1B

2.3.1 Task

SA 项目的最终目标是提供一个具有广泛功能的模型,该模型可以快速适应许多现有的和新的分割任务(例如执行边缘检测、对象 proposal 生成、实例分割和从自由格式文本中分割对象),并且可以将零样本迁移到新的数据分布和任务。因为许多复杂的功能可以通过现有工具的简单组合来实现。

例如,如果存在用于人类的 bounding box 检测器,则可以通过将检测器的 bounding box 输出作为提示提供给模型来解决人体实例分割问题。为了实现这一目标,研究人员从 LLMS 中获得了灵感,使用 prompt 工程来涵盖预训练和下游任务。也就是,引入交互分割的概念,形成可提示的任务,实现模型的训练。

可提示任务的一个独特特征是在给出任何分割提示时返回有效的分割掩码。提示符可以是任何指示要分割的内容。有效的分割掩码是指,即使输入的提示会导致歧义(如人穿 T 恤的图像,提示点在 T 恤上),它也应该是至少一个对象的合理掩码(返回人类的掩码或 T 恤的掩码都是合理的)。

2.3.2 Model

d3b9cf9a181dceffcb96dd4655873270.png

SAM 的结构如图 2 所示。它主要由三部分组成,一个强大的图像编码器(MAE 预训练的 ViT),一个提示编码器,分为稀疏输入(使用 CLIP 的文本编码器作为位置编码器处理点、框和文本形式提示)和密集输入(卷积处理掩码输入);和掩码解码器(使用自注意力和交叉注意力的提示图像双向 Transformer 解码器)。此外,当输入提示不明确时,网络将基于置信度对三种可能的掩码输出进行排序。训练中使用的损失函数包括 Focal Loss 和 Dice Loss。

2.3.3 Data

由于没有足够的公共数据用于训练,研究人员使用训练-标注迭代过程来形成数据引擎,以同时实现模型训练和数据集构建。具体过程可分为三个阶段。

1)辅助手法阶段。专业标注员使用浏览器上的交互式标记工具,并结合 SAM 进行手动标注。SAM 首先使用公共数据集进行训练。随着数据量的逐渐增加,SAM 图像编码器的尺寸也随之增大。在这一阶段结束时,收集了 430 万个掩码和 12 万张图像。

2)半自动阶段。为了增加掩码的多样性并改善模型的性能,研究人员首先预先填充了掩码,模型可以用它进行高置信度预测。然后,他们要求标注者以交互方式对未填充的部分进行标注。在此阶段结束时,一张图像平均可以提供 72 个掩码。

3)全自动阶段。在这一阶段,由于收集了足够的掩码并引入了模糊感知模型,可以进行 SAM 的最终训练和 SA-1B 数据集的获取。歧义感知模型使 SAM 即使在提示不明确的情况下也能预测有效的掩码。具体地说,研究人员使用 32x32 网格来均匀地获取每张图像上的提示点。如果提示点位于目标物体上,则模型将返回子物体的掩码。过滤器根据置信度对输出进行排序。在这一阶段结束时,最终的 SA-1B 数据集包含 1100 万张图像和 1.1B 个掩码。

实验表明,SAM 模型具有良好的任务设计、模型结构和海量高质量训练数据的优势,在单线索分割、边缘检测、实例分割、交互分割和多模态分割(文本到掩码)任务中取得了良好的效果。它甚至在某些方面超过了有监督的模型。

2.4 同期工作

在 SAM 研究的同时,人们也在用其他通用的方法来解决分割任务。OneFormer 利用任务条件联合训练策略、任务表征和查询文本对比损失来形成一个通用的图像分割框架。Oneformer 支持在单个通用模型和多任务训练过程中对所有三个传统分割任务进行训练。

同时,SegGPT 是一个通用的上下文学习框架,统一了不同的分割数据格式。并将训练过程视为上下文中的随机着色问题,而不是使用预定义的颜色空间。这个训练过程要求模型关注上下文信息来完成特定的任务。基于这些改进,该模型可以通过上下文推理来执行基于输入图像或视频的任意分割任务。

SEEM 进一步拓宽了单一分割模型的任务适用范围。它进一步扩展了支持的提示类型,包括点、框、涂鸦、掩码、文本和另一个图像的引用区域。利用所提出的联合视觉语义空间,该模型具有组成灵活多提示输入的兼容性。在没有提示符的情况下,SEEM 也可以作为经典的分割模型进行处理。然而,它也受到训练数据有限和缺乏基于部分的分割支持的困扰。

2757cfab07ee7faba3ec6f4fab623d21.png

用于图像处理的SAM

3.1 软件场景

3.1.1 图像编辑

现代软件场景需要对图像进行编辑和绘制操作,如移除对象、填充对象、替换对象等。然而,现有的 inpainting 作品需要对每个掩码进行精细的注释才能达到良好的性能,这是一种劳动密集型的工作。SAM 可以用简单的提示生成精确的掩码,如点或框,可以帮助协助图像编辑场景。

713cbcdcc1fb0dc1327dc28e1179e3b4.png

Inpaint Anything(IA)通过结合 SAM、最先进的(SOTA)图像绘制器和 ai 生成内容(AIGC)模型的优势,设计了一个 pipeline 来解决与绘画相关的问题,如上图所示。对于对象移除,pipeline 由 SAM 和 SOTA 的 inpainter 组成,如 LaMa。来自用户的单击操作在 SAM 中用作提示符,以生成对象区域的掩码,而LaMa 将用腐蚀和膨胀操作填充该掩码。对于物体的填充和替换,第二步使用  AIGC 模型,如 Stable Diffusion(SD),通过文本提示将选中的物体填充为新生成的物体。

cf3be789bee3f9a0c036f554fdb4a7d2.png

Edit Everything 采用了类似的 pipeline。具体来说,当输入一张图像,SAM 首先在没有提示的情况下将其分成几个片段。然后输入一个源提示,基于 CLIP 对接收到的分割图进行排序。只选择得分最高的分割图作为目标图,用带有目标 prompt 的 SD 新生成的对象替换。与人工智能中的对象替换方案相比,作者在中文场景中训练了 4 亿个参数的 CLIP 和 10 亿个参数的 SD,使其对中文文本提示更加可靠。

3.1.2 样式迁移

5beb294d27a515dd08534c428ca4072f.png

样式迁移的目的是将样式从一个给定的图像(样式图像)转移到另一个给定的图像(内容图像)。通常,迁移的样式由样式图像的整体样式或样式图像的局部颜色和纹理来表示,并且对于内容图像将仅生成一个结果,这缺乏用户与其交互的灵活性。利用 SAM 的可提示区域选择功能,Any-to-Any 样式迁移使用户能够指定在样式迁移期间选择哪个样式区域和应用哪个内容区域。如图 5 所示,pipeline 如下:

1)使用预训练好的 VGG-19 对样式和内容图像进行编码,并计算内容样式注意图。

2)获取带有 SAM 和输入提示的样式和内容掩码。

3)将注意图与上一步的掩码控制信号进行融合。

4)用更新后的关注图计算风格化特征,并得出最终结果。

3.2 真实世界场景

3.2.1 检测

SAM 拥有在许多真实场景中辅助应用的能力,例如真实世界的目标检测、目标计数和运动目标检测场景。最近,一些工作评估了 SAM 在各种现实世界细分场景中的性能,例如自然图像、农业、制造业、遥感和医疗保健场景。研究发现,该算法在自然图像等常见场景下具有很好的泛化能力,但在低对比度场景下效果较差,在复杂场景下需要较强的先验知识。

a83707182926f1d40fd5bc81d876b5ee.png

在民用基础设施缺陷评估的应用中,可以利用 SAM 来检测混凝土结构中的裂缝。裂纹检测过程如图6所示。结果表明,SAM 在检测纵向裂纹方面优于 UNT,后者更有可能找到与正常场景中相似的训练图像,而在不寻常的场景,即剥落裂纹,SAM 不如 U-Net。

与裂纹检测中复杂的图像情况不同,由于凹坑形状集中在圆形或椭圆形上,因此凹坑检测更适合使用 SAM 作为检测工具。陨石坑是行星探测中最重要的形态特征之一,探测和计数陨石坑是行星科学中一项重要但耗时的任务。虽然现有的机器学习和计算机视觉工作成功地解决了陨石坑检测中的一些具体问题,但它们依赖于特定类型的数据,因此无法在不同的数据源下很好地工作。

3.2.2 计数

少样本物体计数是计算机视觉在现实世界中的一个重要应用场景,它只需要给出几个例子的 bounding box 就可以对一个没见过类别的物体进行计数。由于 SAM 对不可见物体具有很强的泛化能力,表现出令人印象深刻的性能,因此它在少样本计数中显示出潜在的应用前景。

为了实现这一点,研究人员定义了一条少样本计数的 pipeline。首先,利用 VIT-H 图像编码器计算密集图像特征。其次,利用 bounding box 作为提示,生成参考样本的分段掩码,然后将密集的图像特征作为参考对象的特征向量进行计算。第三,使用点网格作为提示来分割所有东西,并为所有掩码生成特征向量。然后计算预测模板和参考样本之间的特征向量的余弦相似度,只有大于预定义阈值的模板才被认为是目标对象。

在 FSC-147 和 MS-COCO 两个数据集上,基于 SAM 的方法落后于 SOTA 基线,特别是对于小而拥挤的目标。因此,在一些特殊场景下的 SAM 仍然需要进一步的改进。

3.2.3 移动对象

运动对象分割(MOS)是计算机视觉在自动驾驶等实际应用场景中的重要应用。该研究现有的数据集主要是 RGB 或 LIDAR 视频,缺乏能够帮助更好地理解动态场景的事件信息。

为了填补这一空白,研究人员提出了带有运动车辆帧和相应事件数据的 DSECMOS,这有助于开发更准确、更健壮和更高效的自动驾驶算法。SAM 对 DSEC-MOS 标注的贡献在于它提供了一种可提示的分割方式。作者应用 DSEC-MOD 中的运动目标边界框作为提示,使用 SAM 生成了大量的预备掩码,准确可靠。该数据集包含总共 13,314 帧的 16 个序列,并提供具有像素级标注的基于事件的数据,这可能是 MOS 领域的宝贵资源。

3.3 复杂场景

3.3.1 低对比度场景

除了上面提到的正常场景,SAM 能否解决低对比度场景等复杂场景的分割问题,也是扩大其应用范围的一个有意义的问题。为了了解 SAM 在更复杂的场景中的泛化能力,一些研究人员将其与三个隐藏场景中的前沿模型进行了定量比较,即伪装动物、工业缺陷和医疗损害。

他们在三个伪装对象分割(COS)数据集上进行了实验,并与优秀的基于 Transformer 的模型进行了比较。结果发现,SAM 在隐蔽场景中看起来并不好,并指出潜在的解决方案可能依赖于特定领域的先验知识的支持。

与伪装的动物和其他动物相比,玻璃场景在隐蔽的场景中更具挑战性。机器学习算法在现实世界中的应用与安全问题密切相关。例如,在没有可靠、透明的物体检测算法的情况下,自主移动机器人可能很容易撞上透明的前门。在这种场景中,被检测的目标往往是镜面或透明的,这很容易使传统的检测算法失效。

由于 SAM 对没见过的物体具有很强的零样本分割能力,一些研究人员在镜面物体和透明物体场景上对其进行了评估,并从语义分割、阴影检测、显著物体检测和玻璃分割四个方面与 SOTA 方法进行了比较。

实验结果表明,SAM 能够成功地识别透明物体后面的物体,但不能识别玻璃物体本身。SAM 的整体性能明显低于专门使用透明对象训练的方法,这证明 SAM 还没有准备好部署在包含玻璃的安全关键情况下。

3.3.2 热红外图像

4b9c8b3c7889880f5fedb3afb4863a7e.png

热红外图像场景是另一种复杂的场景,图像往往是暗的,很难标注。因此,大量的未标注数据被浪费,该领域的模型无法以可靠的方式学习高精度。为了解决这个问题,研究人员使用 SAM 生成伪标签,并建立了一个大规模的热红外分割数据集 SATIR 用于模型预训练,该数据集包含了超过 10 万张带有像素注释标签的图像。

为了最终提高模型在这一领域的性能,作者提出了一个三步框架,如图 7 所示。他们用 SAM 构造上述数据集,然后用它预训练模型。然后,他们对目标任务的预训练模型进行微调。在公共热红外语义分割数据 SODA 上的实验验证了该方法的有效性,其中由 SATIR 数据集预训练的主干模型的性能优于其他模型,提升约 1.3%mIoU。

3.3.3 高空图像

高空成像问题与一组被广泛研究的任务有关,其中对象通常是小而密集的,例如遥感图像。一些研究人员试了 SAM 令人印象深刻的泛化能力是否能够覆盖该领域的场景。结果表明,SAM 通常适用于高空图像。未标记的遥感数据集问题也可以用 SAM 解决。由于遥感图像中地物的小而密集的特点,人类专家很难对其进行标记,而且成本效益较低。因此,研究者开发了一种使用 SAM 的高效 pipeline 来生成大规模遥感分割数据集 SAMRS。

此外,一些研究人员结合不同的 Grounding 模型的优势,如 SAM 和 Grounding Dino,实现了遥感图像的文本提示引导分割,并证明了其在该领域的有效性。

9d81a2e6cb41c5a9f2fa1d505ee687ee.png

其他应用

4.1 与视觉相关的应用

4.1.1 医学影像

9060c7a9f52ef82f4041b5aa3b7dfaf5.png

医学图像分割的目的是揭示相应组织的解剖或病理结构,从而辅助计算机辅助诊断和智能临床手术。由于计算能力和医学数据资源的快速发展,基于深度学习的医学图像分割在精度和速度上都取得了巨大的进步。随着新兴的视觉 Transformer(VIT)的出现,基于 ViT 的医学图像分割方法在医学图像分割中取得了优异的性能。然而,这类网络是面向特定任务的,缺乏对其他任务的泛化能力。

最近,SAM 被提出,使得在一个统一的框架内解决多种分割任务成为可能。在此背景下,医学图像分割中使用 SAM 受到了研究者的关注,并总结出了一些有用的策略来提高其性能。根据医学图像的成像格式,SAM在医学图像分割中的应用可以分为六个系列:CT 图像、磁共振图像、结肠镜图像、H&E 染色组织切片图像、多格式图像等。这些方法的概述如图8所示。

4.1.2 视频

在计算机视觉领域,视频对象跟踪(VOT)和视频分割被认为是必不可少的关键任务。它涉及在视频帧中定位特定对象,然后在视频的其余部分跟踪该对象。因此,它有各种实际应用,如监控和机器人技术。

fad8764f74361c8b4eb55c2a004d2833.png

SAM 在 VOT 领域起到了重要的作用,Track Anything Model(TAM)在视频中实现了出色的交互式跟踪和分割,性能卓越。这篇研究报告建议使用一种名为 Track-Anything 的高效工具包来对视频中的对象进行高性能跟踪和分割。与现有的方法不同,它采用交互式方法进行初始化,并结合了 SAM 和 XMem,其 pipeline 如图 9 所示。该方法在复杂环境下表现出优异的性能和用户友好性,在许多领域具有潜在的应用前景。

4.1.3 数据标注

人工智能中的数据标注涉及为机器学习算法标记数据的过程,以帮助它们学习识别特定的模态、对象或特征。准确的数据标注对于开发能够成功执行目标检测、分类和自然语言处理等任务的有效机器学习模型至关重要。由于在某些领域中标注图像和视频的成本很高,许多数据集没有被有效地标注,特别是在像素级别。然而,SAM 的出现将促进此类数据集的有效标注。

SAMText 是用于对视频中的场景文本进行掩码标注的 pipeline。该 pipeline 利用 SAM 在大规模数据集 SAMText-9M 中生成掩码标注,该数据集包含 2400 多个视频片段和超过 900 万个掩码标注。作者认为,对场景文本进行更精细的标注可以显著提高检测和识别性能,即使是对弯曲文本也是如此。此外,本文还指出了几个潜在的研究方向,如检查掩码标注的效果,增强数据和模型的可扩展性,以及生成字符级别的掩码标注。

4.2 超越视觉的应用

4.2.1 三维重建

02564b571d87e48c842505a2a8b29539.png

除了实现细粒度的 3D 分割外,SA3D 还可以结合 SAM 用于 3D 重建。利用上一节得到的 3D 分割,可以确定 3D 对象的占用空间,并以各种方式重建它们。

如图 12 所示,SA3D 通过利用 nerf 将 SAM 的分割能力扩展到 3D 场景。SA3D 可以在单个渲染视图中使用一次性手动提示分割 3D 场景中的任何对象。SA3D 利用掩码反向渲染和交叉视图自提示技术,将 2D 掩码分别投影到 3D 掩码网格上,并为不同的视图生成新的提示。与以前的基于 NERF 的方法相比,SA3D 可以很容易地适应任何预先训练的 NERF,而不需要任何改变和重新训练。

4.2.2 图

c6018d6d4e94a1d7f73459d1744ca7aa.png

在图神经网络的上下文中,非欧域是指不规则的图,并且没有像网格或晶格那样的预定义结构。这些图可以代表广泛的数据,包括社交网络、引文网络、电子商务产品图表和分子图表。由于这些图的复杂性和异构性,开发一个通用图分析的基础模型已经成为一项具有挑战性的任务。

受 SAM 的成功启发,SNA 旨在开发一个灵活、适应性强、能够处理不同图形样本和任务的通用图形分析基础模型。如上图所示,SNA 引入了专门的可细化图卷积层。这一层允许基于输入特征尺寸动态激活或停用其通道。此外,这篇文章提出的方法采用了元学习策略,学习根据下游任务选择最优神经元,而不是依赖于人工选择。

4.2.3 视频文字定位

b1335f791d0da925274319e97556b107.png

视频文本定位是一项具有挑战性的任务,它涉及定位和识别视频帧或序列中的文本实例。视频文本定位的传统方法依赖于边界框的检测以及随后对这些框中的文本实例的识别。然而,这些方法在精确定位文本实例的能力方面受到限制,尤其是那些形状或方向不规则的文本实例。由于 SAM 方法利用深度神经网络为文本实例生成像素级分割掩码,从而产生更准确和更细粒度的标注。

因此,如上图所示,SAMText 提供了用于为视频文本检测任务生成掩码标注的高效解决方案。虽然 SAMText 是一种用于为视频文本检测任务生成掩码标注的新方法,但它建立在 SAM 模型奠定的基础上。具体地说,SAM 模型为图像中的对象生成高质量像素级掩码的能力已经适应了为视频帧中的文本实例生成掩码的特定任务。

4.2.4 愿景和语言

5563bd636a7e1d55d47c9c35cc1db4b0.png

SAM 还有利于视觉和语言任务,如图像字幕和基于文本的分割。如上图 15 所示,Text2Seg 利用多种视觉基础模型来促进文本提示指导的遥感图像语义分割任务。作者将重点放在遥感领域,该领域的图像与传统场景中的图像明显不同,当面对在不同场景下收集的测试数据时,传统模型往往表现不佳。

b5ded187a9320bf631415203ea13c526.png

图像字幕是为给定图像生成自然语言描述的任务。它是计算机视觉和自然语言处理中的一个基本问题,在机器人学、图像检索和基于内容的图像检索中有各种应用。近年来,随着深度学习技术的发展,这一领域取得了长足的进步。如图 16 所示,SAT 将多模态控件引入到图像字幕中,呈现出符合人类意图的各种视觉焦点和语言风格。

4.2.5 音频和视觉

听觉和视觉是两种密切相关的模态,可以为解决许多问题提供互补的信息。近年来,人们对联合视听学习的兴趣与日俱增,其目的是了解两种模态之间的相关性,并利用互补信息在各种任务中取得更好的表现。视听学习最流行的应用之一是声音定位和分割。此任务旨在预测视频中单个声源的空间位置。由于问题的复杂性,视听定位和分割可能具有挑战性,因为音频并不自然地与视频中存在的所有对象对齐。

然而,随着最近深度学习的进展,研究者们已经开发出了许多有效的方法来完成这项任务。在图 17 中,AV-SAM 利用来自预先训练的音频编码器和图像编码器的跨音频和可视特征的像素级视听融合来聚合跨模态表示。然后,将聚合的跨模态特征送入提示编码器和掩码解码器,生成最终的音视频分割掩码。

8d309d46d5d4b6ab1c59d3f341fd75dd.png

4.2.6 多模态可视化与开放词汇交互分割

0732ddfb251c27c1ee1d68f404518f74.png

最近的研究表明,CLIP 可以在各种视觉任务中取得令人印象深刻的表现,而只需进行最少或不需要特定任务的训练。然而,其内在机制还不是很清楚。交互式分割是一项计算机视觉任务,它涉及在推理阶段使用点、涂鸦或框的形式的用户指导从图像中分割目标对象。SAM 是最近的一项工作,它以开放词汇表的方式通过文本提示实现交互式分割。SAM 需要手动的点来指导分割过程。

图 18 所示的方法旨在通过使用纯文本输入的 CLIP Surgery 来完全取代手动提供点的需要。这种方法提供来自文本输入的像素级结果,可以很容易地转换为 SAM 模型的点提示。具体地说,作者选择相似性图中排在前面的前景点,并使用相同数量的排在最后的点作为背景点。结果表明,在四个数据集上,他们的方法在点精度和 SAM 的 mIoU 方面都优于其他的可解释性方法。

7ffc02ccb17c6bc6b27860a78a8df4d5.png

总结

人工智能(AI)正在向人工通用智能发展,人工智能指的是人工智能系统执行广泛任务的能力,并显示出与人类相似的智能水平。这与狭义或专门的人工智能形成对比,后者旨在以高度高效的方式执行特定任务。因此,当务之急是设计一类通用的模型,基于能够适应各种下游任务的广泛数据进行训练。最近提出的任意分段模型(SAM)在打破分割边界方面取得了重大进展,极大地推动了计算机视觉基础模型的发展。

本文是第一篇关于 SAM 的综述,全面回顾计算机视觉 SAM 基础模型的研究进展。通过回顾这一个月的发展,我们可以发现 SAM 已经为各个领域赋能,相信在将来 SAM 也将为更多更多产业和领域赋能,同时更多的视觉基础模型也将造福学术和工业界!

更多阅读

c1ca441f96c267bcb4b5f1c1fffe41aa.png

ea340d82bcc361fd37cc87d9139f20db.png

82eb04157115482d06678656f35ad74c.png

50fa068cf85ed9dfb6ec0db040dd0657.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

77615b9d0018a56776b904a9c26852be.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

18241f42a710842d56d6262d2d327878.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22525.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

360集团副总裁梁志辉:大模型驱动的AI数字员工,将带来一场深刻的生产力变革丨数据猿专访...

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 近日,在360智脑大模型应用发布会上,360集团创始人周鸿祎在现场创造了自己的数字分身,充当360公司的新闻发言人,其行为和思维方式可以仿真周鸿祎本人。 据悉,数字人…

两周时间,我体验了 GPT-4 从编程‘神器’变成编程‘智障’!

前言 两周前,我让 GPT-4 从头编写一款应用程序。由于这段经历感觉良好,当时我认为 GPT-4 是非常强大的编程伙伴。然而,上周末我让 GPT-4 扩展这款应用程序,却有了完全不同的体验。 因此,我想通过本文记录整个过程&…

“两周时间,我体验了 GPT-4 从编程‘神器’变成编程‘智障’!​”

GPT-4 的出现,令许多程序员直呼“解放双手”,但随着功能需求的逐渐增多,它的编码能力似乎没那么强了。 原文链接:https://klaviyo.tech/gpt-4-from-strong-pair-coder-to-annoying-pair-coder-6e2d202d8bc0 未经授权,禁…

点亮儿童的故事世界,一种会说话的绘本,趣学伴儿童故事放映机体验

四五岁的小孩一般求知欲都特别旺盛,总喜欢听故事,要是放在几年前,我们就得放下手里的活计,翻开故事书来给孩子一页页讲,现在则没这么麻烦了,因为市面上有很多故事机可选,能够自动给孩子播放各种故事、儿歌,用起来也简单,甚至不需要我们去干预,顶多就是帮孩子把电充满…

IT小故事

Java小故事 在最初,Java语言是叫做oak(橡树)。是因为刚开始公司门口有一颗橡树。所以就叫做橡树。然后发现oak已经被美国橡树公司注册了,就不能再继续使用了。所以需要改名。而程序员最爱喝的是咖啡,盛产咖啡的岛叫做爪…

用魔法打败魔法?ChatGPT杀手——GPTZero诞生历程

自2022年11月上线以来,人工智能聊天机器人ChatGPT在教育领域引起了巨大的波澜。众多学生已经将ChatGPT封神,甚至称呼ChatGPT为“论文亲爹”,我虽然非常不认可这种叫法,但是也不得不承认ChatGPT的强大。 该机器人能够非常逼真地模…

AI是律师的助手而非替代品,ZipZap.AI插件能帮你理解它们之间的关系

近期在TikTok讨论度很高的“Lawyer VS ChatGPT”短视频,引起了对于AI是否会替代律师的讨论。画家崔大卫曾经通过询问ChatGPT和律师同一个法律问题,得出了大致相同的答案并选择炒掉了自己的律师,但是评论区认为如果仅仅只把律师当做一个法律问…

说话人识别和说话人性别识别SDK-通过语音判断说话人,及说话人的性别

根据语音片段进行性别判断&#xff0c;以及说话人识别的SDK&#xff0c;c/c实现。 利用GMM-UBM算法&#xff0c;可以进行说话人识别&#xff0c;或者性别识别&#xff0c;可以参考<声纹识别之Alize入门教程(二)&#xff1a;GMM-UBM>。 进行性别识别的时候&#xff0c;将…

语音识别(Speech Recognition)

来源&#xff1a;Coursera吴恩达深度学习课程 现今&#xff0c;最令人振奋的发展之一就是seq2seq模型&#xff08;sequence-to-sequence models&#xff09;在语音识别&#xff08;speech recognition&#xff09;方面准确性有了很大的提升。我们来看看seq2seq模型是如何应用于…

【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址(1)

【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址&#xff08;1&#xff09; 爬取结果&#xff1a; 火狐&#xff08;Firefox&#xff09;如何移除add security exception添加的网站&#xff1a;http://blog.itpub.net/26736162/viewspace-2286064/ 如何将网页…

【云和恩墨】内外兼修:Oracle ACED熊军谈Oracle学习

原创 2016-07-07 熊军 编辑手记&#xff1a;熊军是中国西部第一位&#xff0c;也是到目前为止唯一的Oracle ACE总监&#xff0c;在这篇文章中熊军描述了他的学习过程和理念供大家参考。 ORACLE 的学习&#xff0c;就好比武侠小说中学武功。要从三方面入手&#xff1a; 1、…

快跑!传说中的GPT4真的来了!多模态,吊打旧版ChatGPT!

原文&#xff1a;快跑&#xff01;传说中的GPT4真的来了&#xff01;多模态&#xff0c;吊打旧版ChatGPT! - 知乎 目录 牛逼!!! 对不起&#xff0c;我实在没忍住说出这两个字&#xff01; 过了一遍资料&#xff0c;先说结论&#xff1a;GPT4这波OpenAI直接王炸&#xff01;…

GPT4来了?10秒钟做一个网站

GPT4来了&#xff1f;10秒钟做一个网站&#xff01; 好了&#xff0c;我可以像雪容融一样躺平了&#x1f914; 为什么雪容融都会wei gui&#xff01;&#xff01;&#x1f92c; 言归正传&#xff0c;3月15日&#xff0c;#GPT4做一个网站只要十秒#登上热搜。 根据视频中的演…

《花雕学AI》AI时代来临,互联网教父凯文·凯利给你50条生存指南:5000天后的世界会是什么样?

你知道凯文凯利吗&#xff1f;他是《连线》杂志的创始人之一&#xff0c;被誉为“世界互联网教父”&#xff0c;他的预言和观点影响了无数人的思考和行动。他曾经预言过互联网、社交媒体、区块链等技术的发展和变革&#xff0c;而现在&#xff0c;他又给我们带来了一个全新的预…

雅虎正式成立 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」&#xff0c;从过去看未来&#xff0c;从现在亦可以改变未来。 今天是 2023 年 3 月 2 日&#xff0c;在 1983 年的今天&#xff0c;世界上首张数码音乐唱片上市&#xff0c;从此改变了接下来二十多年的音乐产业。从光盘存储器、可记录光盘到…

刚自愿降薪 40% 的库克,要被“踢出”苹果董事会了?

整理 | 郑丽媛 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 没想到 2 月的尾巴&#xff0c;我们还没等来苹果春季发布会的音信&#xff0c;却听到了库克要被“踢出”苹果董事会的传闻&#xff1a; 据外媒 FOX Business 报道&#xff0c;美国国家法律和政策中心…

LangChain与大型语言模型(LLMs)应用基础教程:神奇的Agent

LangChain是大型语言模型(LLM)的应用框架,LangChain可以直接与 OpenAI 的 text-davinci-003、gpt-3.5-turbo 模型以及 Hugging Face 的各种开源语言模如 Google 的 flan-t5等模型集成。通过使用LangChain可以开发出更为强大和高效的LLM的各种应用。 今天我们就来实现一个神奇的…

一文读懂大语言模型

以ChatGPT为代表的大语言模型被很多人认为是新一轮科技革命的起点&#xff0c;本文旨在通过概念性介绍&#xff0c;让普通人能够尽可能理解人工智能以及大语言模型的基本概念&#xff0c;从而了解这些技术能做以及不能做什么。原文: A Very Gentle Introduction to Large Langu…

新手小白教程之 圈X-QuantumultX 某青极速版自动签到阅读

自动签到阅读功能 今天给大家带来QX的进阶玩法&#xff0c;实现阅读极速版的自动签到&#xff0c;自动阅读功能。我们今天的功能并不在重写或调试模块进行操作&#xff0c;直接在配置文件进行操作是最快最方便的。下面开始今天的教程。欢迎大家入群交流&#xff1a;868199154 …

0代码基础小白使用ChatGPT做出一款谷歌全屏截图插件的全过程

ChatGPT云炬学长 公众号&#xff1a;云炬网络 1 人赞同了该文章 开篇说明&#xff1a; 1、本次完全不懂代码&#xff0c;不知道什么Java、c&#xff0c;真正0基础开局&#xff1b; 2、以下是我按照时间顺序记录全过程&#xff0c;重点是记录使用ChatGPT的过程&#xff1b;…