分割一切后，Segment Anything又能分辨类别了：Meta/UTAustin提出全新开放类分割模型...

分割一切后，Segment Anything又能分辨类别了：Meta/UTAustin提出全新开放类分割模型...

news/2024/12/31 4:17:32/文章来源:https://blog.csdn.net/weixin_36896856/article/details/130177898

点击上方“AI遇见机器学习”，选择“星标”公众号

第一时间获取价值内容

前几日，Meta 推出了「分割一切」AI 模型 Segment Anything，令网友直呼 CV 不存在了？！而在另一篇被 CVPR 2023 收录的论文中，Meta、UTAustin 联合提出了新的开放语言风格模型（open-vocabulary segmentation, OVSeg），它能让 Segment Anything 模型知道所要分隔的类别。

从效果上来看，OVSeg 可以与 Segment Anything 结合，完成细粒度的开放语言分割。比如下图 1 中识别花朵的种类：sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

即刻体验：https://huggingface.co/spaces/facebook/ov-seg
项目地址：https://jeff-liangf.github.io/projects/ovseg/

研究背景

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域，这些区域在训练期间可能没有被看到。最近的两阶段方法首先生成类别不可知的掩膜提案，然后利用预训练的视觉-语言模型（例如 CLIP）对被掩膜的区域进行分类。研究者确定这种方法的性能瓶颈是预训练的 CLIP 模型，因为它在掩膜图像上表现不佳。

为了解决这个问题，研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。研究者使用 CLIP 将掩膜图像区域与图像字幕中的名词进行匹配，从而收集训练数据。与具有固定类别的更精确和手动注释的分割标签（例如 COCO-Stuff）相比，研究者发现嘈杂但多样的数据集可以更好地保留 CLIP 的泛化能力。

除了对整个模型进行微调之外，研究者还使用了被掩膜图像中的「空白」区域，使用了他们称之为掩膜提示微调的方法。

实验表明，掩膜提示微调可以在不修改任何 CLIP 权重的情况下带来显著的改进，并且它可以进一步改善完全微调的模型。特别是当在 COCO 上进行训练并在 ADE20K-150 上进行评估时，研究者的最佳模型实现了 29.6％的 mIoU，比先前的最先进技术高出 8.5％。开放式词汇通用模型首次与 2017 年的受监督专家模型的性能匹配，而不需要特定于数据集的适应。

论文地址：https://arxiv.org/pdf/2210.04150.pdf

论文解读

动机

研究者的分析表明，预训练的 CLIP 在掩膜建议上表现不佳，成为两阶段方法的性能瓶颈。

CLIP 是使用很少的数据增强在自然图像上进行预训练的。
两阶段的开放词汇语义分割方法首先生成类别不可知的掩膜建议，然后利用预训练的 CLIP 进行开放词汇分类。CLIP 模型的输入是裁剪的掩膜图像，与自然图像存在巨大的领域差距。
我们的分析表明，预训练的 CLIP 在掩膜图像上表现不佳。

方法

研究者的模型包括一个分割模型（例如 MaskFormer）和一个 CLIP 模型。

他们首先训练修改后的 MaskFormer 作为开放词汇分割的基线（第 3.1 节），然后从图像标题中收集多样的掩膜-类别对（第 3.2 节），并适应 CLIP 用于掩膜图像（第 3.3 节）。

结果

研究者首次展示开放词汇的通用模型可以在没有数据集特定调整的情况下与受监督的专业模型的性能相匹配。

更多分类示例如下所示。

欢迎大家加入我的这个”AIGC与GPT“知识星球，价格便宜，已经80+人！

这里会保存我收集的各种关于AIGC的资源和资料，包括AI绘画-midjourney，ChatGPT， GPT-4，百度-文心一言的各种资料。会保持持续更新，欢迎大家自行拿取。（网盘地址和密码在知识星球自取！）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/27065.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

无线电的节日

无线电的节日

昨天坐车看东西，司机又拉过了，终于到家了冥冥之中选择电磁场与无线电这个专业。这个专业就业方向包括射频、雷达和微波。后来跟着师傅选择了射频这条道路。我老师当年说过你们要学英语，甚至还要学日语和德语，因为先进的创造来自…

阅读更多...

Kotlin 集合操作符

Kotlin 集合操作符

集合操作符集合操作符一 (首字母 a - f) 这篇文章介绍下 Kotlin 集合中的操作符，本文中 Kotlin 所用版本是 1.8.10 all 判断集合中的所有元素是否满足需求，返回值为 Boolean 例如我们需要判断字符串的长度是否大于4 val songs listOf("一路…

阅读更多...

讯飞星火认知大模型成果发布会举行

讯飞星火认知大模型成果发布会举行

目录一、提出通用人工智能七大维度481项评测体系二、讯飞星火认知大模型三大能力已超ChatGPT 现场语音输入流畅多维实测燃爆全场写邮件、做方案、讲故事，讯飞星火大模型到底有多会写？ 中文理解十级测试，现场观众：讯飞星火…

阅读更多...

OpenAI 推出漏洞赏金计划，最高奖励 2 万美元；京东零售开启 5 年来最大组织变革；Django 4.2|极客头条...

OpenAI 推出漏洞赏金计划，最高奖励 2 万美元；京东零售开启 5 年来最大组织变革；Django 4.2|极客头条...

「极客头条」—— 技术人员的新闻圈！ CSDN 的读者朋友们早上好哇，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理 | 梦依丹出品 | CSDN（ID：CSDNnews） 一分钟速览新闻点&#…

阅读更多...

“三项能力超过ChatGPT”，科大讯飞星火大模型现场接受观众挑战，写稿制表PPT通通拿下...

“三项能力超过ChatGPT”，科大讯飞星火大模型现场接受观众挑战，写稿制表PPT通通拿下...

杨净发自合肥量子位 | 公众号 QbitAI “三项能力超过ChatGPT” “1024将整体超过GPT水平！” 在科大讯飞星火认知大模型发布会现场，董事长刘庆峰拍着胸脯保证，引起现场掌声雷动！ 而真机演示效果和多场景产品展示直接把观众们看呆…

阅读更多...

自然机器人最新发布：智能流程助手，与GPT深度融合

ChatGPT自2022年11月上线后就受到现象级地广泛关注，5天时间用户就已经突破百万，仅2个月时间月活用户就突破1亿，成为史上增速最快的消费级应用，远超TikTok、Facebook、Google等全球应用。它展现了类似人类的语言理解和对话交互能力…

阅读更多...

go语言实现聊天服务器(多人聊天）

go语言实现聊天服务器(多人聊天）

用go语言实现一个server作中转群发消息，多个客户端聊天 1）服务器开启，等待来自客户端的连接，把每一个客户端存储在map中 2）客户端连接服务器，给自己取一个别名，存储在服务器 3）服…

阅读更多...

Golang 从零开始实现多人聊天室（三）上线通知与公屏聊天

Golang 从零开始实现多人聊天室（三）上线通知与公屏聊天

系列文章目录跟着😽猫猫学Golang，快人一步系列初开，跟着我走进Go 语言的世界里🌍 系列目录 Golang 从零开始实现多人聊天室（一）服务端监听 Golang 从零开始实现多人聊天室（二）客…

阅读更多...

商务人士邮箱推荐？高大上邮箱来了！

商务人士邮箱推荐？高大上邮箱来了！

既然点进文章那不用多说，大家肯定都是商务人士。在普通人眼里商务人士就等于精英人士，他们的行头都是一身西装梳着根根分明的大背头，他们会多国语言精通各种数字，总之就是看起来很厉害每天很精致。那商务人士到底是不是这样呢我也…

阅读更多...

商务人士适合用什么邮箱？一款商务人士必备的邮箱推荐

商务人士适合用什么邮箱？一款商务人士必备的邮箱推荐

在商务及办公场合中，电子邮箱的使用越加频繁，对于邮箱的选择安全及易用性成为了重中之重。如果你是金融、互联网、法律、机关单位等领域的商务人士，或者你需要将邮箱作为对外的入口，对你而言，一个可靠的付费邮箱是非…

阅读更多...

国内好用的邮箱评选，电子邮箱大全有你的吗？

国内好用的邮箱评选，电子邮箱大全有你的吗？

国内邮箱、好用的邮箱、电子邮箱大全、163邮箱、TOM邮箱、邮箱品牌早在三国时期，一种说法便流传至今，这酒是“三分天下”，最早是指三国时期魏、蜀、吴三国鼎立并且互相牵制的局面。在现代，也常常引用“三分天下”来形容某市场或…

阅读更多...

你知道大量群发邮件用什么邮箱好吗？

你知道大量群发邮件用什么邮箱好吗？

随着社会的发展，我们的销售模式也在发生这巨大的变化，在之前我们的销售模式主要靠在线下的各种人的走街串巷的来进行营销，但是随着我们科技的进步，互联网也成为了我们生活中密不可分的一部分，在这时候一种全新的营销模…

阅读更多...

堪称最佳邮箱Gmail邮箱的神奇的一号多名功能

堪称最佳邮箱Gmail邮箱的神奇的一号多名功能

QQ邮箱支持添加一个英文用户名的foxmail邮箱，已经比很多邮箱好用，但是gmail邮箱的一号多名的功能更为神奇，一个邮箱账号可以变成无数个邮箱，对于需要很多邮箱账号的情形，比如注册网络小号，非常有用&#xf…

阅读更多...

推荐国内外，安全好用的电子邮箱

推荐国内外，安全好用的电子邮箱

众多邮箱品牌，人们熟悉QQ、网易、新浪，较之而言，TOM邮箱更具安全性、实用性。小编整理分析详情如下。性价比高、功能实用：TOM含免费邮箱，又相继推出了极致邮、畅享邮，后两款为VIP付费邮箱，容量…

阅读更多...

最近沉迷美女图片无法自拔，所以我决定用PHP扒海量妹子图

最近沉迷美女图片无法自拔，所以我决定用PHP扒海量妹子图

为什么80%的码农都做不了架构师？>>> 学习PHPMySQL制作WEB应用有一阵子了，没有上过学所以只能学习到CURD的地步。最近对国产美女图片、私房写真特别感兴趣，什么周妍希、刘飞儿、李可可、推女郎我一个都不知道~~ 经常调查我发现一…

阅读更多...

TA（技术美术）宝藏网站

TA（技术美术）宝藏网站

TA（技术美术）宝藏网站我们不生产TA我们只是TA的搬运工（感谢马甲大佬总结！？）T部分（技术相关）1.Shadertoy2.GLSL SandboX3.candycat的博客4.关于raymarching5.minionsart大神6.冯委大…

阅读更多...

杜凯杰教学数据分析：python 图片爬取爬取各校校花图片

杜凯杰教学数据分析：python 图片爬取爬取各校校花图片

python 图片爬取爬取各校校花图片 —杜凯杰爬取十页校花图片(可按需求更改页数，爬取更多图片)—杜凯杰 import requests from lxml import etree startUrlhttp://www.xiaohuar.com/list-1- headers{User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleW…

阅读更多...

chatgpt赋能python：Python如何操作Word文档

chatgpt赋能python：Python如何操作Word文档

Python如何操作Word文档简介 Python是一种高级编程语言，具有易于学习和使用、高效、可移植性强等优点。相信许多Python开发者都遇到过需要使用Python操作Word文档的情况。本文旨在介绍如何使用Python操作Word文档，使开发者能够方便地实现自己的需求。…

阅读更多...

Word2vec工作原理

Word2vec工作原理

文章目录前言Word2Vec的工作原理CBOWSkip-Gram 参考文献点关注，防走丢，如有纰漏之处，请留言指教，非常感谢前言随着计算机应用领域的不断扩大，自然语言处理受到了人们的高度重视。尤其是最近出现的chatgpt&#xff0…

阅读更多...

GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试

GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试

来源：DeepHub IMBA 本文约3000字，建议阅读6分钟随着NLP(自然语言处理)的最新进展，OpenAI的GPT-3已经成为市场上最强大的语言模型之一。 2022年1月25日，OpenAI公布了一个embedding endpoint(Neelakantan et al.， 2022)…

阅读更多...

最新文章

推荐文章