Tokenize Anything via Prompting

SAM的延续,把SAM输出的token序列用来进行分类,分割和一个自然语言的decoder处理,但其实现在多模态的图像的tokenizer也几乎都是用VIT来实现的。一开始认为这篇文章可能是关于tokenize的,tokenize还是很重要的,后来看完,整体思路大概就是一般来做带类别的sam,目前是grounding dino+sam的思路,先用一个开放词汇检测的目标检测算法通过text将区域框出来再使用sam,本文呢,保留了sam的整体架构,实现了分割分类和描述的三种输出,主要还是通过mask decoder来实现,训练中结合clip。

1.Introduction

      旨在构造一个可要求输入的模型,并在大规模数据集上进行预训练。首先介绍了一个可要求输入的标记化任务,该任务要求模型能够在可提取感兴趣区域提示的情况下,提取出通用表示。提取的区域表示可以直接解码成相应任务的输出,用于通用的视觉感知任务。

        SA-1B构建了11M张图像上1.1B个高质量的mask,用于训练sam,Laion-2B从网络上收集了2b个图像文本对,训练clip,引入了SemanticSA-1B数据集,在SA-1B的每个分割区域,使用一个具有5B参数的强大clip模型提取出一个词汇,该模型在LAION图像文本对上训练。

        利用SemanticSA-1B数据集,训练了一个统一和可推广的模型,能够同时对任何物体进行分割、识别和标题生成,在SAM的架构内合并CLIP的功能,即通过prompt对任何物体进行token的模型。

2.related work

2.1 Vision foundation models

        clip,sam

2.2 Open-Vocabulary segmentation

        开放词汇语义分割旨在对超出训练中用于训练的封闭词汇范围的区域进行分类,基于clip,并设计特定的对齐技术,以有效的将VLM的知识集成到现有的分割模型中。

2.3 Zero-shot region understanding

        将clip和sam结合。

3.Approach

3.1 promptable tokenization

        在promptable的分割模型sam中对视觉和语言进行对齐,传统视觉-文本对齐方法依赖于图像-文本对,这限制了对细粒度区域的理解。使用clip和来自SA-1B的分割数据来将掩码与语言对齐,由于SA-1B是一个无类别数据集,利用clip embedding对sam的预测和clip的投影之间的概念词汇分布进行对齐。

3.1.1 预处理

排除了文本提示,使用点提示,5B的EVA-CLIP,从mask裁剪中计算image embedding。

3.1.2 Promptable segmentation

SAM的掩码解码器采用了Mask2Former,根据输入提示对交互分割进行了deformable masked attention,默认为每个提示预测四个掩码,但是路由策略选择一个来解决歧义,因此,图像解码器产生9个ouotput tokens,4个segmentic tokens,4个mask tokens和1个IOU token。为了提高在大规模SA-1B数据集上的训练效率,实现了一个二阶段采样策略,最多包括9个prompt points,在第一阶段,从gt mask中等概率抽样一个box或者point,之后,在256个gpu上执行,预测mask和gt之间的错误区域中均匀采样1-8个点,。。。

3.1.3 Concept prediction

用语义token来预测region,我们利用语义token,通过一个3层mlp(256->1024->1024)获取1024维的视觉embedding,这个视觉embedding进一步投影到2560维的分布logits,通过kl散度损失函数来优化从clip中获取的目标分布和预测分布之间的差异。

3.2 Promptable Captioning

文本编码器,32ktoken,512维的8层transformer,2500w参数的轻量级文本解码器参考了T5-small。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/305082.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

30天精通Linux系统编程-----第一天:底层文件I/O (建议收藏)

目录 1.什么是底层文件I/O 2.底层文件I/O常用库函数 2.1 write函数 2.2 read函数 2.3 open函数 2.4 close函数 2.5 lseek函数 2.6 ioctl函数 2.7 fcntl()函数 2.8 pread()函数 2.9 pwrite()函数 1.什么是底层文件I/O 底层I/O指的是与硬件设备之间的直接输入输出操作…

vue3 + potree 渲染点云数据记录

potree 官网示例 前置条件: potree 无法直接加载 LAS,LCD,PLY等格式的点云文件, 需要通过 PotreeConverte 转换为 octree 数据格式,前端渲染中加载转换后的 json 格式 格式转换方向 .las ---- potreeConverter ----> .json…

python-常用数据结构(1)

1、从键盘输人一个正整数列表,以一1结束,分别计算列表中奇数和偶数的和。 (1)源代码: n int(input("请输入一个正整数:")) list [] while n ! -1: list.append(n) n int(input("请输入一个正整数:&…

示波器接上机器板子信号就正常工作,拿下来就机器不正常工作

系列文章目录 1.元件基础 2.电路设计 3.PCB设计 4.元件焊接 5.板子调试 6.程序设计 7.算法学习 8.编写exe 9.检测标准 10.项目举例 11.职业规划 送给大学毕业后找不到奋斗方向的你(每周不定时更新) 【牛客网】构建从学习到职业的良性生态圈 中国计算…

算法:计数类dp

文章目录 一、举个栗子例子1:爬楼梯问题例子2:不同路径例子3:计数子序列 二、基本思路三、典型例题一、ACWing:900. 整数划分1、解法一1.1、状态转移方程1.2、参考代码 O(n) 超时 2、解法二:类似完全背包问题1.1、状态…

C语言——详解字符函数和字符串函数(二)

Hi,铁子们好呀!之前博主给大家简单地介绍了部分字符和字符串函数,那么这次,博主将会把这些字符串函数给大家依次讲完! 今天讲的具体内容如下: 文章目录 6.strcmp函数的使用及模拟实现6.1 strcmp函数介绍和基本使用6.1.1 strcmp函…

消息队列之-----------------zookeeper机制

目录 一、ZooKeeper是什么 二、ZooKeeper的工作机制 三、ZooKeeper特点 四、ZooKeeper数据结构 五、ZooKeeper应用场景 5.1统一命名服务 5.2统一配置管理 5.3统一集群管理 5.4服务器动态上下线 5.5软负载均衡 六、ZooKeeper的选举机制 6.1第一次启动选举机制 6.2非…

uniapp极光推送、java服务端集成

一、准备工作 1、进入【服务中心】-【开发者平台】 2、【创建应用】,填写应用名称和图标(填写项目名称,项目logo就行,也可填写其他的) 3、选择【消息推送】服务,点击下一步 ​ ​ Demo测试 参照文档&…

第15届蓝桥STEMA测评真题剖析-2024年3月10日Scratch编程初中级组

[导读]:超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成,后续会不定期解读蓝桥杯真题,这是Scratch蓝桥杯真题解析第180讲。 第15届蓝桥第5次STEMA测评,这是2024年3月10日举办的STEMA,比赛仍然采取线上形式。这…

达梦关键字(如:XML,EXCHANGE,DOMAIN,link等)配置忽略

背景:在使用达梦数据库时,查询SQL中涉及XML,EXCHANGE,DOMAIN,link字段,在达梦中是关键字,SQL报关键词不能使用的错误。 解决办法: 配置达梦安装文件E:\MyJava\dmdbms\data\DAMENG\dm.ini 忽略这些关键词,…

【Linux】shell 脚本基础使用

在终端中输入命令可以完成一些常用的操作,但是我们都是一条一条输入命令,比较麻烦,为了解决这个问题,就会涉及到 shell 脚本,它可以将很多条命令放到一个文件里面,然后直接运行这个文件即可。 shell 脚本类…

Jupyter Notbook如何安装配置并结合内网穿透实现无公网IP远程连接使用

文章目录 推荐1.前言2.Jupyter Notebook的安装2.1 Jupyter Notebook下载安装2.2 Jupyter Notebook的配置2.3 Cpolar下载安装 3.Cpolar端口设置3.1 Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂&am…

分类预测 | Matlab实现KPCA-IDBO-LSSVM基于核主成分分析和改进蜣螂优化算法优化最小二乘支持向量机分类预测

分类预测 | Matlab实现KPCA-IDBO-LSSVM基于核主成分分析和改进蜣螂优化算法优化最小二乘支持向量机分类预测 目录 分类预测 | Matlab实现KPCA-IDBO-LSSVM基于核主成分分析和改进蜣螂优化算法优化最小二乘支持向量机分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述…

炒股自动化:交易接口API才是重点,券商官方散户可用的接口

上一篇我们用get_full_tick取到了数据,也讲了变量和字典的基本概念,这次我们向交易所发送订单试试。前面文章的链接放在文末了,需要的可以看一下 这些内容是给新手看的,找接口的大佬们直接拉到文末即可 取市场数据的方法很多&am…

【MATLAB源码-第12期】基于matlab的4FSK(4CPFSK)的误码率BER理论值与实际值仿真。

1、算法描述 4FSK在频移键控(FSK)编码的基础上有所扩展。FSK是一种调制技术,它通过在不同频率上切换来表示不同的数字或符号。而4FSK则是FSK的一种变种,表示使用了4个不同的频率来传输信息。 在4FSK中,每个数字或符号…

ONERugged车载平板电脑厂家丨工业车载电脑优势体现丨3年质保

作为现代社会中必不可少的出行工具,汽车不仅仅是代步工具,更是我们生活中的重要一部分。而在如此多功能的汽车内,一款高可靠性、适应不同行业应用的车载平板电脑成为了当下的热门选择。ONERugged车载平板电脑以其卓越的品质和强大的功能而备受…

post请求搜索功能爬虫

<!--爬虫仅支持1.8版本的jdk--> <!-- 爬虫需要的依赖--> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.2</version> </dependency>…

git配置多SSH

目的&#xff1a; 一台电脑可以让github、gitee等账号同时存在&#xff0c;让不同账号配置不同的密钥 第一步&#xff1a;创建不同平台的SSH公钥 执行命令&#xff1a; ssh-keygen -t rsa -C "对应仓库邮箱地址" -f ~/.ssh/id_rsa.github 如果执行上面的命令&…

头歌机器学习实验 第7次实验 局部加权线性回归

任务描述 本关任务&#xff1a;编写一个利用局部加权计算回归系数的小程序。 相关知识 为了完成本关任务&#xff0c;你需要掌握&#xff1a;1.局部加权算法的思想&#xff1b;2.局部加权的核心算法。 局部加权算法的思想 在局部加权算法中 &#xff0c;我们给待预测点附近…

探索设计模式的魅力:MVVM模式在AI大模型领域的创新应用-打破传统,迎接智能未来

​&#x1f308; 个人主页&#xff1a;danci_ &#x1f525; 系列专栏&#xff1a;《设计模式》 &#x1f4aa;&#x1f3fb; 制定明确可量化的目标&#xff0c;坚持默默的做事。 MVVM模式在AI大模型领域的创新应用-打破传统迎接智能未来 &#x1f680; “在人工智能的领域里&a…