【PaperReading】4. TAP

Category

Content

论文题目

Tokenize Anything via Prompting

作者

Ting Pan, Lulu Tang, Xinlong Wang, Shiguang Shan (Beijing Academy of Artificial Intelligence)

发表年份

2023

摘要

提出了一个统一的可提示模型,能够同时对任何事物进行分割、识别和描述。与SAM不同,我们的目标是通过视觉提示在野外构建一个多功能的区域表示。为此,我们使用大量分割掩码(如SA-1B掩码)和来自预训练CLIP模型的语义先验(拥有50亿参数)训练了一个通用模型。

具体而言,通过为每个掩码token添加一个语义token来构建一个可提示的图像解码器。语义token负责在预定义的概念空间中学习语义先验。通过对掩码token上的分割和语义token上的概念预测进行联合优化,模型表现出强大的区域识别和定位能力。例如,一个额外的3800万参数的因果文本解码器从零开始训练,在Visual Genome区域描述任务中创下了150.7的CIDEr分数新纪录。我们认为这个模型可以成为一个多功能的区域级图像tokenizer,能够为广泛的感知任务编码通用的区域上下文。代码和模型可在以下地址获取:https://github.com/baaivision/tokenize-anything。

引言

视觉感知的一个关键目标是有效地定位和识别任意感兴趣区域。它需要一个能够理解区域上下文并同时执行分割、识别和描述等感知任务的单一视觉模型。然而,现有模型通常只专注于定位类不敏感的掩码(例如SAM)或仅提取视觉语义(例如CLIP及其区域级变体)。特别是SAM开发了一个可以通过提示分割任何事物的分割基础模型,使得像素级定位任务具有强大的泛化能力。另一方面,CLIP通过在网规模的图像-文本对上进行对比学习,训练了一个识别基础模型,展示了在识别任务中强大的零样本能力。因此,从CLIP模型中学习语义先验是实现全面视觉感知的有希望的途径。

主要内容

论文详细介绍了如何构建一个能够高效实现分割、识别和描述任何事物的可提示模型。这是通过在可提示分割器内预测CLIP先验以及扩展模型范围来包含描述生成能力来实现的。文章主要关注在一个可提示分割模型SAM中对视觉和语言进行对齐,从而增强模型的区域级语义感知能力。与依赖于精心收集或近似的区域-文本数据的先前方法不同,作者的方法使用来自SA-1B的详尽分割数据和CLIP对掩码和语言进行对齐。模型在人工策划的概念空间中使用现成的CLIP嵌入,并在SAM的框架内进行预训练。

实验

在“实验”部分,作者详细介绍了他们如何在不同的数据集和任务上测试TAP模型。他们使用了SemanticSA-1B数据集进行零样本分割和区域级描述任务的实验。这些实验旨在评估模型在处理各种视觉和语言任务时的效果,包括图像分割、对象识别和图像描述。作者还对模型在各种复杂场景下的性能进行了评估,这包括不同类型的图像和多样化的描述任务。实验结果表明,TAP模型在所有测试任务上均表现出色,尤其是在零样本学习和区域级描述生成方面,显示了其卓越的适应性和灵活性。这些实验结果强调了模型的有效性和广泛的应用潜力。

结论

视觉提示可以促进超越简单分割的更广泛任务范围。通过在图像级CLIP中引入区域语义意识,SAM得到了增强,而不会损害掩码AP。此外,诸如词汇概念空间这样的正交空间对于有效学习CLIP先验至关重要。最后,他们强调,带有视觉提示的TAP模型充当了一个多功能的、位置感知的图像tokenizer,其中token化的区域特征可以直接用于提示因果语言建模。

阅读心得

就是在SAM架构上加上了text_token使得原来基于mask训练的SAM,现在也要基于text的描述进行训练。

亮点:训练了一个可用于VLM的基座模型,为下游任务提供一个vision-text对齐的SAM模型。

这个想法我们以前也提到过(下图中"Mask Decoder Lightly Adapt"部分): 但是苦于训练不动,放弃了。

https://aibee.feishu.cn/sync/DrsRdXCpbsfwU0bwcJ3cVxmdnIb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/236000.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【野火i.MX6ULL开发板】利用microUSB线烧入Debian镜像

0、前言 烧入Debian镜像有两种方式:SD卡、USB SD卡:需要SD卡(不是所有型号都可以,建议去了解了解)、SD卡读卡器 USB:需要microUSB线 由于SD卡的网上资料很多了,又因为所需硬件(SD卡…

【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理

文章目录 MaPLe: Multi-modal Prompt Learning 多模式提示学习文章介绍动机MaPLe:Multi-modal Prompt Learning 模型结构1、Deep Language Prompting 深度语言提示2、Deep Vision Prompting 深度视觉提示3、Vision Language Prompt Coupling 视觉语言提示耦合提示耦合过程 实验…

Proteus仿真stm32f103r6输出PWM/正弦波

资料下载地址:Proteus仿真stm32f103r6输出PWM/正弦波 一、仿真图 Proteus仿真stm32f103r6输出PWM/正弦波 二、程序 #include "pbdata.h"u16 fre; void RCC_Configuration(void); void GPIO_Configuration(void); void TIM3_Configuration();void Dela…

SQL-分组查询

🎉欢迎您来到我的MySQL基础复习专栏 ☆* o(≧▽≦)o *☆哈喽~我是小小恶斯法克🍹 ✨博客主页:小小恶斯法克的博客 🎈该系列文章专栏:重拾MySQL 🍹文章作者技术和水平很有限,如果文中出现错误&am…

12、JVM高频面试题

1、JVM的主要组成部分有哪些 JVM主要分为下面几部分 类加载器:负责将字节码文件加载到内存中 运行时数据区:用于保存java程序运行过程中需要用到的数据和相关信息 执行引擎:字节码文件并不能直接交给底层操作系统去执行,因此需要…

基于JavaWeb+BS架构+SpringBoot+Vue基于hive旅游数据的分析与应用系统的设计和实现

基于JavaWebBS架构SpringBootVue基于hive旅游数据的分析与应用系统的设计和实现 文末获取源码Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏Java项目精品实战案例《500套》 源码获取 文末获取源码 Lun文目录 1 概 述 5 1.1 研究背景 5 1.2 研究意义 5 1.3 研究内容…

计算机毕业设计 基于SpringBoot的物资综合管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

Vue3项目引入canvaskit-wasm库(skia库的wasm版)

1 安装canvaskit-wasm npm install canvaskit-wasm 或者 yarn add canvaskit-wasm 2 将文件node_modules/canvaskit-wasm/bin/canvaskit.wasm复制到public目录 3 引入到组件中 <template><img :src"imgData"/> </template><script setup>…

MongoDB索引详解

概述 索引是一种用来快速查询数据的数据结构。BTree 就是一种常用的数据库索引数据结构&#xff0c;MongoDB 采用 BTree 做索引&#xff0c;索引创建 colletions 上。MongoDB 不使用索引的查询&#xff0c;先扫描所有的文档&#xff0c;再匹配符合条件的文档。使用索引的查询&…

【漏洞复现】天融信TOPSEC static_convert 远程命令执行

漏洞描述 天融信TOPSEC Static_Convert存在严重的远程命令执行漏洞。攻击者通过发送精心构造的恶意请求,利用了该漏洞,成功实现在目标系统上执行任意系统命令的攻击。成功利用漏洞的攻击者可在目标系统上执行恶意操作,可能导致数据泄露、系统瘫痪或远程控制。强烈建议立即更…

单片机中的PWM(脉宽调制)的工作原理以及它在电机控制中的应用。

目录 工作原理 在电机控制中的应用 脉宽调制&#xff08;PWM&#xff09;是一种在单片机中常用的控制技术&#xff0c;它通过调整信号的脉冲宽度来控制输出信号的平均电平。PWM常用于模拟输出一个可调电平的数字信号&#xff0c;用于控制电机速度、亮度、电压等。 工作原理 …

3D模型UV展开原理

今年早些时候&#xff0c;我为 MAKE 杂志写了一篇教程&#xff0c;介绍如何制作视频游戏角色的毛绒动物。 该技术采用给定的角色 3D 模型及其纹理&#xff0c;并以编程方式生成缝纫图案。 虽然我已经编写了一般摘要并将源代码上传到 GitHub&#xff0c;但我在这里编写了对使这一…

力扣日记1.11-【二叉树篇】450. 删除二叉搜索树中的节点

力扣日记&#xff1a;【二叉树篇】450. 删除二叉搜索树中的节点 日期&#xff1a;2024.1.11 参考&#xff1a;代码随想录、力扣 450. 删除二叉搜索树中的节点 题目描述 难度&#xff1a;中等 给定一个二叉搜索树的根节点 root 和一个值 key&#xff0c;删除二叉搜索树中的 key…

多测师肖sir___ui自动化测试po框架讲解版

po框架 一、ui自动化po框架介绍 &#xff08;1&#xff09;PO是Page Object的缩写 &#xff08;2&#xff09;业务流程与页面元素操作分离的模式&#xff0c;可以简单理解为每个页面下面都有一个配置class&#xff0c; 配置class就用来维护页面元素或操作方法 &#xff08;3&am…

XTuner 大模型单卡低成本微调实战

XTuner 大模型单卡低成本微调实战 Finetune简介增量预训练微调指令跟随微调LoRA XTuner介绍功能亮点 8GB显存玩转LLMFlash AttentionDeepSpeed ZeRO 上手操作平台激活环境微调 参考教程&#xff1a;XTuner Finetune简介 LLM的下游应用任务中&#xff0c;增量预训练和指令跟随…

【python】python新年烟花代码【附源码】

欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 新年的钟声即将敲响&#xff0c;为了庆祝这个喜庆的时刻&#xff0c;我们可以用 Python 编写一个炫彩夺目的烟花盛典。本文将详细介绍如何使用 Pygame 库创建一个令人惊叹的烟花效果。 一、效果图&#xff1a; 二…

互联网加竞赛 基于卷积神经网络的乳腺癌分类 深度学习 医学图像

文章目录 1 前言2 前言3 数据集3.1 良性样本3.2 病变样本 4 开发环境5 代码实现5.1 实现流程5.2 部分代码实现5.2.1 导入库5.2.2 图像加载5.2.3 标记5.2.4 分组5.2.5 构建模型训练 6 分析指标6.1 精度&#xff0c;召回率和F1度量6.2 混淆矩阵 7 结果和结论8 最后 1 前言 &…

Linux 部署 AI 换脸

我使用的系统是 Ubuntu 20.04 文章实操主要分为以下几个部分 1、python 环境安装 2、下载 FaceFusion 上传服务器 3、创建 python 虚拟环境 4、下载 FaceFusion 依赖&#xff08;这里的命令执行时间会很长&#xff0c;够你睡午觉了&#xff09; 5、运行 FaceFusion 6、开…

基于css实现动画效果

介绍 本文将会基于css&#xff0c;实现各种动画效果&#xff0c;接下来会从简单几个例子入手。 案例 三颗球 <!DOCTYPE html> <html lang"en"><head><meta charset"utf-8" /><title>React App</title><style>…

初识Hadoop-概述与关键技术

一.大数据概述 1.什么是大数据 高速发展的信息时代&#xff0c;新一轮科技革命和变革正在加速推进&#xff0c;技术创新日益成为重塑经济发展模式和促进经济增长的重要驱动力量&#xff0c;而“大数据”无疑是核心推动力。 那么&#xff0c;什么是“大数据”呢&#xff1…