ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts

发表时间:cvpr2024

论文链接:https://readpaper.com/pdf-annotate/note?pdfId=2357936887983293952&noteId=2426262228488986112

作者单位:University of Wisconsin–Madison

Motivation:现在的多模态模型都关注整张图像的理解,它们缺乏在复杂场景中处理特定区域信息的能力

解决方法:为了应对这一挑战,我们引入了一种新的多模态模型,能够解码任意(自由形式)的视觉提示。这允许用户直观地标记图像并使用“红色边界框”或“指向箭头”等自然线索与模型交互

本文主要贡献是:

  1. 我们引入了一种新的多模态模型,用于使用自然语言和任意视觉提示与图像的直观交互,增强了用户可访问性和模型灵活性。

  2. 我们开发了一种visual referal approach(视觉引导方法),将视觉提示直接叠加到图像上,在不影响性能的情况下简化模型架构。

  3. 我们的模型 ViP-LLAVA 在已建立的基准上在区域理解任务上取得了最先进的结果,surpassing specialized region encoding models。

  4. 我们介绍了 ViP-Bench,用于评估多模态模型具有任意视觉提示的区域理解能力。

实现方式模型架构:在将视觉提示通过Alpha混合叠加(Alpha混合指的是一种图像处理技术,用于将两个或多个图像合成在一起,同时考虑每个图像的透明度(Alpha通道))到原始图像后,将生成的图像输入到视觉编码器中以获取multi-level visual features。这些特征被concat起来并输入到LayerNorm和MLP层以形成visual token。然后,visual token和文本指令标记被输入到大型语言模型中,通过自回归的方式得到输出。

具体结构:

  • visual model, we choose CLIP-336px

  • Vicuna v1.5 [31] as the language encoder

  • a 2-layer MLP is utilized。

  • 该架构与 llava 架构类似,只是多模态投影器采用一组Fusion+LN+MLP的映射。

通过CLIP做视觉提示词嵌入:

视觉提示词设计:

文中也提出了一个视觉指令微调数据集,数据集包含了520K的图像-文本对,源数据都是一些开源的数据集,比如RefCOCOg、PointQA-LookTwice、Visual Genome、Flicker 30k Entities、Visual Commonsense Reasoning和Visual7W。作者对源数据的图片用各种形式的视觉提示词做了自动化标注。

对于只包含bounding box标注的图像来说,视觉提示可以是矩形框、椭圆和箭头中的一种。对于箭头来说,需要保证其落在图像范围之内。

对于包含像素级别的mask标注的图像来说,视觉提示可以是 矩形框、椭圆、点、三角形、mask、mask边缘、箭头、涂鸦等。

Fig 3 可视化视觉提示类型,从左上到右下依次是:掩膜轮廓、椭圆、边界框、三角形、涂鸦、点、箭头和掩膜。请注意,提示不仅形状多样,而且颜色、透明度值、宽度、比例和方向也各不相同

ViP-LLaVA uses 8 visual prompts: rectangles, ellipses, points, scribbles, triangles, masks, mask contours, and arrows. 每种提示随机颜色,随机位置。 For referencing specific regions, we replace the <region> text with the color and shape description, such as red scribble.

可选择的区域级别的指令微调数据:

文中用到的训练数据包括上面介绍的region-level的视觉提示数据,也包括图像级别的视觉提示数据,主要来自于LLaVA v1.5的数据。本文还借助于GPT-4V生成了区域级别的指令微调数据集,主要做法如下:

  • 原图和绘制了视觉提示的图片作为GPT-4V的输入,同时也提供了数据集原本自带的ground-truth的标注还有系统提示词,模型会返回<visual prompt, text prompt, text output>的triplets。

  • 为了让GPT-4V识别对应的物体或者区域,作者提供了一些文本描述,比如针对单物体的<within red mask>或者多物体的(<within red box>,<within blue box>)。在训练的时候,会把这些位置用Fig 3所示的8种视觉提示中的一种来填充。一共得到了13k高质量的区域级别的视觉指令微调数据,包括7k单物体区域和6k多物体区域的。

训练方式:三个阶段训练

第一阶段:第一步使用558k BLIP caption的图像-文本对数据 预训练多模态的connector

第二阶段:第二步用LLaVA 1.5的指令微调数据和本文提到的区域级别的指令微调数据训练模型,两个阶段都训了1个epoch,采用了8个Nvidia A100 GPU;

第三阶段:第三步用到了13K高质量指令微调数据集以及从stage 2训练所用数据集中采样的13k数据集,对模型做微调,也是采用了8个A100 GPU。

第二阶段和第三阶段是按照fig2的结构进行微调(只有Clip image encoder是冻住的)。

实验:Evaluation on Region Reasoning Benchmarks,ViP-Bench Evaluation Results

结论:ViP-LLAVA 的直观设计利用了自然语言交互和视觉标记,简化了图像注释过程,同时增强了visual references的清晰度(可以使用很多形式的visual references)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/393747.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

torch量化接口深度解读-eager模式-fx模式

一、定义 接口总结量化模式解读 二、实现 接口总结 1. PyTorch提供了三种不同的量化模式&#xff1a;Eager模式量化、FX图模式量化&#xff08;维护&#xff09;和PyTorch 2导出量化。 2. Eager Mode Quantization是一个测试版功能。用户需要进行融合&#xff0c;并手动指定量…

尚硅谷谷粒商城项目笔记——六、使用navciat连接docker中的mysql容器【电脑CPU:AMD】

六、使用navciat连接docker中的mysql容器 注意&#xff1a; 因为电脑是AMD芯片&#xff0c;自己知识储备不够&#xff0c;无法保证和课程中用到的环境一样&#xff0c;所以环境都是自己根据适应硬件软件环境重新配置的&#xff0c;这里的虚拟机使用的是VMware。 1navicat免费…

最新版Ableton Live 12.20 WIN MAC,长期更新持续有效

一。Ableton Live 12.20 WIN &MAC 2024.08.06发布 Ableton Live Suite是一款由ABLETON公司开发的功能强大且全面的音乐制作、内容编辑和演奏分析软件。它极大地改进了许多社会功能&#xff0c;使音乐创作、背景音乐的开发变得更加快捷方便。 软件的主要功能包括录音、作曲…

WordPress原创插件:Category-id-list分类ID显示查看

WordPress原创插件&#xff1a;Category-id-list分类ID显示查看 插件设置位置在工具栏

学习vue3 五,传送,缓存组件以及过渡和过渡列表

目录 Teleport传送组件 keep-alive缓存组件 transition动画组件 1. 过渡的类名 2. 自定义过渡class名 3. transition的生命周期 4.appear transition-group 1. 过渡列表 2. 列表的移动过渡 3. 状态过渡 Teleport传送组件 Teleport Vue 3.0新特性之一。 Teleport 是一…

Spring的配置类分为Full和Lite两种模式

Spring的配置类分为Full和Lite两种模式 首先查看 Configuration 注解的源码, 如下所示: Target({ElementType.TYPE}) Retention(RetentionPolicy.RUNTIME) Documented Component public interface Configuration {AliasFor(annotation Component.class)String value() defau…

(C23/C++23) 语句末尾的标签

文章目录 &#x1f516;前言&#x1f3f7;️ref&#x1f3f7;️标号 &#x1f516;兼容&#x1f3f7;️23标准前&#x1f3f7;️23标准后&#x1f3f7;️原因 &#x1f516;未兼容&#x1f516;END&#x1f31f;关注我 &#x1f516;前言 &#x1f3f7;️ref C23提案复合语句末…

Serverless 1

一、云原生应用 云原生应用覆盖到&#xff1a; 大数据&#xff0c;人工智能&#xff0c;边缘计算&#xff0c;区块链等 服务代理&#xff1a;envoy API 网关&#xff1a;APISIX 服务网格&#xff1a;Istio 服务发现&#xff1a;CoreDNS 消息和流式处理&#xff1a;kafka Serve…

PDF预览:利用vue3-pdf-app实现前端PDF在线展示

目录 PDF预览&#xff1a;利用vue3-pdf-app实现前端PDF在线展示 一、vue3-pdf-app组件介绍及其优点 1、vue3-pdf-app是什么 2、作用与场景 3、类似的插件 二、项目初始化与依赖安装 1、初始化Vue3项目 2、安装依赖 三、集成vue3-pdf-app插件 1、引入插件 2、配置组件…

ChemLLM化学大模型再升级,AI助力化学研究

ChemLLM 介绍 ChemLLM 系列模型 是由上海人工智能实验室基于InternLM2 开发的首个兼备化学专业能力和对话、推理等通用能力的开源大模型。相比于现有的其他大模型&#xff0c;ChemLLM 对化学空间进行了有效建模&#xff0c;在分子、反应和其他领域相关的化学任务上表现优异。 …

解决戴尔台式电脑休眠后无法唤醒问题

近期发现有少量戴尔的台式机会有休眠后无法唤醒的问题&#xff0c;具体现象就是电脑在休眠后&#xff0c;电源指示灯以呼吸的频率闪烁&#xff0c;无论怎么点鼠标和键盘都没有反应&#xff0c;并且按开机按钮也没法唤醒&#xff0c;只能是长按开机键强制关机再重启才行&#xf…

leetcode 958.二叉树的完全性检验

1.题目要求: 给你一棵二叉树的根节点 root &#xff0c;请你判断这棵树是否是一棵 完全二叉树 。在一棵 完全二叉树 中&#xff0c;除了最后一层外&#xff0c;所有层都被完全填满&#xff0c;并且最后一层中的所有节点都尽可能靠左。最后一层&#xff08;第 h 层&#xff09;…

YOLOv8改进 | 主干网络 | 将backbone替换为MobileNetV4【小白必备教程+附完整代码】

秋招面试专栏推荐 &#xff1a;深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 &#x1f4a1;&#x1f4a1;&#x1f4a1;本专栏所有程序均经过测试&#xff0c;可成功执行&#x1f4a1;&#x1f4a1;&#x1f4a1; 专栏目录 &#xff1a;《YOLOv8改进有效…

Linux PCI和PCIe总线

1 PCIe中断 - PCI/PCIe设备中断都是level触发&#xff0c;并且请求信号为低电平有效 - PCI总线一般只有INTA#到INTD#的4个中断引脚&#xff0c;所以PCI多功能设备的func一般不会超过4个&#xff0c;但是共享中断除外 2 IOMMU 2.1 ARM SMMU v2 Refer to my blog ARM SMMU v2. 2.…

【机器学习】重塑游戏世界:机器学习如何赋能游戏创新与体验升级

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀目录 &#x1f50d;1. 引言&#xff1a;游戏世界的变革前夜&#x1f4d2;2. 机器学习驱动的游戏创新&#x1f31e;智能化游戏设计与开发&…

OJ-0807

题目 参考 import java.util.ArrayList; import java.util.List; import java.util.Objects; import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner in new Scanner(System.in);String input in.nextLine();String[] numStrs inp…

身体出现这5种异常,可能是甲状腺在求救,千万别扛着!

甲状腺&#xff0c;被誉为人体新陈代谢的“发动机”&#xff0c;是调节我们身体能量和代谢的重要器官。然而&#xff0c;当甲状腺出现问题时&#xff0c;它往往会通过身体的一些异常信号向我们求救。北京精诚博爱医院张维一主任提醒&#xff1a;以下是五种常见的甲状腺异常表现…

您知道Jmeter中Redirect Automatically 和 Follow Redirects的使用场景吗?

相信很多使用过jmeter的同学都没有关注过请求中的Redirect Automatically 和 Follow Redirects选项&#xff0c;如下图&#xff1a; 在 JMeter 中&#xff0c;Redirect Automatically 和 Follow Redirects 是与 HTTP 请求重定向相关的两个选项&#xff0c;它们之间是有很大区别…

速度规划之:起点速度和终点速度不为零的非对称梯形速度规划

起点速度和终点速度不为零的非对称梯形速度规划 一、引言二、理论基础1. 梯形速度规划概述2.数学建模- 变量定义- 约束关系- 公式推导 三、计算过程1.只存在减速段2.只存在加速段3.存在加速段和减速段4.存在加速度段、匀速段和减速段 四、仿真实现五、优缺点优点缺点 六、总结 …

亚马逊等跨境电商平台怎么找到好的测评资源?

如何找到好的测评资源呢&#xff1f; 目前常规卖家找测评资源主要通过以下途径&#xff1a; 联系自己在海外的亲友帮忙测评&#xff0c;不过海外的亲友会比较有限安排业务员在facebook等社交平台找老外测评&#xff0c;但社交平台找老外很难掌控留评时效&#xff0c;甚至会遇…