多模态大语言模型的免训练视觉提示学习 ControlMLLM

ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models

github

paper

在本研究中,提出了一种无需进行训练的方法,通过可学习的潜变量优化将视觉提示注入到多模态大型语言模型(MLLMs)中。

在MLLMs核心模块中,注意力连接文本提示标记和视觉标记,并最终确定输出结果起着重要作用。

提出的方法涉及在推理过程中调整与视觉标记相关联部分的MLP输出,以控制注意力响应并确保文本提示标记关注指定区域内的视觉标记。

通过基于能量函数优化一个可学习的潜变量,增强了注意图对指定区域描述和推理任务的能力,而无需进行大规模训练或重新训练模型。

因此,本文提供了一种有希望将引用能力集成到MLLMs中,并支持使用框、蒙版、涂鸦和点等方式进行引用的方法。

动机

要解决的问题
  1. 传统MLLMs的局限性
    • 粗粒度图像对齐:传统多模态大语言模型(MLLMs)主要依赖于粗粒度的图像级对齐,这限制了用户通过文本提示进行详细区域描述和推理的能力。
    • 文本提示的局限性:文本提示往往无法捕捉图像中的复杂视觉细节,导致模型在理解图像内容时的局限性。
  2. 现有方法的不足
    • 高训练成本:现有的将引用能力集成到MLLMs中的方法通常需要大量的训练数据,并且模型需要针对新数据域或新基础MLLMs进行重新训练。
    • 缺乏灵活性:模型在域迁移时表现不佳,缺乏灵活性。
解决问题的策略
  • 提出一种无训练的方法:通过可学习的潜在变量优化,将视觉提示注入到MLLMs中,无需对模型进行训练或微调。
  • 利用注意力机制:通过调整MLLMs解码器中的注意力图,控制文本提示标记关注到视觉标记在指定区域,从而增强对指定区域的描述和推理能力。

方法

1. 方法概述
  • 核心思想:在推理过程中,通过调整MLP输出的视觉标记,控制注意力响应,确保文本提示标记关注到视觉标记在指定区域。
  • 优化目标:基于能量函数优化一个可学习的潜在变量,增强注意力图中指定区域的强度。
2. 方法步骤
2.1 分析MLLMs中的注意力
  • 注意力图的作用:注意力图模型了视觉标记和文本提示标记之间的关系,显著影响生成的文本。
  • 直接修改注意力图的不可行性:直接修改注意力图需要仔细选择调整系数,且容易影响LLM的语言能力。
2.2 通过潜在变量学习操纵注意力
  • 引入可学习的潜在变量:在视觉标记中增加一个可学习的潜在变量,通过优化该变量来间接影响注意力图。
  • 能量函数设计:设计能量函数来计算输入引用和注意力图之间的关系,支持四种引用形状(框、掩码、涂鸦和点)。
  • 上下文标记:通过平均池化每个文本提示标记生成的注意力图,生成代表全局上下文的上下文标记,简化计算并保留关键信息。
2.3 方法流程
  1. 视觉编码:使用冻结的视觉编码器和后续的MLP将图像编码为视觉标记。
  2. 文本编码:将文本提示编码为文本标记。
  3. 注意力计算:计算视觉标记和文本标记之间的注意力图。
  4. 潜在变量优化:基于能量函数优化可学习的潜在变量,增强指定区域的注意力强度。
  5. LLM解码:使用优化后的视觉标记和文本标记作为输入,通过LLM解码器生成输出文本。

总结

本文提出了一种无训练的方法,通过优化可学习的潜在变量,将视觉提示注入到MLLMs中,从而实现对指定区域的详细描述和推理。该方法利用注意力机制,通过调整注意力图来增强指定区域的强度,无需对模型进行训练或微调,具有灵活性和泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/394708.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

本地Linux服务器创建我的世界MC私服并实现与好友异地远程联机游戏

文章目录 前言1. 安装JAVA2. MCSManager安装3.局域网访问MCSM4.创建我的世界服务器5.局域网联机测试6.安装cpolar内网穿透7. 配置公网访问地址8.远程联机测试9. 配置固定远程联机端口地址9.1 保留一个固定tcp地址9.2 配置固定公网TCP地址9.3 使用固定公网地址远程联机 前言 本…

ttwid、x-bogus、a-bogus、msToken、byted_acrawler等直播参数说明和获取方式

可以参考开源项目:https://github.com/Sjj1024/douyin-live 桌面端的直播间项目:https://github.com/Sjj1024/LiveBox ttwid参数 ttwid类似客户端id,即便是游客模式,也可以对页面数据进行埋点统计,通过收集ttwid下的…

java10-集合框架

1. 集合的简介 1.1什么是集合 集合Collection,也是一个数据容器,类似于数组,但是和数组是不一样的。集合是一个可变的容器,可以随时向集合中添加元素,也可以随时从集合中删除元素。另外,集合还提供了若干个…

Java设计模式(桥接模式)

定义 将抽象部分与它的实现部分解耦,使得两者都能够独立变化。 角色 抽象类(Abstraction):定义抽象类,并包含一个对实现化对象的引用。 扩充抽象类(RefinedAbstraction):是抽象化角…

搭建基于树莓派的Linux学习环境(TODO)

主要是想学一下Linux内核,所以搭一套环境,其实有几个选择,好几个都是我买了板子的。 首先是正点原子的RK3568,最早是想弄安卓,但是SDK的大小真的把我劝退了,动不动几百个G的空间,还有就是保底1…

Mac OS平台,利用 gifify 制作gif教程

一、前言 在很多时候都会用到视频的方式才能直观的表达想表达的东西, 但是视频的文件太大了,所以gif是一个很不错的选择,在网上找了很多免费的都不好用, 最理想的还是直接快捷键唤起,然后选择录制区域,保存…

第128天:内网安全-横向移动IPCATSC 命令Impacket 套件CS 插件全自动

环境部署 案例一: 域横向移动-IPC-命令版-at&schtasks 首先是通过外网web访问到win2008,获得了win2008的权限,这一步不做演示 因为里面的主机都不出网,所以只能利用win2008进行正向或者反向连接 信息收集 域内用户信息&…

【Qt】图形化和纯代码实现Hello world的比较

本篇文章使用俩种方式实现Qt上的Hello world: 通过图形化的方式,在界面上创建出一个控件,显式Hello world通过纯代码的方式,通过编写代码,在界面上创建控件,显示Hello world 图形化方式 双击Forms文件中的…

修改SpringBoot启动图标banner

方式一: 将图标文件命名为banner放在resources目录下 文本文件banner 图片banner 方式二:通过配置文件指定图标路径 指定文本图标:spring.banner.locationclasspath:相对于resources下的位置 ("classpath:"可以省略) 指定图片作为图标: sprin…

同态加密和SEAL库的介绍(一)简介

写在前面: 最近在做同态相关的内容,这里记录下相关的知识点和所踩过的坑,希望对大家有帮助。预计分几篇来详细介绍,从概念简介到不同模式介绍,具体包括了每种模式的编解码和加解密以及他们性能的比对。 虽然同…

win11启动IIS服务配置成web服务器·

为什么要将本地配置为 Web 服务器? 在 Web 开发过程中,将本地配置为 Web 服务器有诸多好处: 实时预览: 修改代码后,无需每次都上传到远程服务器,即可在本地浏览器中实时查看效果。 离线开发: 无需依赖网络连接&#x…

R9000P 双系统安装 win11 和 ubuntu

网上了解到一堆关于 r9000p 安装较老的ubuntu系统,会有一堆问题 可能是电脑硬件比较新,较老的系统相关方面不兼容 那么干脆直接装新一点的系统 我安装了 Ubuntu 22.04 1 根据相关教程利用u盘制作系统盘 ultraISO 推荐使用清华源 速度快一点 https://…

AI资本泡沫要来了么?——Coatue EMW 2024会议摘要

引言 随着生成式人工智能的快速发展,科技领域正经历着一场前所未有的变革。然而,伴随这一热潮而来的,是关于AI资本泡沫的激烈讨论。历史上,每一次技术革命都带来了巨大机遇,同时也伴随着泡沫和风险。本文将通过Coatue…

企业级敏捷框架:业务驱动型敏捷与产品需求团队

本文介绍了一种新的企业级敏捷框架——业务驱动型敏捷(Business-driven Agile)与 PRT(Product Requirement Team),旨在解决传统敏捷方法中需求定义的瓶颈,从而提升产品价值并提高开发效率。原文: A new ent…

2024年史上最好用的10款项目管理软件有哪些?

项目管理行业发展趋势 随着信息技术的不断进步,项目管理也呈现出愈加智能化、自动化的发展趋势。无论是大型企业还是中小型公司,都亟需借助先进的项目管理工具,来实现对项目进度、资源、风险等各个环节的精细化管控。 然而在实际应用中&…

Git合并多笔提交为一笔

Git合并多笔提交为一笔 1. 背景 在实际项目开发中,我们会基于生产分支拉出很多需求分支,在需求分支开发完成后再将代码合到生产分支,但随着提交次数越来越多,我们在合到生产分支的时候就得一笔一笔的入库,特别麻烦&a…

Nacos-配置中心

1.为什么要使用配置中心&#xff1f; 2.常用的配置中心组件&#xff1f; 3.如何使用&#xff1f; 在配置中心创建配置文件 启动一个单列的nacos服务 点击发布 在微服务中使用 添加依赖 <!--nacso配置中心的依赖--><dependency><groupId>com.alibaba.cloud&l…

安卓Termux系统设备安装内网穿透工具实现远程使用SFTP传输文件

文章目录 前言1. 安装openSSH2. 安装cpolar3. 远程SFTP连接配置4. 远程SFTP访问4. 配置固定远程连接地址 前言 本教程主要介绍如何在安卓 Termux 系统中使用 SFTP 文件传输&#xff0c;并结合cpolar内网穿透工具生成公网地址&#xff0c;轻松实现无公网IP环境远程传输&#xf…

SQLiteStudio 连接sqlite3数据库(真机数据库可视化调试)

SQLiteStudio安装 官网链接&#xff1a;https://sqlitestudio.pl/ 下载后&#xff0c;直接按部就班&#xff0c;打开即可使用 用户手册&#xff08;工具如何使用直接看这份就可以了&#xff09;&#xff1a;https://github.com/pawelsalawa/sqlitestudio/wiki/User_Manual 其…

网安新声 | 微软蓝屏事件安全启示录

网安加社区【网安新声】栏目&#xff0c;汇聚网络安全领域的权威专家与资深学者&#xff0c;紧跟当下热点安全事件、剖析前沿技术动态及政策导向&#xff0c;以专业视野和前瞻洞察&#xff0c;引领行业共同探讨并应对新挑战的策略与可行路径。 2024年7月19日&#xff0c;微软发…