NLP论文速读(剑桥大学出品)|分解和利用专家模型中的偏好进行改进视觉模型的可信度

论文速读|Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs

论文信息:

简介:

      本文探讨的背景是多模态大型语言模型(MLLMs),这类模型通过结合视觉特征和文本空间来增强语言模型的能力。尽管MLLMs在视觉-语言任务中取得了显著的性能,但它们往往表现出过度自信,并可能提供与图像内容不一致的问题性回应。为了提高MLLMs的可信度,对齐人类偏好是一个有效的方法,但获取人类偏好标注既昂贵又费力。因此,近期的工作采用评估模型来自动构建偏好数据集,以评估MLLMs的回应。然而,MLLMs的回应通常较长且复杂,需要多样化的推理技能,单一评估模型可能无法完全具备这些技能。本文动机在于现有的评估模型(Eval-M)在评估MLLMs的回应时存在局限性,特别是在处理MLLMs的长且组合性的回应时。此外,现有的方法主要依赖于封闭源评估模型,这不仅成本高昂,而且不够透明。为了克服这些限制,本文提出了一个可分解的框架DecompGen,它使用一组开源专家模型来提供对MLLMs回应的细粒度评估,并自动构建偏好数据集。

论文方法:

      本文提出了一个名为DecompGen的框架,它通过以下几个步骤来实现:

      1)响应分解(Response Decomposition)

       DecompGen将MLLMs的回应分解为与视觉检查相关的短小部分,然后将每个部分进一步分解为原子验证任务。这些任务包括对象存在验证、对象关系验证、对象属性验证、对象计数验证和图像文本验证。

      2)专家模型执行(Expert Execution)

       在分解回应为原子验证任务后,DecompGen会动态组装并执行专家模型,每个模型负责一个特定的原子验证任务。这些专家模型包括对象检测模型、视觉问答模型(VQA)和光学字符识别(OCR)工具等。

      3)偏好数据生成(Preference Data Generation)

       DecompGen使用从专家模型执行中获得的细粒度反馈分数来构建偏好数据集DGPref。这个数据集用于通过直接偏好优化(DPO)方法对MLLMs进行偏好对齐。

      4)模型对齐(Model Alignment)

       使用DGPref数据集,MLLMs通过DPO进行偏好学习,以最大化选择偏好回应与拒绝回应之间的奖励差异。

论文实验:

       论文使用了三个基准数据集来评估MLLMs的幻觉(hallucinations)问题。

       论文中使用了两个MLLMs作为基础模型:LLaVA-v1.5和Qwen-VL-Chat,两者都有7B模型参数。

       为了构建DGPref,使用了Visual Genome(VG)作为图像源,产生了16k图像和52k偏好数据样本。

       在DPO训练中,为了参数效率,采用了低秩适应(LoRA)技术,并且设置采样温度为0,生成的最大长度为1024。

       与基础MLLMs比较:偏好学习后,DGPrefLLaVA和DGPrefQwen在幻觉率上有显著下降,同时保持或提高了信息丰富度。

       与基线比较:使用偏好数据的方法通常比仅使用解码策略的方法表现更好。DGPrefQwen在错误率上与最强的基线相当或更低,同时在幻觉缓解和信息丰富度之间取得了更好的平衡。

       消融研究:分析了考虑的检查方面、专家模型性能和图像源对DecompGen偏好数据收集的影响。

论文链接:

https://arxiv.org/pdf/2411.13697

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/479045.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CentOS8.5.2111(7)完整的Apache综合实验

一、实验目标 1.掌握Linux系统中Apache服务器的安装与配置; 2.掌握个人主页、虚拟目录、基于用户和主机的访问控制及虚拟主机的实现方法。 二、实验要求 练习使用linux系统下WEB服务器的配置方法。 三、实验背景 重庆工程学院为筹备“重庆工程大学”特申请了c…

零基础3分钟快速掌握 ——Linux【终端操作】及【常用指令】Ubuntu

1.为啥使用Linux做嵌入式开发 能广泛支持硬件 内核比较高效稳定 原码开放、软件丰富 能够完善网络通信与文件管理机制 优秀的开发工具 2.什么是Ubuntu 是一个以桌面应用为主的Linux的操作系统, 内核是Linux操作系统, 具有Ubuntu特色的可视…

JVM类加载和垃圾回收算法详解

文章目录 JVM一、JVM运行流程1. JVM执行流程 二、JVM运行时数据区1. 程序计数器(线程私有)2. 虚拟机栈 (线程私有)3. 本地方法栈(线程私有)4. 堆(线程共享)5. 元空间(线程…

iOS 17.4 Not Installed

0x00 系统警告 没有安装 17.4 的模拟器,任何操作都无法进行! 点击 OK 去下载,完成之后,依旧是原样! 0x01 解决办法 1、先去官网下载对应的模拟器: https://developer.apple.com/download/all/?q17.4 …

day04 企业级Linux安装及远程连接知识实践

1. 使用传统的网卡命名方式 在启动虚拟机时,按tab键进入编辑模式 添加命令: net.ifnames0 biosdevname0 这样linux系统会使用传统的网卡命名,例如eth0、eth1…… 2. 快照 做系统关键操作时,一定要使用快照(先将系统关机) 3.…

人体特定吸收率 (SAR) 分布建模

ANSYS HFSS 提供了一种建模 SAR 分布的方法! 2020 年对我们所有人来说都是充满挑战的一年,由于 COVID 19 限制和居家隔离,许多工程师不得不推迟开发时间表。ANSYS HFSS 为所有工程师提供了一种在家安全工作的好方法。隔离期间,您…

.NET9 - Swagger平替Scalar详解(四)

书接上回,上一章介绍了Swagger代替品Scalar,在使用中遇到不少问题,今天单独分享一下之前Swagger中常用的功能如何在Scalar中使用。 下面我们将围绕文档版本说明、接口分类、接口描述、参数描述、枚举类型、文件上传、JWT认证等方面详细讲解。…

计算(a+b)/c的值

计算(ab)/c的值 C语言代码C语言代码Java语言代码Python语言代码 💐The Begin💐点点关注,收藏不迷路💐 给定3个整数a、b、c,计算表达式(ab)/c的值,/是整除运算。 输入 输入仅一行&…

PICO 获取设备号 SN码

Unity版本 2020.3.42f1c1PICO SDK版本PICO Unity Integration SDK-3.0.5-20241105Pico设备pico 4ultra 注意 此api暂时只测试企业版本 pico 4ultra 代码 using Unity.XR.PICO.TOBSupport;private void Awake() {bool result PXR_Enterprise.InitEnterpriseService();Debug.L…

【大数据技术基础】 课程 第8章 数据仓库Hive的安装和使用 大数据基础编程、实验和案例教程(第2版)

第8章 数据仓库Hive的安装和使用 8.1 Hive的安装 8.1.1 下载安装文件 访问Hive官网(http://www.apache.org/dyn/closer.cgi/hive/)下载安装文件apache-hive-3.1.2-bin.tar.gz 下载完安装文件以后,需要对文件进行解压。按照Linux系统使用的…

[STM32]从零开始的STM32 FreeRTOS移植教程

一、前言 如果能看到这个教程的话,说明大家已经学习嵌入式有一段时间了。还记得嵌入式在大多数时候指的是什么吗?是的,我们所说的学习嵌入式大部分时候都是在学习嵌入式操作系统。从简单的一些任务状态机再到复杂一些的RTOS,再到最…

DAY133权限提升-Windows权限提升篇溢出漏洞土豆家族通杀全系补丁对比EXP筛选

知识点 1、Web到Win-系统提权-土豆家族 2、Web到Win-系统提权-人工操作 章节点: 1、Web权限提升及转移 2、系统权限提升及转移 3、宿主权限提升及转移 4、域控权限提升及转移 Windows提权: 1、内核溢出漏洞提权 2、数据库类型提权 3、第三方软件…

web day03 Maven基础 Junit

目录 Maven坐标: 依赖排除: 依赖范围: Maven生命周期: 单元测试: Junit入门: 断言: Junit中的常见注解: 概念:Maven 是一款用于管理和构建 Java项目的工具&#…

day18 结构体

有参宏和函数的区别 1.展开时机:有参宏而言,在预处理阶段展开,而函数在调用时才展开 2.内存使用:有参宏而言,占用的是所在函数的空间,而函数在调用时会单独开辟空间 3.效率上:有参宏的效率比…

44.扫雷第二部分、放置随机的雷,扫雷,炸死或成功 C语言

按照教程打完了。好几个bug都是自己打出来的。比如统计周围8个格子时,有一个各自加号填成了减号。我还以为平移了,一会显示是0一会显示是2。结果单纯的打错了。debug的时候断点放在scanf后面会顺畅一些。中间多放一些变量名方便监视。以及mine要多显示&a…

docker 通过Dockerfile自定义的镜像部署Springboot项目

一、镜像结构介绍: 镜像:层(Layer)添加安装包、依赖、配置等,每一次操作都形成新的一层;基础镜像(BaseImage)应用依赖的系统函数库、环境、配置、文件等;入口&#xff0…

全网最早Towards Generalizable Multi-Object Tracking—通用跟踪器的点跟踪CVPR2024

Towards Generalizable Multi-Object Tracking—迈向可推广的多目标跟踪 原标题:Towards Generalizable Multi-Object Tracking 论文链接:https://arxiv.org/pdf/2406.00429 代码链接:https://github.com/qinzheng2000/GeneralTrack.git 作者…

MyBatis框架-动态SQL-XML中的常用标签+特殊字符在XML中的显示

一、if标签、where标签、trim标签、choose标签、set标签、foreach标签 1、问题引入:where关键字和and关键字在动态SQL里面应该如何添加? (1)if标签: test属性的值是判断条件 if标签里面的内容是条件成立时添加到SQ…

探秘嵌入式位运算:基础与高级技巧

目录 一、位运算基础知识 1.1. 位运算符 1.1.1. 与运算(&) 1.1.2. 或运算(|) 1.1.3. 异或运算(^) 1.1.4. 取反运算(~) 1.1.5. 双重按位取反运算符(~~&#xf…

渗透测试笔记—shodan(7完结)

声明: 学习视频来自B站up主 【泷羽sec】有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&am…