AI的欺骗游戏:揭示多模态大型语言模型的易受骗性

人工智能咨询培训老师叶梓 转载标明出处

多模态大型语言模型(MLLMs)在处理包含欺骗性信息的提示时容易生成幻觉式响应。尤其是在生成长响应时,仍然是一个未被充分研究的问题。来自 Apple 公司的研究团队提出了MAD-Bench,一个包含850个测试样本的精心策划的基准测试,这些样本分为六类,包括不存在的对象、对象数量、空间关系和视觉混淆等。研究者对流行的MLLMs进行了全面分析,包括GPT-4V、Gemini-Pro以及开源模型如LLaVA-1.5和CogVLM。实验结果显示,GPT-4V在MAD-Bench上的准确率达到75.02%,而其他模型的准确率仅为5%至35%。另外本文提出了一种通过添加额外段落来增强模型在面对欺骗性提示时的鲁棒性的方法,该方法能显著提高模型的准确率。

多模态大模型(如LLaVA1.5)如何容易地被包含错误信息的提示所欺骗

MAD-Bench

欺骗类别包含六个不同的类别,共计850对图像-提示对,旨在测试MLLMs对欺骗性提示的抵抗力。表1提供了每个类别的统计数据,图2展示了欺骗性提示的示例。

MAD-Bench中850个图像-提示对的统计数据。
MAD-Bench中使用的欺骗性提示的例子以及模型的响应示例

六个类别的详细说明:

对象数量 (Count of Object):该类别故意引用图像中可见对象的错误数量。如果响应断言图像中存在m个对象'A'的实例,而实际上存在不同的数量n(n与m不同且非零),则响应未通过此测试。

不存在的对象 (Non-existent Object):在这里,提示询问图像中不存在的对象。如果响应确认这些不存在的对象为存在,则失败。

对象属性 (Object Attribute):该类别包括不准确描述可见对象属性的提示。如果响应将这些不正确的特征归因于图像中的实际对象,则失败。

场景理解 (Scene Understanding):该类别涉及不准确描述图像中包含对象的场景的提示。如果响应正确识别了对象的动作,但误解了与欺骗性提示一致的场景或背景,则会出错。

空间关系 (Spatial Relationship):该类别呈现了错误指定图像中确实存在的对象之间的空间动态的提示。如果响应正确识别了对象,但错误地表示了它们的空间关系,则出错。

视觉混淆 (Visual Confusion):该类别与其他类别不同,使用提示和图像作为欺骗的工具,通常对人类眼睛也是欺骗性的。该类别包括三种类型的图像:(i)描绘裸眼3D绘画或屏幕的图像,(ii)视觉错位摄影,以及(iii)镜面反射。

MAD-Bench中视觉混淆类别的示例图像-提示对

研究者们通过使用GPT-4自动创建了欺骗性提示,这一过程利用了COCO数据集提供的地面真实字幕。之所以选择GPT-4而非GPT-4V来完成这项任务,是因为GPT-4V本身也是后续在MAD-Bench基准测试中要被评估的模型之一。从经验上判断,GPT-4的能力已经足够应对这项任务。

为了确保GPT-4能够生成符合特定类别并可能误导MLLMs的问题,研究者们精心设计了一系列定制化的提示。这些提示的具体内容可以在附录A.2中的图16至20找到。在生成过程中,并没有使用边界框信息,因为研究者们发现,这些信息对于提高欺骗性类别提示的质量并没有额外帮助。

生成欺骗性问题后,研究者们进行了严格的手动筛选,确保每个问题不仅符合其所属类别的欺骗标准,而且与相应的图像保持高度相关性。这一筛选过程对于保证MAD-Bench基准测试的质量至关重要。

使用GPT-4和COCO数据集真值字幕生成欺骗性提示的过程

在响应评估方面,研究者们同样利用GPT-4对10种不同模型生成的响应进行了评估。这些模型包括6个开源模型:LLaVA-1.5、InstructBLIP、Ferret、Kosmos2、mPLUG-Owl2和CogVLM;2个旨在减少幻觉的额外开源模型:LLaVA-RLHF和LRV-V1;以及2个最先进的专有系统:Gemini-Pro和GPT-4V。

由于视觉混淆类别中的图像数量较少,且大部分包含人类,而Gemini模型不能对包含人类的图像生成响应,因此在这个类别中没有对Gemini进行评估。但这一决定对其他类别的评估影响微乎其微。

与提示生成方法相一致,研究者们为每个欺骗类别设计了特定的评估提示,这些提示的目的是严格评估模型的响应。评估的主要指标是二元的,即仅关注响应是否被误导,而不涉及其他定性因素,如响应的帮助性等。这些用于模型评估的提示可以在附录A.3中找到。

为了确保评估过程的准确性,研究者们随机选取了500个响应,覆盖了不同的模型和欺骗类别,进行了手动准确性检查。这一验证过程显示出97.0%的高一致率,证明了研究者们所采用方法的可靠性。这种高一致率也进一步增强了MAD-Bench基准测试结果的有效性和信任度。

实验

研究者们在MAD-Bench基准测试中对多模态大模型(MLLMs)的评估揭示了这些模型在处理欺骗性信息时的脆弱性。尽管GPT-4V在场景理解和视觉混淆类别中展现出超过90%的准确率,但其他模型的表现则参差不齐,准确率仅在5%至35%之间。特别是那些旨在减少幻觉的模型,比如LRV-V1,它们在面对MAD-Bench中的挑战时,并没有展现出预期的鲁棒性。

一些支持边界框输入和输出的模型,如Ferret和Kosmos-2,在基准测试中的表现并不理想。这可能是因为这些模型在正面数据上的训练,使得它们在面对提示中提及的不存在的对象时,仍然倾向于将它们作为存在的进行定位。这种现象反映出MLLMs在理解视觉和语言信息不一致时的困难。

MAD-Bench上的主要结果,列出了不同模型在各个类别中的准确率

在详细分析模型对欺骗性提示的反应后,研究者们发现了几种常见的错误类型。例如,当模型接收到提及图像中不存在对象的提示时,它们可能会错误地识别图像中的其他对象为提示中所指的对象。这种不准确的对象检测可能是由于模型过度依赖于提示中的信息,而没有充分考虑视觉数据的实际情况。

另外模型在区分图像中提示所指的不同对象时也遇到了困难,有时将单一对象错误地识别为多个不同的实体,导致重复描述。这种冗余的对象识别可能源于模型在处理复杂视觉场景时的局限性。

更复杂的是模型有时会对图像中不可见的对象赋予特征或行为。这种行为可能是由于模型依赖于其内部知识库,试图为提示中提到的对象构造描述,即使这些对象在视觉数据中并不存在。这不仅揭示了模型在视觉识别上的不足,也暴露了它们在结合视觉和语言信息时的挑战。

研究者们还观察到模型在生成响应的过程中存在不一致性。在某些情况下,模型生成的回应中的句子会相互矛盾,反映出模型在决策过程中的犹豫不决。这种不一致性凸显了MLLMs在处理复杂提示时需要进一步改进的迫切性。

最后研究者介绍了一种旨在增强多模态大型语言模型(MLLMs)对欺骗性提示的鲁棒性并确保输出与输入图像一致性的简单而有效的方法。这一增强通过将一个额外的段落整合到系统提示中来实现,该段落可以直接添加到现有提示之前,或者根据不同模型的特定需求以不同的方式整合。

为了创建这个额外的段落,研究者们利用了GPT-4的帮助。这个段落的设计旨在鼓励模型在回答问题之前进行深思熟虑或逐步思考。例如,在表格3中展示的结果,显示了几种MLLMs在采用这种方法后的模型性能提升情况。例如,LLaVA-NeXT-13b模型的性能提升了18.56%,尽管其绝对准确率仍然不尽人意。而MiniCPM-Llama3-v2.5模型在采用这种方法后,准确率的增幅达到了63.56%,在测试的五种模型中表现最为显著。对于已经达到82.82%准确率的GPT-4V模型,使用这种方法可以进一步提高准确率至92.23%。

在修改测试提示后,MAD-Bench上不同模型的结果和性能提升

图5提供了MiniCPM-Llama3-v2.5、GPT-4V、Phi3和LLaVA-NeXT-13b模型在测试提示修改后抵御欺骗性提示的能力示例。这种增强表明,策略性提示设计可能是提高AI模型对误导或混淆尝试的鲁棒性的有价值方法。需要注意这种实现尚未完全优化,一些MLLMs由于输入序列长度限制等原因而不支持这种方法。

GPT-4V在面对欺骗性提示时的一些失败案例

总而言之MLLMs在面对欺骗性提示时有明显的脆弱性,尽管GPT-4V表现最佳,但仍有很大的改进空间。希望MAD-Bench这一新的基准测试能够激发进一步的研究,以增强模型对欺骗性提示的抵抗力。

论文链接:https://arxiv.org/abs/2402.13220

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/385393.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DLMS/COSEM中公开密钥算法的使用_椭圆曲线加密法

1.概述 椭圆曲线密码涉及有限域上的椭圆曲线上的算术运算。椭圆曲线可以定义在任何数字域上(实数、整数、复数),但在密码学中,椭圆曲线最常用于有限素数域。 素数域上的椭圆曲线由一组实数(x, y)组成,满足以下等式: 方程的所有解的集合构成…

内网漏扫工具fscan

一、介绍: fscan是一款内网综合扫描工具,方便一键自动化、全方位漏扫扫描。支持主机存活探测、端口扫描、常见服务的爆破、ms17010、redis批量写公钥、计划任务反弹shell、读取win网卡信息、web指纹识别、web漏洞扫描、netbios探测、域控识别等功能。 …

Pytorch使用教学8-张量的科学运算

在介绍完PyTorch中的广播运算后,继续为大家介绍PyTorch的内置数学运算: 首先对内置函数有一个功能印象,知道它的存在,使用时再查具体怎么用其次,我还会介绍PyTorch科学运算的注意事项与一些实用小技巧 1 基本数学运算…

【高中数学/反比例函数/增减区间】从熟悉的y=1/x到陌生的y=x/(1-x)的演变

【题目】 求yx/(1-x)的递增区间? 【解答】 此问题只要能画出yx/(1-x)的大致图像就能解答,首先我们需要将分式化简: yx/(1-x)(x-11)/(1-x)-11/(1-x) 从新的函数式中我们可以判断这也是一个反比例函数,可以从y1/x演变过来。 下…

vue2和el-input无法修改和写入,并且不报错

文章目录 一. 业务场景描述二. 原因分析三.解决方案3.1 方案一 原生标签(不建议)3.2 方案二 父子传递(不建议)3.3 方案三 vuex,pinia 状态传值(不建议)3.4 方案四 vue初始化属性 (建…

PyCharm2024 专业版激活设置中文

PyCharm2024 专业版激活设置中文 官网下载最新版:https://www.jetbrains.com/zh-cn/pycharm/download 「hack-jet激活idea家族.zip」链接:https://pan.quark.cn/s/4929a884d8fe 激活步骤: 官网下载安装PyCharm ;测试使用的202…

javaEE-01-tomcat

文章目录 javaWebTomcat启动 Tomcat 服务器测试服务器是否成功停止tomcat服务器修改服务器的端口号 Idea整合tomcat服务器 javaWeb 所有通过 Java 语言编写可以通过浏览器访问的程序的总称,是基于请求和响应来开发的。 请求: 客户端给服务器发送数据(Request)响应: 服务器给客…

[极客大挑战 2019]BabySQL1

这是上一个SQL注入的升级版,首先打开靶机 有了上次的经验,我们直接联合查询:?usernameaaaunion select null,null,null#&password1234 看报错信息,null,null,null#有错误,猜测select被过滤…

spring常用注解有哪些

Spring框架使用了大量的注解来简化配置和开发,以下是一些常用的Spring注解: 1.Component:通用的构造型注解,用于标记一个类作为Spring管理的组件,通常用于自定义组件。 2.Autowired:用于自动装配Bean&#…

OCCT使用指南:Foundation Classes

1、介绍 本手册解释了如何使用Open CASCADE Technology (OCCT) Foundation Classes。它提供了关于基础类的基础文档。有关基础类及其应用的高级信息,请参阅我们的电子学习和培训产品。 基础类提供各种通用服务,如自动动态内存管理(通过句柄操…

RT-Thread debug 卡死在Stm32_putc问题分析解决

问题和解决方法 找了块开发板玩RT-Thread,一顿骚操作之后,发现debug就卡死在Stm32_putc(不稳定,反复重新上下电,重来有时候卡死有时候不卡死),卡死情况如下图: 先最后的解决方法:取消调默认的内…

MySQL数据库-备份恢复

一、MySQL日志管理 1.为什么需要日志 用于排错用来做数据分析了解程序的运行情况,了解MySQL的性能 2.日志作用 在数据库保存数据时,有时候不可避免会出现数据丢失或者被破坏,这样情况下,就必须保证数据的安全性和完整性&#…

《javaEE篇》--阻塞队列详解

阻塞队列 阻塞队列概述 阻塞队列也是一种队列,和普通队列一样遵循先进先出的原则,但是阻塞队列相较于普通队列多了两项功能阻塞添加和阻塞移除,使得阻塞队列成为一种线程安全的数据结构 阻塞添加:当队列满的时候继续入队就会阻…

css大屏设置中间元素四周渐变透明效果

css大屏设置中间元素四周渐变透明效果 四周透明效果: // 设置蒙版上下左右渐变显示mask-image: linear-gradient(to right, rgba(0, 0, 0, 0) 0%, rgba(0, 0, 0, 1) 10%, rgba(0, 0, 0, 1) 90%, rgba(0, 0, 0, 0) 100%),linear-gradient(to bottom, rgba(0, 0, 0…

scrapy 爬取旅游景点相关数据(一)

第一节 Scrapy 练习爬取穷游旅游景点 配套视频可以前往B站:https://www.bilibili.com/video/BV1Vx4y147wQ/?vd_source4c338cd1b04806ba681778966b6fbd65 本项目为scrapy 练手项目,爬取的是穷游旅游景点列表数据 0 系统的环境 现在网上可以找到很多scr…

ArcGIS Desktop使用入门(四)——ArcMap软件彻底卸载删除干净

系列文章目录 ArcGIS Desktop使用入门(一)软件初认识 ArcGIS Desktop使用入门(二)常用工具条——标准工具 ArcGIS Desktop使用入门(二)常用工具条——编辑器 ArcGIS Desktop使用入门(二&#x…

AV1技术学习:Quantization

量化是对变换系数进行,并将量化索引熵编码。AV1的量化参数 QP 的取值范围是0 ~ 255。 一、Quantization Step Size 在给定的 QP 下,DC 系数的量化步长小于 AC 系数的量化步长。DC 系数和 AC 系数从 QP 到量化步长的映射如下图所示。当 QP 为 0 时&…

全开源收银系统源码-支付通道

1.收银系统开发语言 核心开发语言: PHP、HTML5、Dart后台接口: PHP7.3后合管理网站: HTML5vue2.0element-uicssjs线下收银台(安卓/PC收银、安卓自助收银): Dart3框架:Flutter 3.19.6助手: uniapp商城: uniapp 2.支付通道 智慧新零售收银系统…

使用vscode,cmake,opencv gpu进行硬解码视频

在此之前需要基于msvc编译器来编译gpu版opencv,详细内容请查看windows下不依赖Visual Studio编译gpu版opencv,支持硬解码硬编码 vscode安装:这个就不赘述了,安装完vscode后需要安装cmake tools插件配置opencv的dll库路径&#xf…

Windows版MySQL8.4.2LTS解压直用(下载免安装-绿色-项目打包直接使用-含卸载)

文章目录 下载地址选择GPL选择server选择8.5.2LTS长期服务版 配置解压配置环境变量初始化新建my.ini配置root密码安装mysql启动mysql服务 使用mysql登陆mysql修改mysql密码设置客户端可连接远程MySQL服务器修改host为值为”%“ 执行语句: update user set host% where userroot…