MindGYM:一个用于增强视觉-语言模型推理能力的合成数据集框架,通过生成自挑战问题来提升模型的多跳推理能力。

2025-03-13,由中山大学和阿里巴巴集团的研究团队提出了MindGYM框架,通过合成自挑战问题来增强视觉-语言模型(VLMs)的推理能力。MindGYM框架通过生成多跳推理问题和结构化课程训练,显著提升了模型在推理深度和广度上的表现,同时减少了对大规模数据和计算资源的依赖。

 

一、研究背景

随着视觉-语言模型(VLMs)的发展,其在处理需要联合视觉和文本输入的任务中逐渐成为基础工具。然而,如何让这些模型具备鲁棒的、可迁移的推理能力仍然是一个挑战。目前,高质量的推理数据获取主要依赖于人工标注的数据集或计算成本高昂的自监督学习方法,这限制了模型的推理能力提升。

目前遇到的困难和挑战:

1、数据获取成本高:人工标注的数据集如OK-VQA和ScienceQA需要大量人力进行标注,难以大规模扩展。

2、自监督方法的局限性:现有的自监督合成方法(如MMInstruct和MMEvol)在跨模态和任务的泛化能力上表现不佳,无法紧密耦合视觉和文本语义。

3、推理能力提升的计算成本高:强化学习等推理能力提升方法计算成本高昂,限制了其实际应用。

 

链接地址:MINDGYM|视觉语言推理数据集|多模态认知任务数据集

 

二、让我们一起来看一下MindGYM

MindGYM是一个用于增强视觉-语言模型推理能力的合成数据集框架,通过生成自挑战问题来提升模型的多跳推理能力。

 

构建:

1、种子单跳问题合成:模型基于给定的背景文档生成逻辑相关的单跳问题,涵盖数学、科学、逻辑等多个语义领域。

2、挑战性多跳问题合成:将种子问题通过认知操作(如桥接、比较、视觉-文本对齐等)组合成多跳问题。

3、思维诱导课程微调:通过逐步训练,从有指导的推理到独立推理,提升模型的推理能力。

 

特点:

1、高数据效率:仅用400个合成样本即可实现显著性能提升。

2、计算效率:减少训练和推理成本。

3、泛化能力强:在不同任务和合成源上表现出色。

 

使用方法:

MindGYM框架通过合成数据直接注入训练过程,无需额外数据。用户可以通过调整合成模板和训练策略,将其应用于不同的视觉-语言模型。

 

基准测试:

在多个基准测试中,MindGYM显著优于现有方法,例如在MathVision-Mini任务中,仅用400个样本就实现了16%的性能提升。

 

 

MindGYM 框架架构由三个核心阶段组成:①种子单跳问题合成,②具有挑战性的多跳问题合成,以及③思维诱导式课程微调

 

首先:对文本(例如数学/生物问题)和多模态(文本+图像)上下文的认知感知自我合成。

然后:种子问题通过基于文本的策略(桥接、比较、时间)和多模态推理类型(视觉-文本对齐、空间推理、因果推断、上下文合成)相结合,形成自我挑战性问题。

最后:通过掩码任务学习,课程驱动的微调阶段将结构化的认知能力注入模型。

 

 

三、让我们一起来看一下MindGYM的应用

比如你正在准备一门化学考试,手头有一张复杂的化学反应图,上面画着各种分子结构、反应箭头,还有标注的反应条件。旁边还有一段文字描述,大概讲了这个反应的过程和一些关键信息。问题是,你得根据这张图和文字描述,推断出这个反应在特定条件下的产物是什么,或者这个反应需要在什么温度下才能顺利进行。

这时候,MindGYM就能派上大用场了!它就像是一个智能的“化学助教”,专门帮你训练这种复杂的推理能力。

首先,MindGYM会根据这张化学反应图和文字描述,生成一些基础的单跳问题。比如,它可能会问:“这个反应中的主要反应物是什么?”或者“图中箭头的方向代表什么含义?”这些问题就像是热身,帮助模型先熟悉一下基本的信息。

然后,MindGYM开始“出难题”了。它会把几个基础问题组合起来,生成一个更复杂的多跳问题。比如:“如果这个反应的温度升高到100摄氏度,产物会有什么变化?请结合图中的反应条件和文字描述进行推理。”这就需要模型不仅要理解图和文字的内容,还要能够把它们联系起来,进行多步推理。

在这个过程中,MindGYM还会让模型“说出”它的思考过程。比如说,模型可能会这样回答:“首先,我看到图中标注的反应条件是80摄氏度,产物是A和B。如果温度升高到100摄氏度,根据文字描述中的能量变化规律,反应可能会向生成更多C的方向进行,因为高温会促使反应向吸热方向移动……”

通过这种训练,模型就像是被“逼”着去深入思考科学问题,而不是简单地死记硬背。这样一来,当它真正面对类似的科学问题时,就能更准确地回答,比如在考试中或者在实际的科学研究里。而且,这种训练方式不仅适用于化学,还可以推广到物理、生物等其他科学领域,帮助模型更好地理解和推理各种复杂的科学概念。

 

 

论文中提到数据集:

 

数据集:ScienceQA

数据集介绍:这是一个大规模的多模态数据集,用于标注讲座和解释答案

数据集地址:TheMrguiller/ScienceQA|科学教育数据集|知识问答数据集

 

 

数据集:OK-VQA

数据集介绍:一个用于视觉问答的数据集,要求模型能够结合外部知识回答问题

数据集地址:ReplugLens/OK-VQA|视觉问答数据集|人工智能数据集

 

 

数据集:MMStar

数据集介绍:一个包含1500个挑战样本的多模态基准测试数据集。

数据集地址:Lin-Chen/MMStar

 

 

数据集:MathVista-Mini

数据集介绍:一个结合了多种数学和视觉任务的基准测试数据集,包含6141个样本。

数据集地址:MathVista-Mini

 

 

数据集:MathVision-Mini

数据集介绍:一个包含3040个高质量数学问题的数据集。

数据集地址:MathVision-Mini

 

 

数据集:GSM8K

数据集介绍:一个包含小学数学应用题的数据集,每个问题需要2到8步来解决

数据集地址:openai/gsm8k|数学应用题数据集|自然语言处理数据集

 

 

数据集:MATH

数据集介绍:MATH数据集是一个专注于数学问题解决的数据集,涵盖了代数、几何、数论等多个数学领域。该数据集由多个子集构成,每个子集针对不同的数学主题,旨在为机器学习和自然语言处理领域提供高质量的数学问题与解答数据。

数据集地址:MATH|数学求解数据集|教育技术数据集

 

 

数据集:GPQA

数据介绍:GPQA是一个由生物学、物理学和化学领域的专家编写的448个多选题数据集。该数据集的特点是问题质量高且极其困难,即使是具有博士学位或在读博士的专家也仅能达到65%的准确率,而高技能的非专家验证者仅有34%的准确率。数据集旨在用于研究未来AI系统在帮助解答非常困难问题时的可扩展监督方法,特别是在开发新科学知识时。

数据集地址:GPQA|科学问答数据集|AI监督学习数据集

 

数据集:MMEvol

数据集介绍:一个用于多模态推理的数据集,包含ScienceQA和DVQA两个子集

数据集地址:MMEvol|多模态数据数据集|数据增强数据集

 

 

数据集:LIMO

数据集介绍:一个用于文本推理的数据集,通过少量高质量数据提升模型性能

数据集地址:LIMO

 

 

数据集:Open-O1

数据集介绍:一个用于激活链式推理(CoT)的SFT数据集

数据集地址:​​​OpenO1-SFT|语言模型微调数据集|思维链推理数据集

 

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。 https://www.selectdataset.com/

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33784.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文阅读笔记——LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

LoRA 论文 传统全面微调&#xff0c;对每个任务学习的参数与原始模型相同&#xff1a; m a x Φ ∑ ( x , y ) ∈ Z ∑ t 1 ∣ y ∣ l o g ( P Φ ( y t ∣ x , y < t ) ) 式(1) max_{\Phi}\sum_{(x,y)\in Z}\sum^{|y|}_{t1}log(P_{\Phi}(y_t|x,y<t)) \qquad \text{式(…

Umi-OCR 全家桶

介绍&#xff1a; 下载 访问官网地址 https://github.com/hiroi-sora/umi-ocrhttps://github.com/hiroi-sora/umi-ocr 点击下载&#xff08;.exe 文件 安装即可&#xff09; 桌面使用 安装完毕后去安装路径下点击 Umi-OCR.exe &#xff08;默认不会生成桌面的快捷方式&…

oracle中OS BLOCK的含义

在Oracle数据库中&#xff0c;OS BLOCK&#xff08;操作系统数据块&#xff09;是指操作系统层面上的数据块&#xff0c;它与Oracle数据库内部的逻辑存储单元BLOCK&#xff08;数据块&#xff09;有所区别但密切相关。以下是对OS BLOCK的详细解释&#xff1a; 定义与概念 OS BL…

mac部署GPT-SoVITS,生成粤语踩坑点及使用记录

自己录音&#xff0c;普通话或者粤语 注意&#xff1a; 与在其他设备上训练的模型相比&#xff0c;在mac上使用gpu训练的模型的质量明显较低&#xff0c;因此我们暂时使用cpu代替。 Install Xcode command-line tools by running xcode-select --install.Install FFmpeg by …

STM32-SPI通信外设

目录 一&#xff1a;SPI外设简介 SPI框图​编辑 SPI逻辑 ​编辑 主模式全双工连续传输 ​编辑 非连续传输 二&#xff1a;硬件SPI读写W25Q64 1.接线&#xff1a; 2. 代码 SPI外设的初始化 生成时序 一&#xff1a;SPI外设简介 STM32内部集成了硬件SPI收发电路&#…

游戏引擎学习第158天

回顾和今天的计划 我们在这里会实时编码一个完整的游戏&#xff0c;没有使用引擎或库&#xff0c;一切都由我们自己做所有的编程工作&#xff0c;游戏中的每一部分&#xff0c;无论需要做什么&#xff0c;我们都亲自实现&#xff0c;并展示如何完成这些任务。今天&#xff0c;…

指令微调 (Instruction Tuning) 与 Prompt 工程

引言 预训练语言模型 (PLMs) 在通用语言能力方面展现出强大的潜力。然而&#xff0c;如何有效地引导 PLMs 遵循人类指令&#xff0c; 并输出符合人类意图的响应&#xff0c; 成为释放 PLMs 价值的关键挑战。 指令微调 (Instruction Tuning) 和 Prompt 工程 (Prompt Engineerin…

实验三 Python 数据可视化 Python 聚类-K-means(CQUPT)

一、实验目的 Python 数据可视化&#xff1a; 1、学习使用 jieba、wordcloud 等类库生成词云图。 2、学习使用 Matplotlib 库进行数据可视化。 Python 聚类-K-means&#xff1a; 1、理解聚类非监督学习方法的基本原理。 2、掌握 Python、numpy、pandas、sklearn 实现聚类…

Linux--git

ok&#xff0c;我们今天来学习如何在Linux上建立链接git 版本控制器Git 不知道你⼯作或学习时&#xff0c;有没有遇到这样的情况&#xff1a;我们在编写各种⽂档时&#xff0c;为了防⽌⽂档丢失&#xff0c;更改 失误&#xff0c;失误后能恢复到原来的版本&#xff0c;不得不…

凸优化算法学习笔记:决策单调性与 wqs二分

文章目录 前言决策单调性单调矩阵&#xff0c;完全单调矩阵&#xff0c;蒙日阵决策单调性优化 d p dp dp线性 d p dp dp分治&#xff08;离线&#xff09;二分队列&#xff08;在线&#xff09;SMAWK 区间 d p dp dp 练习题LOJ6039 w q s wqs wqs 二分&#xff08;蒙日阵最短…

基于YOLOv8深度学习的PCB缺陷检测识别系统【python源码+GUI界面+数据集+训练代码】

目录 一、界面功能展示 二、前言摘要 三、GUI界面演示 &#xff08;一&#xff09;用户加载自定义模型 &#xff08;二&#xff09;单张图像检测 &#xff08;三&#xff09;检测图像文件夹 &#xff08;四&#xff09;检测视频 &#xff08;五&#xff09;保存 四、模…

Matlab 多项式拟合点法线(二维)

文章目录 一、简介二、实现代码三、实现效果一、简介 这个思路其实很简单,假设我们有一组曲线点,我们可以对其拟合曲线并计算其导数来获取每个点的法向量,当然这一思路也可以扩展至三维。具体过程如下所示: 二、实现代码 %% *********

Cesium 入门教程(基于 vue3)

目录 Cesium 介绍&#xff1a; 下载 Cesium&#xff0c;2种路径: 下载成功后&#xff0c;创建 vue3 项目&#xff1a; 编写内容 一个“纯”地球 添加图层 坐标系及其数值转换 相机位置及动态交互 添加物体和3维建筑物 Cesium 介绍&#xff1a; Cesium 是一个开源的 JavaScript …

力扣——合并K个排序链表

题目链接&#xff1a; 链接 题目描述&#xff1a; 思路&#xff1a; 同步合并 已知顺序排列&#xff0c;每个链表的node比较再加进结果&#xff0c;用优先队列方便比较node&#xff0c;可以先把每个链表的头结点加进队列&#xff0c;然后队列头出&#xff0c;出来的头还有n…

可复用表格组件设计与实现:分页、排序、筛选全功能解析

文章目录 一、组件设计思路1.1 功能需求分析1.2 技术选型 二、组件架构设计2.1 组件结构2.2 数据流设计 三、核心代码实现3.1 基础表格组件3.2 状态管理 四、功能模块实现4.1 分页组件4.2 排序控制4.3 筛选控制 五、性能优化方案5.1 虚拟滚动5.2 防抖筛选 六、完整测试方案6.1 …

Unity屏幕适配——立项时设置

项目类型&#xff1a;2D游戏、竖屏、URP 其他类型&#xff0c;部分原理类似。 1、确定设计分辨率&#xff1a;750*1334 为什么是它&#xff1f; 因为它是 iphone8 的尺寸&#xff0c;宽高比适中。 方便后续适配到真机的 “更长屏” 或 “更宽屏” 2、在场景…

PawSQL for TDSQL:腾讯云TDSQL数据库性能优化全攻略

TDSQL 作为腾讯云推出的分布式数据库&#xff0c;凭借其高扩展性、高可用性和高性能等优势&#xff0c;广泛应用于金融、互联网、政务等领域。随着业务的不断增长和数据量的爆炸式增长&#xff0c;如何优化 TDSQL 数据库的性能&#xff0c;成为众多企业和开发者面临的挑战。本文…

机器学习(七)

一&#xff0c;监督学习和无监督学习聚类的数据集比较&#xff1a; 监督学习&#xff1a; 数据集包括输入的数据和与之对应的标签 无监督学习&#xff1a; 数据集仅含有输入的数据&#xff0c;要求算法自己通过所给的数据集来确定决策边界 二&#xff0c;聚类(Clustering): 聚…

海鲜水产行业wordpress外贸主题

模板采用清新的海洋风格设计&#xff0c;完美契合水产和海鲜行业的特点&#xff0c;让您的网站在众多竞争者中脱颖而出。 高质量的图片展示区域&#xff0c;让您可以展示新鲜捕捞的海鲜产品&#xff0c;吸引客户的注意力。 多功能性&#xff0c;满足业务需求&#xff1a; 模…

调优案例一:堆空间扩容提升吞吐量实战记录

&#x1f4dd; 调优案例一&#xff1a;堆空间扩容提升吞吐量实战记录 &#x1f527; 调优策略&#xff1a;堆空间扩容三部曲 # 原配置&#xff08;30MB堆空间&#xff09; export CATALINA_OPTS"$CATALINA_OPTS -Xms30m -Xmx30m"# 新配置&#xff08;扩容至120MB&am…