MindGYM：一个用于增强视觉-语言模型推理能力的合成数据集框架，通过生成自挑战问题来提升模型的多跳推理能力。

2025-03-13，由中山大学和阿里巴巴集团的研究团队提出了MindGYM框架，通过合成自挑战问题来增强视觉-语言模型（VLMs）的推理能力。MindGYM框架通过生成多跳推理问题和结构化课程训练，显著提升了模型在推理深度和广度上的表现，同时减少了对大规模数据和计算资源的依赖。

一、研究背景

随着视觉-语言模型（VLMs）的发展，其在处理需要联合视觉和文本输入的任务中逐渐成为基础工具。然而，如何让这些模型具备鲁棒的、可迁移的推理能力仍然是一个挑战。目前，高质量的推理数据获取主要依赖于人工标注的数据集或计算成本高昂的自监督学习方法，这限制了模型的推理能力提升。

目前遇到的困难和挑战：

1、数据获取成本高：人工标注的数据集如OK-VQA和ScienceQA需要大量人力进行标注，难以大规模扩展。

2、自监督方法的局限性：现有的自监督合成方法（如MMInstruct和MMEvol）在跨模态和任务的泛化能力上表现不佳，无法紧密耦合视觉和文本语义。

3、推理能力提升的计算成本高：强化学习等推理能力提升方法计算成本高昂，限制了其实际应用。

链接地址：MINDGYM|视觉语言推理数据集|多模态认知任务数据集

二、让我们一起来看一下MindGYM

MindGYM是一个用于增强视觉-语言模型推理能力的合成数据集框架，通过生成自挑战问题来提升模型的多跳推理能力。

构建：

1、种子单跳问题合成：模型基于给定的背景文档生成逻辑相关的单跳问题，涵盖数学、科学、逻辑等多个语义领域。

2、挑战性多跳问题合成：将种子问题通过认知操作（如桥接、比较、视觉-文本对齐等）组合成多跳问题。

3、思维诱导课程微调：通过逐步训练，从有指导的推理到独立推理，提升模型的推理能力。

特点：

1、高数据效率：仅用400个合成样本即可实现显著性能提升。

2、计算效率：减少训练和推理成本。

3、泛化能力强：在不同任务和合成源上表现出色。

使用方法：

MindGYM框架通过合成数据直接注入训练过程，无需额外数据。用户可以通过调整合成模板和训练策略，将其应用于不同的视觉-语言模型。

基准测试：

在多个基准测试中，MindGYM显著优于现有方法，例如在MathVision-Mini任务中，仅用400个样本就实现了16%的性能提升。

MindGYM 框架架构由三个核心阶段组成：①种子单跳问题合成，②具有挑战性的多跳问题合成，以及③思维诱导式课程微调

首先：对文本（例如数学/生物问题）和多模态（文本+图像）上下文的认知感知自我合成。

然后：种子问题通过基于文本的策略（桥接、比较、时间）和多模态推理类型（视觉-文本对齐、空间推理、因果推断、上下文合成）相结合，形成自我挑战性问题。

最后：通过掩码任务学习，课程驱动的微调阶段将结构化的认知能力注入模型。

三、让我们一起来看一下MindGYM的应用

比如你正在准备一门化学考试，手头有一张复杂的化学反应图，上面画着各种分子结构、反应箭头，还有标注的反应条件。旁边还有一段文字描述，大概讲了这个反应的过程和一些关键信息。问题是，你得根据这张图和文字描述，推断出这个反应在特定条件下的产物是什么，或者这个反应需要在什么温度下才能顺利进行。

这时候，MindGYM就能派上大用场了！它就像是一个智能的“化学助教”，专门帮你训练这种复杂的推理能力。

首先，MindGYM会根据这张化学反应图和文字描述，生成一些基础的单跳问题。比如，它可能会问：“这个反应中的主要反应物是什么？”或者“图中箭头的方向代表什么含义？”这些问题就像是热身，帮助模型先熟悉一下基本的信息。

然后，MindGYM开始“出难题”了。它会把几个基础问题组合起来，生成一个更复杂的多跳问题。比如：“如果这个反应的温度升高到100摄氏度，产物会有什么变化？请结合图中的反应条件和文字描述进行推理。”这就需要模型不仅要理解图和文字的内容，还要能够把它们联系起来，进行多步推理。

在这个过程中，MindGYM还会让模型“说出”它的思考过程。比如说，模型可能会这样回答：“首先，我看到图中标注的反应条件是80摄氏度，产物是A和B。如果温度升高到100摄氏度，根据文字描述中的能量变化规律，反应可能会向生成更多C的方向进行，因为高温会促使反应向吸热方向移动……”

通过这种训练，模型就像是被“逼”着去深入思考科学问题，而不是简单地死记硬背。这样一来，当它真正面对类似的科学问题时，就能更准确地回答，比如在考试中或者在实际的科学研究里。而且，这种训练方式不仅适用于化学，还可以推广到物理、生物等其他科学领域，帮助模型更好地理解和推理各种复杂的科学概念。

论文中提到数据集：

数据集：ScienceQA

数据集介绍：这是一个大规模的多模态数据集，用于标注讲座和解释答案

数据集地址：TheMrguiller/ScienceQA|科学教育数据集|知识问答数据集

数据集：OK-VQA

数据集介绍：一个用于视觉问答的数据集，要求模型能够结合外部知识回答问题

数据集地址：ReplugLens/OK-VQA|视觉问答数据集|人工智能数据集

数据集：MMStar

数据集介绍：一个包含1500个挑战样本的多模态基准测试数据集。

数据集地址:Lin-Chen/MMStar

数据集：MathVista-Mini

数据集介绍：一个结合了多种数学和视觉任务的基准测试数据集，包含6141个样本。

数据集地址：MathVista-Mini

数据集：MathVision-Mini

数据集介绍：一个包含3040个高质量数学问题的数据集。

数据集地址：MathVision-Mini

数据集：GSM8K

数据集介绍：一个包含小学数学应用题的数据集，每个问题需要2到8步来解决

数据集地址：openai/gsm8k|数学应用题数据集|自然语言处理数据集

数据集:MATH

数据集介绍：MATH数据集是一个专注于数学问题解决的数据集，涵盖了代数、几何、数论等多个数学领域。该数据集由多个子集构成，每个子集针对不同的数学主题，旨在为机器学习和自然语言处理领域提供高质量的数学问题与解答数据。

数据集地址：MATH|数学求解数据集|教育技术数据集

数据集：GPQA

数据介绍：GPQA是一个由生物学、物理学和化学领域的专家编写的448个多选题数据集。该数据集的特点是问题质量高且极其困难，即使是具有博士学位或在读博士的专家也仅能达到65%的准确率，而高技能的非专家验证者仅有34%的准确率。数据集旨在用于研究未来AI系统在帮助解答非常困难问题时的可扩展监督方法，特别是在开发新科学知识时。

数据集地址：GPQA|科学问答数据集|AI监督学习数据集