DeepSeek-R1思路训练多模态大模型-Vision-R1开源及实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。
先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?

结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。如下图D和E所示:

方法:从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)开始,直接应用 RL 训练。使用与 Vision-R1 相同的奖励函数,即硬格式结果奖励函数(HFRRF):如果输出格式正确且答案正确,奖励为 1,否则为 0。训练目标是激励模型生成多模态 CoT,解决数学推理任务。

系统提示与奖励格式和Deepseek相似:

  • 系统提示:

    A conversation between User and
    Assistant. ... first thinks about
    the reasoning process ... provides
    the user with the answer. The
    reasoning process and answer are
    enclosed within <think> </think> and
    <answer> </answer> tags ...
    
  • 奖励格式:

    <think> </think><answer></answer>
    

方法架构

仅靠强化学习(RL)无法有效激励多模态大型语言模型(MLLM)的推理能力,主要原因是缺乏高质量初始数据和优化策略

因此,可以知道Vision-R1 的目标是:

  • 生成高质量的多模态推理链(CoT)数据集,无需人工标注。

  • 通过 RL 优化模型,使其生成逻辑清晰、长度适中的 CoT,避免过度思考(Overthinking)。

基于此,Vision-R1 提出了一种两阶段方法,通过冷启动初始化和渐进式 RL 训练。

Vision-R1流程

1. 冷启动初始化

冷启动初始化是通过构建一个高质量的多模态链式推理(CoT)数据集来实现的。目的是为模型提供一个初始的、高质量的推理示例,以便在后续的强化学习过程中更好地学习和改进推理能力。

冷启动初始化的核心在于如何从多模态数据中提取出高质量的推理过程。由于多模态大型语言模型(MLLMs)通常难以直接处理多模态输入,提出了一种称为“模态桥接”(Modality Bridging)的方法来实现这一目标。

整体数据生成流程

实现细节
步骤作用方法
1. 伪 CoT 生成MLLM 处理图像-文本对,生成初步推理步骤使用 Qwen-2.5VL-72B
2. 详细描述获取通过提示获取支持回答问题的详细图像描述提示模板见论文
3. CoT 提取与优化DeepSeek-R1 提取并优化 CoTDeepSeek-R1 见
4. 数据过滤规则过滤确保数据质量200K Vision-R1-cold 数据集
  1. 伪CoT生成:首先,使用现有的多模态大型语言模型(MLLM)来生成“伪CoT”(Pseudo-CoT)。具体的,输入一个图像-问题-答案对和一个提示到一个MLLM中,模型会生成一个包含图像描述和推理过程的文本。这个“伪CoT”不仅包含了图像的描述,还尝试进行初步的推理,但可能缺乏深度和复杂性。

    通过带有和不带“伪CoT”的描述生成的CoT过程比较。

  2. 文本描述生成:将生成的“伪CoT”与原始的图像-问题对以及一个新的提示一起输入到同一个MLLM中,以获取更详细的图像描述。这一步骤的目的是通过MLLM的文本生成能力,将图像中的视觉信息转化为更详细的文本描述,从而为后续的推理提供更多的上下文信息。

  3. 推理生成:将经过文本化的图像-问题对输入到一个专门的推理大型语言模型(如DeepSeek-R1)中,以生成高质量的CoT推理过程。DeepSeek-R1能够生成包含自然认知过程的推理过程,如质疑、反思和检查等。

  4. 数据过滤:从生成的CoT数据中保留那些最终答案与真实值一致的样本。使用规则进行数据过滤,去除逻辑不一致的样本,并替换一些词汇以提高语义连贯性。

冷启动数据源:

小结:冷启动初始化的主要目的是为模型提供一个高质量的起点,使得模型在后续的强化学习过程中能够更快地学习和改进其推理能力

2 渐进式思维抑制训练(PTST)

为了解决冷启动后的过度思考问题,Vision-R1 采用渐进式思维抑制训练(PTST),通过 RL 进一步优化模型的推理能力。

  • 分组相对策略优化(GRPO): GRPO 是一种 RL 算法,通过分组类似状态或动作来优化策略,提高学习效率。 详细的可参考往期《DeepSeek采用的GRPO算法数学原理及算法过程浅析》

  • 硬格式结果奖励函数(HFRRF): 奖励函数简单:如果输出格式正确且答案正确,则奖励为 1,否则为 0。

  • 分阶段训练: 训练分为多个阶段,逐步增加序列长度(如 4K、8K、16K 标记)和调整组大小(如 16、8、4)。

    • 每个阶段训练 100 步,使用 64 个 NVIDIA H800 80G GPU,约 2 天,使用 Verl 框架。

    • 与固定长度 16K、300 步训练的 Vision-R1-Long 相比,PTST 表现更好,平均长度 2057,平均准确率 55.4%。

效果与实验

出现“顿悟时刻”:

数学评测:

参考文献:Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models, https://arxiv.org/abs/2503.06749)
code:https://github.com/Osilly/Vision-R1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/34822.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python学习第十八天

Django模型 定义&#xff1a;模型是 Django 中用于定义数据库结构的 Python 类。每个模型类对应数据库中的一张表&#xff0c;类的属性对应表的字段。 作用&#xff1a;通过模型&#xff0c;Django 可以将 Python 代码与数据库表结构关联起来&#xff0c;开发者无需直接编写 S…

总结 HTTP 协议的基本格式, 相关知识以及抓包工具fiddler的使用

目录 1 HTTP是什么 2 HTTP协议格式 3 HTTP请求(Request) 3.1 认识URL 3.2 方法 3.3 认识请求"报头"(header) 3.3.1 Host 3.3.2 Content-Length 3.3.3 Content-Type 3.3.4 User-Agent (简称UA) 3.3.5 Referer 3.3.6 Cookie和Session 4 HTTP响应详解 4.…

【sql靶场】第15、16关-post提交盲注保姆级教程

目录 【sql靶场】第15、16关-post提交盲注保姆级教程 1.知识回顾 ‌GET请求‌ ‌POST请求‌ or与and 2.第十五关 1.布尔盲注的手动注入 1.判断 2.数据库名长度 3.数据库名字符 4.表名数 5.表名长度 6.表名符 7.字段数 8.字段长度 9.字段符 2.布尔盲注的脚本注入…

【C++】 —— 笔试刷题day_6

刷题day_6&#xff0c;继续加油哇&#xff01; 今天这三道题全是高精度算法 一、大数加法 题目链接&#xff1a;大数加法 题目解析与解题思路 OK&#xff0c;这道题题目描述很简单&#xff0c;就是给我们两个字符串形式的数字&#xff0c;让我们计算这两个数字的和 看题目我…

redis终章

1. 缓存(cache) Redis最主要的用途&#xff0c;三个方面1.存储数据&#xff08;内存数据库&#xff09;&#xff1b;2.缓存[redis最常用的场景]&#xff1b;3.消息队列。 缓存(cache)是计算机中的⼀个经典的概念.核⼼思路就是把⼀些常⽤的数据放到触⼿可及(访问速度更快)的地⽅…

Matlab 多输入系统极点配置

1、内容简介 略 Matlab 172-多输入系统极点配置 可以交流、咨询、答疑 2、内容说明 略 3、仿真分析 略 clc close all clear A [-6.5727 1.1902 0 -53.4085;1.1902 -6.5727 0 -53.4085;0.5294 0.5294 0 17.7502;0 0 1 0]; B [1.3797 -0.2498;-0.2498 1.3797;-0.1111 -0.1…

国产编辑器EverEdit - 脚本(解锁文本编辑的无限可能)

1 脚本 1.1 应用场景 脚本是一种功能扩展代码&#xff0c;用于提供一些编辑器通用功能提供不了的功能&#xff0c;帮助用户在特定工作场景下提高工作效率&#xff0c;几乎所有主流的编辑器、IDE都支持脚本。   EverEdit的脚本支持js(语法与javascript类似)、VBScript两种编程…

Flutter 小技巧之通过 MediaQuery 优化 App 性能

许久没更新小技巧系列&#xff0c;温故知新&#xff0c;在两年半前的《 MediaQuery 和 build 优化你不知道的秘密》 我们聊过了在 Flutter 内 MediaQuery 对应 rebuild 机制&#xff0c;由于 MediaQuery 在 MaterialApp 内&#xff0c;并且还是一个 InheritedWidget &#xff0…

AI-医学影像分割方法与流程

AI医学影像分割方法与流程–基于低场磁共振影像的病灶识别 – 作者:coder_fang AI框架&#xff1a;PaddleSeg 数据准备&#xff0c;使用MedicalLabelMe进行dcm文件标注&#xff0c;产生同名.json文件。 编写程序生成训练集图片&#xff0c;包括掩码图。 代码如下: def doC…

【蓝桥杯每日一题】3.16

&#x1f3dd;️专栏&#xff1a; 【蓝桥杯备篇】 &#x1f305;主页&#xff1a; f狐o狸x 目录 3.9 高精度算法 一、高精度加法 题目链接&#xff1a; 题目描述&#xff1a; 解题思路&#xff1a; 解题代码&#xff1a; 二、高精度减法 题目链接&#xff1a; 题目描述&…

人工智能组第一次培训——deepseek本地部署和知识库的建立

deepseek本地部署的用处 减少对网络依赖性&#xff1a; 在断网环境下&#xff0c;依然可以使用预先下载的AI模型进行处理&#xff0c;避免因网络不稳定而无法完成任务。 提高响应速度&#xff1a; 数据和模型已经在本地设备上准备好&#xff0c;可以直接调用&#xff0c;不…

windows协议不再续签,华为再无windows可用,将于四月发布鸿蒙PC

大家好&#xff0c;我是国货系创始人张云泽&#xff0c;最近不少小伙伴在后台问&#xff1a;“听说Windows协议要到期了&#xff1f;我的电脑会不会变砖&#xff1f;”还有人说&#xff1a;“华为笔记本以后用不了Windows了&#xff1f;鸿蒙系统能用吗&#xff1f;”今天咱们就…

数据结构-----初始数据结构、及GDB调试

一、数据结构核心概念 相互之间存在一种或多种特定关系的数据元素的集合。 1. 数据结构定义 // 嵌入式场景示例&#xff1a;传感器网络节点结构 struct SensorNode {uint16_t node_id; // 2字节float temperature; // 4字节uint32_t timestamp; // 4字节struct Se…

HOT100(1)

目前想到的办法是暴力枚举&#xff0c;有什么更好的办法请多指教。。。。代码如下&#xff1a; 让数组第一个元素和后面的元素相加判断是否相等&#xff0c;让数组第二个元素与后面的元素相加判断是否相等&#xff0c;以此类推 /** * Note: The returned array must be mallo…

QuickAPI 和 DBAPI 谁更香?SQL生成API工具的硬核对比(一)

最近低代码开发火得不行&#xff0c;尤其是能把数据库秒变API的工具&#xff0c;简直是开发者的救星。今天咱就聊聊两款国内玩家&#xff1a;QuickAPI&#xff08;麦聪软件搞出来的低代码神器&#xff09;和 DBAPI&#xff08;开源社区的硬核作品&#xff09;。这两货都能靠SQL…

MySQL单表查询大全【SELECT】

山再高&#xff0c;往上攀&#xff0c;总能登顶&#xff1b;路再长&#xff0c;走下去&#xff0c;定能到达。 Mysql中Select 的用法 ------前言------【SELECT】0.【准备工作】0.1 创建一个库0.2 库中创建表0.3 表中加入一些数据 1.【查询全部】2.【查询指定列】2.1查询指定列…

开启云服务器ubuntu22.04的远程桌面,支持Windows远程连接 - 开启XRDP支持

效果图 环境 云服务器 Ubuntu 22.04 lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 22.04.5 LTS Release: 22.04 Codename: jammy 本地windows10 步骤 前置动作 # 远程登录 ssh rootx.x.x.x# 看看硬盘够不够空间&…

虚拟化数据恢复—重装系统服务器崩了的数据恢复过程

虚拟化数据恢复环境&故障&#xff1a; VMware虚拟化平台 vmfs文件系统 工作人员误操作重装操作系统&#xff0c;服务器崩溃。 重装系统会导致文件系统元文件被覆盖。要恢复数据&#xff0c;必须找到&提取重装系统前的文件系统残留信息&#xff0c;通过提取出来的元文件…

harmonyOS NEXT开发与前端开发深度对比分析

文章目录 1. 技术体系概览1.1 技术栈对比1.2 生态对比 2. 开发范式比较2.1 鸿蒙开发范式2.2 前端开发范式 3. 框架特性对比3.1 鸿蒙 Next 框架特性3.2 前端框架特性 4. 性能优化对比4.1 鸿蒙性能优化4.2 前端性能优化 5. 开发工具对比5.1 鸿蒙开发工具5.2 前端开发工具 6. 学习…

AI智能混剪工具:AnKo打造高效创作的利器!

AI智能混剪工具&#xff1a;AnKo打造高效创作的利器&#xff01; 随着AI技术的迅速发展&#xff0c;AI智能混剪工具逐渐成为内容创作的利器&#xff0c;尤其是AnKo&#xff0c;作为一款免费的AI创作平台&#xff0c;提供了多模型AI聚合工具平台&#xff0c;能为用户带来更高效…