DeepSeek-R1 论文阅读总结

1. QA问答(我的笔记)

Q1: DeepSeek如何处理可读性问题?

通过构建冷启动数据(数千条长CoT数据)微调基础模型,结合多阶段训练流程(RL训练、拒绝采样生成SFT数据),并优化输出格式(如特殊标记分隔),显著提升可读性。相比仅用RL的Zero版本,改进后的R1保持了推理能力且输出更易读。

Q2: DeepSeek-R1-Zero与R1的核心区别?

-R1-Zero:纯RL训练,无监督数据,输出存在语言混杂、可读性差

-R1:引入监督学习阶段

冷启动阶段用高质量CoT数据微调

拒绝采样生成600K过滤数据(移除混合语言/冗余内容)

二阶段RL(推理任务用规则奖励,通用任务用人类偏好奖励)

Q3: 如何验证推理能力蒸馏效果?

在标准评测网站(如LiveCodeBench/Codeforces)测试,经蒸馏的小模型性能超越直接用RL训练的同规模模型。

Q4: 成本节约方法?

自进化RL减少监督数据需求

GRPO算法优化RL训练效率

复用V3训练集生成思维链

2. 论文核心贡献(做了什么)

方法论创新:提出四阶段训练框架(冷启动→推理RL→数据生成→通用能力RL)

性能突破:在数学(MATH-500 97.3%)知识任务(MMLU 90.8%)达到SOTA

工程实践:解决纯RL训练的可读性缺陷,构建首个支持人类友好CoT的RL优化模型

技术验证:证明RL可通过自我进化提升推理能力,且该能力可蒸馏至小模型

3. 关键技术路径

3.1 混合奖励机制

任务类型

奖励构成

目标特性

推理任务

准确性(70%)+过程合规性(30%)

严谨性

通用任务

有用性(50%)+无害性(30%)+可读性(20%)

安全性

3.2 数据生产管线

4. 当前局限性

4.1 技术瓶颈

MCTS应用失败:语言生成空间离散性导致搜索复杂度爆炸(相比围棋增长10^3倍)

过程奖励困境:

原子步骤定义模糊(如数学证明中间态)

需人工标注百万级步骤数据(成本$380K+)

奖励黑客问题频发(模型学会伪造合规步骤)

4.2 实践缺陷

5. 未来方向

短期重点

蒸馏优化:探索RL+蒸馏联合框架(当前仅用SFT)

架构改进:

动态上下文窗口(当前固定4K)

混合专家系统(MoE)提升工程能力

长期愿景

自进化系统:构建完全闭环的RL训练生态(人工标注量<1%)

多模态推理:扩展至视觉-语言联合推理场景

安全增强:研发可解释的奖励模型(当前黑盒率>92%)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32405.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

prometheus的动态发现(基于文件和consul)

prometheus的配置参考&#xff1a;https://prometheus.io/docs/prometheus/2.53/configuration/configuration/ 没有使用动态配置前&#xff0c;需要在 prometheus.yml 这个配置文件中创建数据采集任务&#xff0c;然后重新加载服务。 如果把采集job剥离出去&#xff0c;写在…

安卓逆向魔改版 Base64 算法还原

版权归作者所有&#xff0c;如有转发&#xff0c;请注明文章出处&#xff1a;https://cyrus-studio.github.io/blog/ 目标 app 简介 可以看到 app 中共有 4 种 Base64 算法。选中一个随机字符串&#xff0c;可以选择其中一种算法进行编码解码。 app地址&#xff1a;https://gi…

CI/CD—GitLab部署

GitLab简介&#xff1a; GitLab 是一个用于代码托管和软件开发协作的平台&#xff0c;在全球开发者社区及企业中应用广泛&#xff0c;以下是对它的详细介绍&#xff1a; 主要功能 代码托管&#xff1a;提供了基于 Git 的代码仓库管理功能&#xff0c;支持创建、克隆、推送、…

采集OPCUA/S7

需求&#xff1a;采集OPCUA服务数据 采用&#xff1a;KEPServerEX6获取OPCUA服务数据 1.新建甬道3 2.驱动程序选择&#xff1a;OPC UA client 3.设置UA服务器-端点URL&#xff1a;opc.tcp://ip:502 安装教程&#xff1a;https://blog.csdn.net/weixin_41425107/article/detai…

3.12代码随想录第十五天打卡

654.最大二叉树 (1)题目描述: (2)解题思路: class Solution { public:TreeNode* constructMaximumBinaryTree(vector<int>& nums) {TreeNode* node new TreeNode(0);if (nums.size() 1) {node->val nums[0];return node;}// 找到数组中最大的值和对应的下标…

安全左移动赋能:灵脉IAST交互式应用安全测试平台

左移的安全赋能 Earlier Security Empowerment 悬镜灵脉IAST灰盒安全测试平台作为国内领先的交互式应用安全测试平台&#xff0c;透明集成于现有IT流程&#xff0c;自动化完成业务代码上线前安全测试&#xff0c;重点覆盖90%以上中高危漏洞&#xff0c;防止应用带病上线&…

Linux下学【MySQL】常用函数助你成为数据库大师~(配sql+实操图+案例巩固 通俗易懂版~)

绪论​ 每日激励&#xff1a;“唯有努力&#xff0c;才能进步” 绪论​&#xff1a; 本章是MySQL中常见的函数&#xff0c;利用好函数能很大的帮助我们提高MySQL使用效率&#xff0c;也能很好处理一些情况&#xff0c;如字符串的拼接&#xff0c;字符串的获取&#xff0c;进制…

波特率、比特率、传信率、传码率......

去年搞过一段时间的无线通信&#xff0c;当时我脑子里真的是一团乱麻&#xff0c;本身咱也不是学通信的&#xff0c;咱是学机械出身的&#xff0c;后面又搞电&#xff0c;反正对于通信这一块就不是很懂&#xff0c;后面也慢慢搞出来了一点小东西&#xff0c;但是对于一些细节还…

华为HCIE认证用处大吗?

新盟教育 专注华为认证培训十余年 为你提供认证一线资讯&#xff01; 在ICT行业的认证体系中&#xff0c;华为HCIE认证一直备受关注。那么&#xff0c;华为HCIE认证用处大吗&#xff1f;今天咱们就来深入探讨一下&#xff0c;以数据通信方向为例&#xff0c;看看它到底能带来什…

【WRF-Chem】预处理工具(Preprocessors)总结

WRF-Chem 预处理工具&#xff08;Preprocessors&#xff09; 化学选项&#xff08;Chemistry Options&#xff09;数据下载 预处理工具&#xff08;Preprocessors&#xff09;工具1&#xff1a;mozbc工具2&#xff1a;bio_emiss工具3&#xff1a;anthro_emiss工具4&#xff1a;…

六、OpenGL中EBO的使用及本质

文章目录 一、什么是顶点索引二、什么是EBO三、EBO使用的完整代码 一、什么是顶点索引 OpenGL 中&#xff0c;顶点索引&#xff08;Vertex Index&#xff09;用于减少重复的顶点数据&#xff0c;提高绘制效率。其核心概念涉及索引缓冲对象&#xff08;Index Buffer Object&…

Python+jupyter进行数据分析与数据挖掘

随着人工智能的发展&#xff0c;现在越来越多人使用Python语言进行数据分析。Python在数据分析中有哪些优势呢&#xff1f;由于Python中有很多的第三方插件&#xff0c;接下来我们探讨Pythonjupyter的结合&#xff0c;在数据分析领域中的应用。 一、jupyter介绍 Jupyter 是一个…

AI4CODE】3 Trae 锤一个贪吃蛇的小游戏

【AI4CODE】目录 【AI4CODE】1 Trae CN 锥安装配置与迁移 【AI4CODE】2 Trae 锤一个 To-Do-List 这次还是采用 HTML/CSS/JAVASCRIPT 技术栈 Trae 锤一个贪吃蛇的小游戏。 1 环境准备 创建一个 Snake 的子文件夹&#xff0c;清除以前的会话记录。 2 开始构建 2.1 输入会…

PostgreSQL17(最新版)安装部署

PostgreSQL 17已与2024年9月26日正式发布&#xff01;&#xff01;&#xff01; 一、Postgres概述 官网地址&#xff1a;PostgreSQL: The world’s most advanced open source database Postgres作为最先进的开源数据库&#xff08; the latest version of the world’s most…

捌拾贰- 贝尔不等式 (2)

1. 贝尔不等式理解 我感觉我前期理解的不是很对 柒拾玖- 贝尔不等式 … 思来想去几天&#xff0c;感觉贝尔不等式应该是这样来的 因为观测的值只有可能是 1 (别问我为什么) , 设观测角度 Q 值为 1 的概率为 a , -1 的概率为 b , Q 的数学期望值为 E(Q) a * 1 b * (-1) a…

小凯的疑惑(数论 )

#include <iostream> using namespace std; typedef long long ll; int main() {// 请在此输入您的代码ll a,b;cin>>a>>b;ll N a * b - a - b;cout << N ;return 0; } 如果 a 和 b 互素&#xff0c;那么 a * b - a - b 是最大无法被表示的金额

Android内存泄漏检测与优化

Android内存泄漏检测与优化 一、内存泄漏基础知识 1.1 什么是内存泄漏 在Android开发中&#xff0c;内存泄漏(Memory Leak)是指程序在申请内存后&#xff0c;无法释放已申请的内存空间&#xff0c;导致系统可用内存减少的问题。随着泄漏内存的增加&#xff0c;应用可能会变得…

51单片机Proteus仿真速成教程——P1-软件与配置+Proteus绘制51单片机最小系统+新建程序模版

前言&#xff1a;本文主要围绕 51 单片机最小系统的绘制及程序模板创建展开。首先介绍了使用 Proteus 绘制 51 单片机最小系统的详细步骤&#xff0c;包括软件安装获取途径、工程创建、器件添加&#xff08;如单片机 AT89C51、晶振、电容、电阻、按键等&#xff09;、外围电路&…

微信小程序校园跑腿的设计与实现【lw+源码+部署+视频+讲解】

第一章 绪论 1.1 本课题研究背景 近年来城市与社会经济发展较快&#xff0c;人们的生活水平不断提高&#xff0c;消费观念发生很大变化&#xff0c;随着 微信小程序技术的发展&#xff0c;小程序已经渗透到人们日常生活的方方面面&#xff0c;悄悄地改变着人们的生活方式。在…

多用户网页在线聊天室(测试报告)

文章目录 多用户网页在线聊天室一&#xff0c;项目概括1.1 项目名称1.2 测试时间1.3 项目背景1.3 编写目的 二&#xff0c;测试计划2.1 测试环境与配置2.2 测试用例2.3实际执行用例2.3.1登录2.3.2聊天消息列表展示2.3.3聊天消息详情页展示2.3.4联系人页展示2.3.5信息的编辑与发…