【AI学习】关于 DeepSeek-R1的几个流程图

遇见关于DeepSeek-R1的几个流程图,清晰易懂形象直观,记录于此。

流程图一

来自文章《Understanding Reasoning LLMs》,
文章链接:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms?continueFlag=af07b1a0954d90469bc6f6584075da3b

在这里插入图片描述
《以 DeepSeek R1 为例学习“推理型大语言模型》是翻译版。摘录其中对流程的描述:

  1. DeepSeek-R1-Zero
    该模型基于 DeepSeek 在 2024 年 12 月发布的 671B 规模预训练基础模型 DeepSeek-V3。团队对其进行强化学习(RL)训练,并使用了两类奖励作为回报信号。由于没有进行监督微调(SFT),也就是常见“RLHF”流程中的 SFT 步骤被跳过,所以他们把这称为“冷启动”的方式(Cold Start)。
  2. DeepSeek-R1
    这是 DeepSeek 的主力推理模型,也是在 DeepSeek-R1-Zero 的基础上进一步引入额外的 SFT 阶段与更多轮的 RL 训练而成,性能优于“冷启动”的 R1-Zero。
  3. DeepSeek-R1-Distill
    他们还用前述训练过程中的 SFT 数据来微调了 Qwen 和 Llama 等较小模型,以提升这些模型的推理能力。虽然他们把这个过程称为“蒸馏”,但并不是传统意义上的知识蒸馏,更像是用大模型的输出数据去监督微调(SFT)小模型(包括 Llama 8B 和 70B,以及 Qwen 1.5B–30B)。

流程图二

下面的流程图非常详细,出处不详
在这里插入图片描述

Hugging Face的复刻流程图

Hugging Face推出Open R1,这是对DeepSeek-R1的开源复现项目,复刻流程如下:
在这里插入图片描述

图解DeepSeek-R1

来自@爱可可-爱生活
【一图解读DeepSeek-R1】
穿越DeepSeek的技术进化史,让我们看到了一个令人振奋的AI发展轨迹:从无监督起步,到结构化优化,再到轻量级蒸馏,每一步都彰显着AI大众化的曙光。
DeepSeek-R1-Zero像个天赋异禀的孩子,通过GRPO这个高效的强化学习框架,自主掌握了思考的艺术。它展现出自反思和结构化思维的能力,虽然初期表达还略显生涩,但这正是“会走”之前必经的阶段。
随后,DeepSeek-R1借助精心设计的Chain-of-Thought数据集进行“冷启动”训练,就像接受了系统的教育,不仅改善了表达,更习得了清晰的推理步骤。通过强化学习和巧妙的奖励机制,它在数学、编程等领域的表现更趋近人类思维。
最令人瞩目的是蒸馏技术的突破它让我们看到了AI普及的希望。就像优秀导师能让学生青出于蓝,DeepSeek团队成功将大模型的智慧浓缩进更小的架构(如Qwen-7B和Llama-8B),几乎不损失性能。这意味着,高质量的AI助手将可以运行在更普及的设备上,真正服务于图书推荐、在线辅导等实际应用场景。
在这里插入图片描述

通俗解读 DeepSeek-R1 训练过程

在这里插入图片描述

来自@爱可可-爱生活
【通俗解读 DeepSeek-R1 训练过程】
DeepSeek-R1 通过创新性地结合强化学习和监督学习,以低成本实现了与现有顶尖模型相当的推理能力,挑战了传统AI训练范式,并引发了对GPU市场未来需求的重新思考。

  • DeepSeek-R1的成本效益挑战英伟达的霸权地位: DeepSeek-R1 即使GPU资源有限,也能以极低的成本达到与OpenAI模型相当的性能,导致英伟达股价大幅下跌。这挑战了以往认为大规模GPU资源对于高级AI开发至关重要的传统观点。
  • 杰文斯悖论与GPU需求的未来: 文章探讨了杰文斯悖论的适用性,认为AI训练效率的提高可能导致GPU的整体需求增加,而不是减少。然而,文章也提出了反驳意见,认为转向微调和开源模型可能会降低对高端GPU的需求。
  • DeepSeek-R1非常规的训练方法: DeepSeek-R1采用了一种与传统的监督微调方法不同的新训练方法。它广泛利用强化学习(RL),首先使用DeepSeek-R1-Zero(纯RL),然后结合RL和监督微调的多阶段过程进行改进。
  • DeepSeek-R1-Zero:用于推理的纯强化学习: DeepSeek-R1-Zero作为DeepSeek-R1的前身,展示了纯强化学习在增强LLM推理能力方面的潜力,在各种基准测试中取得了最先进的(SOTA)性能。这与直觉相反,因为强化学习通常被认为在这种用途上不如监督学习有效。
  • DeepSeek-R1的多阶段训练过程: DeepSeek-R1的训练包括多阶段过程:冷启动微调以提高可读性,面向推理的强化学习,使用合成和非推理数据集进行微调,最后是结合人类偏好的强化学习。这种分层方法对模型的成功至关重要。
  • 强化学习在推理中的局限性: 作者对RL在提高一般推理能力方面的无限潜力表示怀疑,认为它可能主要增强对推理模式的记忆,而不是真正的理解。这意味着仅通过强化学习所能实现的性能提升可能存在上限。
  • 通过强化学习生成合成数据集: 一个关键创新是利用强化学习训练的模型生成大型合成推理数据集,然后用于监督微调。这巧妙地利用了RL和监督学习的优势。

思考:

  • 强化学习的潜力与局限: 强化学习在特定任务上的高效性令人印象深刻,但其在通用推理能力上的提升可能存在瓶颈,需要结合其他方法才能发挥最大效用。
  • 数据合成与模型训练: 利用强化学习模型生成合成数据,再结合监督学习进行微调,是一种值得借鉴的有效策略,可以降低数据标注成本并提升模型性能。
  • 多阶段训练的价值: DeepSeek-R1的多阶段训练过程体现了模型训练策略的复杂性和精细化,这对于构建高性能模型至关重要。

‘The Layman’s Introduction to DeepSeek-R1 Training’
medium.com/thoughts-on-machine-learning/the-laymans-introduction-to-deepseek-r1-training-80d8ff7a887d

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15851.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS 实现下拉菜单效果实例解析

1. 引言 在 Web 开发过程中,下拉菜单是一种常见且十分实用的交互组件。很多前端教程都提供过简单的下拉菜单示例,本文将以一个简洁的实例为出发点,从 HTML 结构、CSS 样式以及整体交互逻辑三个层面进行详细解析,帮助大家理解纯 C…

网络安全溯源 思路 网络安全原理

网络安全背景 网络就是实现不同主机之间的通讯。网络出现之初利用TCP/IP协议簇的相关协议概念,已经满足了互连两台主机之间可以进行通讯的目的,虽然看似简简单单几句话,就描述了网络概念与网络出现的目的,但是为了真正实现两台主机…

【Windows】PowerShell 缓存区大小调节

PowerShell 缓存区大小调节 方式1 打开powershell 窗口属性调节方式2,修改 PowerShell 配置文件 方式1 打开powershell 窗口属性调节 打开 CMD(按 Win R,输入 cmd)。右键标题栏 → 选择 属性(Properties)…

GitCode 助力 Easy-Es,革新 Elasticsearch 开发体验

项目仓库(点击阅读原文链接可直达) https://gitcode.com/dromara/easy-es 项目背景:填补 Elasticsearch ORM 框架空白 在 Java 开发领域,Excel 和 Elasticsearch 的代码编写难度一直名列前茅,尤其是 Elasticsearch&a…

Vue(7)

一.Vuex (1)概述 1.是什么 vuex是一个vue的状态管理工具,状态就是数据,可以帮助管理vue通用的数据(多组件共享的数据) 2.场景 ①某个状态在很多个组件来使用(个人信息) ②多个组…

如何把邮件批量导出到本地

最近遇到邮箱满了的问题,需要把邮件批量导出到本地,然后清空邮箱。 问题是这个邮箱的官网,没有批量导出按钮,比较麻烦;总不能一封一封下载到本地,上万的。 找到了一个好用的工具,Mozilla Thun…

渗透利器工具:Burp Suite 联动 XRAY 图形化工具.(主动扫描+被动扫描)

Burp Suite 联动 XRAY 图形化工具.(主动扫描被动扫描) Burp Suite 和 Xray 联合使用,能够将 Burp 的强大流量拦截与修改功能,与 Xray 的高效漏洞检测能力相结合,实现更全面、高效的网络安全测试,同时提升漏…

如何将3DMAX中的3D文件转换为AutoCAD中的2D图形?

大家好,今天我们来探讨一下如何将3DMAX中的3D文件转换为AutoCAD中的2D图形。无论是出于设计交流、施工准备还是其他实际需求,这种转换在工程设计领域都是一项非常实用的技能。接下来,我将为大家详细介绍几种实现这一转换的方法,帮助大家轻松跨越3D与2D设计之间的鸿沟。让我…

Git 分布式版本控制工具使用教程

1.关于Git 1.1 什么是Git Git是一款免费、开源的分布式版本控制工具,由Linux创始人Linus Torvalds于2005年开发。它被设计用来处理从很小到非常大的项目,速度和效率都非常高。Git允许多个开发者几乎同时处理同一个项目而不会互相干扰,并且在…

国产编辑器EverEdit - 迷你查找

1 迷你查找 1.1 应用场景 某些场景下,用户不希望调出复杂的查找对话框,此时可以使用迷你查找窗口。 1.2 使用方法 选择主菜单查找 -> 迷你查找,或使用快捷键Ctrl Alt F,会在右上角弹出迷你查找窗口,如下图所示…

攻防世界32 very_easy_sql【SSRF/SQL时间盲注】

不太会,以后慢慢看 被骗了,看见very_easy就点进来了,结果所有sql能试的全试了一点用都没有 打开源代码发现有个use.php 好家伙,这是真的在考sql吗...... 制作gopher协议的脚本: import urllib.parsehost "12…

opc da 服务器数据 转 EtherCAT项目案例

目录 1 案例说明 2 VFBOX网关工作原理 3 应用条件 4 查看OPC DA服务器的相关参数 5 配置网关采集opc da数据 6 启动EtherCAT从站转发采集的数据 7 在服务器上运行仰科OPC DA采集软件 8 案例总结 1 案例说明 在OPC DA服务器上运行OPC DA client软件查看OPC DA服务器的相…

从基础到人脸识别与目标检测

前言 从本文开始,我们将开始学习ROS机器视觉处理,刚开始先学习一部分外围的知识,为后续的人脸识别、目标跟踪和YOLOV5目标检测做准备工作。我采用的笔记本是联想拯救者游戏本,系统采用Ubuntu20.04,ROS采用noetic。 颜…

百度高德地图坐标转换

百度地图和高德地图的侧重点不太一样。同样一个地名,在百度地图网站上搜索到的地点可能是商业网点,在高德地图网站上搜索到的地点可能是自然行政地点。 高德地图api 在高德地图中,搜索地名,如“乱石头川”,该地名会出…

Visual Studio踩过的坑

统计Unity项目代码行数 编辑-查找和替换-在文件中查找 查找内容输入 b*[^:b#/].*$ 勾选“使用正则表达式” 文件类型留空 也有网友做了指定,供参考 !*\bin\*;!*\obj\*;!*\.*\*!*.meta;!*.prefab;!*.unity 打开Unity的项目 注意:只是看&#xff0…

Vue3+codemirror6实现公式(规则)编辑器

实现截图 实现/带实现功能 插入标签 插入公式 提示补全 公式验证 公式计算 需要的依赖 "codemirror/autocomplete": "^6.18.4","codemirror/lang-javascript": "^6.2.2","codemirror/state": "^6.5.2","cod…

【大数据安全分析】大数据安全分析技术框架与关键技术

在数字化时代,网络安全面临着前所未有的挑战。传统的网络安全防护模式呈现出烟囱式的特点,各个安全防护措施和数据相互孤立,形成了防护孤岛和数据孤岛,难以有效应对日益复杂多变的安全威胁。而大数据分析技术的出现,为…

参考数据和主数据:构建数据管理的基石

在数据管理的众多领域中,参考数据和主数据管理是确保数据一致性和准确性的关键环节。它们为组织提供了统一的数据标准和核心业务实体的准确视图,是数据管理的基石。今天,让我们深入《DAMA数据管理知识体系指南(第二版)…

Docker搭建redis集群

1.使用docker新建6个redis容器实例,在此之前,需要在阿里云服务器和宝塔界面开放安全组(redis客户端连接端口和集群总线端口) redis集群不仅需要开通redis客户端连接的端口(如6381),而且需要开通集群总线端口(16381)。 集群总线端口redis客户端连接的端口…

荣耀手机Magic3系列、Magic4系列、Magic5系列、Magic6系列、Magic7系列详情对比以及最新二手价格预测

目录 荣耀Magic系列手机详细对比 最新二手价格预测 性价比分析 总结 以下是荣耀Magic系列手机的详细对比以及最新二手价格预测: 荣耀Magic系列手机详细对比 特性荣耀Magic3系列荣耀Magic4系列荣耀Magic5系列荣耀Magic6系列荣耀Magic7系列处理器骁龙888&#x…