DeepSeek LLM(初代)阅读报告

概况

这个是deepseek发布的第一版模型对应的技术报告,模型发布于23年11月,本报告发布于24年1月。

模型有7B和67B两个版本。

虽然本报告中还没有用上后面V2/V3和R1中的关键技术例如MLA、MTP、GRPO,但是报告中已经指明了MoE、强化学习等未来的方向,并且在infra方面给了比较多的重视,这也将是后续训练成本低的关键。

模型结构

模型设计上遵循了Llama的结构,也就是RMSNorm+RoPE位置编码等特征,MLP表达式: ,MLP的维度是隐藏层维度的8/3。

在67B模型中,使用了GQA,下图可以看出,64个注意力头被分成了8组,每组的8个头共享相同的计算KV时的权重参数。

还有一点值得注意,67B模型的层数是95层,MLP的维度是隐藏层维度的8/3;而Llama-70B的模型层数是80层,MLP的维度是隐藏层维度的3.5倍。也就是说,deepseek LLM的结构更深更细。

训练

在训练过程中,没有使用余弦学习率调度器,而是使用多步学习率调度器:在2000个预热步骤之后达到最大学习率,处理80%的训练数据后学习率降到最大值的31.6%,处理90%后降低到10%

infra

  • 使用幻方自己研发的HAI-LLM训练框架来训练和评估大型语言模型。该框架集成了数据并行性、张量并行性、序列并行性和1F1B流水线并行性,正如在Megatron中所做的那样。
  • 我们还利用了flash attention技术来提高硬件利用率。
  • ZeRO-1被用来将 优化器状态 分割到 数据并行的各个 rank 上。
  • 我们还努力重叠计算和通信,以最小化额外的等待开销,包括最后一个微批处理的反向过程和ZeRO-1中的reduce-scatter操作,以及序列并行中的GEMM计算和all-gather/reduce-scatter。
  • 使用图融合和算子融合以加快训练速度,包括尽可能的LayerNorm、GEMM和Adam更新。为了提高模型训练的稳定性,我们在bf16精度下训练模型,但在fp32精度下累积梯度。
  • 在位交叉熵被用来减少GPU内存消耗,即:我们在交叉熵CUDA内核中实时将bf16日志转换为fp32精度(而不是预先在HBM中转换),计算相应的bf16梯度,并用其梯度覆盖日志。
  • 模型权重和优化器状态每5分钟异步保存一次,这意味着在偶尔的硬件或网络故障的最坏情况下,我们不会丢失超过5分钟的训练。这些临时模型检查点定期被清理,以避免消耗过多的存储空间。我们还支持从不同的3D并行配置恢复训练,以应对计算集群负载的动态变化。
  • 至于评估,在生成任务中使用vLLM,并在非生成任务中使用连续批处理,以避免手动批处理大小调整并减少标记填充。

可以看出deepseek在最初的训练过程中,就注重通过优化infra来降低训练成本。

scaling law

这一块的研究,就是为了从模型的规模找到该规模对应的最佳超参数,即最佳lr和最佳batch_size

讨论了scaling-law和超参数之间的关系,最主要的超参数就是learning_rate和batch_size。通过研究超参数与计算预算(模型规模*数据量)之间的关系,提出了超参数的scaling-law,以确保不同计算预算下的模型能达到最优性能。

模型规模并没有用模型参数量来衡量,而是用非嵌入的 FLOPs/token (M) ,也就是每个token计算时需要的浮点计算数。报告中使用了来表示模型规模,也就是每个token需要经历的transformer layer中的计算量,而没有把也计算在参数量中的词表嵌入考虑在内。

于是计算预算的公式由变成了,N是模型参数,M是上面的非嵌入的flops/token,D是数据量

超参数的scaling-law:

下边这个公式展示了两个超参数与模型规模之间的关系,下图表示了随着模型规模的变化,超参数也发生变化。

通过计算预算来选择合适的数据量和模型规模:

通常情况下,都是现有硬件和训练时长的预算,下一步才开始规划模型的规模和训练数据的规模。因此,需要通过给定的C来得到M和D,使得训练过程的损失最小。

具体是如何选择的:

  • 选择了不同的计算预算范围(例如从 1e17到 3e20),对每个计算预算 C,设计了多个不同的 模型规模(M)数据规模(D) 分配方案。
  • 通过 IsoFLOP 方法,可以为每种分配方案计算出相应的 泛化误差
  • 得到一堆泛化误差的数据点,这些数据点构成了一个 损失缩放曲线,表示随着计算预算的变化,模型的泛化误差如何变化。

对齐

人类偏好对齐分成SFT和DPO两步,共有150万条数据

SFT的数据集主要有分成有用信息和无害化两部分,其中有用信息有一般对话、数学和编程。

在微调过程中,有可能出现无限重复问题,也就是不停输出相同的内容。这一现象会随着SFT中数学内容比例增加而提升,这是因为数学中偶尔包含推理中的相似模式。为了解决这一问题,使用了两阶段SFT和DPO来减少重复。

两阶段SFT,第一阶段涉及使用所有可用数据进行微调,第二阶段专注使用对话数据进行微调。

一些讨论:

  • 在训练数据中添加多选题能显著提升模型解答多选的能力,因为解答多选不仅需要拥有相关知识,还需要理解选项含义。但是这并不会带来对话任务上的提升,因此为了防止在基准任务过拟合,在训练和微调中完全排除掉了多选数据
  • 关于system prompt,deepseek LLM在Llama的基础上进行了轻微改动,最终在67B的模型上有所提升,但7B模型上性能反而下降。这可能是因为:更大的模型对系统提示背后的意图有更好的理解,使它们能够更有效地遵循指示并生成更优秀的回答。另一方面,较小的模型难以充分理解系统提示,训练和测试之间的一致性可能对它们的性能产生负面影响。

总结

我们介绍了DeepSeek LLMs,一系列开源模型,这些模型是基于2T tokens的庞大数据集从零开始训练的。在本文中,我们提供了关于超参数选择、scaling-law以及我们进行的各种微调尝试的深入解释。

  • 我们校准了之前工作的scaling-law,并提出了一种新的最优模型/数据扩展分配策略。
  • 此外,我们提出了一种方法,可以在给定的计算预算下预测接近最优的批量大小和学习率。
  • 我们进一步得出结论,扩展规律与数据质量有关,这可能是不同工作中扩展行为变化的根本原因。在扩展规律的指导下,我们使用最佳超参数进行预训练,并提供了全面的评估。

DeepSeek Chat具有其他大型语言模型普遍存在的公认限制,包括预训练后缺乏持续的知识更新、可能生成未经验证的建议等非事实信息,以及倾向于产生幻觉。此外,值得注意的是,我们的中文数据的初始版本并不全面,这可能导致在某些特定中文主题上的性能不佳。由于我们的数据主要由中文和英文来源组成,模型在其他语言上的熟练程度仍然微妙,应谨慎对待。

DeepSeek LLM是一个长期项目,致力于推进开源语言模型。

  • 很快,我们将分别发布我们在代码智能和**混合专家(MoE)**技术报告。它们展示了我们如何创建高质量的代码数据进行预训练,以及如何设计稀疏模型以实现密集模型的性能。
  • 目前,我们正在构建一个更大且改进的数据集,用于即将到来的DeepSeek LLM版本。我们希望在下一个版本中,推理能力、中文知识、数学和代码能力将得到显著提升。
  • 我们的对齐团队致力于研究如何向公众提供有帮助、诚实和安全的模型。我们的初步实验表明,强化学习可以提升模型的复杂推理能力。

个人总结:23年发布的第一版本的DeepSeek LLM是对开源LLM Llama的复刻,技术团队在复刻的过程中积累了自己构建的训练数据和训练经验,其中也包含了一些对超参数选择的探究。但整体来说,由于训练数据量不够大等原因,表现上也没有很突出。不过,此时团队已经发现这些问题,并已经在数据集、MoE架构以及RL方面有了清晰的认知和具体的行动,这将为V2和V3的出现奠定基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13947.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI驱动的智能流程自动化是什么

在当今快速发展的数字化时代,企业正在寻找更高效、更智能的方式来管理日常运营和复杂任务。其中,“AI驱动的智能流程自动化”(Intelligent Process Automation, IPA)成为了一个热门趋势。通过结合人工智能(AI&#xff…

集合类不安全问题

ArrayList不是线程安全类,在多线程同时写的情况下,会抛出java.util.ConcurrentModificationException异常 解决办法: 1.使用Vector(ArrayList所有方法加synchronized,太重) 2.使用Collections.synchronized…

私有化部署DeepSeek并SpringBoot集成使用(附UI界面使用教程-支持语音、图片)

私有化部署DeepSeek并SpringBoot集成使用(附UI界面使用教程-支持语音、图片) windows部署ollama Ollama 是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计 下载ollama 下载地址(m…

Verilog代码实例

Verilog语言学习! 文章目录 目录 文章目录 前言 一、基本逻辑门代码设计和仿真 1.1 反相器 1.2 与非门 1.3 四位与非门 二、组合逻辑代码设计和仿真 2.1 二选一逻辑 2.2 case语句实现多路选择逻辑 2.3 补码转换 2.4 7段数码管译码器 三、时序逻辑代码设计和仿真 3.1…

二级C语言题解:十进制转其他进制、非素数求和、重复数统计

目录 一、程序填空📝 --- 十进制转其他进制 题目📃 分析🧐 二、程序修改🛠️ --- 非素数求和 题目📃 分析🧐 三、程序设计💻 --- 重复数统计 题目📃 分析🧐 前言…

BFS算法——广度优先搜索,探索未知的旅程(下)

文章目录 前言一. N叉树的层序遍历1.1 题目链接:https://leetcode.cn/problems/n-ary-tree-level-order-traversal/description/1.2 题目分析:1.3 思路讲解:1.4 代码实现: 二. 二叉树的锯齿形层序遍历2.1 题目链接:htt…

软件系统性能测试的重要性和测试类型分享

在现代软件开发领域,软件系统性能测试的重要性愈发凸显。软件系统性能测试是一种评估软件应用程序在特定工作负载下的响应时间、稳定性和资源消耗的测试过程。其目标是识别性能瓶颈,确保软件在不同的负载条件下依然能够高效运行。 一、软件系统性能测试…

Three.js 实现海面效果

Three.js 实现海面效果 https://threehub.cn/#/codeMirror?navigationThreeJS&classifyshader&idoceanShader import * as THREE from three import { OrbitControls } from three/examples/jsm/controls/OrbitControls.js import { Water } from three/examples/js…

C++----继承

一、继承的基本概念 本质:代码复用类关系建模(是多态的基础) class Person { /*...*/ }; class Student : public Person { /*...*/ }; // public继承 派生类继承基类成员(数据方法),可以通过监视窗口检…

【MySQL】第二弹---数据库基础全解析:从概念到实践的深度探索

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】【MySQL】 目录 1. 数据库基础 1.1 什么是数据库 1.2 主流数据库 1.3 基本使用 1.3.1 MySQL安装 1.3.2 连接服务器 1.3.3 服务器…

深度学习:解码智能的“数字炼金术”

深度学习:解码智能的“数字炼金术” 1943年,当神经科学家沃伦麦卡洛克和数学家沃尔特皮茨在论文中首次提出人工神经元模型时,他们或许没有想到,这个简单的数学公式会在80年后掀起改变人类文明的技术革命。深度学习作为这场革命的…

无人机方位感知器官磁力传感器!

一、磁力计传感器的运作方式 基本原理: 磁力计传感器的工作原理基于磁场感应定律。当无人机处于地球磁场中时,磁力计可以测量地磁场的强度和方向。 磁力计通常采用三个互相垂直的磁阻传感器,每个轴向上的传感器检测在该方向上的地磁场强度…

基于SpringBoot养老院平台系统功能实现五

一、前言介绍: 1.1 项目摘要 随着全球人口老龄化的不断加剧,养老服务需求日益增长。特别是在中国,随着经济的快速发展和人民生活水平的提高,老年人口数量不断增加,对养老服务的质量和效率提出了更高的要求。传统的养…

2.7作业

手动将登录项目实现 //widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QtTextToSpeech/QTextToSpeech> #include <QPushButton> #include <QLabel> #include <QDebug> #include <QMovie> #include <QLineEd…

记录 | WPF基础学习Style局部和全局调用

目录 前言一、Style1.1 例子1.2 为样式起名字1.3 BasedOn 继承上一个样式 二、外部StyleStep1 创建资源字典BaseButtonStyle.xamlStep2 在资源字典中写入StyleStep3 App.xaml中写引用路径【全局】Step4 调用三、代码提供四、x:Key和x:Name区别 更新时间 前言 参考文章&#xff…

深度学习 Pytorch 神经网络的学习

本节将从梯度下降法向外拓展&#xff0c;介绍更常用的优化算法&#xff0c;实现神经网络的学习和迭代。在本节课结束将完整实现一个神经网络训练的全流程。 对于像神经网络这样的复杂模型&#xff0c;可能会有数百个 w w w的存在&#xff0c;同时如果我们使用的是像交叉熵这样…

vue项目如何设置默认页面

j​​​​​​​​​​​​​​​​​​​​​​​​​​​​创建一个新的vue项目并且将初始页面还原到空白项目开始 - 现实里的乌托邦 - 博客园 vue项目如何设置默认页面 • Worktile社区 创建一个vue项目并配置默认页面_vue如何设置初始展示的页面-CSDN博客 新建的vue项目…

DFX(Design for eXcellence)架构设计全解析:理论、实战、案例与面试指南*

一、什么是 DFX &#xff1f;为什么重要&#xff1f; DFX&#xff08;Design for eXcellence&#xff0c;卓越设计&#xff09;是一种面向产品全生命周期的设计理念&#xff0c;旨在确保产品在设计阶段就具备**良好的制造性&#xff08;DFM&#xff09;、可测试性&#xff08;…

基础篇05-图像直方图操作

本节将简要介绍Halcon中有关图像直方图操作的算子&#xff0c;重点介绍直方图获取和显示两类算子&#xff0c;以及直方图均衡化处理算子。 目录 1. 引言 2. 获取并显示直方图 2.1 获取&#xff08;灰度&#xff09;直方图 (1) gray_histo算子 (2) gray_histo_abs算子 (3…

Linux TCP 编程详解与实例

一、引言 在网络编程的领域中&#xff0c;TCP&#xff08;Transmission Control Protocol&#xff09;协议因其可靠的数据传输特性而被广泛应用。在 Linux 环境下&#xff0c;使用 C 或 C 进行 TCP 编程可以实现各种强大的网络应用。本文将深入探讨 Linux TCP 编程的各个方面&…