《DeepSeek-V3：人工智能大语言模型》

1. 引言

我们介绍了 DeepSeek-V3，这是一个强大的专家混合（MoE）语言模型，总共有 671B 个参数，每个令牌激活了 37B。为了实现高效的推理和具有成本效益的训练，DeepSeek-V3 采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了全面验证。此外，DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略，并设定了多标记预测训练目标以获得更强的性能。我们在 14.8 万亿个多样化和高质量的代币上对 DeepSeek-V3 进行预训练，然后是监督微调和强化学习阶段，以充分利用其功能。综合评估表明，DeepSeek-V3 的性能优于其他开源模型，并实现了与领先的闭源模型相当的性能。尽管性能出色，但 DeepSeek-V3 只需要 2.788M H800 GPU 小时即可进行完整训练。此外，它的训练过程非常稳定。在整个训练过程中，我们没有遇到任何无法恢复的损失峰值或执行任何回滚。

2. 模型概述

架构：创新的负载均衡策略和训练目标

除了 DeepSeek-V2 的高效架构之外，我们还开创了一种用于负载均衡的辅助无损策略，该策略可以最大限度地减少因鼓励负载均衡而引起的性能下降。
我们研究了多标记预测（MTP）目标，并证明它对模型性能有益。它还可用于推理加速的推测解码。

训练前：迈向终极训练效率

我们设计了一个 FP8 混合精度训练框架，并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。
通过算法、框架和硬件的协同设计，我们克服了跨节点 MoE 训练中的通信瓶颈，几乎实现了完全的计算-通信重叠。
这显著提高了我们的训练效率并降低了训练成本，使我们能够在不增加开销的情况下进一步扩大模型大小。
我们以仅 2.664M H800 GPU 小时的经济成本，在 14.8T 令牌上完成了 DeepSeek-V3 的预训练，生成了目前最强的开源基础模型。预训练后的后续训练阶段只需要 0.1M GPU 小时。

培训后：DeepSeek-R1 的知识提炼

我们引入了一种创新方法，将长链思维（CoT）模型的推理能力，特别是 DeepSeek R1 系列模型之一的推理能力提炼到标准 LLM 中，特别是 DeepSeek-V3。我们的 pipeline 将 R1 的验证和反射模式优雅地整合到 DeepSeek-V3 中，并显著提高了它的推理性能。同时，我们还保持对 DeepSeek-V3 的输出样式和长度的控制。

3. 模型下载

型	#Total Params	#Activated Params	上下文长度	下载
DeepSeek-V3-基础	671B 系列	编号 37B	128K	🤗 拥抱脸
深度搜索-V3	671B 系列	编号 37B	128K	🤗 拥抱脸

注意

Hugging Face 上 DeepSeek-V3 模型的总大小为 685B，其中包括 671B 的主模型权重和 14B 的多标记预测（MTP）模块权重。

为了确保最佳性能和灵活性，我们与开源社区和硬件供应商合作，提供了多种在本地运行模型的方法。有关分步指南，请查看第 6 节：How_to Run_Locally。

对于希望深入了解的开发人员，我们建议探索 README_WEIGHTS.md 以了解有关主模型权重和多标记预测（MTP）模块的详细信息。请注意，MTP 支持目前在社区内正在积极开发中，我们欢迎您的贡献和反馈。

4. 评估结果

基本模型

标准基准

	基准（度量）	# 镜头	深度搜索-V2	Qwen2.5 72B	LLaMA3.1 405B	深度搜索-V3
	建筑	-	教育部	稠	稠	教育部
	# 激活的 Params	-	21B	72B 系列	405B 系列	编号 37B
	# 总参数	-	编号 236B	72B 系列	405B 系列	671B 系列
英语	桩测试（BPB）	-	0.606	0.638	0.542	0.548
	BBH （EM）	3 镜头	78.8	79.8	82.9	87.5
	MMLU （Acc.）	5 镜头	78.4	85.0	84.4	87.1
	MMLU-Redux （Acc.）	5 镜头	75.6	83.2	81.3	86.2
	MMLU-Pro （附件）	5 镜头	51.4	58.3	52.8	64.4
	DROP （F1）	3 镜头	80.4	80.6	86.0	89.0
	ARC-Easy （累积）	25 发	97.6	98.4	98.4	98.9
	ARC-Challenge （累积）	25 发	92.2	94.5	95.3	95.3
	HellaSwag （累积）	10 次拍摄	87.1	84.8	89.2	88.9
	PIQA （累积）	0 次射击	83.9	82.6	85.9	84.7