1. DeepSeek 的起源
-
创立时间:DeepSeek 于 2023 年由中国的梁文锋创立。
-
V3 模型训练成本:最终训练成本为 600 万美元。
-
开源:DeepSeek 提供开源版本。
-
流行度:DeepSeek R1 模型成为 Apple 应用商店中下载量最高的应用。
2. 模型架构
-
专家混合(MoE)架构:采用 Mixture of Experts(MoE)架构,这种架构通过专家网络提高效率和性能。
-
学习方法:DeepSeek R1 使用 Group Relative Policy Optimization (GRPO) 学习方法:
-
通过强化学习不断增强推理能力。
-
结合精调(Fine Tune)与 GRPO 的双向循环,优化模型性能。
-
3. DeepSeek 模型统计
-
基础模型规模:拥有 6710 亿参数。
-
动态参数激活:激活动态参数规模为 370 亿。
-
训练数据量:使用 14.8 万亿个 token 进行训练。
-
MoE 架构:包含 16 个专家网络。
4. 性能与成本
-
上下文窗口:支持高达 128K tokens 的上下文窗口。
-
处理速度:每秒可处理 14.2 tokens。
-
API 成本:处理 100 万 tokens 的输入和输出约为 8 美元。
-
硬件需求:仅需 2000 张 Nvidia 显卡,而非传统模型的 16000 张。
5. 与 OpenAI 的对比
-
架构:
-
DeepSeek:采用 MoE 架构,拥有 256 个推理专家。
-
OpenAI:采用 Transformer 编码器-解码器结构。
-
-
参数效率:
-
DeepSeek:使用 FP8 混合精度。
-
OpenAI:标准 transformer 实现。
-
-
内存优化:
-
DeepSeek:多头潜在注意力机制。
-
OpenAI:多头自注意力机制。
-
-
训练速度:
-
DeepSeek:训练时间约 90 天,使用 2000 张显卡。
-
OpenAI:需要 25000 张显卡,耗时超 100 天。
-
-
MATI-500 性能:
-
DeepSeek:得分 97.3%。
-
OpenAI:得分 96.4%。
-
-
编码能力:
-
DeepSeek:Codeforces 评估 ELO 分数为 2029。
-
OpenAI:估计分数为 1673。
-
-
成本效率:
-
DeepSeek:API 成本 2-8 美元/百万 tokens。
-
OpenAI:API 成本 15-60 美元/百万 tokens。
-
6. 关键能力
-
核心能力:编码、数学、推理、语言处理、搜索、API 集成等。
-
附加功能:
-
研究与上下文整合:支持高效的科研任务。
-
资源节约:相较于传统大模型具有更低成本。
-