DeepSeek训练成本与技术揭秘

引言:在当今人工智能蓬勃发展的时代,DeepSeek 宛如一颗耀眼的新星,突然闯入大众视野,引发了全球范围内的热烈讨论。从其惊人的低成本训练模式,到高性能的模型表现,无一不让业界为之侧目。它打破了传统认知,让人们重新审视 AI 研发的成本与效率。然而,这背后的真相究竟如何?真实的训练成本到底几何?闭源模型的利润又受到怎样的冲击?H100 的价格飙升与它有何关联?补贴推理定价又隐藏着哪些秘密?出口管制对其又会产生怎样的影响?还有多头潜在注意力(MLA)技术究竟有着怎样的神奇之处?让我们一同深入这场 DeepSeek 引发的行业大辩论,探寻其中的奥秘 。

图片

DeepSeek 在短时间内迅速成为全球关注的焦点。尽管该公司并不是新成立的,但近期它获得了前所未有的关注和讨论热度,甚至超过了其他知名的人工智能产品如Claude、Perplexity和Gemini。

对于密切关注这一领域的人来说,DeepSeek 的崛起并不令人意外。几个月以来,行业内一直在讨论 DeepSeek 的潜力与成就。然而,随着公众的关注度激增,这种狂热的关注程度似乎并不完全反映现实情况。作者认为,最近关于 DeepSeek 的讨论转向了其算法改进的速度,以及这是否对 Nvidia 和 GPU 市场造成了负面影响。

最新观点是,DeepSeek 的效率如此之高,以至于不再需要更多的计算资源,这导致了现有计算能力的过剩。尽管 Jevons 悖论(即技术进步虽然提高了效率,但总体上却增加了资源消耗)也被过度炒作,但在现实中,模型的进步确实已经影响到了 H100 和 H200 等硬件的价格。

DeepSeek 的迅猛发展不仅改变了人们对人工智能效率的看法,也对现有的硬件市场产生了实际的影响。

DeepSeek与High-Flyer的关系

High-Flyer是一家中国的对冲基金,早在AI技术被广泛应用于金融领域之外之前,他们就已经认识到AI的潜力,并且特别关注到了扩展性(scaling)的重要性。因此,High-Flyer一直在增加其GPU供应,以支持更大规模的AI模型训练。

图片

2021年,在任何出口限制措施实施之前,High-Flyer就果断投资购买了10,000个A100 GPU,用于大规模模型训练实验。这项战略决策后来被证明是非常成功的,为公司带来了显著的竞争优势。

图片

随着High-Flyer在AI能力上的持续进步,他们决定于2023年5月剥离出一个独立实体——DeepSeek。DeepSeek的目标是专注于进一步发展AI技术。由于当时外界投资者对AI的兴趣有限,尤其是考虑到缺乏明确的商业模式,DeepSeek主要由High-Flyer自我资助。

如今,DeepSeek已经发展成为一个严肃、有组织的努力方向,远远超出了媒体所称的“副项目”。High-Flyer和DeepSeek之间经常共享资源,包括人力和技术计算资源。据估计,仅在GPU投资方面,DeepSeek的投资额已经超过5亿美元,即使考虑到了出口控制的影响。

DeepSeek从一个内部项目的起源到成长为一个独立且重要的AI研发公司的历程。它强调了早期对AI技术和硬件基础设施的战略投资如何奠定了成功的基础,并指出了资源共享对于保持竞争力的重要性。DeepSeek的发展故事也反映了AI技术领域内,早期识别趋势并采取行动的重要性。

DeepSeek的GPU资源分布

DeepSeek拥有大约50,000个Hopper架构的GPU,其中包括10,000个H800和10,000个H100型号。此外,他们还订购了大量的H20型号GPU,这些GPU专为中国市场设计。尽管H800与H100具有相同的计算能力,但其网络带宽较低。H20是当前唯一对中国模型提供商可用的型号。这些GPU不仅用于DeepSeek,也服务于High-Flyer,地理上分散部署,支持交易、推理、训练和研究等多种任务。

图片

DeepSeek在服务器上的总资本支出约为16亿美元,其中约9.44亿美元用于集群的运营成本。与其他AI实验室和超大规模企业类似,DeepSeek面临的挑战之一是如何有效集中资源进行特定任务的训练。

DeepSeek专注于从中国顶尖大学如北京大学和浙江大学招募人才,强调能力和好奇心而非过往资历。公司提供高度灵活的工作环境,并以访问大量GPU资源为吸引点。为优秀候选人提供的年薪超过130万美元,远高于其他大型中国科技公司和AI实验室的标准。目前DeepSeek有约150名员工,但正在快速扩展。Deepseek核心创始团队成员的学历高校与技术背景如下:

成员

学历高校

技术背景

梁文锋

浙江大学电子信息工程专业本科、信息与通信工程硕士

2013年与同学创立杭州雅克比投资管理有限公司,2015年成立杭州幻方科技有限公司,2016年幻方量化推出首个基于深度学习的交易模型,2023年创办DeepSeek,有丰富的量化投资和AI领域经验

罗福莉

北京大学计算语言学硕士

曾在阿里巴巴达摩院从事预训练语言模型相关工作,2022年加入幻方量化,参与DeepSeek大模型的关键研发

高华佐

北京大学物理学院(本科,保送至)

2012年获第29届全国中学生物理竞赛一等奖,在Transformer架构基础上,用新的MLA替代传统多头注意力机制等,推动DeepSeek架构创新

曾旺丁

北京邮电大学人工智能学院硕士

主要学习人工智能方向,参与DeepSeek-V2创新,在Transformer架构创新等方面有贡献

邵智宏

清华大学交互式人工智能(CoAI)课题组博士生

曾服务于微软研究院,主要研究自然语言处理、深度学习,参与DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder -v2等项目研发

朱琪豪

北京大学计算机学院博士

专注于深度代码学习研究,发表CCF -A类论文16篇,获软件工程领域顶级会议杰出论文奖,主导开发DeepSeek大模型关键项目

代达劢

北京大学

参与DeepSeek大模型从V1到V3每一代的研发

赵成钢

清华大学

曾在英伟达公司实习,衡水中学时获全国青少年信息学奥林匹克竞赛银牌,大学期间三次获得世界大学生超算竞赛冠军,负责DeepSeek大模型训练及推理基础架构

吴俣

北京航空航天大学计算机学院博士

曾在微软亚洲研究院工作,参与小冰和必应百科项目,是DeepSeek后训练团队的负责人

作为一家自筹资金的小型创业公司,DeepSeek能够迅速行动并实施新想法,避免了大公司的官僚障碍。类似于谷歌,DeepSeek运行自己的数据中心,这为其提供了进一步实验的空间,促进了全栈创新。DeepSeek被认为是当前最好的“开放权重”实验室之一,超越了Meta的Llama项目和其他竞争对手如Mistral。

DeepSeek凭借其丰富的GPU资源、高额的资金投入、独特的招聘策略以及灵活高效的组织文化,在AI领域尤其是开放权重研究方面占据了领先地位。其成功展示了小而精且高度聚焦的初创公司在推动技术创新方面的巨大潜力。

DeepSeek的训练成本及其性能

最近引起轰动的一个头条新闻提到,DeepSeek V3的训练成本为“600万美元”。然而,这个数字仅指的是预训练阶段的GPU成本,并不能代表整个模型开发和训练的全部成本。

据报道,DeepSeek在硬件上的总支出已经超过5亿美元,这还不包括研发费用和其他重要开支。新架构创新的研发过程中,测试新想法、新架构以及进行消融实验都需要大量的资金投入。例如,DeepSeek的关键创新之一——多头潜在注意力(Multi-Head Latent Attention),花费了几个月的时间开发,涉及了大量的人力和GPU资源。

完整的成本结构:

  • 预训练成本:仅为整个模型成本的一部分,具体指用于预训练阶段的GPU成本。

  • 研发成本:包括探索新架构、验证新想法等所需的实验成本。

  • 硬件总拥有成本(TCO):包括硬件的购买、维护和运营成本。

  • 其他成本:如数据收集与清理、员工薪酬等。

对比其他模型:

  • 以Claude 3.5 Sonnet为例,其训练成本高达数千万美元。如果Anthropic只需支付这些费用,他们就不会从谷歌和亚马逊筹集数十亿美元的资金。这是因为除了训练本身,还需要进行大量的实验、架构设计、数据处理等工作。

DeepSeek能够拥有如此大规模的计算集群,关键在于出口管制的滞后。尽管目前对中国的某些高性能GPU实施了出口限制,但DeepSeek早在这些限制生效之前就已经积累了大量的A100 GPU。此外,他们还订购了大量的H20型号GPU,这是专门为满足中国市场的需求而生产的。

V3模型的性能对比

  • V3无疑是一个令人印象深刻的模型,但其“令人印象深刻”的定义需要具体化。许多人将V3与GPT-4o进行比较,并指出V3在性能上超越了GPT-4o。虽然这是事实,但需要注意的是,GPT-4o发布于2024年5月,而在AI领域,这段时间已经带来了显著的算法进步。

图片

  • 随着时间的推移,使用较少的计算资源实现相同或更强的能力是正常的。例如,现在可以在笔记本电脑上运行的小型模型可以达到与GPT-3相当的性能,而GPT-3最初需要超级计算机来训练和多个GPU来进行推理。这种现象表明,算法改进使得相同的计算能力可以在更小的计算资源上实现。

图片

计算成本的下降:

  • AI实验室通常会在绝对美元支出上投入更多,以获得更高的智能水平。估计每年算法进步的速度为4倍,意味着每过一年,实现相同能力所需的计算资源减少4倍。Anthropic的CEO Dario甚至认为,算法进展可能更快,能达到10倍的改进。

  • 对于GPT-3质量的推理成本,已经下降了1200倍。对于GPT-4的成本调查也显示了类似的下降趋势,尽管这一趋势在早期阶段更为明显。

图片

  • 算法改进和优化不仅降低了成本,还提高了能力。例如,在某些情况下,可以看到成本降低了10倍,同时能力提升了10倍。

DeepSeek的独特之处

  • DeepSeek的独特之处在于它首先达到了这种成本和能力的水平,并且率先发布了开放权重(open weights)。虽然Mistral和Llama等之前的模型也曾这样做,但DeepSeek在这方面仍然是先驱者。

  • 到今年年底,如果成本再降低5倍也不足为奇。这反映了算法改进的速度以及DeepSeek在这一领域的持续领先地位。

R1与o1的性能关系

R1能够取得与o1相当的结果,尤其是在推理性能方面。比如在化学、数学和编码等任务上,R1能与o1比肩。R1在推理性能上虽与o1匹配,但在其他指标上并非总是领先,甚至在不少情况下表现不如o1。R1论文中未提及所有基准测试结果,尤其是那些它不占优势的测试,这使得直接比较R1和o1具有一定的难度。

图片

当前的新范式聚焦于通过合成数据生成和在现有模型上进行后训练强化学习来提升推理能力。与依赖预训练的旧范式相比,新范式迭代速度更快、成本更低,进入门槛也更低,更容易优化。这使得DeepSeek能以较低成本更快地复制o1的方法,从而快速取得进展。

尽管DeepSeek未公布训练R1所使用的计算资源,但生成合成数据和进行强化学习都需要大量计算。在资源相对有限的情况下,DeepSeek能快速赶上o1,体现了其高效利用资源的能力。

图片

另外,o3模型能力显著高于R1和o1。OpenAI展示的o3在基准测试中的垂直扩展能力,表明尽管DeepSeek的R1取得了明显进步,但在AI领域仍存在更高的技术水平,还有很大的发展空间。

DeepSeek的技术成就

技术创新:

  • 多令牌预测(MTP):DeepSeek V3采用了前所未有的大规模多令牌预测技术。这种技术通过添加注意力模块来预测接下来的几个令牌,而非单一令牌,从而提高了训练期间的模型性能,并在推理时可以被丢弃。

  • 混合专家模型(MoE):V3是一个由多个小专家模型组成的混合专家模型,每个专家模型专注于不同的任务。DeepSeek实现了一个“门控网络”,有效地将令牌路由到正确的专家模型,从而提高了路由效率并减少了训练过程中每令牌相对模型总体大小的参数变化。

  • 多头潜在注意力(MLA):MLA是减少推理成本的关键创新之一。它通过减少每个查询所需的KV缓存量(约93.3%),显著降低了硬件需求和成本。

训练效率:

  • 混合专家模型面临的挑战是如何确定哪个令牌应路由到哪个子模型或“专家”。DeepSeek通过实施一个高效的门控网络解决了这一问题,确保路由过程不会影响模型性能。

  • 强化学习(RL)在R1的训练中起到了重要作用,特别是在格式化和有用性及无害性方面的优化。

推理效率:

  • MLA通过减少每个查询所需的KV缓存量,大幅降低了硬件需求和成本,DeepSeek可能以成本价提供推理服务以获取市场份额。

参考文献:https://semianalysis.com/2025/01/31/deepseek-debates/


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15487.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数组与指针1

1. 数组名的理解 1.1 数组名是数组首元素的地址 int arr[10] {1,2,3,4,5,6,7,8,9,10};int *p &arr[0]; 这里我们使用 &arr[0] 的方式拿到了数组第一个元素的地址,但是其实数组名本来就是地址,而且是数组首元素的地址。如下: 1.2…

Axure原型图怎么通过链接共享

一、进入Axure 二、点击共享 三、弹出下面弹框,点击发布就可以了 发布成功后,会展示链接,复制即可共享给他人 四、发布失败可能的原因 Axure未更新,首页菜单栏点击帮助选择Axure更新,完成更新重复以上步骤即可

软件模拟I2C案例(寄存器实现)

引言 在经过前面对I2C基础知识的理解,对支持I2C通讯的EEPROM芯片M24C02的简单介绍以及涉及到的时序操作做了整理。接下来,我们就正式进入该案例的实现环节了。本次案例是基于寄存器开发方式通过软件模拟I2C通讯协议,然后去实现相关的需求。 阅…

脚手架开发【实战教程】prompts + fs-extra

创建项目 新建文件夹 mycli_demo 在文件夹 mycli_demo 内新建文件 package.json {"name": "mycli_demo","version": "1.0.0","bin": {"mycli": "index.js"},"author": "","l…

【大模型】DeepSeek-V3技术报告总结

系列综述: 💞目的:本系列是个人整理为了学习DeepSeek相关知识的,整理期间苛求每个知识点,平衡理解简易度与深入程度。 🥰来源:材料主要源于DeepSeek官方技术报告进行的,每个知识点的…

只需三步!5分钟本地部署deep seek——MAC环境

MAC本地部署deep seek 第一步:下载Ollama第二步:下载deepseek-r1模型第三步:安装谷歌浏览器插件 第一步:下载Ollama 打开此网址:https://ollama.com/,点击下载即可,如果网络比较慢可使用文末百度网盘链接 注:Ollama是…

力扣hot100刷题第一天

哈希 1. 两数之和 题目 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案,并且你不能使用两次相同的元素。你可以按任意…

Linux(CentOS)安装 Nginx

CentOS版本:CentOS 7 Nginx版本:1.24.0 两种安装方式: 一、通过 yum 安装,最简单,一键安装,全程无忧。 二、通过编译源码包安装,需具备配置相关操作。 最后附:设置 Nginx 服务开…

项目6:基于大数据校园一卡通数据分析和可视化

1、项目简介 本项目是基于大数据的清华校园卡数据分析系统,通过Hadoop,spark等技术处理校园卡交易、卡号和商户信息数据。系统实现消费类别、男女消费差异、学院消费排行和年级对比等分析,并通过Web后端和可视化前端展示结果。项目运行便捷&…

Django项目中创建app并快速上手(pycharm Windows)

1.打开终端 我选择的是第二个 2.运行命令 python manage.py startapp 名称 例如: python manage.py startapp app01 回车,等待一下,出现app01的文件夹说明创建成功 3.快速上手 1.app注册 增加一行 "app01.apps.App01Config"&#…

使用Docker + Ollama在Ubuntu中部署deepseek

1、安装docker 这里建议用docker来部署,方便简单 安装教程需要自己找详细的,会用到跳过 如果你没有安装 Docker,可以按照以下步骤安装: sudo apt update sudo apt install apt-transport-https ca-certificates curl software-p…

信创领域的PostgreSQL管理员认证

信创产业,全称为信息技术应用创新产业,是中国为应对国际技术竞争、保障信息安全、实现科技自立而重点发展的战略性新兴产业。其核心目标是通过自主研发和生态构建,逐步替代国外信息技术产品,形成自主可控的国产化信息技术体系。 发…

jemalloc的malloc案例来分析GOT表和PLT表有关流程

一、背景 在之前的博客 跟踪jemalloc 5.3.0的第一次malloc的源头原因及jemalloc相关初始化细节拓展-CSDN博客 里,我们分析了在preload jemalloc的库之后,main之前的一次malloc分配(分配72704字节)的源头原因并做了jemalloc的初始…

Centos Ollama + Deepseek-r1+Chatbox运行环境搭建

Centos Ollama Deepseek-r1Chatbox运行环境搭建 内容介绍下载ollama在Ollama运行DeepSeek-r1模型使用chatbox连接ollama api 内容介绍 你好! 这篇文章简单讲述一下如何在linux环境搭建 Ollama Deepseek-r1。并在本地安装的Chatbox中进行远程调用 下载ollama 登…

使用sunshine和moonlight串流时的音频输出问题

设备:电脑和平板串流,把平板当副屏使用 1.如果启用安装steam音频驱动程序,则平板有声,电脑无声,在moonlight端可以设置平板和电脑同时发声,但是有点卡 2.只想电脑发声,平板无声 禁用安装steam…

微信小程序案例2——天气微信小程序(学会绑定数据)

文章目录 一、项目步骤1 创建一个weather项目2 进入index.wxml、index.js、index.wxss文件,清空所有内容,进入App.json,修改导航栏标题为“中国天气网”。3进入index.wxml,进行当天天气情况的界面布局,包括温度、最低温、最高温、天气情况、城市、星期、风行情况,代码如下…

如何在WPS和Word/Excel中直接使用DeepSeek功能

以下是将DeepSeek功能集成到WPS中的详细步骤,无需本地部署模型,直接通过官网连接使用:1. 下载并安装OfficeAI插件 (1)访问OfficeAI插件下载地址:OfficeAI助手 - 免费办公智能AI助手, AI写作,下载…

数字电路-基础逻辑门实验

基础逻辑门是数字电路设计的核心元件,它们执行的是基本的逻辑运算。通过这些基本运算,可以构建出更为复杂的逻辑功能。常见的基础逻辑门包括与门(AND)、或门(OR)、非门(NOT)、异或门…

哪吒闹海!SCI算法+分解组合+四模型原创对比首发!SGMD-FATA-Transformer-LSTM多变量时序预测

哪吒闹海!SCI算法分解组合四模型原创对比首发!SGMD-FATA-Transformer-LSTM多变量时序预测 目录 哪吒闹海!SCI算法分解组合四模型原创对比首发!SGMD-FATA-Transformer-LSTM多变量时序预测效果一览基本介绍程序设计参考资料 效果一览…

C++,STL 迭代器简介:概念、分类、操作

文章目录 引言一、迭代器的基本概念1.1 什么是迭代器?1.2 迭代器的意义二、迭代器的分类2.1 示意图:迭代器能力层级2.2 示例:不同迭代器的操作三、迭代器的常用操作3.1 基本操作3.2 随机访问迭代器专用操作示例代码:随机访问迭代器四、迭代器的通用用法4.1 遍历容器4.2 配合…