关于deepseek的一些普遍误读

最近deepseek成为全球最热门的话题，甚至没有之一，无论是北美，欧洲，各大IT巨头，各个投资机构，政府官员，乃至脱口秀演员，都在不断提及这个话题，而国内，自媒体也享受了一批十万加盛宴，惭愧，我的前一篇也算是其中之一。

但在这些信息的不断传播和讨论中，鉴于流量的偏好，或者说公众的偏好，在很多自媒体和非专业人士的报道和解读中，一些关键信息存在较多的误导。

我觉得这个话题甚至可以作为一个认知能力的评判标准，我所理解的合理认知是，我前几天直播讲了一下，就是掐头去尾。所谓头和尾是什么，过度神话，以及无脑贬低。

1、过度神话

我旧文 DeepSeek，逆转时刻？其实也说到了，它非常棒，对行业发展的促进价值是值得肯定的，但谈及颠覆，还为时尚早。一些专业测评来看，在一些关键问题的解决上，并没有超越chatgpt。比如我看到有人测试，模拟典型的小球在封闭空间的弹跳代码，deepseek编写出来的程序表现，和chatgpt o3-mini 相比，从物理学的遵循度角度来看，还是有差距的。

o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观

当然，我没有亲测，单一案例也许不能证明太多，但至少目前看到的多个测评来说，最多只能说各有千秋，deepseek还不能说实现了反超。

2、无脑贬低

不要过度神话它，但无脑贬低也是很扯淡的事情。

微软说deepseek蒸馏了chatgpt的结果，所以一些人也借题发挥，把deepseeek贬低的一钱不值。这个事情该怎么看，那么一些证据也是有的，比如你问deepseek自己是谁，它会说自己是chatgpt，从某种意义来说，这个很有可能是他们采纳了一些chatgpt的一些语料信息训练，但如果你说他们的成就是基于蒸馏chatgpt的，我是不信的，根据我的测试，deepseek答案的脑洞很大，很多问题的解答会比chatgpt发散，而我所理解的蒸馏，通常是为了提升效率，会带来更收敛的结果。

我的个人判断是，deepseek的训练中，可能部分利用了一些蒸馏的语料信息，或者做了少许的蒸馏验证，但这个对它整个模型的质量和价值影响应该很低。而且既然人家都开源了，复现和测试也很容易，全球做AI大模型的专家已经人手一份在研究了，就此而言，在这个环节上翻车的概率极低。但我也认同一个事实，基于领先模型蒸馏验证优化自己的模型，是很多大模型团队的一个常规操作，但毕竟需要联网API，能获得的信息非常有限，不太可能是决定性的影响因素，相对于海量的互联网数据信息来说，通过api调用领先大模型能获得的语料杯水车薪，合理的猜测是更多用于对策略的验证分析，而不是直接用作大规模训练。

所有大模型都需要从互联网获得语料训练，而领先的大模型也在不断为互联网贡献语料，从这个角度来说，每个领先的大模型都摆脱不了被采集，被蒸馏的宿命，但其实也没必要把这个当作是决定成败的关键。最终大家都是你中有我，我中有你，迭代前进。

3、成本优势

关于DeepSeek成本优势这块，误读是最多的，也是最容易去写段子，打鸡血的，所谓中国创业公司不到600万美元干翻所有巨头，各种自媒体喜欢这样讲，普通老百姓也分辨不了。

那么实际上，这个数据的来源是DeepSeek论文里提到的数据，而人家论文提到的数据是有前提的，就是最终版本的训练成本，人家说的这个前提很清楚，没有包括研发成本，前期硬件购置成本，以及前期测试和迭代的训练成本，只是最终版本的训练成本，或者说，你拿着人家开源代码，你有对方完整语料，去做完整复现的算力成本。

我举个例子你们就明白了，这就好比告诉你配方和生产流程，你去做仿制药的成本（还不包括人工），但是原研药的成本是仿制药的多少倍，稍微懂点行的都知道吧。

很多硅谷大佬出来说这个事，国内的人会认为这些大佬在贬低DeepSeek，其实很多真不是，他们也要给自己团队找点场子对吧，自己投入几十亿美金，被中美两边的老百姓们嘲笑，要对公众澄清一点，Deepseek真实成本绝对不是几百万美金，我们这些巨头投入的几十亿美金也不是因为我们人傻对吧，所以很多大佬其实只是澄清事实，为自己的团队正名而已。

但硅谷某些人的言论我也是不太认同的，说deepseek有五万张H100，投入十几亿到二十亿美金，这个我还真不信，我觉得这就是另一个极端了。

我给读者们算个帐

其一，网上说幻方不差钱，但他们背后其实是私募基金，私募基金啥意思，有投资人的，你梁文峰有情怀，人家投资人给你钱是炒股票的，不是给你情怀的，幻方几百亿人民币的资金盘子，是投资人的钱，不是梁文峰的钱，他们炒股一年赚大几十亿人民币（网上数据），是给投资人赚的钱，按照行规他们能分十几个亿，管理费+利润佣金，大概率过不了二十亿。然后还有各种税费要交，核心团队怎么说也要分分钱，以及人员和正常的量化系统的维护成本，这个钱当然不算少，比起很多国内上市公司利润还多，但即便如此，算来算去，怎么看他们也不像能拿出十几个亿美金搞事的样子，七扣八扣，一年能拿出来十个亿人民币都难，这是我的个人判断。

其二，人家优化算法，对内存的控制策略，摆明了是针对H800的内存局限做的，要有那么多H100搞这么复杂的内存优化干嘛，就算做优化也不会对内存占用卡的那么狠对吧。

那么结合之前看到的一些数据和介绍，幻方有上万张，乃至几万张卡是真的，前期成本肯定不是几百万美金那么少，但是比起行业巨头来说，他们的资金其实也有限，能拿到的资源也有限，我觉得合理估算，几年来累计投入十几个亿甚至二十多亿人民币我认为是有可能的（硬件采购成本，员工成本，前期训练和迭代的试错成本等等），肯定不是个小数字，也不是普通创业公司能玩的起来的，但比起美国同行，比起行业巨头，肯定也是抠门了很多，总研发成本比美国同行低一个数量级也是合理的。

没有网传那么省钱，但确实还是挺省钱的，这是我的结论。

4、合规风险和生态诉求

另一个巨大的误读，就是很多人没意识到，DeepSeek这个词背后究竟是什么。

其实我们所说的DeepSeek，实际上包括了两个产品，一个是DeepSeek这个风靡世界的App，另一个是github上的开源代码库。

前者可以认为是后者的Demo，一个完整的能力展示，而从他们产品的动作来看，我甚至怀疑他们压根没有将DeepSeek App商业化的打算，做个类比来看，就好比微信刚推出小游戏功能的时候，推出了一个跳格子小游戏，当时全网的人都在疯玩跳格子，但微信根本不在乎跳格子这个游戏的价值，他们要的是微信小游戏这个生态的建立。

现在网上有很多新闻，说某些国家某些地区禁用了DeepSeek，又说某些巨头接入和提供了DeepSeek。很多人把这两件事混为一谈，其实这是完全独立的两件事。

DeepSeek这个App貌似没有做全球分区处理，没有针对任何地区做本地化处理，从这一点来说，确实很多国家和地区会有针对性的政策。（微信在不同国家和地区都有不同的处理，有不同的功能会在不同区域被禁用，很多国内产品出海都会存在类似的问题，海外合规是个非常大的话题，不展开讲了）。小红书其实也是类似，我直播里就讲过，小红书压根没打算去接网民所谓的泼天富贵，对小红书来说，这也不是泼天富贵。它以前只做中文流量，不显山不露水的与世无争，被突然推到前台其实合规麻烦也是数不清。好在这俩产品目前都具有很好的统战价值，合规麻烦暂时主要在海外，国内目前官方都还是积极支持的。

但开源系统就不一样了，而且DeepSeek还选择了最大气的开源协议（太大气了，完全不限制商用，真的是情怀，无比佩服。），据我所知，不太会有哪个政府傻缺到去限制开源软件的部署。所以各个国际巨头快速部署并提供相关服务，这个和某些政府所谓的限制使用DeepSeek App，完全是两回事，一点不冲突，而且他们限制的是政府雇员使用，并没有限制普通群众使用。

你换位思考一下，中国会允许政府机构和军队使用部署在海外的数据产品么，为什么。但是海外开源系统的内部私有化部署一定是合规的（当然前提是经得起代码审计），而且也一定是广泛存在的。

如果我们放眼DeepSeek生态，而不是纠结于那个App，目前全球正在处于蓬勃发展的阶段，还没有看到任何禁令阻止这一趋势的发展。而且我相信，从梁文峰当下的做事风格来看，相关生态环境的发展也是他真正所期待的。

5、行业影响

很多人觉得英伟达完了，美国巨头完了，我不这么看，我觉得DeepSeek最大的贡献是，会加速整个AI产业的迭代效率，它们提供了一些新的优化思路，工程思想理念，会被所有行业巨头广泛吸收采纳，并用于产品的快速迭代和优化，用不了几个月，我相信就会看到显著的成果。

其实最近几天，就能看到chatgpt产品迭代突然提速了，我觉得重头戏还在后面。

至于CUDA，有人觉得CUDA架构面临崩塌，我也不太信。

确实，这给受限于美国制裁的中国厂商提供了新的思路，从PTX入手，一样可以做出优秀的产品，但Cuda也会与时俱进啊，你的内存利用方式很优秀，我学过来，整合到我的新版本里不行么。下个版本更新发布的时候，包含一些新的方法和特性，基于它的生态架构，用户还是会继续使用顺手的产品。

DeepSeek用卓越的工程思想，促进AI全行业的快速迭代，并促进相关开源生态的快速发展，这既是我对它的预测，也是我对它的价值认定。

当然，负面也是有的，因为它的训练成本真的低，效果也确实真的好，而且还全部开源，如果一些黑灰产领域在没有合规约束的情况下进行训练和使用，说真的，想想也挺可怕的，而且，还真没想到有什么好办法去应对。