关于deepseek的一些普遍误读

最近deepseek成为全球最热门的话题,甚至没有之一,无论是北美,欧洲,各大IT巨头,各个投资机构,政府官员,乃至脱口秀演员,都在不断提及这个话题,而国内,自媒体也享受了一批十万加盛宴,惭愧,我的前一篇也算是其中之一。

但在这些信息的不断传播和讨论中,鉴于流量的偏好,或者说公众的偏好,在很多自媒体和非专业人士的报道和解读中,一些关键信息存在较多的误导。

我觉得这个话题甚至可以作为一个认知能力的评判标准,我所理解的合理认知是,我前几天直播讲了一下,就是掐头去尾。所谓头和尾是什么,过度神话,以及无脑贬低。

1、过度神话

我旧文 DeepSeek,逆转时刻? 其实也说到了,它非常棒,对行业发展的促进价值是值得肯定的,但谈及颠覆,还为时尚早。一些专业测评来看,在一些关键问题的解决上,并没有超越chatgpt。比如我看到有人测试,模拟典型的小球在封闭空间的弹跳代码,deepseek编写出来的程序表现,和chatgpt o3-mini 相比,从物理学的遵循度角度来看,还是有差距的。

o3-mini 碾压DeepSeek R1?一条python程序引发近400万围观

当然,我没有亲测,单一案例也许不能证明太多,但至少目前看到的多个测评来说,最多只能说各有千秋,deepseek还不能说实现了反超。

2、无脑贬低

不要过度神话它,但无脑贬低也是很扯淡的事情。

微软说deepseek蒸馏了chatgpt的结果,所以一些人也借题发挥,把deepseeek贬低的一钱不值。这个事情该怎么看,那么一些证据也是有的,比如你问deepseek自己是谁,它会说自己是chatgpt,从某种意义来说,这个很有可能是他们采纳了一些chatgpt的一些语料信息训练,但如果你说他们的成就是基于蒸馏chatgpt的,我是不信的,根据我的测试,deepseek答案的脑洞很大,很多问题的解答会比chatgpt发散,而我所理解的蒸馏,通常是为了提升效率,会带来更收敛的结果。

我的个人判断是,deepseek的训练中,可能部分利用了一些蒸馏的语料信息,或者做了少许的蒸馏验证,但这个对它整个模型的质量和价值影响应该很低。而且既然人家都开源了,复现和测试也很容易,全球做AI大模型的专家已经人手一份在研究了,就此而言,在这个环节上翻车的概率极低。但我也认同一个事实,基于领先模型蒸馏验证优化自己的模型,是很多大模型团队的一个常规操作,但毕竟需要联网API,能获得的信息非常有限,不太可能是决定性的影响因素,相对于海量的互联网数据信息来说,通过api调用领先大模型能获得的语料杯水车薪,合理的猜测是更多用于对策略的验证分析,而不是直接用作大规模训练。

所有大模型都需要从互联网获得语料训练,而领先的大模型也在不断为互联网贡献语料,从这个角度来说,每个领先的大模型都摆脱不了被采集,被蒸馏的宿命,但其实也没必要把这个当作是决定成败的关键。最终大家都是你中有我,我中有你,迭代前进。

3、成本优势

关于DeepSeek成本优势这块,误读是最多的,也是最容易去写段子,打鸡血的,所谓中国创业公司不到600万美元干翻所有巨头,各种自媒体喜欢这样讲,普通老百姓也分辨不了。

那么实际上,这个数据的来源是DeepSeek论文里提到的数据,而人家论文提到的数据是有前提的,就是最终版本的训练成本,人家说的这个前提很清楚,没有包括研发成本,前期硬件购置成本,以及前期测试和迭代的训练成本,只是最终版本的训练成本,或者说,你拿着人家开源代码,你有对方完整语料,去做完整复现的算力成本。

我举个例子你们就明白了,这就好比告诉你配方和生产流程,你去做仿制药的成本(还不包括人工),但是原研药的成本是仿制药的多少倍,稍微懂点行的都知道吧。

很多硅谷大佬出来说这个事,国内的人会认为这些大佬在贬低DeepSeek,其实很多真不是,他们也要给自己团队找点场子对吧,自己投入几十亿美金,被中美两边的老百姓们嘲笑,要对公众澄清一点,Deepseek真实成本绝对不是几百万美金,我们这些巨头投入的几十亿美金也不是因为我们人傻对吧,所以很多大佬其实只是澄清事实,为自己的团队正名而已。

但硅谷某些人的言论我也是不太认同的,说deepseek有五万张H100,投入十几亿到二十亿美金,这个我还真不信,我觉得这就是另一个极端了。

我给读者们算个帐

其一,网上说幻方不差钱,但他们背后其实是私募基金,私募基金啥意思,有投资人的,你梁文峰有情怀,人家投资人给你钱是炒股票的,不是给你情怀的,幻方几百亿人民币的资金盘子,是投资人的钱,不是梁文峰的钱,他们炒股一年赚大几十亿人民币(网上数据),是给投资人赚的钱,按照行规他们能分十几个亿,管理费+利润佣金,大概率过不了二十亿。然后还有各种税费要交,核心团队怎么说也要分分钱,以及人员和正常的量化系统的维护成本,这个钱当然不算少,比起很多国内上市公司利润还多,但即便如此,算来算去,怎么看他们也不像能拿出十几个亿美金搞事的样子,七扣八扣,一年能拿出来十个亿人民币都难,这是我的个人判断。

其二,人家优化算法,对内存的控制策略,摆明了是针对H800的内存局限做的,要有那么多H100搞这么复杂的内存优化干嘛,就算做优化也不会对内存占用卡的那么狠对吧。

那么结合之前看到的一些数据和介绍,幻方有上万张,乃至几万张卡是真的,前期成本肯定不是几百万美金那么少,但是比起行业巨头来说,他们的资金其实也有限,能拿到的资源也有限,我觉得合理估算,几年来累计投入十几个亿甚至二十多亿人民币我认为是有可能的(硬件采购成本,员工成本,前期训练和迭代的试错成本等等),肯定不是个小数字,也不是普通创业公司能玩的起来的,但比起美国同行,比起行业巨头,肯定也是抠门了很多,总研发成本比美国同行低一个数量级也是合理的。

没有网传那么省钱,但确实还是挺省钱的,这是我的结论。

4、合规风险和生态诉求

另一个巨大的误读,就是很多人没意识到,DeepSeek这个词背后究竟是什么。

其实我们所说的DeepSeek,实际上包括了两个产品,一个是DeepSeek这个风靡世界的App,另一个是github上的开源代码库。

前者可以认为是后者的Demo,一个完整的能力展示,而从他们产品的动作来看,我甚至怀疑他们压根没有将DeepSeek App商业化的打算,做个类比来看,就好比微信刚推出小游戏功能的时候,推出了一个跳格子小游戏,当时全网的人都在疯玩跳格子,但微信根本不在乎跳格子这个游戏的价值,他们要的是微信小游戏这个生态的建立。

现在网上有很多新闻,说某些国家某些地区禁用了DeepSeek,又说某些巨头接入和提供了DeepSeek。很多人把这两件事混为一谈,其实这是完全独立的两件事。

DeepSeek这个App貌似没有做全球分区处理,没有针对任何地区做本地化处理,从这一点来说,确实很多国家和地区会有针对性的政策。(微信在不同国家和地区都有不同的处理,有不同的功能会在不同区域被禁用,很多国内产品出海都会存在类似的问题,海外合规是个非常大的话题,不展开讲了)。小红书其实也是类似,我直播里就讲过,小红书压根没打算去接网民所谓的泼天富贵,对小红书来说,这也不是泼天富贵。它以前只做中文流量,不显山不露水的与世无争,被突然推到前台其实合规麻烦也是数不清。好在这俩产品目前都具有很好的统战价值,合规麻烦暂时主要在海外,国内目前官方都还是积极支持的。

但开源系统就不一样了,而且DeepSeek还选择了最大气的开源协议(太大气了,完全不限制商用,真的是情怀,无比佩服。),据我所知,不太会有哪个政府傻缺到去限制开源软件的部署。所以各个国际巨头快速部署并提供相关服务,这个和某些政府所谓的限制使用DeepSeek App,完全是两回事,一点不冲突,而且他们限制的是政府雇员使用,并没有限制普通群众使用。

你换位思考一下,中国会允许政府机构和军队使用部署在海外的数据产品么,为什么。但是海外开源系统的内部私有化部署一定是合规的(当然前提是经得起代码审计),而且也一定是广泛存在的。

如果我们放眼DeepSeek生态,而不是纠结于那个App,目前全球正在处于蓬勃发展的阶段,还没有看到任何禁令阻止这一趋势的发展。而且我相信,从梁文峰当下的做事风格来看,相关生态环境的发展也是他真正所期待的。

5、行业影响

很多人觉得英伟达完了,美国巨头完了,我不这么看,我觉得DeepSeek最大的贡献是,会加速整个AI产业的迭代效率,它们提供了一些新的优化思路,工程思想理念,会被所有行业巨头广泛吸收采纳,并用于产品的快速迭代和优化,用不了几个月,我相信就会看到显著的成果。

其实最近几天,就能看到chatgpt产品迭代突然提速了,我觉得重头戏还在后面。

至于CUDA,有人觉得CUDA架构面临崩塌,我也不太信。

确实,这给受限于美国制裁的中国厂商提供了新的思路,从PTX入手,一样可以做出优秀的产品,但Cuda也会与时俱进啊,你的内存利用方式很优秀,我学过来,整合到我的新版本里不行么。下个版本更新发布的时候,包含一些新的方法和特性,基于它的生态架构,用户还是会继续使用顺手的产品。

DeepSeek用卓越的工程思想,促进AI全行业的快速迭代,并促进相关开源生态的快速发展,这既是我对它的预测,也是我对它的价值认定。

当然,负面也是有的,因为它的训练成本真的低,效果也确实真的好,而且还全部开源,如果一些黑灰产领域在没有合规约束的情况下进行训练和使用,说真的,想想也挺可怕的,而且,还真没想到有什么好办法去应对。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12835.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek R1 x ApiSmart

根据美国业界的说法:如果一个模型能够在生成良好代码方面表现更出色,那么通常它也能对非代码生成类型的其他用户查询产生更好的答案。 在AI编程领域,市面上已有多款大模型和工具供我们选择。常见的有OpenAI系列模型、Claude 3.5 Sonnet&#…

解决threeJS加载obj gltf和glb模型后颜色太暗的方法

网上找到的部分解决方法 网上找到的部分解决方法 咱们有时候去glb官方下载glb或gltf模型时候,模型显示太黑 其实通过查找后不难发现网上给出了很多解决方法,但是大部分都无法从根本上解决问题。我之前看到有一篇文章对gltf的解决方法是让gltf增加自发光…

GitHub Copilot 越狱漏洞

研究人员发现了两种操控 GitHub 的人工智能(AI)编码助手 Copilot 的新方法,这使得人们能够绕过安全限制和订阅费用、训练恶意模型等。 第一种技巧是将聊天交互嵌入 Copilot 代码中,利用 AI 的问答能力,使其产生恶意输…

动态规划练习八(01背包问题)

一、问题介绍与解题心得 01背包问题就是每个物品数量只有一个,每个物品可以取或不取,来达到收益最大,或者收益在某个值。 限制条件:背包容量有限,物品个数只有1个 解决问题:从价值入手(价值最…

Java实习生面试题汇总

Java实习生面试题汇总 简介 本人是二本大三学生,下半年大四。暑假在上海这边找实习工作,面了几家公司,所问到的问题记录在下面。 因为是在校生,没任何实习经历,一般找我面试的都是小公司,一般问的比较简…

开源安全一站式构建!开启企业开源治理新篇章

在如今信息技术日新月异、飞速发展的数字化时代,开源技术如同一股强劲的东风,为企业创新注入了源源不断的活力,然而,正如一枚硬币有正反两面,开源技术的广泛应用亦伴随着不容忽视的挑战。安全风险如影随形,…

xxl-job 自定义告警短信发送

官方介绍 代码实现 实现 JobAlarm 重写 doAlarm 方法 Component public class SmsJobAlarm implements JobAlarm {Overridepublic boolean doAlarm(XxlJobInfo info, XxlJobLog jobLog) {boolean alarmResult true;// 简单内容,根据业务自行修改String template …

大数据学习之Spark分布式计算框架RDD、内核进阶

一.RDD 28.RDD_为什么需要RDD 29.RDD_定义 30.RDD_五大特性总述 31.RDD_五大特性1 32.RDD_五大特性2 33.RDD_五大特性3 34.RDD_五大特性4 35.RDD_五大特性5 36.RDD_五大特性总结 37.RDD_创建概述 38.RDD_并行化创建 演示代码: // 获取当前 RDD 的分区数 Since ( …

【分布式架构理论3】分布式调用(2):API 网关分析

文章目录 一、API 网关的作用1. 业务层面:简化调用复杂性2. 系统层面:屏蔽客户端调用差异3. 其他方面: 二、API 网关的技术原理1. 协议转换2. 链式处理3. 异步请求机制1. Zuul1:同步阻塞处理2. Zuul2:异步非阻塞处理 三…

3.【BUUCTF】XSS-Lab1

进入题目页面如下 好好好&#xff0c;提示点击图片&#xff0c;点进去页面如下&#xff0c;且url中有传参&#xff0c;有注入点 发现题目给出了源码 查看得到本题的源码 分析一下代码 <!DOCTYPE html><!--STATUS OK--> <!-- 声明文档类型为 HTML5&#xff0c;告…

uniapp小程序自定义中间凸起样式底部tabbar

我自己写的自定义的tabbar效果图 废话少说咱们直接上代码&#xff0c;一步一步来 第一步&#xff1a; 找到根目录下的 pages.json 文件&#xff0c;在 tabBar 中把 custom 设置为 true&#xff0c;默认值是 false。list 中设置自定义的相关信息&#xff0c; pagePath&#x…

105,【5】buuctf web [BJDCTF2020]Easy MD5

进入靶场 先输入试试回显 输入的值成了password的内容 查看源码&#xff0c;尝试得到信息 什么也没得到 抓包&#xff0c;看看请求与响应里有什么信息 响应里得到信息 hint: select * from admin where passwordmd5($pass,true) 此时需要绕过MD5&#xff08;&#xff09;函…

JVM监控和管理工具

基础故障处理工具 jps jps(JVM Process Status Tool)&#xff1a;Java虚拟机进程状态工具 功能 1&#xff1a;列出正在运行的虚拟机进程 2&#xff1a;显示虚拟机执行主类(main()方法所在的类) 3&#xff1a;显示进程ID(PID&#xff0c;Process Identifier) 命令格式 jps […

【大模型】AI 辅助编程操作实战使用详解

目录 一、前言 二、AI 编程介绍 2.1 AI 编程是什么 2.1.1 为什么需要AI辅助编程 2.2 AI 编程主要特点 2.3 AI编程底层核心技术 2.4 AI 编程核心应用场景 三、AI 代码辅助编程解决方案 3.1 AI 大模型平台 3.1.1 AI大模型平台代码生成优缺点 3.2 AI 编码插件 3.3 AI 编…

机器学习--2.多元线性回归

多元线性回归 1、基本概念 1.1、连续值 1.2、离散值 1.3、简单线性回归 1.4、最优解 1.5、多元线性回归 2、正规方程 2.1、最小二乘法 2.2、多元一次方程举例 2.3、矩阵转置公式与求导公式 2.4、推导正规方程0的解 2.5、凸函数判定 成年人最大的自律就是&#xff1a…

2025最新软件测试面试大全(附答案+文档)

&#x1f345; 点击文末小卡片 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 1、问&#xff1a;你在测试中发现了一个bug&#xff0c;但是开发经理认为这不是一个bug&#xff0c;你应该怎样解决? 首先&#xff0c;将问题提交到缺陷管理库里…

手写MVVM框架-环境搭建

项目使用 webpack 进行进行构建&#xff0c;初始化步骤如下: 1.创建npm项目执行npm init 一直下一步就行 2.安装webpack、webpack-cli、webpack-dev-server&#xff0c;html-webpack-plugin npm i -D webpack webpack-cli webpack-dev-server html-webpack-plugin 3.配置webpac…

如何自定义软件安装路径及Scoop包管理器使用全攻略

如何自定义软件安装路径及Scoop包管理器使用全攻略 一、为什么无法通过WingetUI自定义安装路径&#xff1f; 问题背景&#xff1a; WingetUI是Windows包管理器Winget的图形化工具&#xff0c;但无法直接修改软件的默认安装路径。原因如下&#xff1a; Winget设计限制&#xf…

数据结构实战之线性表(三)

目录 1.顺序表释放 2.顺序表增加空间 3.合并顺序表 4.线性表之链表实现 1.项目结构以及初始代码 2.初始化链表(不带头结点) 3.链表尾部插入数据并显示 4.链表头部插入数据 5.初始化链表&#xff08;带头结点&#xff09; 6.带头结点的链表头部插入数据并显示 7.带头结…

5.6 Mybatis代码生成器Mybatis Generator (MBG)实战详解

文章目录 前言一、Mybatis Generator简介二、Maven插件运行方式三、生成配置 generatorConfig.xml MyBatis3Simple风格MyBatis3风格MyBatis3DynamicSql风格 四、Java代码运行方式五、MGB生成全部表六、增加Ext包七、Git提交总结 前言 本文我们主要实战Mybatis官方的代码生成器…