没有这些,别妄谈做 ChatGPT 了

8c1c0533465c6acb1bbc09daa7dd6d6b.gif

文|卖萌酱,转自公众号「夕小瑶的卖萌屋」

ChatGPT 破圈爆火后,越来越多人开始问:

“啥时候出现中国版的 ChatGPT?”

国内学术界和工业界,都纷纷躁动起来——百度、阿里、字节等大厂纷纷喊口号,一众创业公司也开始争做中国版 OpenAI;学术界也在用行动来表明战斗力,比如前些天复旦大学推出的 MOSS 模型,一经开放试用,便冲上热搜。

一时间眼花缭乱,让人生疑。

6330c644c58449c49b1e91553d99a28f.png

有钱就能训出模型?

以美团大佬带资入组为代表,很多创业者和投资人盯上了 ChatGPT,作为一个 NLPer,我乐见其成,相信不用几个月,在热钱的助推下,NLP 算法工程师的薪资要和芯片看齐了。

但我还是要泼个冷水,创业公司想做 ChatGPT,想训练模型,不是有钱招几个算法就能搞定的。

先不说 ChatGPT,只说较为成熟、参数量“较小”的 BERT 模型,其 Large 版本参数量“仅有”3.4 亿,比现在的 ChatGPT 模型足足小了 3 个数量级。但如果一个从业者真正从 0 开始训练过 BERT 模型,那他一定不会认为训练 BERT 这个“小模型”是很容易的事情。 

8238cd1aa0ec77f02668e272d1bdc4b2.png

更何况,2018 年 BERT 发布的时候,模型参数、训练代码是全面开源的,训练数据 BookCorpus 和 Wikipedia 也非常容易获取。在这种情况下,国内各大厂训练出内部版本的 BERT 模型,也经历了差不多半年的摸索时间。在此期间,算力就位、训练精度优化、训练性能优化、底层框架支持、训练策略优化、数据策略优化等都有不少的坑要趟。

如今 ChatGPT 既没有公开代码,也没有公开训练数据,更没有公开模型参数,甚至都没有公开前置模型的模型参数,模型的体量还比 BERT 大了 3 个数量级。

363548f4b55321afcff076bdc621b30a.png

ChatGPT 没有捷径

相对创业团队,中国的互联网大厂在大模型方向有积累,有先发优势,但这绝不意味着高枕无忧。

在语言模型方面,国内各大厂大多沿着“以掩码语言模型 MLM 为核心的 BERT 路线”进行深耕,这种技术路线更加注重提升语言模型的文本理解能力,弱化文本生成能力。真正沿着 ChatGPT 这种生成式语言模型的路线深耕的研究团队,无论国内外,都不是太多。

这就注定了,ChatGPT 的复现不是一朝一夕就能完成的,补功课很可能要从三年前 OpenAI 发布的 GPT-3 开始。如果没有 GPT-3 提供的世界知识和强大的长文本生成能力,训练 ChatGPT 就无异于建造空中楼阁了。

33b90e76c08543a7ca3aa009b72d1b23.png

可惜,GPT-3 至今也没有开源,未来也大概率不会开源了。要从头训这么一个 1750 亿参数的大型生成式语言模型,难度非常大。

有人可能要说,那我们训一个小点的模型,比如百亿参数的,可行吗?

目前来看不可行。AI 的表现并非随着模型规模增加而线性增加,而是在参数规模超过特定临界值后显著提升,甚至涌现出小模型不具备的能力。 比如论文表明,模型的规模至少要达到 620 亿参数量后,才可能训练出来思维链(Chain-of-Thought,CoT)能力。如下图所示:

06eda76d5804e34679ebd69c6187a8d3.png

而像 Truthful(可信的)这种能力,甚至 ChatGPT/GPT-3 这样的模型规模都是不够的,要达到 2800 亿参数量才能涌现出这样的能力。

是的,复现和超越 ChatGPT,目前来看没有捷径,必须一步一步来,首先要先把GPT-3搞定。

68f13ba9c01522c3b35335940b1de10d.png

国内有人真正复刻了 GPT-3?

是的,有且只有一家,阿里达摩院,他们从小到大(从base到175B),全面、完整地复刻了GPT-3,并且开放在魔搭社区上。

  • https://modelscope.cn/models/damo/nlp_gpt3_text-generation_chinese-large/summary

达摩院的复刻不是没有来由的,他们应该在大模型各个方向都进行了探索,布局完整。早在 2021 年 4 月就发布了首个中文语言大模型 PLUG(当时参数是 270 亿)。该模型首次在中文语言理解榜单 CLUE 上面,以 86.685 分的成绩超越人类。

同年 10 月份,达摩院还探索实现了 10 万亿参数模型——M6,达摩院团队通过大量的底层优化和算法设计,仅仅使用了 512 卡便实现了这一庞大的模型工程。此前,M6 模型将 AI 图片生成清晰度从 OpenAI DALL·E 的 256×256 成功提升到了 1024×1024,效果十分惊艳。

M6 模型的发布引发了国内外的大量关注,其中,OpenAI 前政策主管 Jack Clark 公开点评:“这个模型的规模和设计都非常惊人。这看起来像是众多中国的 AI 研究组织逐渐发展壮大的一种表现。”

从达摩院的经历我们基本可以判断:如果一个研发团队此前没有训练过千亿级别的大型语言模型,那就很难在可以接受的时间窗口内训练出真正具备生产力价值的类 ChatGPT 模型

不过,我们也要看到,算法可能只是硬币的一面,另一面是算力和云基础设施,不容忽视。

46d04a2f51b2d687276353bc26907af2.png

云基础设施

OpenAI 的解决方式是向微软求助。同样的道理,国内如果有初创企业想要成为中国版 OpenAI,自研 ChatGPT,恐怕也要先跟几个云计算厂商好好聊一聊了。

没有做过大模型训练的人,可能会误以为多买几张 A100 卡就可以了。

当你实操的时候,你就会发现:

  1. 单机多卡根本训不动千亿参数模型,你需要多机多卡分布式训练;

  2. 当你开始多机训练时,你发现 A100 的算力都被网络通信延迟给吃掉了,多机可能还没有你单机训的快;

  3. 然后你会发现训练 ChatGPT 的海量数据存储也是个问题,就算存下来了,数据读取的 IO 效率又极大的制约了模型的训练效率;

  4. 一通基础设施问题下来,A100 的算力被浪费了 7、8 成,模型训练实验无法开展。

因此,没有一个面向 AI 高度优化的云计算平台,训练 GPT-3 和 ChatGPT 这种级别的模型怪兽,是相当不现实的

这里面有两个重点,一个叫“面向 AI”,另一个叫“高度优化”。

“高度优化”不必多说,考验的是一个云计算平台底层的优化能力,包括网络、存储、计算、通信等方方面面的系统化工程能力。

什么叫“面向AI”呢?

这里引用一下《ChatGPT,和聪明地设计 Infra》这篇文章里的表述:

云计算很多时候在关注资源的池化和虚拟化:

  • 怎么把计算,存储,网络,从物理资源变成虚拟的概念,“批发转零售”;

  • 如何在这种虚拟环境下把利用率做上去,或者说超卖;

  • 怎么更加容易地部署软件,做复杂软件的免运维(比如说,容灾、高可用)等等,不一而足。

但是 AI 的计算不一样。对于 AI 而言,尤其是今天 AI 的训练:

  • 并不要求特别强的虚拟化。一般训练会“独占”物理机,除了简单的例如建立虚拟网络并且转发包之外,并没有太强的虚拟化需求。

  • 需要很高性能和带宽的存储和网络。例如,网络经常需要几百 G 以上的 RDMA 带宽连接,而不是常见的云服务器几 G 到几十 G 的带宽。

  • 对于高可用并没有很强的要求,因为本身很多离线计算的任务,不涉及到容灾等问题。

  • 没有过度复杂的调度和机器级别的容灾。因为机器本身的故障率并不很高(否则 GPU 运维团队就该去看了),同时训练本身经常以分钟级别来做 checkpointing,在有故障的时候可以重启整个任务从前一个 checkpoint 恢复。

也就是说,对于 AI 训练而言,尤其是今天那么大规模的训练,性能和规模是第一位的,传统云服务所涉及到的一些能力,是第二位的。

这里还是以达摩院为例,为什么达摩院能训练出多个万亿级模型,因为他们背后有阿里云的飞天智算平台做支撑。这是一个超大规模的高性能计算集群,是国内唯一能实现万卡规模的 AI 集群。

给你一万张 A100,就能把 ChatGPT 训出来吗?答案无疑是否定的。万卡集群对于网络、存储和通信有极高的要求,弄得不好直接宕机。

贴一组数据。

数据层面,飞天智算平台的单集群算力峰值高达 12EFLOPS,千卡并行效率达 90%。针对 ChatGPT 这类数据密集型场景,还对大规模集群进行了大量数据 IO 优化,通过自研 KSpeed 和 RDMA 高速网络架构,最高可将存储 IO 性能提升 10 倍,将时延显著降低了 90%。

此外,阿里云自研的高性能集合通信库 ACCL 和自研的网络交换机等,对万卡规模的 AI 集群提供了无拥塞、高性能的集群通讯能力。

除了底层硬件的 AI 集群,大模型训练非常依赖于软件平台层。飞天智算平台的机器学习平台 PAI,专门针对 AI 大模型推理和训练场景进行针对性优化,可将计算资源利用率提高 3 倍以上,AI训练效率提升 11 倍,推理效率提升 6 倍,覆盖了全链路的 AI 开发工具与大数据服务。

可以说,这种面向 AI 实现高度优化的云平台,是 ChatGPT 这类大模型快速迭代的底层设施保障。

957f943b1e3eea86121dfc07c044c68a.png

总结

千亿参数规模的大模型研发,需要底层庞大的算力、网络、存储、大数据、AI 框架等智算基础设施的支持,也需要面向 AI 的针对性优化,这是一个囊括诸多技术领域的复杂系统工程。

ChatGPT 之争已经超出了算法的范畴,它更是一个 AI+ 云计算能力的全方位竞争,是技术生态层面的竞争。既需要强大的云基础设施能力的保障,又需要深厚的大模型技术积淀,两者缺一不可。

a8f92a2ed6f073ecdb3bba6232877bda.png

多说一句

作为 NLPer,我能深刻的感受到,自从 2020 年 GPT-3 模型发布后,AI 的研究生态正变得愈加封闭。虽然这对于已经取得竞争优势的商业化公司而言是利好,但对全人类实现 AGI 的终极梦想而言,却是一个不好的文化趋势。

客观上,我们需要承认与 OpenAI 的差距,正因如此,倘若有一个更加开放的大模型生态,使得能有更多的 AI 研究人员避免“重复造轮子”,那国内“ChatGPT复现”的进程无疑会大大加快。

一枝独放不是春。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35302.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英阅浏览器APP_Android_畅读英文文章

软件介绍 英阅浏览器是一款英语阅读增强的浏览器,在浏览英文网页只需点击单词即可显示中文翻译释义,无需切换到字典查询,单词收藏并且记录单词来源网址,支持全文翻译。支持自定义 UA、自定义 hosts 文件、广告过滤。 使用指南 …

自动生成马斯克的推特几乎无破绽!MIT用GPT-2模型做了个名人发言模仿器

铜灵 发自 凹非寺量子位 出品 | 公众号 QbitAI 模仿各路名人的推特行文,现在可以分分钟做到。 MIT的研究科学家、深度学习课老师Lex Fridman做了一个新应用: DeepTweets,能通过一个人以往的推特内容进行内容模仿,自动生成新的伪推…

为什么别人家的ChatGPT比我家的更聪明?

文章目录 引子使用技巧技巧1:使用分隔符技巧2:结构化输出技巧3:整理操作步骤技巧4:做示范技巧5:给定具体的步骤技巧6:生成摘要技巧7:情感分析 好问题的三要素总结 引子 你有没有发现&#xff0…

【突破想象】AI绘画能否超越艺术家的创造力?

突破人类想象!AI绘画能否超越艺术家的创造力? 冲击还是机遇?AI绘画能否超越艺术家? 近年来,AI绘画工具迅速崛起,悄然挑战着艺术家的地位。以惊人的技术发展速度,AI绘画在艺术领域迅速引起轰动。…

我用ChatGPT 七分钟生成一个Spring Boot项目,一点代码都没写

我的《用ChatGPT生成一个SpringBoot应用》保姆级教程上线了。教程的核心是:思路和ChatGPT提示语,已经更新到我的知识星球专栏,目前已经累计实战项目60,目标500 看看ChatGPT生成的项目,Maven结构完整,可正常…

chatgpt赋能python:Python社群——你的Python学习和进阶的首选

Python社群——你的Python学习和进阶的首选 Python社群是一个不断发展壮大的社区,提供了一个互相交流和分享任何关于Python的话题的平台。在Python社群里,你可以遇到志同道合的朋友,学习最新的技术和方法,提出疑问和建议&#xf…

essential-copying and pasting from Stack Overflow原文和翻译

Introduction Inspired by this cover. The book is written in a deadpan manner. 根据封面的启发,这本书是在面无表情的方式下编写 cutting corners to meet arbitrary management deadlines. 投机取巧 来满足任意管理期限 Code Licensing Issues[编码许可问题] B…

初创软件除了做开源,难道就别无选择了吗?

别无选择 酒香不怕巷子深,就请问酒香怕不怕无人岛?初创软件需要打开市场,除了产品自身,市场可能更为重要。 知名度或称为流量,流量在信息时代对于初创软件的重要性,不排第一至少也能排第二。 再好的东西…

使用python爬取携程网旅游信息(包含景点、酒店、美食)

其中本次爬虫的主要思想是:首先是找到携程网url的编写规律,然后根据规律使用beautifulsoup4对所需的html语言中的信息提取,最后就是封装处理。爬取的信息只是用来本次毕设的研究非商业用途。对于毕设的相关总结在:旅游推荐系统毕业…

基于PHP的旅游资讯管理系统

有需要请私信或看评论链接哦 可远程调试 基于PHP的旅游资讯管理系统 一 介绍 此旅游资讯系统基于原生PHP开发,数据库mysql,前端bootstrap,前后端分离。系统角色分为用户和管理员,用户可注册登录,预订旅行行程&#x…

旅游网站、旅游系统

旅游网站 摘要:在社会快速发展的影响下,旅游网站继续发展,大大增加了旅游的数量、多样性、质量等等的要求,使旅游网站的管理和运营比过去十年更加简单化。依照这一现实为基础,设计一个快捷而又方便的网上旅游网站是一项…

麒麟水乡,IU酒店进驻云南旅游咽喉之地曲靖

曲靖位于云南省东北部,是云南连接内地的重要陆路通道,素有“滇黔锁钥”、“入滇门户”、“云南咽喉”之称,是仅次于昆明的云南第二大城市。曾入选“中国十佳宜居城市”榜单10次的城市,拥有3000多年的文明史,早在三国魏…

Python抓取全国旅游景点以及小吃数据,想做旅游攻略?Python助你事半功倍。

前言 疫情自从来了之后已经很久没有出去旅游过了,蹭着这段疫情好转,那肯定是要出去走一走的,这一篇其实是全国旅游中的一站,因为每个城市能玩的地方太多了,一篇文章下来肯定是写不了的,所以今天就抓取一下—…

对去哪儿旅行(功略库)的数据分析

选题背景 去哪儿旅行网站上有丰富的图片,旅行数据以及评论数据,用这些大量的数据来学习数据采集及可视化分析是一个不错的选择 网页分析 可以获取的数据 通过翻阅这些攻略我们可以观察到网站上展示了以下共有的数据:文章标题,…

基于Python的云南旅游景点分析

作为一名云南人,作为一名数据分析人员,我将在本次用Python来给大家介绍云南的相关景点! 欢迎大家来云南旅游哦!资料含各地景点的数据,希望大家学习之后进行相关的练习,学有所成! 所需的资料我…

Android程序员面试5分钟自我介绍法

有简历,为何还要自我介绍? 要回答这个问题,首先搞清楚为什么面试官要请你做自我介绍?面试官通过自我介绍想考察被面试者什么?只有了解面试官的目的,被面试者才能做好自我介绍。 面试官通过被面试者自我介绍…

刷完这份2023年Android中高级最全面试真题答案解析,拿到offer几率提升50%

前言 今年以来,经济回暖,但行业岗位缺口紧缩的趋势恢复还需一段时间。尤其对于Android开发而言,想要跳槽到一个高薪岗位更是难上加难。 因此,想要杀出重围,必然要有万全的准备。除了一份美观的简历,刷一刷…

靠这份35w字Java面试题,终于收到字节Java开发岗满意Offer了!

靠这份35w字Java面试题,终于收到字节Java开发岗满意Offer了! 前天面Java PDD一面挂 美团一面挂 寄 美团全程Java八股文 字节40分钟八股文10分钟算法题,算法题是个普通的middle,没啥问题。 但是,八股跨度大且精细,寄。…

7个实用的Python自动化代码

关于Python有一句名言:不要重复造轮子 但是问题有三个: 1、你不知道已经有哪些轮子已经造好了,哪个适合你用。有名有姓的的著名轮子就400多个,更别说没名没姓自己在制造中的轮子 2、确实没重复造轮子,但是在重复制造…

创建用户账户

这一节内容我们来一起学习Linux中有关于用户身份及文件权限的内容。在windows中,我们可以通过图形化界面去创建及管理用户,但在Linux系统中,我们习惯用命令的方式去创建以及管理用户。 以上两图是windows系统中,如何创建用户以及管…