没有这些,别妄谈做ChatGPT了

文|卖萌酱

转自 | 夕小瑶的卖萌屋

ChatGPT破圈爆火后,越来越多人开始问:

“啥时候出现中国版的ChatGPT?”

国内学术界和工业界,都纷纷躁动起来——百度、阿里、字节等大厂纷纷喊口号,一众创业公司也开始争做中国版OpenAI;学术界也在用行动来表明战斗力,比如前些天复旦大学推出的MOSS模型,一经开放试用,便冲上热搜。

一时间眼花缭乱,让人生疑。

有钱就能训出模型?

以美团大佬带资入组为代表,很多创业者和投资人盯上了ChatGPT,作为一个NLPer,我乐见其成,相信不用几个月,在热钱的助推下,NLP算法工程师的薪资要和芯片看齐了。

但我还是要泼个冷水,创业公司想做ChatGPT,想训练模型,不是有钱招几个算法就能搞定的。

先不说ChatGPT,只说较为成熟、参数量“较小”的BERT模型,其 Large版本参数量“仅有”3.4亿,比现在的ChatGPT模型足足小了3个数量级。但如果一个从业者真正从0开始训练过BERT模型,那他一定不会认为训练BERT这个“小模型”是很容易的事情。

958cf5e49cfd35a1aa6b61051a044def.png

更何况,2018年BERT发布的时候,模型参数、训练代码是全面开源的,训练数据BookCorpus和Wikipedia也非常容易获取。在这种情况下,国内各大厂训练出内部版本的BERT模型,也经历了差不多半年的摸索时间。在此期间,算力就位、训练精度优化、训练性能优化、底层框架支持、训练策略优化、数据策略优化等都有不少的坑要趟。

如今ChatGPT既没有公开代码,也没有公开训练数据,更没有公开模型参数,甚至都没有公开前置模型的模型参数,模型的体量还比BERT大了3个数量级。

ChatGPT没有捷径

相对创业团队,中国的互联网大厂在大模型方向有积累,有先发优势,但这绝不意味着高枕无忧。

在语言模型方面,国内各大厂大多沿着“以掩码语言模型MLM为核心的BERT路线”进行深耕,这种技术路线更加注重提升语言模型的文本理解能力,弱化文本生成能力。真正沿着ChatGPT这种生成式语言模型的路线深耕的研究团队,无论国内外,都不是太多。

这就注定了,ChatGPT的复现不是一朝一夕就能完成的,补功课很可能要从三年前OpenAI发布的GPT-3开始。如果没有GPT-3提供的世界知识和强大的长文本生成能力,训练ChatGPT就无异于建造空中楼阁了。

b7f8d5ce9184b2f807793e98e738035e.png

可惜,GPT-3至今也没有开源,未来也大概率不会开源了。要从头训这么一个1750亿参数的大型生成式语言模型,难度非常大。

有人可能要说,那我们训一个小点的模型,比如百亿参数的,可行吗?

目前来看不可行。AI的表现并非随着模型规模增加而线性增加,而是在参数规模超过特定临界值后显著提升,甚至涌现出小模型不具备的能力。比如论文表明,模型的规模至少要达到620亿参数量后,才可能训练出来思维链(Chain-of-Thought,CoT)能力。如下图所示:

3405d7d82589b8dcf960bd5a217b9f5a.png

而像Truthful(可信的)这种能力,甚至ChatGPT/GPT-3这样的模型规模都是不够的,要达到2800亿参数量才能涌现出这样的能力。是的,复现和超越ChatGPT,目前来看没有捷径,必须一步一步来,首先要先把GPT-3搞定。

国内有人真正复刻了GPT-3?

是的,有且只有一家,阿里达摩院,他们从小到大(从base到175B),全面、完整地复刻了GPT-3,并且开放在魔搭社区上。

https://modelscope.cn/models/damo/nlp_gpt3_text-generation_chinese-large/summary

达摩院的复刻不是没有来由的,他们应该在大模型各个方向都进行了探索,布局完整。早在2021年4月就发布了首个中文语言大模型PLUG(当时参数是270亿)。该模型首次在中文语言理解榜单CLUE上面,以86.685分的成绩超越人类。

同年10月份,达摩院还探索实现了10万亿参数模型——M6,达摩院团队通过大量的底层优化和算法设计,仅仅使用了512卡便实现了这一庞大的模型工程。此前,M6模型将AI图片生成清晰度从OpenAI DALL·E的256×256成功提升到了1024×1024,效果十分惊艳。

M6模型的发布引发了国内外的大量关注,其中,OpenAI前政策主管Jack Clark公开点评:“这个模型的规模和设计都非常惊人。这看起来像是众多中国的AI研究组织逐渐发展壮大的一种表现。”

从达摩院的经历我们基本可以判断:如果一个研发团队此前没有训练过千亿级别的大型语言模型,那就很难在可以接受的时间窗口内训练出真正具备生产力价值的类ChatGPT模型。

不过,我们也要看到,算法可能只是硬币的一面,另一面是算力和云基础设施,不容忽视。

云基础设施

OpenAI的解决方式是向微软求助。同样的道理,国内如果有初创企业想要成为中国版OpenAI,自研ChatGPT,恐怕也要先跟几个云计算厂商好好聊一聊了。

没有做过大模型训练的人,可能会误以为多买几张A100卡就可以了。

当你实操的时候,你就会发现:

单机多卡根本训不动千亿参数模型,你需要多机多卡分布式训练

当你开始多机训练时,你发现A100的算力都被网络通信延迟给吃掉了,多机可能还没有你单机训的快

然后你会发现训练ChatGPT的海量数据存储也是个问题,就算存下来了,数据读取的IO效率又极大的制约了模型的训练效率

一通基础设施问题下来,A100的算力被浪费了7、8成,模型训练实验无法开展

因此,没有一个面向AI高度优化的云计算平台,训练GPT-3和ChatGPT这种级别的模型怪兽,是相当不现实的。

这里面有两个重点,一个叫“面向AI”,另一个叫“高度优化”。

“高度优化”不必多说,考验的是一个云计算平台底层的优化能力,包括网络、存储、计算、通信等方方面面的系统化工程能力。

什么叫“面向AI”呢?

这里引用一下《ChatGPT,和聪明地设计 Infra》这篇文章里的表述:

云计算很多时候在关注资源的池化和虚拟化:

怎么把计算,存储,网络,从物理资源变成虚拟的概念,“批发转零售”;

如何在这种虚拟环境下把利用率做上去,或者说超卖;

怎么更加容易地部署软件,做复杂软件的免运维(比如说,容灾、高可用)等等,不一而足。

但是 AI 的计算不一样。对于 AI 而言,尤其是今天 AI 的训练:

并不要求特别强的虚拟化。一般训练会“独占”物理机,除了简单的例如建立虚拟网络并且转发包之外,并没有太强的虚拟化需求。

需要很高性能和带宽的存储和网络。例如,网络经常需要几百 G 以上的 RDMA 带宽连接,而不是常见的云服务器几 G 到几十 G 的带宽。

对于高可用并没有很强的要求,因为本身很多离线计算的任务,不涉及到容灾等问题。

没有过度复杂的调度和机器级别的容灾。因为机器本身的故障率并不很高(否则 GPU 运维团队就该去看了),同时训练本身经常以分钟级别来做 checkpointing,在有故障的时候可以重启整个任务从前一个 checkpoint 恢复。

也就是说,对于 AI 训练而言,尤其是今天那么大规模的训练,性能和规模是第一位的,传统云服务所涉及到的一些能力,是第二位的。

这里还是以达摩院为例,为什么达摩院能训练出多个万亿级模型,因为他们背后有阿里云的飞天智算平台做支撑。这是一个超大规模的高性能计算集群,是国内唯一能实现万卡规模的AI集群。

给你一万张A100,就能把ChatGPT训出来吗?答案无疑是否定的。万卡集群对于网络、存储和通信有极高的要求,弄得不好直接宕机。

贴一组数据。

数据层面,飞天智算平台的单集群算力峰值高达12EFLOPS,千卡并行效率达90%。针对ChatGPT这类数据密集型场景,还对大规模集群进行了大量数据IO优化,通过自研KSpeed和RDMA高速网络架构,最高可将存储IO性能提升10倍,将时延显著降低了90%。

此外,阿里云自研的高性能集合通信库ACCL和自研的网络交换机等,对万卡规模的AI集群提供了无拥塞、高性能的集群通讯能力。

除了底层硬件的AI集群,大模型训练非常依赖于软件平台层。飞天智算平台的机器学习平台PAI,专门针对AI大模型推理和训练场景进行针对性优化,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍,覆盖了全链路的AI开发工具与大数据服务。

可以说,这种面向AI实现高度优化的云平台,是ChatGPT这类大模型快速迭代的底层设施保障。

总结

千亿参数规模的大模型研发,需要底层庞大的算力、网络、存储、大数据、AI框架等智算基础设施的支持,也需要面向AI的针对性优化,这是一个囊括诸多技术领域的复杂系统工程。

ChatGPT之争已经超出了算法的范畴,它更是一个AI+云计算能力的全方位竞争,是技术生态层面的竞争。既需要强大的云基础设施能力的保障,又需要深厚的大模型技术积淀,两者缺一不可。

多说一句

作为NLPer,我能深刻的感受到,自从2020年GPT-3模型发布后,AI的研究生态正变得愈加封闭。虽然这对于已经取得竞争优势的商业化公司而言是利好,但对全人类实现AGI的终极梦想而言,却是一个不好的文化趋势。

客观上,我们需要承认与OpenAI的差距,正因如此,倘若有一个更加开放的大模型生态,使得能有更多的AI研究人员避免“重复造轮子”,那国内“ChatGPT复现”的进程无疑会大大加快。

一枝独放不是春。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14970.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023年中国AI芯片行业市场现状及未来发展趋势预测

2023年AI芯片报告汇总了60家国产AI芯片厂商,大致按如下应用类别进行归类:云端加速、智能驾驶、智能安防、智能家居、智能穿戴、其它AIoT。对于每一家筛选的公司,我们从主要产品、核心技术、应用场景、市场竞争力、发展里程碑等方面对公司进行…

ChatGPT Plugins引发AI行业“洗牌”,与元宇宙双向奔赴

三月迎来AIGC新品爆发大热潮,据不完全统计,在两周内GPT-4、微软Microsoft 365 Copilot、Midjourney V5、Google PaLM API、英伟达新显卡接连出场,创新工场CEO李开复、美团联合创始人王慧文、阿里副总裁贾扬清、搜狗创始人王小川等纷纷进军&am…

ChatGPT Plugins内幕、源码及案例实战(二)

第6章 ChatGPT Plugins内幕、源码及案例实战 检索插件的API需要以下环境变量才能工作,如表6-2所示。 ChatGPT检索插件示例中,“.well-known”目录里面的ai-plugin.json是一个插件的说明文档,插件名为Retrieval Plugin,用于搜索用户的文档(如文件、电子邮件等),该插件…

ChatGPT Plugins内幕、源码及案例实战(三)

ChatGPT Plugins内幕、源码及案例实战(三) ChatGPT Plugins内幕、源码及案例实战 6.4 ChatGPT Retrieval Plugin全流程内幕解析 以ChatGPT检索插件为例,我们讲解一下它整个的流程,让大家有一个比较明确、清晰的统一认知:  数据存储:设立的前提是你有文档,会有一些文…

ChatGPT Plugins内幕、源码及案例实战

ChatGPT Plugins内幕、源码及案例实战 6.1 ChatGPT Plugins的工作原理 本节主要跟大家谈ChatGPT的插件(Plugins),这个内容非常重要。现在很多企业级的开发,一般都会基于ChatGPT插件进行一些服务的封装,相当于开发了一个…

各大平台仅存的优势就只剩下数据了,OpenAI推出ChatGPT Plugins

部分结论 *本文2300字左右 各大平台仅存的优势就只剩下数据了AI as a service会加速行业迭代平台App会继续裁员...其实OpenAI一开始就是冲着开发者去的... 现象 我们首先说一下事件,再讲一下笔者看到的其他背后的东西。 2023年(北京时间)3月2…

ChatGPT-Plugins-Searchable

ChatGPT Plus 用户应该都知道Plus已经开放了插件功能,但是在插件商店里存在一个较大的问题插件数量超过100款,却没有便捷的搜索功能。 而我们在查找一款插件时,需要从插件商店的第一页点击到最后一页一个个找,显然这非常的麻烦。 …

ChatGPT plugins GitHub Copilot X【附申请链接】

省流总结 ChatGPT 插件系统 插件意味着无限可能,各种应用场景。 ChatGPT 发布插件系统,补齐所有短板 ChatGPT 插件系统是一项新功能,它使语言模型能够与外部工具和服务进行交互,提供对信息的访问并实现安全、受约束的操作。它由…

ChatGPT Plugins的开源解决方案

近期,来自清华大学、中国人民大学、北京邮电大学、UIUC、NYU、CMU 等高校的研究人员联合 OpenBMB 开源社区、知乎、面壁智能公司探索了基础模型调用外部工具的课题,联合发表了一篇 74 页的基础模型工具学习综述论文,并发布了开源工具学习平台。 该团队提出了基础模型工具学…

ChatGPT Plugins内幕、源码及案例实战(一)

ChatGPT Plugins内幕、源码及案例实战 6.1 ChatGPT Plugins的工作原理 本节主要跟大家谈ChatGPT的插件(Plugins),这个内容非常重要。现在很多企业级的开发,一般都会基于ChatGPT 插件进行一些服务的封装,相当于开发了一个代理(Agent),把一些服务或者API封装在里面,然后…

chatgpt赋能python:PythonUDS:让你的汽车掌握更多技能

Python UDS:让你的汽车掌握更多技能 UDS(Unified Diagnostic Services)是一种汽车电子控制单元(ECU)通信协议,用于车辆的诊断和测试。Python UDS是用Python编程语言实现的UDS客户端和服务器实现&#xff0…

ChatGPT技术链

一切都要从 ChatGPT 的横空出世说起...... 曾经一片祥和的 NLP 社区,被这个突如其来的 “怪物” 吓到了!一夜之间,整个 NLP 圈发生了巨大的变化,工业界迅速跟进,资本 “狂飙”,开始了复刻 ChatGPT 之路&am…

当ChatGPT-4遇到移动开发

3月15日,#GPT4做一个网站只要十秒#登上热搜。 当地时间周二(3月14日),人工智能研究公司OpenAI公布了其大型语言模型的最新版本——GPT-4。 几乎所有的办公室案头工作,GPT-4无所不能。比如,10秒钟就能做出…

对于Android程序员的选择方向、ChatGPT真有你需要的答案

前言 今年似乎没有开春的温暖,去年的严寒蔓延到了现在,不知道会持续多久。 正因为这样还有不少Android开发在等待着,我也不清楚这些人还在等待着什么,像极了一个不撞南墙不知道疼的“小孩”。 今天打开搜索引擎映入眼帘的还是去…

开源类似chatGPT项目ChatGLM-6B单显卡安装运行成功

项目git地址 https://github.com/THUDM/ChatGLM-6B 配置要求: 本机电脑显卡显存6G以上。只有cpu则需要32GB以上。 安装基础环境 1.安装python 3.10版本 https://www.python.org/ftp/python/3.10.10/python-3.10.10-amd64.exe 2.安装cuda(有显卡) 下载页面 https://d…

Make sure that the latest NVIDIA driver is installed and running.

背景: MMdetection环境配置激活好之后,在训练数据集的时候发现提示显存不足,于是怀疑服务器上跑的有别的项目在利用显卡。为了验证这个设想,于是重启了ubuntu服务器,等服务器重新启动后,发现显卡加速不能用…

英伟达NVIDIA服务器显卡多实例技术(MIG)

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

英伟达发布ChatGPT专用GPU,性能提升10倍,还推出云服务,普通企业也能训练LLM...

文|Pine 发自 凹非寺 源|量子位 “AI的iPhone时刻已至”,英伟达或成最大赢家。 在GTC2023大会上,黄仁勋接连放出大招: 不仅发布了ChatGPT专用GPU,比之前就能实时处理ChatGPT的HGX A100快了10倍;…

在Windows平台监视英伟达(Nvidia)显卡性能

深度学习训练时,常常需要监视显卡性能情况。在Linux/Ubuntu平台命令行输入nvidia-smi就可以监测显卡性能。 在Windows平台要稍微复杂一些。 先要找到显卡驱动安装位置。我的是C:\Program Files\NVIDIA Corporation\NVSMI。 文件夹中有一个nvidia-smi.exe。 利用命令…

公式+ChatGPT:为你的标题创作注入新鲜活力

大家是不是经常遇到文章已经写好了,但是标题却还空着,不是不会写,就是写得平淡无奇😂。自己都觉得无趣的标题又怎么能吸引有趣的灵魂呢?何不让chatGPT来试试呢? 首先,我们要明白一个基础理念&am…