训练ChatGPT的必备资源:语料、模型和代码库完全指南

a65751298aa36cb5367e4d5e99f85263.png

文|python

前言

近期,ChatGPT成为了全网热议的话题。ChatGPT是一种基于大规模语言模型技术(LLM, large language model)实现的人机对话工具。但是,如果我们想要训练自己的大规模语言模型,有哪些公开的资源可以提供帮助呢?在这个github项目中,人民大学的老师同学们从模型参数(Checkpoints)、语料和代码库三个方面,为大家整理并介绍这些资源。接下来,让我们一起来看看吧。

资源链接:
https://github.com/RUCAIBox/LLMSurvey

论文地址:
https://arxiv.org/pdf/2303.18223.pdf

各个大模型的研究测试传送门:

百度文心一言传送门:

https://yiyan.baidu.com/

​阿里通义千问传送门:

https://tongyi.aliyun.com/chat

ChatGPT传送门(免墙,可直接注册测试:

https://hujiaoai.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

模型参数

从已经训练好的模型参数做精调、继续训练,无疑可以极大地降低计算成本。那目前有哪些开源的大模型参数,可以供我们选择呢?

第一类是100~1000亿参数的模型。这类模型除了LLaMA(650亿)之外,参数范围都集中在100~200亿之间。具体而言,包括:LLaMA[1], mT5[2], T0[3], GPT-NeoX-20B[4], CodeGen[5], UL2[6], Flan-T5[7], mT0[8], PanGu-α[9]。

其中,Flan-T5经过instruction tuning的训练;CodeGen专注于代码生成;mT0是个跨语言模型;PanGu-α有大模型版本,并且在中文下游任务上表现较好。

第二类是超过1000亿参数规模的模型。这类模型开源的较少,包括:OPT[10], OPT-IML[11], BLOOM[12], BLOOMZ[13], GLM[14], Galactica[15]。参数规模都在1000亿~2000亿之间。

其中,OPT是专为开源和大模型复现提出的;BLOOM 和 BLOOMZ具有跨语言能力;Galactica, GLM, 和 OPT-IML都是经过instruction tuning的。

这些模型参数大多使用几百到上千块显卡训练得到。比如GPT-NeoX-20B(200亿参数)使用了96个A100-SXM4-40GB GPU,LLaMA(650亿参数)使用了2048块A100-80G GPU学习了21天,OPT(1750亿参数)使用了992 A100-80GB GPU,GLM(1300亿参数)使用了768块DGX-A100-40G GPU训练了60天。

除了这些可供公开下载参数的模型之外,OpenAI还提供在他们的服务器上精调GPT-3模型的服务,可以选择的初始模型参数包括babbage(GPT-3 1B), curie(GPT-3 6.7B)和 davinci(GPT-3 175B)。

5980dc6ecc6e68b8e4fd8812fe7c4090.png

上图中,标黄的模型均为开源模型。

语料

训练大规模语言模型,训练语料不可或缺。主要的开源语料可以分成5类:书籍、网页爬取、社交媒体平台、百科、代码。

书籍语料包括:BookCorpus[16] 和 Project Gutenberg[17],分别包含1.1万和7万本书籍。前者在GPT-2等小模型中使用较多,而MT-NLG 和 LLaMA等大模型均使用了后者作为训练语料。

最常用的网页爬取语料是CommonCrawl[18]。不过该语料虽然很大,但质量较差。大模型大多采用从其中筛选得到的子集用于训练。常用的4个子集包括:C4[19], CC-Stories, CC-News[20], 和 RealNews[21]。CC-Stories的原版现在已不提供下载,一个替代选项是CC-Stories-R[22]。

社交媒体平台语料主要获取自Reddit平台。WebText包含了Reddit平台上的高赞内容,然而现在已经不提供下载,现在可以用OpenWebText[23]替代。此外,PushShift.io[24]提供了一个实时更新的Reddit的全部内容。

百科语料就是维基百科(Wikipedia[25])的下载数据。该语料被广泛地用于多种大语言模型(GPT-3, LaMDA, LLaMA 等),且提供多种语言版本,可用于支持跨语言模型训练。

代码语料主要来自于GitHub中的项目,或代码问答社区。开源的代码语料有谷歌的BigQuery[26]。大语言模型CodeGen在训练时就使用了BigQuery的一个子集。

除了这些单一内容来源的语料,还有一些语料集。比如 the Pile[27]合并了22个子集,构建了800GB规模的混合语料。而 ROOTS[28]整合了59种语言的语料,包含1.61TB的文本内容。

1657749b3d321b22b7d5e1e2c03f3f42.png

上图统计了这些常用的开源语料。目前的预训练模型大多采用多个语料资源合并作为训练数据。比如GPT-3使用了5个来源3000亿token(word piece),包含开源语料CommonCrawl, Wikipedia 和非开源语料(WebText2,Books1, Books2)。

代码库

使用代码库,可以帮助你快速搭建模型结构,而不用一个个矩阵乘法地搭建transformers结构。具体而言,包括以下7个:

  1. Transformers[29]是Hugging Face构建的用来快速实现transformers结构的库。同时也提供数据集处理与评价等相关功能。应用广泛,社区活跃。

  2. DeepSpeed[30]是一个微软构建的基于PyTorch的库。GPT-Neo,BLOOM等模型均是基于该库开发。DeepSpeed提供了多种分布式优化工具,如ZeRO,gradient checkpointing等。

  3. Megatron-LM[31]是NVIDIA构建的一个基于PyTorch的大模型训练工具,并提供一些用于分布式计算的工具如模型与数据并行、混合精度训练,FlashAttention与gradient checkpointing等。

  4. JAX[32]是Google Brain构建的一个工具,支持GPU与TPU,并且提供了即时编译加速与自动batching等功能。

  5. Colossal-AI[33]是EleutherAI基于JAX开发的一个大模型训练工具,支持并行化与混合精度训练。最近有一个基于LLaMA训练的对话应用ColossalChat就是基于该工具构建的。

  6. BMTrain[34] 是 OpenBMB开发的一个大模型训练工具,强调代码简化,低资源与高可用性。在其ModelCenter中,已经构建好如Flan-T5 与 GLM等模型结构可供直接使用。

  7. FastMoE[35] 是一个基于pytorch的用于搭建混合专家模型的工具,并支持训练时数据与模型并行。

结束语

通过使用以上提到的模型参数、语料与代码,我们可以极大地方便自己实现大规模语言模型,并搭建出自己的对话工具。但是,尽管数据资源相对容易获取,计算资源却十分稀缺。想要获得足够的显卡资源以训练/调整大规模模型,仍然是一件非常困难的事情。因此,私有化ChatGPT的道路任重而道远。在计算资源相对匮乏的情况下,我们更是要利用好手头的模型参数、语料与代码等资源,以有限的计算量取得最好的表现。

附:各个大模型的研究测试传送门:

百度文心一言传送门:

https://yiyan.baidu.com/

​阿里通义千问传送门:

https://tongyi.aliyun.com/chat

ChatGPT传送门(免墙,可直接注册测试):

https://yeschat.cn

GPT-4传送门(免墙,可直接注册测试):

https://gpt4test.com

卖萌屋作者:python

北大毕业的NLP博士。日常写点论文,码点知乎,刷点leetcode。主要关注问答、对话、信息抽取、预训练、智能法律等方向。力扣国服第一python选手(经常掉下来)。知乎 ID 是 Erutan Lai, leetcode/力扣 ID 是 pku_erutan,欢迎没事常来逛逛。

作品推荐

  1. 恕我直言,你的实验结论可能严重依赖随机数种子!

  2. AllenAI 发布万能问答系统 MACAW!各类题型样样精通,性能大幅超越 GPT-3!

  3. 吐血整理:论文写作中注意这些细节,能显著提升成稿质量

  4. 恕我直言,你的模型可能并没看懂 prompt 在说啥

后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

[1]https://github.com/facebookresearch/llama

[2]https://huggingface.co/google/mt5-xxl/tree/main

[3]https://huggingface.co/bigscience/T0

[4]https://huggingface.co/EleutherAI/gpt-neox-20b/tree/main

[5]https://huggingface.co/Salesforce/codegen-16B-nl

[6]https://github.com/google-research/google-research/tree/master/ul2

[7]https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints

[8]https://github.com/bigscience-workshop/xmtf

[9]https://openi.pcl.ac.cn/PCL-Platform.Intelligence/PanGu-Alpha

[10]https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

[11]https://huggingface.co/facebook/opt-iml-30b

[12]https://huggingface.co/bigscience/bloom

[13]https://github.com/bigscience-workshop/xmtf

[14]https://github.com/THUDM/GLM-130B

[15]https://huggingface.co/facebook/galactica-120b

[16]https://huggingface.co/datasets/bookcorpus

[17]https://www.gutenberg.org/

[18]https://commoncrawl.org/

[19]https://www.tensorflow.org/datasets/catalog/c4

[20]https://huggingface.co/datasets/cc_news

[21]https://github.com/rowanz/grover/tree/master/realnews

[22]https://huggingface.co/datasets/spacemanidol/cc-stories

[23]https://skylion007.github.io/OpenWebTextCorpus/

[24]https://files.pushshift.io/reddit/

[25]https://dumps.wikimedia.org/

[26]https://cloud.google.com/bigquery/public-data?hl=zh-cn

[27]https://pile.eleuther.ai/

[28]https://arxiv.org/abs/2303.03915

[29]https://huggingface.co/

[30]https://github.com/microsoft/DeepSpeed

[31]https://github.com/NVIDIA/Megatron-LM

[32]https://github.com/google/jax

[33]https://github.com/hpcaitech/ColossalAI

[34]https://github.com/OpenBMB/BMTrain

[35]https://github.com/laekov/fastmoe

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3372.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CHAT GPT 训练流程 无标题】

伊桑CHAT GPT 训练流程 第一步:监督学习 收集人工编写的期望模型是如何输出的数据集, ​​​​并使用其来训练一个生成模型(GPT3.5-based) ​ 第二步:训练奖励模型 收集人工标注的模型多个输出之间的排序数据集…

借助ChatGPT爆火,股价暴涨又暴跌后,C3.ai仍面临巨大风险

来源:猛兽财经 作者:猛兽财经 C3.ai的股价 作为一家人工智能技术提供商,C3.ai(AI)的股价曾在2021年初随着炒作情绪的增加,达到了历史最高点,但自那以后其股价就下跌了90%,而且炒作情…

谷歌版ChatGPT灾难级发布,市值一夜狂跌7000亿,熬夜网友:退钱!

看完谷歌的最新直播,我感觉,微软被“诈骗”了。 谷歌CEO劈柴哥前脚刚发文说要推出ChatGPT竞品Bard,又有各种消息暗示2月8日晚上的发布会会有“新消息”。 不到24小时,微软就连夜上线了ChatGPT版搜索。 微软CEO纳德拉还非常重视…

ChatGPT已经杀疯了...

来源:机器之心 关于 AI 的问题,可以直接问 AI。 OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bug…… 只要和它聊上几句&#…

尴尬!谷歌版 ChatGPT 全球首秀“大翻车”,市值狂跌 7000 亿

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 昨日,微软宣布用 ChatGPT 改写 Bing、Edge,使其市值飙涨 5450 亿元——有了这个“珠玉”在前,加之谷歌刚官宣了其 ChatGPT 竞品 Bard,人们不由期待今日…

如何在ChatGPT中使用Prompt提示词 - 入门篇

本文导航 文章目录 什么是Prompt?Prompt的核心四个要点使用建议 Prompt的使用范例重新描述所给的文本内容突破ChatGPT的字数限制 总结 什么是Prompt? Prompt中文名提示词,指人工智能(AI)语言模型中的一个输入,它是一个简短的文…

ChatGPT中文版写周报【AI实用技巧】

写周报是打工人的日常操作,但又是相对固定和枯燥的工作。正确使用ChatGPT能轻松愉快地写周报。下面给大家举例说明: ChatGPT中文站https://ai-cn.co 问:我是程序员,负责维护公司商城,帮我写一份周报,不少于…

爆火的ChatGPT太强了!改周报、写代码、改bug,网友:谷歌搜索或GG,Stack Overflow被取代了!...

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 来自:机器之心 OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bu…

【用AI写周报,“卷死”同事】打造一款自动生成周报的微信小程序

文章目录 前言步骤1:创建账号步骤2:创建一个微信小程序并配置API。步骤3:在微信开发者工具中创建一个新的微信小程序项目步骤4:创建ChatGPT API云函数步骤5:创建UI界面步骤6:创建发送邮件的云函数步骤7&…

【ChatGPT】帮你写周报,这是实在太干货了,老板都看不下去了

说到写周报不少小伙伴会觉得是一件头疼的事情,一周摸鱼了不到7天,周报咋写,掰指头都能数清的事在邮件中更是寥寥数字,自己看着不舒服,老板看着更是头大,要不要搞掉他的想法油然而生; ChatGPT可谓…

职场神器:只需三分钟,让ChatGPT帮我写周报

说到周报,尽管周报的目的是为了提高团队合作和项目进展的透明度,但很多职场员工都觉得是件麻烦事。 本来忙碌了一周到周五的下午,工作完成了,可以下班去吃饭,去嗨皮了,结果临走前还得写一份“每周工作报告…

提升效率,使用ChatGPT的轻松撰写日报和周报

日报和周报是办公生活中不可或缺的部分,它们有助于记录工作进展、分享关键信息和与团队保持沟通。但是,有时写作这些报告可能会变得繁琐和耗时。在本文中,我们将介绍如何利用ChatGPT,一个强大的自然语言处理模型,提高写…

【ChatGPT进阶】如何使用ChatGPT写周报?

作为打工人,真的很讨厌写周报。每次都要绞尽脑汁的想措辞,既要总结工作内容,还要进行润色,要突出自己的能力和工作结果,还要弱化做的不好的地方。每一个字都要消耗一大堆的脑细胞。 Chatgpt的出现真的是职场人的福音&…

ChatGPT 使用 拓展资料:大模型训练为什么这么难

ChatGPT 使用 拓展资料:大模型训练为什么这么难 一些LLMs的省内存方法 https://zhuanlan.zhihu.com/p/616858352

如何训练个人的ChatGpt4

如何在自己的计算机上安装类似 ChatGPT 的个人 AI 并在没有互联网的情况下运行它 个人 AI 的“第一台 PC”时刻 这是个人AI的“第一台PC”时刻,随之而来的是限制,就像在车库里生产第一台Apple 1一样。你是先驱。今天,任何人都可以使用私人和…

ChatGPT 拓展资料:ChatGPT 和预训练模型实战课

ChatGPT 拓展资料:ChatGPT 和预训练模型实战课

ChatGPT的前世今生:预训练模型成长史

Datawhale干货 作者:钱博文,中国移动云能力中心 前言 近年来,随着各大厂商的激烈角逐,预训练模型(The Pretrained Foundation Models ,PFMs)的发展可谓百花争鸣,谁都想在这场没有硝…

开箱即用的ChatGPT替代模型,还可训练自己数据

一、普遍关注是什么? OpenAI 是第一个在该领域取得重大进展的公司,并且使围绕其服务构建抽象变得更加容易。然而,便利性带来了集中化、通过中介的成本、数据隐私和版权问题。 而数据主权和治理是这些新的LLM服务提供商如何处理商业秘密或敏…

玩转#ChatGPT之“用Chat GPT 做出行攻略”

到了五一假期,许多人要规划旅游行程,但却为此烦恼花费很多时间做功课。现在,您可以通过Chat GPT来安排旅游行程。只需告诉GPT您的日期和目的地,便能在30秒内生成不错的行程攻略。同时您还可以添加特定条件,例如前几天想…

Geoffrey Hinton获得时间检验奖;AI预测世界杯荷兰夺冠;Galactica不靠谱,ChatGPT又如何……...

这一周,AI业界又有哪些新鲜事? AI人物 Geoffrey Hinton:Forward-Forward新型神经网络更接近大脑运作 近日,深度学习之父、图灵奖得主 Geoffrey Hinton 在 NeurIPS 2022 会议上发表演讲。之所以获得组委会的邀约,主要在…