ChatGPT 数据集之谜

f09e058af443b465efbfbd1a8bdf34bb.gif

ChatGPT这把火越烧越旺。国内很多大厂相继声称要做中文版ChatGPT,还公布了上线时间表,不少科技圈已功成名就的大佬也按捺不住,携巨资下场,要创建“中国版OpenAI“。

不过,看看过去半个月在群众眼里稍显窘迫的Meta的Galactica,以及Google紧急发布的Bard,就知道在短期内打造一个比肩甚至超越ChatGPT效果的模型没那么简单。

让很多人不免感到诧异的是,ChatGPT的核心算法Transformer最初是由Google提出的,并且在大模型技术上的积累可以说不弱于OpenAI,当然他们也不缺算力和数据,但为什么依然会被ChatGPT打的措手不及?

Meta首席AI科学家Yann LeCun最近抨击ChatGPT的名言实际上解释了背后的门道。他说,ChatGPT“只是巧妙的组合而已”,这句话恰恰道出了一种无形的技术壁垒。

简单来说,即使其他团队的算法、数据、算力都准备的与OpenAI相差无几,但就是没想到以一种精巧的方式把这些元素组装起来,没有OpenAI,全行业不知道还需要去趟多少坑。

即使OpenAI给出了算法上的一条路径,后来者想复现ChatGPT,算力、工程、数据,每一个要素都需要非常深的积累。七龙珠之中,算力是自由流通的商品,花钱可以买到,工程上有OneFlow这样的开源项目和团队,因此,对互联网大厂之外的团队来说,剩下最大的挑战在于高质量训练数据集。

至今,OpenAI并没有公开训练ChatGPT的相关数据集来源和具体细节,一定程度上也暂时卡了追赶者的脖子,更何况,业界公认中文互联网数据质量堪忧。

好在,互联网上总有热心的牛人分析技术的细枝末节,从杂乱的资料中串联起蛛丝马迹,从而归纳出非常有价值的信息。

作者|Alan D. Thompson

翻译|杨婷、徐佳渝、贾川

出品 | OneFlow

一些研究人员的报告称,通用人工智能(AGI)可能是从我们当前的语言模型技术进行演进[1],预训练Transformer语言模型为AGI的发展铺平了道路。虽然模型训练数据集日渐增大,但缺乏基本指标文档,包括数据集大小、数据集token数量和具体的内容细节。

尽管业内提出了数据集组成和整理文档的标准[2],但几乎所有重点研究实验室在揭示模型训练数据集细节这方面都做得不够。这里整合的研究涵盖了2018年到2022年初从GPT-1到Gopher的精选语言模型的所有数据集(包括主要数据集:Wikipedia和Common Crawl)的综合视图。

b94316ef97748929ba1a872e5554f618.png

概述

fb41a5f279aaad86be58eaa5f4f7c4f1.png

图 1. 主要数据集大小的可视化汇总。未加权大小,以GB为单位。

2018年以来,大语言模型的开发和生产使用呈现出爆炸式增长。一些重点研究实验室报告称,公众对大语言模型的使用率达到了惊人高度。2021年3月,OpenAI宣布[3]其GPT-3语言模型被“超过300个应用程序使用,平均每天能够生成45亿个词”,也就是说仅单个模型每分钟就能生成310万词的新内容。

值得注意的是,这些语言模型甚至还没有被完全理解,斯坦福大学的研究人员[4]最近坦言,“目前我们对这些模型还缺乏认知,还不太了解这些模型的运转模式、不知道模型何时会失效,更不知道这些模型的突现性(emergent properties)能产生什么效果”。

随着新型AI技术的快速发展,模型训练数据集的相关文档质量有所下降。模型内部到底有什么秘密?它们又是如何组建的?本文综合整理并分析了现代大型语言模型的训练数据集。

因为这方面的原始文献并不对外公开,所以本文搜集整合了二、三级研究资料,在必要的时候本文会采用假设的方式来推算最终结果。

在本文中,我们会将原始论文中已经明确的特定细节(例如token数量或数据集大小)归类为“公开的(disclosed)”数据,并作加粗处理。

多数情况下,适当地参考二、三级文献,并采用假设的方式来确定最终结果是很有必要的。在这些情况下,token数量和数据集大小等细节是“确定的(determined)”,并以斜体标记。

模型数据集可分为六类,分别是:维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集。

456207536f247af3e351f291c967686e.png

表1. 主要数据集大小汇总。以GB为单位。公开的数据以粗体表示。确定的数据以斜体表示。仅原始训练数据集大小。

1.1. 维基百科

维基百科是一个免费的多语言协作在线百科全书,由超过300,000名志愿者组成的社区编写和维护。截至2022年4月,英文版维基百科中有超过640万篇文章,包含超40亿个词[5]。维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域。一般来说,重点研究实验室会首先选取它的纯英文过滤版作为数据集。

1.2. 书籍

故事型书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反应能力,数据集包括Project Gutenberg和Smashwords (Toronto BookCorpus/BookCorpus)等。

1.3. 杂志期刊

预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。这类数据集包括ArXiv和美国国家卫生研究院等。

1.4. Reddit链接

WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。

1.5. Common Crawl

Common Crawl是2008年至今的一个网站抓取的大型数据集,数据包含原始网页、元数据和文本提取,它的文本来自不同语言、不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。

1.6. 其他数据集

不同于上述类别,这类数据集由GitHub等代码数据集、StackExchange 等对话论坛和视频字幕数据集组成。

79c4782360e6a1846d6fb2efc404a500.png

常用数据集

2019年以来,大多数基于Transformer的大型语言模型 (LLM) 都依赖于英文维基百科和Common Crawl的大型数据集。在本节中,我们参考了Jesse Dodge和AllenAI(AI2)[8]团队的综合分析,按类别对英文维基百科作了高级概述,并在Common Crawl数据集[7]的基础上,用谷歌C4[6] (Colossal Clean Crawled Corpus)在Common Crawl中提供了顶级域(domains)。

2.1. 维基百科(英文版)分析

下面按类别[9]列出了维基百科的详细信息,涵盖了2015年抽样的1001篇随机文章,研究人员注意到随时间推移文章传播的稳定性。假设一个11.4GB、经过清理和过滤的维基百科英文版有30亿token,我们就可以确定类别大小和token。

e56e5c31d61c6edb27718b99e9cb0697.png

表2. 英文维基百科数据集类别。公开的数据以粗体表示。确定的数据以斜体表示。

2.2 Common Crawl分析

基于AllenAI (AI2)的C4论文,我们可以确定,过滤后的英文C4数据集的每个域的token数和总体百分比,该数据集为305GB,其中token数为1560亿。

5157d6a4bf0e714b4eac8c29a9aeb271.jpeg

表3. C4:前23个域(不包括维基百科)。公开的数据以粗体表示,确定的数据以斜体表示。

90cff7b9c5220508a804d70d33917557.png

GPT-1数据集

2018年,OpenAI发布了1.17亿参数的GPT-1。在论文中,OpenAI并没有公布模型训练数据集的来源和内容[10],另外,论文误将‘BookCorpus’拼写成了‘BooksCorpus’。BookCorpus以作家未出版的免费书籍为基础,这些书籍来自于Smashwords,这是一个自称为“世界上最大的独立电子书分销商” 的电子书网站。这个数据集也被称为Toronto BookCorpus。经过几次重构之后,BookCorpus数据集的最终大小确定为4.6GB[11]。

2021年,经过全面的回顾性分析,BookCorpus数据集对按流派分组的书籍数量和各类书籍百分比进行了更正[12]。数据集中有关书籍类型的更多详细信息如下:

4e57966c94acc44a66981a8d036cdffd.jpeg

表4. BookCorpus书籍类型。公开的数据以粗体表示,确定的数据以斜体表示。

在随后的数据集重构中,BookCorpus数据集进一步过滤掉了书籍中的“吸血鬼”类别、降低了言情类书籍的百分比、增加了“历史”类书籍,增加了收集的书籍数量。

3.1. GPT-1数据集总结

GPT-1最终的数据集总结分析如下:

c9472b44904da9a5fb391ff0b2b6abf7.png

表5.GPT-1数据集总结。以GB为单位。公开的数据以粗体表示,确定的数据以斜体表示。

9b52ab9aaf9808bd358334e33f5a09f6.png

GPT-2数据集

2019年,OpenAI发布了拥有15亿参数的语言模型GPT-2。GPT-2论文阐明了所用训练数据集的大小[13],不过并未说明其内容。而GPT-2模型卡(model card)(在GPT-2 GitHub仓库中)说明了模型内容[14]。

我们可以从GPT-3论文中得到token数量,该论文使用了WebText扩展版本来表示190亿token。据推测,2020年推出的WebText扩展版本拥有12个月的额外数据(additional data),因此它可能比2019年推出的GPT-2版本大25%左右[15]。GPT-2最终的token数量确定为150亿左右。

如GPT-2论文所述,假设模型卡显示链接数时,每个链接都可以被4500万链接总数所除,那WebText的内容在数据集中所占的百分比的详细信息就可以确定。

然后可以使用确定的150亿token数量来查找每个域的token数量。请注意,在可用的前1,000个域中,此处仅显示前50个域。

85108459abc608220767826735f11bc7.jpeg

表6. WebText: 前50个域。 公开的数据以粗体表示,确定的数据以斜体表示。

4.1. GPT-2数据集总结

GPT-2模型最终的数据集总结分析如下:

7e160fe5a43842e1d43fc8d8cf86ea6c.png

表7. GPT-2数据集总结。 公开的数据以粗体表示,确定的数据以斜体表示。

fa7377d5e61ddf23289717d37039b43c.png

GPT-3数据集

GPT-3模型由OpenAI于2020年发布。论文阐明了所用训练数据集的token数量[16],但训练数据集的内容和大小尚不清楚(Common Crawl的数据集大小除外[17])

9018038ea8a5f30ca3e560694b66fb7c.png

表8. GPT-3数据集。 公开的数据以粗体表示,确定的数据以斜体表示。

5.1. GPT-3:关于Books1和Books2数据集的分析

特别值得关注的是,在OpenAI的GPT-3论文中,并未公开Books1数据集(120亿token)和Books2数据集(550亿token)的大小和来源。关于这两个数据集的来源人们提出了几个假设,包括来自LibGen18和Sci-Hub的类似数据集,不过这两个数据集常以TB为计,大到无法匹配。

5.2. GPT-3:Books1

GPT-3使用的Books1数据集不可能与GPT-1使用的BookCorpus数据集相同,原因在于Books1的数据集更大,达120亿token。在一篇引用的论文[19]中就提及GPT-1使用的BookCorpus数据集拥有9.848亿个词,但这可能只相当于13亿token(984.8字x 1.3字的token乘数)。

通过标准化项目古腾堡语料库(SPGC),Books1有可能与古腾堡项目保持一致性。SPGC是一种开放式科学方法,被用于古腾堡项目完整的PG数据的精选(curated)版本。SPGC包含120亿个token[20],大约为21GB[21]。

5.3. GPT-3:Books2

Books2(550亿token)可能与Bibliotik保持一致,并由EleutherA收集该来源的数据,组成数据集,使其成为The Pile v1的一部分。Bibliotik版本为100.96GB[22],其确定的token数仅为250亿,低于Books2公开的550亿。然而,使用SPGC的‘每字节token数’比率(大约为1:1.75),Bibliotik的token数和大小将更接近于Books2。

5.4. GPT-3数据集总结

附录A概述了使用Wikipedia + CommonCrawl + WebText数据集的顶级资源列表。GPT-3模型的最终数据集总结分析如下:

4ad01359a7b8683d21cb496eec434b61.png

表9.GPT-3数据集总结。公开的数据以粗体表示,确定的数据以斜体表示。

7058759b9fc5874cac53e1db3146c9e5.png

The Pile v1(GPT-J和GPT-NeoX-20B)数据集

The Pile v1数据集由EleutherAI于2021年发布,该数据集已被用于训练包括GPT-J、GPT-NeoX-20B在内的多种模型,并作为包括MT-NLG在内的其他模型的部分数据集。The Pile v1论文阐明了所用训练数据集的来源和大小。随着token数量的增加,The Pile v1论文应被用作未来数据集文档的黄金标准。

有关token数量的更多详情,可以使用本文提供的信息来确定,参见表1(大小以GB为单位)和表7(token/每字节)[23]。

a4f73b63cf625dc7fb9d90e02e61132d.png

表10. The Pile v1数据集。公开的数据以粗体表示,确定的数据以斜体表示。

6.1. The Pile v1分组数据集(Grouped Datasets)

为了确定如‘Books’、‘Journals’和‘CC’这类数据集的大小,笔者对数据集进行了分组,如下表所示。

bc616caae3045146958b388bfc941360.jpeg

表11. The Pile v1分组数据集(不包括Wikipedia、CC 和 WebText)。公开的数据以粗体表示,确定的以斜体表示。

6.2. The Pile v1数据集总结

The Pile v1数据集与GPT-J和GPT-NeoX-20B模型的最终数据集总结分析如下:

7b76396b54169827490a88a27fb676a1.png

表 12. Pile v1 数据集总结。 公开的数据以粗体表示,确定的数据以斜体表示。

ac79d7d9337ba5459d691db434362fab.png

Megatron-11B和RoBERTa数据集

2019年,Meta AI(当时称之为Facebook AI)和华盛顿大学联合发布了拥有1.25亿参数的RoBERTa模型。次年,Meta AI发布了拥有110亿参数的Megatron-11B模型。Megatron-11B使用的训练数据集与RoBERTa相同。RoBERTa[24]论文阐明了所用训练数据集的内容,不过必须参考引用的论文(BERT[25]和toryes[26])来确定最终的数据集大小。

BookCorpus: 确定的数据集为4.6GB,如上面的GPT-1部分所示。

维基百科:公开的数据集为“16GB(BookCorpus加上英文维基百科)”。在减去BookCorpus数据集(4.6GB,如上面的GPT-1部分所述)后,维基百科数据集确定为11.4GB。

CC-News:(经过滤后)公开的数据集为76GB。

OpenWebText: 公开的数据集为38GB。

Stories: 公开的数据集为31GB。请注意,此数据集是“基于常识推理任务问题”的Common Crawl内容,不属于本文的‘Books’类别。相反,将Stories与CC-News数据集(76GB)相结合,Common Crawl的总数据集则为107GB。

7.1. Megatron-11B和RoBERTa的数据集总结

Megatron-11B和RoBERTa最终的数据集总结分析如下:

cca2055984b6cf167c9d1c34a1261070.png

表13. Megatron-11B和RoBERTa的数据集总结。 公示的数据以粗体表示,确定的数据以斜体表示。

12fb085b1ccf8f83b3a51aab67a18506.png

MT-NLG数据集

2021年,英伟达和微软发布了拥有5300亿参数的语言模型MT-NLG。MT-NLG是微软Turing NLG(拥有170亿参数)和英伟达Megatron-LM(拥有83亿参数)的“继任者”。MT-NLG论文阐明了所用训练数据集的来源和token数量,不过没有明确指出数据集的大小。

如前所述,有关数据集大小的更多详情,可以使用The Pile v1论文中提供的信息来确定。虽然使用的组件相同,但注意的是,MT-NLG和The Pile v1中报告的组件大小却各不相同,这是由于来自Eleuther AI (The Pile v1数据集)和Microsoft/NVIDIA (MT-NLG模型)的研究人员采用了不同的数据过滤和去重方法。

8.1. MT-NLG中的Common Crawl数据集

Pile-CC:公开的数据集为498亿token,确定的数据为227.12GB左右,参见上述Pile v1部分。

CC-2020-50: 公开的数据集为687亿token,假设token的每字节率(per byte rate)为0.25 TpB=274.8GB。

CC-2021-04:公开的数据集为826亿token,假设token的每字节率为0.25 TpB=330.4GB

RealNews(来自RoBERTa/Megatron-11B):显示为219亿token。根据RealNews论文[27],数据集确定为120GB。

CC-Stories(来自RoBERTa/Megatron-11B):公开的数据集为53亿token,如上述RoBERTa部分所示,数据集确定为31GB。

根据以上来源,可确认Common Crawl的总数据量为983.32GB,共计2283亿token。

8.2. MT-NLG分组数据集(Grouped Datasets)

2433a24756167986e931e74a1b7397bd.png

表14. MT-NLG 分组数据集。公开的数据以粗体表示,确定的数据以斜体表示。

8.3. MT-NLG数据集总结

MT-NLG模型最终的数据集总结分析如下:

651a507e2cedc6759137aac7bb712219.png

表15. MT-NLG数据集总结。 公示的数据以粗体表示,确定的数据以斜体表示。

043320b742001a8cd4efe37ec1f3583e.png

MT-NLG 数据集Gopher数据集

Gopher模型由DeepMind于2021年发布,有2800亿参数。该论文清楚地说明了所使用训练数据集所包含的高级token数量和大小[28],但没有说明详细内容。

868b4b37aa7aa00a39b32c29b45ec776.png

表16. 公开的Gopher数据集 (MassiveText)。公开的数据以粗体表述,确定的数据以斜体表示。

有趣的是,据Gopher论文披露:其Books数据集中包含一些超过500年历史(1500-2008)的书籍。

9.1. MassiveWeb数据集分析

DeepMind于2014年被谷歌收购,并在创建MassiveText时获得了海量数据。虽然Gopher论文中没有进一步详细描述MassiveWeb,但第44页附录中的表A3b注明了MassiveWeb中出现的前20个域[29]。根据披露的每个域所占的百分比,我们可以使用MassiveWeb的总token数(5060亿token)和总原始大小(1900GB)来确定每个域的token数量和大小。

a89d961c12930a55662c637e79b291ab.jpeg

表17. MassiveWeb:前20个域。公开的数据以粗体表示,确定的数据以斜体表示。

9.2. Gopher:关于维基百科数据集的分析

维基百科数据集的总规模很难确定。在Gopher论文中,研究人员指出维基百科没有进行数据去重[30]。然而,论文中列出的不同大小数据集(12.5GB MassiveWeb Wikipedia与1GB MassiveText Wikipedia)可能是由于失误而造成的,误将“10GB”写成了“1GB”。无论如何,本文仅使用MassiveWeb数据集版本 (12.5GB)。

9.3. Gopher:不包括WebText

Gopher数据集的组成部分不包括Reddit外链的WebText数据集。为了清楚起见,尽管Reddit是MassiveWeb中的顶级域,但该数据集仅抓取Reddit域内的Reddit链接。根据定义,WebText[31]由“所有Reddit的外链”组成(即指向Reddit域外的链接)。

9.4. Gopher分组数据集

MassiveWeb被认为是MassiveText的子组件,并被集成到Gopher的数据集汇总中,其分组基于以下列出的可用信息:

749e4aca0946940b47f1c7c33152eb04.png

表18. Gopher分组数据集。公开的数据以粗体表示,确定的数据以斜体表示。

9.5. Gopher数据集总结

Gopher是本文中最大的数据集,大小为10.5TB。Gopher模型的最终数据集总结分析为:

76460c651592f2be1f8b24ec7a1b6978.png

表19. Gopher数据集总结。公开的数据以粗体表示,确定的数据以斜体表示。

b63470131c793b87996ac57185a6084b.png

结论

对于训练当代Transformer大型语言模型的数据集而言,这可能是最全面的整合分析内容(截止2022年初)。在主要数据源不透明的情况下,本次研究主要从二级和三级来源收集数据,并经常需要假定来确定最终估计值。随着研究人员要处理千万亿个token(1,000万亿)和数千TB的数据(1,000TB),确保详细披露数据集组成的文档变得越来越重要。

特别值得关注的是,基于大型语言模型的强大AI系统产生的冗长而匿名的输出正在迅速发展,其中许多数据集的细节内容几乎没有文档说明。

强烈建议研究人员使用突出显示的“数据集的数据表(Datasheet for Datasets)”论文中提供的模板,并在记录数据集时使用最佳实践论文(即Pile v1论文,包括token数量)。数据集大小(GB)、token数量(B)、来源、分组和其他详细信息指标均应完整记录和发布。

随着语言模型不断发展并更广泛地渗透到人们的生活中,确保数据集的详细信息公开透明、所有人都可访问且易于理解是有用、紧迫和必要的。

扩展阅读及脚注(请上下滑动) 

考虑到简洁和可读性,本文使用了脚注而非文本/括弧式引文。主要参考文献如下,或者参见http://lifearchitect.ai/papers/,获取大语言模型领域的主要基础论文。以下论文按本文顺序显示。

  1. Datasheets for Datasets Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J., Wallach, H., Daumé III, H., & Crawford, K. (2018). Datasheets for Datasets. https://arxiv.org/abs/1803.09010

  2. GPT-1 paper Radford, A., & Narasimhan, K. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI. https://cdn.openai.com/research-covers/language-unsupervised/language_understan ding_paper.pdf

  3. GPT-2 paper Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI. https://cdn.openai.com/better-language-models/language_models_are_unsupervised _multitask_learners.pdf

  4. GPT-3 paper Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., & Dhariwal, P. et al. (2020). OpenAI. Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165

  5. The Pile v1 paper Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., & Foster, C. et al. (2021). The Pile: An 800GB Dataset of Diverse Text for Language Modeling.

  6. EleutherAI. https://arxiv.org/abs/2101.00027

  7. GPT-J announcement Komatsuzak, A., Wang, B. (2021). GPT-J-6B: 6B JAX-Based Transformer. https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/

  8. GPT-NeoX-20B paper Black, S., Biderman, S., Hallahan, E. et al. (2022). EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model. http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf

  9. RoBERTa paper Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., & Chen, D. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. Meta AI. https://arxiv.org/abs/1907.11692

  10. MT-NLG paper Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., & Casper, J. et al. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. Microsoft/NVIDIA. https://arxiv.org/abs/2201.11990

  11. Gopher paper Rae, J., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., & Song, F. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. DeepMind. https://arxiv.org/abs/2112.11446

  12. Appendix A: Top 50 Resources: Wikipedia + CC + WebText (i.e. GPT-3)

附录 A:前50个资源:Wikipedia + CC + WebText(即 GPT-3)

基于本文内容,尤其是每个数据集中每个资源的token数量,我们可以对将Wikipedia + Common Crawl + WebText数据集的组合,作为其整体训练数据集的一部分模型进行资源或域的排序。为清楚起见,这包括以下模型:OpenAI GPT-3、EleutherAI GPT-J、EleutherAI GPT-NeoX-20B、Meta AI Megatron-11B和RoBERTA,以及 Microsoft/NVIDIA MT-NLG等。

请注意,展示的排名基于数据集中可用的未加权总token,每个数据集的主观权重由研究人员在模型预训练之前计算得出。其中有一些重复(例如,《纽约时报》既出现在有1.11亿token的WebText中,也出现在过滤后有1亿token的Common Crawl中)。

a2997b77f7cc9a66802eddb5b07e89bc.jpeg

脚注

1. GPT-NeoX-20B paper: pp11, section 6 http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf

2. Datasheet for Datasets paper: https://arxiv.org/abs/1803.09010

3. OpenAI blog: https://openai.com/blog/gpt-3-apps/

4. On the Opportunities and Risks of Foundation Models: https://arxiv.org/abs/2108.07258

5. Size of Wikipedia: https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia

6. C4 dataset: https://www.tensorflow.org/datasets/catalog/c4

7. Common Crawl website: https://commoncrawl.org/

8. C4 paper: https://arxiv.org/abs/2104.08758 pp2, Figure 1 right

9. Wikipedia categories: https://en.wikipedia.org/wiki/User:Smallbones/1000_random_results: “维基百科涵盖哪些主题?覆盖范围是否随时间变化?使用2015年12月抽取的1001篇随机文章对这些问题和类似问题进行了查验...随着时间推移,这些比例相当稳定...传记(27.8%),地理(17.7%),文化和艺术(15.8%),历史(9.9%),生物学、健康和医学(7.8%),体育(6.5%),商业(4.8%),其他社会(4.4%),科学与数学(3.5%),教育(1.8%)。”

10. GPT-1 paper: pp4 “We use the BooksCorpus dataset for training the language model.”

11. https://huggingface.co/datasets/bookcorpus: “Size of the generated dataset: 4629.00 MB”

12. BookCorpus Retrospective Datasheet paper: pp9 https://arxiv.org/abs/2105.05241

13. GPT-2 paper: pp3 “我们从社交媒体平台Reddit中抓取了至少有3个karma的所有出站链接。这可以被认为是一个启发式指标,用于判断其他用户是否觉得该链接有趣、有教育意义或只是有趣……WebText包含这4500万个链接的文本子集……其中不包括2017年12月之后创建的链接。经过去重和一些基于启发式的清理后,其中包含大约超过800万个文档,总共40GB文本。我们从WebText中移除了所有维基百科文档...”

14. GPT-2 model card: https://github.com/openai/gpt-2/blob/master/model_card.md: “我们已经发布了WebText中出现的前1,000个域及其频率的列表。WebText中排名前15位的域是:Google、Archive、Blogspot、GitHub、纽约时报、Wordpress、华盛顿邮报、维基亚、BBC、卫报、eBay、Pastebin、CNN、雅虎和赫芬顿邮报。”

15. GPT-3 paper: “WebText2:190亿token。[Alan:WebText2是从WebText稍微扩展而来,所以我们可以减去20%,得到150亿token]”

16. GPT-2 paper: pp3 “GPT-3: pp9, Table 2.2 “CC: 4100亿token. WebText2: 190亿token. Books1: 120亿token. Books2: 550亿token. Wiki: 30亿token”

17. GPT-3 paper: pp8

18. BookCorpus repo: soskek/bookcorpus#27: “books3.tar.gz似乎类似于OpenAI在他们的论文中引用的神秘“books2”数据集。不幸的是,OpenAI不会提供细节,所以我们对其差异知之甚少。人们怀疑它是“libgen的全部”,但这纯粹是猜测。尽管如此,books3仍是“所有的bibliotik”......”

19. BookCorpus paper: https://arxiv.org/abs/1506.06724: “# of words: 984,846,357 [Alan: BookCorpus有13亿token。我们想要有120-550亿token]”

20. Gutenberg paper: https://arxiv.org/abs/1812.08092: “我们介绍了标准化项目古腾堡语料库(SPGC),这是一种开放的科学方法,用于处理完整PG数据的精选版本,其中包含超过50,000本书和3×109word-token[Alan:相当于大约120亿BPE token,见下文 ]”

21. Gutenberg repo: https://zenodo.org/record/2422561 “未压缩大小:3GB(count)+ 18GB(token)[总计21GB]”

22. The Pile v1 paper: “Books3(Bibliotik tracker):100.96GB” [Alan:乘以每字节token数0.2477 = 250亿token]

23. The Pile v1 paper: pp3, Table 1 for datasets. pp28, Table 7 for Tokens per byte.

24. RoBERTa paper: https://arxiv.org/abs/1907.11692 “BOOKCORPUS加上英文WIKIPEDIA。这是用来训练 BERT的原始数据。(16GB)。”

25. BERT paper: https://arxiv.org/abs/1810.04805 “BERT在BooksCorpus(8亿字)和维基百科(25亿字)上进行训练。”

26. Stories paper: https://arxiv.org/abs/1806.02847 pp5-6

27. RealNews paper: https://arxiv.org/abs/1905.12616v3 “去重后,RealNews在没有压缩的情况下为120GB。”

28. Gopher paper: https://arxiv.org/abs/2112.11446 pp 7: list of sizes and tokens.

29. Gopher paper: https://arxiv.org/abs/2112.11446 pp 44, Figure A3b.

30. Gopher paper: pp41n14 “请注意,我们将文档去重应用于除Wikipedia和GitHub之外的所有MassiveText子集“

31. GPT-2 paper, pp3.

关于作者

Alan D. Thompson博士是人工智能专家、顾问。在2021年8月的世界人才大会(World Gifted Conference)上,Alan与Leta(由GPT-3提供支持的AI)共同举办了一场名为“The new irrelevance of intelligence”的研讨会。他的应用型人工智能研究和可视化成果受到了国际主要媒体的报道,同时还在2021年12月牛津大学有关AI伦理的辩论中被引用。他曾担任门萨国际(Mensa International)主席、通用电气(GE)和华纳兄弟(Warner Bros)顾问,也曾是电气与电子工程师协会(IEEE)和英国工程技术学会(IET)会员。

原文:https://lifearchitect.ai/whats-in-my-ai/

本文由OneFlow编译发布,CSDN获得授权后发布,转载请联系OneFlow获得授权。

 

36775a73bddd0bb867c2dfff65b974ed.gif

 

87cb4b6f4dd0ce31b13f5a893f89eb9e.png

☞数仓巨头在中国落幕,Teradata 退出国内市场!
☞Google BigQuery 创始工程师:大数据已“死”
☞源创者说 | 从技术开放到产业连接,开源成就广泛连接的生态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13004.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

透过ChatGPT的进化足迹,OpenAI传达了哪些信号?

古希腊神话中,一位名叫赫尔墨斯的神,会充当人神之间的信使,穿着带有双翼的飞鞋,行走在神明与人类之间。 根据《荷马史诗》的记载:“在天神中,赫尔墨斯是最喜欢引导凡人前行的。”这句话用来形容OpenAI与AI的…

炸裂——关于Azure OpenAI的几个更新

感觉好久没有写随笔了,虽然从年初至今,一直被持续不断涌现的新 AI 消息震惊,也一直不断组织和参与各种 AI 相关的活动、直播,但确实挺久没有写文字了。今天是下半年的第一天,也是暑假的第一天,忙完家务&…

腾讯员工痛诉:从阿里来的同事秀“内卷”

推荐专门分享AI技术的公众号 关注后,回复:ChatGPT ,领取账号 来源丨蚂蚁大喇叭 https://mp.weixin.qq.com/s/DblmMOXYQ7yHE_NbhaGoCA 反内卷,你该反的是你周围的“卷王”同事! 最近大厂员工手撕领导,反内卷…

为什么是毫末智行成为了DriveGPT的破壁人?

作者 | 魏启扬 来源 | 洞见新研社 毫末智行有着天生的紧迫感。 很多科技公司一年才举办一次的品牌日活动,毫末智行硬是办成了一个季度一次,活动频次的提高,则意味着组织内部新陈代谢的提速,从研发到落地乃至运营,都要…

有了数据湖,数据仓库究竟能不能被取代?

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 数据湖是近两年中比较新的技术在大数据领域中,对于一个真正的数据湖应该是什么样子,现在对数据湖认知还是…

DriveGPT自动驾驶大模型中国玩家首发!1200亿参数,毫末智行出品

贾浩楠 发自 凹非寺量子位 | 公众号 QbitAI 早知道会有这一天,但没想到如此快: GPT技术,“上车”! DriveGPT,首个应用GPT模型和技术逻辑的自动驾驶算法模型,正式官宣,中文名雪湖海若。 可能你已…

写个AI虚拟主播:看懂弹幕,妙语连珠,悲欢形于色,以一种简单的实现

这不是你期望的介绍深度学习大模型的文章。而是使用人人都能理解、编程、运行的简单技术(包括机器学习和非机器学习技术),通过一系列工程进行整合、组装,从而实现一个 AI 虚拟主播的故事。 muvtuber 让 AI 成为虚拟主播&#xff…

chatgpt赋能python:Python遍历-一种高效的数据处理技术

Python 遍历 - 一种高效的数据处理技术 对于程序员来说,数据处理是一个常见的任务。而在处理数据时,遍历是最常用的技术之一。Python 是一种强大的编程语言,它提供了很多用于数据遍历的工具和函数。在本文中,我们将介绍 Python 中…

ChatGpt输出结果时,文字中间有一根长长的删除线标记是什么意思?(ChatGpt删除线标记)

如图,这根删除线的含义是: 表示该文字不可信或是不准确的,建议仔细核实其内容。 这是系统为了提醒用户注意文字中可能存在的错误,避免对实际操作产生误导。

Stack Overflow 临时禁用 ChatGPT 生成内容,网友:人类和AI快打起来!

如果有一天我们查询到的「知识」真假难辨,那这就太可怕了。 要问最近 AI 圈哪个模型最火爆,你不得不把 OpenAI 推出的 ChatGPT 排在前面。自从发布以来,这个对话模型可谓是出尽风头,很多人更是对其产生了一百个新玩法,…

chatgpt开发内核定时器模块的完整过程

描述任务需求后,几乎在同一时刻chatgpt给出响应,开始进入代码刷屏模式,coding过程中还不忘给代码添加注释。 要求它顺便将Makefile文件写好提供给我,刷完代码后,进跟着开始刷Makefie文件: 编译生成的代码时…

MyBatisX插件没有出现蓝色鸟

如题,新版1.5.~的MyBatisX插件下载后,只有xml文件前出现红色鸟,对应的mapper接口中没有蓝色鸟。 解决办法:在idea中卸载掉该插件,加入插件页面中给出的qq群号,去群文件里下载1.4版本的压缩包,并…

新概念2-课文名称和知识点

目录 一、新概念2课文特点 二、新概念2知识点 1、新概念2知识点思维导图 2、简单句的核心 3、简单句的扩展 4、复合句 三、新概念2课文明细 一、新概念2课文特点 1)总计96篇课文,4个单元,每个单元都是逐步加深知识点 2)一…

蓝鸟BIP-1300无线终端解锁未签名程序运行权限

我司有一批BIP-1300,安装WM6系统。因为机器服役时间过长,系统很慢,于是将其中两台机器恢复了出厂设置。(F6Reset) 但是出现了一个问题,重置后的系统拒绝执行未经签名的应用程序,也拒绝Windows …

ChatGPT 成学生“作弊神器”?教授:“我感到极度恐惧”

上线没到一个月,ChatGPT 已经被网友玩出了“花”:写诗、编剧本、写代码、做计算题……在 ChatGPT 获得颇多赞誉的同时,近来一些学术界教授却发现了它另一种令人担忧的用途:学生正在利用 ChatGPT 代写论文。 为此,弗曼…

ChatGPT已死?AutoGPT太强?

今天聊聊 AutoGPT。 OpenAI 的 Andrej Karpathy 都大力宣传,认为 AutoGPT 是 prompt 工程的下一个前沿。 近日,AI 界貌似出现了一种新的趋势:自主人工智能。 这不是空穴来风,最近一个名为 AutoGPT 的研究开始走进大众视野。特斯拉…

Midjourney|文心一格 Prompt:完整参数列表、风格汇总、文生图词典合集

Midjourney|文心一格 Prompt:完整参数列表、风格汇总、文生图词典合集 1.Midjourney 完整参数列表 参数名称 调用方法使用案例注意事项V5V4V3niji版本在关键词后加空格,然后带上版本参数: --v 或者 —v –version 或者 —versionvibrant cali…

AI本地绘画软件(无需联网)+7Glatest模型+10G数据整合包

今年的AI技术实在太强了......AI对话、AI绘画...后面围绕AI演变出的无数产品正在跃跃欲试,颇有种让人跟不上时代的感觉;如果说ChatGPT是AI对话领域的老大哥,那么Midjourney就是全网最强的AI绘画平台,只要关键词描述得够好,它生成的…

元宇宙走进现实,被黑科技普照的生活日常真的来了

开年热播的《三体》,开启了对科技文明的全新想象。今年ChatGPT更是引发热议,人工智能、科技创新成为高频词汇,“元宇宙看两会”系列更是融合了比特数智人形象生成、AR互动技术、定位跟踪等技术,将科技互动感和沉浸感拉满。当下&am…

2023上海车展,智能汽车发烧友逛展攻略

来了,来了!我们来了! 2023上海国际汽车工业展览会,上海国家会展中心,一直持续到4月27日! 各大汽车先锋企业汇聚于此。诸多全球首发/国内首发新车首次展现锋芒,众多领先汽车科技集聚于此。 什…