有人担心缺乏一种简单的方法来选择不将自己的内容用于训练像ChatGPT这样的大型语言模型(LLM)。有一种方法可以做到这一点,但它既不简单,也不保证有效。
AI 如何从您的内容中学习
大型语言模型 (LLM) 根据源自多个源的数据进行训练。其中许多数据集是开源的,可以自由地用于训练AI。
通常,大型语言模型使用各种各样的源进行训练。
所用来源类型示例:
- 维基百科
- 政府法庭记录
- 书
- 电子邮件
- 已抓取的网站
实际上,有一些门户网站和网站提供数据集,这些数据集正在泄露大量信息。
其中一个门户由亚马逊托管,在AWS上的开放数据注册表提供数千个数据集。
拥有数千个数据集的亚马逊门户只是包含更多数据集的许多其他门户中的一个。
维基百科列出了28个用于下载数据集的门户,包括用于查找数千个数据集的Google数据集和Hugging Face门户。
用于训练 ChatGPT 的数据集
ChatGPT 基于 GPT-3.5,也称为 InstructGPT。
用于训练 GPT-3.5 的数据集与用于 GPT-3 的数据集相同。两者之间的主要区别在于 GPT-3.5 使用了一种称为从人类反馈中强化学习 (RLHF) 的技术。
用于训练 GPT-3(和 GPT-3.5)的五个数据集在研究论文《语言模型是少数镜头学习者》(PDF)
数据集是:
- 常见爬网(已筛选)
- 网络文本2
- 书籍1
- 书籍2
- 维基百科
寻找搜索引擎优化工具?20合1怎么样?
获得更多流量。吸引合适的受众。发现 SERP 机会。所有这些都从一个地方更快、更轻松地提高您的排名。
在五个数据集中,基于互联网爬网的两个数据集是:
- 常见爬网
- 网络文本2
关于 WebText2 数据集
WebText2是一个私有的OpenAI数据集,通过抓取来自Reddit的链接来创建,该链接有三个赞成票。
这个想法是这些URL是值得信赖的,并且将包含高质量的内容。
WebText2是由OpenAI开发的原始WebText数据集的扩展版本。
最初的WebText数据集有大约150亿个代币。WebText 用于训练 GPT-2。
WebText2略大,为190亿个代币。WebText2 是用于训练 GPT-3 和 GPT-3.5 的
开放网络文本2
WebText2(由OpenAI创建)不公开可用。
但是,有一个公开可用的开源版本称为OpenWebText2。OpenWebText2 是一个公共数据集,使用相同的爬网模式创建,这些爬网模式可能提供与 OpenAI WebText2 相似(如果不是相同)的 URL 数据集。
我只在有人想知道WebText2中的内容时才提到这一点。人们可以下载OpenWebText2以了解其中包含的URL。
OpenWebText2的清理版本可以在这里下载。OpenWebText2的原始版本可在此处获得。
我找不到有关用于任一爬虫的用户代理的信息,也许它只是被标识为 Python,我不确定。