国外团队从GPT3.5提取大规模数据完成本地机器人训练,并开源项目源码和模型支持,普通在笔记上运行chatgpt。下面是他们分享的:收集到的数据、数据管理程序、训练代码和最终模型,以促进开放研究和可重复性。
1、数据收集和管理
在 2023 年 3 月 20 日至 2023 年 3 月 26 日期间,该团队使用 GPT-3.5-Turbo OpenAI API 收集了大约 100 万个提示-响应对。为此,我们首先通过利用三个公开可用的数据集收集了不同的问题提示样本:
• The unified chip2 subset of LAION OIG.
• Coding questions with a random sub-sample of Stackoverflow Questions(用 Stackoverflow 问题的随机子样本来编码问
题)
• Instruction-tuning with a sub-sample of Bigscience/P3(使用 Big- science/P3 的子样本进行指令调优)
他们选择在斯坦福羊驼项目(Taori et al., 2023)的评论基础上,将大量注意力放在数据准备和管理上。在收集了提示生成对的初始数据集之后,我
们将数据加载到 Atlas 中进行数据管理和清理。使用 Atlas,我们删除了所有 GPT-3.5-Turbo 无法响应提示并产生畸形输出的例子。这将他们的示例总数减少到 806,199 对高质量的提示生成对。接下来,他们决定从最终训练数据集中移除整个Bigscience/P3 子集,