ChatGPT 是 InstructGPT 的同级模型,它经过训练可以按照提示中的说明进行操作并提供详细的响应。
InstructGPT论文:https://arxiv.org/pdf/2203.02155.pdf
InstructGPT怎么准备和标记数据集:https://harryliu.blog.csdn.net/article/details/129876367
instructGPT论文阅读笔记:https://harryliu.blog.csdn.net/article/details/129876367
ChatGPT的训练方法
ChatGPT使用与 InstructGPT 相同的方法,使用人类反馈强化学习 (RLHF) 训练该模型,但数据收集设置略有不同。 使用监督微调训练了一个初始模型:Human AI 训练员提供对话,并在对话中扮演两个角色——用户(User)和 AI 助手。 让训练者(trainers)可以访问模型编写的建议,以帮助他们撰写回复。 把这个新的对话数据集与 InstructGPT 数据集混合,并将其转换为对话格式。
为了创建强化学习的奖励模型,需要收集比较(comparison)数据,其中包含两个或多个按质量排序的模型响应。 为了收集这些数据,收集了 AI 训练者与聊天机器人的对话。 随机选择了一条模型编写的消息,抽取了几个备选的完成方式,并让 AI 训练者对它们进行排名。 使用这些奖励模型,使用 Proximal Policy Optimization.来微调模型。 对这个过程进行了几次迭代。
- 第一步:收集范例数据,并以有监督方法训练。 贴标签者提供了输入提示分布(prompt distribution)上所需行为的范例。 然后,使用有监督学习在该数据集上微调预训练的 GPT-3 模型。
- 第二步:收集对比数据,训练奖励模型(Reward model)。 收集了多个模型输出之间比较的数据集,贴标记者给同一个输入不同模型输出根据喜欢程度打分,组成一个对比数据集。 然后用这个数据集训练奖励模型。
- 第三步:使用 PPO 针对奖励模型优化策略。 使用 RM奖励模型的输出作为标量奖励。 使用 PPO 算法微调监督策略以优化此奖励。
ChatGPT的限制
- ChatGPT 有时会写出看似合理但不正确或荒谬的答案。 解决这个问题具有挑战性,因为:(1)在 RL 训练期间,目前没有真实来源; (2) 训练模型更加谨慎导致它拒绝可以正确回答的问题; (3) 监督训练会误导模型,因为理想的答案取决于模型知道什么,而不是人(提供示例数据的人)知道什么。
- ChatGPT 对输入措辞的调整或多次尝试相同的提示很敏感。 例如,给定一个问题的措辞,模型可以声称不知道答案,但只要稍作改写,就可以正确回答。
- 该模型通常过于冗长并过度使用某些短语,例如重申它是 OpenAI 训练的语言模型。 这些问题源于训练数据的偏差(训练者更喜欢看起来更全面的更长答案)和众所周知的过度优化问题。
- 理想情况下,当用户提供模棱两可的查询时,模型会提出澄清问题。 相反,我们当前的模型通常会猜测用户的意图。
- 虽然已努力使模型拒绝不当请求,但它有时会响应有害指令或表现出有偏见的行为。 正在使用 Moderation API 来警告或阻止某些类型的不安全内容,但预计目前它会有一些漏报和漏报。 他们渴望收集用户反馈,以帮助他们正在进行的改进该系统的工作。
迭代部署
今天发布的ChatGPT研究是OpenAI迭代部署越来越安全和有用的人工智能系统的最新一步。从GPT-3和Codex等早期模型的部署中获得的许多经验教训为此次发布的安全缓解措施提供了信息,包括通过使用从人类反馈中强化学习(RLHF)来大幅减少有害和不真实的输出。
ChatGPT 与 InstructGPT 进行示例比较
示例一
示例二
示例三
ChatGPT的使用
一旦您在网站的 ChatGPT 端登录到您的 OpenAI 帐户,就该了解 AI 工具的窗口了。 以下是您将看到的内容的细分,以下图为例:
- New chat button:在屏幕左侧,您会看到一个“新聊天”按钮,您可以随时单击该按钮开始新对话。 这很有用,因为 ChatGPT 模型会记住之前在对话中讨论过的内容,并会根据上下文做出回应,因此开始新的聊天将毫无偏见地清除新的对话。
- Chat history:左侧边栏还可以让您访问之前的所有对话,以防您需要返回到某个对话,不过可以选择关闭聊天记录。
- Upgrade to Plus:ChatGPT Plus 是一项付费订阅,让会员可以访问 GPT-4 模型,这是一种来自 OpenAI 的更快、更大的语言模型。 您可以选择升级到 Plus 或继续使用免费版本。
- Account:单击屏幕左下角的电子邮件地址或姓名,您将可以访问您的帐户信息,包括设置、注销选项以及来自 OpenAI 的帮助和常见问题解答。
- Your prompts:你给 AI 聊天机器人的问题或提示会出现在这里。
- ChatGPT's responses::每当 ChatGPT 回复您的查询时,徽标将出现在左侧。
- Copy, Thumbs up, Thumbs down:每次 ChatGPT 回复时,您都可以将文本复制到剪贴板以粘贴到其他地方,并提供有关回复是否准确的反馈,此过程有助于微调 AI 工具
- Regenerate response:如果您在聊天中遇到问题或没有得到满意的答案,您可以单击重新生成响应以提示 ChatGPT 使用最新答案重试。
- Text area:这是您输入提示和问题的地方,只需按回车键即可发送。
- ChatGPT version:OpenAI 在文本输入区域下方包含了一些细则,您可以在其中阅读免责声明,指出这是“免费研究预览。ChatGPT 可能会产生有关人物、地点或事实的不准确信息”。 还有您当前使用的 ChatGPT 模型* 的版本。
InstructGPT怎么准备和标记数据集
https://harryliu.blog.csdn.net/article/details/130457237