OpenAI发布了ChatGPT,这是一个基于其GPT-3.5语言模型(LM)的对话式人工智能模型。ChatGPT使用来自人类反馈的强化学习(RLHF)进行微调,并包括一个审核过滤器来阻止不适当的互动。
该版本是在OpenAI博客上宣布的。ChatGPT的训练方法与用于训练OpenAI的指令跟随语言模型InstructGPT的方法相同,即RLHF。RHLF使用两个数据集:一个是人类写的例子,用于GPT-3.5 LM的监督微调;另一个是人类标记的LM输出比较,用于训练强化学习的奖励模型。OpenAI发布了ChatGPT,以获得用户的反馈并探索其局限性。
今天ChatGPT的研究发布是OpenAI迭代部署越来越安全和有用的AI系统的最新步骤。从GPT-3和Codex等早期模型的部署中获得的许多经验教训为这个版本的安全缓解措施提供了参考,包括通过使用来自人类反馈的强化学习,大幅减少有害和不真实的输出…我们知道仍有许多限制…我们计划定期进行模型更新,在这些方面作出改进。但我们也希望,通过为ChatGPT提供一个可访问的界面,我们将获得关于我们尚未意识到的问题的宝贵用户反馈。
GPT-3.5是OpenAI的GPT系列大型语言模型的最新产品。今年早些时候,OpenAI发表了一篇关于InstructGPT的技术论文,它试图通过将LM的输出与用户的意图 "对齐 "来减少其毒性和幻觉。首先,LM的基线 "政策 "在一组提示LM的数据集上进行了微调,同时还有人写的期望反应。接下来,从LM生成的对提示的反应数据集中训练奖励模型,这些反应由人类标签人员进行排序。最后,通过使用奖励模型的近端政策优化(PPO)进一步微调基线政策。
图1.ChatGPT训练过程
使用这种技术,OpenAI将GPT-3的幻觉率从41%提高到21%。InstructGPT也产生了 “在提示尊重的情况下,比GPT-3少了大约25%的有毒输出”。ChatGPT使用同样的一般方法进行训练,但在第一步,人类通过编造自己和一个假想的聊天机器人之间的对话来生成一个数据集。OpenAI的研究人员发现,这在他们的训练数据中产生了偏差(“看起来更全面的较长答案”),这导致该模型有时会产生冗长的回应。
科技界一直在积极尝试使用该模型。在Hacker News关于ChatGPT的讨论中,一些用户指出,该模型的回答比GPT-3的回答 "沉闷 "和 “更有过滤性”。一位用户回答说。
我理解为什么人们对这上面的 "安全保险杠 "感到有些沮丧。但我想说的是,我实际上对这些安全控制的质量印象非常深刻。这是一个人工智能,似乎知道它可以和不可以给一个体面的反应。我不知道这是否是硬编码或训练出来的,但当你把它与GPT3中通常出现的幻觉相比较时,这真的令人印象深刻。
在Twitter上,语言学家和NLP教育家Rachael Tatman想知道OpenAI是否发表了关于ChatGPT的技术论文。AI企业家Will Spagnoli回答说。
他们在发布第一个[InstructGPT]模型时发表了一篇论文,解释了他们是如何做到的,而新的ChatGPT和text-davinci-003只是同一事物的最新版本,只是现在他们有了更多来自人类反馈的标签数据,导致了性能的提升。
OpenAI没有发布ChatGPT的代码或模型,但在网上有免费的演示。