刚刚阅读了一篇技术博客,怕忘记,在这里先mark一下对ChatGPT原理的粗浅理解。
首先,ChatGPT论文未公布,开发团队表示,其思想与InstructGPT有些类似,并在多轮对话方面进行了优化。所以文章中作者主要分析了InstructGPT的思想。(如下图所示)
第一步,使用“提问-回答”形式的标注数据对GPT-3进行微调。
第二步,训练一个Reward Model。该模型能够对第一步的模型针对同一句话给的不同输出,按照用户的喜好度,满意度进行排序。利用的数据是用户标注的排序数据。
第三步,利用Reward Model,对第一步的模型再次进行微调,使其输出符合人类预期。使用强化学习进行训练,但是此处有一个疑问,PPO基于的markov过程的假设,和多轮对话需要具有上下文的记忆,这个如何解决?需要后续的研究。
参考文章:全网唯一,不忽悠的ChatGPT