参考
李宏毅老师讲解
思维导图
ChatGPT
对标
instruct GPT
本质
GPT的社会化
训练过程
1 学习文字接龙
-
无监督学习
-
大量的自我学习
-
生成的答案具有随机性
- 自己修炼
-
-
2 人类老师引导文字接龙的方向
-
监督学习
-
标注:(问题提示,答案)对,引导gpt生成人类想要的我问题
- 老师答案引导
-
3 模仿人类老师的喜好
-
知识蒸馏,对抗学习,监督学习
-
通过实际使用,对回答的答案进行人工高低评分
-
(根据问题+答案,评分)对训练老师评分模型
- 老师评分引导
-
-
4 用增强式学习向模拟老师学习
-
强化学习
-
(gpt的问题,gpt的答案)对,喂入给老师模型评判,根据奖励机制不断的训练gpt模型
- 模型自己引导
-
本质
- 模型自我学习以及模型的对抗评判,后期脱离人类的参与,引入人类的干预后,后期逐渐的减少人类的干预
缺点
简单的问题,容易出错
- 原因:训练阶段人类标注的问题往往是正常的,并且有些难度的标注