台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程
- ChatGPT官方Blog:
- ChatGPT未公布论文——根据兄弟模型InstructGPT论文进行猜想:
- (1)Chat GPT的學習四階段
- 1.學習文字接龍
- 2.人類老師引導文字接龍的方向
- 3.模仿人類老師的喜好
- 4.用增強式學習向模擬老師學習
- (2)ChatGPT仍不是完美的,不足
- ChatGPT总结:GPT 社會化的過程
- 台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程报告链接:
https://www.youtube.com/watch?v=e0aKI2GGZNg - 体验ChatGPT的Link:http://chat.openai.com/chat
- ChatGPT官方Blog:http://openai.com/blog/chatgpt/
补充:
- 本次报告PPT:ChatGPT (v6).pptx https://docs.google.com/presentation/d/1vDT11ec_nY6P0o–NHq9col5XEE4tHBw/edit#slide=id.p21
- Instruct GPT 論文連結: https://arxiv.org/abs/2203.02155
- GPT-3 介紹 – 來自獵人暗黑大陸的模型: https://youtu.be/DOG1L9lvsDY
- INSIDE 以本影片為基礎撰寫的文章:https://www.inside.com.tw/article/30032-chatgpt-possible-4-steps-training
ChatGPT官方Blog:
- ChatGPT官方Blog:http://openai.com/blog/chatgpt/
- OpenAI在2022年11月30日发布:ChatGPT: Optimizing
Language Models for Dialogue.
(We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to
InstructGPT, which is trained to follow aninstruction in a prompt and provide adetailed response.
我们训练了一个名为ChatGPT的模型,它以对话的方式进行交互。对话格式使ChatGPT能够回答后续问题,承认错误,挑战不正确的前提,并拒绝不适当的任务。ChatGPT是InstructGPT的兄弟模型,ChatGPT经过训练可以按照提示执行指令,并提供详细的响应。)ChatGPT可以回答问题(喜欢标号123)、写代码、翻译、帮助改正语法错误
训练步骤:
- 收集演示数据并训练一个受监督的策略。(从prompt数据集中抽取prompt。标签器展示了期望的输出行为。这些数据用于使用监督学习微调gpt-3.5。 )
- 收集比较数据并训练一个reward奖励模型。(一个prompt和几个模型输出被采样。标签器将输出从最好到最差进行排序。这些数据被用来训练我们的奖励模型。)
- 使用PPO强化学习算法针对奖励模型优化策略。(从数据集中采样一个新的prompt。PPO模型由有监督策略初始化。策略生成一个输出。奖励模型为输出计算奖励。奖励用于使用PPO更新策略。 )
ChatGPT未公布论文——根据兄弟模型InstructGPT论文进行猜想:
- InstructGPT:《Training language models to follow instructions with human feedback》:https://arxiv.org/abs/2203.02155
- GPT = Generative Pre-trained Transformer
(1)Chat GPT的學習四階段
1.學習文字接龍
GPT输出每一次都是不一样的,有随机性的。
缺点:每次输出都不同,导致后续接的话不符合我们的想法。
如何引導GPT產生有用的輸出呢?
2.人類老師引導文字接龍的方向
让GPT以後多看這些有益的文句,知道人类思考方向,减少阅读学习網路上的。
GPT不需要窮盡所有的問题·我們只是要告訴GPT人類的偏好,每种类型提供几个范例就足够。
3.模仿人類老師的喜好
公布ChatGPT的API,很多人去使用,可以收集这些问题,让ChatGPT产生问题答案,雇佣人类标注哪些答案好/差,人类老师只需要评价哪个比哪个好。
训练Teacher Model,需要输出分数,目的是:模仿老师评分标准。
4.用增強式學習向模擬老師學習
增強式學習:調整參數·得到最大的Reward,目的:希望GPT输出在Teacher Model中给予高分
(2)ChatGPT仍不是完美的,不足
简单的问题+没用的话。