前言:前一段时间GPT-4刚出来,正巧刷一个知乎老哥的帖子的时候看到了一段话:
我一看,好啊,正好在找科研的机会,这不可能是个机会(虽然本人集成电路专业),于是去询问了相关老师学校有没有能力在这上面搞研究,老师说有能力的,让我三天后联系他,于是,一个NLP(自然语言处理)小白开始了他三天的学习,也就有了这篇文章。
注:本文章暂时只是一个学习资源的汇总和摘要,并且主要偏向RLHF训练,之后有空的话会进行深入的学习,毕竟自然语言处理这一块会是将来的大趋势。文章里标红色的资料都是很优质的资料,个人认为很适合入门的同学看。
本人刚入门,技术细节都还没学,大佬轻喷。
以下正文
GPT学习笔记
需要学习的内容
- chatgpt底层逻辑,基本算法
- RLHF训练原理
- RLHF训练中的RBRMS算法原理
- RBRMS算法,论文可以写什么内容(需要相关论文)
- 硬件软件结合:用于ai的芯片对gpt开发有什么帮助?(需要相关论文)
资料
- chatgpt工作基本原理:
- 一文读懂ChatGPT模型原理http://t.csdn.cn/vS8el(易理解,推荐阅读)
- ChatGPT 的工作原理:机器人背后的模型http://t.csdn.cn/cbc77
- 万字科普ChatGPT-4为何会颠覆人类社会(墙裂推荐的视频,建议从没接触过的同学看这个视频)渐构 Modevol
- RLHF训练原理
- 抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文http://t.csdn.cn/P6YKq(易理解,推荐阅读)
- ChatGPT技术原理解析:从RL之PPO算法, RLHF到GPT4, instructGPThttp://t.csdn.cn/DUQas(涉及数学原理较多,介绍了几乎所有gpt用到的技术,含大量文献,适合深入学习GPT)
- RLHF训练中的RBRMS算法原理
- 该算法只在OpenAI最新报告中提出过:GPT-4 Technical Report(qq群)
- 该算法相关论文:
- Improving alignment of dialogue agents via targeted human judgements(qq群)
- Red Teaming Language Models with Language Models(qq群)
RLHF的缺陷和优化方向
RLHF 的下一步是什么? 虽然ChatGPT为代表的RLHF技术非常有影响力,引发了巨大的关注,但仍然存在若干局限性:
- RLHF 范式训练出来的这些模型虽然效果更好,但仍然可能输出有害或事实上不准确的文本。这种不完美则是 RLHF 的长期挑战和优化目标。
- 在基于 RLHF 范式训练模型时,人工标注的成本是非常高昂的,而 RLHF 性能最终仅能达到标注人员的知识水平。此外,这里的人工标注主要是为RM模型标注输出文本的排序结果,而若想要用人工去撰写答案的方式来训练模型,那成本更是不可想象的。
- RLHF的流程还有很多值得改进的地方,其中,改进 RL 优化器显得尤为重要。PPO 是一种基于信赖域优化的相对较旧的RL算法,但没有其他更好的算法来优化 RLHF 了
上面的图片是一些文献资料,都可以在https://arxiv.org/上搜到,基本每篇文章CSDN上面有大佬翻译分析。
后续:老师后来说学校基本无法做到去做一个类似GPT3或4的项目😂,不过说如果对NPL感兴趣,可以之后再合作,他们好像有一个东大的团队。额,怎么说呢,应该还是搞砸了,跟老师交流的时候紧张了,想说的反而没有表达出来,而且三天时间想学的深入也不现实,内容是真的多!就当是多认识个老师吧。之后有时间GPT肯定会继续学习的,有啥心得或者资源再发吧。
这是笔者写的第一篇文章,如果喜欢的话就点个赞吧,谢啦