小白的GPT学习笔记

前言:前一段时间GPT-4刚出来,正巧刷一个知乎老哥的帖子的时候看到了一段话:

我一看,好啊,正好在找科研的机会,这不可能是个机会(虽然本人集成电路专业),于是去询问了相关老师学校有没有能力在这上面搞研究,老师说有能力的,让我三天后联系他,于是,一个NLP(自然语言处理)小白开始了他三天的学习,也就有了这篇文章。

注:本文章暂时只是一个学习资源的汇总和摘要,并且主要偏向RLHF训练,之后有空的话会进行深入的学习,毕竟自然语言处理这一块会是将来的大趋势。文章里标红色的资料都是很优质的资料,个人认为很适合入门的同学看。

本人刚入门,技术细节都还没学,大佬轻喷。


以下正文

GPT学习笔记

需要学习的内容

  1. chatgpt底层逻辑,基本算法
  2. RLHF训练原理
  3. RLHF训练中的RBRMS算法原理
  4. RBRMS算法,论文可以写什么内容(需要相关论文)
  5. 硬件软件结合:用于ai的芯片对gpt开发有什么帮助?(需要相关论文)

资料

  1. chatgpt工作基本原理:
    1. 一文读懂ChatGPT模型原理http://t.csdn.cn/vS8el(易理解,推荐阅读)
    2. ChatGPT 的工作原理:机器人背后的模型http://t.csdn.cn/cbc77
    3. 万字科普ChatGPT-4为何会颠覆人类社会(墙裂推荐的视频,建议从没接触过的同学看这个视频)渐构 Modevol
  2. RLHF训练原理
    1. 抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文http://t.csdn.cn/P6YKq(易理解,推荐阅读)
    2. ChatGPT技术原理解析:从RL之PPO算法, RLHF到GPT4, instructGPThttp://t.csdn.cn/DUQas(涉及数学原理较多,介绍了几乎所有gpt用到的技术,含大量文献,适合深入学习GPT)
  3. RLHF训练中的RBRMS算法原理
    1. 该算法只在OpenAI最新报告中提出过:GPT-4 Technical Report(qq群)
    2. 该算法相关论文:
      1. Improving alignment of dialogue agents via targeted human judgements(qq群)
      2. Red Teaming Language Models with Language Models(qq群)

RLHF的缺陷和优化方向

RLHF 的下一步是什么? 虽然ChatGPT为代表的RLHF技术非常有影响力,引发了巨大的关注,但仍然存在若干局限性:

  1. RLHF 范式训练出来的这些模型虽然效果更好,但仍然可能输出有害或事实上不准确的文本。这种不完美则是 RLHF 的长期挑战和优化目标。
  2. 在基于 RLHF 范式训练模型时,人工标注的成本是非常高昂的,而 RLHF 性能最终仅能达到标注人员的知识水平。此外,这里的人工标注主要是为RM模型标注输出文本的排序结果,而若想要用人工去撰写答案的方式来训练模型,那成本更是不可想象的。
  3. RLHF的流程还有很多值得改进的地方,其中,改进 RL 优化器显得尤为重要。PPO 是一种基于信赖域优化的相对较旧的RL算法,但没有其他更好的算法来优化 RLHF 了

 上面的图片是一些文献资料,都可以在https://arxiv.org/上搜到,基本每篇文章CSDN上面有大佬翻译分析。

后续:老师后来说学校基本无法做到去做一个类似GPT3或4的项目😂,不过说如果对NPL感兴趣,可以之后再合作,他们好像有一个东大的团队。额,怎么说呢,应该还是搞砸了,跟老师交流的时候紧张了,想说的反而没有表达出来,而且三天时间想学的深入也不现实,内容是真的多!就当是多认识个老师吧。之后有时间GPT肯定会继续学习的,有啥心得或者资源再发吧。

这是笔者写的第一篇文章,如果喜欢的话就点个赞吧,谢啦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39964.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

脱口秀不 “止” 北上广

在中国,你知道多少脱口秀演员? 很多人可能第一反应,都是“脱口秀大会”中的演员,这个自2017 年开播,至今已播出四季的网综,贡献了无数让人印象深刻的脱口秀演员,从第一季的庞博到第四季的徐致胜…

【AI能否取代设计师】「Stable Diffusion」AI绘画黑科技将告诉你答案

上一篇文章:【AI绘画】我以Midjourney为主学习AI绘画效果咋样?_山楂山楂丸的博客-CSDN博客 目录 前言 一、「Stable Diffusion」 是什么 二、「Stable Diffusion」上手演练 三、竟然还有ChatGPT? 四、「Stable Diffusion」作品展示 五、…

别胡琢磨了,ChatGPT说它不会取代规划师的

导读 昨天的推文《热点 | ChatGPT会抢规划师的饭碗吗?这些职位可能被取代》推出后,收到了读者朋友的建议,说太标题党、文不对题。我们认真反思、痛定思痛,今天认真地和ChatGPT聊了聊,不仅问了它会不会取代规划师&#…

Linux 配置git同步GitHub代码

将ssh key加入GitHub: https://www.cnblogs.com/Fight-go/p/15851321.html 与chatgpt聊,发现: 我本来有一个在Windows下的文件夹,他已经与GitHub仓库同步了;我把整个文件夹复制到Linux里,使用git status查…

电脑入米家,让小爱同学随意操控电脑开关机(需主机或软路由)

电脑入米家,让小爱同学随意操控电脑开关机 前言一、效果展示二、环境准备三、巴法平台获取密钥及添加设备;1.注册巴法平台账号2.获取密钥3.添加设备 四、目标电脑设置(网络唤醒免密SSH)1.网络唤醒设置2.SSH免密登录2.获取Windows1…

小爱同学语音API(不需要小米账号)

先看下运行效果 1找一个免费的API接口 输入你好,返回参数如下 参数分析: txt为返回文字 tts为返回文字的语音网址 2返回文字部分 import requests urkhttps://xiaoapi.cn/API/lt_xiaoai.php?typejson&msg s input("我:") #你提出的问…

微信iOS新版支持手机、iPad、电脑同时在线

本文转载自IT之家 [7 月 14 日 22:40 更新] 据大量网友反馈,目前尚无法实现手机、iPad、电脑同时在线。相关功能应当仍在小范围灰度测试。 截至 7 月 14 日 22:40,IT之家仍可通过微信 iOS 8.0.8 正式版实现 iPhone、iPad、Windows 电脑同时在线&#x…

iOS Facebook第三方登录

由于当前项目需要有facebook和google的第三方登录,所以简单整理了一下相关流程,今天主要说一下facebook的第三方登录以及注意的地方。 总结 1.申请facebook账号 2.创建应用 3.获取应用编号 4.配置相关信息 5.xcode配置 6.代码集成 一、创建应用 …

一次10万token!Claude2重磅发布,性能直逼GPT-4,不要钱免费用!

大数据文摘出品 就在刚刚,ChatGPT最大竞争对手发布了Claude 2!升级后的模型,在编码、数学和推理方面的性能都有所提高。 同时,官网提到了Claude 2的取得的两个成绩,一个是在律师资格证考试,多项选择题中取得…

Timnit Gebru 谈到她被谷歌解雇、人工智能的危险和大型科技公司的偏见

“人工智能影响着全世界的人,但人们却无法对如何塑造它发表意见”—— Timnit Gebru。 ▲ 摄影:Winni Wintermeyer/卫报 “ 这感觉就像一场淘金热,” Timnit Gebru 说。“事实上,这就是一场淘金热。许多赚钱的人并非真正参与其中。…

马斯克欲告OpenAI欺诈/ 微软自研5纳米AI芯片/ Meta再裁4000人… 今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好,今天是4月19日星期三。 但是,今天怎么才星期三啊?!星期三,星期三,你是不是也不想上班?(捂嘴) 班想不想上不要紧&#…

恒洁卫浴品牌升级推出全新品牌主张;阿尔斯通将继续加深在华本土化发展 | 美通企业日报...

美通社要闻摘要: 恒洁卫浴品牌升级推出全新品牌主张。兰州格兰云天大酒店项目正式签约。软通动力接连中标大型企业集团财资领域项目。阿尔斯通将继续加深在华本土化发展。舍弗勒集团宣布收购总部位于法国的ECO-Adapt公司100%股权。亚马逊云科技将在马来西亚推出新区…

python gui构造openai api可视化页面

背景:最近chatgpt很火,前几天也想注册体验一下,一顿操作之后,卡在该国家不支持。最后发现自己的代理开在香港,改在漂亮国就行了。虽然有chatgpt可以用,但是小平是自己封装了一个,我不能输。正好…

CESS 与企业家们的见面:去中心化云存储如何助力企业进入 Web3?

2023 年 2 月 18 至 19 日,CESS 联合创始人兼 COO Jessie 在东盟区块链产业协会会长曹博士的邀请下,作为演讲嘉宾参与了马来西亚 Web3 Club 的闭门分享会。Web3 Club 作为当地 Web3 领域有名的会员制社区,吸引了各类企业家和创业者的加入。在…

clickhouse 中 ReplicasMaxAbsoluteDelay 的计算

小白上路,如有错误,还请指正,谢谢。 一、 问题背景 最近偶尔会收到延迟超时的告警,随后恢复 时间:2022.09.30-10:04:48 replication lag across all tables (ads_ch03:ch_params[ReplicasMaxAbsoluteDelay]): 52y 9m 15d 历史告警…

chatgpt赋能python:如何排除Python运行失败问题:常见错误和解决方法

如何排除Python运行失败问题:常见错误和解决方法 作为一个有10年Python编程经验的工程师,我深知Python编程不断发展,新库和语法变得越来越流行。然而,即使你是一个经验丰富的Python编程人员,最终难免会遇到一些问题&a…

调用ChatGpt openai官方node.js包Error: connect ETIMEDOUT问题

原因是调用的axios库不走系统代理,需要额外配置。 openai在文档中有说明增加axios配置的方法 只需请求时配置下proxy就ok了

GitHub Copilot 体验

LHS 475 b NASA’s Webb Confirms Its First Exoplanet | NASA 介绍 什么是GitHub Copilot GitHub Copilot是由GitHub和OpenAI公司共同开发的基于云的AI编程工具,目前支持Visual Studio Code、Visual Studio、Neovim和JetBrains集成开发环境集成开发环境(IDE)&…

Cerebral Cortex:静息态fMRI功能连接可以预测男女关系的相容性

即使在信息技术显著发展的情况下,基于自我报告的特征和偏好来预测异性恋个体最初的相容性也并不成功。为了克服自我报告测量和预测相容性的局限性,我们使用了来自静息状态功能磁共振成像(fMRI)数据的功能连接,这些数据携带丰富的个体特异性信…

被讨厌的勇气:目的论

目录 1. 弗洛伊德式的决定论2. 决定我们的不是过去的经历,而是赋予这些经历的意义。2.1. 场景:闭门不出的男子2.2. 场景:愤怒2.3. 场景:梦想小说家2.4. 生活方式 3. 要勇于改变 我们的生活方式3.1. 拒绝改变3.2. 千里之行&#xf…