ChatGPT进化的过程简介

ChatGPT进化的过程简介

news/2024/12/26 0:05:56/文章来源:https://blog.csdn.net/qq_16485855/article/details/130375867

Chat GPT可以做什么？

分点列条的回答问题

写代码或SQL

翻译

语法检查

ChatGPT官方还未公开论文，ChatGPT有一个“孪生兄弟”InstructGPT，InstructGPT有论文，可以根据InstructGPT论文推导ChatGPT的训练过程：

ChatGPT的训练过程

InstructGPT的训练过程

可以看到两者差距非常小，区别是两者使用的GPT版本不同。

所以看了InstructGPT论文应该就可以知道ChatGPT大致怎么被训练出来的了。

ChatGPT学习的四阶段

1 学习文字接龙

给GPT一个不完整的句子，GPT会想办法猜出这个句子接下来应该接哪字才是正确的。

怎么教一个模型做文字接龙?

文字接龙的学习是不需要人工标注的。

GPT要做的事情就是在网络上收集大量的文字，让GPT学文字接龙。

比如从网络上看到“跟人类对话”这句话，让GPT知道了“跟”后面跟“人”，“跟人”后面跟“类”，“跟人类”后面跟“对”。

“你好”这个不完整的句子后面可能接的词汇有很多，

GPT在学习做文字接龙的过程中，GPT真正输出的是一个几率分布。

比如输入“你好” ，后面跟“美”的几率，跟“高”的几率，跟“吗“的几率分别是多少。

接下来再从几率分布里随机抽取一个文字出来，几率比较高的字比较容易被抽取出来，几率比较低的字不太容易被抽取出来。

GPT的输出每一次都是不一样的。

让GPT补充一个不完整的句子，它每次补的结果都是随机性的。

每次补出来的结果都是不一样的，那学习文字接龙有什么用？

告诉GPT这是一个不完整的句子，接下来GPT想接哪个字呢？

第一个问题回答是“玉”，再将“玉”追加到第一个问题上作为新的问题再问GPT，回答“山”。

GPT的输出是随机的，GPT每次只会产生一个字。

把所有产生的结果一次输出来，这样就形成一道选择题。

但实际产生的时候，还是一个字一个字产生的。

或者回答“谁来告诉我答案呀”，因为你并没有让它回答问题，所以可能会有这个答案。

GPT看到网络上有谁说过什么句子，它都可以拿来接，所以GPT在实际的使用上并没有那么好用，那怎么引导GPT产生有用的输出？

这就进入下一个阶段，

2 由人类老师引导文字接龙的方向

需要找人类来思考想问GPT的问题，提出问题之后，还需要人工把答案标记出来，有了这些资料以后，再丢给GPT做进一步的学习。

之前GPT在网络上看到一些有用的或没用的内容，GPT它不能分辨，反正就是照单全收。

现在由人类提供想问GPT的问题并由人类提供标准的答案。

就让GPT多读一些我们觉着有意义的语料，真正帮人类做事的有用的内容，期待它可以变成人类真正的帮手。

那我们会不会穷举所有人类可能会问到的问题呢？答案是不用的。

虽然今天ChatGPT的论文还没有出，但是看instruct GPT你会发现并没有使用非常多人为标注的问题和答案，只有数万字而已。

那为什么不需要标注非常多的问题跟答案呢

因为这些答案本来GPT是就有能力产生的，只是它不知道哪些答案是人类希望它产生的。

GPT在网络上看到各式各样的内容，所以可能会产生各式各样奇怪的答案。

人类要做的事情只是激发它本来就有的力量，叫它讲出我们希望它讲的话，所以在第二阶段，可能每种类型的问题，提供几个范例可能就足够了。

3 模仿人类老师的喜好

openai线上公开GPT api，就会有很多人使用这个api，就会有很多人不断的去问，接下来把这些问题收集好，让GPT产生这些问题的答案，因为GPT的答案是有随机性的，所以同一个问题会产生不同的答案。

接下来就由人类去标注哪些答案是好的答案，哪些答案是差的答案，人类老师并不一定要提供完整的正确答案，只需要告诉机器说哪个答案是比较好的，哪个答案是比较差的。

有了这个信息以后，接下来就要训练一个模仿老师的模型Teacher model，

这个模型的作用是给GPT的问题和GPT输出的答案输出一个分数，这个模型学习的目标就是模仿人类老师评分的标准，如果人类的标注告诉GPT，“玉山”这个答案好于“谁来告诉我”这个答案，那Teacher model模型就可以模仿人类的偏好。

4 用增强式学习向模拟老师学习

用增强式学习（Reinforcement Learning）让GPT向模拟老师学习，

比如问这个问题，回答这个答案。

这虽然是一个正确的接法，但不是人类想要的。

那现在GPT有了一个老师的模型，那就把输入的问题和答案一起丢给老师模型，这个老师模型就会学了人类的偏好。

GPT在前面的学习中知道，如果答案是一个问句，则不是一个好的答案，应该要给予低分。

那Teacher model模型输出的就是增强式学习（Reinforcement Learning）的reward。

接下来用增强式学习的技术来调整GPT参数，调整的目标就是希望得到最高的reward，即希望GPT的输出结果会让Teacher model给予高分，也就是人类会觉的满意的答案。

透过Reinforcement Learning技术让GPT可能会学到：问“世界上最高的山是哪座？“，不会再随便接一个问句，而是输出“喜马拉雅山”。

即把问题和答案都丢给Teacher model模型，这个模型会评估出一个分数比较高的答案。

GPT经过增强式学习（Reinforcement Learning）之后，就是Chat GPT了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/6705.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Chatgpt频繁“something went wrong”需要刷新的解决办法

Chatgpt频繁“something went wrong”需要刷新的解决办法

问题描述： 使用Chatgpt问一两个问题或者过一段时间再提问就会出现下图： 需要频繁刷新，很影响体验。解决办法： 【2023.4.23更新】目前亲测可用的方法是在edge浏览器（火狐浏览器貌似也可以，chrome不可以…

阅读更多...

【视频文稿】车载Android应用开发与分析 - 走进车载操作系统

【视频文稿】车载Android应用开发与分析 - 走进车载操作系统

本期内容的视频地址：https://www.bilibili.com/video/BV1rR4y1B7Qd/ Hello，各位好，我是一个做车载软件开发的软件工程师，之前在CSDN、稀土掘金这些平台上发表过一些车载应用方面的文章，期间得到了许多朋友的反馈。2023…

阅读更多...

Midjourney|文心一格prompt教程[Text Prompt（下篇）]：游戏、实物、人物、风景、动漫、邮票、海报等生成，终极模板教学

Midjourney|文心一格prompt教程[Text Prompt（下篇）]：游戏、实物、人物、风景、动漫、邮票、海报等生成，终极模板教学

Midjourney|文心一格prompt教程[Text Prompt（下篇）]：游戏、实物、人物、风景、动漫、邮票、海报等生成，终极模板教学场景6：游戏 Prompt 真的越长越好吗？ 按照 Midjourney 的官方文档里的说法&#xff0…

阅读更多...

OpenAI开源3D模型生成器；IBM将推出AIGC平台Watsonx；百度正在内测文心千帆大模型平台丨每日大事件...

OpenAI开源3D模型生成器；IBM将推出AIGC平台Watsonx；百度正在内测文心千帆大模型平台丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智改变商业企业动态 OpenAI开源3D模型生成器Shap-E 5月10日，OpenAI公开了其最新的开源模型Shap-E，这款创新型3D模型生成器能将描述性的文本转化为相应的3D模型。用户只需提供描述性的文本，就能生…

阅读更多...

美团收购光年之外公司全部业务；工联院对大模型知识问答能力进行评测；图森未来计划出售美国业务；小i机器人发布华藏大模型丨每日大事件...

美团收购光年之外公司全部业务；工联院对大模型知识问答能力进行评测；图森未来计划出售美国业务；小i机器人发布华藏大模型丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智改变商业企业动态美团收购王慧文光年之外公司全部业务 6月29日，美团发布公告称：于2023年6月29日（交易时段后）订立交易协议，收购光年之外的全部权益。总代价包括现金233…

阅读更多...

13岁青少年DAO创始人：Web3治好了我的“丧”

13岁青少年DAO创始人：Web3治好了我的“丧”

“我看大家都死气沉沉的，大家都站起来活动活动。” 4月，香港Web3嘉年华的一场沙龙，橙色针织帽给黑压压的现场带来一抹亮色，13岁的Carry Zheng戴着它登台，没有“大家好”的寒暄，直接向台下的成年人发出指令&…

阅读更多...

从数据到应用 Web3不再纸上谈兵

从数据到应用 Web3不再纸上谈兵

继宣布拨款5000万港元加速推动Web3生态圈发展后，香港再次明确对Web3产业创新的支持。近日，香港Web3协会正式成立，创立Web3Hub基金，“东方之珠”正在大力推进第三代互联网的生态建设。不仅仅是政策红利，ChatGPT等人工…

阅读更多...

雷军谈人生低谷，刘强东“卸任”后“整顿”京东，AI 引领技术热潮 | 2022 科技圈那些事...

雷军谈人生低谷，刘强东“卸任”后“整顿”京东，AI 引领技术热潮 | 2022 科技圈那些事...

整理 | 朱珂欣出品 | CSDN程序人生（ID：coder_life） 2023 年的钟声已经敲响，回顾 2022 年，新兴技术在蓬勃发展，热点趋势不断出现，在潜移默化中给我们工作、学习和生活带来了许多的变化。这一…

阅读更多...

一周 AIGC 丨全球最大 AIGC 收购案诞生，中国大模型独角兽折戟

一周 AIGC 丨全球最大 AIGC 收购案诞生，中国大模型独角兽折戟

同样是在 AIGC 赛道，MosaicML 被 Databricks 以 13 亿美元收购，相比上轮估值翻了 5 倍，创造迄今全球最大的生成式 AI 收购案。而在中国，最耀眼的大模型独角兽光年之外，被以 2.85 亿美元送给了美团，相比两个…

阅读更多...

从关键新闻和最新技术看AI行业发展（2023.5.22-6.22第一期） |【WeThinkIn老实人报】

从关键新闻和最新技术看AI行业发展（2023.5.22-6.22第一期） |【WeThinkIn老实人报】

Rocky Ding WeThinkIn 写在前面【WeThinkIn老实人报】是WeThinkIn的全新栏目，旨在整理&挖掘AI行业的关键新闻和最新技术，同时Rocky会对这些关键信息进行解读，力求让读者们能从容跟随AI科技潮流。也欢迎大家提出宝贵的优化建议&#xff0…

阅读更多...

中国芯发展新模式：在高质量、高增长内需中发现机会并建立创新生态

中国芯发展新模式：在高质量、高增长内需中发现机会并建立创新生态

北京华兴万邦管理咨询有限公司刘朝晖陈皓集成电路产业从诞生开始历来都是全球化和生态化的行业。全球化是为了摊销其高额的研发费用和制造成本，以及不低的市场营销（试错）支出；而生态化是因为芯片行业本身并不面向最终用户&…

阅读更多...

客观地说，应该看一看 Web3.0 了

客观地说，应该看一看 Web3.0 了

武术圈有名言：“八极加劈挂，神鬼都害怕”。要是 Web3.0AGI 的话，世界将会变成什么样子？ 数科星球原创作者丨苑晶编辑丨大兔 Web3.0 的价值开始受到重视，在最近，来自香港的好消息再次带火了这个领域的热度。…

阅读更多...

CSDN参加欧洲最大开源盛会KubeCon，与全球开发者共促开源生态发展

CSDN参加欧洲最大开源盛会KubeCon，与全球开发者共促开源生态发展

4月18-21日， CSDN与来自全球超 1 万名的工程师、开发者一起参加了在荷兰阿姆斯特丹召开的 KubeConCloudNatvieCon Europe 2023 大会。 KubeConCloudNatvieCon被誉为“欧洲最大开源的盛会”。CSDN第一时间跟进了Kubernetes、云原生技术的最新进展，并与全球…

阅读更多...

LLM论文周报｜来自谷歌、华为、斯坦福大学、香港大学等机构前沿论文研究

LLM论文周报｜来自谷歌、华为、斯坦福大学、香港大学等机构前沿论文研究

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复…

阅读更多...

雷军谈人生低谷，刘强东“卸任”后“整顿”京东，AI 引领技术热潮 | 2022 科技圈那些事

雷军谈人生低谷，刘强东“卸任”后“整顿”京东，AI 引领技术热潮 | 2022 科技圈那些事

整理 | 朱珂欣出品 | CSDN程序人生（ID：coder_life） 2023 年的钟声已经敲响，回顾 2022 年，新兴技术在蓬勃发展，热点趋势不断出现，在潜移默化中给我们工作、学习和生活带来了许多的变化。这…

阅读更多...

长虹电视将搭载AI大模型；我国新型城际市域智能列车在青岛问世；百度盲人导航眼镜专利获授权丨每日大事件...

长虹电视将搭载AI大模型；我国新型城际市域智能列车在青岛问世；百度盲人导航眼镜专利获授权丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智改变商业企业动态周杰伦与中国移动开启元宇宙合作：推出数智人“周同学” 中国移动动感地带与周杰伦合作20周年暨周同学元宇宙合作发布会于5月8日举行，在发布会上周杰伦与中国移动共同推出了数智人“周同学…

阅读更多...

ChatGPT4通道开放接入基于OPEN AI 平台你的任何APP 可一键接入AI 智能

ChatGPT4通道开放接入基于OPEN AI 平台你的任何APP 可一键接入AI 智能

你一定很好奇什么是 OPEN AI快速开发平台顾名思义，开放的OPEN AI平台。基于这个平台你的上层应用，如何 APP,小程序,H5,WEB, 公众号,任何一切终端都可以轻松接入，AI智能应用。开发初衷爆肝一周，我开源了ChatGPT 中文版接口&a…

阅读更多...

复旦发布类ChatGPT模型Moss；OpenAI回应ChatGPT不向中国用户开放；Linux 6.2 发布|极客头条...

复旦发布类ChatGPT模型Moss；OpenAI回应ChatGPT不向中国用户开放；Linux 6.2 发布|极客头条...

「极客头条」—— 技术人员的新闻圈！ CSDN 的读者朋友们早上好哇，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理 | 梦依丹出品 | CSDN（ID：CSDNnews） 一分钟速览新闻点&#…

阅读更多...

ChatGPT消灭全球3亿打工人！高盛重磅预测：25%岗位将被AI取代

ChatGPT消灭全球3亿打工人！高盛重磅预测：25%岗位将被AI取代

来源丨新智元点击进入—>3D视觉工坊学习交流群【导读】高盛又发报告称，全球3亿打工人恐被AI替代。从前，是给员工配电脑，现在，是给电脑配员工。上周，OpenAI刚发了一篇让打工人瑟瑟发抖的论文，预言80%美…

阅读更多...

奖项公布｜Sui Demo Day香港站获胜者名单新鲜出炉

奖项公布｜Sui Demo Day香港站获胜者名单新鲜出炉

由Sui基金会举办的Sui Builder House香港站于4月16日圆满收官，为期三天的活动吸引了来自全球各地的区块链专业人士和Sui生态项目/爱好者前来参加。 Sui Demo Day在Sui Builder House香港站的最后一天（4月16日）举办，旨在为Sui生态中…

阅读更多...

最新文章

推荐文章