《ChatGPT是怎样炼成的》


ChatGPT 在全世界范围内风靡一时,我现在每天都会使用 ChatGPT 帮我回答几个问题,甚至有的时候在一天内我和它对话的时间比和正常人类对话还要多,因为它确实“法力无边,功能强大”。

ChatGPT 可以帮助我解读程序,做翻译,提供思路等等。

所以我就很好奇 ChatGPT 是怎么训练得到的,怀揣着好奇心,我带着大家一探究竟。

当然,ChatGPT 的论文还没有正式发布,想要完美解读它现在是不可能的,不过我们知道 ChatGPT 和 Open AI 的另一项工作 InstructGPT 息息相关。

这是 ChatGPT 官网上面的模型训练过程。

这是 InstructGPT 论文中的模型训练过程。

对比这两张图片,不能说一模一样,只能说完全一致。

所以我们就按照 InstructGPT 的论文讲一讲 ChatGPT 吧。

1. 学习文字接龙🐉

GPT (Generative Pre-trained Transformer) 模型就是在海量的文本数据上学习文字接龙,通过训练掌握基于前文内容生成后续文本的能力。这样的训练不需要人类标注数据(自监督学习),只需要给一段话的上文同时把下文遮住,将 GPT 模型的回答与语料中下文的内容做对比,进行优化。

在这里插入图片描述

如上图所示,我们输入“我爱”让 GPT 做文字接龙,绿色柱子的高低理解为输出概率的大小,GPT 的输出最有可能是“你”,当然也可能是“吃”或“玩”。

GPT 的输出通常是通过概率采样得到的。在生成文本时,模型根据前面的文本内容和当前的上下文,计算每个可能的输出单词的概率分布。然后,模型会根据这个概率分布对下一个单词进行采样,得到最终的输出单词。在采样的过程中,模型通常使用一种称为 “softmax” 的函数来转换概率分布,从而确保所有可能的输出单词的概率总和为1。

由于采样的过程是基于随机性的,因此即使提供相同的输入和上下文,模型生成的文本输出也可能会有所不同。使用概率采样可以产生更有趣、更有意思的文本输出。这就可以解释为什么 ChatGPT 对于相同的问题往往会有不一样的答案,当然,概率采样也可能会导致一些质量较低的输出,例如语法错误、重复和不相关的单词。

2. 人类老师的引导👮

只是让 GPT 自己做自监督的文字接龙是有局限性的,因为机器是没有感情的,因为 GPT 不知道什么样的答案是有效的,所以需要人类力量的介入,引导 GPT 生成有用的答案。

  1. 首先,我们从问题数据集(prompt dataset)中挑出一些问题。
  2. 让真正的人类(labeler)给出这些问题的正确答案。
  3. 这样就形成了有标签的数据集,这些数据用于微调 GPT-3.5,这个过程也称作 supervised fine-tuning (SFT)

3. 模仿人类老师的喜好📊

可是人类的力量也是有限的,我们不可能让人类老师给出所有问题的答案,但是我们可以给 GPT 生成的答案进行评分,这就相对轻松很多了。

  1. 比如,我们让刚刚训练好的 SFT 模型回答相同的问题四次,这样就产生了四个不同的答案 A、B、C、D 。
  2. 然后人工对这些答案进行评分或者说是评级(rank),比如 D > C > A = B 。
  3. 这样就又形成了一部分数据来训练 reward model(RM),从而训练出一个符合人类评价标准的 Reward 模型。
  4. 这样下次 GPT 生成答案就不需要人工评分了,直接把答案放到 Reward 模型中去就可以自动判断答案的好坏了。
  5. 如下图所示,对于相同问题的不同答案,Reward Model 学习到了在合理的答案上面打“高分”,在不合理的答案上打“低分”。

4. 强化学习💪

根据 Reward Model 的打分结果,继续优化 SFT 模型。

使用强化学习的技术调整 GPT 模型参数,使 GPT 生成的答案通过 Reward Model 可以得到最高的 Reward,重复这个过程,ChatGPT 就训练出来了。

5. RLHF👏

所以 ChatGPT 是一种通过 RLHF 训练得到的语言模型,Reinforcement Learning from Human Feedback (RLHF) 是一种基于人类反馈的强化学习方法,它通过与人类交互来获得任务的奖励信号,从而实现任务的学习。

RLHF 通过与人类交互来获得任务的奖励信号(Reward),并通过基于梯度的强化学习算法来优化策略,实现任务的学习。与传统的强化学习方法相比,RLHF不需要为任务定义奖励函数,因此更具有实际应用的价值。

6. 使用ChatGPT做个总结🐹

  1. ChatGPT是一种基于神经网络的自然语言处理模型,它可以生成类似于人类语言的对话,并被广泛用于聊天机器人、智能客服等应用领域。该模型使用了预训练的方式进行训练,可以自动学习语言的规则和模式,从而能够生成自然流畅的对话。
  2. ChatGPT在社会中产生了广泛的影响。首先,它为人工智能在自然语言处理领域的应用开辟了新的道路。它可以帮助人们更加便捷地获取信息、解决问题、进行娱乐等,进一步提高了人们的生活质量。其次,它也推动了人工智能技术的发展和普及,为人工智能技术在更多领域的应用提供了借鉴和参考。
  3. 未来,ChatGPT在技术上还有很大的发展空间。一方面,可以通过增加模型的深度和复杂度,来提高模型的精度和泛化能力。另一方面,可以通过结合其他技术,如图像识别、情感分析等,进一步提升模型的功能和性能。此外,ChatGPT也可以与其他技术结合,如语音识别、自然语言生成等,来实现更加人性化的交互方式,为人们提供更加便捷的服务和体验。
  4. 总之,ChatGPT是一种重要的自然语言处理技术,对社会产生了广泛的影响,未来也有着广阔的发展前景。它为人们提供了更加便捷、高效、智能化的服务和体验,有望在不久的将来成为人们日常生活中必不可少的一部分。同时,ChatGPT的发展也将推动人工智能技术的发展,为人们带来更多的福利和发展机会。

7. 参考资料

李沐:InstructGPT 论文精读
李宏毅:GPT 社會化的過程

8. 李宏毅老师授权

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2561.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“ChatGPT之父”Sam Altman:我是如何成功的?

背靠微软,OpenAI能拳打谷歌,脚踢Meta,它背后的男人,必然不简单。 让我们来看一看,Sam Altman是如何一步步成长为今天这个搅动全世界的男人。 山姆奥特曼(Sam Altman) 成长和创业经历 在YC创始…

ChatGPT 何许人也

有时候会想,如果chatGPT是人,它会是一个怎样的人呢?下面是我的推测过程。 首先,她应该是女人 会推测而不会计算 你问它: 3457 * 43216 ,它回答 149261912 (这是错的。正确结果是 149397712&…

ChatGPT (可能)是怎么炼成的

学习自李宏毅老师的课https://www.youtube.com/watch?ve0aKI2GGZNg 1.学习文字接龙 学习方式 GPT只需要在网上阅读大量的句子,不需要人工标注即可学习到大量句子接龙的知识 然而实际上,“你好”后面可以接的字有很多。实际上,GPT学的就是…

ChatGPT之父Sam Altman28岁从YC创始人保罗·格雷厄姆手中继任总裁,37岁震惊全球

“如果把Sam Altman扔到某个食人族之岛,5年后他会成为这个食人族岛的国王。“在硅谷创业教父Paul Graham眼里,Sam Altman是一位极具魄力的领导者和开拓者。如今,已成为OpenAI CEO的Sam Altman是全球范围内当之无愧的科技领军人物。 来源 &…

ChatGPT 创始人和他疯狂的 Worldcoin 实验

ChatGPT 的现象级爆火,让微软下定决心全力押注 OpenAI,而后者的估值也因此迅速晋升到 290 亿美元,成为了 AI 领域的超级独角兽。或许是感受到了竞争压力,科技巨头谷歌也于近日宣布向 ChatGPT 的竞品 Bard 投资 3亿美元&#xff0c…

ChatGPT 之父传奇:8岁学编程,16岁出柜,37岁颠覆科技圈,网友:“天选 CEO!”...

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 近日,“ChatGPT 月活破亿”冲上热搜!根据 Sensor Tower 数据,TikTok 在全球推出后用约 9 个月时间达到 1 亿用户,Instagram 花费了 30 个…

实现ChatGPT的文字输出效果

原文发表于zhus Blog 阿猪是计算机业余爱好者,把网页做得美观高大上对阿猪是一种折磨和挑战,所以阿猪做出来的网页都是清一色的word文档风格。为了给low逼的网页提升点儿逼格,阿猪决定模仿一下ChatGPT的文字输出效果。 先上效果图&#xff1a…

ChatGPT Plus 首批70个插件最全解读(字数8000+)

OpenAI放出大招,向所有ChatGPT Plus用户开放联网功能和众多插件,允许ChatGPT访问互联网并使用70个第三方插件。 本批第三方插件能够全方位覆盖衣食住行、社交、工作以及学习等日常所需,基本上能够扮演24小时私人助理的角色。 昨天和你分享了C…

ChatGPT介绍世界杯历史与编写足球游戏python程序

ChatGPT聊天机器人最近非常流行,是由OpenAI于本月发布的。花了一点时间注册了一个账号,如有需要帮助注册的可以随时与我交流。注册过程相对有一些复杂。 除了常规的聊天对话功能之外,ChatGPT聊天机器具备强大的文本生成能力,例如博…

ChatGPT搞钱案例,免费直播

今晚20:00,先行者分享ChatGPT副业案例,文末免费预约直播。 最近,一个程序员用ChatGPT搞副业,变现50万的事儿,震惊了朋友圈! 原来,有个程序员网友兼职卖源代码的,搞了一套人工智能问答…

ChatGPT专题|反ChatGPT,火了!

转自上海证券报 “矛”和“盾”的关系总是相伴相生。 图片源自网络 近期,随着人工智能ChatGPT的热浪席卷各行各业,对于人工智能担忧与警惕的声音随之而来,“反ChatGPT”开始成为一股新的势力。 从资本市场上来看,经历了近两周对Ch…

如何用ChatGPT协助做内容分发?(文本变成直播/音频/视频脚本)

该场景对应的关键词库(14个): 直播博主、直播达人、音频主持人、产品特点、品牌故事、品牌活动、品牌logo、视频主角、画外音解说员、编剧身份、品牌内容分发方向、时长、脚本类型、产品 提问模板: 1、你是一名优秀的美妆达人&am…

快来和网红 ChatGPT 聊天!!

大家好,这里是NewBeeNLP。 最近 ChatGPT又达到了一波出圈热潮,周末我们也把ChatGPT接入了微信(在文末),方便给无法fq的朋友们玩玩。比如 关于 ChatGPT 的理论知识网上讲解的很多,更多的是各种yhx 借此开始传…

ChatGPT直播课听不够?微软ATP教你系统化入门人工智能

爆火的ChatGPT直播课听不过瘾? 系统化AI知识在哪学? 国际TOP科技公司AI算法工程师团队 来为你支招! ▍微软AI算法专家助力系统化学习人工智能 「微软ATP」Microsoft AI Talent Program是微软(亚洲)互联网工程院下属的提…

ChatGPT专业应用:生成直播开播话术

正文共 1053 字,阅读大约需要 7 分钟 直播运营等必备技巧,您将在7分钟后获得以下超能力: 生成直播开播话术 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自身技能。 推荐人 | Kim …

ChatGPT专业应用:生成直播追单话术

正文共 931 字,阅读大约需要 4 分钟 直播运营等必备技巧,您将在4分钟后获得以下超能力: 生成直播追单话术 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自身技能。 推荐人 | Kim 编…

准备选型直播SDK产品,ChatGPT竟然这么说...

摘要 近两年即时通讯/直播产品炙手可热,市场上针对ToB的产品日益增多,企业该如何去选型呢?本文分享了笔者对于直播产品的思考,将从直播SDK实例功能特性、常见业务场景、注意事项及最佳实践等方面介绍如何进行实例选型,…

我用ChatGPT做直播技术选型,卷死了同事

摘要 近两年即时通讯/直播产品炙手可热,市场上针对ToB的产品日益增多,企业该如何去选型呢?本文分享了笔者对于直播产品的思考,将从直播SDK实例功能特性、常见业务场景、注意事项及最佳实践等方面介绍如何进行实例选型,…

客服都要下岗了? 当ChatGPT遇见私有数据,秒变AI智能客服!

用ChatGPT搭建基于私有数据的WorkPlus AI客服机器人这个想法,源于WorkPlus售前工作需求。在ChatGPT之前,其实对话式AI一直在被广泛使用在客服场景,只不过不大智能而已。比如你应该看到不少电商客服产品,就有类似的功能&#xff0c…

ChatGPT与智能客服|小智AI

ChatGPT丨小智ai丨chatgpt丨人工智能丨OpenAI丨聊天机器人丨AI语音助手丨GPT-3.5丨OpenAI ChatGPT|GPT-4|GPT-3|人机对话|ChatGPT应用|小智ai|小智ai|小智ai|小智ai|小智AI|chatgpt小智AI 随着人工智能的迅猛发展,ChatGPT和智能客服正逐渐改变着人机交互的方式。本文…