chatgpt的原理 第四部分

五、ChatGPT

终于说到了主角,能看到这里的,可以关注一下 JioNLP 公众号吗?我写的也够累的。

 

ChatGPT 模型上基本上和之前 GPT-3 都没有太大变化,主要变化的是训练策略变了,用上了强化学习。

 

强化学习

几年前,alpha GO 击败了柯洁,几乎可以说明,强化学习如果在适合的条件下,完全可以打败人类,逼近完美的极限。

 

强化学习非常像生物进化,模型在给定的环境中,不断地根据环境的惩罚和奖励(reward),拟合到一个最适应环境的状态。

 

NLP + 强化学习

强化学习之所以能比较容易地应用在围棋以及其它各种棋牌游戏里,原因就是对于 alpha Go 而言,环境就是围棋,围棋棋盘就是它的整个世界。模型就是不断根据棋盘的状态以及输赢状况调整策略,战胜了柯洁。

 

NLP 所依赖的环境,是整个现实世界,整个宇宙万物,都可以被语言描述,也就都需要针对模型输出的质量进行 reward 评价,它完全无法设计反馈惩罚和奖励函数。除非人们一点点地人工反馈。

哎,OpenAI 的 ChatGPT 就把这事给干了。

不是需要人工标反馈和奖励吗?那就撒钱,找40个外包,标起来!


这种带人工操作的 reward,被称之为 RLHF(Reinforcement Learning from Human Feedback)。


这里重点是第二步中,如何构建一个 reward 函数,在alpha go 里,这个reward 函数就是下完一盘围棋之后判断谁输谁赢,只需要一个程序函数即可完成。

而在ChatGPT里,具体就是让那40名外包人员不断地从模型的输出结果中筛选,判断哪些句子是好的,哪些是低质量的,这样就可以训练得到一个 reward 模型。

通过 reward 模型来评价模型的输出结果好坏。

讲真,这个 reward 模型,《黑客帝国》的母体 matrix 既视感有木有??!!


只要把预训练模型接一根管子在 reward 模型上,预训练模型就会开始像感知真实世界那样,感知reward。

reward母体模型
这个名字是我自己起的,因为这里的reward模型实在是完美契合了《黑客帝国》中所构建的世界。本文的封面也是《黑客帝国》。

与其说 ChatGPT 在拟合现实世界,不如说它是在对 reward 母体负责。而reward 母体也是由人工一点点标注完成的。母体并不直接拟合真实世界,它只对模型是否契合真实世界做真假判断。母体对真实世界的拟合,决定了我们看到的 ChatGPT 有多优质。

我们不再需要直接拟合所谓机器翻译的文本对,也不再去需要拟合判断新闻分类的数据对,而只需要去拟合那个reward母体。

由此,我们就可以得到这个把全世界都震碎的高音!

4610d1b91cd2421a87506ed9a7ae8300.png

今日学习寄语:

1、要么做第一个,要么做最好的一个。
2、信念和目标,必须永远洋溢在程序员内心。3、最累的时候,家人是你最好的归宿。
4、C程序员永远不会灭亡。他们只是cast成了void。
5、真正的程序员认为自己比用户更明白用户需要什么。
6、退一步海阔天空,这是一种应有的心境。
7、过去的代码都是未经测试的代码。
8、优秀的判断力来自经验,但经验来自于错误的判断。
9、测试是来表明bug的存在而不是不存在。
10、我们这个世界的一个问题是,蠢人信誓旦旦,智人满腹狐疑。
11、一个好汉三个帮,程序员同样如此。
12、看再多的书是学不全脚本的,要多实践。13、无私奉献不是天方夜谭,有时候,我们也可以做到。
14、世界上只有两句真理:1、人一定会死。2、程序一定有Bug。
15、UNIX很简单。但需要有一定天赋的人才能理解这种简单。
16、程序中蕴含着很多的道理,唯有大彻大悟者方能体会其中的奥妙。
17、编程中我们会遇到多少挫折?表放弃,沙漠尽头必是绿洲。
18、做技术一定要一颗恒心,这样才不会半途而废。
19、不要被对象、属性、方法等词汇所迷惑;最根本的是先了解最基础知识。
20、请把书上的例子亲手到电脑上实践,即使配套光盘中有源文件。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15121.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt 用来取名字

Object ,array 相对 string,int 来说是什么类型, 分别用英文名称来定义他们的类型类别

ChatTester:ChatGPT的单元测试生成能力评估与改进

点击蓝字 关注我们 人工编写高质量的单元测试用例费时费力。复旦大学CodeWisdom团队近期对ChatGPT的单元测试能力进行全面评估,并进一步提出基于ChatGPT的高质量单元测试生成框架ChatTester。更多细节参照论文Arxiv Preprint版本(https://arxiv.org/pdf/…

CentOS 7系统安装图形桌面+JDK+Mysql+IDEA+Firefox+中文输入法

安装图形桌面 参考文章:https://cloud.tencent.com/developer/article/2071185?from15425&areaSource102001.1&traceIdsCDmh4ZJuJ0liZI4fR5q5 下载图形界面 首先安装x window system yum groupinstall “X Window System” 查看图形界面软件名称是否对应…

网络疯传华为面试题:800公斤牛,过承重700公斤的桥,有答案了?

前不久,华为一道面试题流传于网络:一头牛重800千克,一座桥承重700千克,牛怎么过桥? *图:源自网络,如侵删 面对这种看似无聊却又考验思维能力和底层逻辑的面试题,你会怎么回答&…

Radiology第14期:ChatGPT提供乳腺癌预防和筛查建议

本期文献一共5篇,简要汇总如下: P1: Appropriateness of Breast Cancer Prevention and Screening Recommendations Provided by ChatGPT >>>> 概要 ChatGPT 对于常见的乳腺癌预防和筛查问题的回答是否合适。研究人员对 ChatGPT 的回答进行…

[计算机图形学]MVP变换(前瞻预习/复习回顾)

一、前言 本文章将着重讲解图形学中的MVP矩阵变换,更注重当前阶段的理解,而不是纵观全局,如果想纵观全局,网上有很多资料,也可以等我更新,不过在这里,我不会给大家一个宏观的概念,也…

ChatGPT在物流与运输行业的智能场景:智能调度和自动驾驶的前瞻应用

第一章:引言 随着人工智能技术的飞速发展,物流与运输行业正迎来一场革命。传统的调度和运输模式已经无法满足快速增长的物流需求和客户期望。在这一领域,ChatGPT作为一种先进的自然语言处理模型,具有巨大的潜力。本文将探讨ChatG…

AI开始抢饭碗了!美国500家企业用ChatGPT取代员工,节省5000万美元...

作者| Mr.K 编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 自从ChatGPT掀起热潮,不少人担心AI会抢人类饭碗。 然而,现实可能更残酷。 根据,国外就业服务平台Resume Builder调查统计,在1000多家受访美国企业中&…

提一个小bug,如果编辑文章时输入 {{ }},发布后就会显示为 {undefined{ }};

提一个小bug,如果编辑文章时输入 {{ }},发布后就会显示为 {undefined{ }1111 如果编辑文章时输入 如果编辑文章时输入 111 Betaflight BN880 GPS测试 第三电 【建议收藏】一个插件白嫖ChatGPT! 如果编辑文章时输入 如果编辑文章时输入 …

Midjourney笔记

Tips:登录midjourney的官网(Midjourney),在左上角的【Home】界面内,会显示往期所渲染的作品,可用于内容回溯。 关键词的语法顺序 主题:人、动物、人物、地点、物体等。媒介:照片、绘画、插图、…

PHP第6周函数上机练习:实战输出2022年日历(含直播视频)

直播回放 PHP第6周函数上机题(实战输出2022年日历) 题目答案 PHP动态网站开发-函数 一、单选 1、下列关键字中,用于函数返回的是(D )。 A、 continue B、 break C、 exit D、 return 2、若在函数内访问函数…

最近热聊的代码解释器,是个啥?

大家好,我是Yuan,今天给大家介绍ChatGPT最新发布的代码解释器(Code Interpreter)。 近日,OpenAI 在 Twitter 上宣布,所有 ChatGPT Plus 用户都将可以使用:代码解释器(Code Interpreter)。官网地址:https:/…

姗姗来迟的ChatGPT

让聊天变得更有趣 在这个信息爆炸的时代,人们越来越需要一种简单、快捷、有趣的交流方式。ChatGPT应运而生,它是一款基于人工智能技术的聊天机器人,可以与用户进行自然语言交互,提供各种有趣的聊天内容。 ChatGPT的核心技术是GPT&…

OpenAI ChatGPT余额查询又不行了?2023-7-21

前言 之前一篇文章,用于介绍如何免登录在线查询ChatGPT余额,今天开始朋友们反馈用最新的方式也不行了。坑了。。。 免登录在线查询OpenAI ChatGPT API key余额,https://blog.csdn.net/lonliecom/article/details/130564423 一、官方增加了限…

2023 ChatGPT 3.5+4.0 + DALL-E源码 附卡密充值安装教程

在这个全方位的ChatGPT 3.54.0 DALL-E版本源码及视频搭建教程中,您将掌握构建一个功能丰富的Web应用所需的一切。不仅可以实现ChatGPT 3.54.0和DALL-E的强大功能,还能支持代码编写、短文创作、电影剧本和卡密管理,还有用户列表、消息记录、支…

chatgpt赋能python:Python多种用途之一:充值

Python多种用途之一:充值 Python作为一种多用途的编程语言,被广泛地应用在了各个领域中,包括互联网的充值领域。Python充值系统可以极大地提高充值效率,同时也可以保证充值的安全性。在这篇文章里,我们将介绍Python充…

ChatGPT只讲这25个笑话!实验上千次有90%重复,网友:幽默是人类最后的尊严

梦晨 发自 凹非寺量子位 | 公众号 QbitAI 如果你试过让ChatGPT随便讲个笑话(英语),那你大概率见过这个: 两位德国学者对GPT3.5做了个大型测试,发现它其实只会讲25个笑话。 1008次结果中有90%都是25个笑话的变体&#x…

用AI修复郭德纲远古相声;小红书爆款文案Prompt模板;用AI经营一家三明治店;AI将实现80%编程 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 B站UP主使用AI修复郭德纲远古相声,10天播放近70万 B站UP主 野老相声-风景-4K修复 使用了AI换脸技术,对郭德纲、…

做Walmart有什么工具可以事半功倍呢?

1.Easyya 易芽选品(免费付费) 官网:EasyYa易芽选品-跨境电商亚马逊选品_市场流量分析运营辅助工具 软件:有Web端插件小程序 功能介绍: 竞品分析 快速确定对标的商品、Listing、品牌以及卖家。 新品开发 通过市场…

AI卷入618战场;印象AI开放次数限制;2023 AIGC人才趋势洞察报告;员工瞒着老板悄悄用AI;超好用的AI头像生成教程 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 澳洲游戏媒体 Gamurs 招聘AI编辑,被各路媒体口诛笔伐 上周,澳洲知名游戏媒体集团 Gamurs 在官网招聘「AI Edit…