ChatGPT研究分析:GPT-4做了什么

前脚刚研究了一轮GPT3.5,OpenAI很快就升级了GPT-4,整体表现有进一步提升。追赶一下潮流,研究研究GPT-4干了啥。

本文内容全部源于对OpenAI公开的技术报告的解读,通篇以PR效果为主,实际内容不多。主要强调的工作,是“Predictable Scaling”这个概念。

上一版ChatGPT的主要挑战是,因为模型的训练量极大,很难去进行优化(ChatGPT是fine-tuning的模式)。因此,OpenAI希望能够在模型训练初期,就进行优化,从而大幅提升人工调优迭代的效率。而想要进行调优,就得知道当前模型的效果如何。因此,这个问题就被转化为了:如何在模型训练初期,就能够预测最终训练完成后的实际效果。

从结果来看,ChatGPT实现了,仅仅执行千分之一到万分之一的训练量,就可以大致预测模型的结果。

实现原理相对简单,就是在某一个模型的不同训练阶段进行实际效果测量,然后做函数拟合,发现符合幂等曲线。然后再基于采样值,测算一下幂等函数的相关参数,下一轮就可以只进行少量训练,就去预测最终效果了。

至于其他效果上的优化,OpenAI没有进一步解读原理,但整体应该还是基于“训练-奖励”的优化模型,去生成更针对性的奖励模型(比如增加法律、安全之类的奖励判断),以实现更优的效果。

原版内容如下:

3 Predictable Scaling
A large focus of the GPT-4 project was building a deep learning stack that scales predictably. The primary reason is that for very large training runs like GPT-4, it is not feasible to do extensive model-specific tuning. To address this, we developed infrastructure and optimization methods that have very predictable behavior across multiple scales. These improvements allowed us to reliably predict some aspects of the performance of GPT-4 from smaller models trained using 1, 000× – 10, 000× less compute.
3.1 Loss Prediction
The final loss of properly-trained large language models is thought to be well approximated by power laws in the amount of compute used to train the model [35, 36, 2, 14, 15].
To verify the scalability of our optimization infrastructure, we predicted GPT-4’s final loss on our internal codebase (not part of the training set) by fitting a scaling law with an irreducible loss term (as in Henighan et al. [15]): L(C) = aCb + c, from models trained using the same methodology but using at most 10,000x less compute than GPT-4. This prediction was made shortly after the run started, without use of any partial results. The fitted scaling law predicted GPT-4’s final loss with high accuracy (Figure 1).
3.2 Scaling of Capabilities on HumanEval
Having a sense of the capabilities of a model before training can improve decisions around alignment, safety, and deployment. In addition to predicting final loss, we developed methodology to predict more interpretable metrics of capability. One such metric is pass rate on the HumanEval dataset [37], which measures the ability to synthesize Python functions of varying complexity. We successfully predicted the pass rate on a subset of the HumanEval dataset by extrapolating from models trained with at most 1, 000× less compute (Figure 2).
For an individual problem in HumanEval, performance may occasionally worsen with scale. Despite these challenges, we find an approximate power law relationship −EP [log(pass_rate(C))] = α∗C−k
where k and α are positive constants, and P is a subset of problems in the dataset. We hypothesize that this relationship holds for all problems in this dataset. In practice, very low pass rates are difficult or impossible to estimate, so we restrict to problems P and models M such that given some large sample budget, every problem is solved at least once by every model.
We registered predictions for GPT-4’s performance on HumanEval before training completed, using only information available prior to training. All but the 15 hardest HumanEval problems were split into 6 difficulty buckets based on the performance of smaller models. The results on the 3rd easiest bucket are shown in Figure 2, showing that the resulting predictions were very accurate for this subset of HumanEval problems where we can accurately estimate log(pass_rate) for several smaller models. Predictions on the other five buckets performed almost as well, the main exception being GPT-4 underperforming our predictions on the easiest bucket.
Certain capabilities remain hard to predict. For example, the Inverse Scaling Prize [38] proposed several tasks for which model performance decreases as a function of scale. Similarly to a recent result by Wei et al. [39], we find that GPT-4 reverses this trend, as shown on one of the tasks called Hindsight Neglect [40] in Figure 3.
We believe that accurately predicting future capabilities is important for safety. Going forward we plan to refine these methods and register performance predictions across various capabilities before large model training begins, and we hope this becomes a common goal in the field.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/1799.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【NLP】深入浅出,解析ChatGPT背后的工作原理

选自Assembly AI 作者:Marco Ramponi 机器之心编译 编辑:王强、蛋酱 自 ChatGPT 发布以来,已经吸引了无数人一探究竟。但 ChatGPT 实际上是如何工作的?尽管它内部实现的细节尚未公布,我们却可以从最近的研究中一窥它的…

炸了!斯坦福新研究:ChatGPT背后模型被证实具有人类心智!知名学者:“这一天终于来了”...

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>CV微信技术交流群 丰色 萧箫 发自 凹非寺转载自:量子位(QbitAI) ChatGPT原来是拥有心智的?! “原本认为是人类独有…

一本关于ChatGPT的书《ChatGPT 革命:了解大型语言模型的力量》免费下载

下载地址:https://download.csdn.net/download/winniezhang/87431530 这本书有什么不同: 1、从书名,到大纲,到内容,基本都来自ChatGPT的自述,本人只是负责编辑。 2、整个成书过程只用了2小时不到。 3、…

日赚14000元!她用ChatGPT创作文章来赚钱

最近有一件事在网络上爆火,那就是有一个小姐姐在ChatGPT的帮助之下写了一篇文章,并且发表到推特上之后很快收入激增。 最近有一件事在网络上爆火,那就是有一个小姐姐在ChatGPT的帮助之下写了一篇文章,并且发表到推特上之后很快收入…

如何使用 ChatGPT 生成 Stable diffusion 提示词

chatgpt免费体验入口网址: http://chat.xutongbao.top 一、教chatgpt写提示词 StableDiffusion是一款利用深度学习的文生图模型,支持通过使用提示词来产生新的图像,描述要包含或省略的元素。 我在这里引入StableDiffusion算法中的Prompt概念…

零基础也能用ChatGPT写代码,简直不要太爽

最近朋友圈刷到最多的动态和话题都是围绕ChatGPT的,作为一个功能强大,用途广泛的聊天机器人,我们能用它做的事情太多了。比如用它写文案,写剧本,规划旅游路线,甚至写小说等等。在本文中,我们将探…

让ChatGPT帮你写一个剧情脚本

最近,很多视频制作者正在使用AI编写视频脚本,效率直接提升20倍以上!而ChatGPT作为一个强大的AI模型,在各个领域都得到了广泛应用。尽管对于ChatGPT的介绍不是很多,但是它已经在很多自媒体平台上被广泛利用来处理工作了…

如何让ChatGPT写情书(三步走)

近年来,人工智能技术的迅猛发展给我们生活带来了许多便利和惊喜。 而动人的情书文学也逐渐成为ChatGPT技术的应用领域之一。ChatGPT模型是一种递归神经网络,可以在大量数据的基础上为用户生成语言内容。使用GPT来写情书,相比以前的纯手工撰写…

一键部署 ChatGPT Next Web

大家好!我是韩老师。 Awesome GPT 来了! 相信关注过 Awesome GPT repo 的童鞋们,都已经知道 ChatGPT Next Web 是一个强大的 ChatGPT Web 应用。 今天看到一位微软 MVP 大佬写了个文章,带大家 3 分钟把 ChatGPT Next Web 部署到 A…

基于Docker如何快速部署自己的ChatGPT

背景 随着OpenAI在2022年底发布的LLM模型-ChatGPT展现出的强大效果,ChatGPT无疑成为了当下炙手可热的明星模型。 现有的基于GPT的开源项目已经非常多,本文以现有的高热度github开源项目chatgpt-web为例,教大家简单快速地搭建属于自己的Chat…

玩转ChatGPT:Auto-GPT项目部署与测评

一、Auto-GPT简介 最近,以ChatGPT为代表的超大规模语言模型火出了圈,各种二次开发项目也是层出不穷。 这周在AI圈炸街的是Auto-ChatGPT,在GitHub上已经61.4K的点赞了。 项目地址:https://github.com/Torantulino/Auto-GPT 用项…

详细的从零部署ChatGPT

chatgpt产品机遇: 1. chatgpt 所带来的机遇: 下一代 AI 搜索引擎,解决目前搜索引擎结果多样复杂、需要人工判断准确定的问题;替代低端劳动岗位、释放部分脑力活动、即将变革多个行业 ; 2. chatgpt 我分析将带来多个新的工作岗位机…

玩转ChatGPT:中科院ChatGPT Academic项目部署与测评

一、ChatGPT Academic简介 最近,以ChatGPT为代表的超大规模语言模型火出了圈,各种二次开发项目也是层出不穷。 比如说今天我们玩弄的这个“ChatGPT Academic”,在GitHub上已经13.7K的点赞了。 项目地址:https://github.com/bina…

本地部署你的专属ChatGPT,不用想方设法翻墙了

自ChatGPT问世以来,由于安全问题ChatGTP始终没有在国内提供服务,那访问ChatGTP有条件的就通过专线到国外进行访问,没条件的但喜欢折腾的可以通过各种野路子科学上网,没条件不喜欢折腾的听听就行。 无意间在gitHub上发现了一个开源…

Chatgpt私有化部署(全流程)

前言 当下使用chatgpt来帮助完成工作已然成为主流,但想访问必须先面对地区的封锁,所以使用openai官方提供的API来部署至本地服务器从而更加便利的使用chatgpt。本文章主要介绍如何部署私有聊天机器人。 条件准备: 公网服务器一台&#xff0…

学术版ChatGPT部署

仅记录本人部署中科院学术版ChatGPT流程。 ChatGPT GPT使用“咒语”: www.aishort.top 网址:https://chat.openai.com/ 按步骤操作,输入邮箱等。 注册需手机号,可以申请一个虚拟号接收验证码。 以Get a virtual phone numbe…

文心一言发布!【中国版ChatGPT】附测试链接

文心一言是百度推出的生成式对话产品,2023.3.16正式发布12。它基于文心大型模型技术,被外界誉为“中国版ChatGPT” 文心一言测试链接: https://cloud.baidu.com/survey_summit/wenxin.html 文心一言与Chatgpt对比 文心一言在中文的支持方面…

ChatGPT分销版多开4.3.5-新增 语音识别和绘画多个引擎-已测试

ChatGPT分销版多开v4.3.5-源码升级 后台系统配置-界面配置: 新增 首页是否弹出公众号关注二维码 注册/登录后否弹出公众号关注二维码 优化 拦截某个有漏洞的回答 优化 回调下载图片的问题 版本号:4.3.1 - 默认 优化 分销商入驻流程 ChatGPT分销版多开v4.2.…

科普前沿知识

本文没有任何违规内容,全是科普AI的,麻烦官方通过下。 目录 1. ChatGPT是什么 2. ChatGPT的发展历程 3. ChatGPT对程序员的影响 4. ChatGPT对普通人的影响 5. ChatGPT的不足之处 本文带大家去了解AI的发展! 1. ChatGPT是什么 ChatGPT是…

超级好看的chatgpt商业化版本

源码介绍 超级好看的chatgpt商业化版本,国内服务器就行。不需要国外服务器。 有完整的教程 完整的源码 给大家搭建! 搭建有些难度!!演示官网:https://25qi.cn/301.html 源码带支付功能,绘画&#xff0c…