Bytedance揭秘OpenAI大模型: GPT-3到GPT-4进化路径

文章目录

  • 探秘GPT-3到GPT-4进化之路
    • 1、SFT:早期GPT进化的推动者
    • 2、RLHF和SFT:编码能力提升的功臣
    • 3、代码加入预训练,对推理帮助最大
    • 4、“跷跷板”现象
  • 论文地址
  • 项目链接
  • Reference

GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond

在这里插入图片描述

在这里插入图片描述

探秘GPT-3到GPT-4进化之路

1、SFT:早期GPT进化的推动者

SFT只在较弱的基础模型上管用,用在更强的模型上收效甚微。类似现象在开源模型身上也可见(这个评测还测了Llama1和2、PaLM2-L、Claude 2等模型):

在初代Llama-65B之上,SFT成功提升了它在MMLU基准上的性能,但是,所有使用了SFT改进的Llama2-70B在Open LLM Leaderboard榜单上却只表现出微小的进步。

总结:在GPT3阶段,SFT技术对模型的进化起到了关键作用。

2、RLHF和SFT:编码能力提升的功臣

顺着GPT3.5系列接着看,从text-davinci-002开始,OpenAI开始引入新技术基于PPO算法的RLHF,得到text-davinci-003。

此时,它在大部分基准上的表现和前代模型持平或略变差,说明作用不是特别明显(在开源模型身上也是如此)。

但有一个除外:编码任务,最高足足增加了近30分。

LLM仍可以通过SFT和RLHF,不断将内在能力(但需要多次尝试)转化成一次性解决问题的能力,不断逼近LLM的能力上限。

3、代码加入预训练,对推理帮助最大

在GPT4进化之路上,还出现了2个特别的模型:

code-cushman-001 (Codex-12B)code-davinci-002

前者是OpenAI初次尝试使用代码数据训练模型,尽管它的规模较小,但也取得了不错的代码能力。后者是GPT3.5的基座模型,它是在GPT3的基础上使用RLHF+代码训练的结果,也就是文本和代码混合预训练。

可以看到,它大幅超越GPT-3(不止是编码能力)、在一些推理任务上(如BBH)表现甚至可以超过后面的gpt-3.5-turbo-0613。

4、“跷跷板”现象

通过比较2023年3月和2023年6月的OpenAI API模型,我们确实可以发现这一现象:

与gpt-3.5-turbo-0301相比,升级后的gpt-3.5-turbo-0613在HumanEval上表现出色(53.9 -> 80.0),但在MATH上却大幅下降(32.0 -> 15.0)。

gpt-4-0613在DROP上的表现优于gpt-4-0314 (78.7 -> 87.2) ,但在MGSM上也出现了直线下降(82.2 -> 68.7) 。

作者认为:

“跷跷板现象”可能成为LLM通往AGI之路的绊脚石,因为AGI强调“通用智能”,要在所有task上都有优异的性能,要求模型不能“偏科”。在此,他们也呼吁社区重视这个问题,共同推进大模型平衡发展的研究。

论文地址

https://arxiv.org/abs/2309.16583

项目链接

https://github.com/GPT-Fathom/GPT-Fathom

Reference

https://mp.weixin.qq.com/s/-AWkDzAzoyQNmgYXuC6B4w

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/181348.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据毕业设计选题推荐-智慧小区大数据平台-Hadoop-Spark-Hive

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

差生文具多之(一)eBPF

前言 在问题排查过程中, 通常包含: 整体观测, 数据采集, 数据分析这几个阶段. 对于简单问题的排查, 可以跳过前两个步骤, 无需额外收集数据, 直接通过分析日志中的关键信息就可以定位根因; 而对于复杂问题的排查, 为了对应用的行为有更完整的了解, 可以通过以下形式收集更多的…

【MATLAB】基于灰狼优化算法优化BP神经网络 (GWO-BP)的数据回归预测

文章目录 效果一览文章概述订阅专栏只能获取一份代码部分源码参考资料效果一览 文章概述 【MATLAB】基于灰狼优化算法优化BP神经网络 (GWO-BP)的数据回归预测 在MATLAB中,基于灰狼优化算法优化BP神经网络(GWO-BP)进行数据回归预测的步骤如下: 数据准备:首先,将用于回归预…

深度学习_9_图片分类数据集

散装代码: import matplotlib.pyplot as plt import torch import torchvision from torch.utils import data from torchvision import transforms from d2l import torch as d2ld2l.use_svg_display()# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式…

城市内涝怎么预警?万宾科技内涝积水监测仪

在城市运行过程中,城市内涝问题频繁出现,影响城市管理水平的提升,也会进一步减缓城市基础设施建设。尤其近几年来,城市内涝灾害频繁出现,在沿海地区内涝所带来的安全隐患成为城市应急管理部门的心头大患。城市内涝的背…

Java 正则表达式分组匹配

前几篇文章都是简单判断是否满足匹配规则,当需要提取匹配结果时就用到分组匹配。 分组匹配 可以判断是否满足正则表达式,然后提取出子串。 有些时候电话号码是以 123-4567-8899 这样显示的,我们要判断某个字符串是这种形式的并分别提起三段…

从NetSuite Payment Link杂谈财务自动化、数字化转型

最近在进行信息化的理论学习,让我有机会跳开软件功能,用更加宏大的视野,来审视我们在哪里,我们要到哪去。 在过去20多年,我们的财务软件经历了电算化、网络化、目前处于自动化、智能化阶段。从NetSuite这几年的功能发…

【vue2高德地图api】04-poi搜索

系列文章目录 文章目录 系列文章目录前言一、高德地图文档入口二、使用步骤1.创建文件以及路由2.编写页面代码3.样式4变量以及方法5.编写查询方法 总结 前言 提示:这里可以添加本文要记录的大概内容: 本篇要实现的功能,看下图 提示&#x…

【从零开始学习Redis | 第五篇】基于布隆过滤器解决Redis的穿透问题

前言: 在如今的开发中,使用缓存中间件Redis已经成为一项很广泛的技术,Redis的高性能大大优化了我们的服务器性能,缓解了在高并发的情况下服务器的压力。它基于缓存的形式,在内存中保存数据,减少对磁盘的IO操…

制造行业数字化运维破局之道

项目背景 某大型汽车制造集团,致力于通过数字化、智能化运营手段为用户提升提供高品质的汽车产品和服务。IT部门不仅为内外部持续提供服务,同时为业务运营与核心系统运行提供重要支撑。数字化运维作为数字化转型的核心基础,不但要保障数据安…

网络编程 - HTTP协议

目录 HTTP协议格式 一,请求格式 1.1 URL的基本格式 1.2 方法(method) 1.3 请求头header 二,响应格式 2.1 状态码 HTTP协议格式 HTTP协议与之前讲的TCP/IP协议不同,HTTP协议要分为两个部分——请求和响应,也就是一种"一…

尚硅谷Docker基础篇和Dockerfile超详细整合笔记

Docker基础篇DockerFile Docker:您要如何确保应用能够在这些环境中运行和通过质量检测?并且在部署过程中不出现令人头疼的版本、配置问题,也无需重新编写代码和进行故障修复?而这个就是使用容器。Docker解决了运行环境和配置问题…

linux 创建git项目并提交到gitee(保姆式教程)

01、git安装与初始化设置 mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ apt install mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ git config --global user.name "用户名" mhzzjmhzzj-virtual-machine:~/work/skynetStudy$ git config --global user.ema…

Java 8 新特性 Stream 的使用场景(不定期更新)

方便在写代码的过程中直接使用,好记性不如好文章,直接 CV 改了直接用。提高 办(摸)公(鱼)效(时)率(间), 不然就直接问 GPT 也不是说不行。 只符合…

操作系统学习与思考

x86体系架构 x86是因特尔8086代芯片的CPU总线位数以及寄存器种类的规范,大部分操作系统都是以该规范作为基准来生产的 计算机组成 CPU,可以根据程序计数器进行取指令操作,并根据指令执行运算(加、减、乘、除)。运算所…

【hcie-cloud】【1】华为云Stack解决方案介绍、华为文档获取方式 【上】

文章目录 华为文档获取方式前言云计算发展背景国家政策、社会发展驱动数字经济开启新时代深化数字化转型提升效率,国家数字主权云进入落地阶段从Cloud-Based到Cloud-Native,两种模式长期并存适合政企智能升级的云华为云Stack,政企智能升级首选…

MySQL InnoDB数据存储结构

1. 数据库的存储结构:页 索引结构给我们提供了高效的索引方式,不过索引信息以及数据记录都是保存在文件上的,确切说是存储在页结构中。另一方面,索引是在存储引擎中实现的,MySQL服务器上的存储引擎负责对表中数据的读…

如何远程访问WAMP搭建的内网Web站点?

花生壳是由贝锐自主研发的域名解析工具,可帮助用户实现外网访问到局域网内搭建的各类办公系统。以发布网站服务为例,下面就给大家演示下如何通过花生壳实现外网访问WAMP站点。 1. 搭建WAMP站点 (1)首先,用户需在本地…

Photoshop图片处理

工具 Photoshop剪映 步骤 打开photoshop 工具主界面 2. 导入素材图片 或者直接将图片拖入主界面 3. 双击图层,将背景图改为可编辑图层 4. 使用多边形套索工具勾画需要搽除的区域 5. 希望删除的区域使用多边形套索工具勾画出来后, 按“del”键&a…