ChatGPT成功做对了这4步丨爱丁堡大学符尧

随着ChatGPT出现,语言大模型的进步与对话交互方式相结合,正在搅动科研、产业,以及普通人的想象力。在上周举办的青源Workshop(第20期)|LLM and Chatbot: Endgame, Worse is Better, How to Win Big 研讨会上,智源社区与青源会邀请十余位相关领域专家,围绕以上话题展开热烈研讨。其中引导报告环节,爱丁堡大学博士生符尧总结了ChatGPT背后成功的原因,即大规模语言模型(LLM)的构建,分为四步,分别是「预训练」、「指令微调」、「对齐」、「专门化」。

103a57eba86d344d1ae6c07293e8dd1e.png

91fdc60e0eafd1d3b19456576cef18cb.png

符尧

符尧是爱丁堡大学的博士生,也是艾伦人工智能研究所的学生研究员。他在北京大学完成了本科学位,在哥伦比亚大学完成了硕士学位。他的研究方向是人类语言的大规模生成模型。他的研究领域包括了大语言模型、复杂推理、涌现能力。

观察模型能力的动态视角

1fc13477c69ff929e79a9409e9b14def.png

在观察模型的能力时,我们往往需要以动态的视角观察其演化过程。如上图左侧的「缩放法则」所示,当保持其它条件恒定时,模型大小、数据量大小、指令数量等因素的指数级增长将导致 In-Context Learning、零样本学习、分布外泛化、分布内泛化等性能效果的线性提升。如上图右侧的「涌现能力」曲线所示,只有当模型的大小增大到一定程度时,模型的能力(例如,举一反三、跨域迁移的能力)才会产生跳变。因此,只有大模型才能有效提升这些效果。

4fc2ee97950dc66ea04c830286653112.png

此外,我们还应该纵向地观察模型家族的演化。与 GPT 系列类似,我们不妨观察 PaLM 和 Gopher/Chinchilla 模型家族的变化。Google 通过预训练得到了 PaLM 模型,经过指令微调得到了 FlanPaLM、再经过 Alignment 得到它们最新的模型。DeepMind 通过预训练得到了 Gopher/Chinchilla,再通过指令微调和对齐得到 Sparrow 模型。

f6951736a574c0baa1273faf8572ebd7.png

综合上述,我们可以将此类模型的发展分为三个阶段:

(1)预训练。得到强大的基础模型,获得语言生成、In-context Learning、获取世界知识、推理、代码生成等能力。模型大小的指数级增长伴随着数据量的指数级增长。

(2)指令微调。指令种类指数增长,导致模型零样本迁移能力的线性增长。思维链等能力有时会在预训练后直接出现(例如PaLM)。如果这种能力没有出现,我们可以将其作为特殊的指令,进行指令微调。经过预训练后,大模型相较于小模型具有更大的能力边界。如果预训练模型具备某项能力,指令微调可以继续提升该能力;若预训练模型不具备某项能力,指令微调有望开发出该能力。因此,指令微调后的小模型也有几可能获取强于大模型的能力。同时,指令微调的效果也和基础模型息息相关。

(3)对齐。牺牲模型能力,换取模型的「安全」。将模型的某些能力弱化,使其在特定方面符合人类的期望。

第1步丨预训练:得到强基础模型

d992bc6abe694a3a4f4dbe603c9cc646.png

预训练旨在得到强大的基础模型。一些著名的预训练模型如上图左侧所示。值得一提的是,Galactica 模型本身的预训练效果不错,然而由于其返回的结果不太符合人类预期(对齐欠佳)所以被 Meta 下线后开源。Galactica 的开源模型包含 30B 参数和 120B 参数两个版本,可以直接在 Hugging Face 上下载。预训练可以得到语言生成、世界知识、In-context Learning、代码理解/生成、复杂推理/思维链等能力。

第2步丨指令微调:释放模型能力

1f4a8cc46d93bec65347e14a0e814c56.png

指令微调旨在加强预训练模型的已有能力,或者开发出预训练模型不具备的能力,要求指令种类足够多,每种指令的例子也要足够多。指令的指数级增长会带来跨域迁移能力的线性增长。单个指令下实例数指数级增长也会带来该指令能力的线性增长,但可能使其它指令的能力弱化。因此,指令微调的思路为让模型在各项维度上的能力全面扩张。

目前意识到指令微调重要性的工作并不多。其中,「LM self-instruct」较为出色,它模拟了未经过指令微调的初代 GPT 175B 到经过指令微调的 Text-davinci 001 之间的演化。

如上图右侧所示,指令微调可以有效提升模型的各项泛化能力。其中,组合泛化能力尤为重要。例如,如果给定的指令同时包含摘要、问答、生成代码的指令,模型可以自动将这三项能力混合在一起,同时完成问答、摘要生成、代码生成的任务。

我们可以将指令视为线性代数中的一组基,将不同能力混合在一起实际上就是对线性空间中的基做线性组合或凸组合。模型在没有见过指令时,只能在学到的空间内做内插,而很难外推到没有学习到的基上。

第3步丨对齐:与人类价值观匹配

9b28f260390bdc7411683795dcee46b1.png

对齐旨在塑造模型的「价值观」,使其符合人类的期望,进而塑造模型的「人格」。对齐将决定模型回答的字数、回答信息的倾向性和方式。在训练时,可先进行监督学习、再进行 RLHF,充分发挥 RLHF 的效果。神奇的是,经过对齐操作后,模型遇到无法解决的问题,会回答「不知道」。

第4步丨模型专门化:从通用到专用

3001d8c843bfbde36debbea3f01f4ff0.png

在经过了预训练、指令微调、对齐操作后,我们进一步考虑对模型进行专门化处理,使 ChatGPT 的能力从大学生成长为博士生或教授。我们假设模型的总体能力有限,可能需要弱化模型的某些能力,同时增强其它期望的能力。

如上图所示,在进行模型专门化时,我们首先也需要进行模型预训练,接着进行指令微调。我们发现,对指令微调后的模型进行专门化处理的效果要远远优于对原始预训练模型进行专门化处理的效果。

8f1763779861fd2b477d901919f12f7e.png

如上图所示,针对数学问题,我们考虑测试模型的思维链推理能力。经过专门化后,模型在 BigBench-Hard 这种通用测试上的能力有所下降,而在数学问题上的思维链推理能力有所增强。通用能力下降的程度预模型大小相关,模型越大,通用能力下降得越少。为了测试模型的分布外泛化能力,我们使用 GSM8K 作为训练数据集,使用 MultiArith、ASDiv、SVAMP 作为测试集。

更多内容 尽在智源社区

5981683577354f0da7b9a53f32735599.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4637.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MIT、北大、浙大、港大的四位讲者分享大模型前沿研究,畅聊ChatGPT

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2023年3月9日,AI TIME 大模型系列活动推出首期专场活动。本次活动邀请到了香港大学一年级博士生谢天宝、北京大学计算机学院四年级博士生张之远、浙江大学一年级硕士乔硕斐、麻省理工学院一年级博士…

【ChatGPT】《GPT-4 可以协助科研人员的研究工作吗?—— ChatPaper:GitHub 5.7K star开源项目-全流程加速科研》- 知识点目录

《GPT-4 可以协助科研人员的研究工作吗?—— ChatPaper:GitHub 5.7K star开源项目-全流程加速科研》 知乎回答 1. ChatPaper:科研加速工具 GitHub:kaixindelele/ChatPaper 主要特点: 论文(离线/在线&am…

【chatgpt-01】部署学术神器chatgpt_academic

目录 1 chatgpt_academic简介2 前置准备3 项目下载/配置4 安装依赖5 项目配置6 运行7 测试实验性功能 1 chatgpt_academic简介 chatgpt_academic是一个科研工作专用ChatGPT拓展,特别优化学术Paper润色体验,支持自定义快捷按钮,支持markdown表…

ChatGPT-5到底有多强?Battle!咱貌似也不输呀!

盘点今年的热点话题,ChatGPT是不可避免要被反复提及的一part。从去年的-3.0到今年的-3.5,再到上月刚发布-4.0。从用户体验和市场反馈来讲,这半年的时间,ChatGPT每一步都走得又稳又快! 回想起今年2月初ChatGPT全网爆火的…

ChatGPT到底有多牛?博主带你亲测

文章目录 论文项目代码算法学习情感职业回答知乎ChatGpt网页版与客户端版个人评价 论文 问他毕设框架: 让他帮我写一段毕设背景部分: 项目代码 我让他帮我用Django写一个demo网站: 算法 matlab写遗传算法: 问一个数据结构…

【ChatGPT】ChatGPT-5 到底有多强?

目录 1、ChatGPT-5 到底有多强2、技术方向3、系统特点4、系统应用5、ChatGPT-5为什么停止训练? 1、ChatGPT-5 到底有多强 OpenAI 最新的自然语言处理技术 ChatGPT-5 近期发布,拥有过去版本的一系列升级和改进。那么,在 ChatGPT-4 强大的基础…

最近非常火的ChatGPT到底是个啥?

简介 ChatGPT (Chat Generative Pre-trained Transformer ) 是由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练。 ChatGPT目前仍以文字方式交互,而除了可以通过人类自然对…

12步骤:Midjourney 注册流程教学 账号手机验证攻略

1、打开 discord 谷歌浏览器搜索discord,点击进入官网。如图 2、登录 discord 点击login登录账号,账号会提示异地登录验证,我们需要去邮箱进行验证 3、打开邮箱 输入邮箱网址(autorambler.ru)点击登录邮箱 4、登录邮…

chatgpt赋能python:用Python实现短信验证的实现方式

用Python实现短信验证的实现方式 Python是一种通用性编程语言,有着易于使用且丰富的库和框架,使其得到无数开发者的喜爱。Python可以用于执行多种任务,包括数据处理、机器学习、网络编程和其他许多领域。在本文中,我们将介绍如何…

华泰证券人工智能系列(1):人工智能选股框架及经典算法简介

(一)人工智能选股框架及经典算法简介2017.6.1 机器学习的基本流程 数据获取、特征提取、数据转换、模型训练、模型选择、模型预测。 数据获取 大量、高质量。 现有接口:雅虎财经、新浪财经、万得终端。 爬虫数据源:新闻网站、财…

AIGC、数字人、ChatGPT:人工智能新浪潮,比移动互联网大十倍

毫不夸张地说,投资行业正在进入“地狱模式”,3000家投资机构正在疯狂看项目。在人工智能行业,由于技术的发展,正在迎来新的投资机遇,在这个过程中,相关公司很容易“拿到大钱”,有投资人确信&…

清华发布工具学习框架,让ChatGPT操控地图、股票查询,贾维斯已来?

文|小戏 首先来考大家一道初中历史题:人区别于动物的根本标志是什么›?书上的标准答案是人会制造与使用工具。那么再来一道思考题,如果 AI 会使用甚至会制造工具了以后,会发生什么呢?是像贾维斯一样的 AI 私…

《自然》杂志:ChatGPT用于研究的五个重点问题

2022年年末,ChatGPT聊天机器人的问世,标志着人工智能生成内容(Artificial Intelligence Generated Content,AIGC)类的人工智能(AI)技术将对科研人员的工作方式产生巨大影响。 ChatGPT是一个大型…

ChatGPT研究框架:市场概况、技术路径、行业进程与商业方向

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年1月份热门报告合集 ChatGPT的发展历程、原理、技术架构及未来方向 《ChatGPT:真格基金分享.pdf》 2023年AIGC发展趋势报告:人工智能的下一时代…

ChatGPT研究报告:AIGC带来新一轮范式转移

本文约4000字,目标是快速建立AIGC知识体系,含有大量的计算专业名词,建议阅读同时扩展搜索。 一、行业现状 1、概念界定 区别于PGC与UGC不同的,AIGC是利用人工智能技术自动生成内容的新型生产方式。 2、数据模态 按照模态区分&a…

ChatGPT探索系列之四:分析ChatGPT在各领域的实际案例

文章目录 前言一、客户服务二、虚拟助理三、用于电子商务和在线销售的聊天机器人四、医疗保健和医疗应用五、教育总结 前言 ChatGPT发展到目前,其实网上已经有大量资料了,博主做个收口,会出一个ChatGPT探索系列的文章,帮助大家深…

哈工大ChatGPT调研报告(附下载)

2022年11月30日,OpenAI推出全新的对话式通用人工智能工具一 ChatGPT。ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力,它可以很好地理解用户意图,做到有效的多轮沟通,并且回答内容完整、1 点清晰、有概括、有逻辑、有条理…

哈工大:ChatGPT调研报告

来源:哈尔滨工业大学 未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企…

智谱研究报告:揭秘ChatGPT背后的AI“梦之队”【附报告全文下载】

2022年11月30日,OpenAI公司(美国致力于人工智能研究的非营利机构)发布了由大型语言模型驱动的自然语言处理工具ChatGPT。该工具通过学习和理解人类语言,能够与用户进行高质量对话,甚至还能撰写邮件、视频脚本、文案、代…

ChatGPT研究框架(80页PPT)

来源:计算机文艺复兴 研究框架系列 合规声明:本文节选自正式入库研究报告。 转自:公众号计算机文艺复兴,本次转载仅供学习。 如需PPT原文件请后台留言”ChatGPT“。 END 欢迎加入Imagination GPU与人工智能交流2群 入群请加小编微…