大语言模型综述

bf883822b95d31890670aed6fa9548ac.gif

大语言模型综述文章

自20世纪50年代图灵测试被提出以来,研究人员一直在探索和开发能够理解并掌握语言的人工智能技术。作为重要的研究方向之一,语言模型得到了学术界的广泛研究,从早期的统计语言模型和神经语言模型开始,发展到基于Transformer的预训练语言模型。

近年来,研究者们发现通过扩大预训练语言模型的参数量和数据量,大语言模型(Large Language Model)能够在效果显著提升的同时,展示出许多小模型不具备的特殊能力(如上下文学习能力、逐步推理能力等)。最近,作为代表性的大语言模型应用ChatGPT展现出了超强的人机对话能力和任务求解能力,对于整个AI研究社区带来了重大影响。

为此,中国人民大学高瓴人工智能学院教师和学生调研了大语言模型的最新研究进展和主要技术路径,形成本领域的综述文章一篇,引用或介绍了相关论文420余篇,目前以预印版形式上传到arXiv网站,期望能为各位研究人员和工程人员提供一定的技术参考。

ecec984f265a9780df618885aed600a5.png

论文链接:

https://arxiv.org/abs/2303.18223

(已更新到第四个版本,第五个版本将于周二上线,补充了GPT系列模型的演化过程)

GitHub项目链接:

https://github.com/RUCAIBox/LLMSurvey

自预印版本上线以来,这篇综述文章得到了广泛关注,我们根据收到的读者建议改进了部分内容,目前更新到了第四个版本,并且会持续更新。同时,为了方便阅读,我们也在GitHub上传了一个由“大模型翻译+人工修正”的中文翻译版本(由于时间所限,中文翻译版本还在陆续更迭校验中,请大家以英文版本为准)。

下面针对各章节进行内容概括介绍,详细内容请参阅我们的英文综述。

eab172d69f92ac1253c8cfa04af62a6e.gif

#1

 总览

通常来说,大语言模型指的是那些在大规模文本语料上训练、包含百亿级别(或更多)参数的语言模型,例如GPT-3,PaLM,LLaMA等。目前的大语言模型采用与小模型类似的Transformer架构和预训练目标(如 Language Modeling),与小模型的主要区别在于增加模型大小、训练数据和计算资源。大语言模型的表现往往遵循扩展法则,但是对于某些能力,只有当语言模型规模达到某一程度才会显现,这些能力被称为“涌现能力”,代表性的涌现能力包括上下文学习、指令遵循、逐步推理等。目前,大语言模型取得如此巨大的成就,我们总结了五方面原因:

1)模型、数据和计算资源的扩展;

2)高效稳定的训练手段;

3)语言模型能力诱导;

4)对齐训练,将大语言模型与人类偏好对齐;

5)工具使用(潜在发展方向)。

a791ccab046eb8fe0128e6bfcf651fc3.gif

#2

 大语言模型相关资源

3727e638e408e771f5ae743d930c1e7c.png

图1 大语言模型发展时间线

这一章的目的是为了帮助读者速览大规模语言模型的发展进程,概要了解模型的训练需求以及总结有助于训练的可用资源。我们简要总结了可以用于开发大语言模型的公开可用资源,包括模型检查点(model checkpoint)或公开接口(API),训练语料库以及代码库。

对于公开检查点的模型,我们根据模型参数量分成两大类,分别是百亿(10B)参数到千亿(100B)参数模型和大于千亿(100B)参数模型。在每一部分介绍时,我们根据模型的预训练语料、任务,或者评测给出研究不同能力时的推荐模型,并且根据模型原论文罗列了预训练硬件配置。

对于公开接口,我们重点介绍了OpenAI的GPT系列接口,包括GPT-3系列到当前的GPT-4系列,并简要介绍了部分接口之间的关系。

对于训练语料库,我们简要总结了一列常用于训练大语言模型的公开数据集。我们按照内容将这些数据集分成了六类:书籍类、CommonCrawl类、Reddit link类、维基百科类、代码类和其他。每一类我们都介绍了数据集的内容、大小以及被用于训练的模型。

对于代码库,我们搜集了一些用于训练的代码库,包括常用模型库和并行算法库。

1d9ee729441d7749cbaeee94c2ba290e.gif

#3

 大语言模型预训练技术

预训练是大语言模型能力的基础。当语言模型的参数量扩展到超千亿级别时,从头预训练一个大语言模型就成为一件十分困难且有挑战的事情。

(1)在数据层面,如何收集尽可能多的高质量语料对预训练模型的效果十分关键。本章从预训练语料的收集出发,主要探讨了数据的多种来源(如对话、代码等)和预处理(清洗与编码),并分析了预训练数据数量、质量、多样性等方面对模型效果的影响。

cfbfd777554540b356e7a7c08cf2213e.png

图2 现有大语言模型预训练数据中各种数据源的比例

(2)在模型层面,最引人关注的问题之一即是,为什么大语言模型往往采用 Decoder-Only 架构?本文从 Transformer 做语言模型的主干架构、具体模块和预训练任务三方面向读者们介绍如今大模型的常用方案,并在最后结合文献讨论大家选用 Decoder-Only 架构的原因。

(3)在训练层面,大参数量的模型非常难以优化。研究人员付出众多努力,提出了若干增加训练稳定性,及提升训练效率的方案。本章对 3D 并行、ZeRO 等被集成于 DeepSpeed 等代码库的相关训练技术进行归纳整理,并在最后对如何稳定、高效地预训练一个大语言模型给出建议。

39671cb8d8c620e69f313e8bb363949f.gif

#4

 大语言模型适配微调技术

预训练之后,“适配微调”(adaptation tuning)可以进一步增强大语言模型能力并满足人类偏好。本章主要介绍了两种适配微调技术:指令微调与对齐微调。

8bb3597a4761065001193c8e7cf9e239.jpeg

图3 指令格式实例示意图

● 指令微调通过收集指令格式的实例(图3)来微调大模型,大大增强了模型遵循人类指令的能力,能够让模型更好地泛化到未知任务。我们展示了两种收集指令格式实例的方法,并讨论了任务数量、实例数量、实例设计等因素对指令微调效果的影响;同时,我们也总结了指令微调过程中常见的数据集合和训练细节,方便研究者训练自己的模型。

aadff7fb80de1515ae2b1aa59e5a75ae.jpeg

图4 基于人类反馈的强化学习工作流程

● 对齐微调通过收集人类反馈数据,利用强化学习进一步微调大模型,使模型与人类对齐,更加符合人类的偏好。我们首先讨论了三种常见的对齐标准:有用性、诚实性和无害性,接着展示了三种人类反馈收集方式,最后介绍了基于人类反馈的强化学习流程(图4)。

b291607bc6d3ceea2c86e828bd6bec36.gif

#5

 大语言模型使用技术

92d2f64c88624943d4bc285f08cff492.png

图5 两种使用技术上下文学习(ICL)和思维链提示(CoT)的对比

本章介绍了大模型完成训练之后的使用方法。其中的代表性技术是上下文学习,它以自然语言文本的形式给大模型提供任务描述和/或任务示例。我们重点总结了如何设计有效的任务示例来增强大模型通过上下文学习完成下游任务的效果,包括示例的选择、格式以及顺序。我们还从预训练和推理两个阶段讨论了大模型上下文学习能力的来源。

此外,思维链提示也受到广泛关注,它的做法是在提示中添加中间推理步骤来增强大模型在推理任务上的性能。根据提示中是否存在样例,思维链提示的使用场景可以分为少样本和零样本两种情况。我们还讨论了思维链提示的适用场景以及大模型思维链推理能力的来源。

650bd6a6fe3e1d4b1ed43d69dee15ea5.gif

#6 

大语言模型能力评估

为了评估大语言模型的有效性和优越性,研究者在大量任务和评测基准上进行了评测与分析。我们从三个角度总结梳理了大语言模型的相关能力评估。

对于大模型的基础评测,我们主要关注了三类任务,包括语言生成任务、知识利用任务和复杂推理任务。总体来看,大语言模型在各类基础任务中取得了令人瞩目的效果。但与此同时,大语言模型在一些方面也存在亟待解决的问题,包括可控性、幻觉、知识实时性、一致性等等。

fe8d7522e957754d34c1629cd7c8fce5.png

除了上述基础任务外,大模型还表现出了很多高级能力。我们着重讨论了人类对齐、外界环境交互、工具操作三大类高级能力及其对应的评估方法。这三种能力极大地丰富了语言模型的应用场景,使得语言模型能做出符合人类价值观和偏好的行为,对现实世界产生作用,以及利用工具扩展能力边界。

接下来,我们介绍了面向大语言模型的现有综合评测基准以及相关实证分析。研究者提出了许多综合评测基准,用于全面的评测和比较大语言模型。同时,另一大类工作着重于对大语言模型通用能力以及专业领域应用能力的分析。

545ba3f08e5362e7c973bef47d7fbc34.gif

#7

 总结

该综述文章系统回顾了大语言模型的最新进展,介绍了重要概念与相关技术,最后总结了大语言模型的若干挑战与未来研究方向:

(1)大模型相关的理论和本质;

(2)更优的模型架构;

(3)更有效的训练方法;

(4)更高效的使用策略;

(5)安全性与一致性;

(6)应用与生态。

注:这篇综述是项目小组在一次内部讨论会之后开始撰写的,初衷是为团队成员提供高度可读的大模型最新进展报告。第一版草稿于2023年3月13日完成,之后我们进行了大量的修改以尽量保证这篇综述的客观性和全面性。尽管我们付出了很多努力,由于自身能力所限,这篇综述仍然可能包含不严谨的表达和讨论,也可能遗漏重要的参考文献,希望各位读者能够给予更多的指导意见,帮助我们不断完善这篇综述文章。

52cc1dd97a7da51c7d7ce94aea754a84.gif

本文作者:赵鑫(教授),周昆(博士三年级),李军毅(博士三年级),唐天一(硕士二年级),王晓磊(博士二年级),侯宇蓬(硕士三年级),闵映乾(硕士二年级),张北辰(硕士一年级),张君杰(硕士一年级),董梓灿(本科四年级),都一凡(博士一年级),杨晨(硕士二年级),陈昱硕(硕士二年级),陈志朋(本科四年级),蒋锦昊(博士二年级),任瑞阳(博士一年级),李依凡(本科四年级),汤昕宇(本科四年级),刘子康(博士一年级),刘沛羽(博士三年级),聂建云(加拿大蒙特利尔大学教授),文继荣(教授)

编辑 | 扈煜阳

1e0cfe2418fa93f270fccb37c50507e2.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/55741.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue模拟双色球

通过vue代码模拟双色球选号 <template><div class"yt-lottery"><el-button click"testRandom">生成彩票号码</el-button><div v-if"redNumArr.length"><br><table border"1" style"borde…

简单模拟双色球问题

双色球问题 规则简介 简单分析 随机一组中奖号码的分析&#xff1a; 1. 中奖号码由6个红球和1个篮球组成(注意&#xff1a;6个红球要求不能重复)。 2. 可以定义方法用于返回一组中奖号码(7个数据)&#xff0c;返回的形式是一个整型数。 代码如下 import java.util.Random; i…

模拟双色球系统——Java

目录 一、内容简介 二、 基本流程 三、具体步骤 1.菜单栏 2.随机生成幸运号码 3.用户输入 4.判断中奖情况 5.打印数组 四、代码实现 五、效果展示 一、内容简介 双色球是彩票的一种玩法&#xff0c;规则如下&#xff1a; 红球一共6组&#xff0c;每组从1——33中随…

面试问题之自我介绍

1、自我介绍 1. 我叫xxx&#xff0c;今年24岁&#xff0c;来自山东潍坊&#xff0c;毕业于山东理工大学&#xff1b;2. 上家公司就职于xxx,在公司主要负责系统维护&#xff0c;保证服务7*24小时稳定运行&#xff1b;3. 平常的工作有 ELK日志的收集&#xff0c; Zabbix监控报警的…

聊天信息框显示消息

聊天信息框显示消息 有趣的小案例池子&#xff1a; JS实现定时器 JS实现关闭图片窗口 JS实现输入检验 获取焦点后隐藏提示内容的输入框 JS实现获取鼠标在画布中的位置 聊天信息框显示消息 JS点击切换背景图 自动切换背景的登录页面 JS制作跟随鼠标移动的图片 JS实现记住用…

互联网金融和计算机哪个专业比较好,互联网金融专业就业方向及前景分析(解读)...

高考志愿填报如何选择专业?怎样才能选到一个好的专业?选择专业是一件非常重要的事情,我们都知道高考志愿填报最后选择的专业跟我们有着很大的关系,一般不要出现任何问题的话几乎后半生都是要靠着这个专业谋生的,所以选择一个喜欢的自己能做来的是很重要的。本文思而学教育网小…

初级会计资格-初级会计实务-知识点总结大全

会计 文章目录 会计基础会计一、会计概述&#xff08;6~8&#xff09;1.1 会计概念、职能和目标会计概念会计职能&#xff08;两个&#xff09;会计目标 1.2 会计基本假设、基础和信息质量要求&#xff08;四个&#xff09;会计基本假设&#xff08;两个&#xff09;会计基础&a…

matlab在金融工程中的应用,第八讲matlab在金融工程中的应用

第八讲matlab在金融工程中的应用 第八讲 Matlab 在金融工程中的应用,张树德 著,参考文献&#xff1a;,MATLAB金融计算与金融数据处理,北京航空航天大学出版社&#xff0c; 2008,Matlab金融工具箱模块,1. Financial Toolbox,Matlab自带金融工具箱&#xff0c;具有下列功能&…

互联网消费金融---互联网金融原理与实务【郭勤贵......等人著】的学习

1. 互联网消费金融概念&#xff1a; 互联网消费金融是“互联网消费金融”的新型金融服务模式。互联网消费金融是指银行&#xff0c;消费金融公司或者互联网企业等市场主体出资成立的非存款借贷公司以互联网技术和信息通信技术为工具&#xff0c;以满足个人或家庭对除房屋和汽车…

2021年金融科技书单推荐

在当今的社会&#xff0c;无论是学习金融还是从事金融工作都迫切需要掌握两门语言&#xff0c;一门是人与人之间交流的语言&#xff0c;比如中文、英文等&#xff1b;另一门就是人与计算机交流的语言&#xff0c;也就是计算机编程语言。面对林林总总的计算机编程语言&#xff0…

互联网金融

互联网金融 概述第一章 互联网金融概述互联网金融的定义互联网金融的业务模式互联网金融的主要特征互联网金融的产生和发展互联网金融对传统金融的影响 第二章 互联网金融原理微观层面金融功能理论与互联网金融金融创新理论和互联网金融支付理论与互联网金融 中观层面互联网金融…

python金融编程入门_python金融实务从入门到精通完整版

python金融实务从入门到精通 ├─第0章 课时 1 学员须知 素材 ├─第1章 金融人Python入门 │ ├─课时 3 – Python在金融资管领域中的应用.mp4 │ ├─课时 4 – 补充-Mac系统下安装anaconda步骤.mp4 │ ├─课时 5 – Python基础知识&#xff08;一&#xff09;.mp4 │…

python金融基础知识_python金融实务从入门到精通(23节课)

教程介绍&#xff1a; 本套python金融实务从入门到精通共23课。内容为&#xff1a;第1章金融人Python入门&#xff1b;第2章利用Python实现金融数据收集、分析与可视化&#xff1b;第3章Python爬虫实务&#xff1b;第4章 Python统计与金融实务应用。 第1章 金融人python入门 …

俄罗斯电商平台ozon的崛起,卖家可以使用测评补单方式打造爆款吗?

OZON俗称俄罗斯亚马逊&#xff0c;1998年成立&#xff0c;是俄罗斯唯一的多品类综合B2C电商平台&#xff0c;也是目前欧洲第四大电商市场。 作为俄罗斯互联网公司五强的OZON平台&#xff0c;拥有庞大的消费者群体&#xff0c;从2018年仅为480万人&#xff0c;到2021年就增长到…

2022年跨境电商卖家如何在Facebook上做广告【完整指南】

关键词&#xff1a;跨境电商卖家、Facebook广告 了解如何在 Facebook 上做广告对于大多数跨境电商卖家来说是一项非常重要的技能&#xff0c;因为您在 Facebook 上做广告&#xff0c;您的广告可以覆盖21.7 亿人——换句话说&#xff0c;接近世界人口的 30%。此外&#xff0c;该…

小爱同学自定义音色

最近小爱同学可以自定义音色了&#xff0c;但是部分童鞋机型不支持&#xff0c;怎么办呢&#xff1f;别着急&#xff0c;老衲来教你3步轻松解决。但是有个前提&#xff0c;你是小米手机。 下载一个低版本的小爱同学APP可以在此处下载&#xff1a;https://www.lanzous.com/ib5vu…

Mixly+点灯科技+小爱同学智能插座

Mixly点灯科技小爱同学智能插座 疫情了&#xff0c;时间多的很。游戏也玩累了&#xff0c;电影也没的看了。无聊至极&#xff01;得&#xff01;&#xff01;&#xff01;出来搞点事情吧。哈哈哈。 Mixly出了新版本&#xff08;正式版1.1.3&#xff09;这个版本很稳定也很好用…

小爱同学电脑版安装教程

小爱同学电脑版安装教程 安装教程注意事项使用体验电脑版小爱同学可以实现的功能 安装教程 Win10小爱同学已经上线Microsoft应用商店了&#xff0c;但有些版本的应用商店直接搜索不到&#xff0c;这里直接放链接: https://www.microsoft.com/zh-cn/p/小爱同学/9mw76kfhnz0c. …

小爱同学+8266的小爱语音台灯,基于Blinker库

“我们的动力源于对电子的热爱” 为大家详细介绍最近的语音台灯&#xff0c;不用了解各种通讯协议&#xff0c;直接调用函数&#xff0c;小白也会&#xff01; 链接&#xff1a;https://pan.baidu.com/s/12m0TMhjH7SR9DHA_pTowBg?pwdm4zf 提取码&#xff1a;m4zf 目录 想法…

AI音箱的原理,小爱同学、天猫精灵、siri。

AI音箱的原理 简单的说&#xff0c;音箱工作的时&#xff0c;麦列始终处于拾音状态&#xff08;对声音进行采样&#xff0c;量化&#xff09;。进过基本的信号处理&#xff08;静音检测、降噪等&#xff09;&#xff0c;唤醒模块会判断是否出现唤醒词&#xff0c;是的话就进行…