大语言模型基础

简介

AI大模型是“人工智能预训练大模型”的简称,包含了“预训练”和“大模型”两层含义,二者结合产生了一种新的人工智能模式,即模型在大规模数据集上完成了预训练后无需微调,或仅需要少量数据的微调,就能直接支撑各类应用。AI大模型主要分为三类:大语言模型、CV大模型和多模态大模型,我将分别介绍它们的背景知识、关键技术、演进路线和挑战。

什么是大语言模型

大语言模型(Large Language Model,LLM)是一种大规模预训练神经网络语言模型。

大规模:区别于已有的较小规模并主要用于理解类任务的预训练语言模型(如BERT),特指规模较大(数十亿到数千亿参数)并具有较强生成能力的语言模型。

预训练:在海量文本数据集上预训练,以GPT3为例, 300B tokens可用于训练参数量大小为175B的LLM。 "token"通常指的是一个离散的文本单元,它可以是单词、标点符号、数字或其他语言元素,这些元素被用作训练和生成文本的基本单位。

语言模型:通俗来说,指对于任意的词序列,能够计算出这个序列是一句话的概率的模型。用于预测未来或缺失tokens的概率。

语言模型的演进

语言模型的定义:

等价定义:从文本生成的角度,定义语言模型为:给定一个短语(一个词组或一句话),语言模型可以生成接下来的一个词。

统计语言模型 Statistical language models (SLM) :

起源于90年代的统计学习方法,基本思想是基于马尔可夫假设建立词预测模型,即每个词只依赖前序词。代表方法为N-gram语言模型。

神经语言模型 Neural language models (NLM):

N-gram的缺陷:将词看作离散变量并用one-hot表示,导致词与词不存在语义关联,且参数量级是指数级。

NLM通过结合词向量(word embedding)前馈神经网络来解决上面两个问题:

每个词用低维稠密向量表示,这就使得语义相似的词对应的向量在空间中相邻成为可能(前提是词向量训练的效果达到预期),给模型带来了泛化能力上的提升;神经网络强大的学习能力很适合拟合概率分布。

FFNNLM(2003,Bengio):将wi前n-1个词的向量进行拼接作为网络输入,经过一次非线性变换,最后输出字典中每个词的概率作为预测结果

预训练语言模型 Pre-trained language models (PLM):

ELMo(2018):预训练方式的早期尝试,采用预训练的双向LSTM网络学习词向量并根据下游任务微调网络。

BERT(2018):Pre-training of Deep Bidirectional Transformers for Language Understanding 一个多层Transformer的Encoder,再连接到不同的下游任务。采用两个无监督任务进行参数预训练,语料库大小3200M。

这类方法形成了预训练+微调的学习范式,在此基础上发展了多样的语言模型(GPT-2(2019)、BART(2020))。

在这里插入图片描述

大语言模型 Large language models (LLM):

大量研究工作通过训练参数量更大的PLM来探索性能的瓶颈,如175B的GPT-3和540B的PaLM。

具有相似结构和预训练任务,而模型大小不同的模型展现出了不同的能力:大PLM表现比小PLM更优,如具有涌现能力。

GPT-3可通过in-context学习解决少样本问题而GPT-2难以解决,因此学术界将大规模的PLM称为LLM。

ChatGPT:将LLM用于对话任务,展现出惊人的和人类对话的能力。
在这里插入图片描述

LLM的工作原理

LLM的缩放法则(scaling law):

LLM主要建立在Transformer架构上。LLM极大扩大了模型大小、数据大小和总计算量。大量研究表明增加模型大小、数据量、训练时间可以极大提升LLM的能力。

存在两个定量的方法来描述LLM尺度的影响,可以粗糙地在训练阶段根据模型和数据大小预测模型性能

LLM的涌现能力(Emergent Abilities):

定义为小模型不存在仅大模型拥有的能力,是区分LLM和PLM的关键特征,当尺度达到特定值模型性能显著提升,这个值难以精确评估,和模型种类、大小和任务都有关。

涌现能力1-上下文学习(in-context learning):

GPT-3正式提出预测时,给语言模型输入足够的自然语言指令或背景知识、任务描述等,不通过额外训练或梯度更新就能够通过补全来生成期望的输出如few shot:6+7=13,6+6=12,5+5=10,8+9=?

ICL能力依赖下游任务,如可出现在算术任务里,13B的GPT-3可轻松解决加减运算而175B的GPT-3在波斯语问答任务上表现不佳

涌现能力2-指令遵循(Instruction following):

指令微调:指通过构建指令格式的实例,然后以有监督的方式对大语言模型进行微调。指令格式通常包含任务描述,一对输入输出以及示例(可选)。

通过指令微调,LLM可以在没有见过的任务上有不错的表现。

大模型独有能力,如PaLM至少需要62B才能具有该能力。

涌现能力3-逐步推理(Step-by-step reasoning):

小模型通常难以解决设计多段推理步骤的复杂任务,在思维链(chain-of-thought,CoT)的提示策略下,LLM能够利用涉及中间推理步骤的提示机制来推导最终的结果。该能力经猜测可通过在代码上训练获得。

经验研究表明CoT用在60B以上的PaLM和LaMDA上能带来算术推理能力的提升,明显优于普通提示学习在100B模型上微调的性能。

思维链提示(CoT Prompting):

通过在Few-shot样本中加入推理过程,可以引导模型在解码过程中,先给出推理过程,再得到最终答案;

类似中间推理过程的加入,可以显著提高模型在常识推理,数学问题,符号推理等复杂推理问题上的模型表现。

LLM的关键技术

在LLM发展的过程中,大量的技术相继被提出,极大提升了LLM的能力,这里简单介绍五类关键技术

缩放(Scaling)

根据前面描述的缩放法则,越大的模型、数据量、训练时间趋向于获得更好的模型性能.

可用缩放法则指导有限资源下的模型大小、数据量和训练时间的设置,以取得目标性能(训练损失).

如Chinchilla,实现了700亿参数量性能超越5300亿参数量的MT-NLG.

训练(Training)

大模型给训练带来了挑战。

分布式训练算法用于训练LLM,采用了大量的并行策略
DeepSpeed、Megatron-LM发布了优化框架便于并行算法的实现。

多种优化技巧:重启策略(Palm)、混合精度训练(BLOOM)、用小模型预测大模型性能(GPT-4)等。

能力激发(Ability eliciting)

大规模预训练后,LLM被赋予了潜在的通用任务解决能力,但是面对特殊任务这些能力不会明显显示出来。

指令微调,CoT提示,ICL学习策略等激发LLM潜在的能力。

对齐微调(Alignment tuning)

由于LLM的训练语料质量高低不一,LLM可能生成有偏见的、令人不快的内容,因此需要将LLM与人类价值(有用、诚实和无害)对齐。

InstrutGPT利用人类反馈的增强学习技术(reinforcement learning with human feedback,RLHF)进行微调,过程中需要人仔细地标注数据。

工具使用(Tools manipulation)

LLM被训练为文本生成器,在非文本表述地任务中表现欠佳且受限于预训练数据,不能获取实时信息。

工具使用技术被用来补偿上述LLM的缺陷。

利用计算器获得精确计算能力。

利用向量搜索、知识库获得未知信息。

利用额外插件(如app的API)扩展LLM的功能。

在这里插入图片描述

LLM的发展趋势-GPT的技术演进

早期演进

OpenAI的早期尝试基于RNN的语言模型,Transformer出现后,发展了两个初始GPT模型:GPT-1和GPT-2,是GPT-3和GPT-4的基础模型。

GPT-1(2018)(Generative Pre-Training)使用了12层的transformer,训练分为无监督的预训练和有监督的模型微调
在这里插入图片描述

GPT-2(2019)目标是使用无监督的预训练模型做有监督的任务,基于GPT-1使用了更多的网络参数和更大的数据集

核心思想:任何有监督任务都是语言模型的一个子集,当模型的容量非常大且数据量足够丰富时,仅仅靠训练语言模型便可以完成其他有监督学习的任务

贡献:验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需
要额外的训练,表明随着模型容量和数据量的增大,其潜能还有进一步开发的空间

LLM面临的挑战

幻觉问题

指的是AI 输出中不正确或无意义的部分,尽管这类输出在句法上是合理的,减轻幻觉问题是一个蓬勃发展的研究课题。

优化上下文长度限制

大多数大语言模型的输入长度都在2K以内,支持超长上下文模型有claude-1.3-100k。

GPU替代方案

随着模型规模的不断增大,GPU可能会遇到性能瓶颈,也可能无法满足能效。代替方案TPU、IPUs、量子计算。

设计新的模型架构

适用于特定任务或问题的模型,以及从根本上重新考虑自然语言处理的基本原理。一些方向包括使用图神经网络、因果推理架构、迭代计算模型等。

提高从人类偏好中学习的效率

数据采集成本高,研究人员正在探索如何在从人类偏好中学习时提高效率和性能,例如使用主动学习、迁移学习、半监督学习等方法。

合并其它数据模态

许多用例需要多模态数据,特别是在涉及多种数据模态的行业,如医疗保健、机器人、电子商务、零售、游戏、娱乐等。

如果你还想挖掘更多宝藏内容,扫描下方二维码关注我们,更多惊喜等着你哟!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23111.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java Web

1.JavaWeb开发 前面的学习javase开发,而javaweb开发需要服务器和网页。 具备: java mysql jdbc htmlcssjs。 web服务器: tomcat服务器. 部署项目。 https://tomcat.apache.org/download-80.cgi 解压软件压缩包即可 不要放在中文目录和特殊符号的目录下 启动tomcat服…

SOME/IP--协议英文原文讲解12(完结)

前言 SOME/IP协议越来越多的用于汽车电子行业中,关于协议详细完全的中文资料却没有,所以我将结合工作经验并对照英文原版协议做一系列的文章。基本分三大块: 1. SOME/IP协议讲解 2. SOME/IP-SD协议讲解 3. python/C举例调试讲解 4.3 Compa…

光明谷推出AT指令版本的蓝牙音箱SOC 开启便捷智能音频开发新体验

前言 在蓝牙音箱市场竞争日益激烈的当下,开发一款性能卓越且易于上手的蓝牙音箱,成为众多厂商追求的目标。而光明谷科技有限公司推出的 AT 指令版本的蓝牙音箱 SOC,无疑为行业带来了全新的解决方案,以其诸多独特卖点,迅…

STM32——HAL库开发笔记22(定时器3—呼吸灯实验)(参考来源:b站铁头山羊)

本文利用前几节所学知识来实现一个呼吸灯实验:两颗led灯交替呼吸。 一、STM32CubeMX配置 step1:配置调试接口 step2:配置定时器 定时器1位于APB2总线上,如上图所示。 step3:配置时基单元 按照下图配置 时钟来源配置…

医疗AI领域中GPU集群训练的关键技术与实践经验探究(下)

五、医疗 AI 中 GPU 集群架构设计 5.1 混合架构设计 5.1.1 参数服务器与 AllReduce 融合 在医疗 AI 的 GPU 集群训练中,混合架构设计将参数服务器(Parameter Server)与 AllReduce 相结合,能够充分发挥两者的优势,提升训练效率和模型性能。这种融合架构的设计核心在于根…

修改Ubuntu系统用户密码(root密码)的方法

本文介绍在Linux系统的Ubuntu电脑中,修改账户用户密码(同时也修改了root用户密码)的方法。 首先,如果此时处于登录页面(也就是意识到自己忘记密码的那个页面),就先点击右上角的关闭按钮&#xf…

【清华大学】DeepSeek从入门到精通系列教程 第五版:DeepSeek与AI幻觉 pdf文档下载

【清华大学】DeepSeek使用教程系列之DeepSeek与AI幻觉 pdf文件完整版下载 https://pan.baidu.com/s/17evZMjiGNR0hun2jVdAkbg?pwd1234 提取码: 1234 或 https://pan.quark.cn/s/160d03fa907f DeepSeek与AI幻觉内容摘要 一、‌定义与类型‌ AI幻觉指模型生成与事实不符…

记录此刻:历时两月,初步实现基于FPGA的NVMe SSD固态硬盘存储控制器设计!

背景 为满足实验室横向项目需求,在2024年12月中下旬导师提出基于FPGA的NVMe SSD控制器研发项目。项目核心目标为:通过PCIe 3.0 x4接口实现单盘3000MB/s的持续读取速率。 实现过程 调研 花了半个月的时间查阅了一些使用FPGA实现NVME SSD控制器的论文、…

【Linux】进程

1. 多任务(并发) 让系统具备同时处理多个任务的能力。 2. 如何实现多任务 1)进程 2)线程 3. 进程 正在执行的程序,需要消耗内存和cpu, 一个动态执行的过程。 进程生存周期: …

3D模型在线转换工具:轻松实现3DM转OBJ

3D模型在线转换是一款功能强大的在线工具,支持多种3D模型格式的在线预览和互转。无论是工业设计、建筑设计,还是数字艺术领域,这款工具都能满足您的需求。 3DM与OBJ格式简介 3DM格式:3DM是一种广泛应用于三维建模的文件格式&…

Docker安装Open WebUI教程

Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 AI 平台,旨在完全离线运行。它支持各种LLM运行器,如 Ollama 和 OpenAI 兼容的 API,并内置了 RAG 推理引擎,使其成为强大的 AI 部署解决方案。 官网文档地址:https://docs.openwebui.com/ 一、拉取镜像 下载的镜像包比…

VSCode集成deepseek使用介绍(Visual Studio Code)

VSCode集成deepseek使用介绍(Visual Studio Code) 1. 简介 随着AI辅助编程工具的快速发展,VSCode作为一款轻量级、高度可扩展的代码编辑器,已成为开发者首选的工具之一。DeepSeek作为AI模型,结合Roo Code插件&#x…

京东广告基于 Apache Doris 的冷热数据分层实践

一、背景介绍 京东广告围绕Apache Doris建设广告数据存储服务,为广告主提供实时广告效果报表和多维数据分析服务。历经多年发展,积累了海量的广告数据,目前系统总数据容量接近1PB,数据行数达到18万亿行,日查询请求量8…

五、Three.js顶点UV坐标、纹理贴图

一部分来自1. 创建纹理贴图 | Three.js中文网 ,一部分是自己的总结。 一、创建纹理贴图 注意:把一张图片贴在模型上就是纹理贴图 1、纹理加载器TextureLoader 注意:将图片加载到加载器中 通过纹理贴图加载器TextureLoader的load()方法加…

学术论文项目网站搭建教程【Github】

本教程使用的是linux系统,ubuntu20.04版本进行学术项目网站搭建 一:创建github的个人组织 我个人习惯使用自己的github组织【Your organizations】来进行学术项目网站的创建: New一个organization,点击Free中的Create a free o…

第4章 信息系统架构(三)

4.3 应用架构 应用架构的主要内容是规划出目标应用分层分域架构,根据业务架构规划目标应用域、应用组和目标应用组件,形成目标应用架构逻辑视图和系统视图。从功能视角出发,阐述应用组件各自及应用架构整体上,如何实现组织的高阶…

第三十四周学习周报

目录 摘要Abstract1 文献阅读1.1 相关知识1.1.1 贝叶斯优化1.1.2 注意力机制复习 1.2 模型框架1.3 实验分析 总结 摘要 在本周阅读的文献中,作者提出了一种将注意力机制与LSTM相结合的模型AT-LSTM。虽然传统LSTM通过其门控机制能有效捕捉时间序列中的长期依赖关系&…

pyside6学习专栏(七):自定义QTableWidget的扩展子类QTableWidgetEx

PySide6界面编程中较常用的控件还有QTableWidget表格控件,用来将加载的数据在表格中显示出来,下面继承QTableWidget编写其扩展子类QTableWidgetEx,来实现用单元格来显示除数据文字外,还可以对表格的单元格的文字颜色、背景底色进行设置&#…

图像处理篇---图像处理中常见参数

文章目录 前言一、分贝(dB)的原理1.公式 二、峰值信噪比(PSNR, Peak Signal-to-Noise Ratio)1.用途2.公式3.示例 三、信噪比(SNR, Signal-to-Noise Ratio)1.用途2.公式3.示例 四、动态范围(Dyna…

【大模型】蓝耘智算云平台快速部署DeepSeek R1/R3大模型详解

目录 一、前言 二、蓝耘智算平台介绍 2.1 蓝耘智算平台是什么 2.2 平台优势 2.3 应用场景 2.4 对DeepSeek 的支持 2.4.1 DeepSeek 简介 2.4.2 DeepSeek 优势 三、蓝耘智算平台部署DeepSeek-R1操作过程 3.1 注册账号 3.1.1 余额检查 3.2 部署DeepSeek-R1 3.2.1 获取…