大型语言模型 (LLM)全解读

一、大型语言模型(Large Language Model)定义

大型语言模型 是一种深度学习算法,可以执行各种自然语言处理 (NLP) 任务
大型语言模型底层使用多个转换器模型底层转换器是一组神经网络
大型语言模型是使用海量数据集进行训练的超大型深度学习模型。
这也是它们能够识别、翻译、预测或生成文本或其他内容的强大基础所在。

因此大型语言模型也称为神经网络 (NN),是受人类大脑启发而开发出的计算系统。这些神经网络利用分层的节点网络工作,就像神经元一样。这些神经网络由具有自注意力功能的编码器和解码器组成。编码器和解码器从一系列文本中提取含义,并理解其中的单词和短语之间的关系。转换器 LLM 能够进行无监督的训练,但更精确的解释是转换器可以执行自主学习。
通过此过程,转换器可学会理解基本的语法、语言和知识。与早期按顺序处理输入的循环神经网络(RNN)不同,转换器并行处理整个序列。这可让数据科学家使用 GPU 训练基于转换器的 LLM,从而大幅度缩短训练时间

除了向人工智能 (AI) 应用程序教授人类语言外,还可以训练大型语言模型来执行各种任务,如理解蛋白质结构、编写软件代码等。像人类大脑一样,大型语言模型必须经过预先训练,然后再进行微调,这样它们才能解决文本分类、问题解答、文档摘要和文本生成等问题。它们这些解决问题的能力可应用于医疗保健、金融和娱乐等多种领域;在这些领域中,大型语言模型用于支持各种 NLP 应用程序,例如翻译、聊天机器人、AI 助手等。

大型语言模型也具有大量的参数,类似于模型从训练中学习时收集的各种记忆。我们可以将这些参数视为模型的知识库。

LLM发展史
Generative Pre-trained Transformer 3 (GPT-3) is a large language model released by OpenAI in 2020

模型包括训练和推理两个阶段,训练的时候包含了前向传播和反向传播,推理只包含前向传播,所以预测时候的速度更重要。

二、大型语言模型如何运作?

LLM 运作原理的一个关键因素是它们表示单词的方式。早期的机器学习使用数字表来表示每个单词。但是,这种表示形式无法识别单词之间的关系,例如具有相似含义的单词。人们采用如下方式克服此限制:使用多维向量(通常称为单词嵌入)来表示单词,从而使具有相似上下文含义或其他关系的单词在向量空间中彼此接近。

使用单词嵌入,转换器可以通过编码器将文本预处理为数字表示,并理解含义相似的单词和短语的上下文以及单词之间的其他关系,例如语音部分。然后,LLM 就可以通过解码器应用这些语言知识来生成独特的输出。

即大型语言模型以转换器模型为基础,**其工作原理是:接收输入,对输入进行编码,然后解码以生成输出预测。**但是,在大型语言模型能够接收文本输入并生成输出预测之前,需要先对它进行训练,以便执行一些常规功能,然后再进行微调后才能执行特定任务。

训练:大型语言模型会使用维基百科、GitHub 或其他网站的大型文本数据集进行预先训练。这些数据集包含数以万亿计的字词,它们的质量会影响语言模型的性能。在这个阶段,大型语言模型主要进行无监督学习,这意味着它会在没有特定指令的情况下处理输入的数据集。在这个过程中,LLM 的 AI 算法可以学习字词的意思,以及字词之间的关系。此外,它还会根据上下文学习分辨字词。例如,它将学习理解“right”是“正确”的意思,还是“左”的反义词。

微调:为了让大型语言模型执行诸如翻译等特定任务,则必须针对特定活动对它进行微调。微调可优化特定任务的性能。

提示调优的作用与微调类似,也就是通过少样本提示或零样本提示来训练模型执行特定任务。提示是提供给 LLM 的指令。少样本提示会通过使用示例来教模型预测输出。例如,在这个情绪分析练习中,少样本提示将如下所示:

Customer review: This plant is so beautiful!
Customer sentiment: positive

Customer review: This plant is so hideous!
Customer sentiment: negative
语言模型通过“hideous”的语义,并基于提供的一个相反示例,理解第二个示例中的客户情感是“negative”。

另外,零样本提示不会使用示例来教语言模型如何对输入做出响应。相反,它会将问题表述为“The sentiment in ‘This plant is so hideous’ is….”(“‘这种植物太丑了’中的情感是……” 它会明确指出语言模型应执行的任务,但没有提供解决问题的示例。

三、如何训练大型语言模型?

基于转换器的神经网络非常庞大。这些网络包含多个节点和层。层中的每个节点都有指向后续层中所有节点的连接,并且每个节点都有权重和偏差。权重和偏差以及嵌入称为模型参数。基于转换器的大型神经网络可以有数十亿个参数。模型的大小通常由模型大小、参数数量和训练数据规模之间的经验关系决定。

使用大量高质量数据执行训练。在训练过程中,模型会迭代调整参数值,直到模型可根据前一个输入令牌序列正确预测下一个令牌。为此,模型使用自学技术,这些技术教导模型调整参数,以最大限度地提高训练示例中正确预测下一个令牌的可能性。

经过训练,LLM 可以很容易地适应使用相对较小的有监督数据集执行多项任务,这一过程称为微调。

训练语言模型需要向其提供大量的文本数据,模型利用这些数据来学习人类语言的结构、语法和语义。这个过程通常是通过无监督学习完成的,使用一种叫做自我监督学习的技术。在自我监督学习中,模型通过预测序列中的下一个词或标记,为输入的数据生成自己的标签,并给出之前的词。

训练过程包括两个主要步骤:预训练(pre-training)和微调(fine-tuning):

  • 在预训练阶段,模型从一个巨大的、多样化的数据集中学习,通常包含来自不同来源的数十亿词汇,如网站、书籍和文章。这个阶段允许模型学习一般的语言模式和表征。
  • 在微调阶段,模型在与目标任务或领域相关的更具体、更小的数据集上进一步训练。这有助于模型微调其理解,并适应任务的特殊要求。

存在三种常见的学习模型:
1)零样本学习;Base LLM 无需明确训练即可响应各种请求,通常是通过提示,但是答案的准确性各不相同。
2)少量样本学习:通过提供一些相关的训练示例,基础模型在该特定领域的表现显著提升。
3)微调:这是少量样本学习的扩展,其中数据科学家训练基础模型,使模型使用与特定应用相关的其他数据来调整其参数。

四、什么是自然语言处理 (NLP)?

自然语言处理会通过多种不同方式工作。
1)基于 AI 的 NLP 涉及使用 Machine Learning 算法和技巧来处理、理解和生成人类语言。
2)基于规则的 NLP 涉及创建一个可用来分析和生成语言数据的规则或模式的集合。
3)统计学 NLP 涉及使用从大型数据集中获得的统计模型来分析语言并做出语言方面的预测。
混合 NLP 将上述三种方法结合到一起。

基于 AI 的 NLP 方法当今最为热门。与任何其他数据驱动型学习方法一样,开发 NLP 模型需要对文本数据进行预处理并精心选择学习算法。

  • 第 1 步:数据预处理
    这是指清理并准备文本的过程,以便 NLP 算法能够对其进行分析。部分常见的数据预处理技巧包括文本挖掘(指使用大量文本并将文本拆分为数据)或词汇切分(指将文本拆分成单独的单元)。这些单独的单元可以是标点、单词或词组。停用词删除是一项工具,可移除对话中通常不太有助于分析的常用词和冠词。词干提取和词形还原会将单词拆分成其基本词根形式,以便更轻松地识别它们的意思。词性标注可识别一句话中的名词、动词、形容词和其他词性的词。语法分析会分析句子结构以及不同单词之间的关系。

  • 第 2 步:算法开发
    这是向预处理数据应用 NLP 算法的过程。它会从文本中提取有用信息。下面是一些最常见的自然语言处理任务:

情感分析确定一段文本中的情绪基调或者情感。情感分析会将单词、词组和表达标注为积极、消极或中立。
命名实体识别会识别命名实体并对其进行分类,例如人、位置、日期和组织。
主题建模会将相似的单词和词组分组到一起,以识别一系列文档或文本的主要话题或主题。
机器翻译会使用 Machine Learning 将文本自动从一种语言翻译成另一种语言。语言建模会预测特定上下文中单词序列的可能性。
语言建模用于自动完成、自动更正应用程序,还用于语音转文本系统。

需要注意的两个 NLP 分支是自然语言理解 (NLU) 和 自然语言生成 (NLG)

  • 1.NLU 专注于让计算机使用与人类所用工具类似的工具来理解人类语言。它的目的是让计算机理解人类语言的细微之处,包括上下文、意向、情感和模糊性。NLG 专注于基于数据库或规则集创建与人类语言类似的语言。
  • 2.NLG 的目标是生成可被人类轻松理解的文本。

五、什么是转换器模型呢?

转换器模型是大型语言模型中最常见的架构。它由一个编码器和一个解码器组成。转换器模型通过将输入信息转换为词元来处理数据,然后同时进行数学运算来发现词元之间的关系。这样,计算机就能够看到人类在面对同样查询时所看到的模式。

转换器模型使用自注意力机制工作,与长短期记忆模型等这类传统模型相比,这种模型的学习速度更快。自注意力让转换器模型能够考虑序列的不同部分或句子的整个上下文,从而生成预测。

六、大型语言模型的关键组件

大型语言模型由多个神经网络层组成。递归层、前馈层、嵌入层和注意力层协同工作,对输入文本进行处理并生成输出内容。

  • 1.递归层会按顺序解读输入文本中的字词,并获取句子中字词之间的关系。
  • 2.前馈层 (FFN) 由多个完全互联的层组成,用于转换基于输入文本生成的嵌入。这样,这些层就能够使模型收集更高层级的抽象概念,也就是理解用户输入文本的意图。
  • 3.嵌入层会基于输入文本创建嵌入。大型语言模型的这一部分会获取输入内容的语义和句法含义,从而让模型能够理解上下文。
  • 4.注意力层能够让语言模型专注于输入文本中与当前任务相关的各个部分。通过这一层,可让模型生成最准确的输出。

在您的搜索应用程序中应用转换器
大型语言模型主要有三种:

  • 1)通用或原始语言模型会根据训练数据中的语言预测下一个字词。这些语言模型可执行信息检索任务。
  • 2)指令调优的语言模型经过训练后,可预测输入中所给指令的响应。这可使用它们执行情感分析,或者生成文本或代码。
  • 3)对话调优的语言模型经过训练后,可通过预测下一个响应来进行对话。例如,聊天机器人或对话 AI。

七、大型语言模型与生成式 AI 之间的区别?

生成式 AI 是一个总称,是指有能力生成内容的人工智能模型。生成式 AI 可以生成文本、代码、图像、视频和音乐。例如,生成式 AI 有 Midjourney、DALL-E 和 ChatGPT。

大型语言模型是一种生成式 AI,它基于文本进行训练并生成文本内容。ChatGPT 就是一个广为流行的文本生成式 AI 示例。
所有大型语言模型都是生成式 AI1。

八、常用大型语言模型示例

很多常用的大型语言模型已经风靡全球。其中有许多已经被各行各业的人们所采用。您一定听说过 ChatGPT 这种生成式 AI 聊天机器人。

其他常用 LLM 模型还包括:

PaLM:Google 的 Pathways Language Model (PaLM) 是一种转换器语言模型,能够进行常识和算术推理、笑话解释、代码生成和翻译。
BERT:基于转换器的双向编码器表示 (BERT) 语言模型也是在 Google 开发的。它是一个基于转换器的模型,可以理解自然语言并回答问题。
XLNet:XLNet 是一种排列语言模型,以随机顺序生成输出预测,这是它与 BERT 的不同之处。它会先评估编码词元的模式,然后以随机顺序预测词元,而不是按顺序进行预测。
GPT:生成式预训练的转换器可能是最著名的大型语言模型。由 OpenAI 开发的 GPT 是一种热门基础模型,其带编号的迭代都是对前代(GPT-3、GPT-4 等)的改进。它可以进行微调以在下游执行特定任务。这方面的示例包括:Salesforce 开发的用于 CRM 的 EinsteinGPT,以及 Bloomberg 开发的用于金融的 BloombergGPT。

多模态与单模态

2021开年,推出两个跨越文本与图像次元的模型:DALL·E和CLIP,前者可以基于文本生成图像,后者可以基于文本对图片分类,两者都意在打破自然语言处理和计算机视觉两大门派“泾渭分明”的界限,实现多模态AI系统。CLIP是一个预训练模型,就像BERT、GPT、ViT等预训练模型一样。首先使用大量无标签数据训练这些模型,然后训练好得模型就能实现,输入一段文本(或者一张图像),输出文本(图像)的向量表示。CLIP和BERT,GPT,ViT的区别在于,CLIP是多模态的,包含图像处理以及文本处理两个方面的内容,而BERT,GPT是单模态的,VIT是单模态图像的。

                                                                                                    **扫描二维码进行NFT抽奖**

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/244255.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】Linux中的日志查询方法

文章目录 linux日志与日志的查询方法更多journalctl用法journalctl用法案例部分日志路径说明推荐阅读 linux日志与日志的查询方法 在Linux系统中,日志文件用于记录系统的各种运行信息和错误消息。常见的日志文件包括但不限于/var/log/下的各种日志,如me…

Armv8-M的TrustZone技术之SAU寄存器总结

每个SAU寄存器是32位宽。下表显示了SAU寄存器概要。 5.1 SAU_CTRL register SAU_CTRL寄存器的特征如下图和表所示: 5.2 SAU_TYPE register 5.3 SAU_RNR register 5.4 SAU_RBAR register 5.5 SAU_RLAR register 5.6 SAU区域配置 当SAU启用时,未由已启用…

亚信安慧AntDB:AntDB-M元数据锁之对象锁(四)

l 对象锁 (per-object locks) 除了IX锁,其他类型都可以用于其他命名空间,这部分是最常用的锁类型。主要用于对数据库的某个具体元数据的并发控制。这类锁对象会比较多,对其有独特的管理,本文不再展开说明。 5.3 两种锁类型 根据…

桌面型物联网智能机器人设计(预告)

相关资料 桌面级群控机器人CoCube探索-2022--CSDN博客 视频: 能!有!多!酷!CoCube桌面级群控机器人 让我看看谁在SJTU里划水… 简要介绍 设计一个桌面型物联网智能机器人,以ESP32芯片为核心,配…

网络安全的使命:守护数字世界的稳定和信任

在数字化时代,网络安全的角色不仅仅是技术系统的守护者,更是数字社会的信任保卫者。网络安全的使命是保护、维护和巩固数字世界的稳定性、可靠性以及人们对互联网的信任。本文将深入探讨网络安全是如何履行这一使命的。 第一部分:信息资产的…

【Linux】常见指令(一)

前言: Linux有许多的指令,通过学习这些指令,可以对目录及文件进行操作。 文章目录 一、基础指令1. ls—列出目录内容2. pwd—显示当前目录3. cd—切换目录重新认识指令4. touch—创建文件等5. mkdir—创建目录6. rmdir指令 && rm 指令7. man—显…

学会使用ubuntu——ubuntu22.04使用WebCatlog

Ubuntu22.04使用WebCatlog WebCatlog是适用于Gnu / Linux,Windows或Mac OS X系统的桌面程序。 引擎基于铬,它用于在我们的桌面上处理Web服务。简单点就是把网页单独一个窗口出来显示,当一个app用。本文就是利用WebCatlog安装后的notion编写的…

5G-A:“繁花”盛开在2024

2019年,我国正式发牌5G,开启5G商用新时代。通信技术十年一代,五年过去了,5G是否要进入“半代更迭”阶段? 2024年被视为5G-A商用元年,是5G走向6G的关键一跃。5G-A以R18为演进起点,在连接速率、网…

macOS跨进程通信: Unix Domain Socket 创建实例

macOS跨进程通信: Unix Domain Socket 创建实例 一: 简介 Socket 是 网络传输的抽象概念。 一般我们常用的有Tcp Socket和 UDP Scoket, 和类Unix 系统(包括Mac)独有的 Unix Domain Socket(UDX)。 Tcp So…

数据的存储

目录 1 -> 数据类型的介绍 1.1 -> 类型的基本归类 2 -> 整型在内存中的存储 2.1 -> 原码、反码、补码 2.2 -> 大小端介绍 3 -> 浮点型在内存中的存储 3.1 -> 浮点数存储规则 1 -> 数据类型的介绍 基本内置类型有: char /…

小程序技术实践:快速开发适配鸿蒙的App

今年,在中国,被各大媒体和开发者称为“鸿蒙元年”。 在2023年底就有业内人士透露,华为明年将推出不兼容安卓的鸿蒙版本,未来IOS、鸿蒙、安卓将成为三个各自独立的系统。 果不其然,执行力超强的华为,与202…

黑马程序员JavaWeb开发|Maven高级

一、分模块设计与开发 分模块设计: 将项目按照功能拆分成若干个子模块,方便项目的管理维护、扩展,也方便模块间的相互调用,资源共享。 注意:分模块开发需要先对模块功能进行设计,再进行编码。不会先将工…

C++设计模式之迭代器模式

【声明】本题目来源于卡码网(https://kamacoder.com/) 【提示:如果不想看文字介绍,可以直接跳转到C编码部分】 【设计模式大纲】 【简介】 --什么是迭代器模式(第19种设计模式) 迭代器模式是⼀种行为设计模…

消息中间件之Kafka(二)

1.Kafka线上常见问题 1.1 为什么要对topic下数据进行分区存储? 1.commit log文件会受到所在机器的文件系统大小的限制,分区之后可以将不同的分区放在不同的机器上, 相当于对数据做了分布式存储,理论上一个topic可以处理任意数量的数据2.提…

Hbas简介:数据模型和概念、物理视图

文章目录 说明零 BigTable一 Hbase简介二 HBase 访问接口简介三 行式&列式存储四 HBase 数据模型4.1 HBase 列族数据模型4.2 数据模型的相关概念4.3 数据坐标 五 概念&物理视图 说明 本文参考自林子雨老师的大数据技术原理与应用(第三版)教材内容,仅供学习…

MySQL---多表分组查询综合练习

创建dept表 CREATE TABLE dept ( deptno INT(2) NOT NULL COMMENT 部门编号, dname VARCHAR (15) COMMENT 部门名称, loc VARCHAR (20) COMMENT 地理位置 ); 添加dept表主键 mysql> alter table dept add primary key(deptno); Query OK, 0 rows affected (0.02 s…

Spring5系列学习文章分享---第三篇(AOP概念+原理+动态代理+术语+Aspect+操作案例(注解与配置方式))

目录 AOP概念AOP底层原理AOP(JDK动态代理)使用 JDK 动态代理,使用 Proxy 类里面的方法创建代理对象**编写** **JDK** 动态代理代码 AOP(术语)AOP操作(准备工作)**AOP** **操作(**AspectJ注解)**AOP** **操作(**AspectJ…

GitHub无法完成推送 的设置选项

GitHub无法完成推送 的设置选项 系统设置 VS中控制台设置【指令】 控制台调出方法 以下为VS控制台指令 git config --global --unset http.proxy git config --global --unset https.proxygit config --global http.proxy 127.0.0.1:7890 git config --global https.proxy …

百万级监控指标的秒级采集与处理

随着云原生概念的深入普及和应用落地,企业应用架构由单体架构演进为微服务架构,应用将状态剥离到中间件层,通过无状态化实现更灵活的容器化部署和水平伸缩。然而,引入微服务框架、Kubernetes、分布式中间件等组件,使得…

定向减免!函数计算让 ETL 数据加工更简单

业内较为常见的高频短时 ETL 数据加工场景,即频率高时延短,一般费用大头均在函数调用次数上,推荐方案一般为攒批处理,高额的计算成本往往令用户感到头疼,函数计算推出定向减免方案,让 ETL数据加工更简单、更…