选择大型语言模型自定义技术

推荐:使用 NSDT场景编辑器 助你快速搭建可二次编辑器的3D应用场景

 

选择大型语言模型自定义技术

 

企业需要自定义模型来根据其特定用例和领域知识定制语言处理功能。自定义LLM使企业能够在特定的行业或组织环境中更高效,更准确地生成和理解文本。

自定义模型使企业能够创建符合其品牌声音的个性化解决方案,优化工作流程,提供更精确的见解,并提供增强的用户体验,最终推动市场竞争优势。

这篇文章涵盖了各种模型定制技术以及何时使用它们。NVIDIA NeMo 支持許多方法。

NVIDIA NeMo 是一个端到端的云原生框架,可在任何地方构建、定制和部署生成式 AI 模型。它包括训练和推理框架、护栏工具包、数据管理工具和预训练模型,提供了一种简单、经济高效且快速的采用生成 AI 的方法。

选择 LLM 自定义技术

您可以根据数据集大小要求与自定义期间的训练工作量级别(与下游任务准确性要求相比)之间的权衡来对技术进行分类。

该图显示了四个自定义工具,其中包含技术、用例和示例表。

图1.LLM 定制技术可用于 NVIDIA NeMo

图 1 显示了以行的自定义技术:

  • 提示工程:操作发送到LLM的提示,但不以任何方式更改LLM的参数。它在数据和计算要求方面很轻。
  • 快速学习:使用提示和完成对,通过虚拟令牌向LLM传授特定于任务的知识。此过程需要更多的数据和计算,但比提示工程具有更好的准确性。
  • 参数高效微调(PEFT):将少量参数或层引入现有LLM架构,并使用特定于用例的数据进行训练,提供比提示工程和快速学习更高的准确性,同时需要更多的训练数据和计算。
  • 微调:涉及更新预训练的LLM权重,这与前面概述的三种类型的自定义技术不同,这些技术使这些权重保持冻结。这意味着与其他技术相比,微调还需要最多的训练数据和计算。但是,它为特定用例提供了最准确的准确性,从而证明了成本和复杂性的合理性。

有关更多信息,请参见大型语言模型简介:提示工程和 P 调优。

快速工程

提示工程涉及在推理时通过展示和讲述示例进行定制。LLM提供了示例提示和完成,这些详细说明附加到新提示之前以生成所需的完成。模型的参数不会更改。

少数镜头提示:此方法需要在提示前面附加一些示例提示和完成对,以便LLM学习如何为新的不可见提示生成响应。虽然与其他自定义技术相比,少数镜头提示需要相对较少的数据量,并且不需要微调,但它确实增加了推理延迟。

思维链推理:就像人类将大问题分解成小问题并应用思维链来有效地解决问题一样,思维链推理是一种快速的工程技术,可以帮助LLM提高他们在多步骤任务上的表现。它涉及将问题分解为更简单的步骤,每个步骤都需要缓慢而深思熟虑的推理。这种方法适用于逻辑、算术和演绎推理任务。

系统提示:此方法涉及在用户提示之外添加系统级提示,以向LLM提供特定和详细的说明,使其按预期运行。可以将系统提示视为LLM的输入以生成其响应。系统提示的质量和特异性会对LLM响应的相关性和准确性产生重大影响。

及时学习

快速学习是一种高效的自定义方法,可以在许多下游任务上使用预训练的LLM,而无需调整预训练模型的完整参数集。它包括两种具有细微差异的变体,称为 p 调谐和提示调谐;这两种方法统称为快速学习。

快速学习可以向LLM添加新任务,而不会覆盖或中断模型已经预先训练的先前任务。由于原始模型参数被冻结且永远不会更改,因此快速学习还可以避免微调模型时经常遇到的灾难性遗忘问题。当LLM在微调过程中以LLM预培训期间获得的基础知识为代价学习新行为时,就会发生灾难性的遗忘

图中显示,提示学习在训练的虚拟令牌之前附加提示令牌,从而为虚拟令牌训练的特定用例提供更准确的LLM完成。

图2.应用于法学硕士的快速学习

提示调优和 p 调谐不是以手动或自动方式选择离散文本提示,而是使用可通过梯度下降进行优化的虚拟提示嵌入。这些虚拟令牌嵌入与构成模型词汇表的离散、硬令牌或真实令牌相反。虚拟代币是纯粹的一维向量,其维数等于每个真实代币嵌入的维数。在训练和推理中,根据模型配置中提供的模板,在离散令牌嵌入中插入连续令牌嵌入。

提示调整:对于预训练的 LLM,软提示嵌入初始化为大小total_virtual_tokens Xhidden_size的 2D 矩阵。提示优化模型以执行的每个任务都有其自己的关联 2D 嵌入矩阵。任务在训练或推理期间不共享任何参数。NeMo 框架提示调优实现基于参数高效提示调优的规模力量。

P-调谐: 称为 LSTM 或 MLP 模型用于预测虚拟令牌嵌入。 参数在 p 调优开始时随机初始化。所有基本LLM参数都被冻结,并且在每个训练步骤中仅更新权重。p 调优完成后,提示调优的虚拟令牌将自动移动到存储所有提示调优和 p 调优软提示的位置。 然后从模型中移除。这使您能够保留以前 p 调优的软提示,同时仍保持将来添加新的 p 调优或提示调优软提示的能力。prompt_encoderprompt_encoderprompt_encoderprompt_encoderprompt_tableprompt_encoder

prompt_table使用任务名称作为键来查找指定任务的正确虚拟令牌。NeMo框架p调谐实现基于GPT Understands,Too。

参数高效微调

参数高效微调(PEFT)技术使用巧妙的优化来有选择地向原始LLM架构添加和更新一些参数或层。使用 PEFT,针对特定用例训练模型参数。预训练的LLM权重保持冻结,并且在PEFT期间使用域和任务特定的数据集更新的参数明显较少。这使LLM能够在训练的任务上达到高精度。

有几种流行的参数高效替代方法来微调预训练语言模型。与提示学习不同,这些方法不会在输入中插入虚拟提示。相反,他们将可训练层引入变压器架构中,用于特定任务的学习。这有助于在下游任务上获得强大的性能,同时与微调相比,可训练参数的数量减少了几个数量级(参数减少了近 10,000 倍)。

  • 适配器学习
  • 通过抑制和放大内部激活(IA3)注入适配器
  • 低秩适应 (LoRA)

适配器学习:在核心变压器架构各层之间引入小的前馈层。只有这些层(适配器)在微调时针对特定的下游任务进行训练。适配器层通常使用下投影将输入

h

h

投影到低维空间,然后使用非线性激活函数,并使用W_up

 W_up

 

W_up

.残差连接将此输出添加到输入中,从而形成最终形式:h \leftarrow h + f(hW_{down})W_{up}

 

 

h \leftarrow h + f(hW_{down})W_{up}

适配器模块通常被初始化为适配器的初始输出始终为零,以防止由于添加此类模块而导致原始模型的性能下降。NeMo 框架适配器实现基于 NLP 的参数高效迁移学习。

IA3:与适配器相比,添加的参数更少,适配器只是使用学习向量缩放转换器层中的隐藏表示。可以为特定的下游任务训练这些扩展参数。学习的向量 、 和 分别重新缩放注意力机制中的键和值以及位置前馈网络中的内部激活。这种技术还使混合任务批处理成为可能,因为批处理中的每个激活序列都可以单独且廉价地乘以其关联的学习任务向量。NeMo框架IA3 实现基于少镜头参数高效微调比上下文学习更好、更便宜。lklvlff

图表显示 LoRA 微调通过冻结的预训练权重和减少维度层来实现参数效率.

图3.用于参数高效微调的 LoRA

洛拉:将可训练的低秩矩阵注入变压器层以近似权重更新。LoRA 没有更新完整的预训练权重矩阵 W,而是更新其低秩分解,与微调相比,可训练参数的数量减少了 10,000 倍,GPU 内存需求减少了 3 倍。此更新将应用于多头注意力子图层中的查询和值投影权重矩阵。事实证明,将更新应用于低秩分解而不是整个矩阵在模型质量上与微调相当或更好,从而实现更高的训练吞吐量,并且没有额外的推理延迟。

NeMo框架LoRA实现基于大型语言模型的低秩适配。有关如何将 LoRa 模型应用于抽取式 QA 任务的详细信息,请参阅 LoRA 教程笔记本。

微调

当数据和计算资源没有硬约束时,监督微调 (SFT) 和人工反馈强化学习 (RLHF) 等定制技术是 PEFT 和提示工程的绝佳替代方法。与其他自定义方法相比,微调有助于在一系列用例上实现最佳准确性。

有监督的微调: SFT是在输入和输出的标记数据上微调模型所有参数的过程,它教授模型域特定的术语以及如何遵循用户指定的指令。它通常在模型预训练后完成。与预训练阶段相比,使用预训练模型可以实现许多好处,包括使用最先进的模型而无需从头开始训练、降低计算成本并减少数据收集需求。SFT的一种形式被称为指令调优,因为它涉及在通过指令描述的数据集集合上微调语言模型。

该图显示了监督微调使用指令更新预训练的LLM权重,这些指令遵循按任务以不同比例混合的数据集,以帮助提高LLM在看不见的任务上的性能。

图4.通过跟踪数据的标记指令进行监督微调

带有指令的SFT利用了NLP任务可以通过自然语言指令描述的直觉,例如“将以下文章总结为三句话”或“用西班牙语写一封关于即将到来的学校节日的电子邮件”。该方法成功地结合了微调和提示范式的优势,以提高推理时的LLM零镜头性能。

指令调优过程涉及对预训练模型执行微调,这些数据集由以不同比例混合的自然语言指令表达的多个 NLP 数据集的混合物。在推理时,对看不见的任务进行评估,并且已知此过程可以显着提高看不见任务的零镜头性能。SFT也是使用强化学习提高LLM能力过程中的重要中间步骤,我们将在下面描述。

带有人类反馈的强化学习: 带有人类反馈的强化学习(RLHF)是一种定制技术,使LLM能够更好地与人类价值观和偏好保持一致。它使用强化学习使模型能够根据收到的反馈调整其行为。它涉及一个三阶段微调过程,该过程使用人类偏好作为损失函数。使用前面部分中描述的说明进行微调的SFT模型被认为是RLHF技术的第一阶段。

图表显示,具有人类反馈的强化学习是一个三阶段过程,它利用根据人类偏好训练的奖励模型,使用强化学习向受监督的微调LLM提供反馈。

图5.使用强化学习使LLM行为与人类偏好保持一致

SFT 模型在 RLHF 的第 2 阶段被训练为奖励模型 (RM)。由具有多个响应的提示组成的数据集用于训练 RM 以预测人类偏好。

训练 RM 后,RLHF 的第 3 阶段侧重于使用近端策略优化 (PPO) 算法的强化学习针对 RM 微调初始策略模型。RLHF的这三个阶段迭代执行,使LLM能够生成更符合人类偏好的输出,并且可以更有效地遵循指令。

虽然 RLHF 会产生强大的 LLM,但缺点是这种方法可能会被滥用和利用来生成不良或有害的内容。NeMo方法使用PPO价值网络作为批评者模型,以指导LLM远离生成有害内容。研究界正在积极探索其他方法,以引导LLMs采取适当的行为,并减少LLM构成事实的有毒物质产生或幻觉。

原文链接:选择大型语言模型自定义技术 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/98282.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS3基础

CSS3在CSS2的基础上增加了很多功能,如圆角、多背景、透明度、阴影等,以帮助开发人员解决一些实际问题。 1、初次使用CSS 与HTML5一样,CSS3也是一种标识语言,可以使用任意文本编辑器编写代码。下面简单介绍CSS3的基本用法。 1.1…

MAC钓鱼并Root权限上线CS并权限维持,以及所有的坑如何解决

本文转载于:https://www.freebuf.com/articles/web/350592.html 作者:文鸯涂鸦智能安全实验室 制作MAC 一、下载工具 首先从github上下载CrossC2。链接:https://github.com/gloxec/CrossC2/releases/tag/v3.1.0。 根据你CS客户端的操作系统选…

【uniapp】使用permission获取录音权限及实现录音功能

需求 app获取录音权限权限, 实现录音并且播放功能 实现 一. 使用permission获取录音权限 原博 : https://www.wanjunshijie.com/note/uniapp/3203.html 1.1 manifest.json 配置权限 android.permission.RECORD_AUDIO 1.2 permision使用和下载 ( 自行百度搜索即可 ) 1.3 获…

【Linux】传输层协议:UDP和TCP

争做西格玛男人 文章目录 一、UDP协议1.端口号2.理解UDP报头3.UDP的特点(面向数据报,全双工) 二、TCP协议1.理解TCP报头某些TCP的策略1.1 TCP报头字段(TCP的黏包问题)1.2 网络协议栈和linux系统的联系(以p…

2023.08.20 学习周报

文章目录 摘要文献阅读1.题目2.现有问题3.解决方案4.本文贡献5.方法5.1 利用长短期记忆网络学习时空演化特征5.2 构建用于气象辅助信息编码的堆叠自编码器5.3 使用多任务学习发现全市通用模式5.4 模型 6. 实验6.1 数据集6.2 实验设置6.3 实验结果 7.结论8.展望 大气污染物传输总…

【Unittest】Unittest接口测试框架开发-以登录模块为例

文章目录 框架结构框架目录结构封装被测试系统接口定义接口测试用例集成测试报告测试数据参数化(一)分析与数据构造(二)基于JSON实现参数化(三)基于数据库实现参数化 框架结构 框架结构包括:被…

取证的学习

Volatility命令语法 1.判断镜像信息,获取操作系统类型 Volatility -f xxx.vmem imageinfo 在查到操作系统后如果不确定可以使用以下命令查看 volatility - f xxx.vmem --profile [操作系统] volshell 2.知道操作系统类型后,用–profile指定 volat…

后端开发12.商品模块

概述 简介 商品模块这个设计的非常复杂 效果图 数据库

Go语言基础之基本数据类型

Go语言中有丰富的数据类型,除了基本的整型、浮点型、布尔型、字符串外,还有数组、切片、结构体、函数、map、通道(channel)等。Go 语言的基本类型和其他语言大同小异。 基本数据类型 整型 整型分为以下两个大类: 按…

LeetCode 1162. As Far from Land as Possible【多源BFS】中等

本文属于「征服LeetCode」系列文章之一,这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁,本系列将至少持续到刷完所有无锁题之日为止;由于LeetCode还在不断地创建新题,本系列的终止日期可能是永远。在这一系列刷题文章…

Qt快速学习(一)--对象,信号和槽

目录 1.Qt概述 1.1 什么是Qt 2.2 手动创建 2.3 pro文件 2.4 一个最简单的Qt应用程序 3 第一个Qt小程序 3.1 按钮的创建 3.2 对象模型(对象树) 3.3 Qt窗口坐标体系 4 信号和槽机制 4.1 系统自带的信号和槽 4.2 自定义信号和槽 4.3信号槽的拓展 4…

mac录屏工具,录屏没有声音的解决办法

mac录屏工具,录屏没有声音的解决办法 在使用macbook录制屏幕时,发现自带的录屏工具QuickTime Player没有声音,于是尝试了多款录屏工具,对其做一些经验总结(省流:APP Store直接可以免费下载使用Omi录屏专家…

【深度学习 | 感知器 MLP(BP神经网络)】掌握感知的艺术: 感知器和MLP-BP如何革新神经网络

🤵‍♂️ 个人主页: AI_magician 📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。 👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!&…

2023年网络安全比赛--综合渗透测试(超详细)

一、竞赛时间 180分钟 共计3小时 二、竞赛阶段 竞赛阶段 任务阶段 竞赛任务 竞赛时间 分值 1.扫描目标靶机将靶机开放的所有端口,当作flag提交(例:21,22,23); 2.扫描目标靶机将靶机的http服务版本信息当作flag提交(例:apache 2.3.4); 3.靶机网站存在目录遍历漏洞,请将…

《合成孔径雷达成像算法与实现》Figure3.12

clc clear close all% 参数设置 TBP 724; % 时间带宽积 T 42e-6; % 脉冲持续时间 t_0 1e-6; % 脉冲回波时延 Nfft 2^11; % fft长度% 参数计算 B TBP/…

Flink状态和状态管理

1.什么是状态 官方定义:当前计算流程需要依赖到之前计算的结果,那么之前计算的结果就是状态。 这句话还是挺好理解的,状态不只存在于Flink,也存在生活的方方面面,比如看到一个认识的人,如何识别认识呢&am…

Springboot 实践(10)spring cloud 与consul配置运用之服务的注册与发现

前文讲解,完成了springboot、spring security、Oauth2.0的继承,实现了对系统资源的安全授权、允许获得授权的用户访问,也就是实现了单一系统的全部技术开发内容。 Springboot是微服务框架,单一系统只能完成指定系统的功能&#xf…

NLP序列标注问题,样本不均衡怎么解决?

【学而不思则罔,思而不学则殆】 1.问题 NLP序列标注问题,样本不均衡怎么解决? 2.解释 以命名实体识别(NER)为例,这个样本不均衡有两种解释: (1)实体间类别数量不均衡…

MNN学习笔记(八):使用MNN推理Mediapipe模型

1.项目说明 最近需要用到一些mediapipe中的模型功能,于是尝试对mediapipe中的一些模型进行转换,并使用MNN进行推理;主要模型包括:图像分类、人脸检测及人脸关键点mesh、手掌检测及手势关键点、人体检测及人体关键点、图像嵌入特征…

JVM编译优化

即时编译器 HotSpot虚拟机中内置了两个即时编译器,分别称为Client Compiler和Server Compiler,或者简称为C1编译器和C2编译器。Java8默认开启Server模式。用户可以使用“-client”或“-server”参数去指定编译模式。 C1编译器启动速度快,关注局部简单可靠的优化,比如方法…