LLaMA Factory+ModelScope实战——使用 Web UI 进行监督微调

LLaMA Factory+ModelScope实战——使用 Web UI 进行监督微调

文章原始地址:https://onlyar.site/2024/01/14/NLP-LLaMA-Factory-web-tuning/

引言

大语言模型微调一直都是一个棘手的问题,不仅因为需要大量的计算资源,而且微调的方法也很多。在尝试每种方法过程中,配置环境和第三方库也颇为麻烦。。而 LLaMA Factory1 是一个高效的大语言模型训练和推理的框架,不仅集成多种高效训练方法,而且能持续适配国内外各种开源大模型。该框架还提供了能够一站式实现大模型预训练、监督微调、评估、推理的 Web UI 界面,使用户能够直观地看到训练选项、模型数据集选项、训练进度等重要信息。

为方便国内用户使用,该框架支持了魔搭社区(ModelScope)的模型和数据集资源,训练前可自动下载并缓存资源。

而 Yi 系列大模型2是李开复博士创办的“零一万物”公司研发的首款开源大模型。参数规模有 6B 和 34B。其中的 Yi-34B 不仅支持 200K tokens 的超长窗口,更是在众多性能评测榜单上取得领先成绩。

本次我们基于 LLaMA Factory 框架,在一张 V100 显卡上使用 ModelScope 上支持的在线数据集对 Yi-6B 模型进行监督微调,使其获得对话能力。

环境准备

LLaMA Factory框架目前托管在 github 上,所以,我们要先使用 git 来安装 LLaMA Factory 开源框架:

git clone https://github.com/hiyouga/LLaMA-Factory.git

等待仓库下载完毕,进入仓库并安装所需依赖:

cd LLaMA-Factory
pip install -r requirements.txt

注意:截至文章编辑时(2024 年 1 月 22 日),该框架在使用最新版本的 torch 库时,会出现无法正常推理的情况。请根据您的硬件环境选择合适的 torch 版本进行安装,版本范围为 torch>=1.13.1,<=2.0.1。

Web UI 的使用

服务的启动

首先我们要在命令行里设置一个环境变量 USE_MODELSCOPE_HUB=1,框架程序在运行时会读取这个环境变量,当 USE_MODELSCOPE_HUB 的值为 1 时框架才会使用 ModelScope 在线资源。在 Windows 和 Linux 操作系统上,设置环境变量的命令是不同的,请二选其一:

export USE_MODELSCOPE_HUB=1  # Linux 上使用的命令
set USE_MODELSCOPE_HUB=1     # Windows 上使用的命令

接着使用以下命令启动 Web UI:

CUDA_VISIBLE_DEVICES=0 python src/train_web.py  # 指定一块 GPU 启动网页服务

LLaMA Factory 的 Web UI 目前只支持单卡训练/推理,当你的机器有多张显卡时请使用 CUDA_VISIBLE_DEVICES 指定一张显卡启动程序。

我们在浏览器地址栏中输入 http://localhost:7860 进入 Web 界面,接着可以在“语言/Language”选项中,将界面的语言修改为“中文/zh”,然后在模型名称中选择“Yi-6B”,在模型路径中选择“01ai/Yi-6B”。

web UI

监督微调

第二行中的微调方法,我们保持 “lora” 不变,适配器路径使用默认的空值。

“微调方法”有三个可选项:

  • full:全参数微调,对模型的所有参数进行训练,这种方法需要大量的计算资源和时间;
  • freeze:参数冻结,即对模型的大部分参数进行冻结操作,仅训练少数参数,以便于在有限资源下对大模型进行微调;
  • lora:Low-Rank Adaptation3,是一种参数高效性微调方法,不仅让微调的成本显著下降,还能获得和全参数微调类似的效果。

适配器指的是 lora 微调的输出结果,可以理解为将预训练模型的输出转换为目标形式的组件,需要搭配预训练模型一起使用。在模型的推理和合并阶段中,才需要指定“适配器路径”作为输入,而在微调过程中则不需要指定这个参数。

打开“高级设置”,本次演示中量化等级保持 none,提示模板使用 xverse,RoPE 插值方法和加速方式均为 none。

高级设置

QLoRA4是一种能够减少显存占用的大模型高效微调方法,当模型过大导致显存不够时可以考虑使用 4bit / 8bit QLoRA。

提示模板在微调时为大模型指示人类输入和机器输出的模板,除了 default 以外也可以根据仓库中Supported Models的说明选择合适的模板进行实验。

RoPE5插值可以扩展 LLaMA 模型的上下文长度,如果使用了 linear 参数微调模型推理时也要设置为 linear,如果微调时使用 none,推理时可以选择 nonedynamic

框架支持 FlashAttention-26 (RTX4090、A100 或 H100 GPU)和 unsloth(LLaMA、Mistral 和 Yi 模型)的加速方式,均需要额外安装。

接下来我们来到训练参数设置面板:

基础训练参数

训练阶段选择 Supervised Fine-Tuning(监督微调),数据路径保持 data 不变,数据集我们使用 ModelScope 社区提供的 belle_2m 数据集。其他参数的介绍如下:

  • 截断长度:一条数据分词后会成为一个 token 序列,当 token 序列的长度超过截断长度时会被分割成若干段输入进模型,这里保持1024不变;
  • 学习率:设置为 2e-4(因为之后我们会使用到数据打包技术,相应地学习率应该适当增大);
  • 训练轮数设置为 3.0,最大样本数为 50000;
  • 计算类型使用 fp16(V100 并不支持 bf16);
  • 批处理大小(Batch Size)设为 16;
  • 梯度累计(Gradient Accumulation):增大该参数可以减少显存的占用,本次实验设置为 1;
  • 学习率调节器:使用默认的 cosine,详见SchedulerType — transformers documentation (huggingface.co)
  • 最大梯度范数:用于梯度裁剪的范数,默认为 1.0
  • 验证集比例使用:0

打开其它参数设置面板,我们对其中的参数进行一些修改:
其它参数

  • 本次实验日志间隔使用默认的 5,保存间隔使用 100;

注意,在模型的微调过程中,使用较小的保存间隔可能会在训练的过程中保存大量的检查点(checkpoint),占用大量的磁盘空间。在实际微调时可以根据训练的总步数适当调大保存间隔。

  • 预热步数:指的是学习率预热过程中加到正常学习率的步数,可选参数,本次实验设为 50;
  • NEFTune7 噪声参数:在训练过程中适量添加噪声,可选参数,本次实验设为 5;
  • 序列打包8:将多组数据打包到一起进行训练,能够提高模型的上下文能力和训练速度。因为本次实验使用的数据集长度较小,所以可以使用序列打包技术提高模型在较长上下文的表现。这也决定了我们的学习率参数应该稍大些;
  • 缩放归一化层:可以提高训练过程中的稳定性,本次实验中不勾选。

下面打开 LoRA 参数设置面板:

LoRA参数

  • LoRA 秩使用默认值 8;
  • LoRA 随机丢弃使用默认值 0.1;
  • LoRA 作用模块设为 all,表示指定全部模块;
  • 附加模块和新建适配器均不指定。

最后设置输出目录(输出结果为 LoRA 适配器),点击“预览命令”,可以看到实际的所有的命令行参数,点击“开始”,在下面可以看到打印出来的日志。等待模型和数据集加载完毕,就会显示训练过程的进度条,以及已用时间和剩余时间。等训练结束,面板会显示“训练完成”,没训练完也可以点击“中断”,程序会根据最后一个检查点(checkpoint)生成训练结果文件夹。

推理对话

当模型结束以后,同样可以使用 LLaMA Factory 的 Web UI 跟训练好的模型进行对话。

对话参数界面

首先刷新适配器路径列表,在下拉列表中选择刚刚训练好的结果。然后在提示模板中选择刚刚微调时采用的 xverse,RoPE 插值使用 none。

  • 推理过程中使用的模板需要和微调时使用的一致;
  • 在微调过程中,RoPE 插值若使用的是 linear,则推理时只能使用 linear。若微调时使用 none,推理时可以选择 none 或 dynamic。

最后点击“加载模型”:

对话界面

在对话过程中,在输入框内撰写内容,并可以添加系统提示词。点击“提交”后会调用大模型生成回答。“清空历史”可以清除对话积累的上下文。右侧的最大生成长度、Top-p 和温度系数都是可以自己调整的。

对话结束后,如果想更换模型或适配器,需要点击“卸载模型”,卸载后才能重新加载模型。

模型合并

当我们使用 LoRA 训练结束以后,获得的实际上是一个适配器。单独的适配器需要和模型一起使用,我们也可以使用 LLaMA Factory 的模型合并功能将适配器和模型基座组装成一个完整的模型。

导出模型

适配器路径、提示模板、RoPE 插值方法的选择应与上述模型推理和对话过程中的选择保持一致。然后在下面点击 Export 面板,最大分块大小、导出量化等级、导出量化数据集均不需要修改,只需要指定导出目录。点击开始导出,等待导出完毕即可。

导出推理

当我们使用导出后的模型进行推理时,需要将模型名称改为 Custom、模型路径设为导出后的模型的相对/绝对路径即可。


  1. hiyouga/LLaMA-Factory: Easy-to-use LLM fine-tuning framework (github.com) ??

  2. 01-ai/Yi: A series of large language models trained from scratch by developers @01-ai (github.com) ??

  3. LoRA: Low-Rank Adaptation of Large Language Models (arxiv.org) ??

  4. QLoRA: Efficient Finetuning of Quantized LLMs (arxiv.org) ??

  5. RoFormer: Enhanced Transformer with Rotary Position Embedding (arxiv.org) ??

  6. FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning (arxiv.org) ??

  7. neelsjain/NEFTune: Official repository of NEFTune: Noisy Embeddings Improves Instruction Finetuning (github.com) ??

  8. Efficient Sequence Packing without Cross-contamination: Accelerating Large Language Models without Impacting Performance (arxiv.org) ??

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/487553.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Excel的文件导入遇到大文件时

Excel的文件导入向导如何把已导入数据排除 入起始行&#xff0c;选择从哪一行开始导入。 比如&#xff0c;前两行已经导入了&#xff0c;第二次导入的时候排除前两行&#xff0c;从第三行开始&#xff0c;就将导入起始行设置为3即可&#xff0c;且不勾选含标题行。 但遇到大文…

【C++】选择排 序算法分析与扩展

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 &#x1f4af;前言&#x1f4af;代码回顾&#x1f4af;选择排序的算法流程&#x1f4af;代码详解外层循环初始化最小值内层循环比较与更新元素交换 &#x1f4af;选择排序的特性时间复杂度空间复杂度稳定性…

顺序表(数据结构初阶)

文章目录 顺序表一&#xff1a;线性表1.1概念&#xff1a; 二&#xff1a;顺序表2.1概念与结构&#xff1a;2.2分类&#xff1a;2.2.1静态顺序表2.2.2动态顺序表 2.3动态顺序表的实现声明&#xff08;初始化&#xff09;检查空间容量尾插头插尾删头删查找指定位置之前插入数据指…

【Linux】磁盘结构和文件系统

文章目录 磁盘磁盘的物理结构LBA寻址法抽象管理分区化总结 磁盘 磁盘是计算机存储系统的核心部件之一&#xff0c;主要用于长期存储数据。磁盘的基本概念、物理结构和逻辑组织形式直接影响着其性能和使用效率。 下面的图片是一个磁盘&#xff1a; 磁盘打开之后的结构如下&…

NLP-中文分词

中文分词 1、中文分词研究背景及意义 和大部分西方语言不同&#xff0c;书面汉语的词语之间没有明显的空格标记&#xff0c;句子是以字串的形式出现。因此对中文进行处理的第一步就是进行自动分词&#xff0c;即将字串转变成词串。 比如“中国建筑业呈现新格局”分词后的词串…

【Golang】Go语言编程思想(六):Channel,第三节,使用Channel实现树的遍历

使用 Channel 实现树的遍历 tree 在此处简单回顾一下之前学过的二叉树遍历&#xff0c;首先新建一个名为 tree 的目录&#xff0c;并在其下对文件和子目录进行如下组织&#xff1a; 其中 node.go 存放的是 Node 的定义&#xff1a; package treeimport "fmt"type…

spring 源码分析

1 IOC 源码解析 BeanDefinition: bean的定义。里面会有beanClass、beanName、scope等属性 beanClass&#xff1a;通过Class.forName生成的Class 对象beanName&#xff1a;context.getBean(“account”)&#xff0c;acount就是beanNamescope: 作用区分单例bean、原型bean Bea…

快速搭建SpringBoot3+Vue3+ElementPlus管理系统

快速搭建SpringBoot3Vue3管理系统 前端项目搭建&#xff08;默认开发环境&#xff1a;node20,Jdk17&#xff09;创建项目并下载依赖--执行以下命令 前端项目搭建&#xff08;默认开发环境&#xff1a;node20,Jdk17&#xff09; 创建项目并下载依赖–执行以下命令 创建项目 y…

基于Hadoop大数据音乐推荐系统的设计与实现

摘 要 各种主流的音乐平台都为用户提供了的大量的音乐&#xff0c;让他们时刻都能沉浸在音乐的海洋之中。然而&#xff0c;过多的音乐往往使用户眼花缭乱&#xff0c;很难发现他们真正所需要的。一套优秀的推荐系统&#xff0c;可以很好地解决这个问题&#xff0c;既能帮助用户…

IDEA遇到EasyConnect中的网络资源无法访问的问题

IDEA遇到EasyConnect中的网络资源无法访问的问题 摘要由CSDN通过智能技术生成 点击编辑IDEA的 启动配置&#xff0c;然后在启动器下面的新增一个请求参数然后重新启动项目&#xff0c; java.net.preferIPv4Stack true IDEA就能连接到EasyConnect代理的网络服务 wanshanyu_ 关…

IP研究 | 大数据洞察黄油小熊的爆火之路

一只来自泰国的小熊在国内红成了顶流。 今年&#xff0c;黄油小熊以烘焙店“打工人”的超萌形象迅速走红&#xff0c;2个月内火遍中国的社交媒体&#xff0c;泰国门店挤满飘洋过海求合影的中国粉丝&#xff0c;根据数说故事全网大数据洞察&#xff0c;黄油小熊2024年度的线上声…

分数求和ᅟᅠ        ‌‍‎‏

分数求和 C语言代码C 代码Java代码Python代码 &#x1f490;The Begin&#x1f490;点点关注&#xff0c;收藏不迷路&#x1f490; 输入n个分数并对他们求和&#xff0c;并用最简形式表示。所谓最简形式是指&#xff1a;分子分母的最大公约数为1&#xff1b;若最终结果的分母为…

5G中的随机接入过程可以不用收RAR?

有朋友提到了一种不用接收RAR的RA过程&#xff0c;问这个是怎么回事。其实在刚刚写过的LTM cell switch篇章中就有提到&#xff0c;这里把所有相关的内容整理如下。 在RACH-less LTM场景&#xff0c;在进行LTM cell switch之前就要先知道target cell的TA信息&#xff0c;进而才…

Ubuntu安装grafana

需求背景&#xff1a;管理服务器&#xff0c;并在线预警&#xff0c;通知 需求目的&#xff1a; 及时获取服务器状态 技能要求&#xff1a; 1、ubuntu 2、grafana 3、prometheus 4、https://img-home.csdnimg.cn/images/20230724024159.png?origin_urlhttps%3A%2F%2Fimg…

vue3获取、设置元素高度

前言 在web端常见的需求场景中&#xff0c;会经常遇到table表格需要根据页面可视区域使高度自适应的情况。 傻喵(作者本人)昨天在尝试使用vue3实现这个需求时&#xff0c;看了几篇网上写的回答&#xff0c;都不太全面&#xff0c;所以干脆自己写个总结吧.(第一次写&#xff0c…

美畅物联丨观看实时视频对服务器带宽有什么要求?

​随着互联网的迅猛发展&#xff0c;实时视频观看已然成为人们日常生活中不可或缺的一部分。不管是视频会议、在线教育&#xff0c;还是在线娱乐&#xff0c;实时视频都起到了极为重要的作用。不过&#xff0c;实时视频的流畅播放对服务器的带宽有着极高的要求。本文将深入探究…

MongoDB-固定集合(Capped Collection)

在 MongoDB 中&#xff0c;固定集合&#xff08;Capped Collection&#xff09;是一种具有特殊属性的集合。固定集合具有一个固定的最大大小&#xff0c;并且一旦达到该大小时&#xff0c;最早插入的文档将会被自动删除&#xff0c;以便为新的文档腾出空间。固定集合的这种特性…

EasyExcel注解使用

上接《Springboot下导入导出excel》&#xff0c;本篇详细介绍 EasyExcel 注解使用。 1. ExcelProperty value&#xff1a;指定写入的列头&#xff0c;如果不指定则使用成员变量的名字作为列头&#xff1b;如果要设置复杂的头&#xff0c;可以为value指定多个值order&#xff…

yolo-V3

1、研究背景及意义 1&#xff09;对yolo进行创新&#xff0c;准确度更高。 2、创新点 1&#xff09;主要是更换了主干网络&#xff0c;使用了多尺度特征融合。 3、网络结构 yolo-V3以Darket-Net-53为主干网络。网络输入一张尺寸为416416的图片&#xff0c;经过多层卷积分别…

零基础如何使用ChatGPT快速学习Python

引言 AI编程时代来临&#xff0c;没有编程基础可以快速上车享受时代的红利吗&#xff1f;答案是肯定的。本文旨在介绍零基础如何利用ChatGPT快速学习Python编程语言&#xff0c;开启AI编程之路。解决的问题包括&#xff1a;传统学习方式效率低、缺乏互动性以及学习资源质量参差…