如何能基于prompt tuning v2训练好一个垂直领域的chatglm-6b

如何能基于prompt tuning v2训练好一个垂直领域的chatglm-6b

首先先抛出一个问题,是不是所有的文本生成数据集都适合用chatglm 6B的模型进行微调。那我们今天找到了三个数据集,分别为百科数据集、法律问答数据集、论文题目与摘要数据集、专利名称与专利摘要数据集。

官方的广告数据集是如下结构的

{"content": "类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳","summary": "这件衬衫的款式非常的宽松,利落的线条可以很好的隐藏身材上的小缺点,穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳,漂亮的绳结展现出了十足的个性,配合时尚的泡泡袖型,尽显女性甜美可爱的气息。"
}

官方的多轮对话数据集是如下结构的

{"prompt": "是的。上下水管都好的","response": "那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!","history": [["长城h3风扇不转。继电器好的。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线","用电脑能读数据流吗?水温多少"],["95","上下水管温差怎么样啊?空气是不是都排干净了呢?"]]
}

今天的所有实验都是探索单轮生成chatglm-6B上的适配性。

ptuning chatglm 6B中有两个数据集作为标准的官方微调数据集案例

我们看一下ptuning chatglm 6B中的启动参数有哪些。

PRE_SEQ_LEN=128
LR=2e-2CUDA_VISIBLE_DEVICES=0 python3 main.py \--do_train \--do_eval \--train_file AdvertiseGen/patent_train.32.128.512.json \--validation_file AdvertiseGen/patent_dev.32.128.512.json \--prompt_column content \--response_column summary \--overwrite_cache \--model_name_or_path THUDM/chatglm-6b \--output_dir output/patent_dev-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \--overwrite_output_dir \--max_source_length 128 \--max_target_length 512 \--per_device_train_batch_size 4 \--per_device_eval_batch_size 1 \--gradient_accumulation_steps 16 \--predict_with_generate \--max_steps 3000 \--logging_steps 10 \--save_steps 1000 \--learning_rate $LR \--fp16 False\--pre_seq_len $PRE_SEQ_LEN

PRE_SEQ_LEN 预序列长度

LR 学习率

do_train 是否进行训练

do_eval 是否进行预测

train_file 训练文件相对地址

validation_file 验证文件相对地址

prompt_column prompt 提示信息字段

response_column 响应信息字段

overwrite_cache 重写数据集缓存。

model_name_or_path 模型名称或模型地址

output_dir 训练好的模型保存的地址

per_device_train_batch_size 每个设备上的训练批次大小 在实际的训练过程中3090显卡可以把这个参数开到4。

模型的指令输入应该如何拼接才可以让chatglm更好的服务。

train.sh 中的 PRE_SEQ_LENLR 分别是 soft prompt 长度和训练的学习率,可以进行调节以取得最佳的效果。P-Tuning-v2 方法会冻结全部的模型参数,可通过调整 quantization_bit 来被原始模型的量化等级,不加此选项则为 FP16 精度加载。 在默认配置 quantization_bit=4per_device_train_batch_size=1gradient_accumulation_steps=16 下,INT4 的模型参数被冻结,一次训练迭代会以 1 的批处理大小进行 16 次累加的前后向传播,等效为 16 的总批处理大小,此时最低只需 6.7G 显存。若想在同等批处理大小下提升训练效率,可在二者乘积不变的情况下,加大 per_device_train_batch_size 的值,但也会带来更多的显存消耗,请根据实际情况酌情调整。

调整batch size后的学习率应该如何调整。

chatglm的工作流程

基于openbayes的3090单卡,prompt tuning v2 训练chatglm 6B模型。

训练专利prompt的数据的时候基础训练参数 修改了 per_device_train_batch_size 为 4。

 ***** Running training *****
Num examples = 3384
Num Epochs = 58
Instantaneous batch size per device = 4
Total train batch size (w. parallel, distributed & accumulation) = 64
Gradient Accumulation steps = 16
Total optimization steps = 3000
Number of trainable parameters = 29360128

其中每一个设备的batch size设定为4,总共训练的批次大小是64。这里的总批次是因为采用了梯度累计策略,所以总训练批次大小是64。那如果是两张卡的话这里是128。

训练专利prompt的数据集的时候的损失表现

中国大百科数据集

PyTorch DataParallel和DDP是PyTorch提供的两个数据并行扩展。 1. PyTorch Data Parallel PyTorch Data Parallel是PyTorch框架中的一个重要组成部分,它提供了一种高效的并行计算机制,使得在GPU上运行Torch模型变得更加容易。Data Parallel使用GPU上的多线程来并行计算多个输入特征,从而提高计算效率。 Data Parallel的实现方式包括: - Data parallel器:负责将输入特征按照一定的规则划分成一组数据 parallel,例如按照相似度、长度、形状等特征进行划分。 - 并行化操作:将数据 parallel划分为多个并行块,并执行相应的操作。 - 数据预处理:对数据parallel块进行一些预处理,例如合并、排序、归一化等操作。 使用Data Parallel可以大大简化GPU编程,并提高模型的训练效率。 2. DDP 官方建议用新的DDP,采用all-reduce算法,本来设计主要是为了多机多卡使用,但是单机上也能用,使用方法如下:

初始化使用nccl后端

torch.distributed.init_process_group(backend="nccl")

模型并行化

model=torch.nn.parallel.DistributedDataParallel(model)

需要注意的是:DDP并不会自动shard数据 1. 如果自己写数据流,得根据torch.distributed.get_rank()去shard数据,获取自己应用的一份 2. 如果用Dataset API,则需要在定义Dataloader的时候用DistributedSampler 去shard:

sampler = DistributedSampler(dataset) # 这个sampler会自动分配数据到各个gpu上
DataLoader(dataset, batch_size=batch_size, sampler=sampler)

在chatglm 6B中训练的并行是基于transformers架构实现的

from transformers.trainer import Trainer

trainer默认是用torch.distributed的api来做多卡训练的,因此可以直接支持多机多卡,单机多卡,单机单卡。

目前autodl没有多卡资源,所以也没办法验证多卡这个如何可以更高效率的执行出来有效的结果。

不同的云计算平台

autodl 模型下载速度比较慢 可以通过在新建环境时候选择合适的thuglm镜像来减少模型下载上所需要的时间。实例初始化空间为20GB系统空间+50GB数据空间,数据空间可以扩容。

openbayes 模型下载速度比较快,环境每次重启的时候都要执行一遍pip install安装步骤。启动训练是需要在命令行中加上 --fp16 False,不然会报错。实例硬盘上限只有50GB,需要注意保存策略。存储空间费用如下。

用我的专用邀请链接,注册 OpenBayes,双方各获得 60 分钟 RTX 3090 使用时长,支持累积,永久有效:

注册 - OpenBayes

要不是autodl没有卡,我也不会来openbayes租用显卡。最吐槽的问题就是硬盘空间问题。作为个人研究者还要为硬盘按月付费实在是让人不舒服。目前我付费了100GB的硬盘。一个月80多块。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/59141.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【报告分享】2021中国私域营销白皮书-BCG(附下载)

摘要:这一年,私域触点在中国的渗透率达到96%,消费者对于私域的依赖逐步建立。这一年,线上线下的融合呈现加速趋势,新的业态蓬勃兴起。 作为企业O2O布局的关键一环,私域流量已成为所有品牌不容有失的阵地。 来源:BCG 如…

分享113个HTML电子商务模板,总有一款适合您

分享113个HTML电子商务模板,总有一款适合您 113个HTML电子商务模板下载链接:https://pan.baidu.com/s/1JIlnB8qpg4wIuh-fi0e-Bg?pwdiwvr 提取码:iwvr Python采集代码下载链接:采集代码.zip - 蓝奏云 import os import shuti…

外贸营销好方法整理

B2B网站和B2C网站在外贸推广和营销的方式上是不同的。B2B更注重品牌、信任背书等。,所以推广方式更加精细化,强调品牌运营。B2C更注重新鲜感、性价比和品牌,但没有B端重视,很多消费者是冲动型消费者。 由于B端和C端用户的不同&am…

响应式营销策划文化传媒公司网站模板源码

模板信息: 模板编号:8071 模板编码:UTF8 模板颜色:蓝色 模板分类:设计、广告、文化、影视 适合行业:影视传媒类企业 模板介绍: 本模板自带eyoucms内核,无需再下载eyou系统&#xf…

内容繁重的网站设计:数字出版商网站的方法

什么是数字出版商网站,它与常规商业网站或博客有何不同? 实际上有相当多的不同。 数字出版物是一种每天发布大量文章的网站。它基本上是在线报纸或杂志,或者像 BuzzFeed 这样的病毒式发布平台。 这些类型的网站通常内容繁重且文本丰富&#x…

市场营销书籍推荐:《经理人参阅:市场营销》

要学好市场营销有什么好方法? 答案是看书! 比起碎片化地去阅读一些文章或看一些相关视频,读书来得更实在些。倘若能静下心来好好读上一本系统性的市场营销书籍,学好营销管理将不会再是一件难事。 然而,问题的关键是&am…

市场营销必须收藏使用的5个软件

俗话说,不想当将军的士兵不是好士兵,在职场中亦是如此,多数人都渴望着能够成为行业中的佼佼者,但是,并不是每个人的愿望都能实现。想要成为一名市场营销达人,实现升职加薪,学会使用这5个软件必不…

私企招聘:腾讯TME社会招聘

LOOK HERE LOOK HERE LOOK HERE #OFFER,收割机# 扫码关注我们 OFFER500强 微信号 : huidaoffer 新浪微博:OFFER500强 LOOK HERE LOOK HERE LOOK HERE

招聘软件哪个最好用?

招聘软件哪个最好用?如果仅仅只是针对标题的字面意思来回答,那么答案肯定是大同小异的。但个人感觉,提出这个问题,其实是要为企业选一款合适的软件。那么就先要在“合适”的基础上,去谈主流。 那么问题来了&#xff0…

在boss上更新简历,引来了一堆外包公司?什么情况!!!

你是否有过这么一段经历,一直做着OA,CRM管理系统等传统项目,简历技能开头第一行,基本都是“Java基础扎实”,然后下面接着就是熟悉XXX。然后不断列名词,举例一下: Java基础扎实熟悉Mysql…熟悉Re…

如何写IT招聘

最近看到cnblogs上的不少兄弟创业了,我个人还是很支持他们的,相信大家作了身份转换之后,是不是觉得有些不习惯,原来是人家面你,现在是你面人家,而且还要自己决定招聘些什么人,是否值得招聘这些人…

HR软件如何识别保留优秀员工

在企业信息化的时代,越来越多的年轻员工开始追求他们的激情,辞掉那些乏味的工作,而选择加入重视员工生活质量的企业。他们不再追随那些以牺牲员工福利为代价追求利润的公司。 员工认可度有助于加强组织中的团队合作关系,反过来&a…

同事去腾讯了,背调写我名字!

某互联网大厂员工说前同事去了腾讯,背调写自己名字,虽然平时关系不是很好,但是仍然说了很多好话,结果同事当天就收到了入职通知。哎!现在找工作都挺难的,平时多结点善缘,帮人就是帮自己。不过这…

这些外企,还在招人!

大家好!我是韩老师。 相信大家最近也是被各种缩招、停招、降薪、裁员的消息淹没了。 然而,并不都是只有坏消息。 比如,国内的美团就在新春开启了一波招聘:美团计划招聘 10000 人!(不是骑手!不是…

如何利用chatGPT提升自己

经过一个月的使用,我可以很肯定地告诉大家,学习是ChatGPT最能够帮助普通人的一个重要功能。此时我们不必去过度担心是否会被AI替代,而是应该注重如何利用好ChatGPT来提升自身能力。ChatGPT所学习和整理的文本量都超过了人类一生的范畴&#x…

VIP品会密码加密解密与登录

上班都快一周了,一直想更新,奈何小伙还没有从假期的快乐中缓过来,今天终于耐下心来更新一小篇。抠一下某品会的JS代码,接着使用抠取的JS代码加密密码进行登录。友情提示:为避免不必要的纠纷,本文中所有网址…

基于Python Tkinter 的简单账号密码管理系统

百度网盘链接:https://pan.baidu.com/s/1bmpC0KMCr6U4umivZ1z6KQ 提取码:aa4r 初始登陆账号密码均为:admin 仅用于账号密码的本地储存,具有 录入、查询、修改、删除 功能(全部基于本地实现) 界面未美化&…

【Android实战】保存QQ账号与密码

大家好,我是汤姆凯特。 写在前面:今天用保存QQ账号和密码的实战演练,带大家掌握Android存储中最基本的文件存储方式 文件存储是Android中最基本的一种数据存储方式,它与Java中的文件存储类似,都是通过I/O流形式把数据直…

关于我发表了TalentOrg的面试文章而被官方的人找上门

关于我发表了TalentOrg的面试文章而被官方的人找上门 前情提要事情经过尝试联系正式沟通齿轮易创与TalentOrg主营业务雇主和工作方式关于时差和假期关于笔试关于面试关于简历翻译关于沟通和通知结尾 前情提要 我加入了TalentOrg,新奇之余就写了一篇文章&#xff0c…

应急响应 - Windows进程分析,Windows网络分析,tasklist,wmic process

「作者简介」:CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」:对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》 进程网络排查 一、Tasklist1、tasklist /v1、tasklist /svc2、tasklist /m 二、wmic proc…