ChatGLM2-6B! 我跑通啦!本地部署+微调(windows系统)

ChatGLM2-6B! 我跑通啦!(windows系统)

  • 1. 跑通了啥?
  • 2. 咋跑通的?
    • 2.1 ChatGLM2-6B本地部署
    • 2.2 ChatGLM2-6B本地微调
    • 2.3 小结
  • 3. 打算做什么?

1. 跑通了啥?

记录一下此时此刻,2023年7月8日22点04,从ChatGLM2-6B在7月4日开放了ptuning到此时此刻,ChatGLM2-6B的微调终于被哥们跑通了!
本地部署ChatGLM2-6B本地进行P-tuning微调,再到最后的模型检测,哥们全跑通了!

2. 咋跑通的?

2.1 ChatGLM2-6B本地部署

这里非常感谢ChatGLM2-6B|开源本地化语言模型这篇博客!因为我布置环境,本地部署完全按照这个博客来的,而且他/她还贴心地帮我把要从huggingface上下载巨慢的内容下载打包好了,真的是爱了!

这里要提醒的是,要注意文件目录严格按照这个博客来,可以免除很多麻烦!
同时这篇文章提到源码修改也是非常有意义的,这和windows系统解析符号有关,后面的模型检测中,可能还会遇见这个错误!

本地部署相对麻烦的环节是pytorch的安装
我也是征战pytorch和tensorflow安装战场多年,虽然我用的服务器很高级,但是在我使用之前就下载了一个cuda是10.2版本,这可把我愁坏了。查阅版本信息可以点这个链接,可以发现10.2GPU最高安装版本是pytorch1.12.1,于是我先头铁下载了这个

conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=10.2 -c pytorch 

没想到的是,下载的时候表面上是GPU版本,但是G!!! 下载下来是cpu版的,于是我铤而走险,像赌徒一样,试了试pytorch1.11.0,cuda版本是11.3的

conda install pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=11.3 -c pytorch

令人惊讶的是,成了!!!标志是下载的时候,后面的注释的内容不是cpu**,而是cuda**
所以我大胆推测,pytorch的驱动核心在于,cudatoolkit的版本,只要电脑可以驱动cudatoolkit的版本即可,可以通过尝试这些代码,观察下载内容是 cpu** 还是 cuda**来确定下载的版本是不是正确的。

网上又说,torch最好是2.0.0以上,按照我的经验,不需要! 我transformer的版本是4.30,这是chatglm2-6b要求的,和chatglm-6b不一样。

最后告诉大家一个我尝试的结果:10.2的cuda 应该最高支持到pytorch的1.10.*这个系列

最后在提醒一下大家,按照上述文章,最好每一步都一样,是可以一边成功的。顺序也可以按照上述要求。

年纪大,爱唠叨,说了好几遍最后,但是还有一件事情怕大家疑惑,那就是如果你,conda list,你会发现这个现象:
conda list 结果
既有一个torch也有一个pytorch,哈哈,而且版本不一样,经过我的观察,torch是通过 pip install -r requirements.txt下载的,pytorch是通过conda下载的,但是两者分别的作用机理,我也不清楚,但是我暂时的结论是,两者不冲突,而且似乎以conda下载那个为主,也希望有懂这个的小伙伴或者大伙伴可以指导一下!

2.2 ChatGLM2-6B本地微调

本地微调要感谢B站up主AI李大鹅!他的视频使用P-Tuning微调Chatglm2-6B,喂饭级教程给了我很大的启发。视频只有6分钟,但是我研究他的内容用了2天吧。下面把我遇到的一些困难和心得介绍一下。

首先是系统问题,这就是我为什么在开头强调这是windows系统的解决方案,因为和linux真的不一样,官方提供的文档,是基于shell脚本的,在windows的cmd不可以直接运行,哪怕是我用git bash 也出现了问题。视频中给出 了一个解决方案——利用.bat文件,可以实现。
train.bat代码如下

set PRE_SEQ_LEN=128
set LR=2e-2python main.py ^--do_train ^--train_file train.json ^--validation_file dev.json ^--preprocessing_num_workers 10 ^--prompt_column content ^--response_column summary ^--overwrite_cache ^--model_name_or_path THUDM/chatglm2-6b ^--output_dir output/adgen-chatglm2-6b-pt-%PRE_SEQ_LEN%-%LR% ^--overwrite_output_dir ^--max_source_length 64 ^--max_target_length 128 ^--per_device_train_batch_size 1 ^--per_device_eval_batch_size 1 ^--gradient_accumulation_steps 16 ^--predict_with_generate ^--max_steps 3000 ^--logging_steps 10 ^--save_steps 1000 ^--learning_rate %LR% ^--pre_seq_len %PRE_SEQ_LEN% ^--quantization_bit 4

当然这里的很多参数是可以调整的。
在cmd中按照如下步骤运行(下面是我的运行步骤,要根据自己的文件目录进行调整)

  1. cd /d E:\openai.wiki\ChatGLM2-6B
  2. conda activate E:\openai.wiki\ChatGLM2-6B\ENV
  3. cd ptuning
  4. train.bat

当然,要注意train.bat中训练文件train.json和推理文件evaluate.json的位置
在运行train.bat时,我出现了一个困恼了我一下午的bug,

RuntimeError: Default process group has not been initialized, please make sure to call
init_process_group.

这个错误我估计很多兄弟应该不会出现,但是因为用的服务器太高级了,三块独立显卡,导致了代码优先进行并行训练,但是这些我不知道该怎么处理,只能去蒙,最后蒙到了一个办法,分享给同样遇到这个问题的朋友
在main.py函数中,添加下列内容
绝技
这样应该就ok了,真的很神奇!
我还遇见了一个错误

AttributeError: 'Seq2SeqTrainer' object has no attribute 'is_deepspeed_enabled'

这个错误要修改文件在这个目录
在这里插入图片描述
在840行左右,一个控制学习率的函数中进行修改,我采用非常鲁莽方式
在这里插入图片描述
直接把判断的上半部分写成了False,这样避开了这个参数的调用。这个问题个人应该没有很好的解决办法,只能祈求自己不会出现这个报错,或者就按照我的方法来,经过我的实践,这是ok的!

我大概训练了2个小时,时间还可以!

训练完了是推理部分,下面是推理evaluate.bat的代码

set PRE_SEQ_LEN=128
set CHECKPOINT=adgen-chatglm2-6b-pt-128-2e-2
set STEP=3000
set NUM_GPUS=1python main.py ^--do_predict ^--validation_file dev.json ^--test_file dev.json ^--overwrite_cache ^--prompt_column content ^--response_column summary ^--model_name_or_path THUDM/chatglm2-6b ^--ptuning_checkpoint ./output/%CHECKPOINT%/checkpoint-%STEP% ^--output_dir ./output/%CHECKPOINT% ^--overwrite_output_dir ^--max_source_length 64 ^--max_target_length 64 ^--per_device_eval_batch_size 1 ^--predict_with_generate ^--pre_seq_len %PRE_SEQ_LEN% ^--quantization_bit 4

推理过程,很快,而且0bug,幸福!

最后是模型检测阶段
model_test.py代码如下(这是要自己写的,补充进去)(注意地址需要修改)

from transformers import AutoConfig,AutoModel,AutoTokenizer
import os,torchCHECKPOINT_PATH = "E:\openai.wiki\ChatGLM2-6B\ptuning\output/adgen-chatglm2-6b-pt-128-2e-2\checkpoint-3000"# 载入Tokenizer
tokenizer = AutoTokenizer.from_pretrained('THUDM/chatglm2-6b',trust_remote_code = True)# 加载P-Tuning的checkpoint
config = AutoConfig.from_pretrained("THUDM/chatglm2-6b",trust_remote_code = True,pre_seq_len=128)
model = AutoModel.from_pretrained("THUDM/chatglm2-6b",config=config,trust_remote_code = True)
prefix_state_dict = torch.load(os.path.join(CHECKPOINT_PATH,'pytorch_model.bin'))
print(prefix_state_dict)
new_prefix_state_dict = {}
for k,v in prefix_state_dict.items():if k.startswith('transformers.prefix_encoder.'):new_prefix_state_dict[k[len('transformers.prefix_encoder.'):]] = v
model.transformer.prefix_encoder.load_state_dict(new_prefix_state_dict,False)model = model.half().cuda()
model.transformer.prefix_encoder.float().cuda()
model = model.eval()
response,history = model.chat(tokenizer,'宽松的衣服质感如何',history=[])
print(response)

可以观察到CHECKPOINT_PATH = "E:\openai.wiki\ChatGLM2-6B\ptuning\output/adgen-chatglm2-6b-pt-128-2e-2\checkpoint-3000"中很细节的把\adgen** 修改成了/adgen**,就是第一篇博客中提到转义问题。
这是遇到的最后一个问题,
请添加图片描述
因为AI李大鹅提供的源代码中,下面这一句是没有False的。
model.transformer.prefix_encoder.load_state_dict(new_prefix_state_dict,False)
没有False我就会出现上述的报错。所以我还是一种选择忽略错误的方式,在结尾加了一个False。这不影响最后的运行和加载。
最后成功的标志:
在这里插入图片描述

2.3 小结

使用大模型,就会遇见这些各种各样的问题,这既让我体会到了python这种脚本语言的便捷,同时让我感受到了版本的混乱,而且这种别人写好的代码,如何进行debug,我认为这是未来走向工作岗位或者科研岗,非常重要的技能!
以上内容也仅仅是我自己遇见的问题,可能还会有别的问题,可能试着按照我这种忽略法来解决,毕竟,能跑起来就行!结果慢慢考虑。

3. 打算做什么?

有了这套技术,我的下一步目标就是,收集土建行业数据,构建土建行业大模型。我了解的还不够深入,看论坛看到了一些炫酷的名词,比如历史遗忘等等,暂时我也不懂这些,希望在下一步的研究中,可以继续深入研究,加油!
欢迎小伙伴和大伙伴们可以积极留言自己搞这一套遇到的问题,我可以尽力帮助大家,同时收集大家的问题,让大模型的门槛越来越低!真正走向大众!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37023.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详细Pygame制作贪吃蛇

贪吃蛇的玩法 用游戏把子上下左右控制蛇的方向,寻找吃的东西,每吃一口就能得到一定的积分,而且蛇的身子会越吃越长,身子越长玩的难度就越大,不能碰墙,不能咬到自己的身体,更不能咬自己的尾巴。…

用Pygame制作简单的贪吃蛇

✨✨✨ 感谢优秀的你打开了小白的文章 “希望在看文章的你今天又进步了一点点,离美好生活更近一步!”🌈 前言 Python Pygame 是一款专门为开发和设计 2D 电子游戏而生的软件包,它支 Windows、Linux、Mac OS 等操作系统&#xff0…

用vb.net制作贪吃蛇游戏

贪吃蛇游戏相信很多朋友都听说或者玩过,特别是以前使用过诺基亚手机的朋友,这在当时就是诺基亚手机的专配游戏。 本篇文章讲述如何在vb.net中编写此游戏代码。 一种方法是可以使用控件数组,在用户界面上使用如多个图片框构成整个背景&#xf…

用python自带的tkinter做游戏(一)—— 贪吃蛇 篇

用python自带的tkinter做游戏(一)—— 贪吃蛇 篇 本人新手,刚自学python满半年,现分享下心得,希望各位老手能指点一二,也希望和我一样的新手能共勉,谢谢~ 大家都知道用python做游戏用的比较多的…

python笔记—>贪吃蛇游戏制作

1、安装需要的库pygame Python Pygame 是一款专门为开发和设计 2D 电子游戏而生的软件包,它支 Windows、Linux、Mac OS 等操作系统,具有良好的跨平台性。Pygame 由 Pete Shinners 于 2000 年开发而成,是一款免费、开源的的软件包&#xff0…

手把手教你使用 Python 制作贪吃蛇游戏

贪吃蛇游戏是有史以来最受欢迎的街机游戏之一。在这个游戏中,玩家的主要目标是在不撞墙或不撞墙的情况下抓住最大数量的水果。在学习 Python 或 Pygame 时,可以将创建蛇游戏视为一项挑战。这是每个新手程序员都应该接受的最好的初学者友好项目之一。学习…

使用pygame制作贪吃蛇小游戏

使用pygame制作贪吃蛇小游戏 开发基本思路效果展示 具体实施步骤制作窗口,插入音频与图片绘制蛇与果实按键控制生成食物死亡设置其他设置 整体代码 开发基本思路 1、制作窗口,插入音频与图片 2、绘制蛇与果实 3、按键控制 4、生成食物 5、结束判断 效果…

应对新的挑战!ChatGPT将如何改变多域作战?

​公众号博主推送内容,未经许可,不得转载或者引用。 原文:Exploring the Possibilities of ChatGPT in Rugged Military AI Applications 《ChatGPT:利用最先进的技术支撑多域作战》 ChatGPT是一款基于GPT-3大型自然语言模型的…

Unity 接入巨量引擎今日头条广告投放SDK

巨量引擎 头条上报SDK接入 1.进入巨量引擎平台 ① 下载头条上报SDK SDK接入文档 我用的是5.3.0的官网上是3.3.12 SDK下载完了之后。 ②将unity工程导出android 工程。然后将下载的aar包导入UnityLibrary/libs文件夹下(如图文件夹) 并在改build.gradle文…

字节跳动 AI Lab 火山翻译在 WMT2022 非洲语向任务夺得桂冠

动手点关注 干货不迷路 1. 非洲语言的现状 非洲是世界上面积第二大的大洲,也是世界上第二个人口大洲,其大陆上存在 2146 种语言——约占世界语言总数的三分之一。广袤的面积、繁多的种族,还有宗教传播和殖民统治的影响,使其成为世…

Java开发经典面试题

重写与重载的区别重写与重载的区别_重写和重载_carrie呀carrie的博客-CSDN博客。。。。。。。。。。。https://blog.csdn.net/luoro/article/details/118307852?ops_request_misc%257B%2522request%255Fid%2522%253A%2522167875749216800211587145%2522%252C%2522scm%2522%253…

2023前端面试时遇到的面试题

2023前端面试时遇到的面试题 1.数组有哪些方法 push、pop、unshift、shift、join、forEach、filter、map、find… 2.filter和some返回的分别是一个什么 filter返回的是一个数组,some返回的是一个布尔值 3.es6新增了哪些方法 let和cconst、模板字符串&#xff…

Promise面试题

Promise面试题,带你搞懂同步异步执行顺序 前置知识面试题面试题一面试题二面试题三面试题四 分析面试题一分析面试题二分析面试题三分析面试题四分析 前置知识 Promise中的then方法 then:指定用于得到成功value的成功回调和用于得到失败reason的失败回调…

移动版OpenAI,手机的杀手还是救星?

AI登陆手机,难度因人而异。 原本小编还以为「2023年是属于元宇宙的一年」,实在没想到以ChatGPT为代表的AI技术能在这么短的时间内抢走元宇宙的风头,成为2023年的技术关键词。从OpenAI到搜索引擎、从绘图工具到游戏公司,几乎所有「…

领导讲话云山雾罩像糊弄鬼,这些职场潜规则你知道吗

上一篇:入职银行科技部半年,我已经丧失跳槽的能力了! 混迹职场时间久了,就会发现领导职务越高,说话越有水平,也有高度,可是有时让你听的却是云山雾罩,不知道该如何应对。 聪明的人能…

代码的艺术(一)

目录 代码整洁的必要性 为什么要有代码 为什么要写得整洁 整洁的艺术 混乱的代价 整洁的定义 规整端正,符合规范 简洁精炼,便于阅读 什么是整洁的代码 怎样写出整洁的代码 不断改进 不要糊弄 具体做法 有意义的命名 使用函数 注释 勤加…

〖程序员的自我修养 - 优质简历篇①〗- 知己知彼,面试官是如何分析一份简历的

人之所以会觉得迷茫,本质上是欠缺对自己的一个控制力、识别庞杂信息、去伪存真的独立思考能力与认知能力。 说明:该文属于 程序员的自我修养 专栏,购买任意白宝书体系化专栏可加入易编程社区,早鸟价订阅模式除外。福利&#xff1a…

chatgpt赋能python:Python抠图教程:用代码实现高效抠图

Python 抠图教程:用代码实现高效抠图 什么是抠图? 在设计、美术、广告等领域中,经常需要把一张图片中的某个物体或人物单独提取出来,以便于进行后续的处理、叠加、合成等操作。这个过程就叫做抠图。 传统的抠图方式需要用到PS、…

ChatGPT大升级?它去考研能考上物理所吗?

3月15日本应是小编勤勤恳恳搬砖的平凡一天,但小编刚睡醒就发现朋友圈被ChatGPT刷屏了: 新版GPT-4震撼发布! 大升级!强到爆炸! 这些字眼引起了我的兴趣,于是小编迅速入(ke)手(jin)了gpt-4,经过简…

快速构建一个简单的对话+问答AI (上)

文章目录 前言part0 资源准备基本功能语料停用词问答闲聊语料 获取 part01句的表达表达one-hot编码 词嵌入大致原理实现简单版复杂版如何训练 转换后的形状 part02 循环神经网络RNNRNN投影图RNN是三维立体的 LSTM&GRU part03意图识别分词FastText分类FastText网络结构优化点…