清华版Chatgpt:chatglm-6B教程——如何从训练中确定最合适的学习率

我们在使用chatglm-6B的时候,总会遇到一个问题。即学习率如何确定。我们首先先看chatglm的两个训练用sh文件的学习率是如何确定的。

一、如何第一时间确定学习率
这是train.sh的LR
这是train_chat.sh的LR
我们可以看到在chatglm给的标准中,对于聊天的训练所默认的学习率是要小于训练广告词的,两者的区别在于,广告词有更多重合性质的prompt,而聊天更加发散。
所以在训练前你要自己评估,你给出来的训练内容内容的发散程度是否大,如果很发散,那么调小学习率,如何prompt很集中,那么可以在初期调一个相对比较大的学习率。
这个学习率可以以2e-2为标准,在5e-2和5e-3之间选择一个开始。

二、相对较好的学习率
我们一定要理解一个问题,学习率LR不是一个固定的值,或者一个绝对的值,而是一个相对较小的值。既然是相对较小,那么一定没法通过一次训练就能获得,这个数值至少要通过3次训练来确定。
每一次训练后,我们把loss值打印出来。loss值是应该呈反函数状态的。
我把3次训练的结果打印出来:
三次学习率走势
这三次的学习率从上到下依次是增大的,即蓝色>黄色>绿色。
我们有两个点来判断,如果第三次(绿色)是最大的,那么就说明再增大学习率还有可能使loss变小,如果第一次(蓝色)是最大的,那么就说明再降低学习率还有可能使loss变小,如果中间黄色的是最大的,那么这个学习率是可以确定下来了。
单就这三条线而言,他们的斜率并不是缓慢变化的,这个斜率的变化在25以内的时候就突然放大了。而最理想的情况是,斜率是慢慢变小的。
所以在这个模型中,学习率还应该再往大调整。

三、什么是合适的学习率
学习率并不是越低越好,而是在0-1之间是比较好的。但是这个值在0.5到1之间是最好的,如果越趋近于0,则越可能形成过拟合(过拟合了就需要重新训练,调整训练集和测试集),如果大于1则结果可能不会太理想。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13336.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

来自清华的ChatGPT?GLM-130B详解

原文:来自清华的ChatGPT?GLM-130B详解 - 知乎 本文会分析一下来自清华的ChatGPT,这篇论文的价值很大,为什么这么将?因为他开源了所有代码,包括模型,baseline。确实是一个不错的里程碑。 GLM-1…

一种平价的chatgpt实现方案,基于清华的 ChatGLM-6B + LoRA 进行finetune.(aigc大模型风口,校招找工作必备)

** 清华大学的chatglm-6b开源模型对话能力虽然能基本满足对话需求,但是针对专业领域和垂直领域回答显得智商捉急,这个时候就需要进行微调来提升效果,但是但是同学们显卡的显存更捉急,这时候一种新的微调方式诞生了,现在…

chatgpt相关关键字

听了一堂chatgpt的课程,真假参半,但积累了一些关键词。不知道这些关键字会在什么时候起到作用,先记录下来作为灵感积累 1 自然进化的过程,是人选择工具,也是工具选择人 2 Copliot-自动编程,感觉适用于独立新…

你会接受3.5万,但很讨厌的工作吗?网友评论亮了

大家好,我是快乐打工人小饴 周四周四,无所事事 不如来“八卦”一些轻松的话题 看看程序员们近期都在关注什么吧 你心目中Top3的公司有哪些? 网友神回复:强盛集团! 对于职场人来说,选择一家适合自己的公…

“我的人生可以分成两部分:有电脑之前和有电脑之后。”

最近,ChatGPT的出现让AI成为当下乃至未来的强大风口 而这个传奇的缔造者——山姆奥特曼(Sam Altman) 也在一夜之间成为全球最火爆的“顶流”。 “我的人生可以分成两部分:有电脑之前和有电脑之后。” 从8岁起,他就迷…

解放生产力,社媒运营人还能这样玩转ChatGPT?

相信大家这段时间都被ChatGPT刷屏了吧,东哥我也不例外!基本上一打开社媒平台都是在讨论ChatGPT,那社媒运营人应该如何使用ChatGPT呢?东哥今天就跟大家唠唠。 利用ChatGPT写广告标语、广告文案 运营人常常为广告标语、广告文案等想到头秃&…

中创AI|政治、工作、娱乐,ChatGPT正逐步影响我们的社会生产生活!

“作为政策官员,我们所做的一切,无论是编写会议记录还是批准预算文件,只是为了调动资源来解决一个常见问题。一旦我们从这个角度看待自己,ChatGPT就会成为推动者,而不是破坏者。” ——新加坡政府官员 ChatGPT可被广…

AI,正在疯狂污染中文互联网

污染中文互联网,AI成了“罪魁祸首”之一。 事情是这样的。 最近大家不是都热衷于向AI咨询嘛,有位网友就问了Bing这么一个问题: 象鼻山是否有缆车? Bing也是有问必答,给出了看似挺靠谱的答案: 在给出肯定的答…

基于Android的二维码识别系统的研究 与实现

XXXX 本科生毕业设计(论文) 学院(系): XX 专 业: XX 学 生: XX 指导教师: XX XX 完成日期 年 月 XXX本科生毕业设计(论文) 基于Android的二维码识别系统的研究 与实现 Research and Implementation of QRco…

开源布道师适兕访谈录

「 没有人会理解一个中年男人为什么会在四十岁这个压力最大的年纪,放弃稳定的技术主管生活,去坚持做“开源布道”这件看起来没有名,也没有利,甚至前路漫漫的事情。」 李建盛,1982年生,在临近35岁危机做出了…

LitCTF 2023 WriteUp(部分)

Index 前言题目Web我Flag呢? Pwn只需要nc一下~口算题卡题目分析EXP: 狠狠的溢出涅~题目分析EXP: ezlogin题目分析EXP: Reverse世界上最棒的程序员 ez_XOREXP: CryptoHex?Hex!(初级)梦想是红色的原来你也玩原神 Misc签到!(初级)Wha…

云计算、大数据、人工智能、物联网、虚拟现实技术、区块链技术(新一代信息技术)学习这一篇够了!

目录 云计算 一、云计算的基本概念 二、云计算的分类 (一) IaaS (二) SaaS (三) PaaS 三、云环境的分类、云计算的四种部署模式 (一)公有云 (二)私有云 (三)社区云 (四)混合云 四、云计算的特点 (一)虚拟化技术 (二)动态可扩展 (三)按需部署 (四)灵活性高 (五…

ChatGPT3.5使用体验

MySQL 中的索引 前言 上篇文章聊完了 MySQL 中的锁,这里接着来看下 MySQL 中的索引。 一般当我们数据库中的某些查询比较慢的时候,正常情况下,一顿分析下来,大多数我们会考虑对这个查询加个索引,那么索引是如何工作…

使用腾讯云直播开发直播功能

前言: 最近公司开发app直播功能,我是后端,使用java开发,经过考虑选择使用腾讯的云直播功能,主要是考虑到腾讯在这方面可以说是很有实力的了。然后就是选择产品的问题,腾讯提供了几种直播的解决方案&#x…

破案了,c知道就是套壳chatgpt

不过也是好事儿,国内不用魔法也可以用gpt了,比一些公司硬要自己开发二流产品强多了

【报告】Chatgpt合集报告(8篇):引领AI新浪潮,开启AI新纪元(24H限时下载)

ChatGPT 注册用户突破1亿,成为史上成长最快的消费者应用。2022年11月底,由OpenAI 开发的人工智能对话聊天机器人ChatGPT推出,并迅速在社交媒体上走红,5 天注册用户数就超过100万,两个月后,注册用户突破1亿。…

卧槽,ChatGPT 太强了吧!

机器之心报道 机器之心编辑部 关于 AI 的问题,可以直接问 AI。 OpenAI 新上线的 ChatGPT 可谓是火爆出圈,这个对话模型可以回答后续问题,承认错误,挑战不正确的前提,还能帮你修改代码中的 bug…… 只要和它聊上几句&am…

visual chatgpt:talking,drawing and editing with visual foundation models

微软-多模态ChatGPT来了:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models - 知乎摘要ChatGPT吸引了各个领域的兴趣,因其提供了一个跨领域的具有卓越会话能力和推理能力的语言界面。然而,由于ChatGPT是一个语言模…

美的智家、海尔智家,吹响新一轮AI竞赛号角

ChatGPT大行其道,各行各业迫不及待披上了AI大模型的“盔甲”,有的企业自研AI大模型,有的企业牵手头部科技企业,寻求智能产品价值的最大化,智能家电行业也不例外。 在国内,百度AI大模型文心一言一经推出就吸…

京东“百亿补贴”提前20小时上线,电商价格战开打; iPhone 15 Pro玻璃面板泄露;凹语言 0.5.0发布|极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…