微软开源“傻瓜式”ChatGPT训练工具,一大波套壳产品即将来临?

dac7d1baee0742e3f78432c50eb42b71.png

当地时间 4 月 12 日,微软宣布开源 DeepSpeed-Chat,帮助用户轻松训练类 ChatGPT 等大语言模型。

据悉,Deep Speed Chat 是基于微软 Deep Speed 深度学习优化库开发而成,具备训练、强化推理等功能,还使用了 RLHF(基于人类反馈的强化学习)技术,可将训练速度提升 15 倍以上,而成本却大大降低。

如下图,一个 130 亿参数的类 ChatGPT 模型,训练时间只需要 1.25 小时。

c8cb2164b00efb744260ee2bdb70a373.png

简单来说,用户只需要通过 Deep Speed Chat 提供的 “傻瓜式” 操作,就能以最短的时间、最高效的成本训练类 ChatGPT 大语言模型。

开源地址:

https://github.com/microsoft/DeepSpeed

f145f8e4da905d0acb878d1dc689f9e9.png

使 RLHF 训练真正在 AI 社区普及

近来,ChatGPT 及类似模型引发了 AI 行业的一场风潮。ChatGPT 类模型能够执行归纳、编程、翻译等任务,其结果与人类专家相当甚至更优。为了能够使普通数据科学家和研究者能够更加轻松地训练和部署 ChatGPT 等模型,AI 开源社区进行了各种尝试,如 ChatLLaMa、ChatGLM-6B、Alpaca、Vicuna、Databricks-Dolly 等。

然而,目前业内依然缺乏一个支持端到端的基于人工反馈机制的强化学习(RLHF)的规模化系统,这使得训练强大的类 ChatGPT 模型十分困难。

例如,使用现有的开源系统训练一个具有 67 亿参数的类 ChatGPT 模型,通常需要昂贵的多卡至多节点的 GPU 集群,但这些资源对大多数数据科学家或研究者而言难以获取。同时,即使有了这样的计算资源,现有的开源系统的训练效率通常也达不到这些机器最大效率的 5%。

简而言之,即使有了昂贵的多 GPU 集群,现有解决方案也无法轻松、快速、经济的训练具有数千亿参数的最先进的类 ChatGPT 模型。

与常见的大语言模型的预训练和微调不同,ChatGPT 模型的训练基于 RLHF 技术,这使得现有深度学习系统在训练类 ChatGPT 模型时存在种种局限。

微软在 Deep Speed Chat 介绍文档中表示,“为了让 ChatGPT 类型的模型更容易被普通数据科学家和研究者使用,并使 RLHF 训练真正在 AI 社区普及,我们发布了 DeepSpeed-Chat。”

据介绍,为了实现无缝的训练体验,微软在 DeepSpeed-Chat 中整合了一个端到端的训练流程,包括以下三个主要步骤:

1f784a84d7b2ecc056eb90f09beeca90.png

图|DeepSpeed-Chat 的具有可选功能的 RLHF 训练流程图(来源:GitHub)

  • 监督微调(SFT),使用精选的人类回答来微调预训练的语言模型以应对各种查询;

  • 奖励模型微调,使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的(通常比 SFT 小的)奖励模型(RW);

  • RLHF 训练,利用 Proximal Policy Optimization(PPO)算法,根据 RW 模型的奖励反馈进一步微调 SFT 模型。

在步骤 3 中,微软提供了指数移动平均(EMA)和混合训练两个额外的功能,以帮助提高模型质量。根据 InstructGPT,EMA 通常比传统的最终训练模型提供更好的响应质量,而混合训练可以帮助模型保持预训练基准解决能力。

总体来说,DeepSpeed-Chat 具有以下三大核心功能:

1.简化 ChatGPT 类型模型的训练和强化推理体验:只需一个脚本即可实现多个训练步骤,包括使用 Huggingface 预训练的模型、使用 DeepSpeed-RLHF 系统运行 InstructGPT 训练的所有三个步骤、甚至生成你自己的类 ChatGPT 模型。此外,微软还提供了一个易于使用的推理API,用于用户在模型训练后测试对话式交互。

2.DeepSpeed-RLHF 模块:DeepSpeed-RLHF 复刻了 InstructGPT 论文中的训练模式,并确保包括 SFT、奖励模型微调和 RLHF 在内的三个步骤与其一一对应。此外,微软还提供了数据抽象和混合功能,以支持用户使用多个不同来源的数据源进行训练。

3.DeepSpeed-RLHF 系统:微软将 DeepSpeed 的训练(training engine)和推理能力(inference engine) 整合到一个统一的混合引擎(DeepSpeed-HE)中用于 RLHF 训练。DeepSpeed-HE 能够在 RLHF 中无缝地在推理和训练模式之间切换,使其能够利用来自 DeepSpeed-Inference 的各种优化,如张量并行计算和高性能 CUDA 算子进行语言生成,同时对训练部分还能从 ZeRO- 和 LoRA-based 内存优化策略中受益。此外,DeepSpeed-HE 还能自动在 RLHF 的不同阶段进行智能的内存管理和数据缓存。

499b72d465de5e4463cca733969d1cbe.png

高效、经济、扩展性强

据介绍,DeepSpeed-RLHF 系统在大规模训练中具有出色的效率,使复杂的 RLHF 训练变得快速、经济并且易于大规模推广。

具体而言,DeepSpeed-HE 比现有系统快 15 倍以上,使 RLHF 训练快速且经济实惠。例如,DeepSpeed-HE 在 Azure 云上只需 9 小时即可训练一个 OPT-13B 模型,只需 18 小时即可训练一个 OPT-30B 模型。这两种训练分别花费不到 300 美元和 600 美元。

此外,DeepSpeed-HE 也具有卓越的扩展性,其能够支持训练拥有数千亿参数的模型,并在多节点多 GPU 系统上展现出卓越的扩展性。因此,即使是一个拥有 130 亿参数的模型,也只需 1.25 小时就能完成训练。而对于参数规模为 1750 亿的更大模型,使用 DeepSpeed-HE 进行训练也只需不到一天的时间。

另外,此次开源有望实现 RLHF 训练的普及化。微软表示,仅凭单个 GPU,DeepSpeed-HE 就能支持训练超过 130 亿参数的模型。这使得那些无法使用多 GPU 系统的数据科学家和研究者不仅能够轻松创建轻量级的 RLHF 模型,还能创建大型且功能强大的模型,以应对不同的使用场景。

那么,人手一个专属 ChatGPT 的时代,还有多远?

参考链接:

https://github.com/microsoft/DeepSpeed/blob/master/blogs/deepspeed-chat/chinese/README.md

------

我们创建了一个高质量的技术交流群,与优秀的人在一起,自己也会优秀起来,赶紧点击加群,享受一起成长的快乐。另外,如果你最近想跳槽的话,年前我花了2周时间收集了一波大厂面经,节后准备跳槽的可以点击这里领取!

推荐阅读

  • “商量”翻车了?网友质疑搬运C站

  • ChatGPT的今天,早已被这本书预言了|文末赠书

  • OpenAI宣布漏洞赏金计划,最高奖金2万美元

··································

你好,我是程序猿DD,10年开发老司机、阿里云MVP、腾讯云TVP、出过书创过业、国企4年互联网6年。从普通开发到架构师、再到合伙人。一路过来,给我最深的感受就是一定要不断学习并关注前沿。只要你能坚持下来,多思考、少抱怨、勤动手,就很容易实现弯道超车!所以,不要问我现在干什么是否来得及。如果你看好一个事情,一定是坚持了才能看到希望,而不是看到希望才去坚持。相信我,只要坚持下来,你一定比现在更好!如果你还没什么方向,可以先关注我,这里会经常分享一些前沿资讯,帮你积累弯道超车的资本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36347.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于企业微信和钉钉的工资条发送工具 - 工资条帮新版操作说明

软件所有版本及相关文件下载地址 蓝奏云(建议这个,可以直接下载) : https://wxgnolux.lanzouj.com/b03cxqi2f 密码:dgsm 更新说明 20221211a https://wxgnolux.lanzoue.com/i0s2K0if4qze 密码:4c72 1.钉钉版补充加入了图片和…

Payroll工资单中英文对照明细

不知道大家的工资单是中文的还是英文的,如果是英文的,刚开始看有些看不懂(我就是),那么可以在这里找到对应的翻译。如果中文的,而你又想知道对应英文怎么写的话,也欢迎查阅以下表格。ps.个人所得…

Intouch制作报表和导出Excel(手把手敲代码)

制作报表导出Exce 浏览控件向导,选择“趋势”→双击“HistData”控件 双击控件,弹出HistData设置面板 单击“建议”按钮,系统自定义生成趋势标记“HistTrend” 系统生成的趋势标记名为“HDW”开头的标记名,按照流程操作就不需要…

原来报表与统计图要这么做!

导读:报表与统计图作为数据信息输出的一种方式,被广泛运用于数据展示、交流等工作中。本文使用一份二手房数据演示如何制作报表与统计图。 报表可用于展现数据的主要信息,分为包含维度(分类变量)指标和度量&#xff08…

Excel VBA 高级编程-工资条模板考勤工资管理系统

大家好,我是陈小虾,是一名自动化方向的IT民工。写博客是为了记录自己的学习过程,通过不断输出倒逼自己加速成长。但由于水平有限,博客中难免会出现一些BUG,或者有更优方案恳请各位大佬不吝赐教!微信公众号&…

用mysql生成工资条,超实用的工资表模板,一键生成工资表

原标题:超实用的工资表模板,一键生成工资表 我们常见的工资表基本上都是用Excel制作的,它已经成为企业财会部门必不可少的一种表格模板,在每个月发放工资之前使用。那么工资表怎么做呢?这是大多数办公新人会遇到一个难…

工资条自动发送工具

工资条自动发送工具 使用手册V1.0 一枚假程序猿 2020年12月12日 目录 1 简介... 1 1.1 背景... 1 1.2 目标... 2 2 安装说明... 2 2.1 安装包安装... 3 2.2 压缩文件解压... 4 3 赠送资料... 4 4 使用说明... 8 4.1 …

公司职员薪水管理系统(List)

集合初步完成下面的功能需求 做公司职员薪水管理系统,完成以下功能 1,当有新员工时,将加入该管理系统 2,根据员工号,显示该员工信息 3,可以显示所有员工的信息 4,可以修改员工的薪水 5&#xff…

如何简单地将工资单发给员工?

现在的企业越来越大,对于行政人员来说,在每月的发工资日,如何更快速地将工资单发给员工手上,也是一个头疼的问题,我们找到了一个平台,特别针对工资单做了解决方案,操作简单,几分钟即…

我帮公司财务写了个“群发工资条”的 Python 脚本!

来源 | 数据分析与统计学之美 本文介绍 这是一个很好的Python自动化的案例。对于小公司,采用手动方式一个个发送邮件还是可以的。如果一个上百号,上千号,或者更大规模的公司,我们再一个个发送工资条邮件,就太浪费时间了…

人事部员工数量统计报表制作

现在有员工信息数据,要求从不同的维度统计各部门的员工数据量, Excel 中数据如下: 统计结果为: 制作报表过程 1、 打开润乾报表工具并新建空白报表 2、 增加数据集,类型为文本文件,选择 Excel 文件 …

Python自动化结算工资和统计报表

实例需求说明 你好,我是悦创。 博客首发:https://bornforthis.cn/column/pyauto/auto_base07.html 学习了 Excel 文件的写入、读取和追加内容,那现在来做个案例。 需求描述并整理,如下: 每个月的 2 号&#xff0c…

妙用EXECEL与JMAIL发送员工工资条

妙用EXECEL与JMAIL发送员工工资条 在实际的工作当中,有许多小规模的单位总是采用EXCEL来做员工工资,因为EXCEL中有许多公式可以用,只填入当月变动的项目,扣税、最终实发工资等项目就自动计算出来了。做出工资了有好多单位财务人员…

用Excel做了7天报表,这个领导喜欢的可视化工具,只用了7小时

以前我在某外企银行实习的时候,需要处理将近七年的财务报表,如果按照传统的方式,我估计七天七夜都处理不完,就更别提分析了。一般来说外企的电脑软件限制非常严格,有专门的IT把控。很多软件是下不了的,即使…

员工每月工资数据集可视化分析

前言 最近在学习《从零开始学Python数据分析》这本书,第六章的综合实例——巴尔的摩公务员工资数据集,原网站上数据集被清除,于是在Kaggle上寻找了相似的数据“Employee_monthly_salary.csv”进行可视化数据分析。 工作环境 系统&#xff…

android app图标长按展示快捷方式 Shortcuts 类似3d touch

android 长按图标展示快捷方式 文章目录 android 长按图标展示快捷方式1. 静态创建2. 动态创建 首先,这不是一个新功能了,在android 7.1的时候就已经支持创建快捷入口了。因为当时项目用不到也没关注过这块,现在很多应用都支持长按展示快捷入…

苹果手机的计算机怎么设置快捷键大全,苹果Macbook快捷键使用大全,超详细!...

苹果电脑Macbook快捷键如何使用?很多小伙伴经常询问小编有关于苹果电脑的相关问题,其实很多快捷键都可以提高生产力,那么接下来一起看看苹果Macbook快捷键使用大全! 苹果电脑Macbook快捷键大全: 一、将键盘当作鼠标使用…

最全Mac系统快捷键一览

Mac中主要有四个修饰键,分别是Command,Control,Option和Shift。 这四个键分别有自己的图案,他们经常出现在Mac应用程序中的菜单栏里,方便你随时学习新的快捷键。 MAC 键盘快捷键符号图例 通用 Command是Mac里最重要的…

苹果Macbook快捷键使用大全

苹果电脑Macbook快捷键如何使用?很多小伙伴经常询问小编有关于苹果电脑的相关问题,其实很多快捷键都可以提高生产力,那么接下来一起看看苹果Macbook快捷键使用大全! 苹果电脑Macbook快捷键大全: 一、将键盘当作鼠标使用…

消除macbook桌面快捷键图标上的箭头

修改/System/Library/CoreServices/CoreTypes.bundle/Contents/Resources/ 路径下的AliasBadgeIcon.icns如下图: 修改AliasBadgeIcon.icns 名称为AliasBadgeIcon-no.icns 但是坑爹的右键没有重命名选项 于是想着在终端修改文件名 打开终端sudo -i切换到root模…