微软开源“傻瓜式”类ChatGPT模型训练工具,成本大大降低,速度提升15倍

当地时间 4 月 12 日,微软宣布开源 DeepSpeed-Chat,帮助用户轻松训练类 ChatGPT 等大语言模型。

据悉,Deep Speed Chat 是基于微软 Deep Speed 深度学习优化库开发而成,具备训练、强化推理等功能,还使用了 RLHF(基于人类反馈的强化学习)技术,可将训练速度提升 15 倍以上,而成本却大大降低。

如下图,一个 130 亿参数的类 ChatGPT 模型,训练时间只需要 1.25 小时。

简单来说,用户只需要通过 Deep Speed Chat 提供的 “傻瓜式” 操作,就能以最短的时间、最高效的成本训练类 ChatGPT 大语言模型。

开源地址:

https://github.com/microsoft/DeepSpeed

使 RLHF 训练真正在 AI 社区普及

近来,ChatGPT 及类似模型引发了 AI 行业的一场风潮。ChatGPT 类模型能够执行归纳、编程、翻译等任务,其结果与人类专家相当甚至更优。为了能够使普通数据科学家和研究者能够更加轻松地训练和部署 ChatGPT 等模型,AI 开源社区进行了各种尝试,如 ChatLLaMa、ChatGLM-6B、Alpaca、Vicuna、Databricks-Dolly 等。

然而,目前业内依然缺乏一个支持端到端的基于人工反馈机制的强化学习(RLHF)的规模化系统,这使得训练强大的类 ChatGPT 模型十分困难。

例如,使用现有的开源系统训练一个具有 67 亿参数的类 ChatGPT 模型,通常需要昂贵的多卡至多节点的 GPU 集群,但这些资源对大多数数据科学家或研究者而言难以获取。同时,即使有了这样的计算资源,现有的开源系统的训练效率通常也达不到这些机器最大效率的 5%。

简而言之,即使有了昂贵的多 GPU 集群,现有解决方案也无法轻松、快速、经济的训练具有数千亿参数的最先进的类 ChatGPT 模型。

与常见的大语言模型的预训练和微调不同,ChatGPT 模型的训练基于 RLHF 技术,这使得现有深度学习系统在训练类 ChatGPT 模型时存在种种局限。

微软在 Deep Speed Chat 介绍文档中表示,“为了让 ChatGPT 类型的模型更容易被普通数据科学家和研究者使用,并使 RLHF 训练真正在 AI 社区普及,我们发布了 DeepSpeed-Chat。”

据介绍,为了实现无缝的训练体验,微软在 DeepSpeed-Chat 中整合了一个端到端的训练流程,包括以下三个主要步骤:

图|DeepSpeed-Chat 的具有可选功能的 RLHF 训练流程图(来源:GitHub)

  • 监督微调(SFT),使用精选的人类回答来微调预训练的语言模型以应对各种查询;

  • 奖励模型微调,使用一个包含人类对同一查询的多个答案打分的数据集来训练一个独立的(通常比 SFT 小的)奖励模型(RW);

  • RLHF 训练,利用 Proximal Policy Optimization(PPO)算法,根据 RW 模型的奖励反馈进一步微调 SFT 模型。

在步骤 3 中,微软提供了指数移动平均(EMA)和混合训练两个额外的功能,以帮助提高模型质量。根据 InstructGPT,EMA 通常比传统的最终训练模型提供更好的响应质量,而混合训练可以帮助模型保持预训练基准解决能力。

总体来说,DeepSpeed-Chat 具有以下三大核心功能:

1.简化 ChatGPT 类型模型的训练和强化推理体验:只需一个脚本即可实现多个训练步骤,包括使用 Huggingface 预训练的模型、使用 DeepSpeed-RLHF 系统运行 InstructGPT 训练的所有三个步骤、甚至生成你自己的类 ChatGPT 模型。此外,微软还提供了一个易于使用的推理API,用于用户在模型训练后测试对话式交互。

2.DeepSpeed-RLHF 模块:DeepSpeed-RLHF 复刻了 InstructGPT 论文中的训练模式,并确保包括 SFT、奖励模型微调和 RLHF 在内的三个步骤与其一一对应。此外,微软还提供了数据抽象和混合功能,以支持用户使用多个不同来源的数据源进行训练。

3.DeepSpeed-RLHF 系统:微软将 DeepSpeed 的训练(training engine)和推理能力(inference engine) 整合到一个统一的混合引擎(DeepSpeed-HE)中用于 RLHF 训练。DeepSpeed-HE 能够在 RLHF 中无缝地在推理和训练模式之间切换,使其能够利用来自 DeepSpeed-Inference 的各种优化,如张量并行计算和高性能 CUDA 算子进行语言生成,同时对训练部分还能从 ZeRO- 和 LoRA-based 内存优化策略中受益。此外,DeepSpeed-HE 还能自动在 RLHF 的不同阶段进行智能的内存管理和数据缓存。

高效、经济、扩展性强

据介绍,DeepSpeed-RLHF 系统在大规模训练中具有出色的效率,使复杂的 RLHF 训练变得快速、经济并且易于大规模推广。

具体而言,DeepSpeed-HE 比现有系统快 15 倍以上,使 RLHF 训练快速且经济实惠。例如,DeepSpeed-HE 在 Azure 云上只需 9 小时即可训练一个 OPT-13B 模型,只需 18 小时即可训练一个 OPT-30B 模型。这两种训练分别花费不到 300 美元和 600 美元。

此外,DeepSpeed-HE 也具有卓越的扩展性,其能够支持训练拥有数千亿参数的模型,并在多节点多 GPU 系统上展现出卓越的扩展性。因此,即使是一个拥有 130 亿参数的模型,也只需 1.25 小时就能完成训练。而对于参数规模为 1750 亿的更大模型,使用 DeepSpeed-HE 进行训练也只需不到一天的时间。

另外,此次开源有望实现 RLHF 训练的普及化。微软表示,仅凭单个 GPU,DeepSpeed-HE 就能支持训练超过 130 亿参数的模型。这使得那些无法使用多 GPU 系统的数据科学家和研究者不仅能够轻松创建轻量级的 RLHF 模型,还能创建大型且功能强大的模型,以应对不同的使用场景。

那么,人手一个专属 ChatGPT 的时代,还有多远?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/873.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微软ChatGPT技术的底层支撑——GPU

我是荔园微风,作为一名在IT界整整25年的老兵,今天我们来看一看微软ChatGPT技术的底层支撑——GPU。 想要了解GPU,你必须要清楚CPU、GPU、TPU三者的关系。 微软的chatgpt是基于复杂的人工神经网络和强化学习的技术,这是如何运算的…

ChatGPT的前世今生

作者🕵️‍♂️:让机器理解语言か 专栏🎇:NLP(自然语言处理) 描述🎨:让机器理解语言,让世界更加美好! 寄语💓:🐾没有白走的…

无需GPU无需网络“本地部署chatGPT”(更新StableVicuna)

想当初图像生成从DELL到stable diffusion再到苹果的移动部署过了两三年吧 聊天bot才发展几个月就可以边缘部署了,如果苹果更新silicon,npu和运存翻倍,争取apple watch也能本地内置,最快ios18 mac、ipad、iPhone能内置吧 又是一个平…

说说最近的潮流ChatGPT

最近这个ChatGPT可谓是火遍全网,基本占据各个平台的热搜,如 “ChatGPT让苹果急了”“美国89%的大学生都是用ChatGPT做作业”,网友笑称终于有个懂我的AI了,再也不是“人工智障了” 这个ChatGPT到底神奇在哪里??? 官方给出的答…

苹果公司限制员工使用AI工具ChatGPT和GitHub Copilot

​关注文章下方公众号,即可免费获取AIGC最新学习资料 导读:苹果公司最近发布了一份内部备忘录,禁止员工使用生成式AI平台(包括ChatGPT和GitHub的Copilot等)用于工作任务。 本文字数:600,阅读时…

询问ChatGPT的高质量答案艺术——提示工程指南

目录 前言一、提示工程简介二、提示技巧2-1、生成法律文件2-2、添加提示技巧 三、角色扮演3-1、智能手机产品描述3-2、添加角色扮演 四、标准提示4-1、写一篇有关于新智能手机的评论4-2、添加标准提示、角色提示、种子词提示等等 五、示例很少、或者没有示例5-1、生成一个手机配…

视界 | ChatGPT横空出世,谷歌苹果都“急”了

最近ChatGPT简直火出圈了。 这是一款人工智能聊天机器人,网络上传得神乎其神。在传说中,ChatGPT会写诗、改论文、编程序、写文章、看病......,甚至还会写券商的行业分析报告,简直无所不能。 据说许多打工人已经在担心自己的饭碗…

chatGPT对经济的影响

公众号文章:chatGPT对经济的影响 问答 chatGPT对经济的影响是什么 请你扮演一位大学生,要做一场关于“chatGPT对经济的影响“的报告,请你详细讲述PPT制作构思以及开场白 好的,作为一位大学生,我非常荣幸能够在这里向…

把ChatGPT的所有插件整理成中文后!真要说卧槽了..

大家好,我是五竹。 ChatGPT如约向用户开放了联网功能和众多插件,五竹从上周开始满怀着热情等待着,看别人的测评效果都快把我羡慕哭了。最终等来的却是Plus账号给封了,而且至今也没有续上,只能说非常无奈。算了&#x…

ChatGPT的申请之路(2)

https://chat.openai.com/ 1、账号已经申请成功,选择Login 2、选择Continue with Apple 3、输入苹果ID 4、输入密码 5、继续 6、ChatGPT的画面终于出来了,红框为输入信息框 7、聊天示例 8、换中文试试

【ChatGPT 实践 1】Mac、Iphone、Ipad 集成 ChatGPT

环境准备 1 个 ChatGPT 账号 步骤概述 这里以 Mac 为例: 1、点击下面链接,添加 爱玩 快捷指令 https://www.icloud.com/shortcuts/2f6afbd6660e48e18a587bc90ede3932 (可能出现打不开的情况,比如 部分 Iphone 设备&#xff…

接入ChatGPT应用被苹果阻止更新,要求改成17限

萧箫 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT开放API消息才出来,就有应用安排上了。 然而,苹果却把这次更新阻止了! 理由是人工智能可能会产生不适合所有受众的内容: 要么增加内容过滤功能,要么把APP适用人群改到1…

ChatGPT开源系列

目录 进化树 从GPT-4 可以看出未来 LLM 的哪些趋势?未来的研发方向和优化策略是什么? 模型 Stanford Alpaca 可以借鉴的点 llama.cpp 验证阶段已完成 nebullvm-chatllama(待定) 可以借鉴的点 OpenChatKit 可以借鉴的点&a…

ChatGPT飙升苹果商店榜首,每周订阅需7.99美元,结果是个假的???

衡宇 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT出App版了,苹果商店下载就能使用?? 打开美国Apple Store搜索,下载后软件内每周付费7.99美元,即可享受与它无次数限制畅聊。 不过别忙着付费! 这个ChatGPT C…

OpenAI推出iOS版ChatGPT,支持语音输入

北京时间5月19日凌晨,OpenAI重磅推出iOS版ChatGPT。 据介绍,iOS版ChatGPT供免费使用,并在不同设备上同步聊天历史。 同时,它还集成了开源语音识别系统Whisper,可以实现语音输入。 另外,ChatGPT Plus用户在i…

AI在狂飙,ChatGPT-4可直接在iPhone上使用啦

今天凌晨,OpenAI 正式在 App Store 推出了 ChatGPT 的 iOS app,瞬间冲上苹果商店免费榜第二名,效率榜第一名。 于是兴致勃勃的去下载体验了一番。整体不错,以后手机使用官方的 ChatGPT 更方便啦!而且使用 GPT4 不再麻…

“我在 iPhone 上,创建了个 ChatGPT 快捷方式,这也太万能了……”

【CSDN 编者按】由 ChatGPT 提供支持的神奇快捷方式 S-GPT。 原文链接:https://medium.com/macoclock/heres-a-chatgpt-powered-shortcut-for-ios-that-will-blow-your-mind-c6aeebb77e00 未经允许,禁止转载! 作者 | Nikhil Vemu 译者 | 弯月…

ChatGPT为一位英语女教师做了这件事

文 / 高扬(微信公众号:量子论) 今天有位网友加我微信,是某中学的英语老师,通过“量子论”公众号知晓了ChatGPT的一些有趣玩法,询问是否有办法帮她做个提示词,依据一个单词生成配套学习资料。 即…

ChatGPT专业应用:英文语法纠错

正文共 381 字,阅读大约需要 1 分钟 英语学习者必备技巧,您将在1分钟后获得以下超能力: 英文语法纠错 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人 | Linda 编辑者 | Yolanda ●此图…

更好地提问ChatGPT_常用prompt表

对常见的用途,记录该表以便获得ChatGPT更高质量的回复。 类别目的提问方式要点文案写作周报、日报、年终总结本周我做了以下几件事情:出差客户办事处、交流演示、初步数据分析。请帮我写一份周报要点形式列举工作内容。可以说明职位,以便工作…