ChatGPT一路狂飙,NVMe SSD能否应对性能挑战?

近日,ChatGPT持续火爆,用户在短短两个月内迅速破亿,大量用户涌入导致ChatGPT访问和数据规模指数级增加。与数月前发布的版本相比,新的ChatGPT“智能”了许多,不仅可以像人类一样聊天交流,甚至能够完成一定程度的稿件撰写、视频脚本创作、翻译、代码,答题等操作。

毫无疑问,ChatGPT将人工智能(AI)的用户交互体验、生产力水平提升到了新的高度。而众多国内外知名互联网公司的纷纷入局,也让这场“人工智能竞赛”盛况空前,对算力水平、存储容量、存储性能的需求空前高涨。

在这里插入图片描述
ChatGPT对话示例

ChatGPT原理简要介绍

语音识别、语意处理与交互,一直以来都是人工智能的重点应用领域。ChatGPT主要涉及到自然语言处理相关技术,属于认知智能领域的应用之一。

ChatGPT起初基于OpenAI GPT-3语言模型训练开发,用以完成自然语言处理的绝大部分任务。但由于GPT-3自身无监督模型的属性,使得在早先版本的对话中,会存在一些生硬、甚至不恰当的文本响应,交互体验并不理想。

全新上线的ChatGPT由GPT-3.5训练模型微调而来——通过加入RLHF(人类反馈强化学习训练,Reinforcement Learning from Human Feedback)来指导机器学习过程,生成更加符合人类偏好的对话结果。

Step1:收集示范数据并训练监督策略模型
选择一个提示列表(Prompt),标注人员按照一定要求写下符合预期的输出,同时结合API过往请求获得的高质量结果,形成一个相对较小,但质量很高的数据集;基于该数据集对GPT-3.5进行调优训练。

Step2:收集比对数据,训练奖励模型(RM)
由于示范数据规模较小,调优后的模型仍然会产生多个回复内容,且其中一些并不理想。在Step2中,通过对这些输出结果进行人为打分,标记这些结果的可用度,使得模型能够模仿人类的偏好,即,生成奖励模型Reward Model。

Step3:使用奖励模型和PPO算法继续优化
将奖励模型作为奖励函数,使用PPO(近端策略优化,Proximal Policy Optimization)算法继续微调模型实现奖励最大化,通过对过程的多次重复与迭代,实现模型的不断完善。

RLHF过程(引自openai.com)
数据的调优,算法的优化与迭代,让ChatGPT的交互体验得到显著提升。对ChatGPT原理更加深入的解读,相关文章报道已经有不少了,在此不做赘述。接下来,我们回归“本行”,重点聊聊NVMe在以ChatGPT为代表的人工智能应用中的作用。

数据与算力

数据、算法、算力,共同构成了驱动人工智能技术前进的三驾马车。和我们每天使用的语音输入、语音交互、人脸识别、影像识别、内容翻译,乃至辅助驾驶(最终目标为全自动驾驶)等技术相同,ChatGPT同样也是基于机器学习,通过神经网络训练,模仿人类学习过程并学以致用的人工智能应用,它同样需要海量的数据(尽可能多的应用案例)与强大的算力加以支撑。只有积攒了足够多的经验,方可做到“熟能生巧,临危不乱”。

ChatGPT早期使用的GPT-3数据规模约为45TB,主要来自于互联网,每天产生的数据内容约为45亿字。随着ChatGPT的开放体验,以及如今ChatGPT的再度火热,将不断有新的高质量对话案例产生,甚至呈现几何级增长。这些新增数据将有效推动训练模型的继续迭代,实现ChatGPT应用体验越来越好。

算力方面,ChatGPT由Microsoft为OpenAI开放的Azure AI超算平台提供性能支撑。该平台由NVIDIA、Microsoft联合打造,可以为OpenAI提供超过258000个CPU核心和超过1000颗GPU。强大的计算性能结合GPT-3高达1750亿的训练参数,也让不少行业从业人员称“ChatGPT是大力出奇迹”的结果。

根据Microsoft、NVIDIA的相关报道,未来,Azure AI超算平台还将升级至400Gb/s InfiniBand网络和性能更强的NVIDIA H100 GPU,结合Azure先进的云计算架构与下一代NVMe高性能SSD,将可为任意规模的AI训练和深度学习推理工作负载提供可扩展的峰值性能,Azure AI超级计算机也将有望跻身Top500榜单前5名。

NVMe SSD的重要意义

NVMe SSD作为存储IO设备,在AI训练等高性能应用场景正全面取代传统SAS、SATA硬盘,其读写性能已经达到7GB/s水平,并向速度更快的14GB/s快速进发,容量方面更是在短短数年间提高了数十倍,让更大规模的训练数据可以保存其中。

GPU是当前AI训练、AI推理普遍使用的算力芯片。相较于数年前行业使用的Tesla、TITAN等GPU,最新的A100、H100算力水平(FP16、FP8)已经提升了数百倍,结合DPU、IB网卡、Magnum IO等软硬件的支持与优化,为AI训练、专业渲染、自动驾驶、科学计算、医疗、视频分析等前沿应用全面加速。

为验证高性能NVMe SSD在AI应用中的价值,我们联合某AI行业合作伙伴,基于GPU训练平台和Magnum IO中的GPUDirect Storage(简称“GDS”)技术,使用8片容量为7.68TB的PBlaze6 6930系列PCIe 4.0企业级NVMe SSD进行了相关测试,结果如下。

GDS——通过利用GPU和NVMe SSD中的DMA(Direct Memory Access)引擎,让NVMe SSD可以直接读写GPU专用内存(通常我们更习惯称之为“显存”),而不再需要经过CPU和系统内存中的反弹缓冲区(Bounce Buffer),借此缩短IO路径,提高GPU的执行效率,降低系统内存消耗以及CPU占用。

GPUDirect Storage数据传输逻辑

  • 系统空闲状态下,对比传统IO路径与GDS路径存储性能:随着IO队列深度增加,8片PBlaze6 6930系列SSD总的传输带宽增加。
  • 得益于PBlaze6 6930系列SSD大压力下的出色表现,以及GPU在数据处理方面更强的性能,GDS在大压力下性能领先幅度更加明显,如,4KB小文件传输带宽可提升33%,延迟降低25%;而128KB、1024KB文件传输环节,传统路径和GDS路径存储性能均可完全发挥,接近50GB/s。

在这里插入图片描述

  • 运行stressapptest将CPU、系统内存负载提高(2颗64核心CPU占用率为86%,内存带宽占用50%,达205GB/s),模拟在有其它计算密集型业务应用存在时,PBlaze6 6930仍然可以为AI训练提供的传输带宽。从结果看,虽然大量IO资源被占用,但PBlaze6 6930仍然可以为GPU提供系统空闲状态下50%以上的存储性能,其中,128KB、1024KB文件传输带宽可达系统闲时的75%以上。

在这里插入图片描述
在这里插入图片描述
如果说,GPUDirect Storage为AI工作负载提供了性能和响应时间优势,那么,PBlaze6 6930系列PCIe 4.0高性能企业级NVMe SSD则凭借其大压力下的出色性能,将GPUDirect Storage的存储性能提升到了新的高度,在极端应用情况下依旧可以为最为复杂的AI模型训练保驾护航。

专为AI等IO密集型应用设计的大容量NVMe SSD

PBlaze6 6930系列企业级SSD针对人工智能等IO密集型应用开发,有着高达1600K/680K IOPS的4K随机读/写性能,7.1GB/s和7.0GB/s的128K顺序读/写带宽,在多核计算、动态平滑技术、硬件多队列引擎、IO智能调度等算法深度优化下,无论负载压力如何,始终提供稳定出色的数据读写表现。结合高达30.72TB的单盘容量,为AI训练数据的收集、预处理、训练等任务提供充沛的存储性能与容量支撑。

PBlaze6 6930 系列 PCIe 4.0 企业级 NVMe SSD

如今,面向AI等高性能数字技术应用的全新一代GPU、CPU、InfiniBand网络均已悉数亮相,Memblaze的PCIe 5.0产品——PBlaze7 7940也是呼之欲出,以近乎翻倍的性能和更加丰富的企业级功能,继续为下一代计算平台与高性能业务应用加速!

参考材料:

  • OpenAI Blog:Aligning Language Models to Follow Instructions
    https://openai.com/blog/instruction-following/
  • OpenAI Blog:ChatGPT: Optimizing Language Models for Dialogue
    https://openai.com/blog/instruction-following/
  • OpenAI Blog:Techniques for Training Large Neural Networks
    https://openai.com/blog/techniques-for-training-large-neural-networks/
  • 架构师技术联盟:ChatGPT背后的技术工作原理
    https://mp.weixin.qq.com/s/Pz-gi55mPDLnAlyTL5HaGw
  • Microsoft announces new supercomputer, lays out vision for future AI work
    https://news.microsoft.com/source/features/ai/openai-azure-supercomputer/
  • NVIDIA Teams With Microsoft to Build Massive Cloud AI Computer
    https://nvidianews.nvidia.com/news/nvidia-microsoft-accelerate-cloud-enterprise-ai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31813.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python读写xml(xml,lxml)Edge 浏览器插件 WebTab - 免费ChatGPT

Python读写xml(xml,lxml)Edge 浏览器插件 WebTab - 免费ChatGPT XML一、xml文件创建方法一:使用xml.dom.minidom1、文件、标签的创建 方法二:使用ElementTree 二、xml文件修改1、修改标签内容,属性2、增加子…

4090显卡上部署 Baichuan-13B-Chat

4090显卡上部署 Baichuan-13B-Chat 0. 背景1. huggingface 地址2. 量化部署使用 Baichuan-13B-Chat3. FastChat 部署使用 Baichuan-13B-Chat3-1. 创建虚拟环境3-2. 克隆代码3-3. 安装依赖库3-4. 使用命令行进行推理3-5. 使用 UI 进行推理3-6. 使用 OpenAI API 方式进行推理3-7.…

清华ChatGLM2-6B开源!第二代性能大幅提升,推理提速42%,最高支持32K上下文

清华ChatGLM2-6B开源!第二代性能大幅提升,推理提速42%,最高支持32K上下文 3月份,清华系大模型 ChatGLM-6B 惊喜亮相。 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构…

Baichuan-13B 介绍及微调

文章目录 Baichuan-13B介绍Baichuan-13B特点Baichuan-13B效果Baichuan-13B模型参数 推理和部署模型下载模型推理 微调和部署下载仓库配置环境微调数据微调过程 Baichuan-13B介绍 2023年7月11日,百川智能发布Baichuan-13B! github地址:https:…

【大模型】更强的 LLaMA2 来了,开源可商用、与 ChatGPT 齐平

【大模型】可商用且更强的 LLaMA2 来了 LLaMA2 简介论文GitHubhuggingface模型列表训练数据训练信息模型信息 许可证参考 LLaMA2 简介 2023年7月19日:Meta 发布开源可商用模型 Llama 2。 Llama 2是一个预训练和微调的生成文本模型的集合,其规模从70亿到…

[Unity3D] 协程

目录 前言 学习来源: 一、什么是协程 二、协程的应用举例 三、协程的使用方式 3.1 启动 3.2 结束 3.3 嵌套 3.4 注意 四、Unity脚本的生命周期 五、yield速查表 前言 学习笔记,仅供学习,不做商用,如有侵权&#…

“AIGC早报”已内测2个月了,来看看她长什么样子

今天,是咱们社群“AI产品经理大本营”六周年活动的第二天,正式给大家介绍下,已内测2个月的重要会员权益——AIGC日报。 会分三个部分:效果口碑、我们如何做到的、今日的AIGC早报展示‍‍‍‍‍‍‍‍ ps,文末会发福利星…

何以驾驭AIGC领域的关键进程?得深邃技术得天下

“大海和火车成为那个世纪新兴经济的象征:强大、危险、难以驾驭和预测,但令人着迷和兴奋。” 这是诺贝尔经济学奖得主埃德蒙•费尔普斯曾在《大繁荣》一书中对19世纪有过这样的描述。 穿越回当下的21世纪,又有哪项发明具备这些特质&#xff…

【腾讯云 Cloud Studio 实战训练营】Cloud Studio实现健康上报小程序(代码开源)

目录 🍳前言🍳实验介绍🍳产品介绍🍳注册Cloud Stdio🍳后端Spring服务🍳创建项目上传项目数据库连接与导入 🍳Vue后台管理创建项目编辑模板信息选择环境镜像上传资源文件 🍳小程序⭐总…

【OpenMMLab AI实战营二期笔记】第七天 MMDetection代码课

0. 环境检测和安装 # 安装 mmengine 和 mmcv 依赖 # 为了防止后续版本变更导致的代码无法运行,暂时锁死版本 pip install -U "openmim0.3.7" mim install "mmengine0.7.1" mim install "mmcv2.0.0"# Install mmdetection rm -rf mmd…

AI实战营第二期 第六节 《MMDetection代码课》——笔记7

文章目录 什么是MMDetection?环境检测和安装1 数据集准备和可视化2 自定义配置文件3 训练前可视化验证4 模型训练5 模型测试和推理6 可视化分析MMYOLO 环境和依赖安装特征图可视化1. 可视化 backbone 输出的 3 个通道2. 可视化 neck 输出的 3 个通道 Grad-Based CAM…

最新!2023软科中国大学排名发布!

Datawhale高校 方向:软科中国大学排名,来源:软科 2023年3月30日,高等教育专业评价机构软科今日正式发布2023“软科中国大学专业排名”。 上榜高校共有590所,清华大学、北京大学、浙江大学连续9年蝉联全国三甲&#xf…

ChatGPT 和对话式 AI 的未来:2023 年的进展和应用

人工智能(Artificial Intelligence)在过去一段时间以来以前所未有的速度快速发展。从自动化日常任务到重要提醒的设定,AI以各种方式渗透到我们的生活中。然而,在这个领域中迈出的最重要一步是ChatGPT。 ChatGPT被瑞银(UBS)评为“有史以来增长最快的消费者应用程序”,于…

月薪13K!从零开始,小白转行程序员,三个月实现人生逆转~

思绪运转之间,上班也已经有一周了,我有想过给的所有老师都写一封感谢信的,但发现工作量太大了,只能用这一封信来表达对所有老师们的感谢。 软件测试,一个陌生的领域,对于一个毫无经验的小白来说&#xff0…

ChatGPT生成一篇文章:关于Docker

如今AI智能如火如荼,如果不会点ChatGPT总感觉有点落后了。最近刚好重新复习了一遍Docker,这里尝试通过ChatGPT来生成一篇关于Docker文章。来看效果。 1、什么是Docker Docker是一种容器化技术,可以将应用程序和它们的依赖项封装在一个虚拟的…

自主安装IPA文件到iPhone上

1.电脑下载iTunes,手机使用数据线连接在电脑上,一定要选择信任电脑 2.打开iTunes,点击手机图标 3.拖拽已下载的IPA文件到我的设备,蓝色高亮处,可以看到顶部的进度条,进度条完了可以查看手机,已…

iPhone 直接安装 .ipa包

有些App因为各种原因,不能直接通过App Store下载到,以前是可以在网上找到.ipa文件通过iTunes直接安装的。但是现在的版本已经不支持了。 官方的工具不好用,只好用民间的了。我们在电脑上下载一个爱思助手,然后将手机连接到电脑上…

实现 ipad 上看来自 v4l2 上的摄像头视频

配合 http://blog.csdn.net/sunkwei/archive/2011/06/07/6530343.aspx 实现在 ipad 上观看来自 v4l2 的摄像头视频. 先上ipad 抓屏图 这个做的很粗糙, 而且有些 opengl es 的概念也没有搞明白, 慢慢再补充吧.

【iOS开发】ipa安装到手机上的三种方式

转载地址:ipa安装到手机上的三种方式 ipa包 安装三种方式,优先推荐第一种方法(通过iTunes安装)。 1、通过iTunes安装 数据线连接手机之后,会自动连接iTunes,(第一次连接的时候会提示是否信任…

iphone或者ipad上安装自己打包的ipa文件

对于非ios开发者来说,这确实是一个问题,但我懂的也不多,也是抱着试试的态度安装了下,之前我以为安装ipa和在安卓手机上安装apk一样,qq或者微信传文件下载点击就可以安装了,但这个ipa如果在iphone上这样做&a…