揭秘ChatGPT背后天价超算!上万颗英伟达A100,烧光微软数亿美元

【导读】ChatGPT背后,是微软超级昂贵的超级计算机,耗资数亿美元,用了英伟达数万颗芯片。 

ChatGPT能成为如今火遍全球的顶流模型,少不了背后超强的算力。

数据显示,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)。

那么,作为依托的那台微软专为OpenAI打造的超级计算机,又是如何诞生的呢?

周一,微软在官博上连发两文,亲自解密这台超级昂贵的超级计算机,以及Azure的重磅升级——加入成千上万张英伟达最强的H100显卡以及更快的InfiniBand网络互连技术。

基于此,微软也官宣了最新的ND H100 v5虚拟机,具体规格如下:

  • 8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联

  • 每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每个虚拟机有3.2Tb/s的无阻塞胖树型网络

  • NVSwitch和NVLink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽

  • 第四代英特尔至强可扩展处理器

  • PCIE Gen5到GPU互连,每个GPU有64GB/s带宽

  • 16通道4800MHz DDR5 DIMM

数亿美元撑起来的算力

大约五年前,OpenAI向微软提出了一个大胆的想法——建立一个可以永远改变人机交互方式的人工智能系统。

当时,没人能想到,这将意味着AI可以用纯语言创造出人类所描述的任何图片,人类可以用聊天机器人来写诗、写歌词、写论文、写邮件、写菜单……

为了建立这个系统,OpenAI需要很多算力——可以真正支撑起超大规模计算的那种。

但问题是,微软能做到吗?

毕竟,当时既没有能满足OpenAI需要的硬件,也无法确定在Azure云服务中构建这样庞大的超级计算机会不会直接把系统搞崩。

随后,微软便开启了一段艰难的摸索。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell(左)和微软战略合作伙伴关系高级总监Phil Waymouth(右)

为了构建支持OpenAI项目的超级计算机,它斥资数亿美元,在Azure云计算平台上将几万个Nvidia A100芯片连接在一起,并改造了服务器机架。

此外,为了给OpenAI量身打造这个超算平台,微软十分尽心,一直在密切关注着OpenAI的需求,随时了解他们在训练AI时最关键的需要。

这么一个大工程,成本究竟是多少呢?微软负责云计算和人工智能的执行副总裁Scott Guthrie不愿透露具体数目,但他表示,「可能不止」几亿美元。

OpenAI出的难题

微软负责战略合作伙伴关系的高管Phil Waymouth指出,OpenAI训练模型所需要的云计算基础设施规模,是业内前所未有的。

呈指数级增长的网络GPU集群规模,超过了业内任何人试图构建的程度。

微软之所以下定决心与OpenAI 合作,是因为坚信,这种前所未有的基础设施规模将改变历史,造出全新的AI,和全新的编程平台,为客户提供切实符合他们利益的产品和服务。

现在看来,这几亿美元显然没白花——宝押对了。

在这台超算上,OpenAI能够训练的模型越来越强大,并且解锁了AI工具令人惊叹的功能,几乎开启人类第四次工业革命的ChatGPT,由此诞生。

非常满意的微软,在1月初又向OpenAI狂砸100亿美元。

可以说,微软突破AI超算界限的雄心,已经得到了回报。而这背后体现的,是从实验室研究,到AI产业化的转变。

目前,微软的办公软件帝国已经初具规模。

ChatGPT版必应,可以帮我们搜索假期安排;Viva Sales中的聊天机器人可以帮营销人员写邮件;GitHub Copilot可以帮开发者续写代码;Azure OpenAI 服务可以让我们访问OpenAI的大语言模型,还能访问Azure的企业级功能。

和英伟达联手

其实,在去年11月,微软就曾官宣,要与Nvidia联手构建「世界上最强大的AI超级计算机之一」,来处理训练和扩展AI所需的巨大计算负载。

这台超级计算机基于微软的Azure云基础设施,使用了数以万计个Nvidia H100和A100Tensor Core GPU,及其Quantum-2 InfiniBand网络平台。

Nvidia在一份声明中表示,这台超级计算机可用于研究和加速DALL-E和Stable Diffusion等生成式AI模型。

随着AI研究人员开始使用更强大的GPU来处理更复杂的AI工作负载,他们看到了AI模型更大的潜力,这些模型可以很好地理解细微差别,从而能够同时处理许多不同的语言任务。

简单来说,模型越大,你拥有的数据越多,你能训练的时间越长,模型的准确性就越好。

但是这些更大的模型很快就会到达现有计算资源的边界。而微软明白,OpenAI需要的超级计算机是什么样子,需要多大的规模。

这显然不是说,单纯地购买一大堆GPU并将它们连接在一起之后,就可以开始协同工作的东西。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell表示:「我们需要让更大的模型训练更长的时间,这意味着你不仅需要拥有最大的基础设施,你还必须让它长期可靠地运行。」

Azure全球基础设施总监Alistair Speirs表示,微软必须确保它能够冷却所有这些机器和芯片。比如,在较凉爽的气候下使用外部空气,在炎热的气候下使用高科技蒸发冷却器等。

此外,由于所有的机器都是同时启动的,所以微软还不得不考虑它们和电源的摆放位置。就像你在厨房里同时打开微波炉、烤面包机和吸尘器时可能会发生的情况,只不过是数据中心的版本。

大规模AI训练

完成这些突破,关键在哪里?

难题就是,如何构建、操作和维护数万个在高吞吐量、低延迟InfiniBand网络上互连的共置GPU。

这个规模,已经远远超出了GPU和网络设备供应商测试的范围,完全是一片未知的领域。没有任何人知道,在这种规模下,硬件会不会崩。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell解释道,在LLM的训练过程中,涉及到的大规模计算通常会被划分到一个集群中的数千个GPU上。

在被称为allreduce的阶段,GPU之间会互相交换它们所做工作的信息。此时就需要通过InfiniBand网络进行加速,从而让GPU在下一块计算开始之前完成。

Nidhi Chappell表示,由于这些工作跨越了数千个GPU,因此除了要确保基础设施的可靠外,还需要大量很多系统级优化才能实现最佳的性能,而这是经过许多代人的经验总结出来的。

所谓系统级优化,其中就包括能够有效利用GPU和网络设备的软件。

在过去的几年里,微软已经开发出了这种技术,在使训练具有几十万亿个参数的模型的能力得到增长的同时,降低了训练和在生产中提供这些模型的资源要求和时间。

Waymouth指出,微软和合作伙伴也一直在逐步增加GPU集群的容量,发展InfiniBand网络,看看他们能在多大程度上推动保持GPU集群运行所需的数据中心基础设施,包括冷却系统、不间断电源系统和备用发电机。

微软AI平台公司副总裁Eric Boyd表示,这种为大型语言模型训练和下一波AI创新而优化的超算能力,已经可以在Azure云服务中直接获得。

并且微软通过与OpenAI的合作,积累了大量经验,当其他合作方找来、想要同样的基础设施时,微软也可以提供。

现在,微软的Azure数据中心已经覆盖了全球60多个地区。

全新虚拟机:ND H100 v5

在上面这个基础架构上,微软一直在继续改进。

今天,微软就官宣了全新的可大规模扩展虚拟机,这些虚拟机集成了最新的NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络。

通过虚拟机,微软可以向客户提供基础设施,根据任何AI任务的规模进行扩展。据微软称,Azure的新ND H100 v5 虚拟机为开发者提供卓越的性能,同时调用数千个GPU。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/10699.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上海大学计算机体系结构实验四 HPL安装和测试(虚拟机centos7.6环境下保姆级教程!)

上海大学计算机体系结构实验四 HPL安装和测试(虚拟机centos7.6环境下保姆级教程!) CSDN上的安装测试有很多,但在实际安装过程中经常碰到博客的教程缺了中间的某个指令,或者漏了某个配置(写的不完全&#x…

OpenAI新上线GPT太强了,服务器瞬间挤爆,马斯克:你们太沉迷了

点击上方“AI遇见机器学习”,选择“星标”公众号 重磅干货,第一时间送 来自:机器之心 试着和 ChatGPT 聊了几句,它把我的问题解决了。 当每个人都在苦苦等待 GPT-4 发布时,OpenAI 却一直迟迟没有消息,仍在修…

Exception in thread “main“ java.net.SocketException: Connection reset

Exception in thread “main” java.net.SocketException: Connection reset 在做网络相关的东西时可能会遇到类似于这种连接错误的信息,我这里遇到了一个,以下是错误代码 问题重现,以及修复和分析 //简单的客户端 public class Center {pu…

pycharm远程连接服务器,并单步调试服务器上的代码

每天都有不同的朋友来Push我 那如果比较健忘的话,为啥不问一下chatGPT呢 问题的缘由在我想在本地单步调试代码。。。 我的代码完全在云端服务器的,还有数据集都是,但实际上本地代码可以通过pycharm给他传上去。 但是在后面配置的时候需要两…

复旦团队发布类ChatGPT模型MOSS,服务崩掉后并给出回复

这条路径的走通,为国内学术界和产业界提供了重要经验。 整理自:上观新闻、IT之家 进NLP群—>加入NLP交流群 ChatGPT发布以来,基于指令学习技术的类ChatGPT模型在我国能否开发成功,成为业界关注的一个焦点。今天,解放…

chatgpt是什么软件

ChatGPT是一款基于自然语言处理技术开发的聊天机器人软件,它通过与用户的交互,为用户提供有关各种主题的答案和解决方案。这款软件可以称为是一种智能机器人,它可以理解自然语言、识别语义、自主学习和适应,为用户提供与人类一样的…

微信小程序获取绑定授权用户手机号getPhoneNumber-全流程及手机号带*号问题

微信小程序获取微信绑定授权手机号getPhoneNumber全流程及出现手机号带*号问题详解 微信小程序文档中给出如下示例 获取微信用户绑定的手机号,需先调用login接口。 因为需要用户主动触发才能发起获取手机号接口,所以该功能不由API来调用,需…

微信登录与绑定方案

登录方案一(与绑定方案一致) 微信登录方案二 方案一: 优点:方便测试,与绑定流程基本一致,开发成本低,风险低 缺点:未关注的用户需点击关注后方可知道是否登录成功 方案二&#xff1a…

Android第三方绑定微信登录详解

微信登录官方文档地址:点击进入 一、准备工作 在进行微信登录之前,首先要在微信开放平台注册开发者账号,并拥有一个已审核通过的移动应用,并获得相应的AppID和AppSecret,申请微信登录且通过审核后,可开始接…

互联网新时代要来了(二)什么是AIGC?

什么是AIGC? 最近,又火了一个词“**AIGC”**2022年被称为是AIGC元年。那么我们敬请期待,AIGC为我们迎接人工智能的下一个时代。 TIPS:内容来自百度百科、知乎、腾讯、《AIGC白皮书》等网页 什么是AIGC? 1.什么是AIGC&#xff1f…

浏览器增强版ChatGPT无敌了?超强插件Monica,能聊能写效率Max

【导读】Chrome最强插件Monica来了!网页版ChatGPT,解决一切工作问题。 提起Monica,你会想到什么? 是老友记里的主角之一MonicaGeller,一个热心肠的女主人形象;还是心跳文学部里的疯疯癫癫的Monika&#…

ChatGPT插件大爆炸 所有人都可以使用OpenAI插件的时代来了

OpenAI放出大招,本周将向所有ChatGPT Plus用户开放联网功能和众多插件,允许ChatGPT访问互联网并使用70个第三方插件。 根据华尔街见闻的梳理,本批第三方插件能够全方位覆盖衣食住行、社交、工作以及学习等日常所需,基本上能够扮演…

ChatGPT插件系统正式开放,不用写代码,人人都是程序员

整理 | 褚杏娟、核子可乐、凌敏 当地时间 3 月 23 日,OpenAI 宣布正式上线了以安全为核心的 ChatGPT 插件系统。OpenAI 插件将 ChatGPT 连接到第三方应用程序,之后 ChatGPT 便能够与开发人员定义的 API 进行交互,从而增强 ChatGPT 的功能并允…

ChatGPT竟有9岁小孩心智?斯坦福教授逆天发现,AI统治人类还远吗

【导读】一位斯坦福教授在上周发布的论文中证实,ChatGPT已经有9岁小孩的心智了。所以,AI离发展出自我意识还远吗?人类的霸主地位危了? ChatGPT已经有9岁小孩的心智了! 这不是什么科幻情节,这一点&#xf…

你以为ChatGPT真的听懂了你的话吗?

1/6、多年以后…… 多年以后,面对长长的领失业救济金队伍,人们将会回想起2022年12月,不是因为大感染,而是初次体验ChatGPT。那时,人们感受到的,还不是旧世界的行将崩塌,而是对新世界到来的惊叹。…

Python量化交易09——使用证券宝获取金融行情数据(baostock)

接上一篇文章介绍怎么用Tushare获取日k数据后,本章教大家怎么用证券宝获取数据. baostock 的官网链接:A股K线数据 - www.baostock.com 这是免费的一个库,数据种类也很很丰富,挺好用的。 日K 导入包: import baost…

HFTrader高频交易系统架构

HFTrader高频交易系统架构 一、开发环境搭建 HFTrader高频交易系统作为QuantFabric量化交易系统的一部分,开发环境搭建与开源QuantFabric量化交易系统相同。 二、HFTrader高频交易系统架构 1、HFTrader功能特性 HFTrader期货功能特性如下: 期货行情…

ChatGPT热潮背后,金融行业大模型应用路在何方?——金融行业大模型应用探索

ChatGPT近两个月以来不断引爆热点,对人工智能应用发展的热潮前所未有地高涨,ChatGPT所代表的大模型在语义理解、多轮交互、内容生成中所展现的突出能力令人惊喜。而人工智能技术在金融行业的落地应用仍然面临挑战,虽然已经让大量宝贵的人力从…

Microsoft Edge Dev版本如何使用chat功能

1.开启全局代理 2.访问https://www.bing.com 如何这个时候你访问的页面是长这个样子 那么你需要设置一下地域 我选择美国,点击之后跳转到了https://www.bing.com/?ccus访问地址https://www.bing.com/new 选择加入候补名单 点击加入候补名单 我的申请已经提交了&a…