一.加速库
NVIDIA率先推出加速计算,着力解决普通计算机无法解决的问题。加速计算并非易事,它需要从芯片,系统,网络,加速库,到重构应用的全栈发明。
加速后,应用可以获得难以置信的速度,还可以扩展到许多计算机,再过去的十年里,加速和纵向扩展的结合使我们能够为许多应用实现百万倍的性能提升,进而有助于解决以前无法解决的问题。
2012年,AlexKerchvsky、loyal Suskever 和George Hinton需要一台速度超快的计算机开训练AlexNet计算机视觉模型,研究人员在GeForce GTX580上使用1400万张图像训练了 AlexNet ,可处理262千万亿次浮点运算。经过训练的模型以压倒性优势赢得了 ImageNet 挑战赛,并触发了 Al 的大爆炸。
下面是一些新型加速库:
(1)CFD
汽车和航空航天行业使用 CFD 进行湍流和空气动力学仿真。电子行业使用 CFD 进行热管理设计。 由 CUDA 加速的新 CFD 求解器在同等系统成本下,NVIDIAA100的吞吐量是 CPU 服务器的9倍。或者,在同等仿真吞吐量下, NVIDIA 的成本降低了9倍,能耗降低了17倍。
(2)CuQuantum
CuQuantumcu 是用于量子电路仿真的加速库。 今天,英伟达宣布推出一个量子控制链路,这是与 QuantumMachines 合作开发的。它可将 NVIDIAGPU 连接到量子计算机,以极快的速度进行纠错。
(3)Spark RAPIDS
Spark - RAPIDS 是 NVIDIA 加速的 ApacheSpark 数据处理引擎。现在, Spark - RAPIDS 可加速主要云数据处理平台,包括 GCPDataproc 、 AmazonEMR 、 Databricks 和 Cloudera 。
(4)cuOpt
NVIDIAcuOpt 使用进化算法和加速计算每秒分析300亿次动作,打破了世界纪录,并为 Li 和 Lim 的挑战找到了合适的解决方案。 cuOpt 还可以优化物流服务。
(5)NVIDIA Triton Managevent Service
支持集成模型的模型分析器、并发多模型服务,适用于 GPT -3大语言模型的多 GPU 、多节点推理。
(6)CV - CUDA 和 VPF
CV - CUDA 和 VPF 用于计算机视觉的 CV - CUDA 和用于视频处理的 VPF 是新的云规模加速库。
(7)NVIDIA Parabricks
加速计算帮助基因组学实现了里程碑式发展。
(8)cuLitho
NVIDIAHoloscan cuLitho -﹣一个计算光刻库 将计算光刻加速了40倍以上。
二.数据硬件
(1)Grace CPU
Grace 包含72个 Arm 核心,由超高速片内可扩展的、缓存一致的网络连接,可提供3.2TB/ s 的截面带宽。 GraceSuperchip 通过900GB/ s 的低功耗芯片到芯片缓存一致接口,连接两个 CPU 芯片之间的144个核。内存系统由 LPDDR 低功耗内存构成 手机上使用的相似) 它提供1TB/ s 的带宽,是目前系统的2.5倍,而功耗只是其1/8。整个14核GraceSuperchip 模 的大小仅为5x8英寸,而内存高达1TB。该模组的功耗超低,风冷即可。 Grace 的性能和能效非常适合云计算应用和科学计算应用。
(2)NVIDIA Blue Field
在现代软件定义的数据中心中,操作系统在执行虚拟化、网络、存储和安全任务时会消耗近一半的数据中心 CPU 核心和相关功耗。数据中心必须加速每个工作负载,从而降低功耗并释放 CPU 给可创造收入的工作负载。
NVIDIA Blue Field 卸载并加速数据中心操作系统和基础设施软件。
(3)NVIDIA DGX H100
NVIDIA 加速计算始于 DGX ( AI 超级计算机)。这是大语言模型实现突破背后的引擎。 DGX 配有8个H100GPU模组,H100配有 Transformer 引擎,旨在处理类似令人惊叹的 ChatGPT 模型。 这8个H100模组通过 NVLINKSwitch 彼此相连,以实现全面无阻塞通信。8个H100协同工作,就像一个巨型 GPU 。
三.DGX 云&生成式AI
(1)DGX 云
DGX 超级计算机是现代 AI 工厂,我们正处于 Al 的" iPhone 时刻"。NVIDIA 宣布推出 NVIDIA DGX Cloud ,并与 MicrosoftAzure 、 GoogleGCP 和 OracleOCI 合作,为客户提供出色的 NVIDIAAI 以及全球主要的云服务提供商。 Oracle Cloud Infrastructure ( OCI )将成为首个 NVIDIADGXCloud 。 OCI 具有出色的性能,它拥有两层计算网络和管理网络,具有业界最佳 RDMA 功能的 NVIDIACX -7提供了计算网络,而 BlueField -3将成为管理网络的基础设施处理器。这种组合是一款先进的 DGXAl 超级计算机,可提供多租户云服务。
(2) NVIDIA AI Foundations
众多突破性成果造就了生成式 Al , Transformer 能以大规模并行的方式,从数据的关系和依赖性中学习上下文和含义,这使得大型语言模型能够利用海量数据进行学习,他们可以在没有明确训练的情况下执行下游任务,受物理学启发的扩散模型通过无监督学习来生成图像。
生成式 AI 是一种新型计算机,一种我们可以用人类语言进行编程的计算机。这种能力影响深远,每个人都可以命令计算机来解决问题, 生成式 AI 是一种新型计算平台,与 PC 、互联网、移动设备和云类似。与之前的计算时代类似,先行者正在打造新的应用,并成立新公司,以利用生成式 AI 的自动化和协同创作能力。
NVIDIA Al Foundations 。这是一项云服务,面向需要构建、优化和运营定制 LLM (大型语言模型)和生成式 AI ,使用其专有数据进行训练,用于处理特定领域的任务。
NVIDIA AI Foundations 包括语言、视觉和生物学模型制作服务。 NVIDIANemo 用于构建定制的语言文本转文本生成式模型。
四.新推理平台
(1)L4
随着生成式 AI 掀起新一波机遇浪潮, Al 正处于转折点,使得推理工作负载呈阶梯函数式增长。 AI 现在可以生成多种数据,从语音、文本、图像、视频和3D图形,到蛋白质和化学物质,不一而足。设计一个云数据中心来处理生成式 Al 是一项巨大挑战。
针对 AI 视频工作负载,英伟达推出了L4,它针对以下方面进行了优化:视频解码和转码、视频内容审核,以及视频通话功能,例如背景替换、重新打光、眼神交流,转录和实时翻译。
(2)L40
针对 Omniverse 、图形渲染以及文本转图像和文本转视频等生成式 AI ,英伟达宣布推出L40。L40的性能是 NVIDIA 最受欢迎的云推理GPUT4的10倍。
(3)H100 NVL
ChatGPT等大型语言模型是一个新出现的重要的推理工作负载。 GPT 模型是内存和计算密集型模型。此外,推理是一种高容量、外扩型工作负载,需要标准的商用服务器。
针对 ChatGPT 等大型语言模型的推理,英伟达宣布推出一款新的 HopperGPU -﹣配备双 GPUNVLINK 的PCIEH100。这一款H100配备94GBHBM3显存。H100可以处理拥有1750亿参数的 GPT -3。同时还可支持商用 PCIE 服务器轻松扩展。
目前在云上唯一可以实际处理 ChatGPT 的 GPU 是HGXA100。与适用于 GPT -3处理的HGXA100相比,一台搭载四对H100及双 GPUNVLINK 的标准服务器的速度要快10倍。H100可将大型语言模型的处理成本降低一个数量级。
(4)Hopper GPU 和 Grace Hopper
Grace Hopper 是我们的新的超级芯片,通过900GB/秒的高速一致性芯片到芯片接口连接 GraceCPU 和 HopperGPU 。 GraceHopper 非常适合处理大型数据集,例如适用于推荐系统和大型语言模型的 Al 数据库。
五.Omniverse
Omniverse 是一个工业数字化平台,旨在搭建数字化和物理实体之间的桥梁。该平台让各个行业先以数字方式设计、构建、运营和优化实体产品和工厂,然后再投入实际生产。数字化提高了效率和速度,并节省了资金。
Omniverse 其中一个用途是以虚拟方式构建工厂,在真正的实体工厂建成之前,以数字方式整合工厂的所有机械设备。这样可以减少在最后时刻出现意外、变更订单和工厂延迟开工等情况。
本次发布会,英伟达向我们展示了其最先进的计算机技术,尤其强调AI领域的发展,多次指出我们正处于AI的iPhone时代,我们通过这次发布会能够看到未来科技的发展方向和AI对未来的影响,社会和产业的数字化变革已经是大势所趋,这对未来的从业者提出了更加高的技术个知识要求,在不久的将来,技术的更新换代可能会更加频繁,因此我们这些学习者需要更加迅速得掌握并运用好新知识。