【AI系统】GPU 架构回顾(从2018年-2024年)

Turing 架构

2018 年 Turing 图灵架构发布,采用 TSMC 12 nm 工艺,总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面,效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core(专门为执行张量/矩阵操作而设计的专门执行单元,深度学习计算核心)、CUDA 和 CuDNN 库的不断改进,更好地应用于深度学习推理。RT Core(Ray Tracing Core)提供实时的光线跟踪渲染,包括具有物理上精确的投影、反射和折射,更逼真的渲染物体和环境。支持 GDDR6 内存,与 GDDR5 内存相比,拥有 14 Gbps 传输速率,实现了 20%的的效率提升。NVLink2.0 支持 100 GB/s 双向带宽,使特定的工作负载能够有效地跨两个 GPU 进行分割并共享内存。

在这里插入图片描述

TU102 GPU 包括 6 个图形处理集群(GPCs)、36 个纹理处理集群(TPCs)和 72 个流式多处理器(SMs)。每个 GPC 包括一个专用光栅引擎和 6 个 TPC,每个 TPC 包括两个 SMs。每个 SM 包含 64 个 CUDA 核心、8 个张量核心、一个 256 KB 的寄存器文件、4 个纹理单元和 96 KB 的 L1/共享内存,这些内存可以根据计算或图形工作负载配置为不同的容量。因此总共有 4608 个 CUDA 核心、72 个 RT 核心、576 个张量核心、288 纹理单元和 12 个 32 位 GDDR6 内存控制器(总共 384 位)。

在这里插入图片描述

艾伦·图灵(Alan Turing)是 20 世纪英国数学家、逻辑学家和密码学家,被誉为计算机科学之父。他在计算理论和人工智能领域做出了开创性的工作,对现代计算机科学的发展产生了深远影响。主要成就包括:

  1. 发展了图灵机概念,这是一种抽象的数学模型,被认为是计算机的理论基础,为计算机科学奠定了基础。

  2. 在第二次世界大战期间,他领导了英国破解德国恩尼格玛密码的团队,对盟军在战争中的胜利做出了重要贡献。

  3. 提出了图灵测试,用来衡量机器是否具有智能,为人工智能领域的发展提供了重要思想。

  4. 在逻辑学领域,他提出了图灵判定问题,对计算机可解性和不可解性做出了重要贡献。

随着神经网络模型的量化部署逐渐成熟,Turing 架构中的 Tensor Core(张量核心)增加了对 INT8/INT4/Binary 的支持,加速神经网络训练和推理函数的矩阵乘法核心。一个 TU102 GPU 包含 576 个张量核心,每个张量核心可以使用 FP16 输入在每个时钟执行多达 64 个浮点融合乘法加法(FMA)操作。SM 中 8 个张量核心在每个时钟中总共执行 512 次 FP16 的乘法和累积运算,或者在每个时钟执行 1024 次 FP 运算,新的 INT8 精度模式以两倍的速率工作,即每个时钟进行 2048 个整数运算。Tensor Core 用于加速基于 AI 的英伟达 NGX 功能,增强图形、渲染和其它类型的客户端应用程序,包括 DLSS(深度学习超级采样)、 AI 绘画、AI Super Rez(图像/视频超分辨率)和 AI Slow-Mo(视频流插帧)。

每个 SMs 分别有 64 个 FP32 核和 64 个 INT32 核,还包括 8 个混合精度的张量核(Tensor Core),每个 SM 被分为四个块,每个块包括一个新的 L0 指令缓存和一个 64 KB 的寄存器文件。四个块共享一个 96 KB L1 数据缓存/共享内存。传统的图形工作负载将 96 KB 的 L1/共享内存划分为 64 KB 的专用图形着色器 RAM 和 32 KB 的用于纹理缓存和寄存器文件溢出区域。计算工作负载可以将 96 KB 划分为 32 KB 共享内存和 64 KB L1 缓存,或者 64 KB 共享内存和 32 KB L1 缓存。

在这里插入图片描述

RT Core 主要用于三角形与光线求交点,并通过 BVH(Bounding Volume Hierarchy)结构加速三角形的遍历,由于布置在 block 之外,相对于普通 ALU 计算来说是异步的,包括两个部分,一部分检测碰撞盒来剔除面片,另一部分做真正的相交测试。RT Core 的使用,使 SM 在很大程度上可以用来做图形计算之外的工作。

Bounding Volume Hierarchy(BVH)结构

光线追踪(Ray Tracing)中的 Bounding Volume Hierarchy(BVH)结构是一种用于加速光线追踪算法的数据结构。BVH 通过将场景中的物体分层组织成包围盒(Bounding Volume)的层次结构,从而减少光线与物体的相交测试次数,提高光线追踪的效率。

在 BVH 结构中,每个节点都代表一个包围盒,该包围盒可以包含多个物体或其他子包围盒。通过递归地构建 BVH 树,可以将场景中的物体分层组织成一个高效的数据结构,以便快速地确定光线与哪些物体相交,从而减少需要测试的物体数量,提高光线追踪的效率。

当增加 RT Core 之后实现硬件光线追踪,当 RTX 光线追踪技术打开时场景中人物和光线更加逼真,火焰可以在车身上清晰的看到。虽然光线追踪可以产生比栅格化更真实的图像,但是计算密集型使得混合渲染是更优的技术路线,光线追踪用在比栅格化更有效的地方,如渲染反射、折射和阴影。光线追踪可以运行在单个 Quadro RTX 6000 或 GeForce RTX 2080 Ti GPU 上,渲染质量几乎等同于电影实拍效果。

在这里插入图片描述

除了为高端游戏和专业图形带来革命性的新功能外,Turing 还提供了多精度计算,随着英伟达深度学习平台的持续推进,如 TensorRT 5.0 和 CUDA 10 技术的进步,基于英伟达 GPU 的推理解决方案显著降低了数据中心的成本、规模和功耗。

Ampere 架构

2020 年 Ampere 安培架构发布,Ampere 架构主要有以下特性:

1)超过 540 亿个晶体管,使其成为 2020 年世界上最大的 7 nm 处理器(英伟达 A100);

2)提出 Tensor Core3.0,新增 TF32(TensorFloat-32)包括针对 AI 的扩展,可使 FP32 精度的 AI 性能提高 20 倍;

3)多实例 GPU(Multi-Instance GPU,MIG)将单个 A100 GPU 划分为多达 7 个独立的 GPU,为不同任务提供不同算力,为云服务器厂商提供更好的算力切分方案;

4)提出 NVLink3.0 和 NV-Switch,NV-Switch 可以将多台机器进行互联,将 GPU 高速连接的速度加倍,可在服务器中提供有效的性能扩展;

5)利用 AI 数学计算中固有的稀疏特性将性能提升一倍。以上改进使 Ampere 成为新一代数据中心和云计算 GPU 架构,可用于 AI 和高性能计算场景。

在这里插入图片描述

安德烈-玛丽·安培(André-Marie Ampère)是 19 世纪法国物理学家和数学家,被誉为电磁学之父。他对电流和磁场之间的相互作用进行了深入研究,提出了安培定律,对电磁理论的发展做出了重要贡献。主要成就包括:

  1. 提出了安培定律,描述了电流元素之间的相互作用,为电磁感应和电磁场的研究奠定了基础。

  2. 发展了电动力学理论,将电流和磁场的关系系统化,并提出了电流环的磁场理论。

  3. 研究了电磁感应现象,揭示了磁场和电场之间的关系,为后来法拉第的电磁感应定律的提出奠定了基础。

  4. 对电磁学和热力学等领域都有重要贡献,被认为是 19 世纪最杰出的物理学家之一。

英伟达 A100 GPU 包括 8 个 GPC,每个 GPC 包含 8 个 TPC,每个 TPC 包含 2S 个 SMs/,每个 GPC 包含 16 个 SM/GPC,整个 GPU 拥有 128 个 SMs。每个 SM 有 64 个 FP32 CUDA 核心,总共 8192 FP32 CUDA 核心。Tensor Core3.0,总共 512 个。6 个 HBM2 存储栈,12 个 512 位内存控制器,内存可达到 40 GB。第三代 NVLink,GPU 和服务器双向带宽为 4.8 TB/s,GPU 之间的互联速度为 600 GB/s。A100 SM 拥有 192 KB 共享内存和 L1 数据缓存,比 V100 SM 大 1.5 倍。

在这里插入图片描述

A100 Tensor Core3.0 增强操作数共享并提高计算效率,引入了 TF32、BF16 和 FP64 数据类型的支持。平时训练模型的过程中使用更多的是 FP32 和 FP16,TF32 在指数位有 8 位,FP16 在指数为有 5 位,因此 FP32 的位宽比 FP16 更多,小数位决定精度,FP32 在小数位有 23 位,FP16 只有 10 位,在 AI 训练的过程中很多时候 FP16 是够用的,但是动态范围会有限制,因此提出 TF32,指数位保持和 FP32 相同,小数位和 FP16 保持相同,BF16 的指数位和 FP32、TF32 相同,但是小数位少了三位。数百个张量核并行运行,大幅提高吞吐量和计算效率。

在这里插入图片描述

A100 FP32 FFMA,INT8、INT4 和 Binary 分别提高了 32x、64x 和 256x,与 Volta 架构一样,自动混合精度(AMP)允许用户使用与 FP16 相结合的混合精度来进行 AI 训练,使用 AMP 之后 A100 提供了比 TF32 快 2 倍的张量核心性能。

在这里插入图片描述

Tensor Core 除了执行乘法和加法操作之外还可以支持稀疏化结构矩阵(Sparse Tensor),实现细粒度的结构化稀疏,支持一个 2:4 的结构化稀疏矩阵与另一个稠密矩阵直接相乘。一种常见的方法是利用稀疏矩阵的结构特点,只对非零元素进行计算,从而减少计算量。一个训练得到的稠密矩阵在推理阶段经过剪枝之后会变成一个稀疏化矩阵,然后英伟达架构对矩阵进行压缩后变成一个稠密的数据矩阵和一个 indices,索引压缩过的数据方便检索记录,最后进行矩阵乘。

在这里插入图片描述

A100 张量核心 GPU 可以被分为 7 个 GPU 实例并被不同任务使用,每个实例的处理器在整个内存系统中都有单独且相互隔离的路径,片上交叉端口、L2 缓存、内存控制器和 DRAM 地址总线都被唯一地分配给一个单独的实例,确保单个用户的工作负载可以在可预测的吞吐量和延迟下运行,同时具有相同的 L2 缓存分配和 DRAM 带宽,即使其他任务正在读写缓存或 DRAM 接口。用户可以将这些虚拟 GPU 实例当成真的 GPU 进行使用,为云计算厂商提供算力切分和多用户租赁服务。

在这里插入图片描述

DGX A100 是英伟达专门构建的第三代 AI 系统,在单个系统中可以提供 5 PFLOPS(petaflop)性能,通过一种新的基础设施结构,彻底改变了企业数据中心,旨在将所有 AI 工作负载统一在一个新的通用平台和架构上。A100 以整机的形式出售,最上面是散热器,中间的 A100 芯片不再通过 PCIe 进行连接,而是直接封装在主板上,这样便于在同一个节点上进行模型并行,但是跨节点跨机器之间训练大模型时带宽就会成为整个大模型训练的瓶颈。内存高达 1TB 或者 2TB,可以直接将数据全部加载到 CPU 里面,然后再不断回传到 GPU 中,加速大模型训练。

在这里插入图片描述

Hopper 架构

2022 年 Hopper 赫柏架构发布,英伟达 Grace Hopper Superchip 架构将英伟达 Hopper GPU 的突破性性能与英伟达 Grace CPU 的多功能性结合在一起,在单个超级芯片中与高带宽和内存一致的英伟达 NVLink Chip-2-Chip(C2C)互连,并且支持新的英伟达 NVLink 切换系统,CPU 和 GPU、GPU 和 GPU 之间通过 NVLink 进行连接,数据的传输速率高达 900 GB/s,解决了 CPU 和 GPU 之间数据的时延问题,跨机之间通过 PCIe5 进行连接。

在这里插入图片描述

Hopper 架构是第一个真正的异构加速平台,适用于高性能计算(HPC)和 AI 工作负载。英伟达 Grace CPU 和英伟达 Hopper GPU 实现英伟达 NVLink-C2C 互连,高达 900 GB/s 的总带宽的同时支持 CPU 内存寻址为 GPU 内存。NVLink4.0 连接多达 256 个英伟达 Grace Hopper 超级芯片,最高可达 150 TB 的 GPU 可寻址内存。

H100参数
NVIDIA Grace CPU72 个 Arm Neoverse V2 内核,每个内核 Armv9.0-A ISA 和 4 个 128 位 SIMD 单元
512 GB LPDDR5X 内存,提供高达 546 GB/s 的内存带宽
117MB 的 L3 缓存,内存带宽高达 3.2 TB/s
64 个 PCIe Gen5 通道
NVIDIA Hopper GPU144 个第四代 Tensor Core、Transformer Engine、DPX 和 3 倍高 FP32 的 FP64 的 SM
96 GB HBM3 内存提供高达 3000 GB/s 的速度
60 MB 二级缓存
NVLink 4 和 PCIe 5
NVIDIA NVLink-C2CGrace CPU 和 Hopper GPU 之间硬件一致性互连
高达 900 GB/s 的总带宽、450 GB/s/dir
扩展 GPU 内存功能使 Hopper GPU 能够将所有 CPU 内存寻址为 GPU 内存。每个 Hopper CPU 可以在超级芯片内寻址多达 608 GB 内存
NVIDIA NVLink 切换系统使用 NVLink 4 连接多达 256 个 NVIDIA Grace Hopper 超级芯片
每个连接 NVLink 的 Hopper GPU 都可以寻址网络中所有超级芯片的所有 HBM3 和 LPDDR5X 内存,最高可达 150 TB 的 GPU 可寻址内存

H100 一共有 8 组 GPC、66 组 TPC、132 组 SM,总计有 16896 个 CUDA 核心、528 个 Tensor 核心、50MB 二级缓存。显存为新一代 HBM3,容量 80 GB,位宽 5120-bit,带宽高达 3 TB/s。

在这里插入图片描述

(注意:上面的图是GH100的图,而不是H100的图)

格蕾丝·赫希贝尔·赫柏(Grace Hopper)是 20 世纪美国计算机科学家和海军军官,被誉为计算机编程先驱和软件工程的奠基人之一。在 1934 年获得了耶鲁大学数学博士学位,成为该校历史上第一位女性获得博士学位的人。在计算机领域做出了重要贡献,尤其在编程语言和软件开发方面有突出成就,被尊称为“软件工程之母”和“编程女王”。主要成就包括:

  1. 开发了第一个编译器,将高级语言翻译成机器码,这项创新大大简化了编程过程,为软件开发奠定了基础。

  2. 提出了 COBOL(通用商业导向语言)编程语言的概念和设计,这是一种面向商业应用的高级语言,对商业和金融领域的计算机化起到了重要作用。

  3. 在计算机科学教育和推广方面做出了杰出贡献,她致力于将计算机科学普及到更广泛的人群中,并激励了许多人进入这一领域。

  4. 作为美国海军的一名军官,她参与了多个计算机课程,包括 UNIVAC 和 Mark 系列计算机的开发,为军事和民用领域的计算机化做出了贡献。

具体到 SM 结构,Hopper 赫柏架构 FP32 Core 和 FP64 Core 两倍于 Ampere 架构,同时采用 Tensor Core4.0 使用新的 8 位浮点精度(FP8),可为万亿参数模型训练提供比 FP16 高 6 倍的性能。FP8 用于 Transformer 引擎,能够应用 FP8 和 FP16 的混合精度模式,大幅加速 Transformer 训练,同时兼顾准确性。FP8 还可大幅提升大型语言模型推理的速度,性能较 Ampere 提升高达 30 倍。新增 Tensor Memory Accelerator,专门针对张量进行数据传输,更好地加速大模型。

Hopper 赫柏架构 SM 硬件单元Hopper 赫柏架构每个 Process Block相比 Ampere 架构
4 个 Warp Scheduler,4 个 Dispatch Unit1 个 Warp Scheduler,1 个 Dispatch Unit相同
128 个 FP32 Core(4 * 32)32 个 FP32 Corex2
64 个 INT32 Core(4 * 16)16 个 INT32 Core相同
64 个 FP64 Core(4 * 16)16 个 FP32 Corex2
4 个 Tensor Core4.0(4 * 1)1 个 Tensor CoreTensor Core3.0
32 个 LD/ST Unit(4 * 8)8 个 LD/ST Unit相同
16 个 SFU(4 * 4)4 个 SFU相同
Tensor Memory Accelerator新增

在这里插入图片描述

NVIDIA Quantum-2 Infiniband 是英伟达推出的一种高性能互连技术,用于数据中心和高性能计算环境中的互连网络,具有高性能、低延迟、高可靠性和支持异构计算等特点,主要用于连接计算节点、存储系统和其他关键设备,以实现高速数据传输和低延迟通信。

NVIDIA BlueField-3 DPU(Data Processing Unit)是一种数据处理单元,提供数据中心的网络、存储和安全加速功能。BlueField-3 DPU 结合了网络接口控制器(NIC)、存储控制器、加密引擎和智能加速器等功能于一体,为数据中心提供了高性能、低延迟的数据处理解决方案。

在这里插入图片描述

NVIDIA CUDA 平台针对 NVIDIA Grace CPU,NVIDIA Grace Hopper Superchip 和 NVIDIA NVLink Switch 系统进行了优化,使得 NVIDIA CUDA 发展成为一个全面、高效、高性能的加速计算平台,为开发人员在异构平台上加速应用程序提供了最佳的体验。

在这里插入图片描述

基于 Hopper 架构,英伟达推出 NVIDIA H100 高性能计算加速器,旨在为各种规模的计算工作负载提供出色的性能和效率。在单服务器规模下,结合主流服务器使用 H100 加速卡可以提供强大的计算能力,加速各种计算密集型工作负载。在多服务器规模下,组成 GPU 集群的多块 H100 加速卡可以构建高性能计算集群,支持分布式计算和并行计算,提高整体计算效率。而在超级计算规模下,大量 H100 加速卡组成的超级计算集群可以处理极端规模的计算任务,支持复杂的科学计算和研究。

从单服务器到多服务器再到超级计算规模(Mainstream Servers to DGX to DGX SuperPOD),NVIDIA H100 在不同层次和规模下展现出色的计算性能和效率,满足各种计算需求和业务目标。企业可以根据自身需求和预算选择适合的 NVIDIA H100 解决方案,加速其计算任务和推动 AI 领域的发展。

在这里插入图片描述

Blackwell 架构

2024 年 3 月,英伟达发布 Blackwell 架构,专门用于处理数据中心规模的生成式 AI 工作流,能效是 Hopper 的 25 倍,新一代架构在以下方面做了创新:

  • 新型 AI 超级芯片:Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。

  • 第二代 Transformer 引擎:将定制的 Blackwell Tensor Core 技术与英伟达 TensorRT-LLM 和 NeMo 框架创新相结合,加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。

  • 第五代 NVLink:为了加速万亿参数和混合专家模型的性能,新一代 NVLink 为每个 GPU 提供 1.8TB/s 双向带宽,支持多达 576 个 GPU 间的无缝高速通信,适用于复杂大语言模型。

  • RAS 引擎:Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能恢复能力,以识别早期可能发生的潜在故障,从而更大限度地减少停机时间。

  • 安全 AI:内置英伟达机密计算技术,可通过基于硬件的强大安全性保护敏感数据和 AI 模型,使其免遭未经授权的访问。

  • 解压缩引擎:拥有解压缩引擎以及通过 900GB/s 双向带宽的高速链路访问英伟达 Grace CPU 中大量内存的能力,可加速整个数据库查询工作流,从而在数据分析和数据科学方面实现更高性能。

在这里插入图片描述

大卫·哈罗德·布莱克韦尔(David Harold Blackwell)是 20 世纪美国著名的数学家和统计学家,他在统计学领域做出了卓越的贡献,被誉为统计学的巨匠,第一个非裔美国人当选为美国国家科学院院士,也是第一个获得美国数学学会最高奖——Leroy P. Steele 奖章的非裔美国人。主要成就包括:

  1. 在贝叶斯统计学领域做出了开创性的工作,提出了许多重要的方法和理论,推动了贝叶斯分析在统计学中的发展。

  2. 在信息论方面的研究成果为该领域的发展做出了重要贡献,提供了许多重要的理论基础和方法。

英伟达 GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的片间互联,将两个英伟达 B200 Tensor Core GPU 与英伟达 Grace CPU 相连。在 90 天内训练一个 1.8 万亿参数的 MoE 架构 GPT 模型,需要 8000 个 Hopper 架构 GPU,15 兆瓦功率,Blackwell 架构只需要 2000 个 GPU,以及 1/4 的能源消耗。8 年时间,从 Pascal 架构到 Blackwell 架构,英伟达将 AI 计算性能提升了 1000 倍!

在这里插入图片描述

英伟达 GB200 NVL72 集群以机架形式设计连接 36 个 GB200 超级芯片(36 个 Grace cpu 和 72 个 Blackwell GPU)。GB200 NVL72 是一款液冷、机架型 72 GPU NVLink,可以作为单个大规模 GPU,提供比上一代 HGX H100 实现 30 倍的实时万亿参数 LLM 推理,加速下一代 AI 和加速计算。

在这里插入图片描述

GB200 NVL72GB200 Grace Blackwell Superchip
Configuration36 Grace CPU : 72 Blackwell GPUs1 Grace CPU : 2 Blackwell GPU
FP4 Tensor Core21,440 PFLOPS40 PFLOPS
FP8/FP6 Tensor Core2720 PFLOPS20 PFLOPS
INT8 Tensor Core2720 POPS20 POPS
FP16/BF16 Tensor Core2360 PFLOPS10 PFLOPS
TF32 Tensor Core2180 PFLOPS5 PFLOPS
FP64 Tensor Core3,240 TFLOPS90 TFLOPS
GPU Memory | BandwidthUp to 13.5 TB HBM3e | 576 TB/sUp to 384 GB HBM3e | 16 TB/s
NVLink Bandwidth130TB/s3.6TB/s
CPU Core Count2,592 Arm Neoverse V2 cores72 Arm Neoverse V2 cores
CPU Memory | BandwidthUp to 17 TB LPDDR5X | Up to 18.4 TB/sUp to 480GB LPDDR5X | Up to 512 GB/s
1. Preliminary specifications. May be subject to change. 1. With sparsity.

随着大模型(LLM)参数量增长对算力的需求,英伟达在存储带宽和内存方面不断创新,P100 上首次使用 HBM2,A100 使用 HBM2e,H100 使用 HBM3,H200 和 B100 使用 HBM3e。

在这里插入图片描述

英伟达 Blackwell HGX B200 和 HGX B100 在生成式 AI 、数据分析和高性能计算方面具有相同的突破性进展。HGX B200 是基于 8 个 B200 x86 平台,提供 144 petaFLOPs 的 AI 性能,每个 GPU 最高可配置 1000 瓦。HGX B100 是基于 8 个 B100 x86 平台,提供 112 petaFLOPs 的 AI 性能,每个 GPU 最高可配置为 700 瓦。

HGX B200HGX B100
Blackwell GPUs88
FP4 Tensor Core144 PetaFLOPS112 PetaFLOPS
FP8/FP6/INT87272 PetaFLOPS56 PetaFLOPS
Fast MemoryUp to 1.5 TBUp to 1.5TB
Aggregate Memory BandwidthUp to 64 TB/sUp to 64 TB/s
Aggregate NVLink Bandwidth14.4 TB/s14.4 TB/s
Per GPU Specifications
FP4 Tensor Core18 petaFLOPS14 petaFLOPS
FP8/FP6 Tensor Core9 petaFLOPS7 petaFLOPS
INT8 Tensor Core9 petaOPS7 petaOPS
FP16/BF16 Tensor Core4.5 petaFLOPS3.5 petaFLOPS
TF32 Tensor Core2.2 petaFLOPS1.8 petaFLOPS
FP64 Tensor Core40 teraFLOPS30 teraFLOPS
GPU memory | BandwidthUp to 192 GB HBM3e | Up to 8 TB/s
Max thermal design power (TDP)1,000W700W
InterconnectNVLink: 1.8TB/s, PCIe Gen6: 256GB/sNVLink: 1.8TB/s, PCIe Gen6: 256GB/s
Server optionsNVIDIA HGX B200 partner and NVIDIA-Certified Systems with 8 GPUsNVIDIA HGX B100 partner and NVIDIA-Certified Systems with 8 GPUs
  • Preliminary specifications subject to change.
  • All petaFLOPS and petaOPS are with Sparsity except FP64 which is dense.

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/477681.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows11深度学习环境配置

CUDA、CUDNN 一、安装另一个版本的CUDA 下载.exe文件,网址打不开自己开热点就能解决:CUDA Toolkit 11.2 Downloads | NVIDIA Developer 若遇到“You already have a newer version of the NVIDIA Frameview SDK installed” 1.把电脑已经存在的FrameVi…

H.265流媒体播放器EasyPlayer.js H5流媒体播放器关于如何查看手机端的日志信息并保存下来

现今流媒体播放器的发展趋势将更加多元化和个性化。人工智能的应用将深入内容创作、用户体验优化等多个方面,带来前所未有的个性化体验。 EasyPlayer.js H.265流媒体播放器属于一款高效、精炼、稳定且免费的流媒体播放器,可支持多种流媒体协议播放&#…

力扣.5.最长回文子串力扣.14最长公共前缀力扣219.存在重复元素II力扣.67二进制求和

目录 力扣.5.最长回文子串 力扣.14最长公共前缀 力扣219.存在重复元素II 力扣.67二进制求和 力扣.5.最长回文子串 中心拓展算法,假设以i位置为中心两边可以扩展到多少,所以当对应一个中间位置的时候,可以定义两个指针,对应一个…

Vue.js 插槽 Slots 实际应用 最近重构项目的时候遇到的...

前端开发中 插槽 Slots 是一个重要的概念 我们可以查看一下vue.js的官方文档 https://cn.vuejs.org/guide/components/slots 类似于连接通道一样 可以把核心代码逻辑搬到另外的地方 做一个引用 而原先的地方可能并不能这样书写 对于这个概念我在vue的官方文档里面找到了…

快速识别模型:simple_ocr,部署教程

快速识别图片中的英文、标点符号、数学符号、Emoji, 模型会输出图片中文字行的坐标位置、最低得分、识别结果。当前服务用到的模型:检测模型、数字识别、英文符号识别。 一、部署流程 1.更新基础环境 apt update2.安装miniconda wget https://repo.anaconda.com/…

Android mk/bp构建工具介绍

零. 前言 由于Bluedroid的介绍文档有限,以及对Android的一些基本的知识需要了(Android 四大组件/AIDL/Framework/Binder机制/JNI/HIDL等),加上需要掌握的语言包括Java/C/C等,加上网络上其实没有一个完整的介绍Bluedroid系列的文档&#xff0…

docker安装使用Elasticsearch,解决启动后无法访问9200问题

1.docker安装、启动es docker pull elasticsearch:8.13.0docker images启动容器 docker run -d -p 9200:9200 -p 9300:9300 -e ES_JAVA_OPTS"-Xms256m -Xmx256m" --name es01 8ebd258614f1-d 后台运行-p 9200:9200 -p 9300:9300 开放与主机映射端口-e ES_JAVA_OPTS…

揭秘云计算 | 5、关于云计算效率的讨论

一、 公有云效率更高? 解:公有云具有更高的效率。首先我们需要知道效率到底指的是什么。这是个亟须澄清的概念。在这里效率是指云数据中心(我们将在后文中介绍其定义)中的IT设备资源利用率,其中最具有代表性的指标就是…

【终端美化】Ubuntu 下 Zsh 与 Oh-My-Zsh 美化与插件配置指南

目录 1. 检查是否已安装 zsh2. 安装 zsh3. 设置 zsh 为默认 Shell4. 安装 oh-my-zsh4.1 使用 curl 安装4.2 使用 wget 安装(如果 curl 不可用)4.3 迁移 Bash 自定义配置到 Zsh打开Files并显示隐藏文件复制需要的配置内容粘贴到 Zsh 配置文件保存并关闭文…

Spring Boot与MyBatis-Plus的高效集成

Spring Boot与MyBatis-Plus的高效集成 引言 在现代 Java 开发中,MyBatis-Plus 作为 MyBatis 的增强工具,以其简化 CRUD 操作和无需编写 XML 映射文件的特点,受到了开发者的青睐。本篇文章将带你一步步整合 Spring Boot 与 MyBatis-Plus&…

html+js实现图片的放大缩小等比缩放翻转,自动播放切换,顺逆时针旋转

效果图&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>图片预览</title><sty…

【Python】爬虫实战:高效爬取电影网站信息指南(涵盖了诸多学习内容)

本期目录 1 爬取思路 2 爬虫过程 2.1 网址 2.2 查看网页代码 3 爬取数据 3.1 导入包 3.2 爬取代码 01 爬取思路 \*- 第一步&#xff0c;获取页面内容\*- 第二步&#xff1a;解析并获取单个项目链接 \*- 第三步&#xff1a;获取子页面内容 \*- 第四步&#xff1a;解析…

SpringBoot多文件上传

多文件上传是在单文件上传的基础上修改而来&#xff0c;不了解单文件上传可以参考上一篇。以下在将修改部分展示如下&#xff1a; 一、修改upload.html文件&#xff1a; <!DOCTYPE html> <html> <head> <meta charset"UTF-8"> <title&g…

[RabbitMQ] 重试机制+TTL+死信队列

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

Prometheus结合K8s(二)使用

上一篇介绍了如何搭建 Prometheus结合K8s&#xff08;一&#xff09;搭建-CSDN博客&#xff0c;这章介绍使用 页面访问 kubectl get svc -n prom 看promeheus和granfana的端口访问页面 Prometheus 点击status—target&#xff0c;可以看到metrics的数据来源&#xff0c;即各…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-05

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-05 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-05目录1. LLM App Squatting and Cloning2. Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge3. A Comp…

【SQL Server】华中农业大学空间数据库实验报告 实验三 数据操作

1.实验目的 熟悉了解掌握SQL Server软件的基本操作与使用方法&#xff0c;以及通过理论课学习与实验参考书的帮助&#xff0c;熟练掌握使用T-SQL语句和交互式方法对数据表进行插入数据、修改数据、删除数据等等的操作&#xff1b;作为后续实验的基础&#xff0c;根据实验要求重…

LDR6020驱动的Type-C接口显示器解决方案

一、引言 随着科技的飞速发展&#xff0c;Type-C接口凭借其高速数据传输、强大的电力传输能力以及便捷的正反可插设计&#xff0c;正逐渐成为现代电子设备的主流接口标准。在显示器领域&#xff0c;Type-C接口的引入不仅简化了线缆连接&#xff0c;还为用户带来了更丰富的功能…

Spring |(四)IoC/DI配置管理第三方bean

文章目录 &#x1f4da;数据源对象管理&#x1f407;环境准备&#x1f407;实现Druid管理&#x1f407;实现C3P0管理 &#x1f4da;加载properties文件&#x1f407;第三方bean属性优化&#x1f407;读取单个属性 学习来源&#xff1a;黑马程序员SSM框架教程_SpringSpringMVCMa…

三十一、构建完善微服务——API 网关

一、API 网关基础 系统拆分为微服务后&#xff0c;内部的微服务之间是互联互通的&#xff0c;相互之间的访问都是点对点的。如果外部系统想调用系统的某个功能&#xff0c;也采取点对点的方式&#xff0c;则外部系统会非常“头大”。因为在外部系统看来&#xff0c;它不需要也没…