在过去的几年里,我们看到了机器学习方面的突破性进展。与此同时,GPU 基础设施的大量使用已成为成功的关键,特别是对于涉及大型语言模型和图像模型的工作。
H100在 3 月份的 NVIDIA 年度春季 GTC 活动中首次亮相,是 NVIDIA面向服务器、超大规模计算机和类似市场的下一代高性能加速器,目前首批系统已通过各OEM陆续进入市场。下面我们将介绍 NVIDIA H100 GPU 的性能和可扩展性,以及对深度学习应用场景的提升。
对比A100
与 NVIDIA 上一代旗舰 A100 SXM GPU 相比,H100 SXM:
- 在 Tensor Core 上提供3 倍的吞吐量,包括 FP32 和 FP64 数据类型,具有下一代 Tensor Core、更多的流式多处理器和更高的时钟频率。
- 通过将其硬件改进与添加的 FP8 数据类型和新的 Transformer 引擎相结合,与 A100 GPU 相比,提供6 倍的吞吐量。Transformer Engine 显着加速了基于 Transformer 的模型(例如大型语言模型)的 AI 计算。
- 更新的 NVIDIA NVLink 和 NVIDIA NVSwitch 技术使单个节点内 8 个 GPU 的 all-reduce 吞吐量提高了3 倍,跨 32 个节点的 256 个 GPU 提高了4.5 倍。这对于模型并行化和大规模分布式训练特别有用。
- 对于现实世界的深度学习应用程序,加速因工作负载而异。语言模型通常比基于视觉的模型(~ 2倍)受益更多(~ 4 倍) ,需要模型并行化的特定大型语言模型可以实现高达30 倍的推理速度。
总体而言,H100 为所有深度学习应用程序提供了全面升级,并针对涉及结构化稀疏性(自然语言处理、视觉、和药物设计)和大规模分布式工作负载。
表现
NVIDIA H100 GPU 基于新的 NVIDIA Hopper GPU 架构。与其前身 A100 相比,H100 提供了多项关键性能改进:
第四代张量核心:在新张量核心的支持下,H100 的每个流式多处理器 (SM)使 A100 SM 时钟的计算吞吐量翻倍,用于等效数据类型的时钟,包括:张量核心、FP32 和 FP64。
更多 SM:H100 有两种外形规格 - SXM5 和 PCIe5。H100 SXM5 有 132 个 SM,H100 PCIe 有 114 个 SM。这意味着与 A100 GPU 的 108 个 SM 相比,SM 数量增加了22%和5.5% 。
增加的时钟频率:H100 SXM5 以 1833 MHz 的 GPU 加速时钟速度运行,H100 PCIe 以 1698 MHz 运行。这些转化为比 A100 GPU 的 1410 MHz 增加30%和20% 。
FP8 和 Transformer 引擎:新的 FP8 数据类型,仅在 H100 上可用,将 A100 上 FP16 的每个 SM 时钟的计算速率时钟提高了四倍。在作为 NVIDIA Hopper 架构一部分的Transformer Engine的帮助下,该程序可以智能地管理并在 FP8 和 16 位计算之间动态选择,减少内存使用并提高性能,同时保持 Transformer 模型的准确性。
汇总上述列表中的前三个改进(张量核心、SM 计数、时钟频率),我们可以预期H100 在张量核心、FP32 和 FP64 数据类型上相对于 A100 的 GEMM(通用矩阵乘法)性能是 3 倍H100 SXM5 和 2.5x 用于 H100 PCIe。由于 GEMM 是神经网络中的基本构建块,因此无论您使用哪种模型,这种改进都将使大多数深度学习任务受益。
当结合 FP8 和 Transformer Engine 的改进时,我们可以预期H100 FP8 相对于 A100 FP16 的 GEMMs 性能是 H100 SXM5 的 6 倍和 H100 PCIe 的 5 倍——对于使用Transformer模型进行训练和运行推理来说,这是一个非常显着的改进。在 MLPerf Inference v2.1(一种行业标准的推理性能衡量标准)中,NVIDIA H100 和 Transformer Engine 的性能比 A100高 4.5 倍。
可扩展性
到目前为止,我们已经讨论了单个 H100 GPU 的性能,现在是时候将注意力转向它的可扩展性了。H100 引入了一些很酷的功能以实现更好的缩放:
- 第四代 NVIDIA NVLink:NVLink 直接互连两个带宽更高的 GPU,因此它们的通信不必通过 PCIe 通道。H100 拥有 18 个第四代 NVLink 互连,提供 900 GB/秒的总带宽,是 A100 GPU 600 GB/秒总带宽的 1.5 倍,是 PCIe Gen5 带宽的 7 倍。
- 第三代 NVIDIA NVSwitch:NVLink 连接一对 GPU,NVSwitch 连接多个 NVLink,确保 GPU 通信在单个节点内和节点之间以最大速度运行。H100采用全新的第三代NVSwitch,提供64个第四代NVLink互连端口,加速节点内GPU通信;节点外的二级 NVSwitch 互连支持具有地址空间隔离和保护的大型 NVLink 域(最多 32 个节点或 256 个 GPU),并提供 57.6 TB/秒的全部带宽。
在操作方面,两种 H100 外形尺寸之间存在显着差距。H100 PCIe 的最大热设计功率 (TDP) 为 350W,接近其前身 A100 80GB PCIe 的 300W TDP。但是,H100 SXM5 支持高达 700W 的 TDP。尽管如此,H100 卡也比 A100 GPU 更“节能”,与 A100 80GB PCIe 和 SXM4 前辈相比,FP8 FLOPS/W 分别提高了 4 倍和近 3 倍。
生活质量
除了原始性能和可扩展性升级之外,H100 还使资源管理和利用更加高效:
- 第二代多实例 GPU (MIG):MIG 是一种技术,可提高团队的 GPU 利用率,同时为更多用户提供访问权限。尽管 H100 及其前身的每个 GPU 的最大独立实例数相同(均为 7 个),但 H100 GPU 的第二代 MIG 技术支持安全租户,在每个实例上启用专用 NVDEC 和 NVJPG 单元,并提供大约 3 倍的计算与 A100 相比,每个 GPU 实例的容量和内存带宽增加了近 2 倍。这有助于 IT 运营团队。
- 异步执行:异步执行允许线程以不同的速率完成,而不是让它们等待数据并暂停。H100 提供了改进异步执行的新功能,特别是利用新的张量内存加速器 (TMA) 单元来隐藏数据移动与计算。
主要深度学习框架对 FP8 的支持:尽管 FP8 数据类型对深度学习任务的有用性还有待观察,但 PyTorch 已经开始使用它进行一些前沿实验。
最佳应用
在了解了所有这些新功能以及对性能和可扩展性的改进之后,让我们谈谈哪些深度学习用例从升级到 H100 中受益最大。
- 具有高度结构化稀疏性的大型模型:尽管 NVIDIA 估计 H100 比 A100 提高 5-6 倍,具体取决于 H100 外形尺寸,但其实际基准表明增益因情况而异:与 A100 相比,H100 的训练速度对于 Mask R-CNN(视觉模型)略高于 2 倍,对于推荐模型接近 3 倍,对于诸如语言模型的略低于 4 倍作为 GPT-3 16B 和 GPT-175B,对于专家模型的混合,远高于 4 倍。这与我们从 Ampere GPU 中观察到的情况一致:Tensor Core 的性能针对具有高度结构化稀疏性的大型模型进行了优化,大型语言模型是最受欢迎的示例。经典的基于 CNN 的模型(例如,视觉任务)往往从系统升级中受益较少。然而,随着 Transformer 在 NLP 之外越来越受欢迎,我们预计计算机视觉和药物发现等应用也将开始享受 FP8 和 Transformer Engine 等功能。
- 大规模分布式数据并行化:H100 GPU 的新 NVLink 和 NVSwitch 技术可提供 4.5 倍的 all-reduce 吞吐量,同时针对 32 节点、256 GPU 设置进行测量。这种改进将显着有利于大规模分布式训练,其中节点间 GPU 到 GPU 的通信一直是瓶颈。这不仅适用于语言模型,也适用于text2image 模型或经典 CNN 模型的超大规模训练。
- 模型并行化:H100 的另一个高价值案例是当今许多最大和最具挑战性的模型不再适合单个 GPU,因此需要跨多个 GPU 或 GPU 节点的模型并行性。H100 GPU 的全新 NVSwitch 系统可以带来另一个巨大的性能飞跃。例如,与具有相同 GPU 数量的参考 A100 系统相比,在 H100 系统上使用 Megatron Turing NLG 模型运行推理可实现 30 倍的加速。
- 模型量化:让经过训练的模型在 INT8 精度下很好地工作一直是许多生产中应用程序的圣杯。尽管有许多现有的工具和实践,但模型量化并不总是一帆风顺,因为 INT8 模型的准确性经常下降。新的 FP8 数据类型提供了一条从数学模式角度解决问题的新途径,减少甚至消除了特定深度学习模型所需的额外量化步骤的工作量。
H100 GPU服务器
Supermicro(超微) 提供超过20种组合式解决方案,可让客户从支持全新 NVIDIA H100 GPU 的 8U、5U、4U、2U 和 1U 系统中选择,將 AI/ML、高性能计算(HPC)和推论工作负载最佳化。
通过 NVIDIA H100 PCIe GPU 认证的 Supermicro 系统配备 NVIDIA AI Enterprise,这套端对端云端原生AI及资料分析套装软件经过优化,可供企业使用AI。配备NVIDIA AI Enterprise 的 Supermicro 系统结合 NVIDIA H100 GPU,可简化AI就绪平台的构建,加速AI开发及部署,并提供性能、安全性及可扩展性,从而以更快的洞察力快速实现商业价值。
Supermicro(超微) 针对 NVIDIA H100 GPU 将特定当前一代系统进行认证,目前可提供 Supermicro GPU 服务器 SYS-420GP-TNR、SYS-420GP-TNR2 以及SYS-740GP-TNRT Supermicro 工作站等。通过对当前出货的工作站提供 NVIDIA H100 GPU 认证,客户可保留现有的 CPU 选择,同時享有全新 GPU 帶來的性能提升。此外,配合抢先体验计划,搭载 NVIDIA H100 GPU 的新一代 Supermicro(超微) 系统已开始出货。