[RAM] HBM 导论 | 为什么我们需要 HBM?

发布于:2024-04-08 ⋅ 阅读:(196) ⋅ 点赞:(0)

主页: 元存储博客

前言

在AI时代的浪潮中,需要高效的内存来支持快速的数据访问和处理。而在这个追求速度和效率的世界中,HBM(High Bandwidth Memory)内存崭露头角。在这里插入图片描述

1. 什么是 HBM

HBM==High Bandwidth Memory, 是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR RAM 组合阵列。

HBM内存是一种创新的堆叠式内存技术,其特点是将多个内存芯片垂直堆叠在一起,并通过短而宽的通道将它们连接起来。这种设计不仅节省了空间,还大大提高了内存的带宽,使数据能够以更快的速度传输。

传统的DDR就是采用的"平房设计"方式,HBM则是"楼房设计"方式,从而可实现了更高的性能和带宽。

2. HBM 发展

2.1 HBM 起源

随着深度学习对算力需求的迅速增长,内存带宽已经成为一个重要的瓶颈,也被称为"内存墙"。[6]。

高带宽存储器(HBM)技术解决了与现代DRAM相关的两个关键问题[2]:
(1) 显著增加了计算设备(例如GPU)可用的带宽
(2) 降低了功耗

2.2 HBM 简史

文献[6]

HBM1
HBM1量产是在 2014 年,HBM1 单Stack 1024bit,最大容量1GB,带宽128GB/s。搭载4个HBM1 Stacks总容量4GB,总带宽为512GB/s。

HBM2
HBM2首发在2016年的NVIDIA P100上,P100采用4个HBM2 4GB Stacks,此时总带宽达到了720GB/s, 是采用GDDR的M40带宽的3倍。

2017年,也许是为了赶上深度学习热潮,仅隔一年,首次搭载Tensor Core的V100也正式发布,同样搭载4 HBM2 Stacks,内存翻倍至32GiB, 带宽来到了900GB/s。

HBM2e
2020年面世的A100搭载5个HBM2e 8Hi 16GB Stacks,此时总容量达到了80GB,带宽2039GB/s。

HBM3
2023年年底,AMD正式发布了MI300X,搭载了8个HBM3 12Hi 24GB Stacks,总容量192GB,总带宽达到了惊人的5.3TB/s。

HBM3e
H200尚未问世,应该是H100的完全体版本,采用6个HBM3e 12Hi 24GB Stacks,总带宽4.8 TB/s。

HBM4
to be continue

3. HBM 3D 结构原理

HBM的构建像楼房一样,将传输信号、指令、电流都进行了重新设计,而且对封装工艺的要求也高了很多。
在这里插入图片描述
来源: 知乎-EDA学习

  • DRAM通过堆叠的方式,叠在一起,Die之间用TVS方式连接
  • DRAM下面是DRAM逻辑控制单元, 对DRAM进行控制
  • GPU和DRAM通过uBump和Interposer(起互联功能的硅片)连通

4. 为什么需要 HBM

在这里插入图片描述
来源; AMD

我们把 HBM 和 GDRR5 比较, 可以看出 HBM 的优势所在[1] [5]。

  • 更高速,更高带宽
    HBM 最高带宽100GB/s 是 GDDR5 带宽 28GB/s 的近乎 4 倍。

  • 更高位宽
    HBM 位宽 1024 bit, 而GDDR5 位宽只有 32 bit。

  • 更低功耗
    HBM重新调整了内存的功耗效率,也即是功耗降低 3 倍多[5]。

在这里插入图片描述
图. 功耗效率对比(GB/每瓦, 值越小说明单位功耗下的速度越高, 值越大越好)
来源: AMD

  • 更小外形
    HBM比GDDR5节省了 94% 的表面积[5]。

5. HBM 生产商家

三星 Samsung
海力士 SK Hynix
美光 Micron

目前只有这三个巨头有 HBM 设计能力。

国产: 无

6. HBM 封装厂家

SK Hynix - 作为HBM的主要供应商之一,SK Hynix不仅生产HBM芯片,还提供封装和测试服务。

Samsung -三星也提供HBM封装和测试服务。

Intel - 英特尔也涉足HBM封装领域。

ASE Group - 作为全球领先的封装和测试服务供应商之一,ASE Group也提供HBM封装服务。

Amkor Technology - Amkor Technology是另一家全球领先的封装和测试服务供应商,也提供HBM封装服务。

国产: 无
虽然国内没有厂商有封装能力, 像国外封装厂如 Amkor 在国内也有建封装厂。

7. HBM 应用

HBM 内存产品广泛应用在高性能计算、图形处理和人工智能领域, 还有数据中心、游戏和虚拟现实等。

专用AI加速板卡、高端GPU、用于HPC的FPGA板卡抑或是最先进的CPU服务器,都搭载了HBM的。HBM以其高吞吐高带宽的优势,活跃在工业界和学术界。

HBM 体验
想象一下,使用HBM内存的计算机游戏,可以实现更逼真的图形效果和更流畅的游戏体验;使用HBM内存的人工智能应用,可以实现更快的模型训练和更准确的预测;使用HBM内存的大规模数据分析,可以实现更快速的数据处理和更准确的结果。

8. HBM 挑战

8.1 工艺成本

HBM较高的工艺而大大提升了制造成本。

8.2 量产良率问题

现在(2024Q1)的良率只有 65%[3],远低于传统DRAM 良率(已达黄金良率95%[4])。 堆叠的RAM 只要有一层是坏的, 整个都报废。

封装环节限制了良率的提升,封装(包括封装代工、塑封设备、封装材料等)将是HBM产业链最关键的环节。

8.3 散热问题

大量DRAM堆叠,和GPU封装在一起,性能越高发热就越凶,如何散热是极大的挑战。

总结


参考文献
[1] EDA学习,HBM火了,它到底是什么?
[2] HBM内存介绍
[3] https://zhuanlan.zhihu.com/p/685958450
[4] https://new.qq.com/rain/a/20231030A08HTI00
[5] https://zhuanlan.zhihu.com/p/671539540
[6] https://zhuanlan.zhihu.com/p/681519240

声明
本文仅为学习交流目的。
文中部分文字和图片来源于互联网,列在参考的文献,但可能有遗漏。如有侵权,请告知我删除。