CPU的互联技术:深入解析Intel UPI与AMD Infinity Fabric

发布于:2025-07-04 ⋅ 阅读:(23) ⋅ 点赞:(0)

CPU的互联技术:深入解析Intel UPI与AMD Infinity Fabric

在现代高性能计算的心脏地带,CPU不再是孤立的计算单元。无论是单颗CPU内部数十个核心的协同工作,还是多路服务器中数颗CPU的并肩作战,它们之间都需要一个高效、低延迟的“神经网络”来进行数据交换和状态同步。这个“神经网络”就是我们所说的处理器互联技术

它早已不是早期简单的“前端总线”(FSB),而是演变成了极其复杂的点对点高速互联网络。英特尔(Intel)和AMD在这条技术道路上,基于各自的芯片设计哲学,发展出了截然不同的解决方案。本文将带您深入了解英特尔的UPI、未来的CXL,以及AMD革命性的Infinity Fabric。

1. 英特尔的演进之路:从QPI到UPI,再到CXL时代

英特尔在服务器领域的互联技术经历了从FSB到QPI(QuickPath Interconnect),再到如今主流的**UPI(Ultra Path Interconnect)**的清晰演进。

UPI:为可扩展性而生的中坚力量

UPI作为QPI的直接继任者,于2017年随着Skylake-SP架构的至强(Xeon)处理器一同发布。它并非革命性的颠覆,而是一次关键性的增强和优化,其核心目标是提升多路服务器(拥有多个物理CPU插槽)的可扩展性、效率和性能。

UPI的核心特点:

  • 更高的速度与效率: UPI 1.0的速率从QPI最高的9.6 GT/s提升至10.4 GT/s,后续版本(如UPI 2.0)进一步提升至16 GT/s甚至更高。同时,它采用了新的数据包格式,提高了传输效率,并引入了新的低功耗状态,能效比更优。
  • 优化的拓扑结构: 在拥有超过两颗CPU的系统中(例如四路、八路服务器),UPI支持更灵活、更高效的环形或网状(Mesh)拓扑结构,确保任意两个CPU之间的通信延迟相对均衡,避免了QPI在复杂拓扑下的性能瓶颈。
  • 增强的一致性协议: UPI采用的是基于目录的Home Snoop一致性协议。简单来说,它像一个高效的图书管理员,精确记录着每一份数据“借阅”给了哪个核心,当数据更新时,能精准地通知相关核心,而无需像过去那样在总线上进行“广播”,大大降低了多核间的通信开销。

简而言之,UPI是英特尔为构建强大、稳定的多插槽服务器而设计的专用高速公路,它专注于解决CPU与CPU之间大规模数据同步的问题。

未来之路:CXL (Compute Express Link)

仅仅解决CPU之间的互联已不足以应对未来的挑战。随着GPU、FPGA、AI加速器等异构计算单元的兴起,数据需要在CPU和这些加速器之间,以及加速器与共享内存之间进行前所未有的高速、低延迟流动。

为此,英特尔牵头推出了**CXL(Compute Express Link)**开放标准。

  • 统一的互联标准: CXL运行在PCI Express(PCIe)的物理层之上,但它提供了一套远比PCIe强大的协议,允许CPU、内存和加速器之间实现**缓存一致性(Cache-Coherent)**的内存共享。
  • 内存扩展与池化: CXL允许系统连接外部的内存扩展设备,甚至构建“内存池”,让多台服务器可以按需共享和分配内存资源,打破了传统内存必须插在主板上的物理限制。
  • 异构计算的基石: CXL的目标是创建一个统一的、开放的生态系统,让不同厂商的CPU、GPU、AI芯片能够像在同一个“大脑”里一样无缝地共享数据。

如果说UPI是连接多个CPU大脑的高速通道,那么CXL就是构建一个包含CPU、GPU等多种神经元的、统一的、可扩展的“超级大脑”的蓝图。 它与UPI并非取代关系,而是共存与互补,共同构成了英特尔未来的数据中心互联策略。

2. AMD的革命:无处不在的Infinity Fabric

与英特尔的路线不同,AMD自2017年推出Zen架构以来,便将宝压在了一种名为**Infinity Fabric(无限总线/无限网络)**的统一互联技术上。这项技术是AMD Chiplet(芯粒)设计哲学的基石,其应用范围之广,远超UPI。

Infinity Fabric实际上是一个总称,它包含两种不同层面的应用:

核内/芯粒内互联 (Intra-Die/Intra-Chiplet)

在AMD的消费级Ryzen和服务器级EPYC处理器内部,CPU核心并非被制作在一块巨大的单晶片上,而是由多个较小的“芯粒”(Chiplet)组成。

  • CCD内的通信: 核心通常被组织在称为**CCD (Core Complex Die)**的芯粒中。在一个CCD内部,通常有8个核心,它们共享一个大型L3缓存。这些核心之间的通信,就是通过片上的Infinity Fabric进行的。由于物理距离极近,且共享L3缓存,这部分通信的延迟极低。
  • CCD与IOD的通信: 在一颗多CCD的CPU上(如高端Ryzen 9或EPYC),不同的CCD之间需要通信,并且它们都需要访问内存和PCIe设备。这时,Infinity Fabric就扮演了连接所有CCD与一个中央**IOD (I/O Die)**的角色。IOD上集成了内存控制器、PCIe控制器等。所有跨CCD的数据交换和对内存的访问,都必须经过IOD进行中转。
芯粒间/插槽间互联 (Inter-Die/Inter-Socket)

Infinity Fabric的强大之处在于,它同样的技术可以被“拉伸”到芯片之外,用于连接不同的物理CPU。

  • EPYC多路互联: 在AMD EPYC多路服务器中,不同CPU插槽之间正是通过Infinity Fabric进行连接的。这与UPI的功能类似,但AMD用的是同一套底层技术。
  • CPU与GPU的互联: 在一些高性能计算平台中,AMD还使用Infinity Fabric来实现其EPYC CPU与Instinct GPU加速器之间的高速、一致性互联,这正是CXL希望实现的目标之一。

Infinity Fabric的核心哲学是“统一”和“可扩展”。 它是一种高度灵活的“乐高积木”,既能用于构建CPU内部的微观连接,也能扩展到连接整个服务器节点的宏观网络。其时钟频率(FCLK)与内存时钟(MCLK)的同步关系,也使得内存频率对AMD平台的整体性能有着至关重要的影响。

3. 核心对比与总结

特性 Intel UPI AMD Infinity Fabric
设计哲学 专用化:专注于解决多路CPU插槽间的互联问题。 统一化:一套技术贯穿核间、芯间、CPU间乃至CPU-GPU的连接。
应用范围 主要用于多路Xeon服务器的CPU间互联。 几乎所有现代AMD产品(Ryzen, EPYC, Instinct GPU)的内部和外部互联。
与内存关系 独立于内存频率运行。 核心频率(FCLK)与内存频率(MCLK)紧密耦合,内存性能影响互联性能。
对标技术 其CPU间互联功能对标Infinity Fabric的插槽间互联部分。 其统一架构思想涵盖了Intel片上Mesh网络、UPI以及部分CXL的理念。
未来方向 通过开放的CXL标准,构建更广泛的异构计算生态。 持续演进Infinity Fabric,深化其在统一计算平台中的核心地位。

总结来说,英特尔的策略更像是为不同的交通需求修建不同的道路: 在CPU内部用高效的Mesh(网格)网络,在CPU之间用UPI高速公路,在未来异构设备间则推广CXL开放国道。每条路都为特定目标高度优化。

而AMD的策略则更像是打造了一套标准化的、可无限拼接的模块化铁路系统(Infinity Fabric): 同样的铁轨和列车,既可以用于城市内的短途通勤(核间),也可以连接不同的城市(芯间),甚至进行跨国运输(CPU-GPU),灵活性极高,成本效益显著,是其Chiplet战略成功的关键。

4. 未来展望:互联技术决定算力上限

无论是英特尔的UPI+CXL组合,还是AMD的Infinity Fabric,它们都揭示了同一个未来:单核性能的提升已接近物理极限,未来算力的增长将越来越依赖于如何将成百上千的核心、CPU、GPU以及海量内存高效地“连接”在一起。

互联技术不再是CPU的附属品,它正在成为定义整个计算平台性能、功耗和可扩展性的核心瓶颈。谁能在这场“连接”的战争中提供更高效、更开放、更低延迟的解决方案,谁就将在下一个计算时代掌握主动权。这场围绕着“CPU神经网络”的竞赛,才刚刚开始。


网站公告

今日签到

点亮在社区的每一天
去签到