AI Networking for LLMs:构建高性能、高效的网络基础设施

发布于:2025-02-11 ⋅ 阅读:(200) ⋅ 点赞:(0)

AI Networking for LLMs:构建高性能、高效的网络基础设施

在当前 AI 应用领域,网络基础设施对于支持高性能、高效的 AI 应用至关重要。尤其是 Large 和 Small Language Models(LLMs/SLMs)在 AI 应用中的爆炸式增长,使得网络基础设施面临着新的挑战和机遇。这种挑战需要构建出能够满足 AI 应用高带宽、高吞吐量和低延迟需求的网络基础设施。

多模态 LLMs 扩展了用户的交互能力,允许用户通过多种输入方式(文本、音频、图像)进行交互。这种创新使得 AI 应用能够在不同场景下进行操作。网络基础设施在此过程中扮演着关键角色,提供了快速的数据处理、同步和响应能力,确保 AI 应用的顺畅流畅和高效。

对于 AI 网络,我们需要了解不同阶段的数据特征和流量模式。我们将其分为训练阶段和推理阶段。

  1. 训练阶段:在训练阶段,模型会通过GPU进行优化。这需要大量的带宽,因为数据需要在GPU之间传输。网络要求能够承受高带宽和低延迟,并且不能容忍数据包丢失。
  2. 推理阶段:在推理阶段,LLMs需要从新输入中获得输出。这需要低延迟,因为每一毫秒的延迟都会影响应用的响应速度。

基于这些阶段,我们可以设计出不同的 AI 网络架构来满足不同阶段的需求。

AI 网络主要分为前端网络和后端网络。

  1. 前端网络:主要用于处理“北向南”流量,也就是用户数据入出应用。在此阶段,低延迟是关键。
  2. 后端网络:用于处理“东向西”流量,也就是GPU之间的通信。后端网络进一步分为扩展模式和数据并行性。
    • 扩展模式:包括单节点扩展和多节点扩展。单节点扩展通过高速度连接GPU内部,而多节点扩展则通过高带宽连接跨节点的GPU。
    • 数据并行性:通过Collective Communication Libraries(CCLs)在多个GPU上分配任务,提高处理效率。

Remote Direct Memory Access(RDMA)技术是高性能AI网络的关键组成部分,它能够直接在内存之间进行数据传输,从而减少延迟和提高带宽。

RDMA支持两种传输方式:

  1. 双向传输:发送和接收端都参与传输,确保内存位置同步。
  2. 一侧传输:只由发送端进行传输,接收端保持等待状态。

构建高效的AI网络需要考虑不同协议的优缺点。在当前市场上有几种协议可以选择:

  1. InfiniBand:具有无损数据传输能力,并且具有拥塞管理功能,对于高性能训练网络是理想选择,但也具有较高的成本。
  2. RDMA over Converged Ethernet(RoCEv2):结合了RDMA传输能力与IP和Ethernet封装,使其适用于标准Ethernet网络,在广泛兼容性方面具有优势。
  3. Internet Wide Area RDMA Protocol(iWARP):基于TCP的RDMA,但由于其复杂性和较高的延迟,因此在AI工作负载中不如InfiniBand和RoCEv2般流行。
  4. Tesla Transport Protocol over Ethernet(TTPoE):通过简化传输层来实现低延迟,它期望一个“丢失”的网络,不使用链路级别的拥塞控制,取而代之的是端点重传来处理丢包问题。
  5. Ultra Ethernet(UE):最新的超级以太网Protocol结合了Ethernet的覆盖范围与拥塞控制,使其特别适合于处理大量LLM工作负荷。

总之,无论是针对成本、延迟还是可伸缩性,我们都需要选择适合我们的AI应用场景的最佳协议。


网站公告

今日签到

点亮在社区的每一天
去签到