AI加速器互连技术

概述
#

AI加速器的互连技术是确保高效数据传输和计算资源间协同工作的关键，特别是在高性能计算、数据中心和复杂的分布式计算场景中。以下是几种重要的AI加速器互连技术：

PCIe (Peripheral Component Interconnect Express): PCIe是最常见的高速接口标准，用于连接计算机中的外设，包括AI加速卡。最新一代如PCIe 4.0和PCIe 5.0提供了更高的带宽（分别为16 GT/s和32 GT/s），支持AI加速器的高速数据传输需求。PCIe的通用性和广泛支持使其成为加速器连接的首选技术之一。
NVLink: 由NVIDIA开发，专为GPU与GPU或GPU与CPU之间的高速、低延迟通信设计。NVLink提供了比PCIe更高的带宽，有助于在多GPU系统中实现更高效的并行计算和数据共享。
NVSwitch: 同样由NVIDIA推出，NVSwitch是一种专为多GPU系统设计的交换技术，能够创建一个GPU间的高速互连网络。它允许所有GPU间全带宽通信，极大提升了大规模并行计算的效率。
CXL (Compute Express Link): CXL是一种新兴的开放行业标准，由Intel引领开发，旨在优化CPU与加速器、内存扩展设备等之间的互连。CXL支持内存共享、缓存一致性等高级功能，对于加速AI计算特别有用。
Infinity Fabric: AMD的Infinity Fabric是一种片上和芯片间互连技术，用于连接CPU、GPU和其他加速器。在AMD Instinct MI300X平台上，Infinity Fabric链路被用来集成多个GPU模块，提高整体系统的数据交换效率。
UAIlink: 超级加速器链( Ultra Accelerator Link，UALink)同样是一种可提高新一代AI/ML集群性能的高速加速器互连技术。八家发起厂商（和超级以太网联盟一样，我们也没有在UAlink联盟中看到英伟达的身影）也成立了一个开放行业标准机构来制定相关技术规范，以促进新使用模式所需的突破性性能，同时支持数据中心加速器用开放生态系统的发展。包括AMD、博通(Broadcom)、思科(Cisco)、Google、惠普(Hewlett Packard Enterprise，HPE)、英特尔(Intel)、Meta和微软(Microsoft)在内的八家公司宣告，他们已经为人工智能数据中心的网络制定了新的互联技术UALink（Ultra Accelerator Link）。通过为人工智能加速器之间的通信建立一个开放标准，以打破市场领导者 Nvidia的垄断。

这些互连技术的发展，特别是针对AI应用的优化，对于克服数据传输瓶颈、提升计算效率和促进异构计算架构的融合至关重要。随着AI模型和工作负载的复杂度持续增长，高效、低延迟的互连解决方案将变得更加重要。

PCIe
#

PCIe（Peripheral Component Interconnect Express），即外围部件互连 express，是一种高速串行计算机扩展总线标准，用于连接计算机主板上的硬件设备，如显卡（包括AI加速卡和GPU）、固态硬盘、网卡等。PCIe标准自2003年推出以来，已经历了多次迭代，目前主流的版本包括PCIe 3.0、PCIe 4.0，而PCIe 5.0也开始逐渐普及。以下是PCIe技术的一些关键特征：

高速传输：每一代PCIe标准都提供了比前一代更高的数据传输速率。PCIe 3.0的每个通道（lane）提供约8GT/s（Gigatransfers per second）的数据速率，而PCIe 4.0翻倍至16GT/s，PCIe 5.0则再次翻倍至32GT/s。一个PCIe插槽可由1到16条通道组成，因此理论带宽会根据通道数成比例增加。
双向通信：PCIe是一种全双工通信协议，意味着数据可以同时在两个方向上传输，进一步提高了数据传输效率。
热插拔：支持热插拔功能，允许用户在系统运行时添加或移除设备，提高了系统的可维护性和灵活性。
兼容性：为了保证向后兼容，较新的PCIe标准的设备可以工作在较旧的PCIe插槽上，但速度会被限制在较低标准的最大速率。
广泛支持：由于其高性能和通用性，PCIe已成为连接高性能外设的行业标准，几乎所有的现代计算机系统都支持PCIe接口。
应用领域：在AI加速、高性能计算、图形处理、存储解决方案等领域，PCIe接口的高速率对于满足数据密集型应用的需求至关重要。

随着技术的发展，PCIe标准的持续演进对于满足未来对更高数据传输速率和更低延迟的需求至关重要，尤其是在云计算、数据中心和高性能计算等前沿技术领域。

PCI-SIG 在2024年四月初向其成员发布了 PCI-Express 7.0 规范的 0.5 版，这是该规范的第二版草案，也是 PCI-SIG 成员向该标准提交新功能的最终呼吁。PCI-SIG 使用最新更新来重申新标准的开发仍在正常进行中2025 年最终版本。

PCIe 7.0 是下一代计算机互连技术，旨在将每个引脚的数据传输速度提高至 128 GT/s，是 PCIe 6.0 的 64 GT/s 的两倍，是 PCIe 5.0 的 32 GT/s 的四倍。这将允许 16 通道 (x16) 连接在每个方向同时支持 256 GB/秒的带宽（不包括编码开销）。这样的速度对于未来的数据中心以及需要更快数据传输速率（包括网络数据传输速率）的人工智能和高性能计算应用来说将非常方便。

为了实现令人印象深刻的数据传输速率，与 PCIe 5.0 和 6.0 相比，PCIe 7.0 将物理层的总线频率提高了一倍。除此之外，该标准保留了具有四级信令 (PAM4) 的脉冲幅度调制、1b/1b FLIT 模式编码以及已用于 PCIe 6.0 的前向纠错 (FEC) 技术。除此之外，PCI-SIG 表示 PCIe 7.0 规范还侧重于增强的通道参数和覆盖范围以及提高的功率效率。

总体而言，鉴于 PCIe 7.0 需要将物理层的总线频率加倍，而 PCIe 6.0 通过 PAM4 信令回避了这一重大发展，因此该标准背后的工程师们的工作量很大。在改善数据信号方面，没有什么是免费的，而对于 PCIe 7.0，PCI-SIG 可以说又回到了硬模式开发，因为需要再次改进物理层——这次是为了使其能够在 30GHz 左右运行。不过，有多少繁重的工作将通过智能信号发送（和重定时器）来完成，有多少将通过纯粹的材料改进（例如更厚的印刷电路板（PCB）和低损耗材料）来完成，仍有待观察。

PCIe 7.0的下一个主要步骤是最终确定0.7版规范，该版本被认为是完整草案，其中所有方面都必须得到充分定义，并且电气规范必须通过测试芯片进行验证。本次规范迭代发布后，无法添加新功能。PCIe 6.0 最终经历了 0.3、0.5、0.7 和 0.9 4 个主要草案才最终定稿，因此 PCIe 7.0 很可能走在同一轨道上。

一旦 2025 年最终确定，第一个 PCIe 7.0 硬件应该需要几年时间才能上架。尽管控制器 IP 和初始硬件的开发工作已经在进行中，但该过程远远超出了最终 PCIe 规范的发布范围。

PCI-SIG表示，在此版本中，PCIe 7.0 规范仍有望在 2025 年全面发布。PCIe 7.0 规范包括以下功能目标：

通过 x16 配置提供 128 GT/s 原始比特率和高达 512 GB/s 的双向比特率；
利用 PAM4（4 级脉冲幅度调制）信令；
关注通道参数和覆盖面（channel parameters and reach）；
继续实现低延迟和高可靠性目标；
提高电源效率；
保持与所有前几代 PCIe 技术的向后兼容性；

PCIe 7.0 技术旨在成为数据密集型市场（如 800G 以太网、人工智能/机器学习、超大规模数据中心、HPC、量子计算和云）的可扩展互连解决方案。随着 PCIe 技术不断发展以满足这些应用的高带宽需求，PCIe 7.0 架构将重点关注通道参数和覆盖范围，同时提高能效。

NVLink
#

NVLink是NVIDIA开发的一种高速互连技术，旨在提升GPU与GPU之间以及GPU与CPU之间的数据传输速度和效率。这项技术的关键特点包括：

高速带宽: NVLink提供比传统PCIe总线更高的数据传输速率，能够显著提升多GPU系统中的性能。例如，第四代NVLink的带宽可达每秒900GB/s，是PCIe 5.0带宽的大约7倍，这对于需要快速数据交换的应用如深度学习、高性能计算(HPC)和大数据分析尤为重要。
低延迟: 通过点对点的直接连接，NVLink减少了数据传输的延迟，使得GPU之间或GPU与CPU之间的通讯更为迅速，从而提升了整体系统的响应速度和效率。
并行处理优化: 在多GPU配置下，NVLink允许GPU之间直接访问对方的显存，无需通过系统内存进行中转，这优化了并行处理和数据共享，特别适合需要大量数据交换的任务。
架构灵活性: NVLink技术不仅限于GPU间通信，也支持GPU与CPU的连接，增加了系统设计的灵活性。通过NVLink桥接器和NVSwitch，可以构建复杂的多GPU拓扑，以适应不同规模的计算需求。
能效比: NVLink在提供高带宽的同时，还注重能效，每传输1字节数据仅消耗1.3皮焦能量，能效比PCIe 5.0高出5倍，有助于降低大规模数据中心的运营成本。

NVLink技术主要应用于NVIDIA的高性能计算产品线，比如Tesla系列GPU，以及面向数据中心和专业计算任务的系统中，对于提升计算密集型应用的性能有着重要作用。

相关资料显示，NVLink 最初是一种将 Nvidia GPU 卡上的内存组合在一起的方法，最终 Nvidia Research 实现了一个交换机来驱动这些端口，允许 Nvidia 以杠铃拓扑（barbell topology ）连接两个以上的 GPU，或以十字交叉方形拓扑（crisscrossed square topology）连接四个 GPU，这种拓扑几十年来通常用于创建基于 CPU 的双插槽和四插槽服务器。

几年前，AI 系统需要八个或十六个 GPU 共享内存，以简化编程，并使这些 GPU 能够以内存速度（而不是网络速度）访问数据集。因此，实验室中的 NVSwitch 于 2018 年在基于“Volta”V100 GPU 加速器的 DGX-2 平台上迅速商业化。

目前，NVLink可在 GPU 之间以每秒 1.8 TB 的速度传输数据。此外，还有一个 NVLink 机架级交换机，能够在无阻塞计算结构中支持多达 576 个完全连接的 GPU。通过 NVLink 连接的 GPU 称为“pod”，表示它们有自己的数据和计算域。

CXL(Computer Express Link)
#

Compute Express Link (CXL) 是一种新型的高速互连技术标准，由 Intel 牵头，联合其他行业领导者如阿里巴巴、思科、戴尔、Facebook、Google、IBM、微软、英伟达等共同开发。CXL 的设计初衷是为了应对数据中心内 CPU 与加速器、内存和 I/O 设备之间日益增长的数据交换需求，特别是在人工智能、机器学习和大数据处理等高性能计算场景中。CXL 标准的关键特性包括：

高速互连：CXL 提供了比传统 PCIe 更高的带宽，初期版本 CXL 1.0 支持高达 32GT/s 的数据传输速率，与 PCIe 5.0 相当，但更重要的是它引入了新的功能来优化内存和加速器的访问效率。
内存一致性：CXL 引入了内存一致性（Cache Coherent Interconnect）功能，这意味着连接到 CXL 总线的设备可以直接访问和共享主系统内存，而不需要通过CPU，大大减少了数据传输延迟，提高了数据处理效率。3. 多种设备支持：CXL 支持三种设备类型：CXL.cache（用于内存扩展）、CXL.memory（增强的内存设备）和 CXL.io（传统的I/O设备），这使得CXL成为一个灵活的互连解决方案，适用于多样化的加速器和存储设备。
向后兼容PCIe：CXL 在物理层上与 PCIe 5.0 兼容，意味着现有的PCIe设备可以通过适配器等方式接入CXL系统，保护了现有投资并简化了过渡过程。
优化AI和数据中心应用：CXL 对于加速器如GPU、FPGA和专用AI芯片与CPU之间的高效协同工作至关重要，特别是在需要大量数据快速交换和处理的应用场景中，如机器学习模型训练和推理、大数据分析等。

CXL 标准的推出，标志着数据中心架构的一次重大进步，它不仅解决了数据密集型应用的性能瓶颈，也为未来的计算体系结构提供了更多可能性，促进了异构计算的发展。随着CXL技术的成熟和应用，预期将在加速计算、内存扩展和高性能计算领域发挥重要作用。

UALink(Ultra Accelerator Link)
#

超级加速器链（Ultra Accelerator Link，UALink）同样是一种可提高新一代AI/ML集群性能的高速加速器互连技术。八家发起厂商（和超级以太网联盟一样，我们也没有在UAlink联盟中看到英伟达的身影）也成立了一个开放行业标准机构来制定相关技术规范，以促进新使用模式所需的突破性性能，同时支持数据中心加速器用开放生态系统的发展。

从相关资料可以看到，Ultra Accelerator Link 联盟的核心于去年 12 月就已经建立，当时 CPU 和 GPU 制造商 AMD 和 PCI-Express 交换机制造商博通表示，博通未来的 PCI-Express 交换机将支持 xGMI 和 Infinity Fabric 协议，用于将其 Instinct GPU 内存相互连接，以及使用 CPU NUMA 链接的加载/存储内存语义将其内存连接到 CPU 主机的内存。相关消息显示，这将是未来的“Atlas 4”交换机，它将遵循 PCI-Express 7.0 规范，并于 2025 年上市。博通数据中心解决方案集团副总裁兼总经理 Jas Tremblay 证实，这项工作仍在进行中，但不要妄下结论。换而言之，我们不要以为 PCI-Express 是唯一的 UALink 传输，也不要以为 xGMI 是唯一的协议。

AMD 为 UALink 项目贡献了范围更广的 Infinity Fabric 共享内存协议以及功能更有限且特定于 GPU 的 xGMI，而所有其他参与者都同意使用 Infinity Fabric 作为加速器互连的标准协议。英特尔高级副总裁兼网络和边缘事业部总经理 Sachin Katti 表示，由 AMD、博通、思科系统、谷歌、惠普企业、英特尔、Meta Platforms 和微软组成的 Ultra Accelerator Link“推动者小组”正在考虑使用以太网第 1 层传输层，并在其上采用 Infinity Fabric，以便将 GPU 内存粘合到类似于 CPU 上的 NUMA 的巨大共享空间中。

如下图所示，我们分享了如何使用以太网将 Pod 链接到更大的集群：

如thenextplatform所说，没人期望将来自多个供应商的 GPU 连接到一个机箱内，甚至可能是一个机架或多个机架中的一个Pod内。但 UALink 联盟成员确实相信，系统制造商将创建使用 UALink 的机器，并允许在客户构建其舱时将来自许多参与者的加速器放入这些机器中。您可以有一个带有 AMD GPU 的Pod，一个带有 Intel GPU 的Pod，另一个带有来自任意数量的其他参与者的自定义加速器Pod。它允许在互连级别实现服务器设计的通用性，就像 Meta Platforms 和 Microsoft 发布的开放加速器模块 (OAM) 规范允许系统板上加速器插槽的通用性一样。

总而言之，UALink 的一大优势是让业内其他所有人都有机会与 NVIDIA 保持同步。NVIDIA 现在有能力制造NVSwitch盒并将这些 NVSwitch 托盘放入NVIDIA DGX GB200 NVL72等产品中。

英特尔今年的 AI 加速器销售额达数亿美元，这可能意味着它只卖出几万台加速器。AMD 今年将销售数十亿美元的 MI300X，但这仍然远不及 NVIDIA 的 AI 规模。拥有 UALink 允许像 Broadcom 这样的公司制造 UALink 交换机来帮助其他公司扩大规模，然后在多家公司的加速器上使用这些交换机。

我们已经报道了 Broadcom Atlas 交换机计划与AMD Infinity Fabric AFL Scale Up 竞争 NVIDIA NVLink 即将出现在 PCIe Gen7 中的 Broadcom 交换机上。我们在简报中被告知，这些可能会实现 UALink 的 V1.0。当然，UALink V1.0 规范尚未出台。

他们表示，1.0版的规范将允许在AI容器组中连接不超过1,024个加速器，支持在容器组中挂载到加速器（例如GPU）的内存之间进行直接加载和存储。UALink发起人工作组已经成立了UALink联盟，预计将在2024年第三季度正式成立。1.0版规范预计将于2024年第三季度推出，并向参加超级加速器链(UALink)联盟的公司开放。

Arm架构是当今世界上最受欢迎的处理器架构之一，经过多年的发展和经营，ARM在经典处理器，嵌入式处理器和应用型处理器方面研发设计出了多个系列的产品。ARM Cortex系列是经典处理器ARM11以后产品的新的命名系列，只在各种不同的市场提供服务，采用的是ARMv7或者ARMv8体系结构，并分为三个系列，分别是Cortex-A，Cortex-R，Cortex-M。

UCIe(Universal chiplet interonnect express)
#

UCIe (Universal Chiplet Interconnect Express) 是一项针对芯片粒(chiplet)互连的开放行业标准，由包括AMD、Arm、Google Cloud、Intel、高通、台积电(TSMC)、日月光(ASE)和三星(Samsung)在内的多家行业巨头共同发起。该标准旨在简化不同厂商芯片粒之间的互操作性，推动芯片粒技术的发展和广泛应用。UCIe标准的关键特性包括：

开放性和通用性：UCIe定义了一套通用的物理层、协议层和软件堆栈规范，使得不同供应商生产的芯片粒可以无缝互连，无论它们是在同一封装内还是跨不同封装。这促进了芯片设计的模块化和灵活性，降低了设计复杂度和成本。
多源兼容性：支持多种die-to-die互连技术，包括2.5D和3D封装技术，确保了来自不同代工厂和封装提供商的芯片粒之间的兼容性。
高性能互连：提供高带宽、低延迟的互连，支持多种带宽配置，满足不同应用场景的需求，包括高性能计算、数据中心、移动和边缘计算等。
安全性：包含安全框架，确保芯片粒间通信的安全性，包括认证、加密和数据完整性保护等机制，这对于云服务、数据中心等应用尤其重要。
简化设计和测试：通过标准化的接口，UCIe简化了芯片粒的设计流程和测试验证，加速了产品上市时间，同时也便于开发者利用最佳的芯片粒组合来构建定制化的系统级芯片(SoC)。

UCIe标准的推出，标志着芯片行业向更加模块化、异构集成的方向迈进了一大步，有望推动芯片设计创新，降低开发成本，加速新技术的商业化应用，特别是对于提升AI、高性能计算和数据中心等领域的系统性能和能效具有重要意义。

UCIe主要借鉴了英特尔的AIB（Advanced Interface Bus，高级接口总线）技术，这项技术在2020年就捐赠给了CHIPS联盟。UCIe规范涵盖了物理层、通讯电气信号标准、通道数量以及触点间距等等。在协议上，也定义了高阶协议和必要的功能集。

不过UCIe没有规范芯粒之间的物理连接的封装、桥接技术，芯粒之间的连接方式可以通过硅中介层或者其他方式连接方式协同工作。换而言之，只要芯粒符合UCIe标准，不管你是如何封装或桥接，都能与两外一个支持UCIe的芯粒产生通讯。

而在此之上的中间层，则由Die to Die适配单元提供链路状态管理、参数协商等功能。同时，D2D单元还提供CRC循环冗余校验码和链路级重试的额外数据可靠性保护功能。

在协议层，厂商也将拥有数个选择，包括源自于PCIe的CXL（Compute Express Link）标准，用于获得更广的行业标准支持。

同时UCIe组织也明确表示技术来源不一定要源自于PCIe、CXL标准，如果未来需要，也会考虑其他的互联协议。

尽管UCIe关注的重点在芯粒的互联上，但仍然包含了片外连接的一些方式，如果芯片制造商和系统制造商愿意，也可以利用UCIe构建一套更远的通讯方式，当然是在牺牲延迟和功率又是的前提下，比如利用UCIe实现机架之间的服务器通讯。甚至是依靠UCIe标准实现光学互联。

UCIe 1.0规范可以看成是一个新的开始，它目前只包含了物理层和通讯协议，并基本只针对2D和2.5D芯片封装有效，事实上如果遇到AMD的Infinity Fabric或者英特尔自家的Foveros Direct 3D直连技术，UCIe 1.0只能说非常基础。但对于大多数厂商而言，通过选购IP芯片、不同制程芯片互联的方式，实现效率和成本的最大化，显然还是相当划算的。

因此自UCIe发起的当天，就已经获得了包括谷歌、微软、Facebook东家Meta的支持，也有来自ASE Group、高通的加入，阵营非常庞大。当然，仔细的同学已经发现NVIDIA并没有出现在组织的名单内，在GTC2022上，NVIDIA推出了一套NVLink-C2C技术，以实现自家的GPU和CPU互联，与AMD IF、英特尔Foveros一样打造了一套属于自己的互联技术。