跳过正文

Meta AI数据中心网络用了哪家的芯片

Meta OCP FBNIC
目录

在Meta,我们相信开放的硬件会推动创新。在当今世界,越来越多的数据中心基础设施致力于支持新兴的AI技术,开放硬件在协助分解方面发挥着重要作用。通过将传统数据中心技术分解为其核心组件,我们可以构建更加灵活、可扩展和高效的新系统。

自2011年帮助创建OCP以来,我们分享了数据中心和组件设计,并开源了网络编排软件,以激发自己的数据中心和整个行业的新想法。这些想法使Meta的数据中心成为世界上最具可持续性和效率的数据中心之一。现在,通过OCP,我们正在为数据中心和更广泛的行业带来新的开放的先进网络技术,用于先进的AI应用。

我们宣布了数据中心的两个新的里程碑:下一代AI网络结构,以及与多家供应商密切合作开发的新网络硬件组合。

Disaggregated network fabrics

DSF:已分解并开放的结构
#

网络性能和可用性在从AI训练集群中提取最佳性能方面起着重要作用。正是出于这个原因,我们一直在为AI集群推动后端网络结构的分解。在过去的一年里,我们为下一代AI集群开发了一个分解的计划结构(DSF),以帮助我们开发开放的、与供应商无关的系统,这些系统具有来自整个行业供应商的可互换的构建块。基于DSF允许我们构建大型、无阻塞的结构,以支持高带宽AI集群。

DSF将我们的分解网络系统扩展到基于VoQ的交换系统,该系统由开放的OCP-SAI标准和FBOSS(Meta自己的网络操作系统,用于控制网络交换机)提供支持。基于VoQ的调度确保了网络中的主动拥塞避免,而不是被动的拥塞信号和反应。

DSF结构支持一个开放和标准的基于以太网的RoCE接口,跨越多个xPU和NIC,包括Meta的MTIA以及来自几个供应商的端点和加速器。

下一代AI结构的DSF平台
#

Arista 7700R4系列

DSF平台,Arista 7700R4系列,由专用的叶片和spine系统组成,它们组合在一起形成一个大型的分布式交换机。作为一个分布式系统,DSF旨在支持大规模的AI集群。

7700R4C 38PE

7700R4C-38PE: DSF叶片开关

  • DSF分布式叶式交换机(基于Broadcom Jericho3-AI)
  • 18 * 800GE (36 * 400GE) fp800主机端口
  • 20 *800Gbps (40 *400Gbps)光纤接口
  • 14.4Tbps的无线速度性能和16GB的缓冲区

7700R4 128PE

7720R4-128PE: DSF spine开关

  • DSF分布式主干交换机(基于Broadcom Ramon3)
  • 加速计算优化流水线
  • 128* 800Gbps (256* 400Gbps)光纤接口
  • 102.4Tbps的无线速度性能

下一代400G/800G光纤的51T交换机

Minipack3

Meta将部署两款下一代400G光纤交换机,Minipack3(最新版本的Minipack,Meta自己的光纤网络交换机)和Cisco 8501,这两款交换机都可以向后兼容之前的200G和400G交换机,并支持升级到400G和800G。

Minipack3采用Broadcom最新的Tomahawk5 ASIC,而Cisco 8501则基于Cisco的Silicon One G200 ASIC。这些高性能交换机的传输速率高达51.2 Tbps,具有64x OSFP端口,并且该设计在不需要计时器的情况下进行了优化,以实现最大的功率效率。与之前的型号相比,它们也显著降低了每比特的功率。

Meta将在FBOSS上同时运行Minipack3和Cisco 8501。

Cisco 8501

光学:2x400G FR4光学器件,用于400G/800G光互连

2x400G FR4

Meta的数据中心结构已经从200 Gbps/400 Gbps发展到400 Gbps/800 Gbps,我们已经在数据中心部署了2x400G光学器件。

DSF中FBOSS和SAI的演化

SAI FBOSS

我们继续采用OCP-SAI将新的网络结构、交换硬件平台和光收发器搭载到FBOSS。我们与供应商和OCP合作,共同发展SAI。它现在支持新的特性和概念,如DSF和其他增强的路由方案。

来自世界各地的开发人员和工程师可以使用这个开放硬件,并贡献自己的软件,反过来,他们可以自己使用并与更广泛的行业共享。

FBNIC:由Meta设计的多主机基础网卡

FBNIC

我们正在继续设计更多的ASIC,包括用于FBNIC的ASIC。FBNIC是一个真正的多主机基础网卡,包含了为服务器舰队和MTIA解决方案设计的第一个元网络ASIC。它最多可以支持四个主机,每个主机具有完全的数据路径隔离。FBNIC驱动程序从v6.11内核开始可用,NIC模块由Marvell设计,并已贡献给OCP。

FBNIC的主要特点包括:

  • 网络接口高达4100/450/4*25 GE,SerDes支持高达56G PAM4每通道。
  • 最多4个独立的PCIe Gen5片
  • HW卸载包括LSO,Checksum
  • 用于PTP的线路速率时间戳(从PHY一直到每个主机)
  • 头数据分割,以协助零拷贝
  • 兼容OCP网卡3.0,版本1.2.0,设计规范

未来是开放的
#

推进AI意味着构建超越规模的数据中心基础设施。它还必须考虑到灵活性,高效和可持续地执行。在Meta,我们设想AI硬件系统的未来不仅是可扩展的,而且是开放和协作的。

我们鼓励任何想要帮助推进AI网络硬件未来的人与OCP和Meta合作,以帮助共享AI基础设施的未来。

相关文章

Marvell与Meta联手推出Meta FBNIC 4x 100G网卡
Meta FBNIC OCP
Meta的AI大模型基础设施
Meta GenAI
AMD 即将发布全新 Ryzen 9 9950X3D 和 9900X3D
Ryzen X3D 3D V-Cache