Skip to main content

Meta AI数据中心网络用了哪家的芯片

·80 words·1 min
Meta OCP FBNIC
Table of Contents

在Meta,我们相信开放的硬件会推动创新。在当今世界,越来越多的数据中心基础设施致力于支持新兴的AI技术,开放硬件在协助分解方面发挥着重要作用。通过将传统数据中心技术分解为其核心组件,我们可以构建更加灵活、可扩展和高效的新系统。

自2011年帮助创建OCP以来,我们分享了数据中心和组件设计,并开源了网络编排软件,以激发自己的数据中心和整个行业的新想法。这些想法使Meta的数据中心成为世界上最具可持续性和效率的数据中心之一。现在,通过OCP,我们正在为数据中心和更广泛的行业带来新的开放的先进网络技术,用于先进的AI应用。

我们宣布了数据中心的两个新的里程碑:下一代AI网络结构,以及与多家供应商密切合作开发的新网络硬件组合。

Disaggregated network fabrics

DSF:已分解并开放的结构
#

网络性能和可用性在从AI训练集群中提取最佳性能方面起着重要作用。正是出于这个原因,我们一直在为AI集群推动后端网络结构的分解。在过去的一年里,我们为下一代AI集群开发了一个分解的计划结构(DSF),以帮助我们开发开放的、与供应商无关的系统,这些系统具有来自整个行业供应商的可互换的构建块。基于DSF允许我们构建大型、无阻塞的结构,以支持高带宽AI集群。

DSF将我们的分解网络系统扩展到基于VoQ的交换系统,该系统由开放的OCP-SAI标准和FBOSS(Meta自己的网络操作系统,用于控制网络交换机)提供支持。基于VoQ的调度确保了网络中的主动拥塞避免,而不是被动的拥塞信号和反应。

DSF结构支持一个开放和标准的基于以太网的RoCE接口,跨越多个xPU和NIC,包括Meta的MTIA以及来自几个供应商的端点和加速器。

下一代AI结构的DSF平台
#

Arista 7700R4系列

DSF平台,Arista 7700R4系列,由专用的叶片和spine系统组成,它们组合在一起形成一个大型的分布式交换机。作为一个分布式系统,DSF旨在支持大规模的AI集群。

7700R4C 38PE

7700R4C-38PE: DSF叶片开关

  • DSF分布式叶式交换机(基于Broadcom Jericho3-AI)
  • 18 * 800GE (36 * 400GE) fp800主机端口
  • 20 *800Gbps (40 *400Gbps)光纤接口
  • 14.4Tbps的无线速度性能和16GB的缓冲区

7700R4 128PE

7720R4-128PE: DSF spine开关

  • DSF分布式主干交换机(基于Broadcom Ramon3)
  • 加速计算优化流水线
  • 128* 800Gbps (256* 400Gbps)光纤接口
  • 102.4Tbps的无线速度性能

下一代400G/800G光纤的51T交换机

Minipack3

Meta将部署两款下一代400G光纤交换机,Minipack3(最新版本的Minipack,Meta自己的光纤网络交换机)和Cisco 8501,这两款交换机都可以向后兼容之前的200G和400G交换机,并支持升级到400G和800G。

Minipack3采用Broadcom最新的Tomahawk5 ASIC,而Cisco 8501则基于Cisco的Silicon One G200 ASIC。这些高性能交换机的传输速率高达51.2 Tbps,具有64x OSFP端口,并且该设计在不需要计时器的情况下进行了优化,以实现最大的功率效率。与之前的型号相比,它们也显著降低了每比特的功率。

Meta将在FBOSS上同时运行Minipack3和Cisco 8501。

Cisco 8501

光学:2x400G FR4光学器件,用于400G/800G光互连

2x400G FR4

Meta的数据中心结构已经从200 Gbps/400 Gbps发展到400 Gbps/800 Gbps,我们已经在数据中心部署了2x400G光学器件。

DSF中FBOSS和SAI的演化

SAI FBOSS

我们继续采用OCP-SAI将新的网络结构、交换硬件平台和光收发器搭载到FBOSS。我们与供应商和OCP合作,共同发展SAI。它现在支持新的特性和概念,如DSF和其他增强的路由方案。

来自世界各地的开发人员和工程师可以使用这个开放硬件,并贡献自己的软件,反过来,他们可以自己使用并与更广泛的行业共享。

FBNIC:由Meta设计的多主机基础网卡

FBNIC

我们正在继续设计更多的ASIC,包括用于FBNIC的ASIC。FBNIC是一个真正的多主机基础网卡,包含了为服务器舰队和MTIA解决方案设计的第一个元网络ASIC。它最多可以支持四个主机,每个主机具有完全的数据路径隔离。FBNIC驱动程序从v6.11内核开始可用,NIC模块由Marvell设计,并已贡献给OCP。

FBNIC的主要特点包括:

  • 网络接口高达4100/450/4*25 GE,SerDes支持高达56G PAM4每通道。
  • 最多4个独立的PCIe Gen5片
  • HW卸载包括LSO,Checksum
  • 用于PTP的线路速率时间戳(从PHY一直到每个主机)
  • 头数据分割,以协助零拷贝
  • 兼容OCP网卡3.0,版本1.2.0,设计规范

未来是开放的
#

推进AI意味着构建超越规模的数据中心基础设施。它还必须考虑到灵活性,高效和可持续地执行。在Meta,我们设想AI硬件系统的未来不仅是可扩展的,而且是开放和协作的。

我们鼓励任何想要帮助推进AI网络硬件未来的人与OCP和Meta合作,以帮助共享AI基础设施的未来。

Related

Marvell与Meta联手推出Meta FBNIC 4x 100G网卡
·94 words·1 min
Meta FBNIC OCP
Inside Meta’s 24K-GPU AI Superclusters
·686 words·4 mins
Meta GenAI Infrastructure Supercluster Open Compute
Global Rack Server Solutions for the NVIDIA Blackwell Platform
·341 words·2 mins
NVIDIA Blackwell GB200 Microsoft Azure Google Cloud Meta