以太网 – 通往奇点之路

演讲人:Broadcom公司高级副总裁Ram Velaga

在AI领域,尤其是LLM(大规模语言模型)和生成式AI的需求前所未有的增长,这引发了一个重要问题:我们如何有效地扩展支持数十万个节点的规模?这个问题的答案在于以太网的创新和增强。

我们将揭示一系列贯穿整个以太网生态系统的技术创新。其中核心是Ultra Ethernet Consortium(UEC)。我们将详细探讨UEC的倡议,包括多路径传输、拥塞控制和具备端到端安全性的RDMA的改进。通过这些举措,UEC将大幅扩展可用于OCP社区及其生态系统的开放式创新技术。

请与我们以及UEC的创始成员一同深入研究以太网在支持超过10万个AI加速器方面的独特地位。我们将重点关注克服功耗、空间利用和时间效率等挑战,以展示以太网如何为高效和可持续的AI基础设施铺平道路。Broadcom将为OCP社区提供新的贡献,包括开放系统设计、仿真工具和SAI规范,以推动AI的可扩展性、部署和新供应链。

以下为正文:

我的演讲题目是“以太网:通往奇点之路”。对于那些关注整个AI领域的人来说,“奇点”指的是机器的能力达到甚至超越人类思维的状态。当我们思考是否能够达到这一点时,我们所需的计算机远远超出了可以容纳在单个芯片上或者由转接板连接的多个芯片。我们谈论的是需要连接数万、甚至数十万个节点。而当你连接这些节点时,你需要一个网络。正如我之前所说,我再次强调,网络就是计算机,这将是我们接下来几分钟要讨论的内容。

网络即计算机。当我们观察摩尔定律时,现在似乎没有人怀疑摩尔定律的回报正在减小,或者至少已经进入一个阶段,除了功耗的降低之外,从连续的工艺节点迁移中几乎无法获得更多好处。然而,每个晶体管的成本却在上升,同时计算能力的需求呈指数级增长。

那么,如何应对这一挑战,即芯片的规模不再扩大,性能提升有限,但我们需要数以千计的这些节点,无论是计算节点还是加速节点,来执行各种任务功能。为了实现这一目标,我们需要将它们连接起来,构建一个庞大的系统网络。因此,整个理念就是“网络即计算机”,这并不是一个新概念。大约20年前,Sun公司就曾探讨过这个问题,而今我们仍然坚信网络是扩展计算的基础要素。

另一件我们去年提出的事情是,网络即计算机。但网络是什么?我们说:“以太网就是网络。”它曾经是云计算的网络,现在它是ML/AI的网络。在未来,它将是ML/AI所需的规模网络。实际上,我们在去年的OCP大会上说过这一点,那是在2022年10月,早于去年11月到12月世界开始接触到ChatGPT这一概念

回顾过去一年,我们不难发现以太网的显著进展。我们坚信,以太网建立在开放标准之上,拥有极其开放的生态系统。它实现即插即用,能够实现互操作性。以太网市场上涌现了众多不同的参与者。去年,年度总计出货60亿个以太网端口。这一切展示了以太网拥有大量的经济和规模经济优势。

为了说明以太网的规模经济,我想强调几个数据。首先,以太网已经存在了50年。实际上,我应该说它只有50年的历史,因为随着时间的推移,它变得越来越强大。第二,以太网的发明者Metf先生因为对以太网所作出的杰出贡献而获得了图灵奖。

除了这些重要里程碑之外,仅在过去的一年多,如果你看看宣布推出高性能交换机来满足ML/AI带宽需求的厂商数量,实在令人惊讶,不是吗?

大约一年前,Broadcom宣布推出了多款交换机,随后Marvell和Cisco等其它厂商也推出了50T交换机。但这一趋势令人鼓舞的地方在于,以往主张其它技术(如InfiniBand)的一些人也站出来,宣布推出专注于ML和AI的以太网交换机。这彰显了以太网的威力,我们看到许多不同的厂商都提供基于开放标准的高性能网络,以满足今天和未来的需求。

此外,我想强调的是,在Broadcom的每次OCP会议上,我们都会介绍一款全新的交换机,而今天我们刚刚宣布了一款名为Qumran3D的产品。它是世界上性能最强大的单芯片路由器,同时也是能效最高的设备之一,提供约25T的容量,而整个芯片的功耗不到700瓦。这一举措表明以太网将继续扩展,具备其它技术难以提供的经济性。

不必仅凭我的话来判断。如果仅看一下全球最大的IT运营商,你会发现他们所有的ML/AI基础设施都连接在以太网网络上。当我说这一点时,可能会出现一些疑问。这就是我所说的“二阶导数问题”。有人可能会问:“前端网络是否基于以太网,而后端是否依赖类似InfiniBand的技术?”不,这是一个单一的网络 —— 就是以太网。前端和后端,它们都汇聚成一个网络,一个以太网网络。我们今天正在讨论的是成千上万的AI节点,甚至更多,都连接在一个以太网网络上。

因此,请不要有误解,以太网已被全球最大的运营商规模化部署,而且它将继续被部署。为什么呢?因为以太网拥有其它任何技术无法匹敌的生态系统。它提供故障排除、测试设备、监控设备,还能够将一个供应商的交换机或网卡替换为另一个供应商的设备,一切都可以协同工作。这就是为什么以太网如此广泛地部署在今天,我们相信它将在未来继续发展。

当你考虑到所有这些因素时,你会发现情况看起来很乐观。你现在已经拥有以太网,还有像RoCE这样的技术,可以扩展到成千上万的节点。

但展望未来,我们应该考虑什么?如果你看一下语言模型的增长速度,在2020年,GPT-3具有大约1750亿个参数,而预计GPT-4将拥有超过1万亿个参数。无论是大型语言模型还是推荐模型,都需要大量资源来处理这些模型的下一代和演进。

在我们与当今正在构建这些模型的运营商进行对话,以及他们未来的计划时,他们向我们提出了一个问题:我们是否能够建立一个连接数十万个节点的网络?好吧,现在请暂时搁置你的怀疑。你是否能够有效地冷却这些设备?你是否可以将它们部署在数据中心内?你是否拥有足够的光通信设备来运行它们?还有其它在此演示中提出的问题。

我总是建议,不妨暂时搁置你的怀疑。尽力而为,其它问题将在今后的某一天得到解决。所以,如果你提出一个问题:如何实现连接百万个节点,这正是许多客户、供应商和合作伙伴都在努力解决的问题。

在这个背景下,如何实现未来数十万甚至百万个节点的扩展?大约两年前,该行业的一些参与者齐聚一堂,制定了三个目标:

  • 一、以太网需要具备超级计算互联的性能。我想再次强调,以太网需要具备超级计算互联的性能。
  • 二、这需要在大规模应用中实现。当我们谈论规模时,不是数万个或几百个,而是数十万、成千上万的规模。
  • 三、它需要具备以太网的总拥有成本和广泛应用。

他们认为,如果我们设定这三个目标,了解现今的以太网已经实现了什么,也就是数万计算节点,但要扩展到百万个节点,以太网需要发生哪些变化。

当你看到这份名单上的公司时,这些都是精通计算和网络的企业。它们中的公司已经在全球部署了一些最大规模的云计算网络和系统。它们共同认为:“让我们一起找出以太网未来两到四年内需要实现怎样的变革,不是因为现在不够出色,而是因为它必须适应未来。”

因此,超级以太网联盟(UEC,Ultra Ethernet Consortium)诞生了,其独一无二的目标是实现以太网的极高性能、超大规模以及世界上任何互连都无法媲美的最佳经济性。

如果你想要一个关于他们在这一领域所取得成就的例子,特别是在RDMA方面,那就让我们来谈谈。RDMA可能是实现从一个计算节点向另一个计算节点传输内存的最基本技术之一。最初,它是针对InfiniBand构建的。随着时间的推移,RDMA得以演进,支持了在以太网上的RDMA,这就是RoCE。目前,RoCE和RDMA在许多数千个计算节点的环境下都能够正常工作。

然而,问题出在这里:当20年前构建RDMA时,它是为了连接一个节点到另一个节点,或者可能是连接十几个节点到另外十几个节点,又或者从100个节点到200个节点。因为你们中的大多数人可能还记得,不久前,企业客户甚至是大型石油和天然气勘探公司购买的HPC集群通常只有256个节点,也许是512个节点,最多只有1000个节点。RDMA就是为这种规模而设计的。但是如今,如果你去和某人讨论1000个节点,他们会觉得那不过是小儿科。甚至1万个节点已经不是什么新鲜事。人们对10万个节点,甚至是更多的节点感兴趣。

接下来,你可能会问:“那RDMA有什么问题呢?” RDMA在设计之初并不是为如此大规模而构建的。它包含了一系列先前的假设。首先,它没有多路径支持,这意味着数据只能通过一条路径从点A传输到点B,而流量必须全部在这一路径上传输。这导致了某些链路可能被浪费,而另一些链路可能被过度使用。

此外,RDMA还包括了“分组传递”的概念,即在数据流中,所有数据包必须按顺序到达。这意味着第一个数据包必须在第二个之后到达,第三个必须在第二个之后到达,以此类推。而RDMA中的一项技术,“返回N”,意味着如果在RDMA数据流中某个数据包丢失,比如第五个数据包,但之后的数据包(六、七、八)都已正常传输,那么“返回N”基本上告诉系统:“嘿,你丢失了第五个数据包,所以我需要你重新传输第五、六、七和八号数据包。” 这种方式非常低效。

此外,RDMA的设计基于一种无丢包的网络,使用了DCQCN(数据中心专用拥塞通知)而非TCP/IP协议,而后者更为健壮。问题在于,这使网络非常脆弱,需要超级精密的工程处理。通常情况下,售卖系统的公司可能会希望你购买从光通信设备到网线再到整个系统的所有组件,并向你收取高于正常费用数倍的费用。

这些特性在过去的市场中发挥了作用,但并不适用于当前世界的发展趋势。因此,Ultra Ethernet提出了解决RDMA问题的构想,称之为“Ultra Ethernet Transport”。他们采取了一系列措施,解决了上述问题,虽然我不会详细逐一列举。总的来说,目前的理念是建立一个高性能的网络,消除传统RDMA中的低效问题,以便能够在一个非常稳健的网络环境中扩展到超过10万个节点。

在超级计算领域,有一点尤为关键,那就是数据包的丢失。微软曾发表一篇论文,指出即使只有0.1%的数据包丢失,也会导致作业完成时间呈指数增长。这是因为你必须回到数据包丢失的状态,然后整个作业必须重新运行,效率非常低下。

因此,我们的理念是建立一个非常强大的网络,具备高度稳健性,高性能,并在开放标准的框架下运行。这正是Ultra Ethernet Consortium(超级以太网联盟)正在努力实现的目标。最初的创始成员现已将其开放给许多其它公司,我们有一个超过200家公司表达了加入Ultra Ethernet的兴趣。

总结一下,我要强调的是,在ML/AI的世界中,不会有单一公司提供所有GPU,也不会有一家公司提供所有互连解决方案。我们实现规模扩展的唯一方式是建立一个由多家供应商提供加速器的生态系统。这个生态系统的唯一生存方式是建立一个开放、基于标准、高性能并具有最佳总体成本的互连结构。以太网是唯一的选择,无论是在今天、昨天还是明天。

非常感谢大家的时间,祝愉快度过今天的余下时光。