Nvidia如何通过AI重塑数据中心

Nvidia公司希望通过使数据中心的运行速度提高10倍,成本降低到原来的十分之一,彻底改变企业级计算领域。

Nvidia首席执行官黄仁勋(Jensen)正在制定一项战略,重新构建现今的本地化数据中心、公有云和边缘计算设施,充分利用该公司在AI(AI)体系结构方面的强势地位。实现这一端到端战略的关键因素包括清晰的愿景、卓越的芯片设计技能、融合了内存、处理器、输入/输出和网络的新型Arm架构,以及引人注目的软件消费模型。

即使Nvidia未能成功收购Arm公司,我们认为它仍然能够通过积极参与Arm生态系统来执行这一战略。然而,如果其收购Arm的尝试成功,我们相信它将从全球最有价值的芯片公司转变为全球最有价值的综合计算架构供应商。

在这篇独家分析中,我们将解释为何我们认为Nvidia在为全球计算中心提供动力方面处于有利地位,以及它如何计划打破Intel公司x86架构数十年来在数据中心市场上的垄断地位。我们还将分享一些企业技术研究数据,以便更好地了解AI支出和竞争动态。

数据中心市场的变革之路

虽然全球数据中心数量正在趋于整合,但根据IDC的数据,仍然有700多万个数据中心。就像宇宙一样,云正在以极快的速度扩展,数百万个数据中心通过互联网连接在一起——这构成了世界上新兴的(也不太)私有网络。这个新型云计算环境正逐渐变得高度分散,并由软件运营管理。

开放API、外部应用程序、庞大的数字供应链以及这个不断扩张的云增加了威胁面,使全球各地的数据中心内部的最敏感信息容易受到攻击。”零信任”似乎在一夜之间从流行词变成必须遵守的要求。

我们还看到AI被注入到每个应用程序中,这是我们认为在疫情之后发展势头最强劲的技术领域。我们相信,支持AI的体系结构将是Nvidia在进入数据中心市场方面的关键所在。

我们认为,这个新的时代不再仅仅由通用的x86 CPU提供动力。相反,它将会由一系列基于Arm的供应商生态系统的支持,这些生态系统正在引发前所未有的处理器性能提升。

在我们看来,Nvidia目前处于领先地位,有望主导全球数据中心、公有云以及近程和远程边缘计算架构的下一个时代。

黄仁勋的清晰愿景

下面的图表强调了Nvidia首席执行官黄仁勋在扩展市场时所依赖的一些基本假设。首先是数据中心存在很多浪费。他声称,如今在数据中心部署的CPU核心中,只有一半实际上支持应用程序。另一半用于处理围绕运行软件定义数据中心的基础设施,而它们的利用率非常低。

Nvidia的Bluefield-3 DPU被分析师Zeus Kerravala在一篇博客文章中描述为一张带有软件定义网络、存储和安全加速功能的完整迷你服务器卡。据Nvidia称,这款产品的带宽足以替代300个通用的x86核心。

黄仁勋认为,每款网络芯片最终都会变得智能化和可编程化,并能够实现这种类型的加速,以减轻传统CPU的计算负担。他预测每个服务器节点都将具备这种能力,并使得每个数据包和每个应用程序都能够持续进行实时入侵监测。随着服务器逐渐走向边缘计算,Bluefield将成为其核心组件之一。他表示,每年将有2500万台服务器出货,这是他的目标。

在我们看来,黄仁勋的最后一句话至关重要:“AI是我们这个时代最强大的力量。”不管你是否同意这个观点,它都是相关的,因为AI无处不在,而Nvidia在AI领域的地位和公司正在构建的架构是其数据中心和企业战略的基本关键。

AI引领支出势头榜单

让我们查看ETR数据,看看AI在CIO优先事项列表中的位置。横轴是ETR数据中的市场份额或普及程度,纵轴是净分数或支出速度。

在疫情结束后,我们看到AI在最近两次调查中占据了第一的位置。我们认为,随着AI成为数字转型和自动化的重要组成部分,这种动态将在相当长的一段时间内持续下去。并且AI将贯穿于您在这张图表上看到的每一个点。

关键在于Nvidia的架构专为AI工作负载量身定制,上述图表中几乎每个部分都将使用Nvidia的技术。

工作负载正朝着Nvidia的核心领域发展

让我们量化这意味着什么,并阐述我们对Nvidia如何在Arm的帮助下进军企业市场的看法。

在上面的图表中,我们展示了Wikibon研究的预测,描绘了全球服务器基础设施支出按工作负载类型的百分比。以下是关键要点:

  • 去年市场规模约为780亿美元,预计到本十年末将接近1150亿美元——也许是一个保守的数字。
  • 我们将市场分为三大工作负载类别。蓝色是我们在此定义的AI和其它数据密集型应用。橙色是一般性的应用程序,如ERP、SCM、HRM、协作——基本上是来自Oracle、SAP、Microsoft等的应用程序。灰色区域是黄仁勋所称的浪费循环,这些循环卸载了网络和存储的工作,以及全球数据中心中的所有软件定义管理。
  • 我们认为,一般性工作负载受到挤压,因为投资正在向AI+工作负载倾斜,而卸载工作则转向嵌入到存储和网络解决方案中的替代处理器。后一种趋势让我们想起了机械硬盘。多年来,企业和组织被迫购买更多的机械硬盘,并未充分利用存储,只是为了获得更好的性能。这是浪费和低效的,最终新技术出现来解决这个问题。

在我们看来,Nvidia与Arm合作,有望在卸载市场攻击中取得良好的位置,合乎逻辑的是,也能够进入基于AI的工作负载。但甚至橙色的一部分一般性负载也可以转向基于Arm的系统。正如我们之前报道的,例如,AWS和Oracle等公司使用基于Arm的设计来提供一般性工作负载。

他们为什么这么做?成本。因为x86体系结构总体上以及Intel特别是未能提供与降低数据中心成本需求相匹配的性价比和效率。因此,这些公司正在与独立软件供应商合作,确保一般性应用程序能够在基于Arm的处理器上运行,而客户无需进行任何更改。

思考练习:如果Intel不做出回应,会发生什么

如果Intel不对这一明显的趋势做出回应,我们认为到本十年末,其在通用工作负载领域的份额可能会达到50%。而与Nvidia合作,Intel将主导蓝色的AI+工作负载和灰色的卸载工作负载领域,所谓主导是指在可用市场中占据90%的份额。

现在,Intel不会坐视不管让这种情况发生。Intel CEO Pat Gelsinger非常清楚这一点,并将Intel引向一种新的策略,能够更好地管理内存资源,适应卸载处理和生态系统更大的可编程性。但是Nvidia和Arm在这场比赛中遥遥领先。此外,Nvidia越来越多地与NetApp、DataDirect Networks、VAST Data、WekaIO、Pure Storage等存储领域的领导者合作,我们相信这些合作将与其部分产品组合的战略保持一致。

Nvidia:从游戏公司到计算公司

Nvidia最初以游戏公司的面貌崭露头角。即使在当下,将近一半的收入仍然源自这个领域。询问任何一名游戏玩家对于Nvidia的看法,他们都会兴致勃勃地谈论Nvidia的出色性能、卓越的驱动程序、流畅的色彩表现、清晰的图像展示、优秀的资源分配,以及强大的屏幕录制功能。唯一让他们不太满意的是价格——这实在是个愉快的问题。

然而,Nvidia通过进军企业市场不仅扩大了其整体市场份额,还为公司带来了更多的机遇。现在让我们简要探究一下Nvidia在其企业产品组合中的举措,我们认为这些举措与我们的主题息息相关。

这是一张来自Nvidia投资者宣传册的幻灯片,强调了公司的三芯片策略。重要的是,Nvidia正在积极采用基于Arm的架构,稍后我们将更详细地描述这一点。图表的顶部显示了Nvidia的Ampere架构,与Ampere Computing公司不要混淆。Nvidia采取了以GPU为中心的方法,这是其核心优势领域,但我们认为随着时间的推移,出于成本和灵活性的原因,它可能会重新考虑这一策略,并更多地多样化地采用如NPU等替代方案。不过,这需要在以后的某个时间再来详细讨论。

在中间线上,Nvidia已经宣布了其Grace CPU,以纪念著名的计算机科学家Grace Hopper。Grace是一种新的架构,不依赖于x86,并更高效地使用内存资源。

底线显示了Nvidia的Bluefield DPU的路线图,正如Zeus Kerravala所描述的,这本质上是一张完整的服务器卡。

上图的最后一个点非常重要,通常容易被忽视。转向Arm将会将从芯片设计到生产所需的时间缩短50%。我们谈论的是将数年时间缩短到18个月甚至更短。这将为Nvidia在企业市场中带来显著的时间优势。

Nvidia加码AI工作负载并引领边缘计算

我们不会深入挖掘Nvidia的企业产品组合。如果您感兴趣,网络上有足够的信息。然而,我们认为下面的图表强调了一些与Nvidia的端到端战略相关的重要内容。

上方的图表展示了Nvidia的Jetson架构的精选细节,该架构旨在加速我们之前在蓝色条形图中展示的那些AI+工作负载。从我们的角度来看,这一点非常重要,因为同样的软件支持从小型到非常大型,包括边缘系统。我们认为这种架构非常适用于边缘的AI推理,以及在使用AI的核心数据中心应用。因此,这是一个很好的例子,展示了在多种性能和成本范围内利用架构的能力,我们认为这将为Nvidia带来良好的业绩。

特别是与边缘工作负载相关的是,我们认为今天的传统服务器供应商正在错失更大的机会——主要是因为目前较小,无法证明投资的合理性。这些参与者正在合理地与客户保持亲近,并与工业巨头合作,找到将他们现有的x86架构投资重新定向到他们看作“边缘”的方式。

我们认为他们在很大程度上将边缘机会视为一个小型数据中心或数据聚合点。他们希望以规模提供水平基础设施,以利用其运营杠杆。并且他们对不去“远程边缘”和深入专门应用程序持谨慎态度。

我们认为,Nvidia和Arm看到了更大的图景。当供应商们提出边缘市场的价值将达到数万亿美元时,我们认为真正的机会在于位于受控边缘内的实时AI推理。这将需要大量的处理能力,与传统的x86服务器完全不同。这些服务器将会是空间高效、低功耗、紧密打包或嵌入式、高性能、可编程且超级便宜的。而这正是我们认为Nvidia和Arm正在前进的方向。

Nvidia转向Arm,着眼于解决其最大的技术瓶颈问题

我们想花点时间解释一下为什么我们认为转向基于Arm架构对于Nvidia如此重要。

对于Nvidia来说,最大的成本挑战之一是如何充分利用GPU。典型情况下,GPU的利用率远低于20%。上述图表试图解释其中的原因。

以图表左侧为例,展示了传统计算机机架的情况。这一布局凸显了Nvidia所面临的瓶颈。在这种布局中,处理器和DRAM被分散在不同的块中,彼此之间相互关联。想象一下,在一个机架中存在着成千上万的核心。每当系统需要获取位于另一个处理器中的数据时,都必须发出请求并执行数据检索,这是一个具有显著开销的过程。虽然类似RoCE的技术旨在提供帮助,但却不能彻底解决根本的架构瓶颈问题。

因为每个GPU(如图左下角所示)都有自己的DRAM,所以它必须与处理器进行通信以获取所需的数据,也就是说,它们无法有效地彼此通信。

未来的架构设计

右侧显示了Nvidia的发展方向。从SoC开始。CPU与NPU、IPU(图像处理单元)和XPU(其它替代处理器)一起打包。所有这些都与SRAM连接在一起,这是一个高速层,例如L1缓存。SoC的操作系统位于内部,这是Nvidia具有杀手级新定价模型的地方。

该公司正在对运行系统的操作系统进行许可,推出了一种新颖且引人注目的软件订阅模型,这一模型与企业购买软件的方式越来越相符。从理论上说,Nvidia甚至可以免费提供芯片,然后只收取软件的费用,就像刀片剃须刀的模式一样。

右侧的外层是DPU和共享DRAM以及其它资源(例如Ampere Computing——这次是该公司——以及CPU、固态设备和其它资源)。这些处理器将共同管理SoC。

这一设计基于Nvidia的三芯片方法,使用Bluefield DPU,充分利用Mellanox(即网络)。该网络使CPU之间可以共享DRAM,最终所有CPU将全部基于Arm。Grace存储于SoC内部,同样存在于外部层。当然,GPU也在SoC内以一个缩减版本的形式存在(例如渲染GPU),而在外层我们也展示了一些用于AI工作负载的GPU——至少在近期是这样。最终,我们认为它们可能会完全位于SoC内部,但只有时间才能证明这一点。

因此,正如您所见,Nvidia正在与Arm合作,倾向于Arm生态系统,采取一些重要的举措。这就是它计划如何显著提高其解决方案的效率,减少对x86的依赖,并支持我们之前描述的那些新兴的基于AI的工作负载。

谁在争夺计算领导地位

下面是同样的XY图表,显示了市场份额或普及度与净分数或支出势头的对比。我们剪切了ETR数据,以捕捉计算、存储和网络领域的一些领先参与者,这些参与者都在争夺数据中心计算领导地位。

AWS处于非常强势的地位。我们认为超过一半的收入来自计算,因此我们谈论的是每年超过250亿美元的营收。非常巨大。该公司设计自己的芯片,并与独立软件供应商合作,在基于Arm的Graviton芯片上运行通用工作负载。Microsoft和Google也是计算的大消费者,它们也有很大的销售量。特别是Microsoft可能会继续与原始设备制造合作伙伴合作,攻击本地化数据中心的机会,但真正为HPE、Dell、Cisco等提供计算的是Intel。

HPE历来致力于开发架构。我们避免再提起,但是否还记得“The Machine”?我们明白它已成为竞争对手调侃的对象,HP因为过去的各种炒作然后悄然将“The Machine”放到了幕后,这也遭到了一些批评。但在高性能计算领域,HPE拥有强势地位,这与AI和数据密集型有关。同时,它在新的计算架构以及实验室实验中的共享内存方面所做的工作,或许仍然有用,可能在我们描述的未来场景中派上用场。HPE也因为设计自己的定制芯片而闻名,所以我们不会排除他们作为创新者在这场竞赛中的地位。

Cisco的案例颇具吸引力,因为它不仅具备定制芯片设计,还于十年前以其统一计算系统进入计算业务领域的方式引起了广泛关注,这一举措创新地重新构思了数据中心资源的整合方式。Cisco致力于架构的发展,我们预测其下一代UCS将成为公司数据中心业务中的又一个重要里程碑。此外,该公司在安全领域积累了丰富的实力,并通过收购AppDynamics、ThousandEyes、Banzai、Meraki等公司来加强其在数据中心领域的地位。

Dell最近公布了令人瞩目的季度财报。该公司的营收增长约为12%,这并不是与去年同期相比的轻松比较。尽管Dell在传统软件领域的表现持续疲软,但笔记本电脑需求持续高涨,而其服务器业务也再次实现增长。然而,在计算领域,我们并未将Dell视为架构创新者。我们认为,该公司更愿意与各类供应商合作,无论是Intel、Nvidia、基于Arm的合作伙伴,还是上述提到的所有合作伙伴。然而,在存储领域,我们预计该公司将借助更低成本的替代方案,更好地为我们之前讨论的那些卸载工作负载提供服务。

IBM因其历史地位而备受关注。通过其大型机,IBM曾创造了第一个伟大的计算垄断,然后不经意地将其与Microsoft一同转交给了Intel。我们并不认为IBM有意重新夺回其曾经在大型机领域所占的计算平台地位。相反,该公司的策略聚焦于Red Hat和混合云的发展。

房间里的大象:Intel、Nvidia和中国公司

现在,让我们聚焦于那些大型企业:Intel、Nvidia和中国公司。中国的相关性在于阿里巴巴、华为等公司,以及中国政府都希望在半导体技术领域实现自给自足。

然而,我们的假设是,Nvidia在上述趋势中比Intel更具优势,因此我们选择了相对定位的标志。Nvidia正在采取措施,进一步为数据中心中的新工作负载定位自己,并争夺Intel在该领域的主导地位。Intel将努力重塑自己,但它应该在五到七年前就已经开始了Pat Gelsinger目前正在实施的举措。然而,Intel无法改变过去,目前已经远远落后。这需要数年时间才能赶上。

数据解析:Nvidia的数字画像

让我们暂时继续进行Nvidia与Intel的比较,并对这两家公司的财务状况进行快速概述。

上图是一个简单的草图,我们在其中列出了一些简单的关键绩效指标。其中一些数字是近似或取整的,所以不必过于担心。但您可以看到,Intel是一家大约800亿美元的公司——是Nvidia规模的四倍。然而,Nvidia的市值远远超过Intel。为什么?因为增长线。在我们看来,这是有正当理由的,得益于Nvidia更强的战略定位。

Intel曾经是毛利率之王,但Nvidia的毛利率要高得多。就自由现金流而言,Intel仍然占据主导地位。就资产负债表而言,尤其是在其新的晶圆厂战略下,Intel比起Nvidia更是一个资本密集型的业务。随着Intel开始为其晶圆厂建设更多的制造能力,这将对公司的现金状况施加压力。

在第三列,我们为Nvidia+Arm大致在2022年底的情况制定了一个财务报表草稿。我们认为他们可能达到的营业额速度大约是Intel收入规模的一半。如果他们因为Arm获得了一些认可,这可能将推动其市值远超过5000亿美元。然而,风险在于,由于Arm交易是基于现金和大量股票进行的,可能会在一段时间内对市值施加压力。

Arm的毛利率达到90%,因为它基本上采用纯许可模式,因此有助于提高毛利率——但Arm的收入相对较小,约为20亿美元左右,所以它对业绩的影响并不是很大。资产负债表的数据是一个估算。Arm表示不会承担债务来进行交易,但我们还没有时间来弄清楚它如何在不承担债务的情况下完成交易,因此我们根据当前的超低资金成本猜测了一种方法。

关键是,考虑到Nvidia的势头和增长、其在AI方面的战略地位、其针对所有正确领域的深度工程以及解锁Arm巨大价值的潜力,从表面上看,如果能够执行的话,它似乎是要击败的对手。

Nvidia进军企业市场的概述

在我们看来,Nvidia构建其主导性AI业务的架构正在不断演进。工作负载组合和未来需求正朝着这些新架构迈进。据我们观察,Nvidia在企业领域的立场非常有利,我们认为其有望在这个领域获得巨大成功。

权力从Intel/x86转移到了Arm生态系统,Nvidia正在积极参与其中,而Intel则需要在保持当前业务的同时进行重塑。这需要时间。然而,

但Intel可能会得到美国政府的强有力支持。

不确定因素是:Nvidia能否成功收购Arm?英国和欧盟的某些派别正在反对这笔交易,因为他们不希望美国决定Arm可以将技术卖给谁——就像对许多基于Arm芯片供应商施加的对华为的限制。此外,Nvidia的竞争对手,如Broadcom Inc.和Qualcomm Inc.,担心如果Nvidia获得Arm,他们将面临竞争劣势。当然,中国出于明显的原因不希望Nvidia控制Arm,并且会尽一切可能阻止这笔交易,或者限制在中国如何开展业务。

我们可以设想一个情景,美国政府施压英国和欧盟监管机构,以便让这项交易获得批准,作为回报,承诺在欧洲资助工厂建设。AI和半导体:再没有比这更具战略意义的了,我们认为美国军方有充分理由支持这笔交易。作为促成交易的回报,政府将施压Nvidia支持Intel的晶圆厂业务,与我们之前提到的Apple情景相似。与此同时,政府可能会制定条件,确保Nvidia的竞争对手能够获得基于Arm技术的访问权限。

我们没有任何幕后信息,不知道背后到底发生了什么,但在其财务电话会议上,Nvidia表示正在与监管机构合作,并计划在2022年初完成交易。

众多利益攸关,这个国际棋局涉及到多个相关方。战略国家考虑因素正在与分拆或限制科技巨头的呼声发生冲突。与此同时,中国表现得清晰而坚定。对于Nvidia而言,机会之门在数据中心市场敞开,即使没有拥有Arm,我们认为该公司比其他任何公司都更具备为未来企业技术需求服务的优势地位。