全球科技巨头正掀起一场前所未有的AI基建竞赛,OpenAI规划的10吉瓦级Stargate数据中心预计耗资5000亿美元,这只是未来投入的开端。一个AI数据中心的成本主要来自四部分:IT设备、电力、冷却与工程建设,其中GPU服务器成本占比高达八成。

5000亿美元,这是NASA预估能让人类完成火星登陆的预算。这笔钱,能买下1.36个阿里、3.5个NBA联盟,可建设100座Apple Park,能购买1400亿杯咖啡,然而,却仅够OpenAI建一座Stargate数据中心,而且,这或许只是开始,其野心可能是这个数字的十倍甚至更多。

除OpenAI外,xAI、Meta等科技巨头纷纷在AI数据中心领域疯狂砸钱,全球掀起了一波基建狂潮,押注新一轮的万亿级市场,但在这一狂潮背后,我们不禁要问:这么多钱,究竟花到哪里去了?接下来,让我们深入剖析AI数据中心背后的资本支出。

数据中心的成本构成:四大核心板块

数据中心由哪些部分构成?上下游的主要公司和玩家有哪些?资金究竟该如何分配?有意思的是,翻遍各大报告后发现,大家给出的预算各不相同,究竟谁才是正确的?更有甚者,数据中心竟被“逼”上了太空,这背后的原因是什么?在AI被质疑存在泡沫的情况下,为何资本依然疯狂涌入?

先来看今年10月15日美国银行对下一代AI数据中心的成本分析。我们将数据中心的支出主要分为四大类:IT类设备、供电设备、冷却设备和工程建设。为便于对比,我们将计算单位统一为每吉瓦的支出。

IT类设备

首先是与计算直接相关的IT类设备,包括服务器、网络、存储三部分,其中服务器的支出占比最大,每吉瓦大概需要375亿美元。服务器包含CPU、GPU、内存、主板等重要原件,通常由ODM直接供货,如鸿海等。这些ODM从英伟达和AMD等芯片设计公司拿到服务器设计标准后,制造成整机,直接向Oracle、Meta、亚马逊等超大规模客户供货。ODM占据服务器市场46%的份额,而其他中小企业若要购买服务器,则需向戴尔、超微、惠普等OEM厂商购买。

在网络方面,每吉瓦需要37.5亿美元的网络设备,主要玩家有Arista、Cisco、华为、英伟达等。值得一提的是,尽管英伟达在其中的市场占比仅为5%,但业界有观点认为,英伟达的InfiniBand网络通信标准虽价格昂贵,但凭借低延迟、无丢包风险的优势,更适用于AI数据中心。

最后是存储,即硬盘,每吉瓦需要19亿美元的存储设备,主要玩家包括三星、SK、美光、希捷等。将以上三项相加,IT类设备每吉瓦支出为431.5亿美元,这是数据中心支出的大头。

冷却系统

IT类设备是核心,但整个数据中心的支持系统同样关键,接下来看看冷却系统。先给大家讲个小故事:2018年,亚特兰大的一个数据中心遭受网络攻击,导致法院、警察局、机场等多个城市服务机构被迫关闭。攻击者不仅用勒索软件锁住数据,还侵入了冷却系统。冷却系统被入侵后,环境温度骤升至100华氏度以上,不少芯片受损。黑客甚至将服务器和冷却系统的控制权作为“人质”,要求支付51000美元的比特币。此后,攻击冷却系统的方式愈发常见,花样也越来越多。这个故事充分说明了冷却系统对数据中心的重要性。

虽然冷却系统的建造预算仅占总成本的3%,但随着全球AI算力需求呈指数级升级,传统的风冷技术已难以满足高密度算力设备的散热需求。同时,对于英伟达的GPU而言,散热能力在一定程度上成为制约算力的核心瓶颈。因此,对于数据中心来说,液冷已从散热备选方案变为必需品。

对于配备液冷系统的数据中心,冷却设备主要包含冷却塔、冷水机组、冷却分配单元和机房空气处理机组。若要承担1吉瓦的散热,它们分别需要支出0.9亿、3.6亿、4.5亿、5.75亿美元,总计14.75亿美元。主要供应商分散在各个环节,数量众多,在此不一一列举,但维谛、江森、世图兹和施耐德等都是该领域的大玩家。

供电设备

说完制冷,电力作为核心基建,我们再来看看供电设备的情况。供电设备主要分为应急供电的备用柴油发电机、负责配电总控的开关设备、保障不断电的UPS、给各机组配电的母线槽以及其他配电设备。

美国银行认为,典型的柴油发电机每兆瓦的成本在40 – 55万美元,燃料箱、燃料泵和安装费用加起来大约是35 – 50万美元,因此每兆瓦的发电机成本大约是80万美元。要提供1吉瓦的电力,则需要8亿美元的应急发电机,但实际成本远不止这些,原因在于冗余性。若IT设备的容量功耗达到1吉瓦,往往需要配备不止1吉瓦的柴油发电机。一些可靠性要求特别高的数据中心,柴油发电机的量可能是数据中心算力的两倍,比如数据中心算力为1吉瓦,可能要配备2吉瓦的柴油发电机。

在柴油发电机市场中,最大的玩家是卡特彼勒,康明斯和罗尔斯·罗伊斯实力相当。除此之外,1吉瓦数据中心还需要6.15亿美元的开关设备、9.85亿的UPS和3亿美元的配电设备。这些电气设备的主要玩家分别是施耐德、维谛和伊顿。所以,整个供电设施的花费算下来每吉瓦为27亿美元,仅为IT设备的1/13,看似颇为便宜。

虽然供电成本看似不高,但在美国,供电却成为很多数据中心的核心瓶颈,这一点我们后面再详细展开。

工程建设

最后一项工程建设费用包含建筑成本、安装成本、总承包商费用等,每吉瓦的工程预计花费大约是42.8亿美元。综合计算,要建成1吉瓦的数据中心,最后的总支出大约是516亿美元,其中IT设备占比最高,成本达到84%。如此算来,OpenAI 10吉瓦的Stargate项目需要5160亿美元,与官方宣称的5000亿美元投资非常接近。

成本预测的分歧

然而,在翻阅各种研报时,我们发现一个有趣的现象:不同机构给出的数据差距极大。以Stargate为例,不同机构估算的总预算甚至相差2000亿美元。这是为何?大家该如何看待这样的计算分歧?

先看看几个不同机构的预测。Bernstein在11月1日发布的报告称,每吉瓦的AI数据中心成本大约为350亿美元,且各项目支出占比与美国银行的预测不同,比如IT设备相关的GPU、网络、存储总占比为56%,远低于美国银行计算的84%。

Barclays Bank在10月底的报告中表示,AI数据中心每吉瓦对应支出为500 – 600亿美元,其中65% – 70%用于计算与网络。而今年8月Morgan Stanley的研究模型显示,1吉瓦对应的成本是335亿美元,其中计算设备占比为41%,剩下的59%用于电力、冷却等基础设施建设。

各家预测数据相差如此之大,主要有两个原因。

第一,假设使用的芯片不同。美国银行的计算对象是英伟达在今年9月初发布的Rubin架构芯片,该芯片将于2026年年底上市。而Bernstein和Morgan Stanley的计算对象则是2024年3月发布的Blackwell架构。Bernstein的GPU成本是136.5亿,美国银行计算的未来数据中心成本是375亿,仅这一项就相差200多亿美元,这是各家计算金额差异最大的部分。所以,各家计算金额的最大差别在于芯片价格不同,每吉瓦相差200亿美元,而供电、冷却等其他设施成本相差并不大。不过,这也侧面说明英伟达下一代芯片可能要涨价。

新的“黄氏数学”(Jensen’s Math)认为,一座1吉瓦的AI数据中心总成本在600 – 800亿美元,甚至高于其他机构给出的预测。其中“计算成本”,即英伟达的潜在收入,大约是400 – 500亿。笔者认为,老黄(英伟达CEO黄仁勋)可能说得比较准,毕竟他自己清楚产品的定价、能耗以及预期收益。

第二,计算范围不同。美国银行计算的是数据中心建筑内部的成本,而Bernstein不仅计算了建筑成本,还包括整个数据中心园区的成本,如园区内的配电系统和涡轮发电机等。美国银行计算的发电机更多是备用电源的柴油发电机,而Bernstein计算的是涡轮发电机,相当于自发电设备。

综合来看,对于巨头们未来建设的数据中心,美国银行给出的预算可能更接近真实情况。所以,本期预估是根据美国银行的报告整理的。

电力瓶颈:隐形成本与应对之策

前面提到,电力会成为数据中心的瓶颈,这也是为什么在动画中能看到数据中心内部和外部都有发电机。实际上,在电力方面,有一项不小的隐形支出——电力投资。接下来,我们详细讲讲这一块。

此前,我们分别通过一期视频和播客讲述了AI带来的用电荒以及美国为何如此缺电。一年半后的今天,情况依然没有好转。如今,巨头们为获取电力,不得不自行投资建厂。OpenAI或其合作伙伴如Oracle,需要想办法在电网上创造新的容量。许多科技公司要自己建发电机、发电站、变电站和一些配网设施,甚至建设一些稍短的电力传输线,以满足自身需求。

若要为10吉瓦的数据中心配套一座发电厂,成本可能再增加120 – 200亿美元。因此,我们看到,由于AI数据中心的大规模建设,被视为“夕阳产业”的电力股GEV受到带动,其燃气轮机订单甚至排到了三年之后。

谷歌曾斥资30亿美元改造宾夕法尼亚州的两座水力发电厂,以换取3000MW的电力,这意味着获取1吉瓦电力需花费10亿美元,且这还仅仅是改造费用。马斯克为Colossus2项目也收购了一家发电厂。数据中心抢电现象十分激烈。一些分析师认为,像GE这样的公司具有溢价能力,购买1吉瓦的发电机可能需25亿美元,不过笔者认为20亿美元比较合理。

这就引出一个问题:数据中心本来就有应急发电机,为何不直接用这些发电机供电呢?应急柴油发电机和大型天然气涡轮发电机有本质区别。柴油发电机主要作为备用电源,其所有组件都为高功率、短时爆发优化,无法承载7×24小时不间断运行。而天然气涡轮发电机在设计时就考虑了一年365天几乎每小时都在运行的使用场景。此外,柴油是较为昂贵的燃料,而天然气发电机使用天然气,可通过管道输送。发同一度电,柴油发电机的成本很可能是天然气发电机的3 – 8倍。

所以,现在数据中心建设卡在了获取电力上,美国电网无法提供足够功率,想买天然气涡轮发电机又买不到。由此催生了一些其他方式,如燃料电池越来越受欢迎,甚至巨头们都被“逼”上了太空。

谷歌最新消息称,计划在2027年将数据中心送上太空,主要原因是在太空中利用太阳能板发电,效率可达地球上的8倍,还能解决晚上无太阳能的问题,实现免费且无限的能源供应。此外,在太空中还能利用真空和辐射散热,降低冷却系统需求。除谷歌外,微软、亚马逊和马斯克的SpaceX也都开启了这方面的探索。

那么,建设太空数据中心要花多少钱呢?在LinkedIn上,我们看到相关人士预测,目前建设一座1MW的太空数据中心,算上发射费后,成本大约为3550万美元。若是1吉瓦,则是355亿,这似乎并没有比在地球上贵多少。关于太空数据中心是否可行以及背后的挑战与机遇,我们之后计划单独制作一期视频详细探讨,别忘了关注我们。

基建热潮:风险与机遇并存

既然建设AI数据中心耗费如此巨大,且市场纷纷怀疑存在泡沫,为何这股基建热潮只增不减呢?在我们采访的嘉宾看来,主要原因有两点。

第一,投资不足的风险远大于投资过度的风险。大部分公司现在都意识到,投资不够带来的风险远大于过度投资的风险。为何会这样?很有可能最先获得最佳AI模型或所谓AGI的公司将占据较大市场份额,其他公司的生存空间会迅速缩小。

那么,过度投资会带来哪些风险呢?无非是购买了更多的土地、电力和房屋用于建设数据中心,若发现买多了,可将其用于公司内部使用、提升效率,或租给其他公司,甚至将土地、电力卖给其他公司。总体而言,过度投资的风险是有上限的。

第二,只要有算力,科技公司总会有办法将其利用起来。硅谷有句话叫“Bill will always eat Andy”,即只要有基础设施和硬件,服务商总会有办法将其运用起来。本周早些时候,OCP Meta的人表示,他们目前的GPU仅用于内部AI,如Instagram或Facebook筛选不合适内容,就已需要大量算力。即便有多余闲置算力,用于内部降本也完全可行。所以,笔者认为主流公司不会担心过度投资。

因此,我们看到,即便市场纷纷质疑AI存在过度投资,巨头们依然疯狂投入。最后一个问题是:上万亿美元的需求,资金从何而来?主要是这些超大规模云服务商自身的资金,包括自身盈利再投资以及借贷再投资。后续则要依靠公开市场,即债券市场,包括美国投资级和高收益级债券,还有近期兴起的美国影子银行,即私募信贷。拆分来看,这些大的融资渠道支撑起了整个AI基建热潮。这在美国历史上并非没有先例。

笔者认为,AI更像是全球基建的一个大周期。只要AI能够盈利,成为全球增长的驱动者,就无需特别担心资金问题。这场看似疯狂的投入,本质上是一场关于“谁先抵达未来”的博弈。或许这条路充满风险,但对于科技巨头们来说,“缺席”的代价比“投资错误”的代价更高。

文章来自:51CTO

Loading

作者 yinhua

发表回复