今年,马斯克用全球最大AI超算Colossus轰动了整个世界。
这台超算配备了10万张英伟达H100/H200显卡,并预计未来即将扩展到20万张。
自此,AI巨头们倍感压力,数据中心大战火上浇油。巨头们纷纷酝酿着各自的建造计划。
最近,LessWrong网站上发表了一篇博客,根据公开数据对英伟达芯片的产量、各个AI巨头的GPU/TPU数量进行了估计,并展望了芯片的未来。
博客地址:https://www.lesswrong.com/posts/bdQhzQsHjNrQp7cNS/estimates-of-gpu-or-equivalent-resources-of-large-ai-players#Nvidia_chip_production
截止目前,世界五大科技公司的2024年拥有的算力,以及2025年的预测:
微软有75万-90万块等效H100,明年预计达到250万-310万
谷歌有100万-150万块等效H100,明年预计达到350万-420万
Meta有55万-65万块等效H100,明年预计达到190万-250万
亚马逊有25万-40万块等效H100,明年预计达到130万-160万
xAI有10万块等效H100,明年预计达到55万-100万
芯片数量估算总结
可见,他们都在紧锣密鼓地布局自己的算力版图,开展下一代更先进模型的训练。
谷歌Gemini 2.0预计在本月正式上线。此前,马斯克也曾透露,Grok 3也会在年底亮相,具体时间仍旧未知。
他表示,在法律问题数据集上完成训练后,下一代Grok 3将是一个强大的私人律师,能全天候提供服务。
为了追赶劲敌,OpenAI o2模型据称也在训练中了。
这一切训练的开展,都离不开GPU/TPU。
英伟达稳坐GPU霸主,25年或暴销700万块
毋庸置疑,英伟达早已跃升为数据中心GPU的最大生产商。
11月21日,英伟达发布的2025财年第三季度财报预计,2024自然年的数据中心收入将达1100亿美元,比2023年的420亿美元增长了一倍多,2025年有望突破1730亿美元。
收入主力,那便是GPU了。
据估计,2025年英伟达销量为650万至700万块GPU,几乎全是最新的Hopper和Blackwell系列。
根据生产比例和产量预期,其中约包括200万块Hopper,500万块Blackwell。
今年产量:500万块H100
那么,2024年英伟达实际产量是多少?目前,关于这一数据来源较少,有些甚至还对不上。
不过,有估算称2024年第四季度将生产约150万块Hopper GPU。不过这包括一些性能较低的H20芯片,因此是一个上限值。
根据季度间数据中心收入比例推测,全年生产总量可能上限为500万块——这是基于每块H100等效芯片收入约2万美元的假设,而这个单价似乎偏低;如果使用更合理的2.5万美元计算,实际产量应该在400万块左右。
这一数据与年初估计的150万至200万块H100生产量存在差异。目前尚不清楚这一差异是否可以归因于H100与H200的区别、产能扩大或其他因素。
但由于这一估算与收入数据不一致,选择使用更高的数字作为参考。
此前的产量
为了评估目前以及未来谁拥有最多的计算资源,2023年之前的数据对整体格局的影响有限。
这主要是因为GPU性能本身的提升,以及从英伟达的销售数据来看,产量已经实现了大幅增长。
根据估算,微软和Meta在2023年各自获得了约15万块H100 GPU。结合英伟达的数据中心收入,2023年H100及同等级产品的总产量很可能在100万块左右。
五大科技巨头,等效H100预测
截止2024年底,微软、Meta、谷歌、亚马逊、xAI将拥有多少块等效H100?2025年他们又将扩展到多少块GPU/TPU?
从季度报告(10-Q)和年度报告(10-K)中可以看出,英伟达的客户分为「直接客户」和「间接客户」。
其中,46%的收入都是来自直接客户,包括像SMC、HPE、戴尔这样的系统集成商。
他们通过采购GPU,然后组装成服务器,提供给间接客户使用。
间接客户覆盖的范围就非常广泛,比如公有云服务提供商、互联网消费类公司、企业用户、公共部门机构和创业公司都属于这一范畴。
更直白讲,微软、Meta、谷歌、亚马逊、xAI都是「间接客户」(关于他们的拥有GPU相关信息披露相对宽松,但可信度可能较低)。
2024年财年报告中,英伟达披露了,约19%的总收入来自通过系统集成商和分销商采购产品的间接客户。
根据交易规定,他们必须披露收入占比超过10%的客户信息。那么,英伟达的这个数据透露了什么?
要么是,第二大客户规模只有第一大客户的一半,要么是这些数据存在测量误差。
这其中,最大的客户可能是谁?
从现有信息来看,最有可能的候选者是微软。
微软、Meta
微软很可能就是英伟达这两年的最大客户,这一判断基于以下几个因素:
首先,微软拥有全球最大的公有云服务平台之一;其次,它是OpenAI的主要算力供应商;再者,与谷歌、亚马逊不同,微软没有大规模部署自己的定制芯片;最后,微软似乎与英伟达建立了特殊的合作关系——他们是首个获得Blackwell GPU的公司。
今年10月,微软Azure已经开始测试32个GB200服务器的机架。
2024年微软的收入占比数据没有2023年那么精确,英伟达第二季度财报(10-Q)中提到上半年为13%,第三季度仅「超过10%」。
这表明,微软在英伟达销售中的份额较2023年有所降低。
另有彭博统计,微软占英伟达收入15%,其次是Meta占13%,亚马逊占6%,谷歌约占6%(不过资料中并未明确指出这些数据具体对应哪些年份)。
去年来自Omdia研究统计,2023年底Meta、微软各有15万块H100,亚马逊、谷歌和甲骨文各5万块,这一数据与彭博数据更为吻合。
不过,Meta曾发文宣称,到2024年底将拥有相当于60万块H100算力。据称这包括35万块 H100,剩余部分很可能是H200,以及少量将在最后一个季度交付的Blackwell芯片。
如果假设这60万的数字准确无误,并结合收入占比进行推算,便可以更准确地估计微软的可用算力。
微软预计将比Meta高出25%到50%,也就是相当于75万—90万块等效H100算力。
谷歌、亚马逊
仅从英伟达收入的贡献来看,亚马逊、谷歌无疑是落后于微软Meta。然而,这两家公司的情况有着显著差异。
谷歌已经拥有大量自研的定制TPU,这是内部工作负载的主要计算芯片。
去年12月,谷歌推出了下一代迄今为止最强大的AI加速器TPU v5p。
Semianalysis在2023年底一篇报道中指出,谷歌是唯一一家拥有出色自研芯片的公司。
谷歌在低成本、高性能且可靠的大规模AI部署方面的能力几乎无人能及,是全球算力最丰富的企业。
而且,谷歌在基础设施上的投入,只会越来越多。2024年第三季度财报估计,AI支出为130亿美元,「大部分」用在搭建技术基础设施,其中其中60%是服务器(GPU/TPU)。
大部分或许意味着70-110亿美元,其中在TPU/GPU服务器上预估耗资45-70亿美元。
按照TPU对GPU支出2:1的估算,并保守假设TPU的每美元性能与微软的GPU支出相当,预计到2024年底谷歌将拥有相当于100万到150万块等效H100算力。
相比之下,亚马逊内部AI工作负载规模很可能小得多。
他们持有相当数量的英伟达芯片,主要是为了满足通过其云平台提供的外部GPU需求,尤其是为Anthropic提供算力需求。
毕竟,亚马逊和微软一样,都是金主爸爸,负责为OpenAI劲敌提供充足算力。
另一方面,亚马逊虽也有自研的Trainium和Inferentia芯片,但他们在这方面的起步比谷歌的TPU晚得多。
这些芯片似乎远落后于业界最先进水平,他们甚至提供高达1.1亿美元的免费额度来吸引用户尝试,这表明目前的市场接受度并不理想。
不过,今年年中,亚马逊定制芯片似乎出现了的转机。
在2024年第三季度财报电话会议上,CEO Andy Jassy在谈到Trainium2时表示,这些芯片获得了巨大的市场兴趣,我们已多次与制造合作伙伴协商,大幅提高原定的生产计划。
Semianalysis报道指出,「根据我们已知数据,微软和谷歌于2024年在AI基础设施上的投资计划,大幅领先亚马逊部署的算力」。
这些芯片换算成等效H100并不明确,关于Trainium/Trainium2芯片的具体数量也难以获得,仅知道在上述免费额度计划中提供了4万块。
xAI
今年,xAI在基础设施搭建中,最为标志性事件便是——122天建成了10万块H100组成的世界最大超算。
而且,这一规模还在不断扩展中。马斯克预告了未来将扩展到20万块由H100/H200组成的超算。
据称,xAI超算目前似乎在站点供电方面遇到了一些问题。
2025年Blackwell芯片预测
最新2024 AI现状报告对Blackwell采购量进行了估算:
大型云计算公司正在大规模采购GB200系统:微软介于70万到140万块之间,谷歌40万块,AWS 36万块。据传OpenAI独自拥有至少40万块GB200。
如果将微软GB200预估值设为100万块,那么谷歌、AWS这些数字与它们在英伟达采购中,相对于微软的比例是相符的。
这也使得微软占英伟达总收入的12%,与2024年其在英伟达收入份额的小幅下降趋势一致。
该报告虽然没有给出Meta的具体估计数字,但Meta预计明年人工智能相关基础设施支出将显著加速,这表明其在英伟达支出中将继续保持高份额。
lesswrong预计在2025年,Meta的支出规模将维持在微软支出的约80%水平。
虽然没有提及xAI,但马斯克宣称,将在2025年夏天部署一个有30万块Blackwell芯片的运算集群。
虑到马斯克一贯的夸张风格,更为合理的一个估计是,到2025年底他们可能实际拥有20万—40万块芯片。
那么,一块B200相当于多少块H100?这个问题对于评估算力增长至关重要。
就训练而言,性能预计飙升(截至2024年11月)2.2倍。英伟达发布当天,给出的数据称,两个B200组成的GB200,其性能是H100的7倍,训练速度是H100的4倍。
对于谷歌,假设英伟达芯片继续占其总边际计算能力的三分之一。对于亚马逊,这一比例假定为75%。
值得注意的是,仍有大量H100和GB200芯片未被计入上述统计中。
有些是未达到英伟达收入报告阈值的机构,还有些是像甲骨文这样的云服务提供商和其他中小型云服务提供商可能持有相当数量的芯片。
此外,也包括一些英伟达重要的非美国客户。
在全面了解各家手握多少GPU/TPU算力之后,下一个问题是,这些算力将用在哪?
巨头们训练模型用了多少算力?
以上都讨论的是关于各个AI巨头总计算能力的推测,但许多人可能更关心最新前沿模型的训练使用了多少计算资源。
以下将讨论OpenAI、谷歌、Anthropic、Meta和xAI的情况。
但由于这些公司要么是非上市企业,要么规模巨大无需披露具体成本明细(比如谷歌,AI训练成本目前只是其庞大业务的一小部分),因此以下分析带有一定的推测性。
OpenAI和Anthropic
2024年OpenAI的训练成本预计达30亿美元,推理成本为40亿美元。
据称,微软向OpenAI提供了40万块GB200 GPU,用于支持其训练。这超越了AWS整体的GB200容量,使OpenAI的训练能力远超Anthropic。
另一方面,Anthropic 2024年预计亏损约20亿美元,而收入仅为几亿美元。
考虑到Anthropic的收入主要来自API服务且应该带来正毛利,且推理成本应该相对较低,这意味着20亿美元中,大部分都用于模型训练。
保守估计其训练成本为15亿美元,这大约是OpenAI的一半,但并不妨碍其在前沿模型上的竞争力。
这种差异也是可以理解的。Anthropic的主要云提供商是资源相对有限的AWS,AWS的资源通常少于为OpenAI提供算力支持的微软。这可能限制了Anthropic的能力。
谷歌和Meta
谷歌的Gemini Ultra 1.0模型使用了约为GPT-4的2.5倍的计算资源,发布时间却晚了9个月。其所用的计算资源比Meta的最新Llama模型高25%。
尽管谷歌可能拥有比其他公司更多的计算能力,但作为云服务巨头,它面临着更多样的算力需求。与专注于模型训练的Anthropic或OpenAI不同,谷歌和Meta都需要支持大量其他内部工作负载,如社交媒体产品的推荐算法等。
Llama 3所用计算资源比Gemini少,且发布时间晚8个月,这表明Meta分配给前沿模型的资源相较OpenAI和谷歌更少。
xAI
据报道,xAI使用了2万块H100训练Grok 2,并计划用10万块H100训练Grok 3。
作为参考,GPT-4据称使用2.5万块A100进行了90-100天的训练。
考虑到H100的性能约为A100的2.25倍,Grok 2的训练计算量约为GPT-4的两倍,而Grok 3则预计达到其5倍,处于计算资源利用的前沿水平。
此外,xAI并非完全依赖于自有芯片资源,部分资源来源于租赁——据估算,他们从Oracle云平台租用了1.6万块H100。
如果xAI分配给训练的计算资源比例接近OpenAI或Anthropic,推测其训练规模可能与Anthropic相当,但低于OpenAI和谷歌的水平。
参考资料:
https://www.lesswrong.com/posts/bdQhzQsHjNrQp7cNS/estimates-of-gpu-or-equivalent-resources-of-large-ai-players
来源:36kr
|