NVIDIA Blackwell Ultra 与 AI GPU 供给紧张

作者:Boxu Li

NVIDIA 最新的 Blackwell Ultra GPU 平台在 AI 界引发了轰动——以至于造成了严重的供给紧张。华尔街分析师和社交媒体上的 AI 研究人员纷纷讨论其创纪录的性能、飙升的价格以及对这些芯片前所未有的需求。在这篇深入分析中,我们将探讨为什么 Blackwell Ultra 是热门新闻,研究其在性能功耗比内存带宽上的突破,讨论在大规模部署这些 GPU 时的集群经济学,并考虑为何这一热潮引发了对轻量级 AI 框架的重新思考。我们将以可信的来源支持事实,并专注于技术细节,以满足专业读者的需求。

为什么 Blackwell Ultra 成为头条新闻

**无与伦比的性能:**NVIDIA 的 Blackwell Ultra GPU 在 AI 推理能力上实现了巨大的飞跃。早期基准测试显示,低精度吞吐量比上一代 Hopper H100 GPU 高出 7.5 倍[1]。事实上,Blackwell Ultra 可以以 15 PFLOPS 执行密集的 4 位精度数学计算(NVFP4 格式),而 H100(FP8)大约为 2 PFLOPS,即原始吞吐量增加了 7.5 倍[1]。这一飞跃转化为 AI 模型推理速度的显著提升。例如,NVIDIA 报告称,基于 Blackwell Ultra 的系统相较于基于 Hopper 的平台,AI “工厂”输出量(响应吞吐量)整体提升 50 倍,因为每用户响应速度提高约 10 倍,每兆瓦功率吞吐量提高 5 倍[2]。换句话说,Blackwell Ultra 不仅仅增加了计算能力,而是以更高效的方式实现,在大规模部署中每瓦性能提升 5 倍[2]

**新的推理能力:**Blackwell Ultra 引入了一种新的 4-bit 精度格式,称为 NVFP4,在不显著降低准确性的情况下,实现了极高的推理速度。该格式采用巧妙的双层缩放技术来保持准确性,几乎达到了 FP8 的质量水平,但所需的内存和计算成本大大降低[3]。因此,Blackwell Ultra 的 Tensor Cores 可以进行以前不可能实现的低精度计算——FP4 吞吐量是标准 Blackwell GPU 的 1.5 倍,比早期架构快很多倍[1]。NVIDIA 还将关键的 transformer attention 操作的特殊功能单元吞吐量提高了一倍,因此注意力层的运行速度比基础 Blackwell 芯片快达 2 倍[4]。这些进步针对大型语言模型和生成式 AI 推理的核心瓶颈,使实时生成视频等功能成为可能。实际上,一个演示显示 Blackwell Ultra 生成一个 5 秒的 AI 视频比 Hopper GPU 快 30 倍,将 90 秒的任务变成实时输出[5]

华尔街和推特的热议: 这样的性能提升没有被忽视。受益于Blackwell的推动,NVIDIA的股票因预期创纪录的收入而飙升。在2025年第三季度,数据中心收入达到512亿美元(占NVIDIA销售额的90%),这主要归功于Blackwell Ultra的加速推动——该公司称其现在是“所有客户类别中的领先架构”[6][7]。CEO黄仁勋指出,“Blackwell的销售量异常火爆,云端GPU已经售罄”,需求远超供应[8]。AI实验室和云服务提供商争相获取这些芯片,社交媒体上充斥着极端缺货和二手市场加价的轶事。这种因稀缺而引发的狂热正推高价格,并使Blackwell Ultra成为科技和金融界的热门话题。

Blackwell Ultra 架构:性能扩展

图:随着 Blackwell Ultra 的出现,低精度 AI 吞吐量骤增。每个 Blackwell Ultra GPU 提供 15 PFLOPS 的密集 4 位 AI 计算能力,相较于已经强大的 Blackwell 芯片提升 1.5×,并且约为 NVIDIA 之前 Hopper 代(H100/H200)的 FP8 吞吐量的* 7.5×[1]。这种计算能力的巨大代际飞跃是当前 AI 基础设施蓬勃发展的关键驱动力。

Blackwell Ultra 的核心是专为大规模 AI 推理而设计的尖端设计。每个 GPU 实际上由一个封装内的双 GPU 晶片组成,通过 10 TB/s 的高带宽互连连接[9]。这种多晶片方法(类似于芯片架构)使 NVIDIA 能够在一个“GPU”中装入大量的处理能力。完整的 Blackwell Ultra 芯片有160 个流式多处理器(SMs)分布在 8 个 GPC 集群中,总共每个 GPU 包含640 个第五代 Tensor 核心[10][11]。这些 Tensor 核心是 AI 的主力军,在 Blackwell Ultra 中,它们针对 FP8、FP6 和新的 NVFP4 精度进行了优化。每个 SM 还包括256 KB 的“张量内存” (TMEM),这是一个小型高速暂存区,使 GPU 能够更高效地重用矩阵计算的数据[12][13]。这种 SM 级别的内存以及新的双块处理模式,有助于减少片外内存流量,并保持张量核心的供给,提高有效吞吐量和功率效率[13]

HBM3e 内存 – 大而快: 为这些计算单元提供数据的是一个巨大的内存池。Blackwell Ultra GPU 每个配备 288 GB 的 HBM3e 高带宽内存[14]。这比标准的 Blackwell 数据中心 GPU(其拥有 ~192 GB)[15] 多 1.5 倍,比 Hopper H100(80 GB)多 3.5 倍以上。这很重要,因为当今的大型语言模型和其他 AI 工作负载通常需要庞大的上下文长度和模型规模。更大的内存允许更大的批量和更长的序列一次性处理,提高复杂模型的吞吐量[16]。内存带宽同样令人印象深刻——每个 GPU 的带宽约为 8 TB/s(得益于 12 层 HBM3e)[14]。相比之下,一个 H100 SXM 模块提供约 3 TB/s[17],即便是采用 HBM3e 的 H200 中期升级也仅限于 ~4.8 TB/s[18][19]。有了 Blackwell Ultra,内存子系统不再是许多工作负载的瓶颈:模型可以更大,或更高效地访问,而无需不断地翻动外部内存。

**Grace Hopper 到 Grace Blackwell:**NVIDIA 的设计也将 CPU 和网络与 GPU 紧密集成,以提高集群级性能。每个 Blackwell Ultra “节点”通过超高速 NVLink-C2C 链路(900 GB/s CPU-GPU 带宽)将 GPU 与 NVIDIA 的 Grace CPU 配对[14]。Grace CPU 提供 2,592 个 Arm 内核和其自身的高内存带宽(LPDDR5X)以支撑 GPU[20][21]。这种组合,有时被称为 Grace Blackwell,确保 GPU 计算不会因 CPU 或 I/O 限制而受阻。实际上,一个 NVIDIA GB300 系统(下文详细说明)在每个机架中有 36 个 Grace CPU 与 72 个 GPU 协同工作,所有这些通过 第五代 NVLink 连接,提供惊人的 130 TB/s 全互联带宽[22][20]。这种架构,加上 NVIDIA 的 Quantum X InfiniBand 或节点间的 Spectrum-X 以太网,意味着即使是多机架的“AI 工厂”也能实现快速的 GPU 间通信。最终目标是将 AI 推理扩展为一种云服务——NVIDIA 称之为 AI Factory 概念——在一个加速器的互联集群中并行运行多个模型和请求。

每瓦性能:效率提升

Blackwell Ultra 最显著的特点之一是它在 AI 工作负载上的能效提升。是的,每个 GPU 的耗电量很大(我们稍后会讨论高 TDP),但与之前的代相比,每瓦性能显著提高。NVIDIA 自己的指标显示,在大规模应用中,Blackwell Ultra 系统每兆瓦的吞吐量是基于 Hopper 系统的 5 倍[2]。这是由于多个因素共同作用的结果:

  • 降低精度 = 降低能耗: 通过使用4位精度且几乎没有精度损失,Blackwell Ultra能够以更少的焦耳消耗完成相同的推理工作。NVFP4格式专为提高效率而设计——减少内存移动并使用更小的乘法器——如此之多,以至于将精度从FP8降低到FP4实际上显著提高了每瓦特的性能[23]。本质上,当GPU执行低精度操作时,可以在相同的功耗预算下执行更多操作,这对于推理服务是一个重大胜利。
  • 架构优化: 张量内存和SM中的双块协作意味着每瓦特的利用率更高。数据保存在芯片上,避免了昂贵的DRAM访问,张量核心在更少停滞的情况下保持繁忙[13]。此外,在注意力单元(SFU)中加倍关键路径使这些单元能够更快完成工作然后闲置,而不是拖延高功率计算[4]。所有这些都意味着在内存等待或长操作序列上减少了能量浪费。
  • 工艺节点和时钟管理: Blackwell代GPU采用先进的TSMC 4N/4NP工艺制造,Ultra变体可能将其推至极限。它们可以在相同的功耗范围内实现更高的时钟或更多的核心。根据一些分析,通过转向4N硅和架构增益,基础Blackwell(有时称为B200)已经在性能/瓦特方面比Hopper有了重大提升[24]。Blackwell Ultra在此基础上增加了50%的计算能力,尽管功耗有所增加——但获得了更好的比例。

值得注意的是,性能每瓦的提升不仅仅是学术上的;它们直接影响数据中心的运营成本。如果你能在相同的能量输入下获得5倍的吞吐量,这就意味着每次查询或推断的成本大幅降低。鉴于许多AI模型是在网络规模上部署的(想象每天有数百万次查询),这些效率提升对于控制电力和冷却成本至关重要。NVIDIA甚至为其GPU提供了一个能效计算器[25],强调了这个指标对客户的重要性。

从另一个角度来看,AMD和其他竞争者也在宣扬AI的每瓦性能,但截至2025年末,NVIDIA似乎通过Blackwell Ultra取得了领先。例如,旗舰款AMD MI300X(用于AI推断的竞争GPU)仍然使用5nm级技术,专注于8位和16位操作;而NVIDIA通过专用硬件积极推进4位推断,使其在效率上获得了新的优势。这也是为什么云服务提供商渴望投资于Blackwell Ultra,尽管前期成本高昂——随着时间的推移,能够以更少的功耗完成更多工作,总拥有成本得以改善。

内存带宽和容量优势

大型 AI 模型对内存和带宽的需求非常高,而 Blackwell Ultra 通过其 HBM3e 内存架构直接应对这一问题。如所述,每个 GPU 配备有 288 GB 的 HBM3e 内存[14]。即使与最近的 GPU,如 H100 80GB 或引入 HBM3e 的过渡型 H200 141GB 相比,这也是大量的高速内存[18][19]

每个 GPU 拥有 288 GB 内存的直接好处是能够在内存中服务或微调非常大的模型(如数千亿参数模型或高上下文 LLMs),而无需将模型分割到多个 GPU 上。也可以进行更大的批处理,从而提高利用率。NVIDIA 特别指出,Blackwell Ultra 的1.5 倍更大内存(相较于其前代产品)“提升了最大上下文长度的 AI 推理吞吐量。”[16]。对于诸如长文档问答或与 AI 助理长时间对话等 AI 应用,GPU 可以一次处理更多的 tokens,从而提高速度和结果质量。

带宽是问题的另一面。Blackwell Ultra 的内存子系统非常宽广,具备 12 个 HBM 堆叠并行运行。在峰值时,它可以处理约 ~8 TB/s 的数据[14]。这是一个天文数字——相比之下,高端 PC GPU 使用 GDDR6 的带宽可能只有 0.5 TB/s,即使是上一代的数据中心 GPU 也在 2–3 TB/s 的范围[17]。这在实际中意味着什么?这意味着即使在内存密集型工作负载中,GPU 核心也能持续获得数据。神经网络通常涉及巨大的矩阵乘法(由 Tensor Cores 处理),并夹杂着依赖内存的操作(如注意力权重、嵌入查找等)。更大的带宽使这些内存依赖步骤加速,从而减少整体工作负载的停滞。Blackwell Ultra 的设计本质上是在其强大的计算能力与同样强大的内存吞吐量之间取得了平衡,避免了计算单元因等待数据而闲置的情况。

具体来说,考虑一个生成长序列的transformer模型:注意力机制需要从内存中读取大型键/值矩阵。在 Hopper H100 上,这可能是长序列的限制因素,但在配备 HBM3e 的 Blackwell Ultra 上,GPU 可以以双倍或更高的速度导入这些矩阵。结合2倍速度的注意力计算单元,能够在具有长上下文的 GPT 风格文本生成等任务上实现更高的持续性能。NVIDIA 的“AI 工厂”概念也意味着内存在集群规模上进行聚合——在一个 72-GPU 的机架中,超过20 TB 的 GPU 内存被汇集,总内存带宽在 NVLink 连接域中可达数百 TB/s[22][20]。这实质上让一个 AI 集群表现得像一个拥有数十 TB 快速内存的巨大 GPU,是同时服务多个大型模型实例的理想场景。

集群经济学:规模下的成本与功耗

在性能和效率得到保障的情况下,我们必须解决部署 Blackwell Ultra 的实用方面:所需的成本和基础设施。这些 GPU 通常作为更大系统的一部分出售,例如 NVIDIA 的GB300 NVL72机架或 HGX B300 服务器刀片。单个 GB300 NVL72 单元在一个机架中集成了72 个 Blackwell Ultra GPU 和 36 个 Grace CPU,配备高速交换机和冷却系统[26][20]。这实际上是一个盒装的 AI 超级计算机,价格不菲。根据行业报告,NVIDIA 将完整的 GB300 NVL72 机架定价在约300 万美元[27],这相当于每个 GPU 平均4 万美元,这与 NVIDIA 暗示的单个 Blackwell 单元的大致价格范围 3 万至 4 万美元相符[28]。(值得注意的是,黄仁勋曾建议他们不会向终端客户单独出售芯片或卡片——他们更愿意出售整个集成系统[28]。这种捆绑策略提高了前期成本,但确保买家获得完整、优化的解决方案。)

对于任何计划建设 AI 集群的人来说,资本支出(CapEx) 是巨大的。仅仅一个机架的成本就高达 300 万美元,而且许多部署涉及多个机架。据报道,CoreWeave、OpenAI、Meta、Microsoft 等所有大玩家都在尽可能多地购买。那些购买力较弱的(初创公司、学术实验室)则面临二手市场的高价,因为 H100 由于稀缺性,曾以高于厂商建议零售价数万美元的价格转售,我们在 Blackwell 上也看到了类似的趋势。2024 年底,H100 80GB 卡在供应不足时每张售出 3 万至 4 万美元 [29]。Blackwell Ultra 也在效仿,实际上是在 加倍押注“AI 淘金热”定价。简而言之,只有资金雄厚或拥有云积分的组织才能在这一硬件层面上进行竞争。

电力和冷却成本: 除了购买价格外,运行这些集群的运营成本 (OpEx) 也很可观。每个 Blackwell Ultra GPU 在完全利用时的峰值功耗可达**~1400 W**[15]——是典型 H100 SXM 700W TDP 的两倍或更多。在一个 72-GPU 的机架中,这意味着仅 GPU 就可能消耗约 100 kW 的电力(不包括 CPU、网络等的额外开销)。实际上,一个装满的 NVL72 机柜配有 18 个 GPU 托盘,耗电量在 >100 kW 左右,并需要先进的冷却技术。NVIDIA 在这些系统中选择了液体冷却,但即便如此也有成本:摩根士丹利最近的一项分析估计液冷系统的材料清单成本为每个机架约 $50,000[30]。这包括定制冷板、泵、热交换器等。随着下一代系统功耗的增加(传闻称后续的 “Vera Rubin” 代可能将每个 GPU 推至 1.8kW),每个机架的冷却成本预计将上升至约 $56k[31][32]

换句话说,除了 300 万美元的硅片成本外,你可能还需要在管道和热管理上花费数万美元。此外还有电费:100 千瓦全天候运行每天大约消耗 2.4 兆瓦时。在商业数据中心的收费标准下,每个机架的电力成本每天可能在 200 至 400 美元之间(一年超过 10 万美元),这还不包括冷却和基础设施的开销。显然,运营一个 AI 超级集群并不是心态或预算薄弱者的选择

然而,这就是集群经济自我证明的地方:吞吐量和总拥有成本(TCO)。如果一个 Blackwell Ultra 机架的输出达到上一代机架的 50 倍(正如 NVIDIA 对某些工作负载所建议的那样)[2],那么数据中心可能需要更少的机架总数(从而减少总的电力/冷却需求)以实现目标工作负载。效率的提高意味着每次查询的能耗成本实际上可能更低,尽管绝对功耗更高,因为每个 GPU 可以同时处理更多的查询。对于租用 GPU 时间的云服务提供商,这可能意味着他们可以以相同的成本为客户提供更多性能,或者获得更好的利润。Medium 的一项分析指出,如果 Blackwell GPU 在性能上显著优于 H100s 且租赁价格相当,那么云端每 AI 计算成本(每 TFLOP 小时)将会下降,至少在供应跟上后会如此[33]。这可能会在价格正常化的情况下使大型模型的访问更加民主化。当然,从短期来看,供应限制意味着租赁价格仍然很高——因为每个人都想要这款新硬件,许多云 GPU 实例价格昂贵或在等待名单上。

总结来说,Blackwell Ultra 在集群规模上的经济学涉及到巨大的前期投资,但承诺显著的长期效率和能力提升。能够早期获得这些系统的公司在AI模型开发和部署中获得竞争优势——这正是为什么购买GPU的争夺被比作“军备竞赛”。这也是为什么NVIDIA的数据中心收入在该季度同比增长66%[34]:几乎每家大型科技公司和AI初创公司都在将资金投入GPU基础设施,即使这意味着要忍受高价和交货延迟。

供应紧缩:稀缺性和“H300”传闻

所有这些都导致了支撑病毒式传播的供应紧缩。简单来说,目前NVIDIA的AI加速器需求远远超过供应。NVIDIA的首席财务官Colette Kress最近在财报电话会议上指出,“云服务已经售罄”——主要云服务提供商已经完全预订了他们的GPU容量,甚至像H100和Ampere A100这样的上一代GPU在已安装的系统中也已“完全利用”[35]。NVIDIA承认其供应受到限制,并且正在尽可能快地增加产量(预计到2024年下半年会有显著增长)[36]。Jensen Huang在台湾访问TSMC时表示,他要求他们的代工厂尽可能多地提供晶圆,以满足Blackwell芯片的**“强劲需求”**[37][38]。TSMC的CEO甚至称Jensen为“五万亿美元先生”,因为在AI热潮的乐观情绪下,NVIDIA的市值达到5万亿美元[39]。简而言之,NVIDIA正在出售每一个他们能够生产的芯片,并推动合作伙伴加速生产——但在短期内这仍然不够。

多个因素导致了这个瓶颈

  • 复杂供应链: 这些不仅仅是 GPU;NVIDIA 现在销售的是整套系统(包括 GPU、CPU、网络设备、冷却设备等)。来自台湾的报告指出,一些组件——特别是新 GB200(Blackwell)服务器中的液冷系统组件——存在短缺[40]。据报道,台湾供应商如富士康和纬创在泵或冷板材料方面遇到了障碍[41]。NVIDIA 全面采用液冷设计的决定增加了供应链依赖性[42]。该报告中引用的美银调查表明,如果 Blackwell 系统延迟,NVIDIA 可能会将部分订单转向稍旧的 Hopper 系统(如风冷 H200 HGX)[43]。到目前为止,NVIDIA 成功在 2025 年按时推出了 Blackwell Ultra,但初始单位可能分配给了几个关键客户(如 Meta、微软)[44]。较小的买家仍在排队等待。
  • 在台积电的产能: Blackwell GPU 使用台积电的 3nm 级工艺制造(4N 是早期版本的定制 5nm 衍生品;最新的可能是“Ultra”使用的 3nm)。台积电的尖端产能有限,且主要被 NVIDIA 和其他巨头如苹果预定。据报道,NVIDIA 将其晶圆订单增加了 50%,以确保 2024-2025 年的供应[45]。即便如此,芯片的交货时间仍可能长达数月。确实,一些分析师声称NVIDIA 已经预定了台积电到 2026 年的大部分产能,这使得竞争对手 AMD 在 AI 加速器市场难以立足[46][47]。这种主导地位确保了 NVIDIA 能在长期内增加供应,但短期内也意味着没有快速的缓解——工厂正在全速运转,但每家 AI 公司都想要“昨天”就得到 GPU。
  • 出口限制: 一个外部因素是美国对向中国销售顶级 AI 芯片的出口限制。由于政府管控,NVIDIA 不能向中国出售 H100 或 Blackwell 顶级芯片[48]。可能有人会认为这为世界其他地区留下了更多供应,但 NVIDIA 为中国市场创造了略微削弱的变体(如 H100 “CN” 型号),这仍然消耗了一些生产能力。此外,中国对 AI 计算的需求巨大,如果他们不能获得最新的 NVIDIA 芯片,他们可能会购买旧款,间接保持对全球供应的压力。无论如何,仅西方的需求就足以消耗所有当前产出,而中国的限制增加了 NVIDIA 分配库存的复杂性。

讨论中提到的「H300」可能指的是即将到来的主要GPU升级。传闻在Blackwell之后,NVIDIA的路线图被命名为Vera Rubin(以天文学家的名字命名)——一些爱好者为了保持与Hopper命名风格一致,非正式地将这个假想的未来系列称为「H300」。虽然Blackwell Ultra现已推出,但公司已经在猜测接下来会是什么。例如,可以想象在2027年左右,NVIDIA可能会发布另一项飞跃,比如基于3nm或2nm工艺的“H300” GPU,可能比Blackwell Ultra高效10–15%(正如一位Reddit评论者所推测的)[49][50]。这会立即缓解紧张局势吗?不太可能。到那时,大多数大公司仍在消化他们的Blackwell部署;他们不会为了微小的收益而一夜之间放弃价值数十亿美元的硬件[49][50]。因此,即使「H300」或Rubin GPU出现,需求仍将在可预见的未来继续超出供应,因为AI在各个行业的采用仍在加速。正如一位分析师所说,NVIDIA已经进入了一个“AI良性循环”——更多的使用推动了对计算的更多需求,从而实现了更多的应用,依此类推[8]

实际上,黄仁勋的指导意见是,供应紧张的情况将持续到明年。由于AI热潮,像SK海力士这样的内存制造商已经售罄了明年的HBM产能[51][52]。NVIDIA对第四季度的预测是650亿美元的收入——又一次跃升——这意味着他们可以发货所有能制造的Blackwell[53]。因此,“供应紧张”不会立即结束;如果有变化的话,价格将保持高位,GPU将持续供应限制直至2025年。我们可能不会看到缓解,直到二级云提供商或较小公司认为成本过高而暂停订单——但目前,每个人都在抢占AI计算资源。NVIDIA出售整套系统的策略也意味着如果你想要这些GPU,通常必须购买整个昂贵的服务器甚至整个机架,这进一步集中了谁能获得它们。

提高效率的理由:更轻量化的 AI 框架(Macaron 的视角)

由于尖端 AI 硬件的成本高昂且供应有限,我们有必要考虑软件和架构方面的适应性。一种引人注目的观点是支持轻量化代理框架——即设计依赖于多个专用小型模型或“代理”协同工作的 AI 系统,而不是依赖需要超级 GPU 的庞大单一模型。这正是像 Macaron 这样的方法介入的地方,提倡更高效、更节省内存的 AI 代理。

为什么现在适合这样做呢?因为如果计算是新的石油,那么最大化利用给定计算量的能力就显得至关重要。Blackwell Ultra 提供了巨大提升,但并不是每个人都能获得这些 GPU。即便那些可以获得的人也会希望尽可能高效地使用它们。轻量化 AI 代理就是聪明地使用计算资源:- 它们可以设计成以模块化方式处理任务,仅为子任务启动必要的模型,而不是为每次查询运行一个庞大的端到端模型。- 它们通常利用检索技术(仅在需要时引入相关上下文)或缓存结果,减少冗余计算。- 较小的模型通常可以在更便宜或更易获得的硬件上运行(甚至是旧的 GPU 或 CPU),当顶级 GPU 稀缺或价格极高时,这就是一个巨大优势。

例如,与其使用一个单一的175B参数模型来完成所有任务,不如使用一个由10个小模型(每个大约5B到20B)组成的集合,每个模型都针对特定领域进行微调(一个用于编程,一个用于数学,一个用于对话等),由一个代理框架协调。这种方式可以在处理特定查询时集体使用更少的内存和计算资源,因为代理能够智能地将查询引导至正确的专业领域进行处理。这样的做法在运行时可能更具成本效益——特别是在硬件资源有限的情况下。这类似于云计算中的微服务:针对任务使用合适的小服务,而不是让一个庞大的应用程序低效地处理所有任务。

Macaron AI这样的项目一直在探索更深层次的记忆和代理架构,其中AI系统通过调用不同的技能或知识库来组成解决方案(有点像人类在遇到某个特定问题时会咨询专家)。在一个并非所有人都拥有Blackwell Ultra集群的世界中,这样的设计可以让更多的人在中等硬件上完成高级AI任务。这是对当前硬件瓶颈的务实回应。

此外,即使在高端市场,效率对业务也有好处。大规模采购 Blackwell Ultra 的超大规模用户也在投资于软件优化——从更好的编译器到分布式框架——以在每个 GPU 小时中榨取最大吞吐量(因为每个售价 4 万美元的 GPU,利用率的每一分都很重要)。一个轻量级的代理框架可以通过预处理查询来减少传递给大型模型的上下文长度(从而节省计算),或者可以将一些逻辑卸载到成本更低的机器上,这将直接节省成本。我们在一些新兴系统中看到这种趋势,其中大型模型通过较小的工具或数据库进行增强;只有在绝对需要时才调用大型模型。这种理念与 Macaron 的主张非常契合,即不要用 AI 锤子处理每一个问题,而是使用一套锤子和手术刀的工具包。

总之,这里的 Macaron 适配 在于认识到,虽然 NVIDIA 的最新技术可以实现令人难以置信的壮举,但行业也需要让 AI 更易于获取和可持续。仅仅为了更大的模型和更昂贵的硬件而推动发展,对于许多应用来说回报递减。我们有机会(也可以说是需要)在 AI 解决方案的架构上进行创新,使其 更轻量、更模块化、资源消耗更少。这并不意味着我们停止追求强大的 GPU 或大型模型,而是更明智地使用它们。目前的供应紧缺和成本激增迫使我们进行这样的讨论。我们可能会看到更多的混合方法:例如,一个 AI 服务可能使用 Blackwell Ultra GPU 进行模型推理的重负荷运算,但只有在轻量级前端系统对请求进行精简、检索相关数据并确定确实需要运行大模型后才会使用。这样,昂贵的 GPU 周期仅在必要时使用,提高了每美元的整体吞吐量。

结论

NVIDIA 的 Blackwell Ultra GPU 的问世标志着 AI 基础设施的一个分水岭时刻——在 AI 推理和推断方面提供了令人瞠目结舌的性能提升,但也突显了成功带来的新挑战:供应短缺、成本飙升以及对计算能力日益增长的需求。我们已经看到 Blackwell Ultra 显著提升了性能(尤其是在低精度时)和效率(每瓦特性能),实现了如 50 倍的 AI 产出提升和即时生成媒体等一年前难以企及的飞跃 [54][5]。其强大的 HBM3e 内存和先进架构消除了瓶颈,但与此同时,这些系统的庞大规模和功耗引入了后勤和经济障碍——从 300 万美元的价格标签到需要专业冷却的 100kW 机架。

“AI GPU 供应紧张”是一个真实且迫在眉睫的问题:几乎所有 NVIDIA 的产量都已被预定,“售罄”已成为常态[8]。这种稀缺性使得 GPU 价格超过 3 万美元,投资者和从业者都高度关注如何最好地利用现有硬件。这强调了一个重要观点:对于整个行业来说,单靠蛮力扩张是不可持续的。这就是为什么提高效率至关重要——无论是通过更好的硬件如 Blackwell Ultra,还是通过更智能的软件如轻量级代理框架——这将是未来的趋势。

在短期内,NVIDIA 的 Blackwell Ultra 将继续成为头条新闻和部署计划的焦点,我们可以预期这种对 GPU 的疯狂抢购将持续,直到供应赶上(这可能要等到下一代架构推出和工厂扩建)。对于构建 AI 能力的组织来说,有两个关键点:如果你能获得尖端硬件,它将为你带来优势,但你也需要智能地设计你的 AI 架构,以充分利用每一个 FLOP。这可能意味着混合使用更小的模型,为新精度优化代码,或投资于数据管理——任何能避免浪费计算的措施,因为在这种情况下,浪费的计算就是浪费金钱。

展望未来,AI 硬件的发展轨迹表明性能将更加强大(如假设的「H300」和即将到来的 Rubin 世代),并且可能会持续高需求。因此,行业面临的挑战是如何在这种惊人的能力与可访问性之间取得平衡。软件层面的效率、可扩展性和创新将是确保由 Blackwell Ultra 等 GPU 驱动的 AI 革命能够让更多参与者加入的关键——而不仅仅是那些拥有最深口袋或最大数据中心的玩家。简而言之,NVIDIA 的最新杰作开启了新的前沿,但它也提醒我们,在 AI 领域(如同在整个计算领域),聪明的资源使用与强大的硬件性能同样重要。

**来源:**NVIDIA 产品和技术文档[54][1][16]、行业新闻报道[8][43],以及专家分析[28][27]详细介绍了 Blackwell Ultra 的性能、供应链及其对 AI 经济学的影响。


[1] [3] [4] [9] [10] [11] [12] [13] [14] 走进NVIDIA Blackwell Ultra:驱动AI工厂时代的芯片 | NVIDIA技术博客

https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/

[2] [5] [16] [20] [21] [22] [25] [26] [54] 专为AI推理性能与效率设计 | NVIDIA GB300 NVL72

https://www.nvidia.com/en-us/data-center/gb300-nvl72/

[6] [7] [34] [35] Nvidia:Blackwell Ultra 引领推动 62% 增长至创纪录收入

https://www.crn.com/news/components-peripherals/2025/nvidia-blackwell-ultra-takes-lead-in-helping-drive-62-percent-growth-to-record-revenue

[8] [53] Nvidia 的收入飙升至每季度创纪录的 570 亿美元——所有 GPU 售罄 | Tom's Hardware

https://www.tomshardware.com/pc-components/gpus/nvidias-revenue-skyrockets-to-record-usd57-billion-per-quarter-all-gpus-are-sold-out

[15]  Super Micro Computer, Inc. - Supermicro 开始批量出货 NVIDIA Blackwell 超级系统和机架即插即用数据中心规模解决方案

https://ir.supermicro.com/news/news-details/2025/Supermicro-Begins-Volume-Shipments-of-NVIDIA-Blackwell-Ultra-Systems-and-Rack-Plug-and-Play-Data-Center-Scale-Solutions/default.aspx

[17] NVIDIA Hopper 架构深入分析 | NVIDIA 技术博客

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

[18] [19] NVIDIA H200

http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB

[23] 介绍 NVFP4:高效且准确的低精度推理

https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

[24] NVIDIA Blackwell 对比 Blackwell Ultra B300:是购买还是等待?

https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/

[27] [46] [47] NVIDIA 预计在 2025 年出货 520 万台 Blackwell GPU,2026 年 180 万台,以及 2026 年 570 万台 Rubin GPU : r/AMD_Stock

https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/

[28] [29] [33] Blackwell GPU与云AI定价的新经济学 | 作者 elongated_musk | Medium

https://medium.com/@Elongated_musk/blackwell-gpus-and-the-new-economics-of-cloud-ai-pricing-5e35ae42a78f

[30] [31] [32] 单个Nvidia Blackwell Ultra NVL72机架的冷却系统成本高达50,000美元——预计在下一代NVL144机架中将增加到56,000美元 | Tom's Hardware

https://www.tomshardware.com/pc-components/cooling/cooling-system-for-a-single-nvidia-blackwell-ultra-nvl72-rack-costs-a-staggering-usd50-000-set-to-increase-to-usd56-000-with-next-generation-nvl144-racks

[36] [40] [41] [42] [43] [44] NVIDIA Blackwell AI 服务器面临「组件短缺」,预计在 2024 年第四季度供应有限

https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/

[37] [38] [39] [48] [51] [52] 英伟达 CEO 黄仁勋预见 Blackwell 芯片需求强劲 | 路透社

https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/

[45] 英伟达将 TSMC 晶圆订单增加 50% 用于 Blackwell 芯片 - LinkedIn

https://www.linkedin.com/posts/jeffcooper_nvidia-orders-50-more-wafers-from-tsmc-amid-activity-7393655145571516416-D79S

[49] [50] Sam Altman: 「我们的 GPU 用完了。ChatGPT 每天的用户数都在创下新高。我们现在不得不做出这些可怕的权衡。我们有更好的模型,但我们就是没有能力提供它们。我们还有其他新产品和服务想提供。」: r/accelerate

https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/

Boxu 在埃默里大学获得了定量经济学专业的学士学位。在加入 Macaron 之前,Boxu 的职业生涯大部分时间都在美国的私募股权和风险投资领域度过。他现在是 Macaron AI 的首席参谋和市场营销副总裁,负责管理财务、物流和运营,并监督市场营销。

申请成为 Macaron 的首批朋友