
作者:Boxu Li
NVIDIA 最新的 Blackwell Ultra GPU 平台在 AI 領域引起了巨大轟動,以至於正在引發嚴重的供應緊縮。華爾街分析師和社交媒體上的 AI 研究人員都在熱議其破紀錄的性能、飛漲的價格以及前所未有的需求。在這篇深入解析中,我們將探討 Blackwell Ultra 為何成為熱門新聞,檢視其在性能功耗比和記憶體頻寬上的突破,討論在大規模部署這些 GPU 時的集群經濟學,並考慮為何這股熱潮引發了對輕量級 AI 框架的重新思考。在整篇文章中,我們將以可靠的來源支持事實,並專注於技術細節,以滿足精明讀者的需求。
**無與倫比的性能:**NVIDIA 的 Blackwell Ultra GPU 在 AI 推理能力上實現了大幅躍升。早期基準顯示,其低精度吞吐量比上一代 Hopper H100 GPU 高出 7.5 倍[1]。事實上,Blackwell Ultra 可以以 15 PFLOPS 的速度進行密集 4 位精度數學運算(NVFP4 格式),而 H100(FP8)只能達到大約 2 PFLOPS——這是原始吞吐量的 7.5 倍增長[1]。這一飛躍使 AI 模型推理速度大幅提升。例如,NVIDIA 報告稱,基於 Blackwell Ultra 的系統相比 Hopper 平台,AI「工廠」輸出的總體提升達到 50 倍(回應吞吐量),這得益於每位用戶響應速度提高約 10 倍,每兆瓦功率的吞吐量提高 5 倍[2]。換句話說,Blackwell Ultra 不僅僅是增加了強大算力——它還提高了效率,在大規模部署中每瓦性能提升 5 倍[2]。
**新推論能力:**Blackwell Ultra 引入了一種新的 4 位元精度格式,稱為 NVFP4,使得推論速度極快而不大幅犧牲準確性。此格式運用巧妙的雙層縮放來保持準確性,達到接近 FP8 水準的品質,但所需的記憶體和計算成本卻大幅降低[3]。因此,Blackwell Ultra 的 Tensor 核心能以先前不可能的水準進行低精度計算——FP4 吞吐量是標準 Blackwell GPU 的 1.5 倍,且比早期架構快許多倍[1]。NVIDIA 還將關鍵 transformer 注意力 操作的特殊功能單元吞吐量加倍,因此注意力層運行速度比基本 Blackwell 晶片快 2 倍[4]。這些進展針對大型語言模型和生成式 AI 推論的核心瓶頸,使得即時生成視頻等應用成為可能。事實上,一個展示中顯示 Blackwell Ultra 生成一個 5 秒的 AI 視頻比 Hopper GPU 快 30 倍,將一個 90 秒的工作轉變為即時輸出[5]。
華爾街和推特熱潮: 這樣的性能提升未被忽視。由於對 Blackwell 推動的創紀錄收入的預期,NVIDIA 的股票大幅上漲。在 2025 年第三季度,數據中心收入達到 512 億美元(佔 NVIDIA 總銷售額的 90%),主要歸功於 Blackwell Ultra 的快速增長——該公司表示,這是其「在所有客戶類別中的領先架構」[6][7]。執行長黃仁勳指出,「Blackwell 的銷售超出預期,雲端 GPU 已售罄」,需求遠超過供應[8]。AI 實驗室和雲端供應商爭相獲得這些晶片,社交媒體上充滿了極端積壓訂單和次級市場加價的軼事。這種因稀缺性引發的狂熱正在推高價格,使 Blackwell Ultra 成為科技和金融界的熱門話題。
圖:低精度 AI 吞吐量隨著 Blackwell Ultra 飆升。每個 Blackwell Ultra GPU 提供 15 PFLOPS 的密集 4 位 AI 計算能力,比已經強大的 Blackwell 晶片提升了 1.5 倍,約為 NVIDIA 先前 Hopper 代 (H100/H200) FP8 吞吐量的* 7.5 倍[1]。這種計算能力的巨大世代飛躍是當前 AI 基礎設施繁榮的關鍵推動力。
Blackwell Ultra 的核心是一個專為大規模 AI 推理而設計的尖端設計。每個 GPU 實際上由一個封裝中的雙 GPU 晶片組成,通過 10 TB/s 的高帶寬互連鏈接[9]。這種多晶片方法(類似於晶片組架構)使 NVIDIA 能夠在一個「GPU」中打包大量的處理能力。完整的 Blackwell Ultra 晶片擁有160 個流多處理器 (SMs),分佈於 8 個 GPC 集群中,每個 GPU 擁有總共640 個第五代 Tensor 核心[10][11]。這些 Tensor 核心是 AI 的工作馬,在 Blackwell Ultra 中,它們針對 FP8、FP6 和新的 NVFP4 精度進行了優化。每個 SM 還包括256 KB 的「張量記憶體」(TMEM),這是一個小型高速暫存器,可以讓 GPU 更有效地重用矩陣計算的數據[12][13]。這種 SM 級別的記憶體,再加上新的雙塊處理模式,有助於減少晶片外記憶體流量,保持 Tensor 核心的供應,提高有效吞吐量和功率效率[13]。
HBM3e 記憶體 – 大容量且快速:為這些計算單元提供數據的是一個龐大的記憶體池。Blackwell Ultra GPU 每個配備 288 GB 的 HBM3e 高帶寬記憶體[14]。這比標準的 Blackwell 資料中心 GPU(擁有約 192 GB)多 1.5 倍[15],且是 Hopper H100(80 GB)記憶體的 3.5 倍以上。這很重要,因為當今的大型語言模型和其他 AI 工作負載經常需要巨大的上下文長度和模型大小。更大的記憶體允許在一次處理中進行更大的批次大小和更長的序列,提高了複雜模型的吞吐量[16]。記憶體帶寬同樣令人印象深刻 —— 每個 GPU 約為 8 TB/s(歸功於 12 堆 HBM3e)[14]。相比之下,H100 SXM 模組提供約 3 TB/s[17],即使是採用 HBM3e 的臨時 H200 升級版也僅限於約 4.8 TB/s[18][19]。隨著 Blackwell Ultra 的到來,記憶體子系統不再是許多工作負載的瓶頸:模型可以更大,或更有效地存取,而不必頻繁地擾動外部記憶體。
**Grace Hopper 至 Grace Blackwell:**NVIDIA 的設計也將 CPU 和網路與 GPU 緊密整合,以提升集群級效能。每個 Blackwell Ultra「節點」將 GPU 與 NVIDIA 的 Grace CPU 通過超高速 NVLink-C2C 鏈接(900 GB/s CPU–GPU 帶寬)配對[14]。Grace CPU 自帶 2,592 個 Arm 核心和高內存帶寬(LPDDR5X),以支持 GPU[20][21]。這種組合有時被稱為 Grace Blackwell,確保 GPU 計算不會因 CPU 或 I/O 限制而受限。事實上,一個 NVIDIA GB300 系統(詳情如下)在每個機架中有 36 個 Grace CPU 與 72 個 GPU 一起工作,都通過 第5代 NVLink 以驚人的 130 TB/s 全互連帶寬連接[22][20]。這種架構,加上 NVIDIA 的 Quantum X InfiniBand 或 Spectrum-X Ethernet 在節點之間,使得即使是多機架的「AI 工廠」也能以快速的 GPU 間通信運作。最終目標是像雲服務一樣擴展 AI 推論 —— NVIDIA 稱之為 AI Factory 概念,其中許多模型和請求在加速器的網狀集群中並行運行。
Blackwell Ultra 最顯著的特點之一是它如何提高 AI 工作負載的能源效率。是的,每個 GPU 消耗大量電力(我們稍後會討論高 TDP),但與前幾代相比,每瓦效能顯著提升。NVIDIA 自身的指標顯示,在大規模運行下,Blackwell Ultra 系統每兆瓦的吞吐量是基於 Hopper 系統的 5 倍[2]。這是由於多個因素共同作用:
值得注意的是,每瓦性能的改進不僅僅是學術討論;它們直接影響數據中心的運營成本。如果你能在相同的能量輸入下獲得5倍的吞吐量,這就大大降低了每次查詢或推理的成本。由於許多AI模型是在網絡規模上部署的(想想每日數百萬次查詢),這些效率增益對於控制電力和冷卻成本至關重要。NVIDIA甚至為他們的GPU提供了能源效率計算器[25],強調這一指標對客戶的重要性。
從另一個角度看,AMD和其他競爭對手也在推崇AI的每瓦性能,但截至2025年底,NVIDIA似乎在Blackwell Ultra上取得了領先。例如,AMD的旗艦GPU MI300X(AI推理的競爭對手)仍然使用5nm級技術,專注於8位和16位操作;而NVIDIA的積極推動4位推理和專用硬件使其在效率上具有新的優勢。這也是為何雲服務供應商儘管面臨高昂前期成本,仍然渴望投資於Blackwell Ultra的部分原因——當你能以更少的能量長期完成更多任務時,總擁有成本得到了改善。
大型 AI 模型一向以記憶體和頻寬需求量大而聞名,而 Blackwell Ultra 憑藉其 HBM3e 記憶體架構正面應對這一挑戰。如前所述,每個 GPU 配備 288 GB 的 HBM3e 記憶體[14]。這是大量的快取記憶體,即使與最近的 GPU 如 H100 80GB 或引入 HBM3e 的中期 H200 141GB 相比[18][19]。
每個 GPU 擁有 288 GB 的直接好處是能夠在記憶體中處理或微調非常大的模型(如數百億參數模型或高上下文 LLMs),而不需將模型分割到多個 GPU 上。更大的批次處理也成為可能,提高了利用率。NVIDIA 特別指出,Blackwell Ultra 的1.5 倍更大記憶體(相較於其前代產品)「提升了最大的上下文長度的 AI 推理吞吐量。」[16] 對於長篇文件問答或與 AI 助理的長時間對話等 AI 應用,GPU 可以同時處理更多的 token,提升了速度和結果質量。
頻寬是問題的另一面。Blackwell Ultra 的記憶體子系統非常寬,因為它有 12 個 HBM 堆疊並行運行。在峰值時,它可以推送約 ~8 TB/s 的數據[14]。這是一個天文數字——相比之下,一個高端 PC GPU 使用 GDDR6 可能只有 0.5 TB/s,甚至上一代的數據中心 GPU 也只有 2–3 TB/s 範圍[17]。這在實際中意味著什麼?這意味著即使在記憶體密集的工作負載中,GPU 核心也能持續獲取數據。神經網絡通常涉及大量矩陣乘法(由 Tensor Cores 處理),夾雜著記憶體綁定操作(如注意力權重、嵌入查找等)。隨著更多的頻寬,這些記憶體綁定步驟加速,因此整體工作負載的停滯減少。Blackwell Ultra 的設計本質上是將其驚人的計算能力與同樣強大的記憶體吞吐量相平衡,避免了計算單元因等待數據而閒置的情況。
具體來說,考慮一個生成長序列的transformer 模型:注意力機制需要從記憶體中讀取大型的鍵/值矩陣。在 Hopper H100 上,這可能對於非常長的序列來說是一個限制因素,但在搭載 HBM3e 的 Blackwell Ultra 上,GPU 可以以兩倍或更高的速度輸入這些矩陣。結合2 倍速度的注意力計算單元,它在執行像 GPT 風格文本生成這樣具有長上下文的任務時,達到更高的持續性能。NVIDIA 的「AI 工廠」概念也意味著記憶體在集群規模上被聚合——在一個 72-GPU 的機架中,超過20 TB 的 GPU 記憶體被匯集,總記憶體帶寬在 NVLink 連接的領域中可達到數百 TB/s的範圍[22][20]。這基本上讓一個 AI 集群像一個擁有數十 TB 快速記憶體的巨大 GPU 一樣運作,是同時服務多個大型模型實例的理想場景。
在性能和效率有保障的情況下,我們必須解決部署 Blackwell Ultra 的實用面:所需的成本和基礎設施。這些 GPU 通常作為較大型系統的一部分銷售,例如 NVIDIA 的 GB300 NVL72 機架或 HGX B300 伺服器刀片。單個 GB300 NVL72 單元在一個機架中整合了 72 個 Blackwell Ultra GPU 和 36 個 Grace CPU,配備高速交換機和冷卻系統[26][20]。這實際上是一台盒裝的 AI 超級計算機,而且價格不菲。根據行業報告,NVIDIA 將整個 GB300 NVL72 機架的價格定在約 300 萬美元[27]。這相當於每個 GPU 的平均價格約 4 萬美元,這與 NVIDIA 暗示的單個 Blackwell 單元的粗略價格表 3 萬到 4 萬美元相符[28]。(值得注意的是,Jensen Huang 曾表示他們不會只向終端客戶銷售獨立的晶片或卡片——他們更願意銷售整個集成系統[28]。這種捆綁策略提高了前期成本,但確保買家能獲得一個完整且優化的解決方案。)
對於任何計劃建立AI叢集的人來說,資本支出(CapEx)是巨大的。僅一個機架就要花費300萬美元,許多部署涉及多個機架。據報導,CoreWeave、OpenAI、Meta、Microsoft等大公司都在盡可能多地購買。購買能力較弱的公司(如初創企業、學術實驗室)則面臨二手市場的高價,在二手市場上,由於稀缺性,H100的價格曾高於建議零售價數萬美元,我們在Blackwell上也看到了類似的趨勢。2024年底,在供應跟不上需求的情況下,H100 80GB卡有時每張售價達到3萬到4萬美元[29]。Blackwell Ultra緊隨其後,有效地加倍了“AI淘金熱”定價。總之,目前只有資金充裕或擁有雲端積分的組織才能負擔得起這一級別的硬件。
電力和冷卻成本: 除了購買價格外,運行這些集群的運營成本 (OpEx) 亦相當可觀。每個 Blackwell Ultra GPU 在完全使用時的峰值功率可達到 ~1400 W [15]——是典型 H100 SXM 700W TDP 的兩倍或更多。在一個有 72 個 GPU 的機架中,這意味著僅 GPU 就可能消耗約 100 kW 的電力(不包括 CPU、網絡等的開銷)。事實上,一個完全裝載的 NVL72 機櫃配有 18 個 GPU 托盤,功率需求超過 >100 kW,並需要先進的冷卻。NVIDIA 在這些系統中選擇了液冷,但即便如此也有成本:摩根士丹利最近的一項分析將液冷系統材料清單的成本估價為每個機架約 ~$50,000 [30]。這包括定制冷板、泵、熱交換器等。而隨著下一代系統功率的增加(傳聞:後續“Vera Rubin”一代可能會使每個 GPU 推到 1.8kW),每個機架的冷卻成本預計將上升至 ~$56k [31][32]。
換句話說,除了 300 萬美元的矽晶片之外,您還可能需要花費數萬美元在管道和熱管理上。此外,電費:100 kW 的設備全天候運行約需 2.4 MWh 的電量。按照商業數據中心的收費標準,每機架每天的電力成本可能在 200 到 400 美元之間(每年超過 10 萬美元),這還不包括冷卻和基礎設施的開銷。顯然,運營 AI 超級集群不是膽小或預算有限者能承擔的。
然而,這就是集群經濟自我證明的地方:吞吐量和總擁有成本(TCO)。如果一個 Blackwell Ultra 機架的輸出是舊款機架的 50 倍(如 NVIDIA 對某些工作負載所建議的)[2],那麼數據中心可能需要的總機架數會更少(因此總功率和冷卻需求也會更少)來達到目標工作負載。這種提高的效率意味著在每個查詢上,儘管絕對功耗更高,但每個查詢的能耗成本實際上可能更低,因為每個 GPU 能同時處理更多的查詢。對於租賃 GPU 時間的雲供應商來說,這可能意味著他們可以以相同的成本為客戶提供更高的性能,或者獲得更好的利潤。Medium 的一篇分析文章指出,如果 Blackwell GPU 提供的性能遠高於 H100,而租賃價格相仿,那麼雲端的每 AI 計算成本(每 TFLOP-小時)將會下降,至少在供應趕上之後[33]。如果價格趨於正常,這可能會讓更多人能夠使用大模型。當然,短期內,由於供應限制,租賃價格仍然居高不下——許多雲端 GPU 實例價格昂貴或有等候名單,因為大家都想要這種新硬件。
總結來說,Blackwell Ultra 在集群規模上的經濟學涉及巨大的前期投資,但承諾顯著的長期效率和能力提升。能夠早期獲得這些系統的公司在 AI 模型開發和部署上獲得競爭優勢——這正是為何搶購 GPU 被比作「軍備競賽」的原因。這也是為什麼 NVIDIA 的數據中心收入在該季度同比增長 66%[34]:幾乎每個主要科技公司和 AI 初創公司都在投入資金到 GPU 基礎設施,即便這意味著忍受高價格和延遲交付。
這一切導致了支撐病毒式熱潮的供應緊縮。簡單來說,NVIDIA 的 AI 加速器目前需求遠超供應。NVIDIA 的 CFO Colette Kress 在最近的財報電話會議中表示,「雲已經售罄」——主要的雲供應商已經完全預訂了他們的 GPU 容量——甚至像 H100 和 Ampere A100 之類的前代 GPU 在現有基礎上也是「完全利用」的。NVIDIA 承認其供應受限,並且正在以最快速度加大生產(預計到 2024 年下半年會有顯著增長)。Jensen Huang 在台灣訪問 TSMC 時表示,他要求他們的晶圓代工廠提供儘可能多的晶圓,以滿足對 Blackwell 晶片的「非常強勁的需求」。TSMC 的 CEO 甚至給 Jensen 起了個綽號「五兆美元先生」,因為在 AI 的樂觀前景下,NVIDIA 的市值達到了 5 兆美元。簡而言之,NVIDIA 正在賣出他們能製造的每一片晶片,並推動合作夥伴加快生產——但在短期內仍然不夠。
有幾個因素造成了這個瓶頸:
討論中提到的「H300」可能指的是即將到來的下一次重大GPU升級。在Blackwell之後,NVIDIA的路線圖據傳代號為Vera Rubin(以天文學家命名)——一些愛好者非正式地將這個假設的未來系列稱為「H300」,以保持Hopper命名風格。雖然Blackwell Ultra現已上市,但公司已經在猜測接下來會發生什麼。例如,想像在2027年左右,NVIDIA可能推出另一個飛躍,比如在3nm或2nm製程上打造的「H300」GPU,可能比Blackwell Ultra效率提高10–15%(就像一位Reddit評論者所推測的)[49][50]。這會立即緩解壓力嗎?不太可能。到那時,大多數大公司仍在消化他們的Blackwell部署;他們不會為了微不足道的增益而一夜之間報廢數十億美元的硬件[49][50]。所以即使「H300」或Rubin GPU出現,需求在可預見的未來仍將超過供應,因為AI在各行業的採用仍在加速。正如一位分析師所說,NVIDIA已經進入了一個「AI的良性循環」——更多的使用推動了對計算的更多需求,從而啟用了更多的應用,等等[8]。
從實際來看,黃仁勳的指導意見是供應將持續緊張至明年。由於人工智能熱潮,像 SK 海力士這樣的記憶體製造商已經售罄了明年的 HBM 產量[51][52]。NVIDIA 對第四季的預測是收入達到 650 億美元——又一個增長——這假設他們能夠運送所有可以製造的 Blackwell[53]。所以,「供應緊縮」不會立即結束;如果有的話,價格將保持高位,GPU 的供應分配將持續到 2025 年。可能要等到第二梯隊雲供應商或較小公司認為成本過高而暫停訂單時,我們才會看到緩解——但現在,大家都在搶占人工智能運算的地盤。NVIDIA 銷售整個系統的策略也意味著如果你想要這些 GPU,通常需要購買整個昂貴的伺服器甚至整個機櫃,這進一步集中了誰能獲得它們。
由於尖端 AI 硬體的成本和供應限制令人望而卻步,有必要考慮軟體和架構方面的調適。一個引人注目的角度是為輕量級代理框架辯護——基本上,設計依賴於多個專門的小模型或「代理」共同工作的 AI 系統,而不是依賴於需要超級 GPU 的巨大單體模型。這正是像 Macaron 這樣的方法的用武之地,提倡更高效、更省記憶體的 AI 代理。
為什麼現在適合這樣做?因為如果算力是新石油,那麼最大化現有算力的利用就至關重要。Blackwell Ultra 提供了巨大的提升,但並非每個人都能獲得那些 GPU。即使可以獲得的人,也會希望儘可能高效地使用它們。輕量級 AI 代理則是在算力上玩聰明:- 它們可以設計成以模組化方式處理任務,僅啟動子任務所需的模型,而不是對每個查詢都運行一個龐大的模型。- 它們經常使用檢索(僅在需要時提取相關上下文)或緩存結果等技術,以減少冗餘計算。- 較小的模型通常可以在更便宜或更容易獲得的硬體(甚至是舊的 GPU 或 CPU)上運行,這在頂級 GPU 稀缺或超昂貴時是個巨大優勢。
例如,與其讓一個單一的 175B 參數模型處理所有事情,不如擁有一組 10 個較小的模型(比如說每個 5B 到 20B),每個模型都針對特定領域進行微調(例如一個用於編碼,一個用於數學,另一個用於對話等),由一個代理框架進行協調。這樣可以在給定查詢上集體使用更少的記憶體和計算資源,因為代理能夠智能地將查詢導向正確的專業領域。這種方法在運行上可能更具成本效益——尤其是在硬體資源有限的情況下。這就像雲計算中的微服務:使用合適的小服務來完成工作,而不是讓一個龐大的應用程序低效地處理所有任務。
像 Macaron AI 這樣的項目,一直在探索更深層次的記憶和代理架構,其中 AI 系統透過調用不同的技能或知識庫來組合解決方案(有點像人類會為特定問題諮詢專家)。在一個不是每個人都擁有 Blackwell Ultra 集群的世界裡,這樣的設計可以使更多的人在中等硬體上完成高級 AI 任務。這是對當前硬體瓶頸的務實回應。
此外,即使是在高端市場,效率對業務也有好處。大量購買 Blackwell Ultra 的超大規模客戶也在投資於軟體優化——從更好的編譯器到分佈式框架——以從每小時 GPU 使用中榨取最大的吞吐量(因為每台價格 4 萬美元的設備,每一點利用率都很重要)。一個輕量級的代理框架,例如可以通過預處理查詢來減少大模型的上下文長度(從而節省計算),或者可以將一些邏輯卸載到更便宜的機器上,將直接節省成本。我們在新興系統中看到這種趨勢,這些系統中,大模型由較小的工具或數據庫增強;大模型只有在絕對需要時才會被調用。這一理念與 Macaron 的主張完美契合,即不要用 AI 大錘去解決每一個問題,而是使用一套大錘和手術刀的工具組。
總結來說,「Macaron」的契合點在於認識到儘管NVIDIA最新、最強大的技術能夠帶來令人驚嘆的成就,產業同時也需要讓AI更具可及性和可持續性。單純追求更大規模的模型和更昂貴的硬體,對許多應用的回報正在減少。這提供了一個機會(甚至可以說是需求)去創新我們如何構建AI解決方案,使其更輕量、更模組化且資源消耗更少。這並不意味著我們要停止追求強大的GPU或大型模型,而是更明智地使用它們。目前的供應緊張和成本飆升正在推動這一對話。很可能我們將看到更多的混合方法:例如,AI服務可能使用Blackwell Ultra GPU進行模型推理的重任,但只有在輕量級前端系統已經溝通請求、檢索相關數據並確定確實需要運行大模型後才會這樣做。這樣,昂貴的GPU運算週期只有在必要時才使用,從而提高每美元的整體吞吐量。
NVIDIA 的 Blackwell Ultra GPU 的出現標誌著 AI 基礎設施的一個分水嶺時刻——在 AI 推理和推斷方面提供驚人的性能提升,同時也突顯了成功帶來的新挑戰:供應短缺、成本飆升,以及對計算能力日益增長的需求。我們已經看到 Blackwell Ultra 在性能(尤其是在低精度方面)和效率(每瓦性能)方面顯著提升,實現了 50 倍更高的 AI 輸出和一年前難以達到的實時生成媒體[54][5]。其強大的 HBM3e 記憶體和先進架構消除了瓶頸,但同時,這些系統的龐大規模和功耗引入了後勤和經濟障礙——從 300 萬美元的價格標籤到需要專門冷卻的 100kW 機架。
「AI GPU 供應緊缺」是一個真實且迫在眉睫的問題:基本上 NVIDIA 的所有產能都已經被預訂,而「售罄」已成為常態[8]。這種稀缺性,使得 GPU 價格超過 3 萬美元,讓投資者和從業者都高度關注如何最佳利用現有硬件。這強調了一個重要的觀點:對於更廣泛的行業來說,僅依靠蠻力擴展是不可持續的。這就是為什麼效率——無論是通過更好的硬件如 Blackwell Ultra 還是更智能的軟件如輕量代理框架——將成為未來的關鍵。
在短期內,NVIDIA 的 Blackwell Ultra 將繼續成為頭條新聞和部署計劃的主角,我們可以預期對這些 GPU 的「搶購熱潮」將持續,直到供應趕上(這可能要等到下一代架構問世及工廠擴建)。對於正在構建 AI 能力的組織來說,結論是雙重的:如果你能獲得尖端硬件,它會給你帶來優勢,但你也需要智能地架構你的 AI 堆棧,以最大化每個 FLOP 的效能。這可能意味著混合使用較小的模型、為新精度優化代碼,或者投資於數據管理——任何可以避免浪費計算的措施,因為在這種情境下,浪費的計算就是浪費的金錢。
展望未來,AI 硬體的發展軌跡顯示出更高的性能(假設性的「H300」和即將到來的 Rubin 代)以及可能持續的高需求。因此,業界面臨的挑戰是如何在提供這種強大功能的同時,保持其可及性。在軟體層面的效率、可擴展性和創新將是關鍵,以確保由類似 Blackwell Ultra 的 GPU 推動的 AI 革命能夠讓更多參與者加入,而不僅僅是那些擁有雄厚財力或大型數據中心的企業。簡言之,NVIDIA 的最新驚奇開闢了新領域,但它也提醒我們,在 AI(如同在計算領域),聰明的資源運用與原始運算能力同樣重要。
**來源:**NVIDIA 產品和技術文檔[54][1][16]、行業新聞報導[8][43],以及專家分析[28][27] 詳述 Blackwell Ultra 的性能、供應鏈以及對AI經濟的影響。
[1] [3] [4] [9] [10] [11] [12] [13] [14] 內部解析 NVIDIA Blackwell Ultra:推動 AI 工廠時代的晶片|NVIDIA 技術博客
[2] [5] [16] [20] [21] [22] [25] [26] [54] 專為AI推理性能和效率而設計 | NVIDIA GB300 NVL72
https://www.nvidia.com/en-us/data-center/gb300-nvl72/
[6] [7] [34] [35] Nvidia:Blackwell Ultra 引領推動 62% 增長達成創紀錄收入
[8] [53] Nvidia 的收入飆升至每季度創紀錄的 570 億美元——所有 GPU 均售罄 | Tom's Hardware
[15] Super Micro Computer, Inc. - Supermicro 開始大量出貨 NVIDIA Blackwell 超級系統及機架即插即用數據中心規模解決方案
[17] NVIDIA Hopper 架構深入解析 | NVIDIA 技術部落格
https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/
http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB
[23] 介紹 NVFP4 提供高效及精準的低精度推論
[24] NVIDIA Blackwell vs. Blackwell Ultra B300: 應該購買還是等待?
https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/
[27] [46] [47] 預計 NVIDIA 將於 2025 年出貨 520 萬個 Blackwell GPU、2026 年出貨 180 萬個,以及 2026 年出貨 570 萬個 Rubin GPU : r/AMD_Stock
https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/
[28] [29] [33] Blackwell GPU 與雲端 AI 定價新經濟 | 作者 elongated_musk | Medium
[30] [31] [32] 單個Nvidia Blackwell Ultra NVL72機架的冷卻系統成本高達50,000美元——隨著下一代NVL144機架將增至56,000美元 | Tom's Hardware
[36] [40] [41] [42] [43] [44] NVIDIA Blackwell AI 伺服器面臨「元件短缺」,預計 2024 年第四季供應有限
https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/
[37] [38] [39] [48] [51] [52] Nvidia CEO黃預見對Blackwell晶片的強烈需求 | 路透社
https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/
[45] Nvidia 將 TSMC 的晶圓訂單增加 50% 以生產 Blackwell 晶片 - LinkedIn
[49] [50] Sam Altman:「我們的 GPU 不夠用。ChatGPT 每天的用戶量達到新高。我們現在必須做出艱難的取捨。我們有更好的模型,但因為沒有足夠的容量,無法提供。我們還有其他種類的新產品和服務,希望能夠推出。」: r/accelerate
https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/