NVIDIA Blackwell Ultra と AI GPU 供給危機

著者: Boxu Li

NVIDIA の最新 GPU プラットフォーム Blackwell Ultra が AI の世界を席巻し、深刻な供給不足を引き起こしています。ウォール街のアナリストやソーシャルメディアの AI 研究者たちは、記録的なパフォーマンス、高騰する価格、これらのチップへの前例のない需要について騒いでいます。この詳細な分析では、Blackwell Ultra がなぜ「話題のニュース」なのかを探り、その パフォーマンス・パー・ワットメモリ帯域幅 のブレークスルーを検証し、これらの GPU を大規模に展開する際の クラスタ経済 を論じ、そしてこの熱狂がなぜ軽量 AI フレームワークの再考を促しているのかを考えます。全体を通して、信頼できる情報源で事実を裏付け、技術的な詳細に焦点を当て、知識のあるオーディエンスに向けて展開します。

Blackwell Ultra が注目される理由

比類なきパフォーマンス: NVIDIAのBlackwell Ultra GPUは、AI推論能力において大幅な飛躍を遂げています。初期のベンチマークでは、前世代のHopper H100 GPUと比較して7.5倍の低精度スループットを示しています[1]。実際、Blackwell Ultraは、H100(FP8)では約2 PFLOPSのところを、密な4ビット精度計算(NVFP4形式)で15 PFLOPSを実行できます—これは生のスループットで7.5倍の増加です[1]。この飛躍はAIモデルの推論を劇的に高速化します。例えば、NVIDIAによると、Blackwell Ultraベースのシステムは、Hopperベースのプラットフォームと比較してAI「ファクトリー」の出力(応答のスループット)が50倍の全体的な増加を達成しており、ユーザーごとの応答性が約10倍、メガワットあたりのスループットが5倍高くなっています[2]。言い換えれば、Blackwell Ultraは単に力を追加するだけでなく、非常に効率的にそれを行っており、大規模な導入において5倍のパフォーマンスをワットあたりで発揮します[2]

新しい推論機能: Blackwell Ultraは、新しい4ビット精度フォーマットNVFP4を導入し、精度をほとんど犠牲にせずに極端な推論速度を可能にします。このフォーマットは巧妙な2レベルのスケーリングを使用して精度を保持し、FP8レベルに近い品質を、はるかに少ないメモリと計算コストで達成します[3]。その結果、Blackwell Ultraのテンソルコアは、従来不可能だったレベルで低精度計算を処理でき、標準のBlackwell GPUの1.5倍のFP4スループットを達成し、以前のアーキテクチャよりもはるかに高速です[1]。NVIDIAはまた、重要なトランスフォーマーアテンション操作のために特殊関数ユニットのスループットを2倍にし、アテンション層が基本のBlackwellチップよりも最大2倍速く動作します[4]。これらの進歩は、大規模言語モデルや生成AI推論の主要なボトルネックをターゲットにしており、リアルタイム生成ビデオなどを可能にします。実際、あるデモではBlackwell Ultraが5秒のAIビデオをHopper GPUの30倍の速さで生成し、90秒のタスクをリアルタイムで出力することが示されました[5]

ウォール街とツイッターハイプ: このパフォーマンスの向上は見逃されていません。NVIDIAの株価は、Blackwellによる記録的な収益の期待から急騰しています。2025年第3四半期には、データセンターの収益が512億ドルに達し、NVIDIAの売上の90%を占めています。これは主にBlackwell Ultraの拡大によるもので、同社はこれを「すべての顧客カテゴリにおける主要なアーキテクチャ」としています[6][7]。CEOのJensen Huangは、「Blackwellの売上は驚異的で、クラウドGPUは完売している」と述べており、需要が供給を大幅に上回っています[8]。AIラボやクラウドプロバイダーはこれらのチップを手に入れるために急いでおり、ソーシャルメディアは極端なバックオーダーや二次市場での価格上昇の話題で溢れています。この希少性による熱狂が価格を押し上げ、Blackwell Ultraは技術と金融の両方のサークルでトレンドトピックとなっています。

Blackwell Ultra アーキテクチャ: スケールでのパフォーマンス

図: 低精度 AI のスループットは Blackwell Ultra により急上昇しています。各 Blackwell Ultra GPU は 15 PFLOPS の密な 4ビット AI 計算能力を提供し、すでに強力な Blackwell チップに対して 1.5倍 の向上を達成し、NVIDIA の以前の Hopper 世代 (H100/H200) の FP8 スループットの約 7.5倍 です[1]。この大きな世代的飛躍は、現在の AI インフラストラクチャブームの主要な推進力です。*

Blackwell Ultraの中心には、大規模なAI推論専用に設計された最先端のデザインがあります。各GPUは実際にはパッケージ上のデュアルGPUダイで構成されており、10 TB/sの高帯域幅インターコネクトで接続されています。このマルチダイアプローチ(チップレットアーキテクチャに似ています)により、NVIDIAは膨大な処理能力を1つの「GPU」に詰め込むことができます。完全なBlackwell Ultraチップには、8つのGPCクラスターに分割された160のストリーミングマルチプロセッサ(SM)があり、1つのGPUあたり合計640の第5世代Tensor Coresを備えています。それらのTensor CoreはAIの中核となるものであり、Blackwell UltraではFP8、FP6、そして新しいNVFP4精度に最適化されています。各SMには**256KBの「テンソルメモリ」(TMEM)**もオンチップで含まれており、高速なスクラッチパッドとして機能し、GPUが行列計算のデータをより効率的に再利用できます。このSMレベルのメモリと新しいデュアルブロック処理モードにより、オフチップメモリトラフィックを削減し、Tensor Coreにデータを供給し続け、実効スループットと電力効率を向上させます。

HBM3eメモリ – 大容量かつ高速: これらのコンピュートユニットにデータを供給するのは膨大なメモリプールです。Blackwell Ultra GPUは、それぞれ288GBのHBM3e高帯域幅メモリを搭載しています[14]。これは、標準的なBlackwellデータセンターGPU(~192GB搭載)よりも1.5倍多く、Hopper H100(80GB)の3.5倍以上のメモリです[15]。これは、今日の大規模な言語モデルやその他のAIワークロードが、巨大なコンテキスト長やモデルサイズを要求することが多いため重要です。この大容量のメモリにより、より大きなバッチサイズと長いシーケンスを一度に処理でき、複雑なモデルのスループットが向上します[16]。メモリ帯域幅も同様に優れており、GPUあたり8TB/sにも達します(12スタックのHBM3eのおかげです)[14]。比較として、H100 SXMモジュールは約3TB/sを提供し、HBM3eを搭載した中間のH200アップグレードでも~4.8TB/sに制限されました[17][18][19]。Blackwell Ultraでは、メモリサブシステムが多くのワークロードのボトルネックではなくなり、モデルがより大きくか、またはより効率的にアクセスされ、外部メモリを頻繁に置換することなく利用できます。

グレース・ホッパーからグレース・ブラックウェルへ: NVIDIAの設計は、より良いクラスター規模のパフォーマンスのために、CPUとネットワークをGPUと緊密に統合しています。各ブラックウェル・ウルトラ「ノード」は、超高速なNVLink-C2Cリンク(900 GB/sのCPU-GPU帯域幅)を介して、NVIDIAのグレースCPUとGPUをペアにしています[14]。グレースCPUは、2,592個のArmコアと独自の高いメモリ帯域幅(LPDDR5X)を持ち、GPUにデータを供給します[20][21]。この組み合わせは、時にはグレース・ブラックウェルと呼ばれ、GPUの計算がCPUやI/Oの制限によって妨げられないことを保証します。実際、NVIDIA GB300システム(詳細は下記参照)では、各ラック内で72個のGPUと共に動作する36個のグレースCPUがあり、すべてが第5世代NVLinkを介して130 TB/sの全ての帯域幅で接続されています[22][20]。この構造とNVIDIAのQuantum X InfiniBandやノード間のSpectrum-X Ethernetにより、複数ラックにわたる「AIファクトリー」でも高速なGPU間通信が可能です。最終的な目標は、クラウドサービスのようにAI推論をスケールアップすることで、NVIDIAがAIファクトリーコンセプトと呼ぶもので、多くのモデルとリクエストがアクセラレータのメッシュクラスター全体で並列で実行されます。

ワットあたりの性能: 効率の向上

Blackwell Ultraの最も注目すべき点の一つは、AIワークロードに対するエネルギー効率の向上です。確かに、各GPUは多くの電力を消費します(高いTDPについては後ほど触れます)が、ワットあたりの性能は以前の世代と比較して大幅に向上しています。NVIDIA自身の指標によれば、大規模な環境では、Blackwell UltraシステムはHopperベースのシステムと比較して5倍のスループットをメガワットあたり提供しています[2]。これは、いくつかの要因が連携して働いているためです。

  • 低精度 = 低エネルギー: Blackwell Ultraは精度をほとんど失わずに4ビット精度を使用することで、計算あたりの消費エネルギーを大幅に削減します。NVFP4フォーマットは効率を向上させるために明示的に設計されており、メモリ移動を削減し、小型の乗算器を使用しています。これにより、FP8からFP4への精度削減は、実際にはワットあたりのパフォーマンスを大幅に向上させます[23]。つまり、各GPUは低精度の操作を行うことで、同じ電力予算でより多くの操作を実行でき、推論サービングにおいて大きなメリットがあります。
  • アーキテクチャの最適化: テンソルメモリとSM内のデュアルブロックの協力により、各ワットの利用率が向上します。データはオンチップに保持され、高価なDRAMアクセスを避け、テンソルコアはスタールが少なく、常に稼働しています[13]。また、アテンションユニット(SFU)の重要なパスを倍増させることで、作業をより迅速に完了させてアイドル状態に移行し、フルパワーの計算を引き伸ばすことを防ぎます[4]。これにより、メモリ待機や長い操作シーケンスによるエネルギーの無駄が減少します。
  • プロセスノードとクロック管理: Blackwell世代のGPUは、TSMCの先進的な4N/4NPプロセスで製造されており、Ultraバリアントはその限界まで押し上げられる可能性があります。これにより、同じ電力枠内でより高いクロックやより多くのコアを実現できます。一部の分析によれば、ベースのBlackwell(B200と呼ばれることもあります)は、4Nシリコンとアーキテクチャの向上により、Hopperに比べてワットあたりの性能が大幅に向上しています[24]。その上、Blackwell Ultraはさらに50%の計算能力を追加していますが、電力増加を伴うものの、より良い比率を実現しています。

注目すべき点は、パフォーマンスパーワットの向上が単なる理論ではなく、データセンターの運用コストに直接影響を与えることです。同じエネルギー入力で5倍のスループットを得ることができれば、クエリや推論ごとのコストを大幅に削減できます。多くのAIモデルがウェブ規模で展開されていることを考えると(1日に数百万のクエリを想定)、これらの効率向上は電力と冷却コストを抑えるために不可欠です。NVIDIAはGPUのためのエネルギー効率計算機も提供しており[25]、この指標が顧客にとってどれほど重要になっているかを強調しています。

別の視点から見ると、AMDや他の競合他社もAI向けのパフォーマンスパーワットを謳っていますが、2025年後半にはNVIDIAがBlackwell Ultraで一歩先を行っているようです。例えば、AMDのフラッグシップであるMI300X(AI推論用の競合GPU)は依然として5nmクラスの技術を使用しており、8ビットおよび16ビットの操作に重点を置いていますが、NVIDIAの4ビット推論への積極的な進出は、新たな効率の優位性をもたらしています。このため、クラウドプロバイダーは高い初期コストにもかかわらず、Blackwell Ultraへの投資に積極的です。時間が経つにつれて、より少ない電力でより多くのことができるようになり、所有コスト全体が改善されます。

メモリ帯域幅と容量の優位性

大規模なAIモデルは、メモリと帯域幅を大量に消費することで知られていますが、Blackwell Ultraはその問題をHBM3eメモリアーキテクチャで解決します。前述のように、各GPUには288 GBのHBM3eメモリが搭載されています[14]。これは最近のGPU、例えばH100 80GBやHBM3eを導入した中間モデルH200 141GBと比べても大量の高速メモリです[18][19]

各GPUが288 GBを持つことの直接的な利点は、非常に大規模なモデル(数百億パラメータのモデルや高コンテキストLLMなど)をメモリ内で分割せずに提供または微調整できることです。より大きなバッチ処理も可能となり、利用率が向上します。NVIDIAは特に、Blackwell Ultraの1.5倍大きなメモリ(その前身と比較して)が「最大のコンテキスト長に対するAI推論スループットを向上させる」と述べています[16]。長文ドキュメントの質問応答やAIアシスタントとの長い対話のようなAIアプリケーションにおいて、GPUは一度により多くのトークンを処理でき、速度と結果の質が改善されます。

帯域幅はコインの裏側です。12個のHBMスタックが並行して動作することで、Blackwell Ultraのメモリサブシステムは非常に広大です。ピーク時には、約8TB/sのデータを処理することができます[14]。これは天文学的な数字です。比較すると、ハイエンドPC GPUのGDDR6は0.5TB/s、前世代のデータセンターGPUでも2〜3TB/sの範囲でした[17]。これが実際に意味することは何か?GPUコアは、メモリ集約型の作業でもデータを供給され続けることができるということです。ニューラルネットワークはしばしば巨大な行列積(これはTensor Coresが処理します)と、メモリに依存する操作(注意重み付けや埋め込み検索など)が組み合わさります。帯域幅が増えると、これらのメモリ依存のステップがスピードアップし、全体の作業負荷での停止が減少します。Blackwell Ultraの設計は、その強大な計算能力と同等のメモリスループットを備え、計算ユニットがデータを待つことなく効率的に動作することを実現しています。

具体的に言うと、トランスフォーマーモデルが長いシーケンスを生成する際、アテンションメカニズムは大きなキー/バリューマトリックスをメモリから読み込む必要があります。Hopper H100では、非常に長いシーケンスに対してこれが制約となる可能性がありましたが、HBM3eを搭載したBlackwell Ultraでは、これらのマトリックスを2倍以上の速度で流し込むことができます。2倍速いアテンション計算ユニットと組み合わせることで、長いコンテキストでのGPTスタイルのテキスト生成などのタスクで、はるかに高い持続的パフォーマンスを実現します。NVIDIAの「AIファクトリー」コンセプトにより、メモリはクラスター規模で集約されます。72-GPUラックでは、20TB以上のGPUメモリがプールされ、NVLinkで接続されたドメインでは総メモリ帯域幅が数百TB/sの範囲で利用可能です[22][20]。これにより、AIクラスターが数十テラバイトの高速メモリを持つ単一の巨大なGPUのように振る舞うことができ、多くの大規模モデルのインスタンスを同時に提供するのに理想的なシナリオとなります。

クラスター経済学:スケールにおけるコストと電力

パフォーマンスと効率がカバーされた今、Blackwell Ultraの導入における実用的な側面、つまりコストと必要なインフラについて考える必要があります。これらのGPUは通常、NVIDIAのGB300 NVL72ラックやHGX B300サーバーブレードといった大規模なシステムの一部として販売されます。単一のGB300 NVL72ユニットは、ラックに72個のBlackwell Ultra GPUと36個のGrace CPUを統合し、高速スイッチと冷却システムを完備しています[26][20]。これは実質的に箱に入ったAIスーパーコンピューターであり、安価ではありません。業界レポートによると、NVIDIAは完全なGB300 NVL72ラックを約300万ドルで価格設定しているとされています[27]。これはGPU1台あたり平均で4万ドルに相当し、個別のBlackwellユニットに対してNVIDIAが示唆した3万ドルから4万ドルのリスト価格と一致しています[28]。(特に、ジェンスン・ファンは、単体のチップやカードをエンドユーザーに販売しないと示唆しており、代わりに完全な統合システムを販売することを好みます[28]。このバンドル戦略は初期費用を押し上げますが、購入者が完全で最適化されたソリューションを手に入れることを保証します。)

AIクラスターを計画している人にとって、**設備投資(CapEx)**は莫大です。たった1ラックで3百万ドルかかり、多くの導入には複数のラックが必要です。CoreWeave、OpenAI、Meta、Microsoftなどの大手企業は、できるだけ多くのラックを購入していると報じられています。購入力が低いスタートアップや学術研究室は、H100が希少性のためにMSRPを大幅に上回って再販されていたように、セカンダリーマーケットでの高騰した価格に直面しています。ブラックウェルでも同様の傾向が見られます。2024年後半には、供給が需要に追いつかない場合、H100 80GBカードが3万ドルから4万ドルで取引されるケースもありました。ブラックウェルウルトラもこれに続き、実質的に「AIゴールドラッシュ」価格を倍増させています。要するに、今このクラスのハードウェアでプレイできるのは、潤沢な資金やクラウドクレジットを持つ組織だけです。

電力と冷却コスト: 購入価格に加えて、これらのクラスターを運用する運用コスト (OpEx)も重要です。Blackwell Ultra GPUは、フル稼働時に最大~1400Wの電力を消費することがあり[15]、これはH100 SXMの典型的な700W TDPの2倍以上です。72-GPUラックでは、GPUだけで約100 kWの電力を消費することになります(CPUやネットワークなどのオーバーヘッドを除く)。実際、18のGPUトレイを搭載した完全にロードされたNVL72キャビネットは**>100 kWの電力を消費し、高度な冷却が必要です。NVIDIAはこれらのシステムに液体冷却を選びましたが、それにも費用がかかります。Morgan Stanleyの最近の分析によると、液体冷却システムの材料費はラックごとに~$50,000**とされています[30]。これにはカスタムのコールドプレート、ポンプ、熱交換器などが含まれます。そして、次世代システムがさらに電力を増すと(噂では次世代の「Vera Rubin」では1GPUあたり1.8kWに達する可能性があります)、ラックごとの冷却コストは~$56kに上昇すると予想されています[31][32]

つまり、$3Mのシリコンに加えて、配管や熱管理に数万ドルを費やす可能性があります。さらに電気料金も考慮に入れる必要があります。100 kWを24時間365日稼働させると、1日に約2.4 MWhになります。商業用データセンターの料金では、ラックごとに1日あたり約$200〜$400の電力コスト(年間で$100k以上)になる可能性があります。冷却やインフラのオーバーヘッドは含まれていません。明らかに、AIスーパークラスターの運用は、心臓の弱い人や予算の限られた人には向いていません

しかし、ここで「クラスター経済学」が正当化されるのは、「スループット」と「TCO」にあります。たとえば、1台のBlackwell Ultraラックが、前世代のラックの出力の50倍を提供するとします(特定の作業負荷に対してNVIDIAが示唆しているように)[2]。この場合、データセンターは目標作業負荷を達成するために必要なラックの総数が減少する可能性があります(したがって、総電力/冷却も少なくなります)。効率の向上により、1クエリあたりのエネルギーコストは、絶対的な電力消費が高くても、各GPUがはるかに多くのクエリを並行して処理するため、実際には低くなる可能性があります。GPU時間をレンタルするクラウドプロバイダーにとって、これは同じコストで顧客により多くのパフォーマンスを提供するか、より良いマージンを得ることができる可能性があります。Mediumの分析では、Blackwell GPUがH100とほぼ同じレンタル価格で大幅に高いパフォーマンスを提供する場合、クラウドの「AIコンピュートコスト(1TFLOP時間あたり)」が低下すると仮定しています。少なくとも供給が追いつけば[33]。それにより、価格が正常化すれば、大規模モデルへのアクセスが民主化される可能性があります。もちろん、短期的には供給制約によりレンタル価格は「高止まり」しており、多くのクラウドGPUインスタンスは高価か、または待機リストに載っています。なぜなら、誰もがこの新しいハードウェアを欲しがっているからです。

要約すると、クラスター規模でのBlackwell Ultraの経済性は、多額の前払い投資が必要ですが、長期的な効率性と能力の大幅な向上を約束します。これらのシステムを早期に確保できる企業は、AIモデルの開発と展開で競争上の優位性を得ることができます。これは、GPUの購入競争が「軍備競争」に例えられる理由でもあります。それがまさに、NVIDIAのデータセンター収益がその四半期で前年比66%増加した理由です[34]。ほぼすべての主要なテック企業とAIスタートアップが、たとえ高価格や納品遅延を許容してでも、GPUインフラに資本を投入しています。

供給不足:不足と「H300」の噂

これらすべてが、話題の根底にある供給不足に繋がっています。簡単に言えば、現在NVIDIAのAIアクセラレーターに対する需要は供給をはるかに上回っています。NVIDIAのCFOであるコレット・クレスは最近の収益発表で、「クラウドは売り切れた」と述べました。つまり、大手クラウドプロバイダーはGPUの容量を完全に予約しており、H100やAmpere A100のような前世代のGPUもインストールベース全体で「完全に利用されている」のです[35]。NVIDIAは供給制約があることを認め、できるだけ早く生産を拡大している(2024年後半までに大幅な増加が期待される)としています[36]。ジェンセン・フアンは台湾のTSMCを訪れた際、ブラックウェルチップへの「非常に強い需要」に応えるためにできるだけ多くのウェーハを求めたと述べました[37][38]。TSMCのCEOは、NVIDIAの市場価値がAIへの期待感で5兆ドルに達したことから、ジェンセンを「5兆ドルの男」とあだ名しました[39]。要するに、NVIDIAは作れるすべてのチップを販売し、パートナーに生産を加速するよう促していますが、短期的にはまだ十分ではありません。

いくつかの要因がボトルネックに寄与しています:

  • 複雑なサプライチェーン: これらは単なるGPUではなく、NVIDIAは今やGPU、CPU、ネットワーキング、クーラーなどを含むシステム全体を販売しています。台湾からの報告では、特に新しいGB200(Blackwell)サーバーの液冷システム用の一部のコンポーネントに不足があるとされています[40]。FoxconnやWistronなどの台湾のサプライヤーは、ポンプや冷却プレートの材料などで障害に直面していると報じられています[41]。NVIDIAが液冷デザインに全力を注いだ決定は、新たなサプライチェーンの依存を生み出しました[42]。その報告書で引用されたバンク・オブ・アメリカの調査では、Blackwellシステムが遅延した場合、NVIDIAは注文の一部を少し古いHopperベースのシステム(例えば空冷のH200 HGX)に振り向ける可能性があると示唆されています[43]。これまでのところ、NVIDIAは2025年にBlackwell Ultraを予定通りに発売することに成功しましたが、初期の単位はおそらく主要な顧客(MetaやMicrosoftなど)に割り当てられました[44]。小規模なバイヤーは順番待ちです。
  • TSMCのキャパシティ: Blackwell GPUはTSMCの3nmクラスのプロセス(4Nは以前のもののためのカスタマイズされた5nmの派生であり、最新のものは「Ultra」のために3nmである可能性があります)で製造されています。TSMCの最先端のキャパシティは有限であり、NVIDIAやAppleのような他の巨人によって大部分が予約されています。報道によれば、NVIDIAは2024年から2025年にかけて供給を確保するためにウエハーの注文を50%増加させたと言われています[45]。それでも、チップのリードタイムは数ヶ月にも及ぶことがあります。実際、一部のアナリストは、NVIDIAが2026年までTSMCのキャパシティをあらかじめ予約しているため、競合するAMDがAIアクセラレータで足場を築くのが難しくなると主張しています[46][47]。この支配力は、長期的にはNVIDIAが供給を増やすことを保証しますが、短期的には早急な緩和措置はなく、ファブはフル稼働しているにもかかわらず、すべてのAI企業は「昨日」GPUを欲しています。
  • 輸出制限: 外部要因として、米国の対中AIチップの販売に対する輸出制限があります。政府の規制により、NVIDIAはH100やBlackwellのトップビンチップを中国に販売することができません[48]。それは世界の他の地域への供給を増やすように思えるかもしれませんが、NVIDIAは中国向けに少し性能を抑えたバリエーション(H100「CN」モデルなど)を作成しており、それでも生産キャパシティの一部を消費しています。また、中国のAIコンピュートに対する需要は非常に大きく、最新のNVIDIAチップを手に入れることができない場合、古いものを買い占めるかもしれず、間接的に世界的な供給に圧力をかけ続けます。いずれにせよ、西洋の需要だけで現在の生産量を消費するのに十分であり、中国の制限はNVIDIAが在庫をどのように配分するかに複雑さを加えています。

「H300」という言及は、おそらく次の大きなGPUアップグレードを指しているでしょう。NVIDIAのブラックウェルの次のロードマップは、天文学者にちなんでコードネーム「ヴェラ・ルービン」と噂されています。この仮想的な将来のシリーズを「H300」と呼ぶ愛好家もいます。ブラックウェル・ウルトラが現在登場している中、企業は次に何が来るかをすでに推測しています。例えば、2027年頃には、NVIDIAが3nmまたは2nmプロセス上に構築された「H300」GPUをリリースし、ブラックウェル・ウルトラよりも10〜15%効率的になると想像してみてください(Redditのコメント投稿者が考えたように)。それがすぐに供給不足を解消するかというと、そうではないでしょう。大手企業のほとんどは、その時点でブラックウェルの展開を消化している最中です。数十億ドルのハードウェアを一夜にしてスクラップにすることはないでしょう。たとえ「H300」やルービンGPUが登場したとしても、AIの採用が産業全体で加速しているため、当面の間、需要は供給を上回り続けるでしょう。あるアナリストが言ったように、NVIDIAは「AIの好循環」に入っています。使用が増えることでコンピュートの需要が高まり、それがさらなるアプリケーションを可能にし、というサイクルです。

実際のところ、ジェンセン・フアンの指導によれば、供給は来年にかけて厳しいままである とのことです。SKハイニックスのようなメモリメーカーは、AIブームの影響で来年までのHBM生産をすでに売り切っています。NVIDIAのQ4の予測収益は650億ドルで、さらに大きなジャンプを見込んでおり、これは彼らが製造できるすべてのBlackwellを出荷できると仮定しています。したがって、「供給不足」はすぐには解消されないでしょう。むしろ、価格は高止まりし、GPUは2025年まで供給制限が続く可能性があります。コストが高すぎると判断し、注文を一時停止する二次クラウドプロバイダーや中小企業が現れるまで、状況は緩和されないかもしれませんが、今は誰もがAI計算のための土地争奪戦の状態です。NVIDIAのフルシステム販売戦略も、これらのGPUを欲しいなら、高価なサーバーやポッド全体を購入しなければならない場合が多く、それがさらに入手できる人を限られたものにしています。

効率性の追求: 軽量AIフレームワークの可能性(マカロンの視点)

最先端のAIハードウェアには高額なコストと供給制限が伴うため、ソフトウェアとアーキテクチャの面での適応が求められています。その中で注目されるのが、軽量エージェントフレームワークの提案です。つまり、巨大で一つのGPUを必要とするモノリシックなモデルではなく、複数の専門化された小さなモデルや「エージェント」が協力して動作するAIシステムを設計するという考えです。ここでマカロンのアプローチが役立ち、より効率的でメモリに優しいAIエージェントを提案しています。

なぜ今これが適しているのでしょうか?それは、もしコンピュートが新たな石油であるなら、与えられたコンピュート量で最大限のことを成すことが極めて重要だからです。Blackwell Ultraは大きな力を発揮しますが、誰もがそのGPUを手に入れられるわけではありません。手に入れられたとしても、それをできるだけ効率的に使いたいと思うでしょう。軽量AIエージェントはコンピュートを賢く使うことに重点を置いています。- 彼らはタスクをモジュール方式で処理するように設計され、必要なモデルのみをサブタスクごとに起動し、毎回巨大なモデルをエンドツーエンドで走らせるのではありません。- 彼らはしばしば、必要なときにのみ関連するコンテキストを取得するリトリーバルや、結果をキャッシュする技術を利用し、冗長な計算を削減します。- 小さなモデルは、安価またはより入手しやすいハードウェア(古いGPUやCPUでも)で動作することが多く、最高クラスのGPUが不足しているか非常に高価な場合には大きな利点となります。

例えば、1つの175Bパラメーターモデルがすべてを行うのではなく、10個の小さなモデル(それぞれ5Bから20B程度)が特定のドメインに特化して微調整されているとします(1つはコーディング用、1つは数学用、1つは対話用など)。これらはエージェントフレームワークによって調整され、1つのクエリに対して集団的に使用されるメモリと計算量を大幅に削減できます。エージェントがクエリを適切な専門知識に賢くルーティングするからです。このようなアプローチは、特にハードウェアリソースが限られている場合、運用コストを抑えることができます。これはクラウドコンピューティングにおけるマイクロサービスに似ています。すべてのタスクを非効率に処理する1つの巨大なアプリケーションではなく、適切な小さなサービスを使用します。

Macaron AIのようなプロジェクトでは、AIシステムが異なるスキルや知識ベースを呼び出して解決策を構成する、より深いメモリとエージェントアーキテクチャを探求しています(人間が特定の質問で専門家に相談するようなものです)。全員がBlackwell Ultraクラスターを持っているわけではない世界では、このような設計により、中程度のハードウェアでより多くの人々が高度なAIタスクを実行できるようになる可能性があります。これは現在のハードウェアのボトルネックに対する実用的な対応です。

さらに、ハイエンドでも効率はビジネスに良い影響を与えます。Blackwell Ultraを大量購入しているハイパースケーラーは、各GPU時間から最大のスループットを引き出すために、より良いコンパイラや分散フレームワークなど、ソフトウェアの最適化にも投資しています(1台あたり4万ドルなので、全ての利用が重要です)。たとえば、クエリを前処理して大きなモデルに供給するコンテキストの長さを短縮する(計算を節約する)軽量エージェントフレームワークや、いくつかのロジックをより安価なマシンにオフロードすることができるフレームワークは、直接的にコストを削減します。このようなシステムの兆候は、必要なときにのみ大モデルが呼び出される、より小さなツールやデータベースで補強された大モデルで見られます。この哲学は、すべての釘にAIのハンマーを使うのではなく、ハンマーとメスのツールキットを使用するというMacaronの主張とよく一致しています。

要するに、ここでのマカロン フィットは、NVIDIAの最新技術が素晴らしい成果をもたらす一方で、AIをアクセスしやすく持続可能にする必要性も認識することです。常に大規模なモデルを高価なハードウェアでプッシュすることだけでは、多くのアプリケーションに対しては限界があります。AIソリューションを軽量でモジュール化し、資源をあまり消費しないように構築するための革新が求められています。これは強力なGPUや大規模なモデルの追求を止めることを意味するのではなく、より賢明にそれらを使用することを指します。現在の供給不足とコストの急騰がこの対話を促しています。おそらく、より多くのハイブリッドアプローチが見られるでしょう。例えば、AIサービスがモデル推論の重い作業にはBlackwell Ultra GPUを使用するが、軽量なフロントエンドシステムがリクエストを蒸留し、関連データを取得し、大規模モデルを実行する必要があると判断した後のみ、という形です。そうすることで、高価なGPUサイクルは必要なときにのみ使用され、全体的なスループットがコストに対して向上します。

結論

NVIDIAのBlackwell Ultra GPUの登場は、AIインフラにおける画期的な瞬間を示しています。AIの推論と推測において驚異的な性能向上をもたらすだけでなく、成功の新たな課題も浮き彫りにしています。それは供給不足、コストの急騰、そして計算能力への絶え間ない需要です。Blackwell Ultraは特に低精度での性能と、ワットあたりの効率を大幅に向上させ、50倍のAI出力や、昨年まで手の届かなかったリアルタイム生成メディアを可能にしています[54][5]。タフなHBM3eメモリと高度なアーキテクチャによりボトルネックが解消されますが、同時にこれらのシステムの規模と電力消費は物流と経済的な障害をもたらします。3百万ドルの価格や、特別な冷却が必要な100kWのラックなどです。

「AI GPU供給不足」は現実の問題です。事実上、NVIDIAの生産量はすべて割り当てられており、「売り切れ」が標準となっています[8]。この希少性により、GPUが3万ドル以上の価格をつけ、投資家や実務者は手持ちのハードウェアをいかに効率的に利用するかに注力しています。これは重要な点を強調しています。業界全体にとって、単なる規模拡大に頼ることは持続可能ではありません。そのため、効率性が今後の鍵となります。これは、Blackwell Ultraのような優れたハードウェアや、軽量エージェントフレームワークのような賢いソフトウェアによって実現されます。

近い将来、NVIDIAのBlackwell Ultraは引き続き話題を集め、展開計画の中心となるでしょう。そして、次のアーキテクチャが登場し、製造施設が拡大するまで、このGPUの争奪戦は続くと予想されます。AI能力を構築する組織にとっての教訓は二つあります。最新鋭のハードウェアを入手できれば、それが優位性をもたらしますが、AIスタックを賢く設計して、FLOPごとに最大限活用する必要があります。それは、小規模なモデルを混ぜたり、新しい精度に合わせてコードを最適化したり、データ管理に投資したりすることを意味するかもしれません。この文脈で無駄な計算は無駄な出費と同義です。

将来を見据えると、AIハードウェアの進展は、さらなる性能向上(仮に「H300」や次世代のRubin)と依然として高い需要を示唆しています。そのため、業界の課題は、この驚異的な能力をアクセスしやすさと調和させることになるでしょう。効率性、拡張性、そしてソフトウェアレベルでの革新が、Blackwell UltraのようなGPUによって推進されるAI革命が、最も資金力がある企業や巨大データセンターに限られず、多様なプレイヤーが参加できるものとするための鍵となります。要するに、NVIDIAの最新の驚異は新たなフロンティアを開拓しましたが、AI(およびコンピューティング全般)においては、賢いリソースの使用が単なる処理能力と同様に重要であることを思い出させてくれます。

情報源: NVIDIA製品および技術文書[54][1][16]、業界ニュースレポート[8][43]、および専門家の分析[28][27]が、Blackwell Ultraの性能、サプライチェーン、AI経済への影響を詳述しています。


[1] [3] [4] [9] [10] [11] [12] [13] [14] NVIDIA Blackwell Ultra: AIファクトリー時代を支えるチップ | NVIDIA 技術ブログ

https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/

[2] [5] [16] [20] [21] [22] [25] [26] [54] AI推論性能と効率のために設計 | NVIDIA GB300 NVL72

https://www.nvidia.com/en-us/data-center/gb300-nvl72/

[6] [7] [34] [35] Nvidia: Blackwell Ultra が62%の成長を牽引し記録的収益を達成

https://www.crn.com/news/components-peripherals/2025/nvidia-blackwell-ultra-takes-lead-in-helping-drive-62-percent-growth-to-record-revenue

[8] [53] Nvidiaの収益が四半期ごとに570億ドルという記録的な高さに急上昇 — すべてのGPUが売り切れ | Tom's Hardware

https://www.tomshardware.com/pc-components/gpus/nvidias-revenue-skyrockets-to-record-usd57-billion-per-quarter-all-gpus-are-sold-out

[15] Super Micro Computer, Inc. - SupermicroがNVIDIA Blackwell Ultra Systemsおよびラックプラグアンドプレイデータセンタースケールソリューションの大量出荷を開始

https://ir.supermicro.com/news/news-details/2025/Supermicro-Begins-Volume-Shipments-of-NVIDIA-Blackwell-Ultra-Systems-and-Rack-Plug-and-Play-Data-Center-Scale-Solutions/default.aspx

[17] NVIDIA ホッパー アーキテクチャの詳細 | NVIDIA テクニカル ブログ

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

[18] [19] NVIDIA H200

http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB

[23] 効率的かつ正確な低精度推論のための NVFP4 の紹介

https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

[24] NVIDIA Blackwell と Blackwell Ultra B300: 買うべきか待つべきか?

https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/

[27] [46] [47] NVIDIAは2025年に520万台のBlackwell GPUを出荷し、2026年には180万台を、同じく2026年に570万台のRubin GPUを出荷予定 : r/AMD_Stock

https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/

[28] [29] [33] Blackwell GPUとクラウドAI価格の新しい経済学 | elongated_musk氏による | Medium

https://medium.com/@Elongated_musk/blackwell-gpus-and-the-new-economics-of-cloud-ai-pricing-5e35ae42a78f

[30] [31] [32] 単一のNvidia Blackwell Ultra NVL72ラック用の冷却システムは驚異的な50,000ドルのコスト — 次世代のNVL144ラックでは56,000ドルに増加予定 | Tom's Hardware

https://www.tomshardware.com/pc-components/cooling/cooling-system-for-a-single-nvidia-blackwell-ultra-nvl72-rack-costs-a-staggering-usd50-000-set-to-increase-to-usd56-000-with-next-generation-nvl144-racks

[36] [40] [41] [42] [43] [44] NVIDIA Blackwell AIサーバーは「コンポーネント不足」にさらされており、2024年第4四半期には供給が制限される見込みです。

https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/

[37] [38] [39] [48] [51] [52] NvidiaのCEO、黄氏はブラックウェルチップの強い需要を予測 | ロイター

https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/

[45] Nvidia、Blackwellチップ向けにTSMCのウェハー注文を50%増加 - LinkedIn

https://www.linkedin.com/posts/jeffcooper_nvidia-orders-50-more-wafers-from-tsmc-amid-activity-7393655145571516416-D79S

[49] [50] サム・アルトマン:「GPUが足りない。ChatGPTのユーザー数は毎日新記録を更新している。今、これらのひどいトレードオフをしなければならない。我々はより良いモデルを持っているが、容量がないため提供できない。他にも提供したい新しい製品やサービスがある。」 : r/accelerate

https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/

Boxuはエモリー大学で定量経済学を専攻し、学士号を取得しました。Macaronに参加する前は、アメリカのプライベート・エクイティとベンチャー・キャピタル分野でキャリアを積んでいました。現在、彼はMacaron AIの参謀長兼マーケティング副社長として、財務、物流、運営を管理しつつ、マーケティングを監督しています。

応募する Macaron の最初の友達