NVIDIA Blackwell Ultra & der KI-GPU-Lieferengpass

Autor: Boxu Li

NVIDIAs neueste Blackwell Ultra GPU-Plattform hat die KI-Welt im Sturm erobert – so sehr, dass sie einen ernsthaften Lieferengpass verursacht. Wall-Street-Analysten und KI-Forscher in den sozialen Medien sprechen über rekordverdächtige Leistung, explodierende Preise und eine beispiellose Nachfrage nach diesen Chips. In diesem ausführlichen Bericht werden wir untersuchen, warum Blackwell Ultra virale Nachrichten macht, seine Durchbrüche in Leistung pro Watt und Speicherbandbreite analysieren, die Cluster-Ökonomie beim Einsatz dieser GPUs in großem Maßstab diskutieren und betrachten, warum die Aufregung ein Umdenken bei leichten KI-Frameworks auslöst. Wir werden dabei die Fakten mit glaubwürdigen Quellen untermauern und uns auf die technischen Details für ein sachkundiges Publikum konzentrieren.

Warum Blackwell Ultra Schlagzeilen macht

Unvergleichliche Leistung: Die Blackwell Ultra GPUs von NVIDIA bieten einen enormen Sprung in der KI-Inferenzfähigkeit. Erste Benchmarks zeigen eine 7,5-fach höhere Durchsatzrate bei niedriger Präzision im Vergleich zu den Hopper H100 GPUs der vorherigen Generation[1]. Tatsächlich kann Blackwell Ultra dichte 4-Bit-Präzisionsmathematik (NVFP4-Format) mit 15 PFLOPS ausführen, im Vergleich zu etwa 2 PFLOPS bei einem H100 (FP8) – ein 7,5-facher Anstieg im Rohdurchsatz[1]. Dieser Sprung führt zu dramatisch schnelleren KI-Modellinferenzzeiten. Beispielsweise berichtet NVIDIA, dass ein auf Blackwell Ultra basierendes System eine 50-fache Steigerung der Gesamtausgabe der KI-„Fabrik“ (Durchsatz der Antworten) im Vergleich zu einer Hopper-basierten Plattform erreicht, dank etwa 10-fach höherer Reaktionsfähigkeit pro Nutzer und 5-fach höherem Durchsatz pro Megawatt Leistung[2]. Mit anderen Worten, Blackwell Ultra fügt nicht nur brutale Leistung hinzu – es geschieht auch viel effizienter und bietet 5-fach mehr Leistung pro Watt in großflächigen Einsätzen[2].

Neue Inferenzfähigkeiten: Blackwell Ultra führt ein neues 4-Bit-Präzisionsformat namens NVFP4 ein, das extreme Inferenzgeschwindigkeiten ermöglicht, ohne viel Genauigkeit zu opfern. Dieses Format verwendet eine clevere Zwei-Stufen-Skalierung, um die Genauigkeit zu bewahren und nahezu FP8-Qualität zu erreichen, jedoch mit erheblich geringeren Speicher- und Rechenkosten[3]. Das Ergebnis ist, dass die Tensor Cores von Blackwell Ultra bei Niedrigpräzisionsberechnungen eine Geschwindigkeit erreichen, die zuvor unmöglich war – 1,5× der FP4-Durchsatz von Standard-Blackwell-GPUs und viele Male schneller als frühere Architekturen[1]. NVIDIA hat auch den Durchsatz der speziellen Funktionseinheit für wichtige Transformer-Attention-Operationen verdoppelt, sodass Attention-Ebenen bis zu 2× schneller laufen als auf den Basis-Blackwell-Chips[4]. Diese Fortschritte zielen auf die Kernengpässe großer Sprachmodelle und generativer KI-Inferenz ab und ermöglichen Dinge wie generatives Video in Echtzeit. Tatsächlich zeigte eine Demo, dass Blackwell Ultra ein 5-Sekunden-KI-Video 30× schneller generierte als Hopper-GPUs, wodurch ein 90-Sekunden-Job in eine Echtzeitausgabe verwandelt wurde[5].

Wall-Street- und Twitter-Hype: Solche Leistungssteigerungen sind nicht unbemerkt geblieben. Die NVIDIA-Aktie hat sich aufgrund der Erwartungen an Rekordeinnahmen, die durch Blackwell angeheizt werden, stark entwickelt. Im dritten Quartal 2025 erreichten die Einnahmen aus dem Rechenzentrum 51,2 Milliarden US-Dollar (90 % des NVIDIA-Umsatzes), hauptsächlich dank der Hochlaufphase von Blackwell Ultra – das Unternehmen gibt an, dass dies jetzt seine „führende Architektur in allen Kundensegmenten“ ist[6][7]. CEO Jensen Huang bemerkte, dass „Blackwell-Verkäufe durch die Decke gehen und Cloud-GPUs ausverkauft sind“, wobei die Nachfrage das Angebot bei weitem übersteigt[8]. KI-Labore und Cloud-Anbieter eilen, um diese Chips zu bekommen, und soziale Medien sind voller Anekdoten über extreme Rückstände und Aufschläge auf dem Sekundärmarkt. Diese knappheitsgetriebene Begeisterung treibt die Preise in die Höhe und macht Blackwell Ultra zu einem Trendthema sowohl in Technologie- als auch in Finanzkreisen.

Blackwell Ultra Architektur: Leistung im großen Maßstab

Abbildung: Der Durchsatz von KI mit niedriger Präzision ist mit Blackwell Ultra in die Höhe geschnellt. Jede Blackwell Ultra GPU liefert 15 PFLOPS dichte 4-Bit-KI-Berechnung, ein 1,5-facher Schub gegenüber einem bereits leistungsstarken Blackwell-Chip und etwa 7,5-facher FP8-Durchsatz im Vergleich zur vorherigen Hopper-Generation von NVIDIA (H100/H200)[1]. Dieser enorme Generationssprung in der Rechenleistung ist ein wesentlicher Treiber des aktuellen KI-Infrastrukturbooms.

Im Herzen von Blackwell Ultra steht ein hochmodernes Design, das speziell für KI-Inferenz im großen Maßstab entwickelt wurde. Jede GPU besteht tatsächlich aus zwei GPU-Dies in einem Paket, die durch eine 10 TB/s Hochgeschwindigkeitsverbindung verbunden sind[9]. Dieser Ansatz mit mehreren Dies (ähnlich wie bei Chiplet-Architekturen) ermöglicht es NVIDIA, eine enorme Rechenleistung in eine „GPU“ zu packen. Der vollständige Blackwell Ultra-Chip verfügt über 160 Streaming-Multiprozessoren (SMs), die auf 8 GPC-Cluster verteilt sind, insgesamt also 640 Tensor-Kerne der fünften Generation pro GPU[10][11]. Diese Tensor-Kerne sind die Arbeitspferde der KI und sind in Blackwell Ultra für FP8, FP6 und die neue NVFP4-Präzisionen optimiert. Jeder SM enthält außerdem 256 KB „Tensor Memory“ (TMEM) auf dem Chip, ein kleiner Hochgeschwindigkeitsspeicher, der es der GPU ermöglicht, Daten für Matrixberechnungen effizienter wiederzuverwenden[12][13]. Dieses speicherinterne SM-Level zusammen mit neuen Dual-Block-Verarbeitungsmodi hilft, den Speicherverkehr außerhalb des Chips zu reduzieren und die Tensor-Kerne mit Daten zu versorgen, was die effektive Durchsatzrate und Energieeffizienz verbessert[13].

HBM3e-Speicher – Massiv und Schnell: Die Datenversorgung dieser Recheneinheiten erfolgt über einen riesigen Speicherpool. Blackwell Ultra GPUs sind jeweils mit 288 GB HBM3e Hochgeschwindigkeitsspeicher ausgestattet[14]. Das sind 1,5× mehr Speicher als die Standard-Blackwell-Rechenzentrums-GPU (die ~192 GB hat)[15] und über 3,5× der Speicher einer Hopper H100 (80 GB). Dies ist wichtig, da die heutigen großen Sprachmodelle und andere KI-Workloads oft enorme Kontextlängen und Modellgrößen erfordern. Der größere Speicher ermöglicht größere Batchgrößen und längere Sequenzen, die in einem Durchgang verarbeitet werden können, was den Durchsatz für komplexe Modelle verbessert[16]. Die Speicherbandbreite ist ebenso beeindruckend – in der Größenordnung von 8 TB/s pro GPU (dank 12 Stapeln von HBM3e)[14]. Zum Vergleich: Ein H100 SXM-Modul lieferte etwa 3 TB/s[17], und selbst das Zwischen-Upgrade H200 mit HBM3e erreichte ~4,8 TB/s[18][19]. Mit Blackwell Ultra ist das Speichersubsystem für viele Workloads kein Engpass mehr: Modelle können größer sein oder effizienter zugegriffen werden, ohne ständig den externen Speicher zu belasten.

Grace Hopper zu Grace Blackwell: Das Design von NVIDIA integriert auch CPUs und Netzwerk eng mit den GPUs für eine bessere Leistung auf Cluster-Ebene. Jeder Blackwell Ultra „Knoten“ kombiniert die GPUs mit NVIDIAs Grace CPUs über ultraschnelle NVLink-C2C-Verbindungen (900 GB/s CPU–GPU-Bandbreite)[14]. Die Grace CPU bringt 2.592 Arm-Kerne und eine hohe Speicherbandbreite mit (LPDDR5X), um die GPUs zu versorgen[20][21]. Diese Kombination, manchmal auch Grace Blackwell genannt, stellt sicher, dass die GPU-Rechenleistung nicht durch CPU- oder I/O-Beschränkungen ausgebremst wird. Tatsächlich hat ein NVIDIA GB300-System (unten detailliert) 36 Grace CPUs, die neben den 72 GPUs in jedem Rack arbeiten, alle verbunden über 5. Generation NVLink mit beeindruckenden 130 TB/s an allumfassender Bandbreite[22][20]. Dieses Netzwerk, zusammen mit NVIDIAs Quantum X InfiniBand oder Spectrum-X Ethernet zwischen den Knoten, bedeutet, dass sogar „KI-Fabriken“ mit mehreren Racks mit schneller inter-GPU-Kommunikation arbeiten können. Das Endziel ist es, KI-Inferenz wie einen Cloud-Service zu skalieren – was NVIDIA als das AI Factory-Konzept bezeichnet – bei dem viele Modelle und Anfragen parallel über ein vernetztes Cluster von Beschleunigern laufen.

Leistung pro Watt: Effizienzgewinne

Einer der bemerkenswertesten Aspekte von Blackwell Ultra ist, wie stark es die Energieeffizienz für KI-Workloads verbessert. Ja, jede GPU verbraucht viel Strom (wir werden gleich über den hohen TDP sprechen), aber die Leistung pro Watt ist im Vergleich zu früheren Generationen deutlich gestiegen. Laut NVIDIAs eigenen Metriken liefern Blackwell Ultra-Systeme im großen Maßstab 5× den Durchsatz pro Megawatt Leistung im Vergleich zu Hopper-basierten Systemen[2]. Dies ist auf mehrere Faktoren zurückzuführen, die zusammenwirken:

  • Niedrigere Präzision = Weniger Energie: Durch die Verwendung von 4-Bit-Präzision mit minimalem Genauigkeitsverlust kann Blackwell Ultra die gleiche Inferenzarbeit mit deutlich weniger Joules pro Berechnung ausführen. Das NVFP4-Format wurde speziell entwickelt, um die Effizienz zu verbessern – indem es die Speicherbewegung reduziert und kleinere Multiplikatoren verwendet – so sehr, dass die Reduzierung der Präzision von FP8 auf FP4 tatsächlich die Leistung pro Watt erheblich verbessert[23]. Im Wesentlichen kann jede GPU viel mehr Operationen für dasselbe Energiebudget ausführen, wenn es sich um Operationen mit geringer Präzision handelt, was ein großer Vorteil für Inferenzdienste ist.
  • Architektonische Optimierungen: Der Tensor-Speicher und die Kooperation der Dual-Blöcke in den SMs bedeuten eine bessere Nutzung jedes Watts. Daten werden auf dem Chip gehalten, um teure DRAM-Zugriffe zu vermeiden, und die Tensor Cores sind mit weniger Unterbrechungen beschäftigt[13]. Außerdem ermöglicht das Verdoppeln der kritischen Pfade in den Aufmerksamkeitseinheiten (SFUs), dass diese Einheiten ihre Arbeit schneller abschließen und dann im Leerlauf sind, anstatt volle Leistung zu verbrauchen[4]. All dies führt zu weniger Energieverschwendung durch Speicherwartezeiten oder lange Operationssequenzen.
  • Prozessknoten und Taktmanagement: GPUs der Blackwell-Generation werden auf fortschrittlichen TSMC 4N/4NP-Prozessen hergestellt, und die Ultra-Varianten treiben es wahrscheinlich an die Grenzen. Sie können höhere Taktfrequenzen oder mehr Kerne im gleichen Energiebereich erreichen. Laut einigen Analysen hat das Basismodell Blackwell (manchmal als B200 bezeichnet) bereits einen deutlichen Leistungssprung pro Watt gegenüber Hopper erzielt, indem es auf 4N-Silizium und architektonische Verbesserungen umgestellt wurde[24]. Blackwell Ultra fügt dann 50% mehr Rechenleistung hinzu, wenn auch mit einem Anstieg der Leistung – aber mit einem besseren Verhältnis.

Es ist wichtig zu beachten, dass Verbesserungen bei der Leistung pro Watt nicht nur theoretisch sind; sie wirken sich direkt auf die Betriebskosten von Rechenzentren aus. Wenn Sie das Fünffache des Durchsatzes bei gleichem Energieverbrauch erzielen können, ist das eine enorme Reduzierung der Kosten pro Abfrage oder Inferenz. Da viele KI-Modelle im Webmaßstab eingesetzt werden (denken Sie an Millionen von Abfragen pro Tag), sind diese Effizienzgewinne entscheidend, um Strom- und Kühlkosten im Rahmen zu halten. NVIDIA bietet sogar einen Energieeffizienzrechner für ihre GPUs an[25], was unterstreicht, wie wichtig diese Kennzahl für Kunden geworden ist.

Aus einem anderen Blickwinkel betrachtet, werben auch AMD und andere Konkurrenten mit der Leistung pro Watt für KI, aber seit Ende 2025 scheint NVIDIA mit Blackwell Ultra einen Sprung nach vorne gemacht zu haben. Zum Beispiel befindet sich die Flaggschiff-GPU AMD MI300X (ein konkurrierender GPU für KI-Inferenz) immer noch auf 5-nm-Technologie und konzentriert sich auf 8-Bit- und 16-Bit-Operationen; NVIDIAs aggressiver Schritt zu 4-Bit-Inferenz mit spezialisierter Hardware verschafft ihm einen neuen Vorsprung in Sachen Effizienz. Dies ist teilweise der Grund, warum Cloud-Anbieter bereit sind, in Blackwell Ultra zu investieren, trotz der hohen Anfangskosten – die Gesamtkosten für den Besitz verbessern sich, wenn Sie mit der Zeit mehr mit weniger Energie tun können.

Vorteile bei Speicherbandbreite und -kapazität

Große KI-Modelle sind bekanntlich sehr speicher- und bandbreitenhungrig, und Blackwell Ultra geht dieses Problem mit seiner HBM3e-Speicherarchitektur direkt an. Wie bereits erwähnt, verfügt jede GPU über 288 GB HBM3e Speicher an Bord[14]. Dies ist eine enorme Menge an schnellem Speicher, selbst im Vergleich zu aktuellen GPUs wie der H100 mit 80 GB oder der Zwischenversion H200 mit 141 GB, die HBM3e eingeführt haben[18][19].

Der unmittelbare Vorteil von 288 GB pro GPU ist die Fähigkeit, sehr große Modelle im Speicher zu bedienen oder feinabzustimmen (wie Modelle mit mehreren hundert Milliarden Parametern oder hochkontextuelle LLMs), ohne das Modell über mehrere GPUs zu partitionieren. Auch eine größere Batch-Verarbeitung ist möglich, was die Ausnutzung erhöht. NVIDIA hebt hervor, dass der 1,5× größere Speicher des Blackwell Ultra (im Vergleich zu seinem Vorgänger) „die KI-Durchsatzleistung für die größten Kontextlängen steigert.“[16]. Für KI-Anwendungen wie lange Dokumentenfragen oder ausführliche Gespräche mit einem KI-Assistenten kann die GPU mehr Tokens gleichzeitig verarbeiten, was sowohl die Geschwindigkeit als auch die Qualität der Ergebnisse verbessert.

Die Bandbreite ist die andere Seite der Medaille. Mit 12 HBM-Stacks, die parallel laufen, ist das Speichersubsystem des Blackwell Ultra extrem breit. Im Spitzenbetrieb kann es Daten in der Größenordnung von ~8 TB/s bewegen[14]. Dies ist eine astronomische Zahl – zum Vergleich: Eine High-End-PC-GPU mit GDDR6 könnte 0,5 TB/s haben, und selbst Rechenzentrums-GPUs der vorherigen Generation lagen im Bereich von 2–3 TB/s[17]. Was bedeutet das in der Praxis? Es bedeutet, dass die GPU-Kerne selbst bei speicherintensiven Arbeitslasten mit Daten versorgt werden können. Neuronale Netzwerke beinhalten oft riesige Matrixmultiplikationen (die die Tensor Cores übernehmen), unterbrochen von speichergebundenen Operationen (wie z. B. Aufmerksamkeitsgewichtungen, Embedding-Lookups usw.). Mit mehr Bandbreite beschleunigen sich diese speichergebundenen Schritte, sodass die gesamte Arbeitslast weniger stockt. Das Design des Blackwell Ultra balanciert im Wesentlichen seine enorme Rechenleistung mit einer ebenso beeindruckenden Speicherbandbreite und vermeidet das Szenario, in dem die Recheneinheiten untätig auf Daten warten.

Um es konkret zu machen, nehmen wir ein Transformermodell, das eine lange Sequenz generiert: Der Aufmerksamkeitsmechanismus muss große Schlüssel-/Wertematrizen aus dem Speicher lesen. Auf Hopper H100 könnte dies für sehr lange Sequenzen ein limitierender Faktor gewesen sein, aber auf Blackwell Ultra mit HBM3e kann die GPU diese Matrizen mit doppelter oder mehr Geschwindigkeit einlesen. In Kombination mit den 2× schnelleren Aufmerksamkeitsberechnungseinheiten wird eine viel höhere anhaltende Leistung bei Aufgaben wie der GPT-ähnlichen Textgenerierung mit langem Kontext erreicht. Das Konzept der „AI Factory“ von NVIDIA bedeutet auch, dass der Speicher im Clustermaßstab aggregiert wird – in einem 72-GPU-Rack sind das über 20 TB GPU-Speicher gepoolt, mit einer gesamten Speicherbandbreite im Bereich von hunderten von TB/s, die im NVLink-verbundenen Bereich verfügbar sind[22][20]. Dadurch kann ein AI-Cluster im Wesentlichen wie eine einzelne riesige GPU mit Dutzenden von Terabyte schnellem Speicher agieren, ein ideales Szenario, um viele Instanzen großer Modelle gleichzeitig zu bedienen.

Cluster-Ökonomie: Kosten und Leistung im großen Maßstab

Nachdem Leistung und Effizienz abgedeckt sind, müssen wir uns dem praktischen Aspekt der Bereitstellung von Blackwell Ultra widmen: den Kosten und der erforderlichen Infrastruktur. Diese GPUs werden normalerweise als Teil größerer Systeme wie dem GB300 NVL72-Rack von NVIDIA oder den HGX B300-Server-Blades verkauft. Eine einzelne GB300 NVL72-Einheit integriert 72 Blackwell Ultra GPUs plus 36 Grace CPUs in einem Rack, komplett mit Hochgeschwindigkeitsschaltern und Kühlung[26][20]. Dies ist im Wesentlichen ein AI-Supercomputer in einer Box, und er ist nicht billig. Laut Branchenberichten liegt der Preis für ein vollständiges GB300 NVL72-Rack von NVIDIA bei etwa 3 Millionen Dollar[27]. Das ergibt einen Durchschnitt von 40.000 Dollar pro GPU, was im Einklang mit dem groben Listenpreis von 30k–40k Dollar steht, den NVIDIA für einzelne Blackwell-Einheiten angedeutet hat[28]. (Bemerkenswerterweise hat Jensen Huang angedeutet, dass sie keine einzelnen Chips oder Karten an Endkunden verkaufen werden – sie bevorzugen den Verkauf kompletter integrierter Systeme[28]. Diese Bündelungsstrategie treibt die Vorabkosten in die Höhe, stellt aber sicher, dass Käufer eine vollständige, optimierte Lösung erhalten.)

Für alle, die ein KI-Cluster planen, sind die Investitionsausgaben (CapEx) enorm. Allein ein Rack kostet 3 Millionen Dollar, und viele Implementierungen umfassen mehrere Racks. CoreWeave, OpenAI, Meta, Microsoft – alle großen Akteure – kaufen Berichten zufolge so viele, wie sie können. Diejenigen mit weniger Kaufkraft (Start-ups, akademische Labore) sehen sich mit erhöhten Preisen auf dem Sekundärmarkt konfrontiert, wo H100s zuvor aufgrund von Knappheit weit über dem UVP weiterverkauft wurden, und wir beobachten einen ähnlichen Trend bei Blackwell. Ende 2024 gingen H100 80GB-Karten in einigen Fällen für 30.000–40.000 Dollar pro Stück über den Tisch, als das Angebot hinter der Nachfrage zurückblieb[29]. Blackwell Ultra folgt diesem Trend und verstärkt effektiv das „KI-Goldrausch“-Preismodell. Kurz gesagt, nur Organisationen mit tiefen Taschen oder Cloud-Guthaben können es sich leisten, in dieser Hardwareklasse mitzuspielen.

Strom- und Kühlkosten: Neben dem Kaufpreis sind die Betriebskosten (OpEx) für den Betrieb dieser Cluster erheblich. Jede Blackwell Ultra GPU kann bei voller Auslastung bis zu ~1400 W ziehen[15] – das Doppelte oder mehr des typischen 700W TDP einer H100 SXM. In einem Rack mit 72 GPUs bedeutet das, dass allein die GPUs etwa 100 kW Strom verbrauchen könnten (ohne Overhead für CPUs, Netzwerk usw.). Tatsächlich zieht ein voll beladener NVL72-Schrank mit 18 GPU-Trays in der Größenordnung von >100 kW und erfordert eine fortschrittliche Kühlung. NVIDIA hat sich in diesen Systemen für Flüssigkeitskühlung entschieden, aber auch das hat seinen Preis: Eine kürzlich durchgeführte Analyse von Morgan Stanley bezifferte die Materialkosten für das Flüssigkeitskühlsystem auf ~50.000 $ pro Rack[30]. Dazu gehören maßgeschneiderte Kaltplatten, Pumpen, Wärmetauscher usw. Und da die Systeme der nächsten Generation leistungsstärker werden (Gerücht: die nachfolgende „Vera Rubin“-Generation könnte 1,8 kW pro GPU erreichen), werden die Kühlungskosten pro Rack voraussichtlich auf ~56.000 $ steigen[31][32].

Mit anderen Worten, zusätzlich zu den 3 Millionen Dollar für Silizium könnten Sie Zehntausende für Installation und Wärmemanagement ausgeben. Dazu kommt die Stromrechnung: 100 kW, die rund um die Uhr laufen, entsprechen etwa 2,4 MWh pro Tag. Bei kommerziellen Rechenzentrumsraten könnte das pro Rack etwa 200–400 Dollar pro Tag an Stromkosten bedeuten (über 100.000 Dollar pro Jahr), ohne Kühlung und Infrastrukturkosten. Offensichtlich ist der Betrieb eines AI-Superclusters nichts für schwache Nerven oder kleine Budgets.

Hier rechtfertigen sich jedoch die Cluster-Ökonomien: Durchsatz und TCO. Wenn ein Blackwell Ultra-Rack beispielsweise das 50-fache der Leistung eines Vorgängermodells liefert (wie NVIDIA für bestimmte Workloads vorschlägt)[2], könnte ein Rechenzentrum insgesamt weniger Racks benötigen (und somit weniger Gesamtleistung/Kühlung), um eine Ziel-Workload zu erreichen. Die gesteigerte Effizienz bedeutet, dass pro Anfrage die Energiekosten tatsächlich niedriger sein können, trotz des höheren absoluten Stromverbrauchs, da jede GPU viel mehr Anfragen parallel bedient. Für Cloud-Anbieter, die GPU-Zeit vermieten, bedeutet dies potenziell, dass sie mehr Leistung für Kunden zum gleichen Preis anbieten oder bessere Margen erzielen können. Eine Analyse von Medium stellte die These auf, dass, wenn Blackwell-GPUs viel mehr Leistung zu ungefähr dem gleichen Mietpreis wie H100s bieten, die Kosten pro AI-Compute (pro TFLOP-Stunde) sinken werden, zumindest sobald das Angebot den Bedarf deckt[33]. Das könnte den Zugang zu großen Modellen demokratisieren, wenn sich die Preise normalisieren. Natürlich bleiben die Mietpreise kurzfristig aufgrund von Angebotsengpässen hoch – viele Cloud-GPU-Instanzen sind teuer oder haben Wartelisten, weil jeder diese neue Hardware will.

Zusammenfassend lässt sich sagen, dass die Wirtschaftlichkeit von Blackwell Ultra im Cluster-Maßstab enorme Anfangsinvestitionen erfordert, aber erhebliche langfristige Effizienz- und Fähigkeitsgewinne verspricht. Unternehmen, die sich diese Systeme frühzeitig sichern können, erlangen einen Wettbewerbsvorteil bei der Entwicklung und Implementierung von KI-Modellen – genau aus diesem Grund wird der Ansturm auf den Kauf von GPUs mit einem „Wettrüsten“ verglichen. Das ist auch der Grund, warum NVIDIAs Rechenzentrumsumsatz in diesem Quartal um 66% YoY explodierte[34]: Praktisch jedes große Technologieunternehmen und KI-Startup investiert Kapital in GPU-Infrastrukturen, selbst wenn dies hohe Preise und verzögerte Lieferungen bedeutet.

Die Angebotsknappheit: Knappheit und „H300“-Gerüchte

All dies führt zu dem Angebotsengpass, der den viralen Hype untermauert. Einfach ausgedrückt, die Nachfrage übersteigt derzeit das Angebot für NVIDIAs KI-Beschleuniger bei weitem. NVIDIAs CFO Colette Kress bemerkte in einem kürzlichen Gewinnaufruf, dass „die Clouds ausverkauft sind“ – große Cloud-Anbieter haben ihre GPU-Kapazität vollständig gebucht – und selbst frühere GPU-Generationen wie H100 und Ampere A100 sind „vollständig ausgelastet“ in der installierten Basis[35]. NVIDIA erkannte an, dass es lieferbeschränkt ist und die Produktion so schnell wie möglich hochfährt (mit Erwartungen eines signifikanten Anstiegs bis zur zweiten Hälfte 2024)[36]. Jensen Huang sagte während einer Reise zu TSMC in Taiwan, er habe ihre Fabrik um so viele Wafer wie möglich gebeten, um die „sehr starke Nachfrage“ nach Blackwell-Chips zu decken[37][38]. Der CEO von TSMC nannte Jensen sogar den „Fünf-Billionen-Dollar-Mann“, da NVIDIAs Marktkapitalisierung angesichts des Optimismus rund um KI 5 Billionen Dollar erreichte[39]. Kurz gesagt, NVIDIA verkauft jeden Chip, den sie herstellen können, und drängt Partner, die Produktion zu beschleunigen – aber es reicht kurzfristig immer noch nicht aus.

Mehrere Faktoren tragen zu dem Engpass bei:

  • Komplexe Lieferkette: Es handelt sich nicht nur um GPUs; NVIDIA verkauft jetzt komplette Systeme (mit GPUs, CPUs, Netzwerken, Kühlern usw.). Ein Bericht aus Taiwan deutete an, dass einige Komponenten – insbesondere für die Flüssigkeitskühlsysteme in den neuen GB200 (Blackwell) Servern – Engpässe haben[40]. Taiwanesische Zulieferer wie Foxconn und Wistron stoßen Berichten zufolge auf Hindernisse bei Dingen wie Pumpen oder Kühlplattenmaterialien[41]. Die Entscheidung von NVIDIA, komplett auf flüssiggekühlte Designs zu setzen, fügte neue Abhängigkeiten in der Lieferkette hinzu[42]. Eine in diesem Bericht zitierte Umfrage der Bank of America schlug vor, dass NVIDIA einige Bestellungen auf etwas ältere Hopper-basierte Systeme umleiten könnte (wie etwa ein luftgekühltes H200 HGX), falls sich die Blackwell-Systeme verzögern[43]. Bisher hat es NVIDIA geschafft, das Blackwell Ultra pünktlich im Jahr 2025 auf den Markt zu bringen, aber die ersten Einheiten wurden wahrscheinlich an einige wenige Schlüsselkunden vergeben (man denke an Meta, Microsoft)[44]. Kleinere Käufer warten in der Schlange.
  • Kapazität bei TSMC: Blackwell-GPUs werden auf TSMCs 3nm-Klasse-Prozess gefertigt (4N ist ein kundenspezifisches 5nm-Derivat für frühere Modelle; die neuesten könnten 3nm für „Ultra“ sein). Die Kapazität von TSMC für technologische Spitzenleistungen ist begrenzt und größtenteils von NVIDIA und anderen Giganten wie Apple gebucht. Berichten zufolge hat NVIDIA seine Wafer-Bestellungen um 50 % für 2024–2025 erhöht, um mehr Versorgung zu sichern[45]. Dennoch können die Vorlaufzeiten für Chips viele Monate betragen. Tatsächlich behaupten einige Analysten, dass NVIDIA so viel TSMC-Kapazität bis 2026 vorgebucht hat, dass der Konkurrent AMD Schwierigkeiten haben wird, im Bereich der KI-Beschleuniger Fuß zu fassen[46][47]. Diese Dominanz sichert NVIDIA die Möglichkeit, das Angebot langfristig zu erhöhen, bedeutet jedoch kurzfristig auch keine schnelle Entlastung – die Fabriken laufen auf Hochtouren, und dennoch wollen alle KI-Unternehmen die GPUs „gestern“.
  • Exportbeschränkungen: Ein externer Faktor sind die US-Exportlimits für den Verkauf von Top-KI-Chips an China. NVIDIA darf aufgrund von Regierungsbeschränkungen keine H100- oder Blackwell-Top-Bin-Chips nach China verkaufen[48]. Man könnte denken, dass dadurch mehr Angebot für den Rest der Welt verfügbar ist, aber NVIDIA hat leicht abgeschwächte Varianten (wie H100 „CN“-Modelle) für China geschaffen, die dennoch einen Teil der Produktionskapazität beanspruchen. Außerdem ist die Nachfrage nach KI-Rechenleistung in China enorm, und wenn sie nicht die neuesten NVIDIA-Chips bekommen können, kaufen sie möglicherweise ältere, was indirekt den globalen Versorgungsdruck aufrechterhält. In jedem Fall reicht die westliche Nachfrage allein aus, um die gesamte aktuelle Produktion zu verbrauchen, und die China-Beschränkungen fügen der Art und Weise, wie NVIDIA sein Inventar zuteilt, Komplexität hinzu.

Die Erwähnung von „H300“ in der Diskussion bezieht sich wahrscheinlich auf das nächste große GPU-Upgrade am Horizont. NVIDIA’s Roadmap nach Blackwell soll angeblich den Codenamen Vera Rubin (nach der Astronomin) tragen – einige Enthusiasten haben diese hypothetische zukünftige Serie informell als „H300“ bezeichnet, in Anlehnung an den Hopper-Namensstil. Während Blackwell Ultra jetzt verfügbar ist, spekulieren Unternehmen bereits darüber, was als nächstes kommt. Stellen Sie sich zum Beispiel vor, dass NVIDIA um 2027 einen weiteren Sprung machen könnte, z. B. eine „H300“ GPU, die auf einem 3-nm- oder 2-nm-Prozess basiert und vielleicht 10–15 % effizienter ist als Blackwell Ultra (wie ein Reddit-Kommentator vermutete)[49][50]. Wird das sofort die Knappheit lindern? Unwahrscheinlich. Die meisten großen Akteure werden bis dahin noch mit ihren Blackwell-Einführungen beschäftigt sein; sie werden nicht über Nacht Milliarden von Dollar an Hardware für einen marginalen Gewinn verschrotten[49][50]. Selbst wenn eine „H300“ oder Rubin GPU erscheint, wird die Nachfrage auf absehbare Zeit das Angebot übertreffen, da die AI-Adoption in den Branchen weiterhin zunimmt. Wie ein Analyst es ausdrückte, hat NVIDIA einen „Tugendkreis der KI“ betreten – mehr Nutzung treibt die Nachfrage nach Rechenleistung an, was mehr Anwendungen ermöglicht, und so weiter[8].

In praktischen Begriffen bedeutet Jensen Huangs Anleitung, dass das Angebot bis ins nächste Jahr knapp bleiben wird. Speicherhersteller wie SK Hynix haben ihre HBM-Produktion aufgrund des KI-Booms bereits bis ins nächste Jahr ausverkauft[51][52]. NVIDIA's eigene Prognose für Q4 ist ein Umsatz von 65 Milliarden Dollar – ein weiterer Sprung – der davon ausgeht, dass sie jeden Blackwell ausliefern können, den sie herstellen können[53]. Der „Lieferengpass“ endet also nicht sofort; im Gegenteil, die Preise bleiben hoch und GPUs werden bis weit ins Jahr 2025 zuteilungsgebunden sein. Entlastung könnte möglicherweise erst eintreten, wenn zweitklassige Cloud-Anbieter oder kleinere Firmen entscheiden, dass die Kosten zu hoch sind und Bestellungen pausieren – aber im Moment ist jeder im Landnahme-Modus für KI-Rechenleistung. NVIDIAs Strategie, vollständige Systeme zu verkaufen, bedeutet auch, dass man oft ganze teure Server oder sogar gesamte Pods kaufen muss, wenn man diese GPUs haben möchte, was weiter konzentriert, wer sie erhalten kann.

Der Fall für Effizienz: Leichtere KI-Frameworks (Macarons Perspektive)

Angesichts der enormen Kosten und der begrenzten Verfügbarkeit von hochmoderner KI-Hardware lohnt es sich zu überlegen, wie sich Software und Architektur anpassen könnten. Ein interessanter Ansatz ist das Argument für leichte Agenten-Frameworks – im Wesentlichen das Design von KI-Systemen, die auf mehreren spezialisierten, kleineren Modellen oder „Agenten“ basieren, die zusammenarbeiten, anstatt auf einem riesigen monolithischen Modell, das eine Super-GPU erfordert. Hier kommen Ansätze wie Macaron ins Spiel, die für effizientere, speichersparende KI-Agenten plädieren.

Warum könnte das jetzt gut passen? Weil, wenn Rechenleistung das neue Öl ist, es entscheidend ist, das Maximum aus einer bestimmten Menge an Rechenleistung herauszuholen. Blackwell Ultra bietet einen enormen Schub, aber nicht jeder kann diese GPUs bekommen. Selbst diejenigen, die sie haben, möchten sie so effizient wie möglich nutzen. Leichte KI-Agenten sind darauf ausgelegt, clever mit Rechenleistung umzugehen: - Sie können so gestaltet werden, dass sie Aufgaben modular bearbeiten, indem sie nur das notwendige Modell für eine Teilaufgabe hochfahren, anstatt bei jeder Anfrage ein massives Modell von Anfang bis Ende laufen zu lassen. - Sie nutzen oft Techniken wie Abruf (nur dann relevanten Kontext einholen, wenn er benötigt wird) oder Zwischenspeichern von Ergebnissen, um redundante Berechnungen zu vermeiden. - Kleinere Modelle können oft auf günstigeren oder leichter verfügbaren Hardware ausgeführt werden (sogar auf älteren GPUs oder CPUs), was ein großer Vorteil ist, wenn Spitzen-GPUs knapp oder extrem teuer sind.

Zum Beispiel könnte man anstelle eines einzelnen Modells mit 175 Milliarden Parametern, das alles erledigt, eine Sammlung von 10 kleineren Modellen (sagen wir 5 bis 20 Milliarden jeweils) haben, die jeweils für spezifische Domänen feinabgestimmt sind (eines für Codierung, eines für Mathematik, eines für Dialoge usw.), koordiniert durch ein Agenten-Framework. Diese könnten insgesamt weit weniger Speicher und Rechenleistung für eine gegebene Anfrage verwenden, da der Agent die Anfrage intelligent an die richtige Expertise weiterleitet. Diese Art von Ansatz kann kostengünstiger in der Ausführung sein – besonders wenn Ihre Hardware-Ressourcen begrenzt sind. Es ist vergleichbar mit Microservices in der Cloud-Computing: Verwenden Sie den richtigen kleinen Dienst für die Aufgabe, anstatt eine riesige Anwendung, die alle Aufgaben ineffizient bearbeitet.

Projekte wie Macaron AI erforschen tiefere Speicher- und agentische Architekturen, bei denen ein KI-System Lösungen durch den Aufruf verschiedener Fähigkeiten oder Wissensbasen zusammensetzt (ähnlich wie Menschen möglicherweise einen Spezialisten für eine spezifische Frage konsultieren). In einer Welt, in der nicht jeder über ein Blackwell Ultra-Cluster verfügt, könnten solche Designs es mehr Menschen ermöglichen, fortgeschrittene KI-Aufgaben mit moderater Hardware durchzuführen. Es ist eine pragmatische Antwort auf den aktuellen Hardware-Engpass.

Zusätzlich gilt auch im High-End-Bereich, dass Effizienz gut fürs Geschäft ist. Die Hyperscaler, die Blackwell Ultra massenweise kaufen, investieren auch in Softwareoptimierungen – von besseren Compilern bis hin zu verteilten Frameworks –, um das Maximum aus jeder GPU-Stunde herauszuholen (denn bei $40k pro Stück zählt jede Nutzung). Ein leichtgewichtiges Agenten-Framework, das beispielsweise die Kontextlänge einer Anfrage vorverarbeiten kann, um die Berechnung zu sparen, oder das einige Logiken auf günstigere Maschinen auslagern kann, spart direkt Geld. Wir sehen Anzeichen dafür in aufkommenden Systemen, bei denen ein großes Modell durch kleinere Tools oder eine Datenbank ergänzt wird; das große Modell wird nur dann aktiviert, wenn es absolut notwendig ist. Diese Philosophie passt gut zu Macarons Argument, nicht für jeden Nagel einen KI-Hammer zu verwenden, sondern einen Werkzeugkasten mit Hämmern und Skalpellen.

Zusammenfassend lässt sich sagen, dass der Macaron-Fit hier darin besteht, zu erkennen, dass während NVIDIAs neueste und beste Technologien erstaunliche Leistungen ermöglichen, die Branche auch daran arbeiten muss, KI zugänglicher und nachhaltiger zu machen. Das Streben nach immer größeren Modellen auf immer teurerer Hardware bringt bei vielen Anwendungen abnehmende Erträge. Es besteht eine Chance (und wohl auch eine Notwendigkeit) für Innovationen, wie wir KI-Lösungen gestalten, um leichter, modularer und ressourcenschonender zu sein. Das bedeutet nicht, dass wir aufhören, leistungsstarke GPUs oder große Modelle zu verfolgen; vielmehr sollten wir sie klüger einsetzen. Der aktuelle Lieferengpass und die Kostenexplosion erzwingen diese Diskussion. Es ist wahrscheinlich, dass wir mehr hybride Ansätze sehen werden: Ein KI-Dienst könnte zum Beispiel Blackwell Ultra GPUs für das schwere Modell-Inferenzen verwenden, aber nur nachdem ein leichtgewichtiges Front-End-System die Anfrage destilliert, relevante Daten abgerufen und entschieden hat, dass das große Modell tatsächlich ausgeführt werden muss. Auf diese Weise werden die teuren GPU-Zyklen nur dann genutzt, wenn es notwendig ist, was den Gesamtdurchsatz pro Dollar verbessert.

Fazit

Die Einführung der Blackwell Ultra GPUs von NVIDIA markiert einen Wendepunkt in der KI-Infrastruktur – mit atemberaubenden Leistungsverbesserungen in der KI-Logik und -Schlussfolgerung. Gleichzeitig werden jedoch neue Herausforderungen des Erfolgs deutlich: Lieferengpässe, steigende Kosten und der immer größer werdende Bedarf an Rechenleistung. Wir haben gesehen, wie Blackwell Ultra die Leistung (insbesondere bei geringer Präzision) und Effizienz (Leistung pro Watt) erheblich steigert, was Sprünge wie eine 50-fach höhere KI-Ausgabe und Echtzeit-generative Medien ermöglicht, die vor einem Jahr noch unerreichbar waren[54][5]. Sein leistungsfähiger HBM3e-Speicher und die fortschrittliche Architektur beseitigen Engpässe, aber gleichzeitig führen die schiere Größe und der Stromverbrauch dieser Systeme zu logistischen und wirtschaftlichen Hürden – angefangen bei Preisschildern von 3 Millionen Dollar bis hin zu 100-kW-Racks, die spezielle Kühlung benötigen.

Die „KI-GPU-Versorgungsknappheit“ ist ein echtes und aktuelles Problem: Im Grunde ist die gesamte Produktion von NVIDIA bereits verplant, und „ausverkauft“ ist zur Norm geworden[8]. Diese Knappheit, bei der GPUs Preise von über 30.000 $ erzielen, hat sowohl Investoren als auch Praktiker darauf fokussiert, wie man die vorhandene Hardware am besten nutzen kann. Es unterstreicht einen wichtigen Punkt: Für die breite Industrie ist es nicht nachhaltig, sich allein auf brutale Skalierung zu verlassen. Deshalb ist Effizienz – sei es durch bessere Hardware wie Blackwell Ultra oder intelligentere Software wie leichtgewichtige Agenten-Frameworks – der Weg der Zukunft.

Kurzfristig werden NVIDIAs Blackwell Ultra weiterhin Schlagzeilen und Einsatzpläne dominieren, und wir können erwarten, dass das Futterneid für diese GPUs anhält, bis das Angebot aufgeholt hat (was möglicherweise erst mit der nächsten Architektur und der Erweiterung der Fabriken der Fall sein könnte). Für Organisationen, die KI-Fähigkeiten aufbauen, ist die Erkenntnis zweifach: Wenn Sie hochmoderne Hardware bekommen können, verschafft Ihnen das einen Vorteil, aber Sie müssen auch Ihre KI-Infrastruktur intelligent gestalten, um das Beste aus jedem FLOP herauszuholen. Das könnte bedeuten, kleinere Modelle zu integrieren, Code für neue Präzisionen zu optimieren oder in Datenmanagement zu investieren – alles, um unnötige Berechnungen zu vermeiden, was in diesem Kontext verschwendetes Geld bedeutet.

Wenn wir nach vorne schauen, deutet die Entwicklung der KI-Hardware auf eine noch größere Leistung hin (die hypothetische „H300“ und die kommende Rubin-Generation) und wahrscheinlich eine anhaltend hohe Nachfrage. Die Herausforderung der Branche wird darin bestehen, diese unglaubliche Fähigkeit mit Zugänglichkeit in Einklang zu bringen. Effizienz, Skalierbarkeit und Innovation auf Softwareebene werden entscheidend sein, um sicherzustellen, dass die von GPUs wie Blackwell Ultra angetriebene KI-Revolution für eine breite Palette von Akteuren zugänglich ist – nicht nur für diejenigen mit den tiefsten Taschen oder den größten Rechenzentren. Kurz gesagt, NVIDIAs neuestes Meisterwerk hat neue Grenzen eröffnet, erinnert uns aber auch daran, dass im Bereich KI (wie im gesamten Computing) intelligente Ressourcennutzung genauso wichtig ist wie rohe Rechenleistung.

Quellen: NVIDIA Produkt- und technische Dokumentation[54][1][16], Branchenberichte[8][43] und Expertenanalysen[28][27], die Leistung von Blackwell Ultra, die Lieferkette und den Einfluss auf die KI-Ökonomie detaillieren.


[1] [3] [4] [9] [10] [11] [12] [13] [14] Inside NVIDIA Blackwell Ultra: Der Chip, der das KI-Fabrikzeitalter antreibt | NVIDIA Technischer Blog

https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/

[2] [5] [16] [20] [21] [22] [25] [26] [54] Entwickelt für KI-Schlussfolgerungsleistung und Effizienz | NVIDIA GB300 NVL72

https://www.nvidia.com/en-us/data-center/gb300-nvl72/

[6] [7] [34] [35] Nvidia: Blackwell Ultra führt mit 62 Prozent Wachstum zu Rekordeinnahmen

https://www.crn.com/news/components-peripherals/2025/nvidia-blackwell-ultra-takes-lead-in-helping-drive-62-percent-growth-to-record-revenue

[8] [53] Nvidias Umsatz steigt auf rekordverdächtige 57 Milliarden USD pro Quartal — alle GPUs sind ausverkauft | Tom's Hardware

https://www.tomshardware.com/pc-components/gpus/nvidias-revenue-skyrockets-to-record-usd57-billion-per-quarter-all-gpus-are-sold-out

[15]  Super Micro Computer, Inc. - Supermicro beginnt mit der Massenlieferung von NVIDIA Blackwell Ultra-Systemen und Rack Plug-and-Play-Lösungen im Rechenzentrumsmaßstab

https://ir.supermicro.com/news/news-details/2025/Supermicro-Begins-Volume-Shipments-of-NVIDIA-Blackwell-Ultra-Systems-and-Rack-Plug-and-Play-Data-Center-Scale-Solutions/default.aspx

[17] NVIDIA Hopper-Architektur im Detail | NVIDIA Technischer Blog

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

[18] [19] NVIDIA H200

http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB

[23] Einführung von NVFP4 für effiziente und genaue Inferenz mit niedriger Präzision

https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

[24] NVIDIA Blackwell vs. Blackwell Ultra B300: Kaufen oder Warten?

https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/

[27] [46] [47] NVIDIA wird voraussichtlich 5,2M Blackwell GPUs im Jahr 2025, 1,8M im Jahr 2026 und 5,7M Rubin GPUs im Jahr 2026 ausliefern : r/AMD_Stock

https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/

[28] [29] [33] Blackwell-GPUs und die neue Ökonomie der Cloud-KI-Preise | von elongated_musk | Medium

https://medium.com/@Elongated_musk/blackwell-gpus-and-the-new-economics-of-cloud-ai-pricing-5e35ae42a78f

[30] [31] [32] Das Kühlsystem für ein einzelnes Nvidia Blackwell Ultra NVL72-Rack kostet unglaubliche 50.000 $ — soll mit den nächsten NVL144-Racks auf 56.000 $ steigen | Tom's Hardware

https://www.tomshardware.com/pc-components/cooling/cooling-system-for-a-single-nvidia-blackwell-ultra-nvl72-rack-costs-a-staggering-usd50-000-set-to-increase-to-usd56-000-with-next-generation-nvl144-racks

[36] [40] [41] [42] [43] [44] NVIDIA Blackwell AI-Server von „Komponentenknappheit“ betroffen, begrenztes Angebot erwartet im 4. Quartal 2024

https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/

[37] [38] [39] [48] [51] [52] Nvidia-CEO Huang sieht starke Nachfrage nach Blackwell-Chips | Reuters

https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/

[45] Nvidia erhöht die Bestellung von TSMC-Wafern um 50% für Blackwell-Chips - LinkedIn

https://www.linkedin.com/posts/jeffcooper_nvidia-orders-50-more-wafers-from-tsmc-amid-activity-7393655145571516416-D79S

[49] [50] Sam Altman: „Wir haben keine GPUs mehr. ChatGPT erreicht täglich neue Nutzerhöchststände. Wir müssen momentan diese schrecklichen Kompromisse eingehen. Wir haben bessere Modelle, die wir einfach nicht anbieten können, weil uns die Kapazität fehlt. Wir haben andere neue Produkte und Dienstleistungen, die wir gerne anbieten würden.“ : r/accelerate

https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/

Boxu erwarb seinen Bachelor-Abschluss an der Emory University mit Schwerpunkt Quantitative Ökonomie. Bevor er zu Macaron kam, verbrachte Boxu den Großteil seiner Karriere im Bereich Private Equity und Venture Capital in den USA. Er ist nun der Stabschef und VP für Marketing bei Macaron AI, verantwortlich für Finanzen, Logistik und Betrieb sowie die Überwachung des Marketings.

Bewerben, um zu werden Macarons erste Freunde