NVIDIA Blackwell Ultra & la pénurie de GPU AI

Auteur : Boxu Li

La dernière plateforme GPU Blackwell Ultra de NVIDIA a pris d'assaut le monde de l'IA – à tel point qu'elle provoque une grave pénurie. Les analystes de Wall Street et les chercheurs en IA sur les réseaux sociaux parlent avec enthousiasme de performances record, de prix en flèche et d'une demande sans précédent pour ces puces. Dans cette analyse approfondie, nous explorerons pourquoi Blackwell Ultra est un sujet viral, examinerons ses avancées en termes de performance par watt et de bande passante mémoire, discuterons de l'économie des clusters liée au déploiement de ces GPU à grande échelle, et réfléchirons à pourquoi cette frénésie incite à repenser les frameworks IA légers. Tout au long, nous étayerons les faits par des sources crédibles et nous concentrerons sur les détails techniques pour un public averti.

Pourquoi Blackwell Ultra fait les gros titres

Performances Inégalées : Les GPU Blackwell Ultra de NVIDIA offrent une avancée spectaculaire en matière de capacité d'inférence en IA. Les premiers benchmarks montrent un débit en basse précision 7,5 fois supérieur à celui des GPU Hopper H100 de la génération précédente[1]. En fait, le Blackwell Ultra peut effectuer des calculs en précision dense de 4 bits (format NVFP4) à 15 PFLOPS, contre environ 2 PFLOPS sur un H100 (FP8) – soit une augmentation de 7,5 fois du débit brut[1]. Ce bond se traduit par une inférence de modèles d'IA beaucoup plus rapide. Par exemple, NVIDIA rapporte qu'un système basé sur Blackwell Ultra réalise une augmentation globale de 50 fois de la production “usine” d'IA (débit des réponses) par rapport à une plateforme basée sur Hopper, grâce à environ 10 fois plus de réactivité par utilisateur et 5 fois plus de débit par mégawatt de puissance[2]. En d'autres termes, le Blackwell Ultra n'ajoute pas seulement de la puissance brute – il le fait de manière beaucoup plus efficace, offrant 5 fois plus de performance par watt dans les déploiements à grande échelle[2].

Nouvelles capacités d'inférence : Blackwell Ultra introduit un nouveau format de précision 4 bits appelé NVFP4 qui permet des vitesses d'inférence extrêmes sans sacrifier beaucoup de précision. Ce format utilise une mise à l'échelle astucieuse à deux niveaux pour préserver la précision, atteignant une qualité presque équivalente à FP8 avec beaucoup moins de coûts en mémoire et en calcul[3]. Le résultat est que les Tensor Cores de Blackwell Ultra peuvent effectuer des calculs en basse précision à des niveaux auparavant impossibles – 1,5× le débit FP4 des GPU Blackwell standard, et de nombreuses fois plus rapide que les architectures précédentes[1]. NVIDIA a également doublé le débit de l'unité de fonction spéciale pour les opérations clés d'attention du transformeur, de sorte que les couches d'attention fonctionnent jusqu'à 2× plus vite que sur les puces Blackwell de base[4]. Ces avancées ciblent les principaux goulots d'étranglement des modèles de langage de grande taille et de l'inférence d'IA générative, permettant des choses comme la vidéo générative en temps réel. En fait, une démonstration a montré que Blackwell Ultra générait une vidéo IA de 5 secondes 30× plus rapidement que les GPU Hopper ne pouvaient le faire, transformant un travail de 90 secondes en sortie en temps réel[5].

Wall Street et la hype sur Twitter : De tels gains de performance n'ont pas échappé à l'attention générale. L'action NVIDIA a grimpé en flèche avec des attentes de revenus records grâce à Blackwell. Au troisième trimestre 2025, les revenus des centres de données ont atteint 51,2 milliards de dollars (90 % des ventes de NVIDIA), en grande partie grâce à l'essor de Blackwell Ultra – que l'entreprise décrit désormais comme sa « principale architecture dans toutes les catégories de clients »[6][7]. Le PDG Jensen Huang a noté que « les ventes de Blackwell sont exceptionnelles, et les GPU cloud sont en rupture de stock », avec une demande bien supérieure à l'offre[8]. Les laboratoires d'IA et les fournisseurs de cloud se précipitent pour obtenir ces puces, et les réseaux sociaux regorgent d'anecdotes de commandes en attente extrême et de majorations sur le marché secondaire. Cette frénésie alimentée par la rareté fait grimper les prix et fait de Blackwell Ultra un sujet tendance à la fois dans les cercles technologiques et financiers.

Architecture Blackwell Ultra : Performance à grande échelle

Figure : Le débit d'IA en basse précision a explosé avec Blackwell Ultra. Chaque GPU Blackwell Ultra offre 15 PFLOPS de calcul d'IA dense en 4 bits, une augmentation de 1,5× par rapport à une puce Blackwell déjà puissante, et environ 7,5× le débit FP8 de la génération précédente Hopper de NVIDIA (H100/H200)[1]. Ce bond générationnel énorme en puissance de calcul est un moteur clé de l'essor actuel de l'infrastructure IA.

Au cœur de Blackwell Ultra se trouve un design de pointe conçu spécifiquement pour l'inférence IA à grande échelle. Chaque GPU est en fait composé de deux matrices GPU sur un seul paquet, reliées par une interconnexion à haute bande passante de 10 To/s[9]. Cette approche multi-matrice (semblable aux architectures de chiplet) permet à NVIDIA de concentrer une énorme quantité de puissance de traitement dans un seul « GPU ». La puce complète Blackwell Ultra dispose de 160 multiprocesseurs de flux (SM) répartis sur 8 clusters GPC, pour un total de 640 cœurs Tensor de cinquième génération par GPU[10][11]. Ces cœurs Tensor sont les chevaux de bataille de l'IA, et dans Blackwell Ultra, ils sont optimisés pour les précisions FP8, FP6 et le nouveau NVFP4. Chaque SM inclut également 256 Ko de "mémoire Tensor" (TMEM) sur la puce, un petit bloc-notes à haute vitesse qui permet au GPU de réutiliser les données pour les calculs matriciels plus efficacement[12][13]. Cette mémoire au niveau SM, ainsi que les nouveaux modes de traitement à double bloc, aident à réduire le trafic mémoire hors puce et à approvisionner les cœurs Tensor, améliorant le débit effectif et l'efficacité énergétique[13].

Mémoire HBM3e – Massive et Rapide : Alimenter ces unités de calcul nécessite une énorme réserve de mémoire. Les GPU Blackwell Ultra sont équipés de 288 Go de mémoire HBM3e à large bande passante chacun[14]. Cela représente 1,5× plus de mémoire que le GPU standard du centre de données Blackwell (qui dispose de ~192 Go)[15], et plus de 3,5× la mémoire d'un Hopper H100 (80 Go). C'est important car les grands modèles de langage actuels et autres charges de travail IA nécessitent souvent d'énormes longueurs de contexte et tailles de modèle. La mémoire plus grande permet de traiter des tailles de lots plus importantes et des séquences plus longues en une seule fois, améliorant ainsi le débit pour les modèles complexes[16]. La bande passante mémoire est tout aussi impressionnante – de l'ordre de 8 To/s par GPU (grâce à 12 piles de HBM3e)[14]. À titre de comparaison, un module H100 SXM délivrait environ 3 To/s[17], et même la mise à niveau intérimaire H200 avec HBM3e était limitée à ~4,8 To/s[18][19]. Avec Blackwell Ultra, le sous-système mémoire n'est plus le goulot d'étranglement pour de nombreuses charges de travail : les modèles peuvent être plus grands, ou être accessibles plus efficacement, sans solliciter constamment la mémoire externe.

De Grace Hopper à Grace Blackwell : Le design de NVIDIA intègre également étroitement les CPU et le réseau avec les GPU pour une meilleure performance à l'échelle du cluster. Chaque « nœud » Blackwell Ultra associe les GPU aux CPU Grace de NVIDIA via des liens NVLink-C2C ultra-rapides (900 Go/s de bande passante CPU-GPU)[14]. Le CPU Grace apporte 2 592 cœurs Arm et une bande passante mémoire élevée (LPDDR5X) pour alimenter les GPU[20][21]. Cette combinaison, parfois appelée Grace Blackwell, garantit que les calculs GPU ne sont pas limités par les contraintes du CPU ou des entrées/sorties. En fait, un système NVIDIA GB300 (détaillé ci-dessous) dispose de 36 CPU Grace fonctionnant aux côtés des 72 GPU dans chaque rack, tous connectés via la 5e génération de NVLink avec une bande passante de 130 To/s pour une connectivité complète[22][20]. Cette structure, plus l'InfiniBand Quantum X ou l'Ethernet Spectrum-X de NVIDIA entre les nœuds, permet même à des « usines d'IA » multi-racks de fonctionner avec une communication rapide entre les GPU. L'objectif final est de faire évoluer l'inférence IA comme un service cloud – ce que NVIDIA appelle le concept de fabrique d'IA – où de nombreux modèles et requêtes s'exécutent en parallèle à travers un cluster maillé d'accélérateurs.

Performance par watt : Gains d'efficacité

L'un des aspects les plus remarquables de Blackwell Ultra est l'amélioration de l'efficacité énergétique pour les charges de travail IA. Certes, chaque GPU consomme beaucoup d'énergie (nous aborderons le TDP élevé dans un instant), mais la performance par watt a considérablement augmenté par rapport aux générations précédentes. Les propres mesures de NVIDIA indiquent qu'à grande échelle, les systèmes Blackwell Ultra offrent 5× le débit par mégawatt de puissance par rapport aux systèmes basés sur Hopper[2]. Cela est dû à plusieurs facteurs agissant de concert :

  • Précision Réduite = Énergie Réduite : En utilisant la précision 4-bit avec une perte minimale de précision, Blackwell Ultra peut effectuer le même travail d'inférence avec beaucoup moins de joules dépensés par calcul. Le format NVFP4 a été conçu spécifiquement pour améliorer l'efficacité – en réduisant les déplacements de mémoire et en utilisant des multiplicateurs plus petits – au point que réduire la précision de FP8 à FP4 améliore en fait considérablement les performances par watt [23]. En essence, chaque GPU peut exécuter beaucoup plus d'opérations pour le même budget énergétique lorsqu'il s'agit d'opérations à faible précision, ce qui est un grand avantage pour le service d'inférence.
  • Optimisations Architecturales : La mémoire tensorielle et la coopération double-bloc dans les SMs signifient une meilleure utilisation de chaque watt. Les données sont conservées sur la puce, évitant ainsi des accès coûteux à la DRAM, et les Tensor Cores sont maintenus actifs avec moins de latences [13]. De plus, doubler les chemins cruciaux dans les unités d'attention (SFUs) permet à ces unités de terminer le travail plus rapidement et ensuite d'être inactives, plutôt que de prolonger des calculs à pleine puissance [4]. Tout cela se traduit par moins de gaspillage d'énergie en attente de mémoire ou lors de longues séquences d'opérations.
  • Nœud de Processus et Gestion de l'Horloge : Les GPU de génération Blackwell sont fabriqués sur des processus avancés TSMC 4N/4NP, et les variantes Ultra poussent probablement cela à la limite. Ils peuvent atteindre des fréquences plus élevées ou avoir plus de cœurs dans la même enveloppe énergétique. Selon certaines analyses, la base Blackwell (parfois appelée B200) a déjà fourni une augmentation majeure du perf/W par rapport à Hopper en passant au silicium 4N et grâce aux améliorations architecturales [24]. Blackwell Ultra ajoute ensuite 50 % de calcul en plus par-dessus cela, bien qu'avec une augmentation de puissance – mais obtenant un meilleur ratio.

Il convient de noter que les améliorations de la performance par watt ne sont pas simplement académiques ; elles ont un impact direct sur les coûts d'exploitation des centres de données. Si vous pouvez obtenir un débit 5× supérieur avec la même consommation d'énergie, cela représente une réduction considérable du coût par requête ou par inférence. Étant donné que de nombreux modèles d'IA sont déployés à l'échelle du web (pensez à des millions de requêtes par jour), ces gains d'efficacité sont essentiels pour contenir les coûts d'électricité et de refroidissement. NVIDIA propose même un calculateur d'efficacité énergétique pour ses GPU, soulignant l'importance croissante de cette mesure pour les clients.

D'un autre point de vue, AMD et d'autres concurrents vantent également la performance par watt pour l'IA, mais fin 2025, NVIDIA semble avoir pris une avance avec le Blackwell Ultra. Par exemple, le modèle phare AMD MI300X (un GPU concurrent pour l'inférence IA) utilise encore une technologie de classe 5 nm et se concentre sur les opérations en 8 bits et 16 bits ; le passage agressif de NVIDIA à l'inférence en 4 bits avec un matériel spécialisé lui confère un nouvel avantage en termes d'efficacité. C'est en partie pourquoi les fournisseurs de cloud sont désireux d'investir dans le Blackwell Ultra malgré le coût initial élevé – le coût total de possession s'améliore lorsque vous pouvez faire plus avec moins d'énergie au fil du temps.

Avantages de la Bande Passante et de la Capacité Mémoire

Les grands modèles d'IA sont notoirement gourmands en mémoire et en bande passante, et le Blackwell Ultra répond parfaitement à ce besoin avec son architecture mémoire HBM3e. Comme mentionné, chaque GPU embarque 288 Go de mémoire HBM3e[14]. C'est une quantité massive de mémoire rapide, même comparée aux GPU récents comme le H100 80GB ou le H200 141GB intermédiaire qui a introduit le HBM3e[18][19].

Le bénéfice immédiat de 288 Go par GPU est la capacité de servir ou de peaufiner en mémoire des modèles très volumineux (comme des modèles à plusieurs centaines de milliards de paramètres ou des LLMs à haut contexte) sans partitionner le modèle entre plusieurs GPUs. Un traitement de lot plus important est également possible, ce qui augmente l'utilisation. NVIDIA note spécifiquement que la mémoire 1,5× plus grande sur le Blackwell Ultra (par rapport à son prédécesseur) « augmente le débit de raisonnement de l'IA pour les contextes les plus longs. »[16] Pour les applications d'IA comme le questionnement de longs documents ou les conversations prolongées avec un assistant IA, le GPU peut gérer plus de tokens à la fois, améliorant à la fois la vitesse et la qualité des résultats.

La bande passante est l'autre face de la médaille. Avec 12 piles HBM fonctionnant en parallèle, le sous-système de mémoire du Blackwell Ultra est extrêmement large. À son apogée, il peut atteindre un débit de ~8 To/s de données[14]. C'est un chiffre astronomique – en comparaison, un GPU de PC haut de gamme avec GDDR6 pourrait avoir 0,5 To/s, et même les GPU de centre de données de la génération précédente étaient dans la gamme de 2 à 3 To/s[17]. Qu'est-ce que cela signifie en pratique ? Cela signifie que les cœurs GPU peuvent être alimentés en données même dans des charges de travail nécessitant beaucoup de mémoire. Les réseaux neuronaux impliquent souvent d'énormes multiplications de matrices (que les cœurs Tensor traitent) entrecoupées d'opérations limitées par la mémoire (comme les pondérations d'attention, les recherches d'intégration, etc.). Avec plus de bande passante, ces étapes limitées par la mémoire s'accélèrent, de sorte que la charge de travail globale subit moins de ralentissements. Le design du Blackwell Ultra équilibre essentiellement son immense puissance de calcul avec un débit mémoire tout aussi impressionnant, évitant le scénario où les unités de calcul sont inactives en attendant des données.

Pour être concret, imaginez un modèle transformateur générant une longue séquence : le mécanisme d'attention doit lire de grandes matrices clé/valeur depuis la mémoire. Sur Hopper H100, cela pouvait être un facteur limitant pour les séquences très longues, mais sur Blackwell Ultra avec HBM3e, le GPU peut intégrer ces matrices au double du débit, voire plus. Combiné avec les unités de calcul d'attention 2× plus rapides, cela permet d'atteindre des performances soutenues bien plus élevées sur des tâches comme la génération de texte de style GPT avec un long contexte. Le concept d'« AI Factory » de NVIDIA signifie également que la mémoire est agrégée à l'échelle du cluster – dans un rack de 72 GPU, cela représente plus de 20 To de mémoire GPU regroupée, avec une bande passante mémoire totale dans la gamme des centaines de To/s disponible dans le domaine connecté par NVLink[22][20]. Cela permet essentiellement à un cluster d'IA de se comporter comme un seul GPU géant avec des dizaines de téraoctets de mémoire rapide, un scénario idéal pour servir de nombreuses instances de grands modèles simultanément.

Économie des Clusters : Coût et Puissance à Grande Échelle

Avec la performance et l'efficacité couvertes, nous devons aborder l'aspect pratique du déploiement de Blackwell Ultra : le coût et l'infrastructure nécessaires. Ces GPU sont généralement vendus dans le cadre de systèmes plus grands tels que les racks GB300 NVL72 de NVIDIA ou les serveurs lames HGX B300. Une seule unité GB300 NVL72 intègre 72 GPU Blackwell Ultra plus 36 CPU Grace dans un rack, avec des commutateurs haute vitesse et un refroidissement[26][20]. C'est en fait un superordinateur AI dans une boîte, et il n'est pas bon marché. Selon des rapports de l'industrie, NVIDIA fixe le prix d'un rack complet GB300 NVL72 à environ 3 millions de dollars[27]. Cela revient à une moyenne de 40 000 dollars par GPU, ce qui est conforme au prix de liste approximatif de 30k–40k que NVIDIA a suggéré pour les unités Blackwell individuelles[28]. (Notamment, Jensen Huang a suggéré qu'ils ne vendront pas de puces ou de cartes autonomes aux clients finaux – ils préfèrent vendre les systèmes intégrés complets[28]. Cette stratégie de bundling augmente le coût initial mais garantit aux acheteurs une solution complète et optimisée.)

Pour quiconque planifiant un cluster IA, les dépenses d'investissement (CapEx) sont énormes. Un seul rack coûte 3 millions de dollars, et de nombreux déploiements impliquent plusieurs racks. CoreWeave, OpenAI, Meta, Microsoft – tous les grands acteurs – achèteraient autant qu'ils le peuvent. Ceux avec moins de pouvoir d'achat (startups, laboratoires académiques) font face à des prix gonflés sur le marché secondaire, où les H100 se revendaient auparavant à des dizaines de milliers au-dessus du prix de vente conseillé en raison de la rareté, et nous observons une tendance similaire avec Blackwell. Fin 2024, les cartes H100 80GB se vendaient entre 30 000 $ et 40 000 $ dans certains cas lorsque l'offre ne pouvait pas suivre la demande. Blackwell Ultra suit le même chemin, doublant effectivement les prix de la "ruée vers l'or de l'IA". En bref, seules les organisations avec de gros moyens financiers ou des crédits cloud peuvent se permettre de jouer à ce niveau de matériel actuellement.

Coûts de Puissance et de Refroidissement : En plus du prix d'achat, les coûts opérationnels (OpEx) pour faire fonctionner ces clusters sont significatifs. Chaque GPU Blackwell Ultra peut consommer jusqu'à ~1400 W à plein régime lorsqu'il est entièrement utilisé[15] – soit le double ou plus du TDP typique de 700W d'un H100 SXM. Dans un rack de 72 GPU, cela signifie que les seuls GPU pourraient consommer environ 100 kW de puissance (sans compter les frais pour les CPU, le réseau, etc.). En effet, une armoire NVL72 entièrement chargée avec 18 plateaux de GPU consomme de l'ordre de >100 kW et nécessite un refroidissement avancé. NVIDIA a opté pour le refroidissement liquide dans ces systèmes, mais même cela a un coût : une analyse récente de Morgan Stanley a estimé le coût des matériaux pour le système de refroidissement liquide à ~$50,000 par rack[30]. Cela inclut des plaques froides sur mesure, des pompes, des échangeurs de chaleur, etc. Et à mesure que les systèmes de prochaine génération augmentent en puissance (rumeur : la génération suivante « Vera Rubin » pourrait atteindre 1,8kW par GPU), le coût de refroidissement par rack devrait augmenter à ~$56k[31][32].

En d'autres termes, en plus des 3 millions de dollars en silicium, vous pourriez dépenser des dizaines de milliers pour la plomberie et la gestion de la chaleur. Ajoutez à cela la facture d'électricité : 100 kW fonctionnant 24/7 représentent environ 2,4 MWh par jour. Aux tarifs des centres de données commerciaux, cela pourrait coûter de l'ordre de 200 à 400 dollars par jour en frais d'énergie par rack (plus de 100 000 dollars par an), sans compter le refroidissement et les frais d'infrastructure. Clairement, exploiter un supercalculateur d'IA n'est pas pour les cœurs ou les budgets sensibles.

Cependant, c'est là que l'économie des clusters se justifie : débit et TCO. Si un rack Blackwell Ultra délivre, disons, 50 fois la production d'un rack de génération précédente (comme le suggère NVIDIA pour certaines charges de travail)[2], alors un centre de données pourrait avoir besoin de moins de racks au total (et donc moins de puissance/refroidissement total) pour atteindre une charge de travail cible. L'efficacité accrue signifie que par requête, le coût en énergie peut en fait être plus bas malgré une consommation de puissance absolue plus élevée, parce que chaque GPU traite beaucoup plus de requêtes en parallèle. Pour les fournisseurs de cloud qui louent du temps GPU, cela signifie potentiellement qu'ils peuvent offrir plus de performance aux clients pour le même coût, ou obtenir de meilleures marges. Une analyse de Medium a supposé que si les GPU Blackwell offrent beaucoup plus de performance pour à peu près le même prix de location que les H100, le coût du calcul par IA (par TFLOP-heure) dans le cloud diminuera, du moins une fois que l'offre rattrapera la demande[33]. Cela pourrait démocratiser l'accès aux grands modèles si les prix se normalisent. Bien sûr, à court terme, les contraintes d'approvisionnement signifient que les prix de location restent élevés – de nombreuses instances GPU dans le cloud sont chères ou sur liste d'attente parce que tout le monde veut ce nouveau matériel.

En résumé, l'économie de Blackwell Ultra à l'échelle des clusters implique d'énormes investissements initiaux, mais promet des gains significatifs en efficacité et en capacités à long terme. Les entreprises qui peuvent sécuriser ces systèmes tôt obtiennent un avantage concurrentiel dans le développement et le déploiement de modèles d'IA – c'est précisément pour cela que la course à l'achat de GPU a été comparée à une « course aux armements ». C'est aussi pourquoi le chiffre d'affaires des centres de données de NVIDIA a explosé de 66 % en glissement annuel ce trimestre-là : pratiquement toutes les grandes entreprises technologiques et startups d'IA investissent massivement dans l'infrastructure GPU, même si cela signifie tolérer des prix élevés et des livraisons retardées.

La pénurie d'approvisionnement : rareté et rumeurs « H300 »

Tout cela conduit à la pénurie d'approvisionnement qui sous-tend le battage médiatique viral. En termes simples, la demande dépasse largement l'offre pour les accélérateurs d'IA de NVIDIA en ce moment. La directrice financière de NVIDIA, Colette Kress, a noté lors d'un récent appel sur les résultats que « les clouds sont complets » – les principaux fournisseurs de cloud ont entièrement réservé leur capacité GPU – et même les GPU de génération précédente comme les H100 et Ampere A100 sont « entièrement utilisés » dans la base installée[35]. NVIDIA a reconnu qu'elle est limitée par l'approvisionnement et qu'elle augmente la production aussi rapidement que possible (avec des attentes d'augmentation significative d'ici le 2ème semestre 2024)[36]. Jensen Huang, lors d'un voyage chez TSMC à Taïwan, a déclaré qu'il avait demandé à leur fonderie autant de plaquettes que possible pour répondre à la « très forte demande » pour les puces Blackwell[37][38]. Le PDG de TSMC a même surnommé Jensen le « monsieur cinq mille milliards » alors que la capitalisation boursière de NVIDIA a atteint 5 000 milliards de dollars grâce à l'optimisme autour de l'IA[39]. En résumé, NVIDIA vend chaque puce qu'elle peut fabriquer et pousse ses partenaires à accélérer la production – mais cela n'est toujours pas suffisant à court terme.

Plusieurs facteurs contribuent au goulot d'étranglement :

  • Chaîne d'approvisionnement complexe : Ce ne sont pas seulement des GPU ; NVIDIA vend maintenant des systèmes entiers (avec GPU, CPU, réseaux, refroidisseurs, etc.). Un rapport de Taïwan a indiqué que certains composants – notamment pour les systèmes de refroidissement liquide dans les nouveaux serveurs GB200 (Blackwell) – sont en pénurie[40]. Les fournisseurs taïwanais comme Foxconn et Wistron rencontrent apparemment des obstacles sur des éléments comme les pompes ou les matériaux des plaques froides[41]. La décision de NVIDIA de se concentrer sur des conceptions refroidies par liquide a ajouté de nouvelles dépendances à la chaîne d'approvisionnement[42]. L'enquête de la Bank of America citée dans ce rapport a suggéré que NVIDIA pourrait détourner certaines commandes vers des systèmes légèrement plus anciens basés sur Hopper (comme un H200 HGX refroidi par air) si les systèmes Blackwell étaient retardés[43]. Jusqu'à présent, NVIDIA a réussi à lancer Blackwell Ultra à temps en 2025, mais les premières unités ont probablement été attribuées à quelques clients clés (comme Meta, Microsoft)[44]. Les acheteurs plus petits attendent leur tour.
  • Capacité chez TSMC : Les GPU Blackwell sont fabriqués sur le processus de classe 3 nm de TSMC (4N est une dérivée personnalisée de 5 nm pour les précédents ; le plus récent pourrait être en 3 nm pour « Ultra »). La capacité de pointe de TSMC est limitée et largement réservée par NVIDIA et d'autres géants comme Apple. NVIDIA aurait augmenté ses commandes de tranches de 50 % pour 2024–2025 afin d'assurer plus d'approvisionnement[45]. Même ainsi, les délais pour les puces peuvent être de plusieurs mois. En effet, certains analystes affirment que NVIDIA a pré-réservé tellement de capacité chez TSMC jusqu'en 2026 que le rival AMD aura du mal à se faire une place dans les accélérateurs IA[46][47]. Cette domination garantit que NVIDIA peut augmenter l'offre à long terme, mais à court terme, cela signifie également aucun soulagement rapide – les usines fonctionnent à plein régime, mais chaque entreprise d'IA veut des GPU "hier".
  • Restrictions à l'exportation : Un facteur externe est les limites d'exportation des États-Unis sur la vente de puces IA de premier plan à la Chine. NVIDIA ne peut pas vendre les puces haut de gamme H100 ou Blackwell à la Chine en raison de contrôles gouvernementaux[48]. On pourrait penser que cela laisse plus d'approvisionnement pour le reste du monde, mais NVIDIA a créé des variantes légèrement limitées (comme les modèles H100 « CN ») pour la Chine qui consomment encore une partie de la capacité de production. De plus, la demande chinoise pour le calcul IA est massive, et s'ils ne peuvent pas obtenir les dernières puces NVIDIA, ils pourraient acheter les plus anciennes, maintenant indirectement la pression sur l'approvisionnement mondial. Quoi qu'il en soit, la demande occidentale à elle seule est suffisante pour consommer toute la production actuelle, et les restrictions en Chine ajoutent de la complexité à la façon dont NVIDIA alloue son inventaire.

La mention de « H300 » dans la discussion fait probablement référence à la prochaine grande mise à niveau de GPU à l'horizon. La feuille de route de NVIDIA après Blackwell serait, selon certaines rumeurs, nommée en code Vera Rubin (du nom de l'astronome) – certains passionnés ont surnommé de manière informelle cette future série hypothétique « H300 » en gardant le style de dénomination Hopper. Bien que Blackwell Ultra soit déjà là, les entreprises spéculent déjà sur ce qui suivra. Par exemple, imaginez qu'en 2027, NVIDIA pourrait lancer une autre avancée, par exemple un GPU « H300 » construit sur un procédé de 3 nm ou 2 nm, peut-être 10 à 15 % plus efficace que Blackwell Ultra (comme l'a suggéré un commentateur sur Reddit)[49][50]. Cela atténuera-t-il immédiatement la pénurie ? Peu probable. La plupart des grands acteurs digéreront encore leurs déploiements Blackwell à ce moment-là ; ils ne mettront pas au rebut des milliards de dollars de matériel du jour au lendemain pour un gain marginal[49][50]. Donc, même si un GPU « H300 » ou Rubin apparaît, la demande continuera de dépasser l'offre dans un avenir prévisible car l'adoption de l'IA continue d'accélérer dans les industries. Comme l'a dit un analyste, NVIDIA est entrée dans un « cercle vertueux de l'IA » – plus d'utilisation génère plus de demande de calcul, ce qui permet plus d'applications, et ainsi de suite[8].

En termes pratiques, les conseils de Jensen Huang sont que l'offre restera limitée jusqu'à l'année prochaine. Les fabricants de mémoire comme SK Hynix ont déjà vendu leur production de HBM jusqu'à l'année prochaine en raison de l'essor de l'IA[51][52]. La propre prévision de NVIDIA pour le quatrième trimestre est un chiffre d'affaires de 65 milliards de dollars – une autre augmentation – qui suppose qu'ils peuvent expédier chaque Blackwell qu'ils peuvent fabriquer[53]. Ainsi, la "pénurie d'approvisionnement" ne se termine pas immédiatement ; au contraire, les prix resteront élevés et les GPU resteront limités par l'allocation bien au-delà de 2025. Nous ne verrons peut-être un soulagement que lorsque des fournisseurs de cloud de deuxième niveau ou des entreprises plus petites décideront que le coût est trop élevé et suspendront leurs commandes – mais pour l'instant, tout le monde est en mode conquête pour le calcul de l'IA. La stratégie de NVIDIA de vendre des systèmes complets signifie également que si vous voulez ces GPU, vous devez souvent acheter des serveurs complets coûteux ou même des pods entiers, ce qui concentre encore plus qui peut les obtenir.

Le cas de l'efficacité : Cadres IA allégés (Perspective de Macaron)

Avec des coûts si élevés et des limites d'approvisionnement pour le matériel IA de pointe, il vaut la peine de considérer comment le logiciel et l'architecture pourraient s'adapter. Un angle intrigant est l'argument en faveur des cadres d'agents légers – en gros, concevoir des systèmes d'IA qui reposent sur plusieurs modèles spécialisés et plus petits ou « agents » travaillant ensemble plutôt qu'un modèle monolithique géant nécessitant un super-GPU. C'est là qu'interviennent des approches comme Macaron, prônant des agents IA plus efficaces et économes en mémoire.

Pourquoi cela pourrait-il être une bonne option maintenant ? Parce que si le calcul est le nouveau pétrole, alors maximiser ce que vous pouvez faire avec une certaine quantité de calcul est primordial. Blackwell Ultra offre un énorme coup de pouce, mais tout le monde ne peut pas obtenir ces GPU. Même ceux qui le peuvent voudront les utiliser de la manière la plus efficace possible. Les agents IA légers consistent à être astucieux avec le calcul : - Ils peuvent être conçus pour gérer les tâches de manière modulaire, ne faisant tourner que le modèle nécessaire pour une sous-tâche, plutôt que de faire tourner un modèle massif de bout en bout pour chaque requête. - Ils utilisent souvent des techniques comme la récupération (ne puisant dans le contexte pertinent que lorsque c'est nécessaire) ou la mise en cache des résultats, ce qui réduit les calculs redondants. - Les modèles plus petits peuvent souvent être exécutés sur du matériel moins coûteux ou plus facilement disponible (même des anciens GPU ou CPU), ce qui est un grand avantage lorsque les GPU haut de gamme sont rares ou ultra-coûteux.

Par exemple, au lieu d'un modèle unique de 175 milliards de paramètres qui fait tout, vous pourriez avoir une collection de 10 modèles plus petits (disons de 5 à 20 milliards chacun) chacun ajusté pour des domaines spécifiques (un pour le codage, un pour les mathématiques, un pour le dialogue, etc.), coordonnés par un cadre d'agents. Ceux-ci pourraient collectivement utiliser beaucoup moins de mémoire et de calcul pour une requête donnée, car l'agent dirige intelligemment la requête vers la bonne expertise. Cette approche peut être plus rentable à exécuter – surtout si vos ressources matérielles sont limitées. C'est comparable aux microservices dans le cloud computing : utiliser le bon petit service pour le travail, au lieu d'une seule grande application gérant toutes les tâches de manière inefficace.

Des projets comme Macaron AI ont exploré des architectures de mémoire plus profondes et agentiques où un système d'IA compose des solutions en faisant appel à différentes compétences ou bases de connaissances (un peu comme les humains pourraient consulter un spécialiste pour une question spécifique). Dans un monde où tout le monde n'a pas un cluster Blackwell Ultra, de tels designs pourraient permettre à plus de personnes d'effectuer des tâches avancées d'IA sur un matériel modéré. C'est une réponse pragmatique au goulot d'étranglement matériel actuel.

De plus, même dans le haut de gamme, l'efficacité est bénéfique pour les affaires. Les hyperscalers qui achètent en masse le Blackwell Ultra investissent également dans des optimisations logicielles – des compilateurs améliorés aux frameworks distribués – pour maximiser le débit de chaque heure de GPU (car à 40 000 $ pièce, chaque utilisation compte). Un cadre d'agent léger qui peut, par exemple, réduire la longueur du contexte transmis à un grand modèle en prétraitant les requêtes (économisant ainsi du calcul), ou qui peut déléguer une partie de la logique à des machines moins coûteuses, permettra d'économiser directement de l'argent. Nous voyons des indices de cela dans les systèmes émergents où un grand modèle est complété par de petits outils ou une base de données ; le grand modèle n'est invoqué que lorsque cela est absolument nécessaire. Cette philosophie s'aligne bien avec l'argument de Macaron selon lequel il ne faut pas utiliser un marteau AI pour chaque clou, mais plutôt une boîte à outils de marteaux et de scalpels.

En résumé, l'ajustement Macaron ici consiste à reconnaître que bien que les dernières innovations de NVIDIA permettent des prouesses incroyables, l'industrie doit également rendre l'IA accessible et durable. Pousser uniquement pour des modèles toujours plus grands sur du matériel toujours plus coûteux présente des rendements décroissants pour de nombreuses applications. Il y a une opportunité (et sans doute un besoin) d'innovation dans la manière dont nous concevons des solutions d'IA pour qu'elles soient plus légères, plus modulaires et moins gourmandes en ressources. Cela ne signifie pas que nous devons cesser de rechercher des GPU puissants ou de grands modèles ; plutôt, il s'agit de les utiliser de manière plus judicieuse. La crise actuelle de l'approvisionnement et l'explosion des coûts forcent cette conversation. Il est probable que nous verrons plus d'approches hybrides : par exemple, un service d'IA pourrait utiliser des GPU Blackwell Ultra pour les gros travaux d'inférence de modèle, mais seulement après qu'un système frontal léger ait distillé la demande, récupéré les données pertinentes et déterminé que le grand modèle doit vraiment être exécuté. Ainsi, les cycles de GPU coûteux ne sont utilisés que lorsque c'est nécessaire, améliorant le rendement global par dollar.

Conclusion

L'avènement des GPU Blackwell Ultra de NVIDIA marque un tournant majeur dans l'infrastructure IA – offrant des améliorations de performance spectaculaires en raisonnement et inférence IA, tout en soulignant les nouveaux défis du succès : pénuries d'approvisionnement, coûts exorbitants, et l'appétit toujours croissant pour la puissance de calcul. Nous avons constaté comment le Blackwell Ultra améliore considérablement la performance (surtout en basse précision) et l'efficacité (performance par watt), permettant des avancées comme une production IA 50 fois supérieure et des médias génératifs en temps réel qui étaient hors de portée il y a seulement un an[54][5]. Sa mémoire HBM3e robuste et son architecture avancée éliminent les goulets d'étranglement, mais en même temps, l'ampleur et la consommation d'énergie de ces systèmes introduisent des obstacles logistiques et économiques – des étiquettes de prix à 3 millions de dollars aux racks de 100 kW nécessitant un refroidissement spécialisé.

La « pénurie d'approvisionnement en GPU AI » est un problème réel et actuel : l'ensemble de la production de NVIDIA est essentiellement réservée, et « en rupture de stock » est devenu la norme[8]. Cette rareté, avec des GPU se vendant à plus de 30k $, pousse les investisseurs et les praticiens à se concentrer sur la meilleure façon d'utiliser le matériel disponible. Cela souligne un point important : pour l'industrie dans son ensemble, il n'est pas viable de se fier uniquement à l'échelle brute. C'est pourquoi l'efficacité – qu'il s'agisse de matériel amélioré comme le Blackwell Ultra ou de logiciels plus intelligents comme les frameworks d'agents légers – est le maître mot pour l'avenir.

À court terme, le Blackwell Ultra de NVIDIA continuera de dominer les gros titres et les plans de déploiement, et on peut s'attendre à ce que la frénésie d'achat pour ces GPU persiste jusqu'à ce que l'offre rattrape la demande (ce qui pourrait ne pas arriver avant la prochaine architecture et l'expansion des usines). Pour les organisations développant des capacités en IA, il y a deux leçons : si vous pouvez obtenir du matériel de pointe, cela vous donnera un avantage, mais vous devez également concevoir votre pile IA intelligemment pour tirer le meilleur parti de chaque FLOP. Cela pourrait signifier intégrer des modèles plus petits, optimiser le code pour de nouvelles précisions, ou investir dans la gestion des données – tout pour éviter le calcul gaspillé, ce qui dans ce contexte est de l'argent gaspillé.

En regardant vers l'avenir, la trajectoire du matériel IA suggère des performances encore plus grandes (l'hypothétique « H300 » et la génération Rubin à venir) et probablement une demande continue élevée. Ainsi, le défi de l'industrie sera de concilier cette capacité incroyable avec l'accessibilité. L'efficacité, l'évolutivité et l'innovation au niveau logiciel seront essentielles pour garantir que la révolution de l'IA alimentée par des GPU comme le Blackwell Ultra soit accessible à un large éventail d'acteurs, et pas seulement à ceux disposant des plus grandes ressources ou des plus grands centres de données. En bref, la dernière merveille de NVIDIA a ouvert de nouveaux horizons, mais elle nous rappelle aussi que dans l'IA (comme dans l'informatique en général), l'utilisation intelligente des ressources est tout aussi importante que la puissance brute.

Sources : Documentation produit et technique de NVIDIA[54][1][16], rapports d'actualités du secteur[8][43], et analyses d'experts[28][27] détaillant les performances, la chaîne d'approvisionnement et l'impact de Blackwell Ultra sur l'économie de l'IA.


[1] [3] [4] [9] [10] [11] [12] [13] [14] À l'intérieur de NVIDIA Blackwell Ultra : la puce qui alimente l'ère des usines d'IA | Blog technique de NVIDIA

https://developer.nvidia.com/blog/inside-nvidia-blackwell-ultra-the-chip-powering-the-ai-factory-era/

[2] [5] [16] [20] [21] [22] [25] [26] [54] Conçu pour la performance et l'efficacité du raisonnement IA | NVIDIA GB300 NVL72

https://www.nvidia.com/en-us/data-center/gb300-nvl72/

[6] [7] [34] [35] Nvidia : Blackwell Ultra prend la tête en pilotant une croissance de 62 % vers un chiffre d'affaires record

https://www.crn.com/news/components-peripherals/2025/nvidia-blackwell-ultra-takes-lead-in-helping-drive-62-percent-growth-to-record-revenue

[8] [53] Les revenus de Nvidia montent en flèche à un record de 57 milliards de dollars par trimestre — toutes les GPU sont épuisées | Tom's Hardware

https://www.tomshardware.com/pc-components/gpus/nvidias-revenue-skyrockets-to-record-usd57-billion-per-quarter-all-gpus-are-sold-out

[15] Super Micro Computer, Inc. - Supermicro commence les expéditions en volume des systèmes NVIDIA Blackwell Ultra et des solutions de centre de données Plug-and-Play à l'échelle du rack

https://ir.supermicro.com/news/news-details/2025/Supermicro-Begins-Volume-Shipments-of-NVIDIA-Blackwell-Ultra-Systems-and-Rack-Plug-and-Play-Data-Center-Scale-Solutions/default.aspx

[17] Architecture NVIDIA Hopper en profondeur | Blog Technique NVIDIA

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

[18] [19] NVIDIA H200

http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB

[23] Présentation de NVFP4 pour une inférence précise et efficace à basse précision

https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/

[24] NVIDIA Blackwell vs. Blackwell Ultra B300 : Faut-il acheter ou attendre ?

https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/

[27] [46] [47] NVIDIA prévoit d'expédier 5,2M de GPU Blackwell en 2025, 1,8M en 2026, et 5,7M de GPU Rubin en 2026 : r/AMD_Stock

https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/

[28] [29] [33] Blackwell GPUs et la nouvelle économie des prix du cloud AI | par elongated_musk | Medium

https://medium.com/@Elongated_musk/blackwell-gpus-and-the-new-economics-of-cloud-ai-pricing-5e35ae42a78f

[30] [31] [32] Le système de refroidissement pour un seul rack Nvidia Blackwell Ultra NVL72 coûte la somme exorbitante de 50 000 $ — et devrait augmenter à 56 000 $ avec les racks NVL144 de nouvelle génération | Tom's Hardware

https://www.tomshardware.com/pc-components/cooling/cooling-system-for-a-single-nvidia-blackwell-ultra-nvl72-rack-costs-a-staggering-usd50-000-set-to-increase-to-usd56-000-with-next-generation-nvl144-racks

[36] [40] [41] [42] [43] [44] Les serveurs NVIDIA Blackwell AI exposés à une "pénurie de composants", une offre limitée attendue au quatrième trimestre 2024

https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/

[37] [38] [39] [48] [51] [52] Le PDG de Nvidia, Huang, voit une forte demande pour les puces Blackwell | Reuters

https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/

[45] Nvidia augmente sa commande de wafers chez TSMC de 50 % pour les puces Blackwell - LinkedIn

https://www.linkedin.com/posts/jeffcooper_nvidia-orders-50-more-wafers-from-tsmc-amid-activity-7393655145571516416-D79S

[49] [50] Sam Altman : « Nous n'avons plus de GPU. ChatGPT atteint de nouveaux sommets d'utilisateurs chaque jour. Nous devons faire ces horribles compromis en ce moment. Nous avons de meilleurs modèles, mais nous ne pouvons tout simplement pas les proposer car nous n'avons pas la capacité. Nous avons d'autres types de nouveaux produits et services que nous aimerions offrir. » : r/accelerate

https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/

Boxu a obtenu son diplôme de licence à l'Université Emory en économie quantitative. Avant de rejoindre Macaron, Boxu a passé la majeure partie de sa carrière dans le domaine des capitaux privés et du capital-risque aux États-Unis. Il est maintenant chef de cabinet et vice-président du marketing chez Macaron AI, gérant les finances, la logistique et les opérations, tout en supervisant le marketing.

Postuler pour devenir Les premiers amis de Macaron