
Autore: Boxu Li
L'ultima piattaforma GPU di NVIDIA, Blackwell Ultra, ha travolto il mondo dell'AI, tanto da causare una seria carenza di fornitura. Gli analisti di Wall Street e i ricercatori di AI sui social media parlano senza sosta delle prestazioni da record, dei prezzi in aumento e della domanda senza precedenti per questi chip. In questo approfondimento, esploreremo perché Blackwell Ultra è una notizia virale, esamineremo le sue innovazioni in termini di prestazioni per watt e larghezza di banda della memoria, discuteremo l'economia dei cluster nell'implementazione di queste GPU su larga scala e considereremo perché questa frenesia sta stimolando una ripensamento dei framework AI leggeri. Nel corso del testo, sosterremo i fatti con fonti credibili e ci concentreremo sui dettagli tecnici per un pubblico esperto.
Prestazioni Incomparabili: Le GPU Blackwell Ultra di NVIDIA offrono un enorme salto nella capacità di inferenza AI. I primi benchmark mostrano una produttività a bassa precisione 7,5× superiore rispetto alle GPU Hopper H100 della generazione precedente[1]. In effetti, Blackwell Ultra può eseguire calcoli matematici densi a 4-bit di precisione (formato NVFP4) a 15 PFLOPS, contro circa 2 PFLOPS su un H100 (FP8) – un aumento di 7,5× nella produttività grezza[1]. Questo salto si traduce in un'inferenza del modello AI notevolmente più veloce. Ad esempio, NVIDIA riferisce che un sistema basato su Blackwell Ultra raggiunge un aumento complessivo di 50× nella produzione “factory” AI (produttività delle risposte) rispetto a una piattaforma basata su Hopper, grazie a una reattività per utente circa 10× superiore e una produttività 5× maggiore per megawatt di potenza[2]. In altre parole, Blackwell Ultra non aggiunge solo forza bruta, ma lo fa in modo molto più efficiente, offrendo 5× più prestazioni per watt nelle implementazioni su larga scala[2].
Nuove Capacità di Inferenza: Blackwell Ultra introduce un nuovo formato a 4 bit di precisione chiamato NVFP4 che consente velocità di inferenza estreme senza sacrificare molta accuratezza. Questo formato utilizza un ingegnoso scaling a due livelli per preservare l'accuratezza, raggiungendo una qualità quasi a livello di FP8 con un costo di memoria e calcolo molto inferiore[3]. Il risultato è che i Tensor Cores di Blackwell Ultra possono eseguire calcoli a bassa precisione a livelli precedentemente impossibili – 1,5× il throughput FP4 delle GPU standard Blackwell, e molte volte più veloce rispetto alle precedenti architetture[1]. NVIDIA ha anche raddoppiato il throughput dell'unità di funzione speciale per le operazioni chiave di attenzione del trasformatore, quindi i livelli di attenzione funzionano fino a 2× più velocemente rispetto ai chip Blackwell base[4]. Questi progressi mirano ai principali colli di bottiglia dei modelli di linguaggio di grandi dimensioni e dell'inferenza AI generativa, abilitando funzionalità come il video generativo in tempo reale. Infatti, una demo ha mostrato Blackwell Ultra generare un video AI di 5 secondi 30× più velocemente rispetto alle GPU Hopper, trasformando un lavoro di 90 secondi in output in tempo reale[5].
Hype di Wall Street e Twitter: Tali guadagni di prestazioni non sono passati inosservati. Le azioni di NVIDIA sono salite alle stelle in previsione di ricavi record alimentati da Blackwell. Nel terzo trimestre del 2025, i ricavi del data-center hanno raggiunto i 51,2 miliardi di dollari (90% delle vendite di NVIDIA), grazie in gran parte all'aumento di Blackwell Ultra, che l'azienda afferma essere ora la sua “architettura leader in tutte le categorie di clienti”[6][7]. Il CEO Jensen Huang ha osservato che “le vendite di Blackwell sono fuori scala e le GPU cloud sono esaurite”, con la domanda che supera di gran lunga l'offerta[8]. I laboratori AI e i fornitori di cloud stanno correndo per ottenere questi chip, e i social media sono pieni di aneddoti su ordini arretrati estremi e rincari sul mercato secondario. Questa frenesia alimentata dalla scarsità sta facendo salire i prezzi e rendendo Blackwell Ultra un argomento di tendenza sia nei circoli tecnologici che finanziari.
Figura: Il throughput AI a bassa precisione è aumentato vertiginosamente con Blackwell Ultra. Ogni GPU Blackwell Ultra offre 15 PFLOPS di calcolo AI denso a 4 bit, un incremento di 1,5× rispetto a un già potente chip Blackwell, e circa 7,5× il throughput FP8 della precedente generazione Hopper di NVIDIA (H100/H200)[1]. Questo enorme salto generazionale nella potenza di calcolo è un fattore chiave del boom attuale dell'infrastruttura AI.
Al cuore di Blackwell Ultra c'è un design all'avanguardia progettato specificamente per l'inferenza AI su larga scala. Ogni GPU è composta da doppi die GPU su un unico pacchetto, collegati da un'interconnessione ad alta larghezza di banda da 10 TB/s[9]. Questo approccio multi-die (simile alle architetture chiplet) consente a NVIDIA di concentrare una quantità enorme di capacità di elaborazione in un unico “GPU”. Il chip completo Blackwell Ultra ha 160 Multiprocessori di Streaming (SMs) suddivisi in 8 cluster GPC, per un totale di 640 Tensor Core di quinta generazione per GPU[10][11]. Quei Tensor Core sono i cavalli di battaglia dell'AI e in Blackwell Ultra sono ottimizzati per le precisioni FP8, FP6 e il nuovo NVFP4. Ogni SM include anche 256 KB di “Tensor Memory” (TMEM) on-chip, una piccola area di memoria ad alta velocità che consente alla GPU di riutilizzare i dati per i calcoli matriciali in modo più efficiente[12][13]. Questa memoria a livello di SM, insieme a nuove modalità di elaborazione a doppio blocco, aiuta a ridurre il traffico di memoria off-chip e a mantenere i Tensor Core alimentati, migliorando l'efficacia del throughput e l'efficienza energetica[13].
Memoria HBM3e – Enorme e Veloce: Alimentare queste unità di calcolo richiede un enorme pool di memoria. Le GPU Blackwell Ultra sono dotate di 288 GB di memoria HBM3e ad alta larghezza di banda ciascuna[14]. Questo è 1,5× più memoria rispetto alla GPU standard per data center Blackwell (che ha ~192 GB)[15], e oltre 3,5× la memoria di un Hopper H100 (80 GB). Questo è importante perché i grandi modelli di linguaggio di oggi e altri carichi di lavoro AI spesso richiedono lunghezze di contesto e dimensioni di modello enormi. La memoria più grande consente di elaborare batch più grandi e sequenze più lunghe in una sola volta, migliorando il throughput per modelli complessi[16]. Anche la larghezza di banda della memoria è impressionante – nell'ordine di 8 TB/s per GPU (grazie a 12 stack di HBM3e)[14]. Per confronto, un modulo H100 SXM forniva circa 3 TB/s[17], e anche l'aggiornamento intermedio H200 con HBM3e era limitato a ~4,8 TB/s[18][19]. Con Blackwell Ultra, il sottosistema di memoria non è più il collo di bottiglia per molti carichi di lavoro: i modelli possono essere più grandi o accessibili in modo più efficiente, senza dover continuamente sovraccaricare la memoria esterna.
Grace Hopper a Grace Blackwell: Il design di NVIDIA integra strettamente anche CPU e networking con le GPU per migliorare le prestazioni a livello di cluster. Ogni “nodo” Blackwell Ultra abbina le GPU alle CPU Grace di NVIDIA tramite collegamenti NVLink-C2C ultra veloci (900 GB/s di larghezza di banda CPU-GPU)[14]. La CPU Grace porta con sé 2.592 core Arm e un'alta larghezza di banda di memoria (LPDDR5X) per alimentare le GPU[20][21]. Questa combinazione, a volte chiamata Grace Blackwell, garantisce che il calcolo GPU non sia limitato da CPU o I/O. Infatti, un sistema NVIDIA GB300 (dettagliato sotto) ha 36 CPU Grace che lavorano insieme alle 72 GPU in ogni rack, tutte collegate tramite 5ª gen. NVLink con una straordinaria larghezza di banda di 130 TB/s per connessioni a tutto campo[22][20]. Questo tessuto, insieme all'InfiniBand Quantum X di NVIDIA o all'Ethernet Spectrum-X tra i nodi, consente anche alle “fabbriche di AI” multi-rack di operare con una comunicazione inter-GPU veloce. L'obiettivo finale è scalare l'inferenza AI come un servizio cloud – concetto che NVIDIA definisce AI Factory – dove molti modelli e richieste operano in parallelo attraverso un cluster reticolato di acceleratori.
Uno degli aspetti più notevoli di Blackwell Ultra è quanto migliori l'efficienza energetica per i carichi di lavoro AI. Sì, ogni GPU consuma molta energia (parleremo tra poco dell'alto TDP), ma le prestazioni per watt sono aumentate significativamente rispetto alle generazioni precedenti. I dati di NVIDIA indicano che su larga scala, i sistemi Blackwell Ultra offrono 5× il throughput per megawatt di potenza rispetto ai sistemi basati su Hopper[2]. Questo è dovuto a diversi fattori che lavorano in tandem:
Vale la pena notare che i miglioramenti delle prestazioni per watt non sono solo teorici; influenzano direttamente i costi operativi dei data center. Se si riesce a ottenere 5× il throughput con lo stesso consumo energetico, si ottiene una grande riduzione del costo per query o per inferenza. Considerando che molti modelli di intelligenza artificiale sono distribuiti su larga scala (parliamo di milioni di query al giorno), questi miglioramenti di efficienza sono essenziali per contenere i costi di elettricità e raffreddamento. NVIDIA fornisce persino un calcolatore di efficienza energetica per le loro GPU[25], sottolineando quanto questo parametro sia diventato importante per i clienti.
Da un'altra prospettiva, AMD e altri concorrenti stanno anche promuovendo le prestazioni per watt per l'AI, ma a fine 2025 NVIDIA sembra aver fatto un balzo in avanti con Blackwell Ultra. Ad esempio, l'ammiraglia AMD MI300X (una GPU concorrente per l'inferenza AI) è ancora basata su tecnologia di classe 5nm e si concentra su operazioni a 8-bit e 16-bit; la mossa aggressiva di NVIDIA verso l'inferenza a 4-bit con hardware specializzato le conferisce un nuovo vantaggio in termini di efficienza. Questo è in parte il motivo per cui i fornitori di cloud sono desiderosi di investire in Blackwell Ultra nonostante l'alto costo iniziale – il costo totale di proprietà migliora quando si può fare di più con meno energia nel tempo.
I grandi modelli di IA sono notoriamente esigenti in termini di memoria e larghezza di banda, e Blackwell Ultra affronta direttamente questo problema con la sua architettura di memoria HBM3e. Come menzionato, ogni GPU dispone di 288 GB di memoria HBM3e integrata[14]. Si tratta di una quantità enorme di memoria veloce, anche rispetto alle GPU recenti come la H100 80GB o la H200 intermedia 141GB che ha introdotto l'HBM3e[18][19].
Il vantaggio immediato dei 288 GB per GPU è la possibilità di servire o ottimizzare modelli molto grandi in memoria (come modelli con centinaia di miliardi di parametri o LLM ad alto contesto) senza dividere il modello tra più GPU. È possibile anche un'elaborazione in batch più grande, che aumenta l'utilizzo. NVIDIA nota specificamente che la memoria 1,5× più grande su Blackwell Ultra (rispetto al suo predecessore) “aumenta il throughput del ragionamento AI per le lunghezze di contesto più grandi.”[16] Per applicazioni di IA come il question-answering su documenti lunghi o conversazioni estese con un assistente AI, la GPU può gestire più token contemporaneamente, migliorando sia la velocità che la qualità dei risultati.
La larghezza di banda è l'altra faccia della medaglia. Con 12 stack HBM che operano in parallelo, il sottosistema di memoria di Blackwell Ultra è estremamente ampio. Al massimo, può spingere circa ~8 TB/s di dati[14]. Questa è una cifra astronomica – per confronto, una GPU PC di fascia alta con GDDR6 potrebbe avere 0,5 TB/s, e persino le GPU per data center della generazione precedente erano nella gamma di 2–3 TB/s[17]. Cosa significa tutto questo in pratica? Significa che i core della GPU possono essere continuamente alimentati con dati anche in carichi di lavoro intensivi di memoria. Le reti neurali spesso coinvolgono enormi moltiplicazioni di matrici (gestite dai Tensor Cores) intervallate da operazioni legate alla memoria (come i pesi di attenzione, le ricerche di embedding, ecc.). Con più larghezza di banda, quei passaggi legati alla memoria accelerano, quindi il carico di lavoro complessivo subisce meno stalli. Il design di Blackwell Ultra bilancia essenzialmente il suo enorme potere di calcolo con una altrettanto formidabile velocità di trasferimento della memoria, evitando lo scenario in cui le unità di calcolo restano inattive in attesa di dati.
Per concretizzare, considera un modello transformer che genera una lunga sequenza: il meccanismo di attenzione deve leggere grandi matrici chiave/valore dalla memoria. Su Hopper H100, questo potrebbe essere stato un fattore limitante per sequenze molto lunghe, ma su Blackwell Ultra con HBM3e, la GPU può trasferire quelle matrici a una velocità doppia o superiore. Combinato con le unità di calcolo dell'attenzione 2 volte più veloci, raggiunge prestazioni sostenute molto più elevate in compiti come la generazione di testo in stile GPT con contesto lungo. Il concetto di NVIDIA “AI Factory” significa anche che la memoria è aggregata su scala di cluster – in un rack con 72 GPU, si tratta di oltre 20 TB di memoria GPU aggregata, con una larghezza di banda totale della memoria nell'ordine di centinaia di TB/s disponibile nel dominio connesso NVLink[22][20]. Questo consente essenzialmente a un cluster AI di comportarsi come una singola GPU gigante con decine di terabyte di memoria veloce, uno scenario ideale per servire molte istanze di grandi modelli contemporaneamente.
Con prestazioni ed efficienza coperte, dobbiamo affrontare il lato pratico del dispiegamento di Blackwell Ultra: il costo e l'infrastruttura richiesti. Queste GPU sono generalmente vendute come parte di sistemi più grandi come il rack GB300 NVL72 di NVIDIA o le blade server HGX B300. Un singolo unità GB300 NVL72 integra 72 GPU Blackwell Ultra più 36 CPU Grace in un rack, completo di switch ad alta velocità e raffreddamento[26][20]. Questo è essenzialmente un supercomputer AI in una scatola, e non è economico. Secondo i rapporti del settore, NVIDIA sta valutando un rack completo GB300 NVL72 a circa 3 milioni di dollari[27]. Questo si traduce in una media di 40.000 dollari per GPU, che è in linea con il prezzo di listino approssimativo di 30k–40k che NVIDIA ha suggerito per le unità Blackwell individuali[28]. (Notoriamente, Jensen Huang ha suggerito che non venderanno solo chip standalone o schede ai clienti finali – preferiscono vendere l'intero sistema integrato[28]. Questa strategia di bundling aumenta il costo iniziale, ma garantisce che gli acquirenti ottengano una soluzione completa e ottimizzata.)
Per chiunque stia pianificando un cluster AI, il capitale investito (CapEx) è enorme. Solo un rack costa $3M e molte installazioni coinvolgono più rack. CoreWeave, OpenAI, Meta, Microsoft – tutti i grandi giocatori – stanno comprando quante più unità possibile. Coloro che hanno meno potere d'acquisto (startup, laboratori accademici) affrontano prezzi gonfiati sul mercato secondario, dove gli H100 venivano rivenduti a decine di migliaia sopra il prezzo di listino a causa della scarsità, e stiamo vedendo una tendenza simile con Blackwell. Alla fine del 2024, le schede H100 da 80GB sono state vendute a $30k–$40k ciascuna in alcuni casi quando l'offerta non riusciva a soddisfare la domanda. Blackwell Ultra sta seguendo la stessa strada, raddoppiando efficacemente il prezzo della “corsa all'oro dell'AI”. In sintesi, solo le organizzazioni con grandi risorse finanziarie o crediti cloud possono permettersi di giocare a questo livello di hardware in questo momento.
Costi di alimentazione e raffreddamento: Oltre al prezzo d'acquisto, i costi operativi (OpEx) per il funzionamento di questi cluster sono significativi. Ogni GPU Blackwell Ultra può assorbire fino a ~1400 W al massimo quando è completamente utilizzata[15] – il doppio o più del tipico TDP di 700W di un H100 SXM. In un rack da 72 GPU, ciò significa che solo le GPU potrebbero consumare circa 100 kW di potenza (senza contare il sovraccarico per CPU, rete, ecc.). Infatti, un armadio NVL72 completamente carico con 18 vassoi GPU assorbe dell'ordine di >100 kW e richiede un raffreddamento avanzato. NVIDIA ha optato per il raffreddamento a liquido in questi sistemi, ma anche questo ha un costo: un'analisi recente di Morgan Stanley ha stimato il costo dei materiali per il sistema di raffreddamento a liquido a ~50.000 $ per rack[30]. Ciò include piastre fredde personalizzate, pompe, scambiatori di calore, ecc. E man mano che i sistemi di nuova generazione aumentano di potenza (si vocifera che la generazione successiva “Vera Rubin” potrebbe spingere a 1,8 kW per GPU), il costo di raffreddamento per rack è previsto in aumento a ~56k$[31][32].
In altre parole, oltre ai 3 milioni di dollari in silicio, potresti spendere decine di migliaia in impianti idraulici e gestione del calore. Inoltre, la bolletta elettrica: 100 kW in funzione 24 ore su 24, 7 giorni su 7, corrispondono a circa 2,4 MWh al giorno. Ai tassi dei data center commerciali, ciò potrebbe costare dai 200 ai 400 dollari al giorno per rack in termini di costi energetici (oltre 100k dollari all'anno), senza includere il raffreddamento e le spese infrastrutturali. Chiaramente, gestire un supercluster AI non è per chi ha un cuore o un budget deboli.
Tuttavia, ecco dove l'economia dei cluster si giustifica: produttività e TCO. Se un rack Blackwell Ultra offre, ad esempio, 50 volte l'output di un rack di generazione precedente (come suggerisce NVIDIA per determinati carichi di lavoro)[2], allora un data center potrebbe aver bisogno di meno rack totali (e quindi meno potenza/raffreddamento totale) per raggiungere un carico di lavoro obiettivo. L'aumento dell'efficienza significa che per ogni query, il costo energetico può essere effettivamente inferiore nonostante il maggiore consumo assoluto, poiché ogni GPU serve molte più query in parallelo. Per i fornitori di cloud che affittano tempo GPU, ciò significa potenzialmente che possono offrire più prestazioni ai clienti allo stesso costo, o ottenere margini migliori. Un'analisi di Medium ha ipotizzato che se le GPU Blackwell offrono molte più prestazioni a un prezzo di noleggio più o meno simile agli H100, il costo del cloud per il calcolo AI (per TFLOP-ora) diminuirà, almeno una volta che l'offerta si allinea alla domanda[33]. Questo potrebbe democratizzare l'accesso ai grandi modelli se i prezzi si normalizzano. Ovviamente, nel breve termine, le limitazioni dell'offerta significano che i prezzi di noleggio rimangono elevati: molte istanze di GPU cloud sono costose o in lista d'attesa perché tutti vogliono questo nuovo hardware.
In sintesi, l'economia di Blackwell Ultra su scala cluster implica enormi investimenti iniziali, ma promette significativi guadagni di efficienza e capacità a lungo termine. Le aziende che possono assicurarsi questi sistemi in anticipo guadagnano un vantaggio competitivo nello sviluppo e nella distribuzione dei modelli di intelligenza artificiale, motivo per cui la corsa all'acquisto di GPU è stata paragonata a una "corsa agli armamenti". È anche il motivo per cui le entrate del data center di NVIDIA sono esplose del 66% su base annua in quel trimestre[34]: praticamente ogni grande azienda tecnologica e startup AI sta investendo capitali nell'infrastruttura GPU, anche se ciò significa tollerare prezzi elevati e consegne ritardate.
Tutto ciò porta alla crisi di offerta che sostiene il clamore virale. In parole povere, la domanda supera di gran lunga l'offerta per gli acceleratori AI di NVIDIA al momento. Il CFO di NVIDIA, Colette Kress, ha osservato in una recente chiamata sugli utili che “le nuvole sono esaurite” - i principali fornitori di cloud hanno completamente prenotato la loro capacità GPU - e persino le GPU della generazione precedente come H100 e Ampere A100 sono “pienamente utilizzate” nella base installata[35]. NVIDIA ha riconosciuto di essere limitata dall'offerta e che sta aumentando la produzione il più velocemente possibile (con aspettative di un aumento significativo entro la seconda metà del 2024)[36]. Jensen Huang, durante un viaggio alla TSMC a Taiwan, ha detto di aver chiesto alla loro fonderia il maggior numero possibile di wafer per soddisfare la “fortissima domanda” di chip Blackwell[37][38]. Il CEO di TSMC ha persino soprannominato Jensen il “uomo dei cinque trilioni di dollari” poiché la capitalizzazione di mercato di NVIDIA ha raggiunto i 5 trilioni di dollari grazie all'ottimismo attorno all'AI[39]. In breve, NVIDIA sta vendendo ogni chip che riesce a produrre e spinge i partner ad accelerare la produzione, ma nel breve termine non è ancora sufficiente.
Diversi fattori contribuiscono al collo di bottiglia:
Il riferimento a 「H300」 nella discussione probabilmente si riferisce al prossimo importante aggiornamento GPU all'orizzonte. Si vocifera che la roadmap di NVIDIA, dopo Blackwell, sia chiamata in codice Vera Rubin (dal nome dell'astronoma) – alcuni appassionati hanno informalmente soprannominato questa ipotetica futura serie 「H300」, in linea con lo stile di denominazione Hopper. Mentre Blackwell Ultra è già qui, le aziende stanno già speculando su cosa verrà dopo. Per esempio, immagina che intorno al 2027, NVIDIA possa rilasciare un altro salto tecnologico, ad esempio una GPU 「H300」 costruita su un processo a 3nm o 2nm, forse il 10–15% più efficiente di Blackwell Ultra (come ha ipotizzato un commentatore su Reddit)[49][50]. Questo allevierà immediatamente la carenza? Improbabile. La maggior parte dei grandi attori starà ancora digerendo le loro implementazioni di Blackwell; non abbandoneranno miliardi di dollari di hardware dall'oggi al domani per un guadagno marginale[49][50]. Quindi, anche se dovesse apparire una GPU 「H300」 o Rubin, la domanda continuerà a superare l'offerta per il prossimo futuro, poiché l'adozione dell'IA sta ancora accelerando in tutti i settori. Come ha affermato un analista, NVIDIA è entrata in un 「circolo virtuoso dell'IA」 – più uso genera più domanda di calcolo, che abilita più applicazioni, e così via[8].
In termini pratici, la guida di Jensen Huang è che l'offerta rimarrà limitata fino all'anno prossimo. I produttori di memoria come SK Hynix hanno già esaurito la loro produzione di HBM fino all'anno prossimo a causa del boom dell'IA[51][52]. La stessa previsione di NVIDIA per il Q4 è un fatturato di 65 miliardi di dollari – un altro salto – che presuppone che possano spedire ogni Blackwell che riescono a produrre[53]. Quindi, la “crisi dell'offerta” non finirà immediatamente; se mai, i prezzi rimarranno alti e le GPU continueranno a essere vincolate all'allocazione ben oltre il 2025. Potremmo non vedere sollievo fino a quando i fornitori di cloud di secondo livello o le aziende più piccole decideranno che il costo è troppo alto e sospenderanno gli ordini – ma al momento, tutti sono in modalità di acquisizione di risorse per il calcolo dell'IA. La strategia di NVIDIA di vendere sistemi completi significa anche che se vuoi queste GPU, spesso devi acquistare interi server costosi o persino interi pod, il che concentra ulteriormente chi può ottenerli.
Con costi così elevati e limiti di fornitura per l'hardware AI all'avanguardia, vale la pena considerare come il software e l'architettura possano adattarsi. Un angolo intrigante è l'argomento a favore dei framework di agenti leggeri – fondamentalmente, progettare sistemi AI che si basano su molteplici modelli specializzati, più piccoli o “agenti” che lavorano insieme piuttosto che su un unico modello monolitico gigante che richiede un super-GPU. Ed è qui che entrano in gioco approcci come Macaron, che promuovono agenti AI più efficienti e attenti alla memoria.
Perché potrebbe essere una buona soluzione ora? Perché se il calcolo è il nuovo petrolio, allora massimizzare ciò che si può fare con una determinata quantità di calcolo è fondamentale. Blackwell Ultra offre un grande impulso, ma non tutti possono ottenere quelle GPU. Anche chi può vorrà usarle nel modo più efficiente possibile. Gli agenti AI leggeri riguardano l'essere intelligenti con il calcolo: - Possono essere progettati per gestire le attività in modo modulare, attivando solo il modello necessario per un sotto-compito, invece di eseguire un modello enorme dall'inizio alla fine per ogni richiesta. - Spesso utilizzano tecniche come il recupero (richiamando il contesto rilevante solo quando necessario) o la memorizzazione dei risultati, che riducono il calcolo ridondante. - I modelli più piccoli possono spesso essere eseguiti su hardware più economico o più facilmente disponibile (anche GPU o CPU più vecchi), il che rappresenta un grande vantaggio quando le GPU di alto livello sono scarse o ultra-costose.
Ad esempio, invece di un singolo modello da 175 miliardi di parametri che fa tutto, potresti avere una collezione di 10 modelli più piccoli (diciamo da 5 miliardi a 20 miliardi ciascuno) ciascuno ottimizzato per domini specifici (uno per la programmazione, uno per la matematica, uno per il dialogo, ecc.), coordinati da un framework di agenti. Questi potrebbero usare collettivamente molta meno memoria e calcolo per una determinata query, poiché l'agente instrada intelligentemente la query all'esperto giusto. Questo tipo di approccio può essere più conveniente da eseguire, specialmente se le tue risorse hardware sono limitate. È simile ai microservizi nel cloud computing: utilizza il piccolo servizio giusto per il compito, invece di un'unica grande applicazione che gestisce tutti i compiti in modo inefficiente.
Progetti come Macaron AI stanno esplorando architetture di memoria e agenti più profonde, dove un sistema AI compone soluzioni richiamando diverse competenze o basi di conoscenza (un po' come gli esseri umani potrebbero consultare uno specialista per una domanda specifica). In un mondo in cui non tutti hanno un cluster Blackwell Ultra, tali progettazioni potrebbero permettere a più persone di eseguire compiti avanzati di AI su hardware moderato. È una risposta pragmatica all'attuale collo di bottiglia dell'hardware.
Inoltre, anche nel segmento di fascia alta, l'efficienza è vantaggiosa per il business. I grandi operatori che acquistano Blackwell Ultra in massa stanno anche investendo in ottimizzazioni software – dai migliori compilatori ai framework distribuiti – per ottenere il massimo rendimento da ogni ora di GPU (poiché a $40k l'uno, ogni bit di utilizzo conta). Un framework agente leggero che può, ad esempio, ridurre la lunghezza del contesto fornito a un grande modello pre-elaborando le query (risparmiando così calcoli), o che può scaricare parte della logica su macchine più economiche, farà risparmiare direttamente denaro. Vediamo indizi di questo nei sistemi emergenti in cui un grande modello è supportato da strumenti più piccoli o un database; il grande modello viene attivato solo quando strettamente necessario. Questa filosofia si allinea bene con l'argomentazione di Macaron di non usare un martello AI per ogni chiodo, ma piuttosto una cassetta di attrezzi di martelli e bisturi.
In sintesi, l'adattamento di Macaron qui consiste nel riconoscere che, mentre le ultime novità di NVIDIA consentono imprese incredibili, l'industria ha anche bisogno di rendere l'AI accessibile e sostenibile. Puntare esclusivamente su modelli sempre più grandi su hardware sempre più costoso ha rendimenti decrescenti per molte applicazioni. C'è un'opportunità (e forse una necessità) di innovazione nel modo in cui progettiamo soluzioni AI per essere più leggere, più modulari e meno dispendiose in termini di risorse. Questo non significa che dobbiamo smettere di cercare GPU potenti o grandi modelli; piuttosto, dobbiamo usarli con più giudizio. L'attuale crisi dell'offerta e l'esplosione dei costi stanno forzando quella conversazione. È probabile che vedremo più approcci ibridi: per esempio, un servizio AI potrebbe utilizzare le GPU Blackwell Ultra per il carico pesante dell'inferenza del modello, ma solo dopo che un sistema front-end leggero ha distillato la richiesta, recuperato i dati rilevanti e determinato che il grande modello deve veramente essere eseguito. In questo modo, i cicli costosi della GPU vengono utilizzati solo quando necessario, migliorando il rendimento complessivo per dollaro.
L'avvento delle GPU Blackwell Ultra di NVIDIA segna un momento cruciale nell'infrastruttura AI – offrendo miglioramenti di performance sorprendenti nel ragionamento e nell'inferenza AI, ma evidenziando anche le nuove sfide del successo: carenze di fornitura, costi in aumento vertiginoso e il crescente appetito per la potenza computazionale. Abbiamo visto come Blackwell Ultra aumenti significativamente le prestazioni (soprattutto a bassa precisione) e l'efficienza (prestazioni per watt), consentendo salti come una produzione AI 50× superiore e media generativa in tempo reale che erano fuori portata solo un anno fa[54][5]. La sua robusta memoria HBM3e e l'architettura avanzata eliminano i colli di bottiglia, ma allo stesso tempo, la scala e il consumo di energia di questi sistemi introducono sfide logistiche ed economiche – dai prezzi di $3M ai rack da 100kW che necessitano di raffreddamento specializzato.
La “crisi di approvvigionamento delle GPU AI” è una questione reale e attuale: essenzialmente tutta la produzione di NVIDIA è già prenotata, e “esaurito” è diventato la norma[8]. Questa scarsità, con le GPU che raggiungono prezzi di oltre $30k, ha portato investitori e professionisti a concentrarsi su come sfruttare al meglio l'hardware a disposizione. Sottolinea un punto importante: per il settore più ampio, non è sostenibile affidarsi esclusivamente alla scala brutale. Ecco perché l'efficienza – sia attraverso hardware migliori come Blackwell Ultra o software più intelligenti come i framework di agenti leggeri – è la chiave per il futuro.
Nel breve termine, il Blackwell Ultra di NVIDIA continuerà a dominare i titoli e i piani di distribuzione, e possiamo aspettarci che la corsa all'acquisto di queste GPU persista finché l'offerta non raggiungerà la domanda (cosa che potrebbe non avvenire fino all'arrivo della prossima architettura e all'espansione delle fabbriche). Per le organizzazioni che stanno costruendo capacità AI, il messaggio è duplice: se riesci a ottenere hardware all'avanguardia, avrai un vantaggio, ma devi anche progettare in modo intelligente il tuo stack AI per sfruttare al massimo ogni FLOP. Ciò potrebbe significare integrare modelli più piccoli, ottimizzare il codice per nuove precisioni o investire nella gestione dei dati – qualsiasi cosa per evitare calcoli sprecati, che in questo contesto significano denaro sprecato.
Guardando al futuro, la traiettoria dell'hardware AI suggerisce prestazioni ancora maggiori (il ipotetico "H300" e la prossima generazione Rubin) e probabilmente una continua alta domanda. Quindi, la sfida per l'industria sarà bilanciare questa incredibile capacità con l'accessibilità. Efficienza, scalabilità e innovazione a livello software saranno fondamentali per garantire che la rivoluzione AI alimentata da GPU come Blackwell Ultra sia un'opportunità per un'ampia gamma di attori, non solo per coloro con le tasche più profonde o i data center più grandi. In breve, l'ultimo prodigio di NVIDIA ha aperto nuovi orizzonti, ma ci ricorda anche che nell'AI (come nell'informatica in generale), l'uso intelligente delle risorse è importante quanto la pura potenza.
Fonti: Documentazione tecnica e di prodotto NVIDIA[54][1][16], notizie di settore[8][43], e analisi di esperti[28][27] che dettagliano le prestazioni di Blackwell Ultra, la catena di approvvigionamento e l'impatto sull'economia dell'AI.
[1] [3] [4] [9] [10] [11] [12] [13] [14] Dentro NVIDIA Blackwell Ultra: Il Chip che Alimenta l'Era delle Fabbriche di AI | Blog Tecnico NVIDIA
[2] [5] [16] [20] [21] [22] [25] [26] [54] Progettato per Prestazioni ed Efficienza nell'AI Reasoning | NVIDIA GB300 NVL72
https://www.nvidia.com/en-us/data-center/gb300-nvl72/
[6] [7] [34] [35] Nvidia: Blackwell Ultra guida una crescita del 62% verso ricavi record
[8] [53] Le entrate di Nvidia schizzano a un record di 57 miliardi di dollari per trimestre — tutte le GPU sono esaurite | Tom's Hardware
[15] Super Micro Computer, Inc. - Supermicro inizia le spedizioni in volume dei sistemi NVIDIA Blackwell Ultra e delle soluzioni di scala per data center Rack Plug-and-Play
[17] Architettura NVIDIA Hopper Dettagliata | Blog Tecnico NVIDIA
https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/
http://www.hyperscalers.com/NVIDIA-H200-DGX-HGX-141GB
[23] Introduzione a NVFP4 per Inferenza a Bassa Precisione Efficiente e Accurata
[24] NVIDIA Blackwell vs. Blackwell Ultra B300: Dovresti acquistare o aspettare?
https://www.trgdatacenters.com/resource/nvidia-blackwell-vs-blackwell-ultra-b300-comparison/
[27] [46] [47] NVIDIA prevede di spedire 5,2 milioni di GPU Blackwell nel 2025, 1,8 milioni nel 2026 e 5,7 milioni di GPU Rubin nel 2026: r/AMD_Stock
https://www.reddit.com/r/AMD_Stock/comments/1lovdwf/nvidia_expected_to_ship_52m_blackwell_gpus_in/
[28] [29] [33] GPU Blackwell e la Nuova Economia dei Prezzi dell'AI nel Cloud | di elongated_musk | Medium
[30] [31] [32] Il sistema di raffreddamento per un singolo rack Nvidia Blackwell Ultra NVL72 costa la cifra impressionante di $50.000 — destinata ad aumentare a $56.000 con i rack NVL144 di nuova generazione | Tom's Hardware
[36] [40] [41] [42] [43] [44] I server AI NVIDIA Blackwell esposti a 「carenza di componenti」, disponibilità limitata prevista nel Q4 2024
https://wccftech.com/nvidia-blackwell-ai-servers-component-shortage-limited-supply-expected-q4-2024/
[37] [38] [39] [48] [51] [52] Il CEO di Nvidia Huang vede una forte domanda per i chip Blackwell | Reuters
https://www.reuters.com/world/china/nvidia-ceo-huang-sees-strong-demand-blackwell-chips-2025-11-08/
[45] Nvidia aumenta l'ordine di wafer da TSMC del 50% per i chip Blackwell - LinkedIn
[49] [50] Sam Altman: 「Siamo senza GPU. ChatGPT ha raggiunto un nuovo record di utenti ogni giorno. Dobbiamo fare questi compromessi terribili al momento. Abbiamo modelli migliori, ma non possiamo offrirli perché non abbiamo la capacità. Abbiamo altri tipi di nuovi prodotti e servizi che ci piacerebbe offrire.」 : r/accelerate
https://www.reddit.com/r/accelerate/comments/1ms9rrl/sam_altman_were_out_of_gpus_chatgpt_has_been/