
Autore: Boxu Li
DeepSeek-V4 ha sconvolto la comunità AI come il più grande modello linguistico open Mixture-of-Experts (MoE) fino ad oggi. Un preprint su arXiv che descrive questo modello da 1 trilione di parametri è esploso online, evidenziando un cambio di paradigma nel modo in cui scalare l'AI. A differenza dei modelli densi che attivano tutti i pesi per ogni token, i modelli MoE come DeepSeek attivano solo una piccola frazione dei loro parametri alla volta – tipicamente <10% per token[1]. Questa attivazione sparsa è la caratteristica che rende fattibili i modelli da trilioni di parametri[1]. Nel caso di DeepSeek-V4, circa 32 miliardi di parametri (≈3% del totale) sono utilizzati per qualsiasi token di input, sfruttando una capacità enorme con costi computazionali molto inferiori rispetto a un modello denso di pari dimensioni.
Perché tutto questo clamore? Innanzitutto, DeepSeek-V4 è il più grande modello MoE ad accesso aperto mai realizzato, superando i predecessori come DeepSeek-V3 (671 miliardi di parametri) e rivaleggiando persino con modelli chiusi in molte attività[2]. Il suo rilascio sotto una licenza open-source permissiva significa che chiunque può sperimentare o implementare un modello a scala GPT-5 – uno sviluppo drammatico in un'era in cui i modelli di punta sono spesso proprietari. Inoltre, i primi benchmark suggeriscono che DeepSeek-V4 offre prestazioni all'avanguardia in domini specializzati come la matematica e la programmazione (dove la specializzazione degli esperti di MoE si dimostra efficace), a una frazione del costo dei modelli grandi precedenti[3][4]. Tutti questi fattori combinati hanno reso DeepSeek-V4 un fenomeno virale tra ricercatori e ingegneri.
Per apprezzare DeepSeek-V4, è utile conoscere i dettagli tecnici principali e come si confronta con altri modelli all'avanguardia:
Tabella: Il MoE da 1T di parametri di DeepSeek-V4 nel contesto con modelli di nuova generazione simili. “Attivo” si riferisce ai parametri utilizzati per ciascun token (i modelli MoE instradano ciascun token attraverso un sottoinsieme di esperti). Contesto = lunghezza massima della sequenza che il modello può gestire.
Come mostrato sopra, DeepSeek-V4 entra a far parte di un club esclusivo di modelli da un trilione di parametri insieme ad altri modelli cinesi recentemente annunciati come Kimi K2 e Qwen3-Max. Tutti questi sfruttano architetture MoE a gate sparsi per mantenere solo decine di miliardi di parametri “attivi” alla volta[5]. Al contrario, un modello denso (come GPT-5) dovrebbe usare ogni peso ogni volta – un approccio che diventa proibitivamente costoso oltre la scala dei 500B–1T[10]. Notoriamente, il design di DeepSeek-V4 utilizza un percorso a 16 esperti, il che significa che ciascun token viene elaborato da un massimo di 16 sottoreti di esperti in ogni livello MoE, selezionati tra centinaia di esperti disponibili. Questo rappresenta un incremento sostanziale rispetto ai modelli MoE precedenti (che spesso utilizzavano i primi 2 o 4 esperti) ed è mirato a massimizzare il potere espressivo del modello attraverso percorsi di specialisti più dettagliati.
Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.
DeepSeek-V4 si basa sull'architettura MoE collaudata di DeepSeek, introdotta nelle versioni V2/V3[11] e perfezionata attraverso la serie di ricerche DeepSeekMoE. Al suo interno, il modello sostituisce i livelli feed-forward standard del Transformer con una gamma di reti di esperti parallele. Per ogni token in arrivo, un router di selezione dinamicamente sceglie un gruppo di esperti meglio adatti a elaborare il contenuto di quel token (ad esempio, alcuni esperti possono specializzarsi in codice, altri in matematica, altri in sintassi comune). Solo le reti di esperti selezionate vengono eseguite per quel token, rendendo il calcolo sparso.
Fondamentalmente, DeepSeek ha innovato il routing MoE per migliorare la specializzazione e l'utilizzo degli esperti. L'architettura DeepSeekMoE ha introdotto due strategie chiave[12]:
La combinazione di segmentazione fine ed esperti condivisi aiuta a evitare la sovrapposizione e il collasso degli esperti, una sfida nota negli MoE. Negli MoE tradizionali, se il router non è gestito con cura, potrebbe sovrautilizzare alcuni esperti e sotto-allenare altri (“collasso del percorso”). DeepSeek-V3/V4 affrontano questo problema con una strategia di routing di bilanciamento del carico che non necessita di perdite ausiliarie[15]. Invece del termine di perdita extra utilizzato in Switch Transformer per forzare l'utilizzo degli esperti, il router di DeepSeek utilizza un routing dinamico con limiti di capacità adattativi per bilanciare naturalmente il carico[16]. La strategia senza perdite ausiliarie di V3 si è dimostrata efficace: l'allenamento era stabile e tutti gli esperti sono rimasti ben utilizzati[17]. Ci si può aspettare che V4 continui con questo approccio, consentendo un allenamento fluido di centinaia di esperti senza collassi.
In sintesi, l'architettura di DeepSeek-V4 esemplifica il design MoE all'avanguardia: instradamento esperto sparso che espande enormemente la capacità, un percorso di attivazione a 16 esperti per combinazioni più ricche di competenze per token, e tecniche su misura per garantire che gli esperti si specializzino (tramite suddivisione dettagliata e generalisti condivisi) e si addestrino in modo robusto. È un modello che “cresce in larghezza” attraverso gli esperti piuttosto che “in altezza” tramite i livelli – una strategia di scalabilità fondamentalmente diversa rispetto alla serie GPT densa.
Uno degli aspetti più convincenti di DeepSeek-V4 è la sua efficienza dei costi, sia in termini di addestramento che di distribuzione. Scalare fino a 1 trilione di parametri potrebbe sembrare estremamente costoso, ma il calcolo sparso di MoE mantiene i costi effettivi molto più bassi rispetto a un modello denso con un trilione di parametri.
In sintesi, bilanciando astutamente l'utilizzo completo con l'utilizzo sparso, DeepSeek-V4 raggiunge prestazioni quasi all'avanguardia con un calcolo drasticamente ridotto. Incorpora la promessa di MoE: “scala il modello, non il costo.” Questa efficienza è un motivo chiave per cui molti esperti vedono le architetture MoE come il futuro dei grandi modelli AI[21][10].
A parte le dimensioni effettive, cosa può fare realmente DeepSeek-V4? I primi indicatori suggeriscono che eccelle in aree dove la specializzazione degli esperti è più vantaggiosa – in particolare nel ragionamento complesso (matematica, logica) e nel coding – mantenendo al contempo forti capacità generali paragonabili ai migliori modelli.
In breve, DeepSeek-V4 sembra sfruttare i punti di forza di MoE: è un mago della matematica, un programmatore capace e un solido AI conversazionale a tutto tondo. Potrebbe non superare ampiamente modelli come GPT-5 in ogni singolo compito (GPT-5 potrebbe ancora avere un vantaggio in alcune aree "generaliste" o nella comprensione multimodale[32]), ma V4 può rivendicare la leadership o un secondo posto in diversi settori chiave, il tutto essendo più accessibile. Per molti casi d'uso specifici – soprattutto quelli che richiedono un ampio contesto o ragionamenti specifici di dominio – offre una combinazione imbattibile di alte prestazioni e basso costo.
Il debutto di DeepSeek-V4 segna più di un semplice traguardo aziendale: rappresenta un cambiamento più ampio verso modelli esperti sparsi nel futuro dell'IA. Come ha affermato un'analisi, “per raggiungere modelli con trilioni di parametri che siano addestrabili e distribuibili, la sparsità tramite MoE sta diventando l'unico approccio praticabile.”[10] DeepSeek ha dimostrato questo consegnando un modello su scala di trilioni che la comunità può effettivamente utilizzare. Il tradizionale scaling denso (aumentare semplicemente la grandezza del modello e forzarlo) sta incontrando severi rendimenti decrescenti e barriere di costo[33][34]. Modelli sparsi come DeepSeek-V4 indicano una via da seguire dove possiamo continuare ad espandere le capacità dell'IA senza aumentare proporzionalmente i requisiti di calcolo.
Da un punto di vista del mercato, i modelli cinesi aperti ora rivaleggiano con i migliori dei laboratori occidentali. DeepSeek-V4 e i suoi pari (Qwen3, Kimi K2) sono stati direttamente paragonati a GPT-5 sia nei media che nei benchmark[35][36]. Spesso superano i modelli della classe GPT-4 in aree specializzate (programmazione, ragionamento) e lo fanno a una frazione del prezzo[37][38]. Questo sta costringendo a un ripensamento competitivo: OpenAI e altri potrebbero sentirsi sotto pressione per incorporare tecniche MoE o ridurre drasticamente i loro costi. Per gli utenti finali e gli sviluppatori, è una grande vittoria: abbiamo più scelte che mai all'avanguardia dell'AI, e molte di queste scelte sono open-source e convenienti. Il ritmo di innovazione nell'ecosistema AI cinese stimolato da modelli come DeepSeek è straordinario; sta riducendo i costi e aumentando le prestazioni, beneficiando la comunità globale.
Infine, vale la pena notare che l'approccio di DeepSeek-V4 contrasta con un altro percorso emergente: apprendimento per rinforzo + modelli potenziati dalla memoria. La strategia MoE espande la capacità del modello (parametri) e si basa sull'instradamento per gestire la complessità, mentre alcune altre ricerche si concentrano sul miglioramento della capacità del modello attraverso strumenti esterni, memoria a lungo termine o cicli di ragionamento simili a quelli di un agente. Ad esempio, modelli come Kimi K2 “Thinking” incorporano l'uso degli strumenti e un ciclo agente con un contesto di 256K per raggiungere una pianificazione a lungo termine notevole[5][39]. Allo stesso modo, i sistemi futuri stanno esplorando moduli di memoria espliciti o recupero neurale per permettere a modelli più piccoli di superare quelli più grandi cercando informazioni. Finora, la filosofia di DeepSeek è stata quella di inserire quanta più conoscenza possibile nei parametri del modello (e in effetti, V4 potrebbe integrare qualche pensiero multi-step nella sua messa a punto). Entrambi gli approcci – scalatura tramite MoE e potenziamento tramite memoria/RL – sono complementari. Presto potremmo vedere ibridi che combinano enormi reti MoE con memoria dinamica o interfacce strumentali. In ogni caso, il successo di V4 stabilisce un alto benchmark: qualsiasi approccio alternativo deve misurarsi con le sue prestazioni ed efficienza per essere preso sul serio.
DeepSeek-V4 MoE rappresenta una pietra miliare nello sviluppo dell'IA: un modello aperto da 1 trilione di parametri che realizza la promessa di MoE di “andare in grande e rimanere efficiente.” Dimostra che i modelli a esperti sparsi possono raggiungere risultati all'avanguardia in compiti impegnativi, spesso superando i modelli densi che sono molto più costosi da addestrare e utilizzare. Aprendo il codice sorgente di V4 sotto licenza MIT, DeepSeek-AI ha anche garantito che questa svolta sia ampiamente accessibile, stimolando la ricerca globale e lo sviluppo applicativo. La ricezione virale del modello online è una testimonianza dell'entusiasmo della comunità: stiamo assistendo alla chiusura del divario di qualità tra modelli aperti e i migliori modelli chiusi, e in alcune nicchie, i modelli aperti stanno prendendo il sopravvento[40][38].
Guardando al futuro, le tecniche pionieristiche di DeepSeek-V4 – dalla gestione a 16 esperti al bilanciamento senza ausili – probabilmente influenzeranno molte architetture future. Come ricercatori di AI, ora abbiamo prove che scalare in larghezza (esperti) può essere potente quanto scalare in profondità o dati, se non di più, per certi problemi. Nel frattempo, le prossime sfide stanno emergendo: come mantenere la coerenza su contesti di milioni di token, come integrare l'apprendimento o la memoria in tempo reale e come migliorare ulteriormente il “router” dei modelli MoE. DeepSeek-V4 ha aperto un nuovo capitolo in questa storia, e il suo impatto si farà sentire sia nell'ingegneria dei sistemi AI che nell'economia del loro impiego (modelli più economici e aperti per tutti).
In sintesi, DeepSeek-V4 è un trionfo del design dei modelli sparsi – offrendo capacità simili a GPT-5 attraverso un esercito di esperti, anziché un unico grande monolite. Sottolinea che la frontiera dell'AI non riguarda più solo chi ha più dati o TPU pods, ma anche architetture intelligenti e apertura. Confrontando questo approccio MoE con altri percorsi (come le strategie di apprendimento per rinforzo + memoria nei lavori futuri), una cosa è chiara: la corsa verso l'AGI ora ha molteplici percorsi validi. E grazie a innovazioni come DeepSeek-V4, quella corsa sta accelerando in modo aperto, attento ai costi ed estremamente emozionante.
Fonti:
· DeepSeek-AI, Rapporto Tecnico DeepSeek-V3, arXiv (2025) – Introdotto MoE con 671 miliardi di parametri (37 miliardi attivi); addestramento stabile su 14.8 trilioni di token[18]. Dimostrata performance di modelli aperti paragonabile ai modelli chiusi a livello di GPT-4[2] con solo 2.788M H800-ore di addestramento[41].
· DeepSeek-AI, DeepSeekMoE: Specializzazione Massima degli Esperti, arXiv (2024) – Proposta segmentazione degli esperti a grana fine e esperti condivisi per risolvere la sovrapposizione MoE[12], abilitando esperti m·K attivi (DeepSeekMoE 2B ha eguagliato le prestazioni dense 2B usando 1/2 del calcolo)[42]. Validata la scalabilità a 145 miliardi con guadagni sostanziali rispetto a GShard MoE.
· Joyce Birkins, Panoramica degli articoli ufficiali DeepSeek, Medium (Feb 2025) – Spiegata l'architettura di DeepSeek V2/V3. Notato il totale di 671 miliardi di V3 rispetto ai 37 miliardi attivi (solo ~5,5%)[11], l'uso del bilanciamento del carico senza perdita aux[15], e 14 esperti/token tramite la suddivisione degli esperti[13]. Evidenziata la stabilità di V3 e il grande salto di capacità del codice (oltre il 30%) rispetto a V2.5[22].
· Blog di Cerebras, Fondamenti di MoE: Modelli Sparsi (luglio 2025) – Discussa l'importanza di un'attivazione inferiore al 10% (come in DeepSeek) per i modelli su scala trilioni[1]. Mostrato che anche solo 32 esperti possono portare a un addestramento 3 volte più veloce o a una perdita del 5% migliore con lo stesso calcolo[43], e che il design a 256 esperti di DeepSeek esemplifica questa efficienza[44]. Illustrato come i MoE superino i modelli densi (ottimali per Chinchilla) a calcolo fisso[45].
· Spectrum AI Labs (Paras), DeepSeek V4 vs Qwen3-Max vs GPT-5 (Nov 2025) – Confrontati i modelli cinesi più recenti. Segnalato che DeepSeek V3 ha raggiunto il 89,3% in GSM8K e il 61,6% in MATH, con l'aspettativa che V4 possa eguagliare o superare GPT-5 nel ragionamento matematico[3]. Notato che il Qwen 2.5-Max con il 92,7% in HumanEval è leader nei benchmark di codifica[25], con DeepSeek V3 all'88,9%. Sottolineato il vantaggio di costo di DeepSeek (open-source, ~30× più economico di OpenAI)[46][47].
· Post della community Reddit DeepSeek (2025) – Evidenziato il costo di R1: “prestazioni pari a OpenAI-o1, a 1/27 del prezzo”[48]. Notate anche voci sul contesto di 1M token di V4 (non confermato)[49] e sull'uso di “V3.2 sparse attention” come banco di prova per il lungo contesto prima del V4. I feedback della community indicano un costo di utilizzo API estremamente basso (frazioni di centesimo per milione di token) che consente conversazioni lunghe e indulgenti[50].
· Moonshot AI, Kimi K2 Thinking – Architettura e Prestazioni (Nov 2025) – Descrive un modello MoE contemporaneo da 1T-param. K2 utilizza 256K di contesto, 1T totale con 32B attivati[5] e quantizzazione INT4 per efficienza[51]. Ha mostrato forti capacità di utilizzo di strumenti a lungo termine (oltre 200 chiamate sequenziali) e benchmark avanzati per agenti[52], dimostrando il potenziale di combinare la scala MoE con cicli di ragionamento agente. Il costo di addestramento di K2 ~$4,6M[20] esemplifica la nuova accessibilità dell'addestramento a trilioni di parametri.
[1] [10] [21] [33] [34] [43] [44] [45] Fondamenti di MoE: perché i modelli sparsi sono il futuro dell'IA
https://www.cerebras.ai/blog/moe-guide-why-moe
[2] [17] [18] [41] [2412.19437] Rapporto Tecnico DeepSeek-V3
https://arxiv.org/abs/2412.19437
[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 vs Qwen3-Max-Thinking: I modelli di IA cinesi che superano GPT-5 | Spectrum AI Labs
https://spectrumailab.com/blog/deepseek-v4-vs-qwen3-max-thinking-chinese-ai-models-beating-gpt5
[4] [7] [22] [30] [31] [48] Report settimanale dinamico dei modelli AI generativi | jax
[5] [6] [19] [23] [24] [39] [51] [52] Kimi K2 Thinking: Pianificazione a Lungo Termine con un Contesto di 256K | di My Social | . | Nov, 2025 | Medium
https://medium.com/aimonks/kimi-k2-thinking-long-horizon-planning-with-256k-context-67cd1277fb72
[9] Valutazione di benchmark dei modelli di linguaggio ampio DeepSeek in ...
https://www.nature.com/articles/s41591-025-03727-2
[11] [13] [14] [15] [16] Panoramica dei documenti ufficiali di Deepseek 4: Deepseek MoE, MLA, MTP, Distillation | di Joyce Birkins | Medium
[12] [42] [2401.06066] DeepSeekMoE: Verso l'Ultima Specializzazione degli Esperti nei Modelli di Linguaggio a Miscela-di-Esperti
https://arxiv.org/abs/2401.06066
[20] Kimi K2 Thinking: Il Modello da $4.6M che Sta Cambiando le Narrazioni dell'IA
https://recodechinaai.substack.com/p/kimi-k2-thinking-the-46m-model-shifting
[49] [50] Deepseek V4. : r/DeepSeek
https://www.reddit.com/r/DeepSeek/comments/1nwvnmb/deepseek_v4/