DeepSeek-V4 MoE: All'interno del Breakthrough Open-Source da 1 Trilione di Parametri

Autore: Boxu Li

Introduzione: Spingere i Modelli Sparsi a Scala Trilione

DeepSeek-V4 ha sconvolto la comunità AI come il più grande modello linguistico open Mixture-of-Experts (MoE) fino ad oggi. Un preprint su arXiv che descrive questo modello da 1 trilione di parametri è esploso online, evidenziando un cambio di paradigma nel modo in cui scalare l'AI. A differenza dei modelli densi che attivano tutti i pesi per ogni token, i modelli MoE come DeepSeek attivano solo una piccola frazione dei loro parametri alla volta – tipicamente <10% per token[1]. Questa attivazione sparsa è la caratteristica che rende fattibili i modelli da trilioni di parametri[1]. Nel caso di DeepSeek-V4, circa 32 miliardi di parametri (≈3% del totale) sono utilizzati per qualsiasi token di input, sfruttando una capacità enorme con costi computazionali molto inferiori rispetto a un modello denso di pari dimensioni.

Perché tutto questo clamore? Innanzitutto, DeepSeek-V4 è il più grande modello MoE ad accesso aperto mai realizzato, superando i predecessori come DeepSeek-V3 (671 miliardi di parametri) e rivaleggiando persino con modelli chiusi in molte attività[2]. Il suo rilascio sotto una licenza open-source permissiva significa che chiunque può sperimentare o implementare un modello a scala GPT-5 – uno sviluppo drammatico in un'era in cui i modelli di punta sono spesso proprietari. Inoltre, i primi benchmark suggeriscono che DeepSeek-V4 offre prestazioni all'avanguardia in domini specializzati come la matematica e la programmazione (dove la specializzazione degli esperti di MoE si dimostra efficace), a una frazione del costo dei modelli grandi precedenti[3][4]. Tutti questi fattori combinati hanno reso DeepSeek-V4 un fenomeno virale tra ricercatori e ingegneri.

Il più grande modello MoE aperto: specifiche chiave e innovazioni

Per apprezzare DeepSeek-V4, è utile conoscere i dettagli tecnici principali e come si confronta con altri modelli all'avanguardia:

Modello (2025)

Architettura

Parametri (Totali / Attivi)

Finestra di Contesto

Disponibilità

DeepSeek-V4

MoE (Sparse, ~16 esperti/token)

~1 trilione / ~32 miliardi (stima)[5]

128K (estesa, si vocifera fino a 1M)

Open-source (licenza MIT)[4]

Moonshot Kimi K2

MoE (Sparse)

1 trilione / 32 miliardi[5]

256K[6]

Open-source (licenza MIT)

Alibaba Qwen3-Max

MoE (Sparse)

>1 trilione / ~22 miliardi[7][8]

256K

Open-source (Apache-2.0)

OpenAI GPT-5 (stima)

Densa (Completamente Attiva)

~1.8 trilioni / ~1.8 trilioni (100% attivi)[9]

32K

Closed-source (proprietario)

Tabella: Il MoE da 1T di parametri di DeepSeek-V4 nel contesto con modelli di nuova generazione simili. “Attivo” si riferisce ai parametri utilizzati per ciascun token (i modelli MoE instradano ciascun token attraverso un sottoinsieme di esperti). Contesto = lunghezza massima della sequenza che il modello può gestire.

Come mostrato sopra, DeepSeek-V4 entra a far parte di un club esclusivo di modelli da un trilione di parametri insieme ad altri modelli cinesi recentemente annunciati come Kimi K2 e Qwen3-Max. Tutti questi sfruttano architetture MoE a gate sparsi per mantenere solo decine di miliardi di parametri “attivi” alla volta[5]. Al contrario, un modello denso (come GPT-5) dovrebbe usare ogni peso ogni volta – un approccio che diventa proibitivamente costoso oltre la scala dei 500B–1T[10]. Notoriamente, il design di DeepSeek-V4 utilizza un percorso a 16 esperti, il che significa che ciascun token viene elaborato da un massimo di 16 sottoreti di esperti in ogni livello MoE, selezionati tra centinaia di esperti disponibili. Questo rappresenta un incremento sostanziale rispetto ai modelli MoE precedenti (che spesso utilizzavano i primi 2 o 4 esperti) ed è mirato a massimizzare il potere espressivo del modello attraverso percorsi di specialisti più dettagliati.

Instradamento Sparso con un'Architettura a Percorso a 16 Esperti

Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.

DeepSeek-V4 si basa sull'architettura MoE collaudata di DeepSeek, introdotta nelle versioni V2/V3[11] e perfezionata attraverso la serie di ricerche DeepSeekMoE. Al suo interno, il modello sostituisce i livelli feed-forward standard del Transformer con una gamma di reti di esperti parallele. Per ogni token in arrivo, un router di selezione dinamicamente sceglie un gruppo di esperti meglio adatti a elaborare il contenuto di quel token (ad esempio, alcuni esperti possono specializzarsi in codice, altri in matematica, altri in sintassi comune). Solo le reti di esperti selezionate vengono eseguite per quel token, rendendo il calcolo sparso.

Fondamentalmente, DeepSeek ha innovato il routing MoE per migliorare la specializzazione e l'utilizzo degli esperti. L'architettura DeepSeekMoE ha introdotto due strategie chiave[12]:

Segmentazione dettagliata degli esperti: Invece di avere pochi esperti di grandi dimensioni, DeepSeek suddivide ogni rete feed-forward in molti esperti più piccoli (nella V3, 256 esperti per livello MoE). Questo permette di attivare più esperti per token (m×K invece di K) senza aumentare il costo per token[12]. Nei precedenti MoE come GShard, un token poteva andare ai Top-2 esperti; DeepSeek V3 ha aumentato questo numero a 14 effettivi segmentando gli esperti in pezzi più piccoli[13]. DeepSeek-V4 spinge oltre questo concetto – con un percorso di 16 esperti, ogni token coinvolge 16 esperti in parallelo, fornendo un ricco mix di calcoli specializzati. Mantenendo ogni esperto relativamente piccolo, il calcolo complessivo per token rimane gestibile anche se il totale degli esperti (e dei parametri totali) cresce notevolmente[12].
Esperti “generalisti” condivisi: DeepSeek designa anche un sottoinsieme di esperti come esperti condivisi che si attivano sempre per ogni token[14]. Questi agiscono come pool di conoscenza generale per gestire schemi universali (linguaggio comune, ragionamento generale), assicurando che ogni token riceva un'elaborazione generale. Nel frattempo, gli altri esperti possono concentrarsi su schemi complessi o di nicchia senza dover riapprendere ridondantemente le conoscenze di base[14]. Questa innovazione mitiga il problema della “ridondanza degli esperti” dove più esperti potrebbero altrimenti convergere su competenze simili. Isolando $K_s$ esperti condivisi per la conoscenza comune, DeepSeek-V4 può dedicare i restanti esperti esclusivamente a domini di conoscenza specializzati[12].

La combinazione di segmentazione fine ed esperti condivisi aiuta a evitare la sovrapposizione e il collasso degli esperti, una sfida nota negli MoE. Negli MoE tradizionali, se il router non è gestito con cura, potrebbe sovrautilizzare alcuni esperti e sotto-allenare altri (“collasso del percorso”). DeepSeek-V3/V4 affrontano questo problema con una strategia di routing di bilanciamento del carico che non necessita di perdite ausiliarie[15]. Invece del termine di perdita extra utilizzato in Switch Transformer per forzare l'utilizzo degli esperti, il router di DeepSeek utilizza un routing dinamico con limiti di capacità adattativi per bilanciare naturalmente il carico[16]. La strategia senza perdite ausiliarie di V3 si è dimostrata efficace: l'allenamento era stabile e tutti gli esperti sono rimasti ben utilizzati[17]. Ci si può aspettare che V4 continui con questo approccio, consentendo un allenamento fluido di centinaia di esperti senza collassi.

In sintesi, l'architettura di DeepSeek-V4 esemplifica il design MoE all'avanguardia: instradamento esperto sparso che espande enormemente la capacità, un percorso di attivazione a 16 esperti per combinazioni più ricche di competenze per token, e tecniche su misura per garantire che gli esperti si specializzino (tramite suddivisione dettagliata e generalisti condivisi) e si addestrino in modo robusto. È un modello che “cresce in larghezza” attraverso gli esperti piuttosto che “in altezza” tramite i livelli – una strategia di scalabilità fondamentalmente diversa rispetto alla serie GPT densa.

Efficienza dei costi: Addestramento e Inferenza su larga scala

Uno degli aspetti più convincenti di DeepSeek-V4 è la sua efficienza dei costi, sia in termini di addestramento che di distribuzione. Scalare fino a 1 trilione di parametri potrebbe sembrare estremamente costoso, ma il calcolo sparso di MoE mantiene i costi effettivi molto più bassi rispetto a un modello denso con un trilione di parametri.

Calcolo per l'addestramento: Il team di DeepSeek ha dimostrato ripetutamente la capacità di addestrare in modo economico anche su larga scala. Ad esempio, DeepSeek-V3 (671 miliardi di parametri) è stato preaddestrato su 14,8 trilioni di token e perfezionato con fasi supervisionate e RLHF per un costo totale di addestramento di soli 2,788 milioni di ore GPU H800[18]. Questo è sorprendentemente basso considerando che modelli come GPT-4 probabilmente hanno consumato decine di milioni di ore GPU. L'addestramento di DeepSeek-V3 è stato anche altamente stabile, senza picchi di perdita o riavvii necessari[17] – un'impresa impressionante per MoE, grazie al loro robusto metodo di instradamento. Anche se le statistiche esatte di addestramento di V4 non sono ancora pubbliche, probabilmente hanno continuato questa tendenza di scalabilità efficiente. Il vantaggio di MoE è chiaro: puoi aumentare il numero totale di parametri di 10 volte ma pagare solo, per esempio, 2–3 volte di più in termini di calcolo se mantieni attiva la stessa frazione[10]. Le analisi del settore notano che MoE può fornire un addestramento 3 volte più veloce a calcolo fisso per raggiungere una perdita target, rispetto ai modelli densi, grazie alla sua utilizzazione sparsa[10].
Costo di Inferenza e Utilizzo: DeepSeek ha fatto notizia offrendo prestazioni di livello GPT a una frazione minima del costo di utilizzo. Il modello precedente DeepSeek-R1 (la versione istruttiva di V3) era 30 volte più economico rispetto al text-davinci di OpenAI (o1) in termini di costo per token generato[4]. Questo deriva direttamente dall'efficienza di MoE – al momento dell'inferenza V4 calcola solo un passaggio in avanti di ~30 miliardi di parametri per token, che è molto più facile da eseguire rispetto a un passaggio in avanti denso di 1 trilione. In pratica, ciò significa che anche un MoE da un trilione di parametri può essere servito con cluster GPU moderati o anche macchine singole per lotti più piccoli, specialmente con implementazioni ottimizzate. (Notoriamente, il modello Kimi K2 di Moonshot da 1 trilione funziona con quantizzazione a 4 bit per ridurre ulteriormente le esigenze di memoria/calcolo[19].) Gli utenti hanno già riportato che l'API di DeepSeek è estremamente conveniente per query con contesti ampi, abilitando casi d'uso che sarebbero proibitivi in termini di costo su API chiuse. Il rilascio aperto significa anche che le organizzazioni possono ospitare autonomamente V4 per evitare del tutto i costi API. Essenzialmente, DeepSeek-V4 offre un “GPT-5 aperto” a forse pochi centesimi rispetto al dollaro in confronto a OpenAI – una grande vittoria per un'IA accessibile.
Budget per l'addestramento: In termini assoluti, addestrare un modello da 1 trilione non è più riservato ai giganti tecnologici. L'efficienza di MoE e l'hardware sempre più potente hanno drasticamente abbassato la barriera. Ad esempio, Moonshot AI ha riferito di aver addestrato Kimi K2 (1T MoE) per soli 4,6 milioni di dollari in calcolo cloud[20]. I costi di DeepSeek dovrebbero essere in una fascia simile. Anche se non economico, questo è ordini di grandezza inferiore a quanto costerebbe addestrare un modello denso di capacità comparabile nel 2025. I modelli sparsi stanno effettivamente democratizzando l'IA su larga scala, permettendo a startup e laboratori accademici di sperimentare su scale di trilioni di parametri.

In sintesi, bilanciando astutamente l'utilizzo completo con l'utilizzo sparso, DeepSeek-V4 raggiunge prestazioni quasi all'avanguardia con un calcolo drasticamente ridotto. Incorpora la promessa di MoE: “scala il modello, non il costo.” Questa efficienza è un motivo chiave per cui molti esperti vedono le architetture MoE come il futuro dei grandi modelli AI[21][10].

Punti di forza delle prestazioni: Specializzazione specifica

A parte le dimensioni effettive, cosa può fare realmente DeepSeek-V4? I primi indicatori suggeriscono che eccelle in aree dove la specializzazione degli esperti è più vantaggiosa – in particolare nel ragionamento complesso (matematica, logica) e nel coding – mantenendo al contempo forti capacità generali paragonabili ai migliori modelli.

Matematica e Ragionamento: I modelli DeepSeek hanno costruito una reputazione per l'eccellente ragionamento matematico. DeepSeek-V3 ha raggiunto 89,3% su GSM8K (matematica scolastica) e 61,6% sul benchmark MATH (matematica a livello di competizione)[3] – risultati che rivaleggiano con GPT-4 e altri modelli top. Questo è stato attribuito a una speciale modalità di allenamento "pensante" e agli esperti MoE che si concentrano sulle abilità matematiche. Si prevede che DeepSeek-V4 raggiunga o superi il livello di GPT-5 nei compiti di ragionamento matematico[3], chiudendo essenzialmente il divario con i modelli chiusi più recenti in questo dominio. Una prestazione così forte nei problemi di matematica e nella logica passo-passo è un grande vantaggio, poiché questi compiti beneficiano dell'approccio a miscela di esperti (ad esempio, alcuni esperti possono interiorizzare l'algebra, altri la geometria, ecc., dividendo lo spazio dei problemi). In termini pratici, per qualsiasi applicazione che richieda calcoli complessi o ragionamenti simbolici, V4 sarebbe una scelta di punta.
Codifica e Debugging: MoE ha migliorato similmente le abilità di codifica. Tra DeepSeek V2.5 e V3, le prestazioni di generazione del codice sono saltate dal 17,8% al 48,4% sul loro benchmark interno[22] – un guadagno assoluto di circa il 30%, dovuto in gran parte all'espansione del numero di esperti e all'allenamento. Sebbene le metriche di codifica specifiche di V4 non siano ancora pubblicate, è probabile che continui questa traiettoria ascendente. Modelli MoE concorrenti come Kimi K2 riportano punteggi di ragionamento del codice all'avanguardia (circa il 71% su un benchmark di codice multi-step)[23][24], indicando che i modelli sparsi sono ora leader nell'intelligenza legata alla codifica. DeepSeek-V4 è stato posizionato come modello di riferimento per i casi d'uso di "assistente di codifica AI 2025"[25][26]. La sua capacità di gestire un contesto di 256K o più grande significa che può ingerire interi codici o file multipli e ragionarci sopra in modo olistico – qualcosa con cui GPT-4 (32K max) ha difficoltà. Gli utenti possono aspettarsi una generazione di codice più affidabile, migliori suggerimenti di debugging e una gestione migliorata di compiti di codifica lunghi e complessi rispetto ai modelli aperti precedenti[27][28].
Conoscenza Generale e Benchmark: Nei benchmark di NLP e conoscenza generali, si prevede che DeepSeek-V4 si comporti alla pari con altri modelli all'avanguardia. DeepSeek-V3 ha già superato altri LLM open-source ed era comparabile ai modelli chiusi leader in molte valutazioni[2]. La maggiore capacità di V4 e il fine-tuning dovrebbero solo migliorare ulteriormente. È probabile che competi strettamente con contemporanei come Qwen-3 (che è leader nei compiti cinesi e multilingue) e Claude 3.5, avvicinandosi a GPT-4/GPT-5 sui benchmark di inglese mainstream. Un vantaggio notevole è la finestra di contesto estremamente ampia di V4 (si dice 128K token o più). Questo consente casi d'uso come l'ingerimento di lunghi articoli di ricerca, contratti estesi o pianificazioni di agenti multi-turno. Ad esempio, il contesto di 256K di Qwen-3 è stato dimostrato per gestire interi repository di codice e dialoghi lunghi[29]; DeepSeek-V4 dovrebbe offrire una lunghezza di contesto simile o maggiore, beneficiando notevolmente i compiti che coinvolgono il cross-referencing o il ragionamento su documenti lunghi.
Allineamento Umano e Utilità: Con R1, DeepSeek ha dimostrato di poter perfezionare i modelli per essere utili e innocui per gli utenti generali, raggiungendo la parità con il modello GPT-4o iniziale di OpenAI in allineamento pur essendo molto più economico[4]. Ci si può aspettare che un DeepSeek-R2 (la versione istruzionale di V4) venga rilasciato o sia in fase di sviluppo, che probabilmente subirà un Reinforcement Learning from Human Feedback (RLHF) per perfezionare i suoi output. La licenza open MIT e le prestazioni solide hanno già portato DeepSeek-R1 a essere integrato in molte piattaforme (da Microsoft Azure a Hugging Face agli assistenti locali)[30][31]. Se V4 mantiene questo ethos aperto e adattabile, si diffonderà rapidamente attraverso l'ecosistema – dai chatbot agli strumenti di produttività – fornendo un'alternativa gratuita ai modelli chiusi per un'ampia gamma di applicazioni.

In breve, DeepSeek-V4 sembra sfruttare i punti di forza di MoE: è un mago della matematica, un programmatore capace e un solido AI conversazionale a tutto tondo. Potrebbe non superare ampiamente modelli come GPT-5 in ogni singolo compito (GPT-5 potrebbe ancora avere un vantaggio in alcune aree "generaliste" o nella comprensione multimodale[32]), ma V4 può rivendicare la leadership o un secondo posto in diversi settori chiave, il tutto essendo più accessibile. Per molti casi d'uso specifici – soprattutto quelli che richiedono un ampio contesto o ragionamenti specifici di dominio – offre una combinazione imbattibile di alte prestazioni e basso costo.

Implicazioni e Prospettive

Il debutto di DeepSeek-V4 segna più di un semplice traguardo aziendale: rappresenta un cambiamento più ampio verso modelli esperti sparsi nel futuro dell'IA. Come ha affermato un'analisi, “per raggiungere modelli con trilioni di parametri che siano addestrabili e distribuibili, la sparsità tramite MoE sta diventando l'unico approccio praticabile.”[10] DeepSeek ha dimostrato questo consegnando un modello su scala di trilioni che la comunità può effettivamente utilizzare. Il tradizionale scaling denso (aumentare semplicemente la grandezza del modello e forzarlo) sta incontrando severi rendimenti decrescenti e barriere di costo[33][34]. Modelli sparsi come DeepSeek-V4 indicano una via da seguire dove possiamo continuare ad espandere le capacità dell'IA senza aumentare proporzionalmente i requisiti di calcolo.

Da un punto di vista del mercato, i modelli cinesi aperti ora rivaleggiano con i migliori dei laboratori occidentali. DeepSeek-V4 e i suoi pari (Qwen3, Kimi K2) sono stati direttamente paragonati a GPT-5 sia nei media che nei benchmark[35][36]. Spesso superano i modelli della classe GPT-4 in aree specializzate (programmazione, ragionamento) e lo fanno a una frazione del prezzo[37][38]. Questo sta costringendo a un ripensamento competitivo: OpenAI e altri potrebbero sentirsi sotto pressione per incorporare tecniche MoE o ridurre drasticamente i loro costi. Per gli utenti finali e gli sviluppatori, è una grande vittoria: abbiamo più scelte che mai all'avanguardia dell'AI, e molte di queste scelte sono open-source e convenienti. Il ritmo di innovazione nell'ecosistema AI cinese stimolato da modelli come DeepSeek è straordinario; sta riducendo i costi e aumentando le prestazioni, beneficiando la comunità globale.

Infine, vale la pena notare che l'approccio di DeepSeek-V4 contrasta con un altro percorso emergente: apprendimento per rinforzo + modelli potenziati dalla memoria. La strategia MoE espande la capacità del modello (parametri) e si basa sull'instradamento per gestire la complessità, mentre alcune altre ricerche si concentrano sul miglioramento della capacità del modello attraverso strumenti esterni, memoria a lungo termine o cicli di ragionamento simili a quelli di un agente. Ad esempio, modelli come Kimi K2 “Thinking” incorporano l'uso degli strumenti e un ciclo agente con un contesto di 256K per raggiungere una pianificazione a lungo termine notevole[5][39]. Allo stesso modo, i sistemi futuri stanno esplorando moduli di memoria espliciti o recupero neurale per permettere a modelli più piccoli di superare quelli più grandi cercando informazioni. Finora, la filosofia di DeepSeek è stata quella di inserire quanta più conoscenza possibile nei parametri del modello (e in effetti, V4 potrebbe integrare qualche pensiero multi-step nella sua messa a punto). Entrambi gli approcci – scalatura tramite MoE e potenziamento tramite memoria/RL – sono complementari. Presto potremmo vedere ibridi che combinano enormi reti MoE con memoria dinamica o interfacce strumentali. In ogni caso, il successo di V4 stabilisce un alto benchmark: qualsiasi approccio alternativo deve misurarsi con le sue prestazioni ed efficienza per essere preso sul serio.

Conclusione

DeepSeek-V4 MoE rappresenta una pietra miliare nello sviluppo dell'IA: un modello aperto da 1 trilione di parametri che realizza la promessa di MoE di “andare in grande e rimanere efficiente.” Dimostra che i modelli a esperti sparsi possono raggiungere risultati all'avanguardia in compiti impegnativi, spesso superando i modelli densi che sono molto più costosi da addestrare e utilizzare. Aprendo il codice sorgente di V4 sotto licenza MIT, DeepSeek-AI ha anche garantito che questa svolta sia ampiamente accessibile, stimolando la ricerca globale e lo sviluppo applicativo. La ricezione virale del modello online è una testimonianza dell'entusiasmo della comunità: stiamo assistendo alla chiusura del divario di qualità tra modelli aperti e i migliori modelli chiusi, e in alcune nicchie, i modelli aperti stanno prendendo il sopravvento[40][38].

Guardando al futuro, le tecniche pionieristiche di DeepSeek-V4 – dalla gestione a 16 esperti al bilanciamento senza ausili – probabilmente influenzeranno molte architetture future. Come ricercatori di AI, ora abbiamo prove che scalare in larghezza (esperti) può essere potente quanto scalare in profondità o dati, se non di più, per certi problemi. Nel frattempo, le prossime sfide stanno emergendo: come mantenere la coerenza su contesti di milioni di token, come integrare l'apprendimento o la memoria in tempo reale e come migliorare ulteriormente il “router” dei modelli MoE. DeepSeek-V4 ha aperto un nuovo capitolo in questa storia, e il suo impatto si farà sentire sia nell'ingegneria dei sistemi AI che nell'economia del loro impiego (modelli più economici e aperti per tutti).

In sintesi, DeepSeek-V4 è un trionfo del design dei modelli sparsi – offrendo capacità simili a GPT-5 attraverso un esercito di esperti, anziché un unico grande monolite. Sottolinea che la frontiera dell'AI non riguarda più solo chi ha più dati o TPU pods, ma anche architetture intelligenti e apertura. Confrontando questo approccio MoE con altri percorsi (come le strategie di apprendimento per rinforzo + memoria nei lavori futuri), una cosa è chiara: la corsa verso l'AGI ora ha molteplici percorsi validi. E grazie a innovazioni come DeepSeek-V4, quella corsa sta accelerando in modo aperto, attento ai costi ed estremamente emozionante.

Fonti:

· DeepSeek-AI, Rapporto Tecnico DeepSeek-V3, arXiv (2025) – Introdotto MoE con 671 miliardi di parametri (37 miliardi attivi); addestramento stabile su 14.8 trilioni di token[18]. Dimostrata performance di modelli aperti paragonabile ai modelli chiusi a livello di GPT-4[2] con solo 2.788M H800-ore di addestramento[41].

· DeepSeek-AI, DeepSeekMoE: Specializzazione Massima degli Esperti, arXiv (2024) – Proposta segmentazione degli esperti a grana fine e esperti condivisi per risolvere la sovrapposizione MoE[12], abilitando esperti m·K attivi (DeepSeekMoE 2B ha eguagliato le prestazioni dense 2B usando 1/2 del calcolo)[42]. Validata la scalabilità a 145 miliardi con guadagni sostanziali rispetto a GShard MoE.

· Joyce Birkins, Panoramica degli articoli ufficiali DeepSeek, Medium (Feb 2025) – Spiegata l'architettura di DeepSeek V2/V3. Notato il totale di 671 miliardi di V3 rispetto ai 37 miliardi attivi (solo ~5,5%)[11], l'uso del bilanciamento del carico senza perdita aux[15], e 14 esperti/token tramite la suddivisione degli esperti[13]. Evidenziata la stabilità di V3 e il grande salto di capacità del codice (oltre il 30%) rispetto a V2.5[22].

· Blog di Cerebras, Fondamenti di MoE: Modelli Sparsi (luglio 2025) – Discussa l'importanza di un'attivazione inferiore al 10% (come in DeepSeek) per i modelli su scala trilioni[1]. Mostrato che anche solo 32 esperti possono portare a un addestramento 3 volte più veloce o a una perdita del 5% migliore con lo stesso calcolo[43], e che il design a 256 esperti di DeepSeek esemplifica questa efficienza[44]. Illustrato come i MoE superino i modelli densi (ottimali per Chinchilla) a calcolo fisso[45].

· Spectrum AI Labs (Paras), DeepSeek V4 vs Qwen3-Max vs GPT-5 (Nov 2025) – Confrontati i modelli cinesi più recenti. Segnalato che DeepSeek V3 ha raggiunto il 89,3% in GSM8K e il 61,6% in MATH, con l'aspettativa che V4 possa eguagliare o superare GPT-5 nel ragionamento matematico[3]. Notato che il Qwen 2.5-Max con il 92,7% in HumanEval è leader nei benchmark di codifica[25], con DeepSeek V3 all'88,9%. Sottolineato il vantaggio di costo di DeepSeek (open-source, ~30× più economico di OpenAI)[46][47].

· Post della community Reddit DeepSeek (2025) – Evidenziato il costo di R1: “prestazioni pari a OpenAI-o1, a 1/27 del prezzo”[48]. Notate anche voci sul contesto di 1M token di V4 (non confermato)[49] e sull'uso di “V3.2 sparse attention” come banco di prova per il lungo contesto prima del V4. I feedback della community indicano un costo di utilizzo API estremamente basso (frazioni di centesimo per milione di token) che consente conversazioni lunghe e indulgenti[50].

· Moonshot AI, Kimi K2 Thinking – Architettura e Prestazioni (Nov 2025) – Descrive un modello MoE contemporaneo da 1T-param. K2 utilizza 256K di contesto, 1T totale con 32B attivati[5] e quantizzazione INT4 per efficienza[51]. Ha mostrato forti capacità di utilizzo di strumenti a lungo termine (oltre 200 chiamate sequenziali) e benchmark avanzati per agenti[52], dimostrando il potenziale di combinare la scala MoE con cicli di ragionamento agente. Il costo di addestramento di K2 ~$4,6M[20] esemplifica la nuova accessibilità dell'addestramento a trilioni di parametri.

[1] [10] [21] [33] [34] [43] [44] [45] Fondamenti di MoE: perché i modelli sparsi sono il futuro dell'IA

https://www.cerebras.ai/blog/moe-guide-why-moe

[2] [17] [18] [41] [2412.19437] Rapporto Tecnico DeepSeek-V3

https://arxiv.org/abs/2412.19437

[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 vs Qwen3-Max-Thinking: I modelli di IA cinesi che superano GPT-5 | Spectrum AI Labs

https://spectrumailab.com/blog/deepseek-v4-vs-qwen3-max-thinking-chinese-ai-models-beating-gpt5

[4] [7] [22] [30] [31] [48] Report settimanale dinamico dei modelli AI generativi | jax

https://cdjax.com/?p=680

[5] [6] [19] [23] [24] [39] [51] [52] Kimi K2 Thinking: Pianificazione a Lungo Termine con un Contesto di 256K | di My Social | . | Nov, 2025 | Medium

https://medium.com/aimonks/kimi-k2-thinking-long-horizon-planning-with-256k-context-67cd1277fb72

[9] Valutazione di benchmark dei modelli di linguaggio ampio DeepSeek in ...

https://www.nature.com/articles/s41591-025-03727-2

[11] [13] [14] [15] [16] Panoramica dei documenti ufficiali di Deepseek 4: Deepseek MoE, MLA, MTP, Distillation | di Joyce Birkins | Medium

https://medium.com/@joycebirkins/deepseek-4-official-papers-overview-deepseek-moe-mla-mtp-distillation-49a97b3b90a8

[12] [42] [2401.06066] DeepSeekMoE: Verso l'Ultima Specializzazione degli Esperti nei Modelli di Linguaggio a Miscela-di-Esperti

https://arxiv.org/abs/2401.06066

[20] Kimi K2 Thinking: Il Modello da $4.6M che Sta Cambiando le Narrazioni dell'IA

https://recodechinaai.substack.com/p/kimi-k2-thinking-the-46m-model-shifting

[49] [50] Deepseek V4. : r/DeepSeek

https://www.reddit.com/r/DeepSeek/comments/1nwvnmb/deepseek_v4/