Regalo per il 3° Anniversario di ChatGPT – Le Sfide della Serie DeepSeek V3.2 con GPT-5 e Gemini

Autore: Boxu Li

Tre anni dopo il debutto di ChatGPT, è arrivato un nuovo contendente open-source come regalo di compleanno per la comunità AI. DeepSeek-V3.2 e DeepSeek-V3.2-Speciale – due nuovi modelli di linguaggio di grandi dimensioni – stanno spingendo i confini dei sistemi AI aperti. Sviluppati dal laboratorio cinese DeepSeek, questi modelli mirano a offrire prestazioni di ragionamento a livello GPT-5, competendo con modelli chiusi all'avanguardia come Gemini-3.0-Pro di Google[1][2]. Entrambi i modelli e un rapporto tecnico approfondito sono stati resi open-source, offrendo a ricercatori e sviluppatori uno sguardo più da vicino su quanto siano avanzati i modelli aperti.

DeepSeek-V3.2: Prestazioni Quotidiane a Livello GPT-5

DeepSeek-V3.2 è progettato come un modello “daily driver” equilibrato, adatto per rispondere a domande generali, assistenza al coding e compiti di agenti AI in applicazioni reali. Secondo i benchmark di DeepSeek, le capacità di ragionamento della versione V3.2 corrispondono al livello di GPT-5 nei test pubblici di ragionamento e sono solo leggermente inferiori a Gemini-3.0-Pro[1]. In termini pratici, ciò significa che V3.2 può gestire domande logiche e analitiche complesse quasi allo stesso livello dei migliori modelli chiusi di oggi. Notamente, V3.2 produce output più concisi rispetto ad alcuni modelli aperti precedenti (come Kimi-K2-Thinking), riducendo l'uso di token e il tempo di attesa per l'utente senza perdere profondità di ragionamento[3].

Dietro le quinte, DeepSeek-V3.2 ha 685 miliardi di parametri attivati per token (su un'architettura 670B MoE) – ma è ottimizzato per l'efficienza e l'uso a lungo contesto. Supporta una finestra di contesto estesa di 128K token, consentendo l'analisi di centinaia di pagine di testo in una sola volta. Nonostante le sue dimensioni, V3.2 è stato perfezionato per integrare il ragionamento con l'uso di strumenti esterni. Infatti, è il primo modello di DeepSeek che può “pensare” nel processo di chiamata degli strumenti. Supporta sia una modalità catena di pensiero che una modalità standard quando utilizza strumenti, permettendo di ragionare attraverso compiti multi-step aumentati da strumenti (come usare calcolatrici, interpreti di codice o motori di ricerca) in modo strutturato. Questo rende V3.2 particolarmente potente per le applicazioni agenti – dagli assistenti di codifica che eseguono codice agli agenti conversazionali che navigano sul web.

V3.2-Speciale: Ragionamento Estremo, al Pari di Gemini Pro

Per gli utenti che necessitano di una potenza di ragionamento ancora maggiore, DeepSeek ha rilasciato V3.2-Speciale insieme al modello standard. La variante Speciale porta il ragionamento open-source all'estremo, incorporando un meccanismo di "pensiero" esteso e integrando persino un modulo dedicato alla dimostrazione di teoremi matematici (dal modello DeepSeek-Math-V2). Il risultato è un modello ottimizzato per la risoluzione di problemi altamente complessi – “esplorando i confini delle capacità del modello,” come dicono gli sviluppatori[4]. Nei benchmark di logica rigorosa e matematica, le prestazioni di DeepSeek-V3.2-Speciale sono paragonabili a Gemini-3.0-Pro[4], essenzialmente allineandosi con lo stato dell'arte in quei domini.

Questa affermazione è supportata dai risultati di Speciale in competizioni prestigiose: si dice che abbia raggiunto risultati a livello di medaglia d'oro alle Olimpiadi Internazionali di Matematica (IMO 2025), alle Olimpiadi Cinesi di Matematica (CMO 2025), alle Finali Mondiali ICPC 2025 (programmazione) e alle Olimpiadi Internazionali di Informatica (IOI 2025)[5]. Infatti, nel concorso di programmazione ICPC, le prestazioni di V3.2-Speciale sono state pari a quelle di un medagliato d'argento umano (2° posto), e nelle IOI si è classificato tra i primi 10 concorrenti umani[5]. Questi sono risultati straordinari per un modello AI, che dimostrano capacità di ragionamento e risoluzione dei problemi a livelli umani d'élite.

Vale la pena notare che Speciale è un modello incentrato sugli esperti. Eccelle nel ragionamento a lungo termine (ad esempio, dimostrazioni dettagliate, logica a più fasi, sfide di programmazione complesse), ma non è ottimizzato per chat informali o scrittura creativa. È anche più costoso da eseguire: Speciale tende a consumare significativamente più token per arrivare alle sue risposte[6]. Attualmente, DeepSeek sta fornendo solo V3.2-Speciale tramite una API di ricerca limitata (senza strumenti abilitati) e avverte che è destinato a compiti di ragionamento accademici o ad alto rischio piuttosto che alla conversazione quotidiana.

Ragionamento efficiente tramite attenzione sparsa (DSA)

Una delle principali innovazioni che consente la performance di DeepSeek-V3.2 è un nuovo meccanismo di attenzione chiamato DeepSeek Sparse Attention (DSA). I modelli Transformer tradizionali hanno un costo quadratico all'aumentare della lunghezza del contesto, poiché ogni token presta attenzione a ogni altro token. DSA rompe questo collo di bottiglia utilizzando uno schema di attenzione sparsa a grana fine [7]. Introduce un componente “indicizzatore lampo” che stima rapidamente i punteggi di rilevanza tra il token corrente e i token passati, quindi seleziona solo i primi-$k$ token più rilevanti a cui prestare attenzione[7]. In sostanza, il modello impara a ignorare il contesto irrilevante e a concentrarsi solo sulle parti importanti di una lunga sequenza.

Questo design di attenzione sparsa riduce il calcolo necessario per lunghe sequenze da O(L²) a O(L·k), con k molto più piccolo di L. Nell'implementazione di DeepSeek, è stato utilizzato k=2048 (ogni token si riferisce a 2048 token passati selezionati) durante la seconda fase dell'addestramento. Il team ha impiegato una strategia di addestramento in due fasi per DSA: prima un riscaldamento denso in cui l'indicizzatore rapido è stato addestrato insieme alla piena attenzione per alcuni miliardi di token, per assicurarsi che imparasse a imitare il comportamento della piena attenzione. Poi il modello è stato passato alla modalità sparsa e addestrato su centinaia di miliardi di token in più con la limitazione top-$k$ in atto. Il risultato è un enorme guadagno di efficienza senza perdita di precisione. Infatti, V3.2-Exp (il precursore sperimentale del modello finale) ha ottenuto prestazioni in linea con V3.1-Terminus su una serie di benchmark, nonostante l'uso della nuova attenzione sparsa[8].

In pratica, DSA significa che i documenti lunghi non sono più un peso. I test interni hanno mostrato una velocità di elaborazione fino a 2–3 volte più veloce su input di lunghezza 128K e un utilizzo della memoria inferiore del 30–40%[9]. Anche i costi diminuiscono drasticamente. DeepSeek ha riportato che per contesti di 128K sul loro cluster H800, il costo del prompt (prefill) per milione di token è sceso da ~$0.70 a ~$0.20, e il costo di generazione da ~$2.40 a ~$0.80 – una riduzione di 3 volte del costo di inferenza a lungo contesto. Nell'API pubblica, questi risparmi si sono tradotti in una riduzione di oltre il 50% dei prezzi per gli utenti[10]. In breve, DSA consente a V3.2 di gestire input estremamente lunghi in una frazione del tempo e del costo dei modelli precedenti, senza compromettere la qualità dell'output.

Apprendimento per rinforzo su larga scala: GRPO e Distillazione di Esperti

Un altro fattore importante nelle prestazioni eccezionali di DeepSeek-V3.2 è il massiccio perfezionamento tramite apprendimento per rinforzo (RL) che è stato applicato. Il team di DeepSeek ha investito una quantità senza precedenti di risorse di calcolo nel RL post-addestramento – superando il 10% del calcolo utilizzato nell'addestramento iniziale (che è già enorme per un modello di scala 670 miliardi). Questo è altamente insolito nell'AI open-source, dove i budget per il perfezionamento RL sono tipicamente molto più piccoli. La logica è che mentre l'addestramento iniziale insegna conoscenze generali, un RL intensivo può sbloccare capacità avanzate allineando il modello con obiettivi complessi (come risolvere problemi a più fasi, utilizzare strumenti o seguire istruzioni sotto vincoli)[2].

Per scalare in sicurezza il RL, DeepSeek ha basato il suo lavoro sull'algoritmo personalizzato Group Relative Policy Optimization (GRPO). Hanno introdotto diversi miglioramenti di stabilità ed efficienza in questa pipeline RL:

· Stima KL Impartiale: Il team ha risolto problemi nel precedente stimatore K3 utilizzato per le penalità di divergenza KL, eliminando il bias sistematico che potrebbe portare ad aggiornamenti di gradiente illimitati. Questo ha prevenuto instabilità nell'addestramento che possono verificarsi quando la politica si allontana troppo dalla politica di riferimento.

· Mascheramento della Sequenza Offline: Poiché l'addestramento RL genera spesso grandi batch di dati "rollout" che vengono poi riutilizzati in molti aggiornamenti di gradiente (uno scenario off-policy), DeepSeek ha calcolato la divergenza KL tra la policy di rollout e la policy corrente per ciascun campione. Se la policy di una sequenza generata si allontanava troppo dal modello corrente, quella sequenza veniva mascherata (esclusa) dagli aggiornamenti di addestramento[11][12]. Questo trucco intelligente ha garantito che il modello apprendesse principalmente da dati on-policy o quasi on-policy, migliorando la stabilità e prevenendo che traiettorie errate influenzassero negativamente l'apprendimento.

· Mantenere il Routing per MoE: I modelli di DeepSeek utilizzano un'architettura Mixture-of-Experts, il che significa che diversi “esperti” (sotto-reti) gestiscono diversi token. Una sfida in questo contesto è che piccole differenze tra le implementazioni di inferenza e di addestramento potrebbero portare alla scelta di esperti diversi per lo stesso input, causando incoerenza. DeepSeek ha affrontato questo problema catturando le decisioni di routing degli esperti durante l'inferenza e forzando gli stessi percorsi degli esperti durante gli aggiornamenti RL. Questo metodo “Mantenere il Routing” ha garantito che i parametri regolati durante l'RL corrispondessero agli stessi esperti che verrebbero utilizzati in inferenza, evitando spiacevoli sorprese dovute al rimescolamento degli esperti.

Oltre a queste modifiche algoritmiche, il regime dei dati per RL era molto ambizioso. DeepSeek ha addestrato una serie di modelli specialistici, ognuno focalizzato su un particolare dominio o abilità, e poi ha distillato la conoscenza da tutti loro nella versione V3.2. Ad esempio, hanno ottimizzato esperti specifici per dominio in matematica (dimostrazioni), programmazione, ragionamento logico, compiti generali aumentati da strumenti, agenti basati su codice e agenti basati su ricerca. Ciascuno di questi modelli specialistici è stato addestrato sia in modalità “pensante” (catena del pensiero) che in modalità “non pensante” secondo necessità. Utilizzando questi esperti, DeepSeek ha generato un enorme dataset sintetico di dimostrazioni di alta qualità in ciascun dominio, che è stato poi utilizzato per supervisionare il modello finale V3.2. Questo processo di distillazione degli esperti ha fornito alla V3.2 ricchi segnali di addestramento su oltre 85.000 istruzioni complesse, coprendo tutto, dalle dimostrazioni matematiche passo-passo alle sessioni di debugging software.

Capacità avanzate degli agenti e integrazione dell'uso degli strumenti

Una delle caratteristiche principali di DeepSeek-V3.2 è il notevole miglioramento delle capacità dell'agente – essenzialmente, l'abilità del modello di pianificare, ragionare e utilizzare strumenti in un ciclo multi-step per risolvere problemi. Le versioni precedenti del modello di ragionamento di DeepSeek avevano una limitazione significativa: se il modello era in "modalità pensante" (cioè producendo una catena di pensieri), non poteva chiamare strumenti esterni, e viceversa. La V3.2 elimina questa barriera. È il primo modello DeepSeek che integra completamente il ragionamento con l'uso degli strumenti, il che significa che può mantenere una catena di ragionamento interna mentre effettua chiamate agli strumenti (ad esempio eseguire codice, cercare sul web) durante il dialogo[13]. Questo porta a un comportamento dell'agente molto più potente e flessibile.

Per supportare questo, il team di DeepSeek ha reinventato il funzionamento della gestione del contesto del modello per compiti multi-turno. Nella versione V3.2, le tracce di ragionamento del modello (i “pensieri”) vengono mantenute attraverso una sequenza di chiamate agli strumenti, invece di essere cancellate a ogni passo. Solo quando arriva una nuova richiesta utente il sistema reimposta il contesto di ragionamento (pur mantenendo la cronologia delle interazioni con gli strumenti rilevanti nella conversazione). Questo approccio risparmia molti token e consente al modello di costruire una catena di pensiero persistente per un problema mentre invoca iterativamente gli strumenti. Ad esempio, se l'utente fa una domanda di codifica complicata, il modello può pensare ai passaggi, chiamare un interprete Python per testare del codice, continuare a riflettere in base al risultato, magari chiamare uno strumento di ricerca documentazione, e così via – finalizzando la sua risposta solo quando ha verificato una soluzione corretta. Tutto il ragionamento intermedio rimane disponibile al modello fino al completamento del compito.

DeepSeek ha fornito al modello un prompt di “cold start” che incoraggia esplicitamente questo comportamento. Le istruzioni del sistema spingono il modello a fornire prima un processo di ragionamento dettagliato (contrassegnato con token speciali) prima di rivelare la risposta finale, specialmente per compiti complessi come le sfide di programmazione. Questo ingegneria del prompt assicura che V3.2 sappia che dovrebbe utilizzare la sua catena di pensieri e le capacità degli strumenti per le query difficili, piuttosto che saltare direttamente a una risposta (spesso errata).

Forse l'aspetto più impressionante del set di abilità dell'agente V3.2 deriva da come è stato addestrato. Il team ha costruito un pipeline di sintesi ambientale automatica per creare scenari realistici e impegnativi da cui il modello può imparare. Hanno generato 1.827 ambienti di compiti interattivi abbinati a oltre 85.000 istruzioni complesse che il modello deve risolvere[16]. Fondamentalmente, questi compiti sono stati progettati per essere “difficili da risolvere, facili da verificare.” In altre parole, al modello vengono presentati problemi che hanno un ampio spazio di ricerca (difficili da trovare una soluzione per caso) ma un chiaro criterio per verificare una soluzione. Questa caratteristica li rende ideali per l'apprendimento per rinforzo: il modello può sperimentare (o utilizzare uno strumento) per proporre una soluzione e poi verificare rapidamente se soddisfa tutti i vincoli dati.

Ad esempio, un compito sintetizzato era un itinerario di viaggio di tre giorni con più vincoli (non ripetere città, regolare i budget dinamicamente in base ai costi degli hotel, ecc.). È estremamente difficile per un modello indovinare un itinerario valido perché i vincoli creano un problema combinatorio, ma se il modello propone un itinerario candidato, è semplice verificare se tutti i vincoli sono rispettati. Addestrandosi su molti di questi compiti (che spaziano da pianificazioni di viaggio, programmazioni, enigmi logici e altro), la versione 3.2 ha imparato a gestire meglio i problemi che richiedono ricerca, ottimizzazione o ragionamento a più passaggi. Questo regime di addestramento ha notevolmente migliorato la generalizzazione del modello verso nuovi compiti per agenti mai visti prima.

Nel regno degli agenti di codifica, DeepSeek ha sfruttato GitHub, estraendo milioni di thread di problemi reali e richieste di pull. Hanno automaticamente costruito decine di migliaia di ambienti di sfida di codifica eseguibili da questi dati. Il modello poteva esercitarsi nella lettura di un rapporto di bug o di una richiesta di funzionalità, quindi navigare in una base di codice (con l'assistenza di strumenti) per implementare una correzione o una funzionalità. Questi ambienti coprivano più linguaggi di programmazione (Python, Java, JavaScript, ecc.), esponendo il modello a una vasta gamma di problemi software. Un flusso separato gestiva agenti di QA basati sulla ricerca: utilizzando una simulazione multi-agente, DeepSeek generava dataset in cui un agente poneva domande difficili su entità di nicchia e un altro agente (con accesso a uno strumento di ricerca) doveva trovare e verificare le risposte. Questa generazione a più fasi (costruzione delle domande → ricerca sul web → validazione delle risposte) ha prodotto esempi di addestramento di alta qualità per insegnare a V3.2 come essere un efficace “assistente di ricerca.”

Grazie a questi sforzi, DeepSeek-V3.2 ha fatto un passo avanti nelle attività degli agenti che usano strumenti. Nelle valutazioni interne, V3.2 ha ottenuto i punteggi più alti di qualsiasi modello aperto su una serie di benchmark per agenti, riducendo significativamente il divario con i modelli chiusi[17]. Gli sviluppatori sottolineano che V3.2 non è stato esplicitamente ottimizzato per gli strumenti specifici in quei test – suggerendo che le sue competenze di agente si trasferiscono a scenari reali, non solo a benchmark ristretti[18]. In altre parole, il modello ha imparato come ragionare e usare strumenti in generale, piuttosto che adattarsi solo a compiti particolari.

Benchmark delle Prestazioni e Confronto

Come si posizionano i nuovi modelli di DeepSeek rispetto ai migliori sistemi di intelligenza artificiale sul mercato? Il rapporto tecnico e le prime analisi forniscono alcune risposte. In generale, DeepSeek-V3.2 offre prestazioni di alto livello nel ragionamento matematico e nei compiti di codifica, e V3.2-Speciale rivaleggia persino con i migliori nel ragionamento complesso – ma ci sono ancora aree (come l'uso aperto degli strumenti) dove i modelli chiusi mantengono un vantaggio. Di seguito è riportato un riepilogo dei risultati selezionati dei benchmark che illustrano il panorama competitivo:

Tabella 1: Prestazioni su Campioni di Benchmark di Ragionamento (Accuratezza%)

Benchmark (2025)

OpenAI GPT-5.1 Pro

Google Gemini-3.0-Pro

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

AIME (Olimpiadi di Matematica)

~94,6% (stimato)

~95,0% (stimato)

93,1%

96,0%[4]

HMMT (Torneo di Matematica)

88,3%

97,5%

92,5%

99,2%[4]

GPQA (QA Scientifica, difficile)

85,7%

91,9%

82,4%

85,7%

<small>Fonti: rapporto tecnico DeepSeek[4]. I risultati di GPT-5.1 e Gemini sono valori approssimativi dai grafici del rapporto. Speciale spesso eguaglia o supera Gemini nei compiti matematici, mentre il V3.2 standard è al livello di GPT-5, leggermente inferiore a Gemini.</small>

Come possiamo vedere, DeepSeek-V3.2 mantiene le sue promesse sulle sfide di ragionamento accademico. Nei concorsi di matematica come AIME e HMMT, l'accuratezza della V3.2 è paragonabile a quella di un modello GPT-5 avanzato, e solo di pochi punti inferiore ai punteggi all'avanguardia di Gemini. Il modello Speciale supera addirittura Gemini su quei benchmark matematici, dimostrando l'efficacia del suo approccio migliorato di “pensiero lungo”. Questi risultati sono sorprendenti: la matematica e il ragionamento formale erano da tempo considerati una debolezza dei modelli aperti, ma la V3.2 dimostra che i sistemi open-source possono raggiungere prestazioni di livello frontiera in questo campo.

Dal lato della codifica, DeepSeek-V3.2 brilla anche se la competizione è feroce. Nel test SWE-Bench Verified (che verifica se un modello può produrre differenze di codice che correggono bug e superano i test unitari), V3.2 ha ottenuto un punteggio di ~73%, superando significativamente il suo predecessore (V3.1 ha ottenuto ~66%[20]) e all'incirca in linea con altri modelli aperti di punta come Kimi K2 di Moonshot e Qwen-3 di Alibaba. In effetti, tutti questi modelli aperti superano leggermente il vecchio modello di base 120B di OpenAI su questo benchmark di codifica[21][22]. Questo sottolinea quanto i modelli aperti siano progrediti nella capacità di codifica pratica. DeepSeek V3.2 può risolvere in modo affidabile bug reali e generare codice funzionante, rendendolo estremamente utile per l'assistenza agli sviluppatori.

Tuttavia, contro i migliori modelli chiusi, il quadro è misto. In alcuni compiti di codifica, GPT-5.1 mantiene ancora un vantaggio. Ad esempio, nei più complessi Terminal-Bench 2.0 (che valuta l'uso di strumenti CLI multi-step e la codifica in un ciclo agente), i primi rapporti indicano che GPT-5 e persino Claude di Anthropic superano DeepSeek, soprattutto in termini di affidabilità sostenuta durante lunghe sessioni di utilizzo degli strumenti^23. L'accuratezza di DeepSeek-V3.2 diminuisce in questi complessi compiti multi-step per agenti, riflettendo il fatto che, sebbene sia molto capace, non è ancora il miglior performer quando si tratta di agenti di codifica completamente autonomi o risoluzione di problemi a lungo termine. Allo stesso modo, su benchmark completi di uso degli strumenti come MCP-Universe e Tool-Decathlon, V3.2 è ben dietro a GPT-5 e Gemini^24. I sistemi di OpenAI e Google eseguono ancora piani complessi e multi-strumentali in modo più coerente. Il divario si è ridotto – V3.2 ha raggiunto nuovi livelli per i modelli aperti in questi test^17 – ma resta ancora un ampio margine prima che i modelli aperti possano davvero eguagliare quelli chiusi in termini di competenza generale nell'uso degli strumenti.

In sintesi, DeepSeek-V3.2 offre prestazioni quasi all'avanguardia in molte aree. È competitivo con GPT-5 nei compiti di codifica del mondo reale e addirittura rivaleggia con Gemini nel ragionamento matematico avanzato[19]. Allo stesso tempo, non è una sostituzione completa di GPT-5 o Gemini in tutti i campi, specialmente negli scenari “agente” ultra-complessi che coinvolgono l'orchestrazione elaborata di strumenti, dove quei modelli chiusi hanno ancora un vantaggio[25][24]. Questa visione equilibrata è importante per stabilire le aspettative: la V3.2 eccelle in ciò per cui è stata ottimizzata (ragionamento e codifica con efficienza), mentre la variante Speciale mostra cosa è possibile quando si spinge il ragionamento al limite.

Limitazioni e Prospettive

Nonostante i risultati impressionanti, il team di DeepSeek è onesto riguardo a certe limitazioni della serie V3.2. Innanzitutto, poiché il totale dei FLOPs di addestramento (operazioni in virgola mobile) è ancora inferiore rispetto ad alcuni modelli chiusi ultra-grandi, l'ampiezza della conoscenza del mondo e la memorizzazione di fatti rari in V3.2 potrebbero essere inferiori rispetto a leader come GPT-5. In altre parole, potrebbe non conoscere alcune curiosità oscure o informazioni specifiche di dominio che i modelli proprietari più grandi hanno assorbito. Questo è un compromesso comune nei modelli aperti, che spesso devono addestrarsi su corpora leggermente più piccoli o meno diversificati.

Un'altra sfida è l'efficienza dei token. DeepSeek osserva che sia V3.2 che Speciale a volte devono generare catene di ragionamento più lunghe per raggiungere la stessa qualità di risposta che un modello come Gemini-3.0-Pro può ottenere con una risposta più concisa[6]. In pratica, questo significa che utilizzare V3.2 nella sua modalità "pensiero" potrebbe comportare un costo di token più elevato (e latenza) per risolvere problemi estremamente difficili – il modello sarà prolisso mentre elabora i passaggi. Speciale in particolare, pur essendo straordinariamente capace, è affamato di token: potrebbe produrre una dimostrazione o spiegazione molto dettagliata dove un esperto umano o un modello chiuso raffinato potrebbe fornire una risposta più concisa. Questo non è sempre uno svantaggio (il ragionamento approfondito può essere prezioso), ma rende alcuni utilizzi più costosi.

DeepSeek-V3.2 attualmente manca anche di perfezionamento per la finezza conversazionale aperta o la scrittura creativa. Il focus del suo addestramento era chiaramente sulla risoluzione strutturata dei problemi e sugli agenti. Gli utenti hanno osservato che il suo stile è logico e informativo, ma forse meno naturalmente colloquiale o immaginativo rispetto a modelli come GPT-4 o Claude nel dialogo casuale. Questa è stata una scelta consapevole: DeepSeek ha dato priorità ai compiti di ricerca, alle capacità di codifica e matematica per questa versione, anche se ciò ha comportato una riduzione della naturalezza del dialogo.

Guardando al futuro, il team di DeepSeek ha accennato a progressi continui. Il rapporto tecnico V3.2 discute apertamente queste carenze come obiettivi per miglioramenti futuri. C'è già anticipazione nella comunità per un potenziale modello DeepSeek-R2 - che, se il nome rimane, potrebbe essere il prossimo modello centrato sul ragionamento, basato sulle fondamenta di R1 e V3.2. (I seguaci di DeepSeek hanno scherzosamente implorato “Quando arriverà R2?!” in risposta al lancio di V3.2.) Se e quando arriverà R2, si prevede che potrebbe ulteriormente colmare le lacune, forse incorporando addestramenti ancora più ampi, maggiore infusione di conoscenze e tecniche migliorate di efficienza dei token.

Per ora, DeepSeek-V3.2 rappresenta un traguardo nel mondo dell'AI open source. Dimostra che, con un'ingegneria intelligente – dall'attenzione sparsa alla vasta messa a punto con apprendimento per rinforzo e generazione di compiti sintetici – un modello aperto può raggiungere prestazioni di frontiera nel ragionamento e nella codifica, aree un tempo ritenute dominio esclusivo di modelli chiusi da trilioni di parametri. Come ha detto un analista, la V3.2 è “un modello forte e a basso costo per pensare e codificare che offre risultati di livello frontiera dove la maggior parte degli sviluppatori lavora effettivamente: codice e matematica”[26]. Potrebbe non spodestare GPT-5 o Gemini come soluzione universale di AI, ma nel suo ruolo specializzato, DeepSeek-V3.2 ha un successo spettacolare[27] – e, cosa cruciale, lo fa come modello disponibile gratuitamente. Nell'ecosistema AI più ampio, questo è davvero un dono inestimabile in questo anniversario di ChatGPT.

Fonti: Le informazioni e le citazioni in questo articolo sono tratte dalle note ufficiali di rilascio e dal rapporto tecnico di DeepSeek[1][4][13][17], dalle coperture mediatiche e analisi nelle pubblicazioni AI[2], così come dalle valutazioni indipendenti di DeepSeek-V3.2 da parte dei primi utenti[19][24] e degli esperti della comunità[7][8]. Tutti i benchmark e i confronti riflettono lo stato attuale (dicembre 2025) delle prestazioni del modello sui rispettivi compiti.

[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 versione ufficiale: potenziamento dell'abilità dell'agente, integrazione del ragionamento | DeepSeek API Docs

https://api-docs.deepseek.com/zh-cn/news/news251201

[2] DeepSeek rilascia nuovi modelli di ragionamento per competere con GPT-5, rivale di Gemini 3 Pro

https://analyticsindiamag.com/ai-news-updates/deepseek-releases-new-reasoning-models-to-match-gpt-5-rival-gemini-3-pro/

[7] [8] [9] [10] [11] [12] [21] [22] Recensione di DeepSeek V3.2-Exp. Il nuovo modello sperimentale di DeepSeek… | di Barnacle Goose | Ott, 2025 | Medium

https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c

[19] [23] [24] [25] [26] [27] DeepSeek V3.2 vs Gemini 3.0 vs Claude 4.5 vs GPT-5 | di Mehul Gupta | Data Science in Your Pocket | Dic, 2025 | Medium

https://medium.com/data-science-in-your-pocket/deepseek-v3-2-vs-gemini-3-0-vs-claude-4-5-vs-gpt-5-55a7d865debc

[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-V3.1