Un'analisi di Macaron: Modello "Thinking" Kimi K2: Avanzando l'AI Agente Aperto

Introduzione

Il Kimi K2 di Moonshot AI è un modello linguistico di grandi dimensioni (LLM) open-source rivoluzionario che spinge i confini dell'IA "agentica" – modelli che non si limitano a dialogare, ma possono pensare e agire. Presentato a metà del 2025, Kimi K2 è un modello Mixture-of-Experts (MoE) con un numero senza precedenti di 1 trilione di parametri totali (32 miliardi attivi per inferenza). Questa scala massiccia, unita a tecniche di addestramento innovative, ha permesso a Kimi K2 di superare i modelli proprietari leader come GPT-4.1 di OpenAI e Claude (Opus 4) di Anthropic su diversi benchmark complessi. A differenza di molti LLM precedenti che si concentravano su semplici Q&A o dialoghi, Kimi K2 è progettato per la risoluzione autonoma dei problemi – scrivere codice, utilizzare strumenti ed eseguire piani a più fasi per completare compiti. In questo post, esploreremo in profondità l'architettura "pensante" aggiornata di Kimi K2, le sue innovazioni di addestramento e come si confronta con modelli simili. Tracceremo anche collegamenti con concetti discussi sul blog tecnologico di Macaron (ad esempio, stack di ragionamento ibrido e framework di esecuzione istruzioni) e accenneremo a come la direzione R&D di Macaron – incluso un nuovo modello di testo RL+diffusione – si allinea con questi avanzamenti.

Innovazioni Architettoniche: MoE su Scala Trilionaria con MuonClip

Al centro di Kimi K2 c'è un'architettura Mixture-of-Experts transformer. Invece di una rete densa monolitica, MoE divide il modello in molti “esperti” specializzati, in cui solo un sottoinsieme si attiva per token. Kimi K2 utilizza 384 esperti con un instradamento top-2, il che significa che ogni token passa attraverso 8 esperti selezionati (più un esperto condiviso) dei 384. Questo produce l'effetto di un modello da 1 trilione di parametri mantenendo attivi solo 32 miliardi di parametri per token – un modo efficiente per scalare. L'architettura ha 61 strati e una dimensione di attenzione di 7168, con una finestra di contesto inizialmente fino a 128K token (enorme per gli standard del settore). Notevolmente, Kimi K2 ha ridotto il numero di teste di attenzione per migliorare la stabilità su contesti lunghi, una modifica pratica per evitare la divergenza dell'addestramento nelle reti profonde.

Raggiungere un modello di queste dimensioni ha richiesto di superare importanti sfide di ottimizzazione. Moonshot ha introdotto un nuovo ottimizzatore chiamato MuonClip, una versione migliorata del secondo ordine dell'ottimizzatore Muon. MuonClip utilizza una tecnica innovativa di QK-clipping che scala dinamicamente le matrici di proiezione query/chiave per prevenire il noto problema degli “exploding logits” nei transformer. Grazie a ciò, Kimi K2 è stato in grado di essere pre-addestrato su un incredibile 15,5 trilioni di token senza picchi di perdita – un'impresa che sarebbe quasi impossibile con l'ottimizzazione convenzionale AdamW. In altre parole, il modello è convergente in modo stabile su una scala ben oltre quella raggiunta dai precedenti LLM, sfruttando significativamente più dati di addestramento per una migliore conoscenza e competenza. L'uso di MuonClip e di altri trucchi di allenamento (come gli aggiornamenti di alto rango adattati alla geometria della perdita) ha dato a K2 un vantaggio in termini di efficienza dei token, il che significa che ha appreso di più da ogni token rispetto ai modelli precedenti. Questo focus sulla stabilità e sull'efficienza dell'addestramento riecheggia alcuni temi della ricerca di Macaron – ad esempio, i Macaron's Mind Labs hanno esplorato ottimizzatori RL alternativi e strategie di fine-tuning per domare modelli molto grandi. (Consulta il Macaron Tech Blog: “Scaling All-Sync RL with DAPO and LoRA” per sapere come Macaron è riuscito a perfezionare un modello da 671 miliardi di parametri con 10 volte meno GPU utilizzando l'ottimizzazione personalizzata.)

Addestramento Post-Agentico: Competenze Sintetiche e RL Congiunto

La pre-formazione ha costruito una solida base per Kimi K2, ma il vero differenziale è ciò che è avvenuto dopo la pre-formazione. Moonshot ha sottoposto K2 a un processo di post-formazione in più fasi mirato a instillare abilità di ragionamento, uso degli strumenti e allineamento. Una fase chiave è stata una pipeline di sintesi dati agentici su larga scala. Qui, il team ha generato un enorme numero di esempi di compiti a più passaggi: il modello doveva scomporre autonomamente i problemi, utilizzare strumenti, scrivere e debugare codice, e produrre soluzioni corrette verificate. Migliaia di strumenti reali e simulati sono stati coinvolti, e ogni compito era accompagnato da una rubrica o un test verificabile automaticamente per confermare il successo. Importante, i “verificatori” basati su LLM hanno esaminato le azioni e i risultati del modello, escludendo i fallimenti. Questo approccio – che il team di Moonshot descrive come parte di una “Economia del Verificatore” – ha garantito che solo le traiettorie di ragionamento di alta qualità diventassero feedback di formazione. È un po' come avere un revisore automatico di codice o un controllore di dimostrazioni matematiche accanto al modello, su vasta scala. Interessantemente, il design del sistema di Macaron enfatizza un'idea simile di ragionamento verificabile: ad esempio, la pipeline di sintesi del codice autonoma di Macaron combina la generazione neurale con controlli e test simbolici, un approccio ibrido che migliora l'affidabilità rispetto all'output puramente neurale.

Dopo l'addestramento sintetico all'uso degli strumenti, Moonshot ha ulteriormente perfezionato K2 con una fase di apprendimento per rinforzo (RL) congiunta. Durante la messa a punto di RL, Kimi K2 è stato autorizzato a interagire con ambienti reali e simulati, ricevendo ricompense per il completamento dei compiti. In modo unico, Moonshot non si è affidata solo ai modelli di ricompensa statici; invece, hanno addestrato un modello critico insieme a K2 per valutare le sue risposte. Questo critico è stato inizialmente addestrato su compiti oggettivi (dove il successo è chiaro, come superare i test unitari) prima che fosse autorizzato a valutare aspetti soggettivi (utilità, tono). In questo modo, hanno mitigato l'hacking delle ricompense e mantenuto gli incentivi del modello allineati con l'accuratezza verificabile prima dello stile o delle preferenze. La fase RL ha anche incorporato misure per stabilizzare la generazione di contenuti lunghi: K2 è stato regolarizzato con un breve ritorno al suo obiettivo di pre-addestramento (per evitare di dimenticare le competenze di base), e tecniche come il limitare le ricompense e il decadimento della temperatura sono state utilizzate per prevenire il genere di derive e output prolissi che possono affliggere i modelli messi a punto con RL. Il risultato finale di questo rigoroso post-addestramento è che Kimi K2 è diventato altamente competente nel ragionamento multi-step e nell'uso degli strumenti mantenendosi affidabile – essenzialmente un “agente” che può pianificare ed eseguire, non solo chiacchierare. Il regime di addestramento di Kimi K2 può essere visto come un'incarnazione di molte migliori pratiche convergenti: apprendimento supervisionato massiccio, più dati agentici focalizzati, più una messa a punto RL accurata per perfezionare il processo decisionale del modello.

Benchmark delle prestazioni: Come si colloca Kimi K2

Quindi, cosa acquistano tutte queste innovazioni in termini di prestazioni nel mondo reale? Per molti aspetti, Kimi K2 ha stabilito un nuovo standard per i modelli aperti. Secondo il rapporto tecnico di Moonshot e valutazioni indipendenti, K2-Instruct (la variante ottimizzata per le istruzioni) offre risultati all'avanguardia tra gli LLM open-source su compiti complessi di codifica, ragionamento e multi-step. Infatti, su diversi benchmark K2 non solo supera i modelli aperti ma eguaglia o supera alcuni famosi modelli chiusi. Ad esempio, su SWE-Bench (Verified) – un impegnativo benchmark di codifica agentica che misura se un modello può correggere il codice con l'assistenza di strumenti – Kimi K2 ottiene un'accuratezza del 65,8%, superando di gran lunga GPT-4.1 (54,6%). Supera anche il Claude 2 di Anthropic (Claude “Sonnet 4” ha ottenuto il 54,2% in condizioni simili) e si avvicina al miglior punteggio “abilitato al pensiero” di Claude (72,7%). Con un po' di calcolo aggiuntivo durante il test (ad esempio, tentativi multipli in parallelo), K2 può aumentare il suo punteggio su quel benchmark a 71,6%, chiudendo essenzialmente il divario con le prestazioni specializzate di Claude.

Kimi K2 eccelle anche nei compiti di pura programmazione. Su LiveCodeBench, una sfida di programmazione end-to-end, K2 ha raggiunto un'accuratezza del 53,7%, superando GPT-4.1 (44,7%), Claude Opus 4 (47,4%) e DeepSeek-V3 (46,9%) – una prova della sua abilità nella programmazione medium.com. Questo suggerisce che l'addestramento di K2 sul codice e il debug (con tutti quei verificatori) ha dato i suoi frutti con un modello che può generare codice corretto ed eseguibile più spesso rispetto ad altri modelli. Un altro risultato sorprendente proviene dal MATH-500, un benchmark di problemi avanzati di matematica: Kimi K2 ha raggiunto un'accuratezza del 97,4%, superando GPT-4.1 (che ha ottenuto il 92,4%) medium.com. Risolvere problemi di matematica con un successo vicino al 97% è notevole, indicando le forti capacità di ragionamento del modello in un dominio che tipicamente richiede un pensiero logico passo dopo passo. K2 ha ottenuto punteggi altrettanto impressionanti in compiti come GPQA-Diamond (risoluzione generale dei problemi) e varie competizioni di programmazione. Il suo punteggio di 27,1% su OJBench (un set classico di sfide di programmazione) è il più alto tra i modelli aperti, dimostrando che può gestire la programmazione algoritmica tradizionale a un certo grado medium.com. E su un impegnativo benchmark intensivo di conoscenze chiamato Tau2, Kimi K2 ha raggiunto il 65,8%, superando nettamente GPT-4.1 (38,6%) e Claude 2 (45,2%) medium.com – qui la capacità di K2 di utilizzare strumenti (come browser web o calcolatrici) probabilmente gli ha dato un forte vantaggio nel rispondere a domande relative alle telecomunicazioni.

Vale la pena notare che, sebbene Kimi K2 eccella in queste aree, non è strettamente superiore in tutto – è importante mantenere una visione imparziale. Ad esempio, Claude 2 ha ancora un piccolo vantaggio sulla versione più difficile del benchmark di codifica SWE-Bench quando gli è permesso di “pensare” passo dopo passo (72,7% contro il 65,8% di K2). E modelli come GPT-4 hanno ancora capacità che K2 non possiede – in particolare la comprensione multimodale (GPT-4 può vedere immagini, K2 no al momento) e forse una certa finezza conversazionale. Moonshot ha deliberatamente concentrato K2 su compiti agentici, basati su testo, sacrificando aspetti come la trasparenza del ragionamento a catena e gli input multimodali per velocità e specializzazione. Tuttavia, la natura open-source di Kimi K2 gli conferisce un vantaggio unico: chiunque può usarlo o affinarlo, senza le pesanti tariffe delle API proprietarie. Moonshot offre un'API per K2 a una frazione del costo di OpenAI (circa $2,50 per milione di token contro gli $8 per milione di GPT-4). Questa convenienza economica, combinata con prestazioni di alto livello nella codifica e nel ragionamento, posiziona K2 come un'alternativa aperta e convincente ai modelli di classe GPT-4. Infatti, gli osservatori hanno definito Kimi K2 “il modello AI più importante dell'anno” nell'arena open, segnando la risposta della Cina ai giganti occidentali dell'AI. Segue le orme di modelli come il DeepSeek di Alibaba, e sotto molti aspetti supera le prestazioni di DeepSeek (K2 ha superato la versione più recente di DeepSeek di circa 20+ punti su importanti benchmark di codifica). Il punto chiave è che Kimi K2 ha raggiunto un nuovo livello di capacità per i modelli aperti, eguagliando o superando i concorrenti in una serie di compiti pratici – un progresso significativo nel dinamico panorama degli LLM.

Il nuovo “Modo di Pensare”: K2 con Catena di Pensiero

Forse l'aggiornamento più entusiasmante di Kimi K2 è l'introduzione di un modello specializzato K2 「Pensante」 – essenzialmente, una versione di K2 che rallenta e ragiona in profondità. L'originale K2-Instruct era descritto come “di riflesso, senza pensiero lungo” – era ottimizzato per fornire risposte utili rapidamente in un colpo solo, il che va bene per la latenza ma non sempre per la risoluzione di problemi complessi. Riconoscendo ciò, Moonshot ha recentemente rilasciato Kimi-K2-Pensante, una variante progettata esplicitamente per il ragionamento multi-step e l'uso di strumenti attraverso più turni. In modalità K2-Pensante, il modello può pianificare autonomamente una sequenza di azioni, impegnarsi in un processo di pensiero interno più lungo e invocare strumenti o API esterni per raccogliere informazioni prima di finalizzare le risposte. Tecnicamente, supporta fino a una finestra di contesto di 256K token (estremamente grande, per mantenere calcoli intermedi) e può produrre un campo speciale reasoning_content che traccia il suo processo di pensiero. Ad esempio, se viene posta una domanda di ricerca complessa, K2-Pensante potrebbe generare un piano: suddividere la domanda in sotto-domande, fare una ricerca web (uno dei suoi strumenti), riassumere i risultati, eseguire calcoli e poi sintetizzare una risposta finale – tutto mentre registra questi passaggi nel reasoning_content. I primi rapporti indicano che K2-Pensante può autonomamente decomporre istruzioni, analizzare dati (ad esempio file CSV o JSON tramite strumenti) e persino generare rapporti strutturati. Questo chiude efficacemente il cerchio su una limitazione del K2 base: la mancanza di supporto esplicito al ragionamento a catena. Con K2-Pensante, il modello di Moonshot si avvicina a sistemi come l'approccio “Pianifica e Risolvi” di GPT-4 o il ragionamento IA Costituzionale di Claude, dove l'IA può pensare ad alta voce e iterare su problemi difficili. È un passo significativo perché combina la potenza grezza di K2 (quella vasta base di conoscenze e abilità di codifica) con un processo cognitivo simile a quello di un agente per affrontare compiti che semplicemente non possono essere risolti in un solo colpo.

L'introduzione del K2-Thinking risuona con idee che abbiamo esplorato nel contesto di Macaron. Nell'architettura di ragionamento ibrido di Macaron, c'è un'enfasi sull'equilibrio tra risposte rapide di riflesso e un ragionamento deliberativo più profondo a seconda del compito, passando essenzialmente tra la cognizione del “Sistema 1” e del “Sistema 2”. K2 ora incarna questo principio in due modalità: la modalità riflessa originale per risposte rapide e la modalità pensante per quelle complesse. Inoltre, il framework di esecuzione delle istruzioni di Macaron ha sottolineato quanto sia fondamentale per gli assistenti AI analizzare e suddividere correttamente le istruzioni dell'utente prima di agire (per sicurezza e precisione). K2-Thinking si allinea chiaramente a questo: suddividendo esplicitamente i compiti in sotto-compiti e chiamate di strumenti, è meno probabile che interpreti male una richiesta o salti un passaggio importante. Inoltre, la capacità di K2-Thinking di integrare API di strumenti esterni rispecchia la filosofia di Macaron secondo cui gli AI personali dovrebbero interfacciarsi con il mondo (calendari, dati web, app) piuttosto che operare in isolamento. In un certo senso, Kimi K2 sta evolvendo da un potente “cervello” a qualcosa di più simile a un vero agente cognitivo, che è esattamente la direzione in cui molti nella comunità AI (incluso Macaron) credono sia il futuro.

Confronto con Altri Modelli di Avanguardia

With Kimi K2 (and the new thinking mode) in hand, how does Moonshot’s offering compare to other cutting-edge models like OpenAI GPT-4, Anthropic Claude 2, or Google’s rumored Gemini? We’ve already seen that K2 holds its own against GPT-4.1 and Claude 2 on coding and reasoning benchmarks – a stunning achievement given those models had the advantage of closed data and longer development. It’s important to note that GPT-4 still has strengths like vision input and possibly more refined natural language tuning. Claude 2 (e.g. Claude Sonnet 4.5) is known for its long-form “constitutionally” aligned responses and long autonomy (handling very lengthy sessions), and indeed Claude showed slightly higher pass rates on some deeply agentic tasks when allowed unlimited thought. However, K2 narrows this gap with the Thinking mode by acquiring similar long-horizon capabilities. In terms of raw knowledge and math, K2 might even have an edge (as evidenced by its MATH-500 near-perfect score). Google’s Gemini, which is still unreleased as of this writing, is expected to be a multi-modal, highly optimized model possibly exceeding GPT-4. Kimi K2 doesn’t have multi-modality yet (no image or audio understanding), so that’s one area it could lag behind next-gen models. But K2’s modular tool-use approach might compensate by letting it plug into vision or other models as tools (one could imagine pairing K2 with an image captioning tool to mimic multimodal reasoning).

Bisogna anche considerare la distribuzione e i costi. Kimi K2, essendo open source (con una licenza permissiva), può essere auto-ospitato o adattato da chiunque. Il suo design MoE significa che eseguirlo non è economico: avresti bisogno di almeno più GPU A100 o simili per servirlo a bassa latenza. Moonshot ha fornito versioni quantizzate (ad esempio un quant GGUF) che possono essere eseguite su configurazioni più piccole per la sperimentazione, ma per sfruttarlo davvero in produzione su scala 1T completa sono necessari hardware seri. Questo è un compromesso: GPT-4 è accessibile solo tramite API (nessun auto-hosting), ma il lavoro pesante è nascosto nel cloud; con K2 gestisci l'infrastruttura ma guadagni controllo. Per le imprese preoccupate per la privacy dei dati o la personalizzazione, K2 offre un livello di indipendenza che i modelli chiusi non hanno. I blog di ingegneria di Macaron spesso hanno evidenziato punti simili durante l'integrazione dei modelli – bilanciando la capacità grezza di un modello con considerazioni pratiche come latenza, costo e controllabilità. Nel caso di Macaron, hanno sperimentato sia con API chiuse (come Claude) che con modelli aperti (come DeepSeek) per alimentare diverse funzionalità. Sta emergendo una tendenza probabile: implementazioni ibride dove un modello aperto come K2 è utilizzato per determinati compiti (ad esempio codifica, dove eccelle) e un modello specializzato per altri (forse un modello di dialogo più piccolo per chat casuali o un modello di visione per immagini).

Conclusione e Prospettive

Kimi K2 di Moonshot (e l'aggiornamento K2-Thinking) rappresentano un significativo avanzamento nei modelli AI – non solo per i numeri più grandi, ma perché uniscono la scala con vere capacità di ragionamento in una piattaforma aperta. Tecnicamente, K2 dimostra che le architetture Mixture-of-Experts sono un percorso valido per raggiungere la scala di trilioni e che nuovi metodi di ottimizzazione (MuonClip) possono domare tali modelli senza fallimenti catastrofici in fase di addestramento. Le prestazioni di alto livello del modello nei benchmark di codifica e ragionamento sono la prova che la scala massiva e l'addestramento innovativo si sono tradotti in reali capacità di risoluzione di problemi. Forse più importante, Kimi K2 presenta un paradigma “agentico”: è stato esplicitamente addestrato per usare strumenti, verificare il proprio lavoro e migliorare attraverso l'interazione (RL). Questo rappresenta un cambiamento rispetto ai modelli di previsione statici e una tantum del passato. Chiude alcune lacune con la risoluzione di problemi simile a quella umana – ad esempio, suddividendo i compiti in fasi, utilizzando risorse esterne, ricontrollando i risultati – tutto all'interno di un singolo sistema AI. Per la comunità AI open-source, il rilascio di K2 (con checkpoint di base e istruiti disponibili) è una manna, consentendo ai ricercatori di costruire su un modello che può agire, non solo chattare. Stabilisce un nuovo standard per ciò che un modello aperto può fare, probabilmente mettendo pressione anche ai leader dei modelli chiusi per migliorare le loro capacità o ridurre i prezzi.

Dal punto di vista di Macaron, l'emergere di Kimi K2 conferma molte delle direzioni che abbiamo intrapreso nella nostra ricerca e sviluppo. Le nostre discussioni sul blog su ragionamento gerarchico, catene di azioni verificabili e istruzioni arricchite trovano un esempio reale nel design di K2. È incoraggiante vedere queste idee messe in pratica su larga scala. Ovviamente, c'è sempre spazio per migliorare. K2 manca ancora di multimodalità e la sua catena di pensiero (ora presente nel modello Thinking) è una nuova aggiunta che sicuramente evolverà. L'allineamento e la sicurezza restano sfide – uno potrebbe chiedersi come si comporti il modello 1T in scenari avversi o aperti non coperti dal suo modello di ricompensa. Questi sono ambiti in cui la ricerca continua (inclusa quella qui a Macaron) continuerà. Infatti, il team di Macaron sta esplorando un approccio innovativo che utilizza l'apprendimento tramite rinforzo insieme alla generazione di testo basata sulla diffusione – essenzialmente un nuovo modello di diffusione del testo post-addestramento – per ottenere un controllo ancora più fine sugli output di un'IA. Mentre i dettagli sono in arrivo, immaginiamo che ciò potrebbe permettere a un'IA di “pensare diffondendo” attraverso le possibilità in modo controllabile, riducendo potenzialmente problemi come l'allucinazione pur preservando la creatività. È un accenno sottile a dove potrebbe avvenire il prossimo salto: combinare la forza dei LLM transformer (come K2) con le tecniche di modello di diffusione e un rigoroso tuning RL.

In sintesi, il modello K2-Thinking di Kimi K2 inaugura una nuova era di AI aperta che è in grado sia di ragionare profondamente sia di agire autonomamente. Si erge come un testamento del rapido progresso nel nostro campo: solo un anno o due fa, una tale performance da un modello aperto avrebbe sembrato un'impresa quasi impossibile (senza gioco di parole). Ora è qui e ci sfida tutti a pensare in grande. Mentre integriamo questi progressi e sperimentiamo con i nostri ibridi (sia attraverso stack di ragionamento ibrido che ibridi diffusion-RL), la linea tra ciò che era all'avanguardia e ciò che è accessibile continua a sfumare. Il risultato per sviluppatori e utenti è entusiasmante: sistemi AI più potenti, trasparenti e controllabili sono all'orizzonte, che provengano da Moonshot, OpenAI o dai laboratori di Macaron. E ciò significa un'AI che non solo ci comprende meglio, ma può anche lavorare al nostro fianco su compiti complessi, inaugurando veramente l'era degli agenti AI e dell'intelligenza collaborativa.