
Autore: Boxu LI
Nel panorama in evoluzione dell'intelligenza artificiale, dove il pretraining su scale estreme ha prodotto capacità statiche formidabili, il confine si sposta ora dalla costruzione di modelli statici sempre più grandi alla creazione di sistemi agentici – agenti AI che possono ragionare profondamente, utilizzare strumenti, vedere e ricordare, e apprendere continuamente dall'esperienza[1].
La piattaforma Tinker di Thinking Machines Lab, con il suo recente annuncio di disponibilità generale il 12 dicembre 2025, rappresenta un salto infrastrutturale fondamentale, democratizzando l'accesso al fine-tuning e all'estensione multimodale di modelli con trilioni di parametri. Contemporaneamente, Mind Lab— la divisione di ricerca di Macaron AI—articola un quadro filosofico e tecnico per l'"intelligenza esperienziale", in cui i modelli passano da repository di conoscenze congelate a processi dinamici che si affinano tramite feedback del mondo reale. Questa convergenza offre opportunità profonde per affinare la co-progettazione di ricerca e prodotto, chiudendo il ciclo tra innovazione algoritmica e adattamento in fase di distribuzione.
Innovazioni Chiave negli Aggiornamenti di Tinker
In questo post, esamineremo il nuovo modello di ragionamento Kimi K2 di Tinker, l'interfaccia compatibile con OpenAI e i modelli di visione Qwen3-VL, per poi esplorare la filosofia di intelligenza esperienziale di Mind Lab, le loro innovazioni nel reinforcement learning (RL) da trilioni di parametri, l'approccio alla diffusione della memoria e le implicazioni strategiche per costruire la prossima generazione di sistemi AI.
Tinker è una piattaforma di addestramento AI progettata per consentire ai ricercatori di perfezionare e distribuire modelli all'avanguardia senza preoccuparsi dell'infrastruttura[2][3]. Nel dicembre 2025, Tinker ha annunciato diversi aggiornamenti importanti che potenziano le capacità di ragionamento, l'uso degli strumenti e la comprensione visiva dei modelli AI[4]:
[15] Confronto tra Qwen3-VL-235B (modello visione-linguaggio) ottimizzato e DINOv2 (baseline solo visione) nei compiti di classificazione delle immagini con esempi etichettati limitati. Qwen3-VL raggiunge una precisione maggiore, specialmente nel regime di pochi dati (estrema sinistra), grazie alla sua comprensione visiva informata dal linguaggio.
Anche con solo un esempio per classe, il modello 235B Qwen3-VL ha raggiunto una precisione ragionevole, superando significativamente DINOv2 in questo estremo contesto di dati limitati[15]. Con l'aumento del numero di esempi, entrambi i modelli sono migliorati, ma Qwen3-VL ha mantenuto un vantaggio, dimostrando una più forte generalizzazione a pochi colpi[16]. Il vantaggio deriva dalla conoscenza linguistica e del mondo integrata nel modello – per esempio, Qwen3-VL ha già un concetto di come appare o viene descritto un “girasole” o un “golden retriever”, grazie al suo pretraining multimodale[16]. Questo significa che può riconoscere o categorizzare nuove immagini con pochissimi nuovi esempi. In termini pratici, gli utenti di Tinker possono ottenere un'alta precisione nei compiti di visione con dataset molto piccoli sfruttando questi grandi modelli visione-linguaggio. Questa capacità di visione data-efficient è cruciale per scenari reali dove i dati etichettati sono scarsi. Suggerisce anche il potere del ragionamento aumentato dagli strumenti: un modello che “vede” può sfruttare sia indizi visivi che contesto linguistico, rendendolo un agente più versatile (ad esempio, leggendo un diagramma e spiegandolo, o usando un'immagine come parte di una catena di ragionamento). In generale, l'aggiunta di Qwen3-VL a Tinker estende la portata della piattaforma dal puro testo al dominio visivo, abilitando workflow di ragionamento multi-modale sotto la stessa API di addestramento unificata.
Sul fronte della ricerca, Mind Lab – un nuovo laboratorio di ricerca all'avanguardia affiliato a Macaron AI – sta affrontando la sfida di rendere gli agenti AI veramente adattivi ed esperienziali. L'etica di Mind Lab è che “la vera intelligenza deriva dall'esperienza reale, non solo da un pre-addestramento più grande”[17]. In altre parole, semplicemente aumentare i modelli su dataset statici non è sufficiente; il prossimo salto nell'AI verrà da sistemi che imparano continuamente dalle interazioni, proprio come gli esseri umani accumulano esperienza. Mind Lab definisce questa visione come Intelligenza Esperienziale – passando da “cervelli” statici a “menti” adattive che possono formare modelli del mondo interno, aggiornare le loro conoscenze attraverso il feedback, avere obiettivi o valori espliciti e persino riflettere sulle proprie azioni[18]. Questa è una risposta diretta alle limitazioni degli LLM attuali, che sono spesso potenti ma statici dopo il pre-addestramento[18]. Introdurre meccanismi per un adattamento genuino – come l'apprendimento per rinforzo continuo e la memoria dinamica – Mind Lab mira a creare agenti che evolvono con l'uso.
I due pilastri fondamentali del lavoro di Mind Lab sono: (1) Messa a punto efficiente di modelli massicci tramite RL per instillare nuovi comportamenti, e (2) Sistemi di memoria avanzati che permettono agli agenti di conservare e utilizzare conoscenze a lungo termine. Entrambi sono orientati a rendere l'IA più agente (decidere e migliorare autonomamente) e a collegare strettamente i progressi della ricerca con il dispiegamento del prodotto.
Uno dei traguardi principali di Mind Lab è dimostrare l'apprendimento per rinforzo su scala di trilioni di parametri – e farlo in modo pratico e conveniente. A dicembre 2025 hanno annunciato il primo flusso di lavoro RL end-to-end sul modello di ragionamento Kimi K2 con 1,04 trilioni di parametri, raggiunto con solo ~10% delle risorse GPU che tale addestramento richiederebbe normalmente[19]. Come è stato possibile? Il team ha costruito un motore di addestramento specializzato che combina finetuning efficiente in termini di parametri (LoRA) con parallelismo ibrido attraverso la struttura Mixture-of-Experts del modello[20][21].
Invece di sintonizzare tutti i trilioni di pesi, l'approccio di Mind Lab inietta matrici di adattamento a basso rango in strati selezionati di Kimi K2 (sia nel backbone denso che all'interno degli strati esperti) e aggiorna solo quelli durante RL[22]. Questo riduce drasticamente il numero di parametri allenabili (ad esempio, un rango LoRA di alcune decine o centinaia per strato, invece di matrici complete) e quindi riduce l'uso di memoria e calcolo di un ordine di grandezza. Allo stesso tempo, allenare un modello di queste dimensioni richiede di distribuire il carico di lavoro su molti GPU in modo efficiente. Il team ha impiegato una strategia ibrida-parallela: un uso coordinato di parallelismo tensoriale, parallelismo di pipeline, parallelismo esperto (per gli esperti MoE) e parallelismo di sequenza (per l'allenamento di sequenze lunghe), tutto reso compatibile con aggiornamenti LoRA sharded[23]. In pratica, questo significava sfruttare i framework di allenamento di modelli grandi esistenti (Megatron di NVIDIA e VolcEngine RL di ByteDance), potenziandoli per gestire LoRA su MoE e bilanciando attentamente il calcolo su 64 GPU in un cluster[24]. Il risultato è stato un allenamento RL stabile on-policy (simile a un algoritmo in stile PPO) sul modello completo Kimi K2 con un modello di ricompensa che fornisce feedback sulla qualità del ragionamento[22] – qualcosa che la maggior parte dei team considerava precedentemente infattibile a causa dei costi.
Altrettanto importante, ha funzionato: il Kimi K2 ottimizzato con LoRA ha raggiunto miglioramenti significativi nei compiti di ragionamento a lungo termine, con curve di apprendimento fluide e senza divergenze[25]. Fondamentalmente, il modello adattato ha mantenuto le abilità generali del modello base (grazie a modifiche di peso minime e mirate) acquisendo al contempo nuovi comportamenti specifici per i compiti[26]. Ciò significa che la vasta conoscenza preesistente del modello base non è stata sovrascritta, ma solo arricchita – un vantaggio chiave dell'ottimizzazione LoRA. Infatti, gli esperimenti di Mind Lab hanno confermato che i modelli più grandi offrono una base più solida per l'RL. Con un budget di addestramento fisso, un grande modello più piccoli adattatori LoRA ha superato un modello più piccolo addestrato con un tuning completo, sia nei compiti nel dominio che nel trasferimento a nuovi compiti[27]. Come afferma il team, l'RL è “limitato dal pregresso” – se il modello base non può generare traiettorie di alta qualità inizialmente, l'RL ha poco segnale da amplificare[27]. Un potente pregresso preaddestrato come Kimi K2 offre all'RL un set ricco di comportamenti su cui affinarsi, mentre addestrare un modello piccolo da zero deve inventare quei comportamenti ex novo. Questa intuizione capovolge la saggezza convenzionale: può essere più efficiente in termini di calcolo fare RL su un grande modello (con un pregresso forte e l'efficienza di LoRA) piuttosto che su un modello più piccolo, anche se il modello più piccolo è più economico per passo[28]. Il contributo di Mind Lab qui non è solo un algoritmo, ma una strategia infrastrutturale – un piano per rendere l'apprendimento continuo fattibile sui modelli più grandi. Hanno integrato i loro metodi in progetti open-source (Megatron-Bridge, VERL)[29], così la comunità può riprodurre e costruire su questo lavoro, potenzialmente consentendo a molti gruppi di ottimizzare agenti con trilioni di parametri con budget hardware modesti.

Demo dal vivo di Diffusione della Memoria
Un'altra frontiera che Mind Lab sta esplorando è come un agente AI possa gestire memorie a lungo termine delle sue interazioni. Molti sistemi attuali aggiungono un database vettoriale per recuperare frammenti di conversazioni passate o utilizzano tecniche di sintesi per comprimere la storia. Mind Lab propone un sistema di memoria più integrato, “nativo del modello” chiamato Memory Diffusion[30]. L'idea è di trattare l'intera sequenza del dialogo o del percorso di un agente come memoria modificabile nel contesto del modello, piuttosto che qualcosa di memorizzato esternamente. Memory Diffusion funziona mantenendo iterativamente una finestra a dimensione fissa di contesto tramite un ciclo maschera–alloca–riempie[30]. A ogni passo, il modello decide quali token (parti di conversazioni passate) mantenere (maschera) e quali eliminare, riempiendo poi lo spazio liberato con contenuti nuovi in arrivo, rispettando un rigido budget di token per la lunghezza del contesto[30]. Essenzialmente, il modello impara a gestire il proprio contesto, comprimendo o dimenticando i dettagli meno rilevanti e conservando i fatti importanti man mano che l'interazione cresce. Questo è analogo al dimenticare intelligente, dove l'obiettivo non è ricordare tutto indefinitamente (cosa non fattibile date le limitazioni della lunghezza del contesto), ma ricordare in modo utile sotto reali vincoli[30].
Operando a livello di sequenza di token, la Diffusione della Memoria evita la necessità di incorporazioni esterne o ricerche di similarità; la “memoria” vive nello stesso spazio rappresentazionale del contesto operativo del modello. Mind Lab riferisce che questo approccio raggiunge prestazioni di memoria a lungo termine all'avanguardia, il che significa che l'agente può portare avanti conversazioni o compiti estesi senza perdere informazioni rilevanti, tutto attraverso meccanismi appresi all'interno del modello[31]. Funziona anche in tempo costante rispetto alla dimensione del contesto – nessuna esplosione del costo di recupero man mano che la storia cresce, poiché la lunghezza del contesto è fissa e gestita tramite le operazioni di mascheramento/riempimento[31]. In termini pratici, un agente con Diffusione della Memoria potrebbe impegnarsi in una conversazione di migliaia di turni e, sebbene non possa mantenere esplicitamente ogni dettaglio, deciderà continuamente cosa tenere a mente. Preferenze importanti dell'utente o domande irrisolte persisteranno, mentre chiacchiere banali di molto tempo prima potrebbero essere eliminate. Questo approccio tratta la memoria come un componente di prima classe della cognizione del modello, in linea con la visione di Mind Lab che la memoria dovrebbe essere una parte attiva e apprendente del sistema piuttosto che un archivio passivo[30].
Leggi di più sul nostro blog tecnico
Le capacità infrastrutturali di Tinker e le efficienze algoritmiche di Mind Lab formano una simbiosi naturale. Tinker consente l'applicazione diretta dell'ibrido LoRA RL di Mind Lab a Kimi K2 e Qwen3-VL, facilitando i cicli agentici multimodali.
Nel co-design ricerca-prodotto—principio fondamentale di Mind Lab—ciò si manifesta come:
Strategicamente, questo paradigma accelera l'iterazione: i prodotti diventano banchi di prova sperimentali, producendo dati ad alta fedeltà che affinano le ipotesi di ricerca. Ad esempio, la classificazione visiva a pochi esempi acquisita da Tinker può alimentare gli obiettivi di RL negli agenti visivi distribuiti, allineando progressivamente le politiche percettive con le preferenze degli utenti.
Tradizionalmente, la ricerca sull'IA produceva un modello o un algoritmo, e poi un team di prodotto separato poteva capire come implementarlo, con iterazioni relativamente lente tra i due. Mind Lab invece opera su una filosofia di co-progettazione ricerca-prodotto: ogni nuova tecnica viene rapidamente testata in un ambiente agente vivo, e le vere interazioni degli utenti generano dati per affinare la ricerca.
“La ricerca e il prodotto non sono più percorsi separati. Sono un ciclo di feedback chiuso: esperienza utente → dati → addestramento RL → implementazione → migliore UX → dati più ricchi → ripeti.” In pratica, significa che quando Mind Lab migliora il loro algoritmo RL o sistema di memoria, lo integrano in un vero agente rivolto agli utenti (per esempio, l'assistente personale AI di Macaron) e osservano come si comporta con utenti reali. I dati di utilizzo – quali domande pongono gli utenti, dove l'agente fallisce o ha successo, feedback esplicito – vengono poi riutilizzati come segnale di addestramento (attraverso il fine-tuning supervisionato o l'apprendimento per rinforzo) per il prossimo aggiornamento del modello. Questo ciclo stretto accelera notevolmente l'apprendimento: il prodotto è l'esperimento.
Una delle implicazioni è l'uso di modelli di ricompensa in streaming e RLHF online (Apprendimento per Rinforzo da Feedback Umano). Invece di raccogliere un dataset statico di confronti di preferenze umane e addestrare un modello di ricompensa una sola volta, il framework di Mind Lab prevede l'aggiornamento continuo del modello di ricompensa man mano che arrivano nuovi feedback durante la fase di deployment. Ad esempio, se un agente risolve compiti per gli utenti e occasionalmente riceve un pollice verso o una correzione, quei segnali possono essere trasmessi al modello di ricompensa per affinare la sua nozione di comportamento "buono" in tempo reale. La prossima volta che viene eseguito l'apprendimento per rinforzo (che potrebbe essere a cadenza programmata o anche asincrona), il modello di ricompensa aggiornato guida la politica per allinearsi meglio con le preferenze degli utenti. Questo paradigma di RL in streaming trasforma il deployment in un'estensione dell'addestramento: più a lungo l'agente opera nel mondo reale, più esperienza accumula e migliore diventa. L'interfaccia compatibile con OpenAI fornita da Tinker in realtà completa questa strategia: consente a questi modelli appresi continuamente di essere integrati facilmente in prodotti e strumenti esistenti, permettendo a un laboratorio di ricerca di spingere rapidamente nuove versioni del modello su un prodotto e osservare i risultati, senza dover ricostruire l'integrazione ogni volta.
Dal lato di Tinker, la capacità della piattaforma di campionare da un modello durante l'addestramento[10] potrebbe facilitare tali cicli iterativi consentendo valutazioni intermedie e decisioni di tuning dettagliate. Dal lato di Mind Lab, il ciclo di co-design garantisce che le loro innovazioni (come RL su scala di trilioni o diffusione della memoria) siano testate in casi d'uso reali. Questo approccio mette in evidenza le sfide pratiche in anticipo (ad esempio, come gestire la latenza o input utente inaspettati) e colma il divario tra ricerca all'avanguardia e prodotti AI rivolti agli utenti. Il vantaggio strategico è che i miglioramenti sono guidati dalle esigenze del mondo reale e direttamente validati contro l'uso reale. Come osserva Mind Lab, il vero progresso deriva dal “apprendimento continuo dalle interazioni utente-prodotto”[33], e un agente che può adattarsi in situ fornirà alla fine un'esperienza utente molto migliore di uno che è fisso al momento del deployment.
Presi insieme, i progressi di Tinker e Mind Lab evidenziano un cambiamento profondo nel modo in cui costruiamo sistemi AI – da modelli statici ad agenti adattivi co-progettati con i loro ambienti. Emergono diverse implicazioni chiave:
Man mano che le leggi di scala statiche raggiungono un plateau, la sintesi esemplificata dalla personalizzazione accessibile su scala di Tinker e dall'efficiente RL esperienziale di Mind Lab annuncia un'era trasformativa. Integrando l'adattamento nel ciclo del prodotto, ci muoviamo oltre cervelli fragili verso menti resilienti—sistemi che non solo ragionano e percepiscono a livelli di frontiera, ma crescono simbioticamente con il loro ambiente. Questa traiettoria coevolutiva promette un'IA che non è solo capace, ma che diventa continuamente più sintonizzata con i bisogni umani e le complessità del mondo reale.
[1] [34] [35] [36] [2507.20534] Kimi K2: Intelligenza Agente Aperta
https://ar5iv.labs.arxiv.org/html/2507.20534
[2] [3] [8] [9] Tinker - Laboratorio di Thinking Machines
https://thinkingmachines.ai/tinker/
[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: Disponibilità Generale e Input Visivo - Thinking Machines Lab
https://thinkingmachines.ai/blog/tinker-general-availability/
[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] Come Costruiamo un RL di Ragionamento con Trillioni di Parametri utilizzando il 10% delle GPU
[17] [30] [33] Macaron AI | LinkedIn
https://www.linkedin.com/company/macaronaiofficial
Presentiamo Mind Lab — Il braccio di ricerca di Macaron AI