
Autore: Boxu Li
Dopo un decennio dominato dal pre-training su larga scala, la comunità dell'AI sta entrando in quella che alcuni chiamano la “seconda metà” dello sviluppo dell'AI[1][2]. Nella prima metà, i progressi sono stati guidati da nuove architetture di modelli e metodi di addestramento che hanno spinto costantemente verso benchmark sempre più alti[3] – dai convnet e LSTM ai Transformer – tutti ottimizzati tramite apprendimento supervisionato o auto-supervisionato su dataset statici. Ma oggi, modelli all'avanguardia come GPT-4 hanno essenzialmente saturato molti benchmark, e semplicemente aumentare i dati e i parametri produce rendimenti decrescenti[2]. Questo cambiamento ha innescato una rivalutazione di come possiamo ottenere maggiore intelligenza e utilità dall'AI.
Un consenso emergente è che l'Apprendimento per Rinforzo (RL) giocherà un ruolo sproporzionato in questa prossima fase. Da tempo si considera il RL come il “gioco finale” dell'IA: un framework abbastanza potente da vincere compiti arbitrari ottimizzando le ricompense a lungo termine[4]. Infatti, è difficile immaginare sistemi sovrumani come AlphaGo o AlphaStar senza il RL al loro centro[4]. Ora, con grandi modelli pre-addestrati come base, molti ricercatori sostengono che “il pre-addestramento è finito” – le future scoperte deriveranno dal post-addestramento di questi modelli in ambienti interattivi tramite RL. Come ha espresso un recente saggio, una volta che abbiamo grandi modelli pre-addestrati (i “priori”) e ambienti adatti, “l'algoritmo RL potrebbe essere la parte più banale” della costruzione di agenti avanzati[5]. In altre parole, abbiamo preparato la torta con il pre-addestramento; l'apprendimento per rinforzo è la chiave per decorarla con ragionamento e capacità decisionale.
Shunyu Yao, in The Second Half, esprime questo ethos. Nota che l'IA moderna fornisce già una “ricetta operativa” – pre-addestramento di grandi modelli linguistici + scaling + ragionamento – che può risolvere molti compiti senza nuovi algoritmi[2][6]. Così, il gioco è cambiato: inventare semplicemente un'altra architettura non porterà più ai salti che una volta faceva. Invece, dobbiamo concentrarci su valutazione e ambienti – essenzialmente, su compiti che costringano l'IA a pensare e agire veramente, non solo a predire il prossimo token[7][8]. E questo inevitabilmente significa usare RL. Yao definisce RL “l'endgame dell'IA” e sostiene che ora che abbiamo gli ingredienti giusti (priori potenti dal pre-addestramento, più ambienti più ricchi con linguaggio e strumenti), “la ricetta sta completamente cambiando il gioco” in questa seconda metà[1]. Dovremmo aspettarci un passaggio da benchmark statici a compiti interattivi, e da valutazioni una tantum a un apprendimento continuo sul campo. In breve, il reinforcement learning sta diventando centrale per come avanziamo con l'IA da ora in avanti.
Perché il rinnovato interesse per RL? In parole semplici, l'apprendimento per rinforzo abilita capacità che l'apprendimento supervisionato da solo non può facilmente raggiungere. I Modelli di Linguaggio di Grandi Dimensioni (LLM) ne sono un esempio. Un trasformatore come GPT-4, pre-addestrato su testi internet, acquisisce una quantità enorme di conoscenze e riconoscimento di schemi linguistici - tuttavia, da solo manca ancora di vera autonomia. Il pre-addestramento insegna “come parlare”, ma non necessariamente quali decisioni prendere in un contesto interattivo. Al contrario, RL può insegnare a un'IA quali obiettivi perseguire e come intraprendere azioni per raggiungerli, massimizzando le ricompense che riflettono quegli obiettivi. Questo passaggio dal prevedere passivamente a sperimentare attivamente e ricevere feedback è cruciale per ragionare, pianificare e allinearsi.
Recenti lavori sugli agenti basati su LLM dimostrano come l'RL sblocchi nuovi livelli di prestazioni. Ad esempio, il modello open-source Kimi K2 è stato ottimizzato end-to-end con l'apprendimento per rinforzo, che 「insegna al modello a pianificare, reagire e autocorreggersi attraverso lunghe catene di ragionamento invece di affidarsi esclusivamente alla post-formazione supervisionata」[9]. Attraverso l'RL, il K2 ha acquisito schemi di ragionamento autonomo – impara a verificare i fatti, iterare sulle ipotesi e rimanere cauto anche quando una domanda sembra facile[10]. Il risultato è un modello che non si limita a ripetere i dati di addestramento, ma capisce attivamente come risolvere problemi nuovi. Allo stesso modo, il progetto K2 enfatizza l'affidabilità: l'agente preferisce verificare le risposte prima di finalizzarle, riflettendo una tendenza dell'RL a massimizzare la correttezza rispetto alla velocità[11]. In sostanza, l'apprendimento per rinforzo ha infuso nel modello un loop “agente” interno di pianificazione e riflessione, spingendolo oltre i limiti della previsione del prossimo token.
Osserviamo questo schema anche con altri sistemi avanzati. Il miglioramento di ChatGPT da GPT-3 è avvenuto in gran parte grazie all'Apprendimento per Rinforzo con Feedback Umano (RLHF). Dopo aver pre-addestrato il modello sui testi, OpenAI lo ha perfezionato con feedback umani e modelli di ricompensa, migliorando notevolmente la sua utilità e l'aderenza alle istruzioni. John Schulman – un ricercatore capo su ChatGPT – descrive quel processo: i tester umani hanno fornito un segnale di ricompensa che ha reso il modello molto migliore nel mantenere conversazioni coerenti, rimanere sul pezzo e evitare output indesiderati[12]. In altre parole, l'RLHF ha allineato il modello alle preferenze umane e alle norme conversazionali. Questa tecnica è diventata uno standard de facto per trasformare LLM grezzi in assistenti utili. Come nota un articolo di WIRED, l'apprendimento per rinforzo è ora un metodo “sempre più popolare” per perfezionare i modelli dando loro ricompense basate su feedback per ottimizzare[13]. Che si tratti di far seguire istruzioni a un chatbot o di dotare un grande modello di abilità di problem-solving, l'RL è lo strumento di scelta una volta che il pre-addestramento ha fatto tutto il possibile.
Il significato del RL va oltre il semplice affinamento per la cortesia; si tratta di insegnare ai modelli a prendere decisioni. Un recente blog tecnico di Macaron AI’s Mind Labs ha riassunto questo concetto: “Man mano che i modelli di linguaggio di grandi dimensioni evolvono oltre il pre-addestramento verso l'apprendimento esperienziale, l'apprendimento per rinforzo è emerso come la chiave per sbloccare capacità di ragionamento avanzate.”[14] Piuttosto che trattare il RL come un ripensamento, i progetti all'avanguardia lo considerano un “pilastro di design di prima classe per il comportamento agente, non solo un passaggio finale di rifinitura”[15]. In termini pratici, ciò significa addestrare i sistemi di intelligenza artificiale collocandoli in ambienti simulati o reali in cui devono agire, ricevere feedback e migliorare, sia che si tratti di un agente LLM che esplora strumenti o di un robot che impara a navigare. L'apprendimento esperienziale attraverso il RL è il modo in cui l'IA acquisirà competenze che non possono essere catturate in dataset statici.
È significativo che nuovi laboratori di IA stiano nascendo attorno a questa filosofia. Thinking Machines Lab, una startup fondata da ex leader di OpenAI, è appena stata lanciata con una massiccia valutazione iniziale di 2 miliardi di dollari per costruire strumenti per affinare modelli di frontiera tramite RL e altre tecniche. Il loro prodotto di punta “Tinker” mira ad automatizzare l'affinamento tramite RL di grandi modelli, scommettendo che permettere a molte persone di “tirare fuori nuove abilità dai grandi modelli sfruttando il reinforcement learning” sarà la prossima grande cosa nell'IA [16][17]. Allo stesso modo, Macaron AI (una nuova impresa di ricerca) sta progettando ottimizzatori RL personalizzati e infrastruttura per scalare RL a modelli con trilioni di parametri [18][19]. Sforzi come questi sottolineano una tendenza più ampia: la comunità dell'IA vede un'enorme opportunità nel RL per spingere i modelli verso nuove frontiere – sia rendendoli più utilizzatori di strumenti e capaci di ragionare (come con Kimi K2 e gli agenti di Macaron) sia più allineati e personalizzati (come con ChatGPT e Tinker). In sintesi, RL è ora vista come una tecnologia chiave abilitante per realizzare il pieno potenziale dei modelli di fondazione costruiti nell'ultimo decennio.

Forse la ragione più convincente per la crescente importanza del RL è il suo successo nel risolvere problemi oltre il campo dei dataset statici, spesso raggiungendo risultati che erano a lungo fuori portata. I traguardi nel gioco sono stati la prima prova drammatica: AlphaGo, AlphaZero di DeepMind e Five di OpenAI hanno conquistato Go, scacchi e persino complessi videogiochi attraverso l'apprendimento per rinforzo profondo. Questi sistemi hanno dimostrato che, dato un obiettivo ben definito (come vincere una partita), gli agenti RL possono superare i campioni umani tramite semplice pratica e ottimizzazione. Notoriamente, la vittoria di OpenAI Five sul team campione del mondo di Dota-2 nel 2019 è stata ottenuta allenandosi esclusivamente tramite RL auto-giocato su scala senza precedenti, mostrando il “potere sorprendente” degli algoritmi RL di oggi quando si fornisce abbastanza esperienza. Quel progetto ha evidenziato sia il potenziale che le sfide del RL: ha richiesto una simulazione massiccia (equivalente a centinaia di anni di gioco) e un'ingegneria ingegnosa per funzionare, ma ha funzionato, producendo lavoro di squadra e strategie oltre ciò che qualsiasi IA basata su regole potrebbe fare.
Fondamentalmente, l'apprendimento per rinforzo (RL) non è più confinato ai giochi. Un traguardo epocale nel 2022 ha visto DeepMind utilizzare l'apprendimento per rinforzo profondo per controllare un plasma di fusione nucleare in tempo reale, qualcosa che era impossibile con i controllori manuali. Addestrando in un simulatore e poi implementando in un reattore tokamak, il loro agente ha imparato a manipolare le bobine magnetiche per contenere il plasma, riuscendo ad apprendere autonomamente a stabilizzare una reazione di fusione[21]. Questo ha dimostrato come l'RL possa affrontare problemi di controllo dinamico ad alta dimensione nella fisica – aprendo nuove strade per la ricerca scientifica che si basa su decisioni sequenziali precise[21].
Un altro ambito in cui il RL sta dimostrando il suo valore nel mondo reale è l'interazione multi-agente e la teoria dei giochi. Un esempio sorprendente è il CICERO di Meta, il primo AI a raggiungere prestazioni a livello umano nel gioco Diplomacy, che richiede negoziazione e costruzione di alleanze tra più giocatori. CICERO combina un LLM per il linguaggio con un modulo di pianificazione addestrato con RL; deve elaborare strategie, modellare le intenzioni degli altri giocatori e dialogare in modo persuasivo. Il risultato è stato una svolta: CICERO è riuscito a cooperare e competere efficacemente con gli esseri umani, anche in presenza di bugie e bluff. Come hanno osservato alcuni, è 「il primo AI a raggiungere prestazioni a livello umano in Diplomacy, un gioco di strategia che richiede fiducia, negoziazione e cooperazione con più giocatori」.[22] Questo va oltre le tattiche da gioco da tavolo; suggerisce che gli agenti RL possono gestire la strategia sociale e ambienti dinamici di teoria dei giochi. Tali capacità sono essenziali per un AI che un giorno potrebbe navigare economie, negoziazioni o decisioni organizzative complesse.
Infine, e forse in modo più drammatico, l'RL sta esplorando completamente lo spazio. Nell'ultimo anno, i ricercatori hanno realizzato ciò che può essere descritto solo come fantascienza divenuta realtà: satelliti e robot autonomi in orbita controllati dal reinforcement learning. In un esperimento del U.S. Naval Research Lab sulla Stazione Spaziale Internazionale, un algoritmo RL (addestrato in simulazione) ha preso il controllo di un robot Astrobee a volo libero e ha eseguito con successo manovre autonome in microgravità[23][24]. Il team dell'NRL ha osservato che questa è “la prima volta che un controllo robotico autonomo nello spazio utilizza algoritmi di reinforcement learning”, e aumenta la fiducia che l'RL possa gestire le condizioni difficili delle operazioni spaziali[23]. Ancora più recentemente, il 30 ottobre 2025, un team dell'Università di Würzburg ha raggiunto un primo dimostrazione in orbita mondiale: il loro piccolo satellite InnoCube ha eseguito una manovra di allineamento dell'assetto interamente sotto il controllo di un agente RL a bordo[25][26]. Come ha affermato il ricercatore principale, “abbiamo raggiunto la prima prova pratica mondiale che un controllore di assetto satellitare addestrato usando il Deep Reinforcement Learning può operare con successo in orbita.”[26] Questo è un momento cruciale – l'RL è passato dalle simulazioni e dai laboratori al controllo di sistemi fisici nello spazio. Il controller AI ha appreso in un simulatore ad alta fedeltà ed è stato caricato sul satellite, dove ha eseguito compiti di orientamento precisi senza alcun intervento umano[27][28]. Il consueto processo lungo mesi di messa a punto manuale di un algoritmo di controllo del satellite è stato sostituito da un agente RL che può adattarsi al volo[29]. Questi successi nella robotica spaziale evidenziano la capacità dell'RL di produrre politiche che si adattano e si generalizzano in condizioni di incertezza del mondo reale – un passo fondamentale verso veicoli, droni e robot più autonomi qui sulla Terra.
Tutti questi esempi sottolineano un punto cruciale: L'apprendimento per rinforzo sta maturando proprio quando ne abbiamo più bisogno. Man mano che l'AI entra nella “seconda metà”, dove la sfida non è solo predire ma eseguire, l'RL fornisce il quadro per sperimentazione, adattamento e ottimizzazione a lungo termine. A differenza dell'apprendimento supervisionato, che è legato ai dati passati, l'RL consente ai sistemi di imparare dalla propria esperienza e migliorare attraverso il tentativo e l'errore. Questo è essenziale per qualsiasi AI che deve operare in situazioni non strutturate e nuove – che si tratti di un assistente che risolve una nuova domanda dell'utente o di un robot che affronta ostacoli imprevisti.
Ci sono anche implicazioni più profonde su come misuriamo il progresso nell'AI. Non possiamo più fare affidamento esclusivamente su benchmark statici per valutare l'intelligenza di un modello. Invece, i ricercatori stanno proponendo nuovi metodi di valutazione che rispecchiano il mondo reale: compiti continui, interazioni umane nel loop e scenari non-i.i.d.[8][30]. Accoppiando tali ambienti ricchi con l'addestramento RL, costringiamo i nostri modelli a sviluppare comportamenti più robusti e generalizzabili. Secondo Yao, la seconda metà sarà dedicata alla creazione di agenti che escano dal ciclo dei benchmark e forniscano effettivamente utilità nel mondo reale[31][32]. La frenesia di investimenti nei laboratori centrati su RL e la rapida adozione di RLHF nell'industria riflettono un riconoscimento che ora è il momento di fare questo salto.
Detto ciò, abbracciare l'RL non è privo di sfide. L'addestramento RL può essere instabile e richiede molte risorse (l'addestramento costoso di OpenAI Five ne è un esempio [20]). Spesso richiede simulazioni rapide o ambienti in cui gli errori siano poco costosi, cosa non sempre disponibile in contesti ad alto rischio. Tuttavia, si stanno facendo progressi anche su questi fronti. Nuovi algoritmi e framework (come le ottimizzazioni All-Sync RL con DAPO di Macaron) stanno migliorando notevolmente l'efficienza dell'addestramento RL su larga scala [19][33]. Tecniche come il trasferimento sim2real, la modellazione delle ricompense e le strategie di esplorazione più sicure stanno aiutando i sistemi RL a passare a implementazioni reali senza fallimenti catastrofici [34][35]. È importante notare che la comunità sta imparando come integrare l'RL con altri paradigmi – ad esempio, utilizzando modelli linguistici come critici o pianificatori, impiegando dimostrazioni umane per guidare l'RL (una sorta di apprendimento imitativo ibrido) e altro ancora. Questi approcci ibridi spesso ottengono il meglio di entrambi i mondi: la conoscenza del pre-addestramento e il processo decisionale dell'apprendimento per rinforzo.
In conclusione, concentrarsi ora sull'apprendimento per rinforzo non è una questione di moda fine a sé stessa, ma un riconoscimento dei bisogni e delle opportunità presenti. Ci troviamo a un bivio in cui i nostri sistemi di IA possiedono immense capacità latenti (grazie al pre-addestramento), e il modo per attivare queste capacità è attraverso l'apprendimento orientato agli obiettivi. Che si tratti di allineare il comportamento dell'IA ai valori umani, dotare i robot di vera autonomia o spingere l'IA a risolvere nuovi problemi scientifici e ingegneristici, l'apprendimento per rinforzo fornisce gli strumenti per raffinare iterativamente e migliorare l'IA tramite feedback. Stiamo assistendo al passaggio da un'era di apprendimento passivo a una di apprendimento attivo e operatività. Come si suol dire, “ciò che ci ha portato fin qui non ci porterà oltre.” Il grosso del lavoro sull'apprendimento delle rappresentazioni potrebbe essere in gran parte svolto da modelli giganteschi, ma trasformare questi modelli in agenti utili, adattivi e affidabili – questo è il lavoro dell'apprendimento per rinforzo. Investendo ora nella ricerca e nelle applicazioni di RL, stiamo essenzialmente affrontando i problemi difficili di petto: creare un'IA che possa pensare a passi, esplorare alternative, riprendersi dagli errori e, in definitiva, padroneggiare compiti aperti. Nella grande traiettoria dell'IA, questo cambiamento è significativo quanto la rivoluzione del deep learning degli anni 2010. La seconda metà è appena iniziata, e l'apprendimento per rinforzo è destinato a esserne la forza trainante.
Riferimenti:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]
[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] La Seconda Metà – Shunyu Yao – 姚顺雨
https://ysymyth.github.io/The-Second-Half/
[9] [10] [11] [15] Introduzione al Pensiero Kimi K2 | Blog
https://kimik2thinking.org/blog/introducing-kimi-k2-thinking
[12] [13] [16] [17] Esclusiva: Il Laboratorio AI di Mira Murati Lancia il Suo Primo Prodotto | WIRED
https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/
[14] [19] [33] MIND LABS | Scalare RL Sincronizzato con DAPO e LoRA
[18] Un'analisi Macaron: Modello Kimi K2 “Thinking”: Avanzare l'AI Agentica Aperta - Macaron
https://macaron.im/blog/kimi-k2-thinking
[20] OpenAI Five sconfigge i campioni del mondo di Dota 2 | OpenAI
https://openai.com/index/openai-five-defeats-dota-2-world-champions/
[21] Accelerare la scienza della fusione attraverso il controllo del plasma appreso - Google DeepMind
https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/
[22] CICERO: IA in Diplomazia e Relazioni | blog_posts – Weights & Biases
https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5
[23] [24] [34] [35] Il Reinforcement Learning sta facendo scalpore nello spazio > U.S. Naval Research Laboratory > NRL News
[25] [26] [27] [28] [29] Prima mondiale nello spazio: l'IA di Würzburg controlla il satellite -
https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/