
Autore: Boxu Li
In una recente conversazione con Dwarkesh Patel, Ilya Sutskever – co-fondatore di OpenAI e ora a capo della startup Safe Superintelligence (SSI) – ha riflettuto sullo stato dell'IA e sulla sua direzione futura. Sutskever sostiene che l'industria dell'IA stia superando l'era del “basta renderlo più grande” e stia tornando a un'epoca di ricerca fondamentale [1]. Tra il 2012 e il 2020, i progressi del deep learning sono stati guidati da nuove idee (l'“era della ricerca”), seguiti dal focus 2020-2025 sull'ampliamento dei dati e dei parametri (l'“era della scalabilità”) [1]. Ma ora, semplicemente aumentare la dimensione del modello o del dataset sta dando rendimenti decrescenti. Come dice chiaramente Sutskever, “se si aumenta semplicemente la scala di 100 volte, [non] tutto sarebbe trasformato… si torna di nuovo all'era della ricerca, solo con grandi computer.” [2] [3] In altre parole, le future scoperte non deriveranno dalla scala forzata, ma da nuove ricette di addestramento e algoritmi più intelligenti.
Un problema centrale che motiva questo cambiamento è ciò che Sutskever chiama il divario di generalizzazione. I modelli odierni possono eccellere nei benchmark ma inciampare ancora nei compiti pratici – un paradosso che è diventato sempre più evidente. “Questi modelli in qualche modo semplicemente generalizzano molto peggio delle persone. È super evidente. Sembra una cosa molto fondamentale,” osserva Sutskever[4]. I modelli che ottengono i voti migliori nelle competizioni di codifica o negli esami di lingua possono ancora commettere errori bizzarri – ripetendo la stessa correzione di bug avanti e indietro, o fallendo in semplici decisioni di buon senso – che nessun umano competente farebbe[4][5]. Questo mette in evidenza una fragilità: le reti neurali non comprendono veramente né si adattano con la stessa robustezza degli esseri umani, nonostante le loro impressionanti abilità specifiche. Come spiega un riassunto del discorso di Sutskever, anche se abbiamo costruito modelli che si comportano bene nelle valutazioni, la loro affidabilità nel mondo reale rimane una “fragilità evidenziata da … alte prestazioni nelle valutazioni contrastate con errori nel mondo reale.”[6]
Perché i modelli attuali non riescono a generalizzare adeguatamente? Sutskever suggerisce che in parte ciò sia un artefatto del nostro paradigma di addestramento. Nell'era del pre-addestramento su larga scala, abbiamo semplicemente fornito al modello tutto (testi a scala di internet) sperando che l'ampiezza dei dati portasse a capacità ampie. E così è stato, fino a un certo punto. Ma dopo il pre-addestramento, le aziende perfezionano i modelli con l'apprendimento per rinforzo (RL) su benchmark specifici o istruzioni degli utenti. Sutskever sospetta che questa fase di RL spesso sovraspecializzi i modelli per eccellere nei test piuttosto che migliorare realmente la loro comprensione. Nella sua conversazione, offre un'analogia vivida: uno “studente” (analogo a un modello AI) trascorre 10.000 ore a praticare problemi di programmazione competitiva e diventa un prodigio nei concorsi di codifica, mentre un altro studente pratica più modestamente concentrandosi su un'intuizione più ampia della scienza informatica. Il primo potrebbe vincere le competizioni, ma il secondo diventa un ingegnere più versatile nel mondo reale. I modelli odierni sono come specialisti iper-preparati: eccellono nelle condizioni ristrette per cui sono stati ottimizzati, ma mancano di quel “fattore X” che consente agli umani di adattare le competenze a problemi nuovi e complessi. In sintesi, le nostre IA non hanno ancora raggiunto la robusta e fluida generalizzazione che noi umani otteniamo attraverso una vita di esperienze.
Un tema principale nella discussione di Sutskever è l'efficienza campionaria dell'apprendimento umano. Gli esseri umani hanno bisogno di pochissimi dati per apprendere compiti complessi. Ad esempio, Yann LeCun ha sottolineato che un adolescente può imparare a guidare un'auto con forse 10 ore di pratica – un dataset incredibilmente piccolo secondo gli standard dell'IA[12]. I bambini piccoli imparano a riconoscere le auto (e migliaia di altri concetti) semplicemente dall'esposizione nella vita quotidiana[12]. Al contrario, i modelli di IA attuali spesso richiedono set di addestramento enormi e non riescono comunque a eguagliare la flessibilità umana. Sutskever osserva che l'evoluzione ci predispone con alcuni utili bias induttivi – ad esempio, milioni di anni di visione e locomozione hanno modellato i nostri cervelli – ma questo da solo non è l'intera storia[13][12]. Anche in domini non affinati dall'evoluzione (come la lettura, la matematica o la programmazione), gli esseri umani apprendono rapidamente più delle attuali algoritmi[14][15]. Questo suggerisce che “qualunque cosa renda le persone brave nell'apprendimento” va oltre la semplice conoscenza innata – abbiamo un algoritmo di apprendimento fondamentalmente più efficiente[14][15].
Quale potrebbe essere quell'algoritmo? Un indizio, sostiene Sutskever, è che gli esseri umani imparano continuamente e interattivamente, non in un unico grande blocco. Non ingeriamo terabyte di testo per poi congelare il nostro cervello; invece, apprendiamo dall'esperienza continua, aggiornando costantemente le nostre conoscenze. Fa notare che un essere umano a 15 anni ha un'introito totale di dati molto inferiore rispetto a quello di un grande modello linguistico, eppure a 15 anni raggiungiamo una comprensione più profonda e commettiamo molti meno errori evidenti[16][17]. La differenza è che gli esseri umani continuano ad apprendere per tutta la vita: non consideriamo la nostra “fase di addestramento” conclusa nell'adolescenza. “Un essere umano non è una AGI... invece, ci affidiamo all' apprendimento continuo,” dice Sutskever, sottolineando che anche un'IA superintelligente potrebbe dover essere impiegata più come un prodigio quindicenne che come un oracolo onnisciente[18][19]. Un'IA del genere avrebbe una solida base ma inizialmente “manca di una quantità enorme di conoscenze” – imparerebbe poi sul campo in vari ruoli, proprio come un giovane brillante che esce nel mondo per formarsi come medico o ingegnere[19][20]. Infatti, la visione di Sutskever di una superintelligenza sicura è esplicitamente non un modello statico che “sa come fare ogni lavoro”, ma un sistema che “può imparare a fare ogni singolo lavoro” e continua a migliorare[20][21]. In altre parole, il vero successo dell'IA potrebbe significare creare maestri dell'apprendimento, non solo maestri di un compito fisso.
Un altro aspetto dell'apprendimento umano è il nostro meccanismo di feedback incorporato. Gli esseri umani hanno emozioni e intuizioni che agiscono come un segnale di ricompensa interno, guidandoci mentre apprendiamo nuove abilità. Sutskever racconta un caso sorprendente: un uomo che ha perso la capacità di provare emozioni (a causa di un danno cerebrale) è diventato catastroficamente incapace di prendere decisioni, lottando persino per scegliere quali calzini indossare[22][23]. Senza indizi emotivi, non aveva alcun senso interno di ciò che era importante. Questo suggerisce che i nostri cervelli utilizzano una sorta di funzione di valore – una stima continua di quanto le cose stiano andando bene – per imparare in modo efficiente e prendere decisioni[24][25]. In termini di apprendimento per rinforzo, non aspettiamo la fine di un'esperienza per ottenere una ricompensa; generiamo ricompense intrinseche in fasi intermedie (piacere, frustrazione, curiosità, ecc.), il che accelera enormemente l'apprendimento. Sutskever sostiene che gli algoritmi di RL attuali mancano di questa ricchezza – spesso aspettano un punteggio finale e sono quindi estremamente inefficienti nei compiti a lungo termine[26][27]. “Se stai facendo qualcosa che dura a lungo… non ci sarà alcun apprendimento fino alla [fine],” spiega del RL ingenuo[28]. La soluzione è dare agli agenti AI un migliore senso del progresso – una funzione di valore per aggirare i lunghi ritardi di feedback[29][30]. Incorporare un tale feedback interno potrebbe rendere l'addestramento molto più efficiente. Sutskever lo paragona persino a come funzionano le emozioni per gli esseri umani[31], definendola una direzione promettente per “usare il tuo calcolo in modo più produttivo” rispetto al tentativo ed errore brutale[30]. In sintesi, una combinazione di apprendimento continuo e un auto-supervisione più ricca (segnali di valore) potrebbe essere la chiave per colmare il divario di generalizzazione.
Intuizione chiave: I modelli di IA attuali richiedono molti più dati rispetto agli esseri umani e non sono ancora altrettanto adattabili. Gli esseri umani apprendono in modo efficiente accumulando continuamente esperienza e utilizzando il feedback interno (la nostra funzione di valore “emotivo”) per guidare l'apprendimento. Costruire un'IA che apprenda in modo interattivo e incrementale simile, e che possa valutare i propri progressi, potrebbe migliorare notevolmente la generalizzazione[32][4].
Queste intuizioni risuonano profondamente con la nostra filosofia in Macaron AI. Spesso la distilliamo in una frase: La vera intelligenza impara dall'esperienza reale. Piuttosto che puntare esclusivamente su modelli più grandi o dataset offline più ampi, la ricerca di Macaron si concentra sull'apprendimento esperienziale – addestrare l'IA attraverso interazioni attive, feedback e memoria a lungo termine, proprio come un essere umano acquisisce competenze nel tempo. Questo approccio, che chiamiamo Intelligenza Esperienziale, riguarda modelli le cui capacità crescono dalla qualità e diversità delle esperienze da cui apprendono, non solo dalla quantità di dati che ingeriscono. È una scelta consapevole di allontanarsi dall'era della crescita cieca. Come ha sottolineato lo stesso Sutskever, semplicemente accumulare più dati o parametri porta a rendimenti decrescenti[2]; il prossimo salto in avanti verrà da algoritmi che possono imparare di più da meno sfruttando le esperienze giuste.
In concreto, la divisione di ricerca Mind Lab di Macaron ha aperto la strada a tecniche che consentono l'apprendimento continuo guidato dal feedback nei modelli di grandi dimensioni. Non buttiamo via il nostro modello di base per riaddestrarne uno nuovo da zero ad ogni aggiornamento. Invece, estendiamo i modelli di base robusti con un post-addestramento iterativo: apprendimento per rinforzo su compiti reali, feedback umano nel processo e integrazione della memoria a lungo termine. Ad esempio, di recente il nostro team è stato il primo al mondo a eseguire un fine-tuning RL ad alte prestazioni su un modello open-source con 1 trilione di parametri utilizzando adattatori LoRA efficienti in termini di parametri, consumando solo il ~10% del solito budget GPU. Questo è stato un passo avanti nel rendere fattibile il post-addestramento su larga scala. In sostanza, abbiamo dimostrato che offrire a un modello colossale nuove esperienze (e apprendere da esse) può essere fatto in modo estremamente più efficiente rispetto ai metodi ingenui. Il risultato? Invece di ottenere solo una leggera riduzione della perplessità su dati statici, abbiamo insegnato al modello nuove abilità tramite interazione, e lo abbiamo fatto in modo praticabile ed economico. (Notoriamente, abbiamo reso open-source le tecniche dietro a questo e le abbiamo contribuite a framework di addestramento popolari come Megatron di NVIDIA e VEGA di ByteDance, affinché la comunità più ampia possa costruire su di esse.)
Un altro pilastro dell'approccio di Macaron è la memoria – non nel senso banale di una finestra di cronologia chat, ma come componente appreso del modello che accumula e cura conoscenze nel tempo. Gli esseri umani non trattano ogni input allo stesso modo; ricordiamo eventi importanti e dimentichiamo facilmente il resto. Questa capacità di dimenticare saggiamente è cruciale per gestire le dipendenze a lungo termine senza sovraccarico. Ispirati da questo, i nostri ricercatori hanno sviluppato un sistema di memoria innovativo chiamato Memory Diffusion. A differenza della memorizzazione o del recupero forzato, Memory Diffusion insegna al modello come l'informazione dovrebbe evolversi nel corso di una lunga conversazione o storia d'uso. Il modello impara a "diffondere" i dettagli irrilevanti e affinare i fatti salienti man mano che il contesto cresce. Empiricamente, questo metodo ha superato i classici paradigmi di memoria (come il contesto a lunghezza fissa o il recupero euristico) nel mantenere la coerenza a lungo termine. Più intuitivamente, offre al modello una sorta di memoria di lavoro che dà priorità a ciò che conta – proprio come il tuo cervello dimentica rapidamente i cartelloni pubblicitari che hai passato durante il tragitto ma ricorda dove stai andando e perché. Lasciando che il modello impari quali segnali mantenere e quali lasciar andare, otteniamo un sistema che può trasferire importanti apprendimenti da un compito all'altro, abilitando un apprendimento continuo. Questo meccanismo di memoria è diventato un elemento chiave dell'architettura dell'agente Macaron, insieme ai nostri progressi nel ragionamento e nell'uso degli strumenti. È un altro esempio di come preferiamo l'intelligenza architettonica alla scala pura: invece di espandere semplicemente una finestra di contesto a 1 milione di token (che è inefficiente), diamo al modello un modo per comprimere e richiamare intelligentemente le conoscenze dalla sua stessa esperienza.
Fondamentalmente, la ricerca di Macaron non avviene in isolamento dal nostro prodotto. Crediamo in un ciclo ricerca↔prodotto stretto: i miglioramenti in laboratorio vengono direttamente validati dall'esperienza utente, e le intuizioni del prodotto informano nuove ricerche. Ad esempio, l'app di intelligenza artificiale personale di Macaron registra attivamente feedback anonimi su dove le risposte dell'IA risultano insufficienti o quando gli utenti sembrano insoddisfatti. Questi segnali alimentano il nostro addestramento di apprendimento per rinforzo come segnale di ricompensa aggiuntivo. Abbiamo scoperto che l'addestramento basato su feedback reali degli utenti spesso porta a maggiori miglioramenti in capacità rispetto all'aggiunta di più testo da internet nel pre-addestramento. Questo si allinea con l'osservazione di Sutskever che su cosa addestri può essere più importante di quanto addestri: una piccola quantità di esperienza mirata può insegnare a un modello qualcosa che miliardi di token statici non potrebbero[7]. Chiudendo il ciclo tra distribuzione e ricerca, garantiamo che la nostra AI migliori effettivamente nei compiti che interessano alle persone. Nei termini di Sutskever, stiamo dando ai nostri modelli il “fattore X” che deriva dall'esperienza del mondo, non solo dalla sua memorizzazione.
È incoraggiante vedere un consenso crescente tra i leader dell'AI sul fatto che l'apprendimento continuo ed esperienziale sia la strada da seguire. La visione di Sutskever di una superintelligenza che impara come un essere umano – costantemente e in modo adattivo – è proprio il percorso che Macaron ha perseguito. Non siamo soli in questo cambiamento. La recente strategia Pathways di Google, ad esempio, sostiene anche l'addestramento di un modello su molti compiti e modalità in modo che possa apprendere nuove abilità nel tempo, superando i modelli a scopo singolo. E ricercatori come Jason Wei e Jeff Dean hanno discusso la necessità di architetture che possano accumulare conoscenze in modo incrementale ed efficiente, piuttosto che fare affidamento esclusivamente su enormi sessioni di addestramento una tantum. Questo rappresenta un più ampio slancio nell'industria verso quello che potrebbe essere chiamato “AI centrato sull'apprendimento” (anziché l'attuale AI centrato sul modello). In questo nuovo paradigma, la domanda diventa: Quanto rapidamente un'AI può acquisire una nuova abilità o adattarsi a una nuova situazione? – piuttosto che quanti parametri ha o quanto dati sono stati usati per pre-addestrarla. Da questa prospettiva, gli esseri umani sono ancora in testa. Ma il divario si sta riducendo.
Presso Macaron AI, scommettiamo che l'Intelligenza Esperienziale – un'IA che impara dall'esperienza reale – sbloccherà la prossima ondata di prestazioni e affidabilità. Stiamo già vedendo prove concrete: i nostri modelli addestrati con apprendimento per rinforzo e feedback umano non solo migliorano nei benchmark, ma, cosa più importante, sembrano più allineati con le esigenze degli utenti nella pratica. Commettono meno errori strampalati e si correggono più agilmente, perché il loro addestramento li ha portati a notare e correggere gli errori (proprio come farebbe un essere umano). I nostri meccanismi di memoria danno loro una continuità che i puri trasformatori non possiedono, permettendo a una conversazione o a un compito di proseguire per mesi senza azzerarsi. Tutti questi vantaggi derivano dal considerare l'intelligenza come un processo, non un artefatto statico. Come ha detto Sutskever, un'IA distribuita potrebbe attraversare un “periodo di apprendimento per tentativi ed errori” durante il dispiegamento[19][21] – e questo è un vantaggio, non un difetto, purché sia controllato e allineato.
L'allineamento, naturalmente, è fondamentale quando parliamo di apprendimento autonomo dell'IA. Interessante notare che Sutskever ha suggerito che potrebbe essere persino più facile allineare un'IA che veramente apprende e comprende nel tempo – potenzialmente una che valorizza la vita senziente e può modellare il mondo e gli altri con empatia – piuttosto che allineare un super-genio statico addestrato a porte chiuse. Se un'IA cresce interagendo con gli esseri umani, c'è l'opportunità di instillare valori umani durante tutto il suo sviluppo (e di osservare e correggere eventuali errori). Questo rispecchia la nostra visione secondo cui trasparenza e distribuzione graduale sono fondamentali per un'IA sicura. La piattaforma di Macaron, coinvolgendo direttamente gli utenti e imparando da loro, fornisce un ambiente naturale per questo approccio incrementale. Intenzionalmente rilasciamo nuove capacità di apprendimento in fasi, monitorando il comportamento e raccogliendo feedback, piuttosto che svelare un modello a scatola chiusa addestrato in un vuoto. In sintesi, l'apprendimento esperienziale non solo rende l'IA più intelligente, ma può anche renderla più sicura e allineata agli esseri umani.
Sia la prospettiva lungimirante di Ilya Sutskever che il percorso di sviluppo di Macaron portano alla stessa conclusione: il prossimo AI innovativo sarà un maestro apprendista**, non solo un grande memorizzatore**. Un'AI che può imparare dall'esperienza, interiorizzare il feedback, ricordare e adattarsi nel lungo termine – essenzialmente, un'AI che può crescere – è una che può generalizzare alla complessità del mondo reale. Questo rappresenta un cambiamento di mentalità profondo rispetto agli anni precedenti: non si tratta solo di quanta conoscenza il modello possiede all'inizio, ma di quanto efficacemente può acquisire nuova conoscenza. L'immaginario “quindicenne superintelligente” di Sutskever racchiude questa idea[18][19]. In Macaron, stiamo lavorando per costruire quel tipo di AI che apprende continuamente fianco a fianco con la nostra comunità di utenti.
Le implicazioni dell'IA esperienziale e dell'apprendimento continuo sono di vasta portata. Tecnicamente, significa maggiore efficienza dei campioni – fare di più con meno – e modelli che possono adattarsi rapidamente a qualsiasi dominio o distribuzione. Economicamente, promette lavoratori IA che possono essere riformati al volo, accelerando enormemente l'innovazione e la produttività (Sutskever prevede una crescita potenzialmente rapida una volta che tale IA si diffonderà[34][35]). E per la società, significa sistemi IA più comprensibili, perché li vedremo imparare e potremo modellare il loro sviluppo, piuttosto che ricevere un enigma già formato.
Raggiungere questo obiettivo non sarà facile. Richiede progressi negli algoritmi, nei sistemi e nella nostra comprensione teorica dell'apprendimento. Tuttavia, i pezzi si stanno unendo: dalle funzioni di valore e RL avanzato alle architetture di memoria a lungo termine e alla formazione con l'uomo nel circuito. Mentre integriamo questi pezzi, ci avviciniamo a un'IA che davvero pensa e impara su due piedi. Questo è lo spirito che guida la ricerca di Macaron e si allinea strettamente con la visione articolata da leader come Sutskever. L'era della scalabilità ci ha insegnato molto, ma ora sta sorgendo l'era dell'Intelligenza Esperienziale. In questa nuova era, la frontiera non è solo modelli più grandi – sono apprenditori più intelligenti, adattabili e più simili agli umani. Ed è esattamente ciò che stiamo cercando di costruire.
Fonti:
· Intervista di Ilya Sutskever con Dwarkesh Patel (novembre 2025) – Dwarkesh Podcast: “Passare dall'era della scalabilità all'era della ricerca.” I punti salienti sono disponibili sul blog di Dwarkesh[1][4][18][19].
· Sintesi dei punti chiave di Sutskever da parte del digest Best of AI[36].
· Osservazione di LeCun sull'efficienza della guida umana (citata da Sutskever)[12].
· Macaron AI Mind Lab – Brief di ricerca interni sull'intelligenza esperienziale e la memoria (2025).
· Contributi open-source di Macaron AI sulla formazione RL su larga scala (integrazione Megatron-Bridge & VEGA, 2025).
[1] [2] [3] [4] [5] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [32] [34] [35] Ilya Sutskever – Stiamo passando dall'era dello scaling all'era della ricerca
https://www.dwarkesh.com/p/ilya-sutskever-2
[6] [31] [33] [36] Forze trainanti nell'AI: Scalare fino al 2025 e oltre (Jason Wei, OpenAI) spiegato dai migliori articoli AI