
Auteur : Boxu Li
Lors d'une récente conversation avec Dwarkesh Patel, Ilya Sutskever – cofondateur d'OpenAI et désormais à la tête de la startup Safe Superintelligence (SSI) – a réfléchi à l'état de l'IA et à son avenir. Sutskever soutient que l'industrie de l'IA dépasse l'ère du simple « faisons-le plus grand » pour revenir à une époque de recherche fondamentale[1]. Entre 2012 et 2020 environ, les progrès de l'apprentissage profond ont été motivés par de nouvelles idées (l'« ère de la recherche »), suivis par la période 2020–2025 axée sur le passage à l'échelle des données et des paramètres (l'« ère de l'échelle »)[1]. Mais maintenant, le simple fait d'augmenter la taille des modèles ou des ensembles de données donne des rendements décroissants. Comme le dit Sutskever sans détour, « si vous multipliez simplement l'échelle par 100, [pas] tout serait transformé… c'est de retour à l'ère de la recherche, juste avec de gros ordinateurs. »[2][3]. En d'autres termes, les futures percées viendront non pas d'une échelle brute, mais de nouvelles recettes d'entraînement et d'algorithmes plus intelligents.
Un problème central motivant ce changement est ce que Sutskever appelle le fossé de généralisation. Les modèles actuels peuvent exceller aux benchmarks mais trébucher sur des tâches pratiques – un paradoxe de plus en plus évident. « Ces modèles généralisent d'une manière nettement moins efficace que les humains. C'est super évident. Cela semble être quelque chose de très fondamental, » note Sutskever[4]. Les modèles qui obtiennent les meilleures notes aux concours de codage ou aux examens linguistiques peuvent encore commettre des erreurs bizarres – répétant la même correction de bug à plusieurs reprises, ou échouant dans des décisions de bon sens simples – qu'aucun humain compétent ne ferait[4][5]. Cela met en lumière une fragilité : les réseaux neuronaux ne comprennent ni ne s'adaptent véritablement aussi robustement que les humains, malgré leurs compétences impressionnantes mais étroites. Comme l'explique un résumé de l'intervention de Sutskever, même si nous avons construit des modèles qui performent bien lors des évaluations, leur fiabilité dans le monde réel demeure « une fragilité mise en évidence par … une haute performance lors des évaluations contrastée par des erreurs dans le monde réel. »[6]
Pourquoi les modèles actuels échouent-ils à généraliser ? Sutskever suggère que c'est en partie un artefact de notre paradigme d'entraînement. À l'ère du pré-entraînement à grande échelle, nous avons simplement alimenté le modèle avec tout (des textes à l'échelle d'internet) en espérant que la diversité des données offrirait des capacités étendues. Cela a fonctionné – jusqu'à un certain point. Mais après le pré-entraînement, les entreprises affinent les modèles avec l'apprentissage par renforcement (RL) sur des benchmarks spécifiques ou des instructions d'utilisateur. Sutskever suspecte que cette étape de RL spécialise souvent trop les modèles pour réussir les tests plutôt que d'améliorer véritablement leur compréhension[7]. Dans sa conversation, il donne une analogie vivante : un “étudiant” (analogue à un modèle d'IA) passe 10 000 heures à pratiquer des problèmes de programmation compétitive et devient un prodige des concours de codage, tandis qu'un autre étudiant s'exerce plus modestement et se concentre sur une intuition plus large en informatique[8][9]. Le premier peut gagner des compétitions mais le second finit par devenir un ingénieur plus polyvalent dans le monde réel. Les modèles d'aujourd'hui ressemblent à des spécialistes surentraînés – ils excellent dans les conditions étroites pour lesquelles ils ont été adaptés, mais ils manquent du « facteur X » que les humains possèdent pour adapter leurs compétences à de nouveaux problèmes complexes[10][11]. En bref, nos IA n'ont pas encore atteint la généralisation robuste et fluide que nous, humains, acquérons à travers une vie d'expérience.
Un thème majeur dans la discussion de Sutskever est l'efficacité d'échantillonnage de l'apprentissage humain. Les humains ont besoin d'étonnamment peu de données pour apprendre des tâches complexes. Par exemple, Yann LeCun a souligné qu'un adolescent peut apprendre à conduire une voiture en peut-être 10 heures de pratique – un ensemble de données incroyablement réduit par rapport aux normes de l'IA[12]. Les jeunes enfants apprennent à reconnaître les voitures (et des milliers d'autres concepts) simplement grâce à l'exposition quotidienne[12]. En revanche, les modèles d'IA actuels nécessitent souvent d'énormes ensembles d'entraînement et ne peuvent toujours pas égaler la flexibilité humaine. Sutskever note que l'évolution nous précharge avec certains biais inductifs utiles – par exemple, des millions d'années de vision et de locomotion ont façonné notre cerveau – mais cela ne raconte pas toute l'histoire[13][12]. Même dans des domaines non affinés par l'évolution (comme la lecture, les mathématiques ou la programmation), les humains surpassent rapidement les algorithmes actuels[14][15]. Cela suggère que « quoi que ce soit qui rende les gens bons en apprentissage » va au-delà du simple savoir intégré – nous avons un algorithme d'apprentissage fondamentalement plus efficace[14][15].
Quel pourrait être cet algorithme ? Un indice, soutient Sutskever, est que les humains apprennent de manière continue et interactive, et non en une seule fois. Nous n'absorbons pas des téraoctets de texte pour ensuite figer notre cerveau ; nous apprenons plutôt de l'expérience continue, en mettant constamment à jour nos connaissances. Il souligne qu'un être humain à l'âge de 15 ans a absorbé beaucoup moins de données qu'un corpus de modèle de langage, pourtant, à 15 ans, nous atteignons une compréhension plus profonde et faisons beaucoup moins d'erreurs évidentes[16][17]. La différence est que les humains continuent d'apprendre tout au long de la vie – nous ne considérons pas notre « phase d'entraînement » comme terminée à l'adolescence. « Un être humain n'est pas une AGI… au lieu de cela, nous comptons sur l'apprentissage continu, » dit Sutskever, soulignant que même une IA superintelligente pourrait devoir être déployée davantage comme un prodigieux adolescent de 15 ans que comme un oracle omniscient[18][19]. Une telle IA aurait une base solide mais « manquerait initialement d'une grande quantité de connaissances » – elle apprendrait alors sur le tas dans divers rôles, tout comme un jeune brillant s'engage dans le monde pour se former en tant que médecin ou ingénieur[19][20]. En fait, la vision de Sutskever d'une superintelligence sûre n'est explicitement pas un modèle statique qui « sait faire chaque travail », mais un système qui « peut apprendre à faire chaque travail » et continue de s'améliorer[20][21]. En d'autres termes, le véritable succès de l'IA pourrait signifier créer des maîtres de l'apprentissage, et non simplement des maîtres de n'importe quelle tâche fixe.
Un autre aspect de l'apprentissage humain est nos mécanismes de rétroaction intégrés. Les humains ont des émotions et de l'intuition qui fonctionnent comme un signal de récompense interne, nous guidant lorsque nous apprenons de nouvelles compétences. Sutskever relate un cas frappant : un homme qui a perdu la capacité de ressentir des émotions (en raison de lésions cérébrales) est devenu catastrophiquement mauvais en matière de prise de décisions, peinant même à choisir quelles chaussettes porter[22][23]. Sans indices émotionnels, il n'avait aucun sens interne de ce qui importait. Cela suggère que notre cerveau utilise une sorte de fonction de valeur – une estimation continue de la manière dont les choses se passent – pour apprendre efficacement et prendre des décisions[24][25]. En termes d'apprentissage par renforcement, nous n'attendons pas la toute fin d'une expérience pour recevoir une récompense ; nous générons des récompenses intrinsèques à des étapes intermédiaires (plaisir, frustration, curiosité, etc.), ce qui accélère énormément l'apprentissage. Sutskever soutient que les algorithmes d'AR actuels manquent de cette richesse – ils attendent souvent un score final et sont donc extrêmement inefficaces sur des tâches à long terme[26][27]. “Si vous faites quelque chose qui dure longtemps… il n'y aura aucun apprentissage jusqu'à [la fin],” explique-t-il à propos de l'AR naïf[28]. La solution est de donner aux agents IA un meilleur sens du progrès – une fonction de valeur pour court-circuiter les longs délais de rétroaction[29][30]. L'intégration de tels retours internes pourrait rendre l'entraînement bien plus efficace. Sutskever le compare même à la façon dont les émotions fonctionnent pour les humains[31], le qualifiant de direction prometteuse pour “utiliser votre calcul de manière plus productive” que par essai-erreur brutale[30]. En résumé, une combinaison d'apprentissage continu et d'auto-supervision plus riche (signaux de valeur) pourrait être la clé pour combler le fossé de généralisation.
Key insight: Current AI models need far more data than humans and still aren’t as adaptable. Humans learn efficiently by continuously gathering experience and by using internal feedback (our “emotional” value function) to guide learning. Building AI that learns in a similar interactive, incremental way – and that can judge its own progress – could dramatically improve generalization[32][4].
Ces idées résonnent profondément avec notre philosophie chez Macaron AI. Nous la distillons souvent en une phrase : La véritable intelligence s'apprend par l'expérience réelle. Plutôt que de miser uniquement sur des modèles plus grands ou des ensembles de données hors ligne plus vastes, la recherche de Macaron se concentre sur l'apprentissage expérientiel – former l'IA par des interactions actives, des retours d'information et une mémoire à long terme, tout comme un humain acquiert des compétences au fil du temps. Cette approche, que nous appelons Intelligence Expérientielle, concerne des modèles dont les capacités se développent grâce à la qualité et la diversité des expériences qu'ils acquièrent, et pas seulement grâce à la quantité de données qu'ils ingèrent. C'est un départ conscient de l'ère de l'augmentation aveugle. Comme l'a souligné Sutskever lui-même, simplement accumuler plus de données ou de paramètres entraîne des rendements décroissants[2]; le prochain bond en avant viendra d'algorithmes capables d'apprendre plus avec moins en tirant parti des bonnes expériences.
Concrètement, la division de recherche Mind Lab de Macaron a été à la pointe des techniques permettant un apprentissage continu et basé sur les retours dans les grands modèles. Nous ne jetons pas notre modèle de base pour en préformer un nouveau à partir de zéro à chaque mise à jour. Au lieu de cela, nous étendons les modèles de base solides avec un post-entraînement itératif : apprentissage par renforcement sur des tâches réelles, feedback humain en boucle, et intégration de la mémoire à long terme. Par exemple, notre équipe a récemment été la première au monde à réaliser un réglage fin de RL haute performance sur un modèle open-source de 1 trillion de paramètres – en utilisant des adaptateurs LoRA économes en paramètres – tout en consommant seulement ~10% du budget GPU habituel. Cela a été une percée dans la faisabilité du post-entraînement à grande échelle. En essence, nous avons montré que donner à un modèle colossal de nouvelles expériences (et apprendre d'elles) peut être fait de manière beaucoup plus efficace que les méthodes naïves. Le résultat ? Au lieu de simplement réduire légèrement la perplexité sur des données statiques, nous avons enseigné de nouvelles compétences au modèle via l'interaction – et ce, de manière abordable et pratique. (Notamment, nous avons open-sourcé les techniques derrière cela et les avons intégrées dans des frameworks de formation populaires comme Megatron de NVIDIA et VEGA de ByteDance, afin que la communauté plus large puisse construire dessus.)
Un autre pilier de l'approche de Macaron est la mémoire – non pas dans le sens trivial d'une fenêtre d'historique de chat, mais comme un composant appris du modèle qui accumule et organise les connaissances au fil du temps. Les humains ne traitent pas chaque information de la même manière ; nous nous souvenons des événements importants et oublions rapidement le reste. Cette capacité à oublier judicieusement est cruciale pour gérer les dépendances à long terme sans surcharge. Inspirés par cela, nos chercheurs ont développé un nouveau système de mémoire appelé Memory Diffusion. Contrairement au cache ou à la récupération brute, la Memory Diffusion apprend au modèle comment l'information devrait évoluer au cours d'une longue conversation ou d'un historique d'utilisation. Le modèle apprend à « diffuser » les détails non pertinents et à affiner les faits saillants à mesure que le contexte s'élargit. Empiriquement, cette méthode a surpassé les bases de mémoire classiques (comme le contexte de longueur fixe ou la récupération heuristique) pour maintenir la cohérence à long terme. Plus intuitivement, cela offre au modèle une sorte de mémoire de travail qui priorise ce qui compte – tout comme votre cerveau oublie rapidement les panneaux publicitaires que vous avez croisés en chemin, mais retient où vous allez et pourquoi. En permettant au modèle d'apprendre quels signaux conserver et lesquels laisser de côté, nous aboutissons à un système capable de transporter des apprentissages importants d'une tâche à l'autre, permettant un apprentissage continu. Ce mécanisme de mémoire est devenu une pièce maîtresse de l'architecture de l'agent Macaron, aux côtés de nos avancées en matière de raisonnement et d'utilisation d'outils. C'est un autre exemple de notre préférence pour l'intelligence architecturale plutôt que l'échelle brute : au lieu de simplement étendre une fenêtre de contexte à 1 million de tokens (ce qui est inefficace), nous donnons au modèle un moyen de compresser et de rappeler intelligemment les connaissances de sa propre expérience.
Essentiellement, la recherche de Macaron ne se déroule pas en isolement de notre produit. Nous croyons en une boucle recherche↔produit étroite : les améliorations en laboratoire sont directement validées par l'expérience utilisateur, et les insights du produit informent de nouvelles recherches. Par exemple, l'application AI personnelle de Macaron enregistre activement des retours d'expérience anonymisés sur les endroits où les réponses de l'AI sont insuffisantes ou lorsque les utilisateurs semblent insatisfaits. Ces signaux alimentent notre apprentissage par renforcement comme signal de récompense supplémentaire. Nous avons constaté que s'entraîner sur de véritables retours d'utilisateurs produit souvent des gains de capacité plus importants que simplement ajouter plus de texte Internet à l'entraînement préalable. Cela rejoint l'observation de Sutskever selon laquelle ce sur quoi vous vous entraînez peut compter plus que la quantité – une petite quantité d'expérience ciblée peut enseigner à un modèle quelque chose que des milliards de tokens statiques ne pourraient pas[[7]](#:~:text=Nous%20avons%20déjà%20constaté%20une%20transition,passer%20beaucoup%20de%20temps%20de calcul). En bouclant la boucle entre le déploiement et la recherche, nous garantissons que notre AI s'améliore réellement dans les tâches qui comptent pour les gens. En termes de Sutskever, nous donnons à nos modèles le « facteur X » qui provient de l'expérience du monde, pas seulement de sa mémorisation.
Il est encourageant de voir un consensus croissant parmi les leaders de l'IA selon lequel l'apprentissage continu et expérientiel est la voie à suivre. La vision de Sutskever d'une superintelligence qui apprend comme un humain – constamment et de manière adaptative – est précisément le chemin que Macaron poursuit. Nous ne sommes pas seuls dans ce changement. La récente stratégie Pathways de Google, par exemple, prône également l'entraînement d'un modèle sur de nombreuses tâches et modalités afin qu'il puisse acquérir de nouvelles compétences au fil du temps, dépassant ainsi les modèles à usage unique. Et des chercheurs comme Jason Wei et Jeff Dean ont discuté de la nécessité d'architectures capables d'accumuler des connaissances de manière incrémentale et efficace, plutôt que de se fier uniquement à des entraînements uniques et monumentaux. Cela représente un momentum plus large dans l'industrie vers ce qui pourrait être appelé “IA centrée sur l'apprentissage” (par opposition à l'IA centrée sur les modèles d'aujourd'hui). Dans ce nouveau paradigme, la question devient : À quelle vitesse une IA peut-elle acquérir une nouvelle capacité ou s'adapter à une nouvelle situation ? – plutôt que combien de paramètres possède-t-elle ou combien de données ont été utilisées pour la préformer. Selon cette mesure, les humains détiennent toujours la couronne. Mais l'écart se réduit.
Chez Macaron AI, nous parions que l'Intelligence Expérientielle – une IA qui apprend de l'expérience réelle – débloquera la prochaine vague de performance et de fiabilité. Nous voyons déjà des preuves : nos modèles entraînés avec l'apprentissage par renforcement et les retours humains non seulement performent mieux sur les benchmarks, mais surtout, ils semblent plus alignés avec les besoins des utilisateurs en pratique. Ils font moins d'erreurs farfelues et se remettent des erreurs plus gracieusement, car leur entraînement leur a appris à remarquer et corriger les erreurs (comme le ferait un humain). Nos mécanismes de mémoire leur confèrent de même une continuité que les transformateurs purs n'ont pas, permettant à une conversation ou une tâche de se poursuivre sur plusieurs mois sans réinitialisation. Tous ces avantages découlent du traitement de l'intelligence comme un processus, et non comme un artefact statique. Comme l'a dit Sutskever, une IA déployée pourrait traverser une « période d'apprentissage par essai-erreur » lors du déploiement[19][21] – et c'est une caractéristique, pas un défaut, tant que c'est contrôlé et aligné.
L'alignement, bien sûr, est primordial lorsque nous parlons d'apprentissage autonome de l'IA. Fait intéressant, Sutskever a suggéré qu'il pourrait même être plus facile d'aligner une IA qui apprend vraiment et comprend au fil du temps – potentiellement une qui valorise la vie consciente et peut modéliser le monde et les autres avec empathie – que d'aligner un super-génie statique qui a été formé à huis clos[33]. Si une IA grandit en interagissant avec des humains, il y a une opportunité d'inculquer des valeurs humaines tout au long de son développement (et d'observer et de corriger les erreurs). Cela fait écho à notre point de vue selon lequel la transparence et le déploiement progressif sont essentiels pour une IA sûre. La plateforme de Macaron, en engageant directement les utilisateurs et en apprenant d'eux, offre un bac à sable naturel pour cette approche incrémentale. Nous déployons intentionnellement de nouvelles capacités d'apprentissage par étapes, surveillons le comportement et recueillons des retours, plutôt que de libérer un modèle boîte noire formé dans le vide. En résumé, l'apprentissage expérientiel rend non seulement l'IA plus intelligente – il peut aussi la rendre plus sûre et mieux alignée sur l'humain.
La perspective tournée vers l'avenir d'Ilya Sutskever et le parcours de développement de Macaron pointent vers la même conclusion : la prochaine percée de l'IA sera un maître apprenant**, et non simplement un mémoriseur plus grand**. Une IA capable d'apprendre de l'expérience, d'internaliser les retours, de se souvenir et de s'adapter sur le long terme – en somme, une IA capable de grandir – est celle qui peut s'adapter au désordre du monde réel. Cela représente un changement profond de mentalité par rapport aux années précédentes : il ne s'agit pas seulement de la quantité de connaissances avec laquelle le modèle commence, mais de la manière dont il peut acquérir de nouvelles connaissances de manière efficace. Le « superintelligent de 15 ans » imaginé par Sutskever encapsule cette idée[18][19]. Chez Macaron, nous travaillons à construire ce type d'IA capable d'apprentissage continu aux côtés de notre communauté d'utilisateurs.
Les implications de l'IA d'apprentissage expérientiel et continu sont vastes. Techniquement, cela signifie une efficacité d'échantillonnage plus élevée – faire plus avec moins – et des modèles capables de s'adapter rapidement à n'importe quel domaine ou distribution. Économiquement, cela promet des travailleurs IA qui peuvent être réentrainés à la volée, accélérant considérablement l'innovation et la productivité (Sutskever prédit une croissance potentiellement rapide dès que de telles IA se propageront[34][35]). Et pour la société, cela signifie des systèmes IA plus compréhensibles, car nous les verrons apprendre et pourrons façonner leur développement, plutôt que de recevoir une énigme toute faite.
Atteindre cela ne sera pas facile. Cela nécessite des avancées dans les algorithmes, les systèmes et notre compréhension théorique de l'apprentissage. Cependant, les éléments se mettent en place : des fonctions de valeur et RL avancé aux architectures de mémoire à vie et à la formation avec l'humain dans la boucle. En intégrant ces éléments, nous nous rapprochons d'une IA qui réfléchit et apprend sur le tas. C'est l'esprit qui anime la recherche de Macaron, et cela s'aligne étroitement avec la vision articulée par des leaders comme Sutskever. L'ère du scaling nous a beaucoup appris, mais l'ère de l'Intelligence Expérientielle est en train de naître. Dans cette nouvelle ère, la frontière n'est pas seulement des modèles plus grands – ce sont des apprenants plus intelligents, plus adaptables, plus humanoïdes. Et c'est exactement ce que nous nous efforçons de construire.
Sources :
· Interview d'Ilya Sutskever avec Dwarkesh Patel (novembre 2025) – Podcast Dwarkesh: « Passer de l'ère de l'échelle à l'ère de la recherche. » Points forts disponibles sur le blog de Dwarkesh[1][4][18][19].
· Résumé des points clés de Sutskever par le digest Best of AI[36].
· Observation de LeCun sur l'efficacité de la conduite humaine (référencée par Sutskever)[12].
· Macaron AI Mind Lab – Briefs de recherche internes sur l'Intelligence Expérientielle et la Mémoire (2025).
· Contributions open-source de Macaron AI sur la formation RL à grande échelle (intégration Megatron-Bridge et VEGA, 2025).
Ilya Sutskever – Nous passons de l'ère de l'échelle à l'ère de la recherche
https://www.dwarkesh.com/p/ilya-sutskever-2
[6] [31] [33] [36] Les forces motrices de l'IA : Évoluer vers 2025 et au-delà (Jason Wei, OpenAI) par Best AI papers explained