
Auteur : Boxu Li
Après une décennie dominée par la pré-formation à grande échelle, la communauté de l'IA entre dans ce que certains appellent la « seconde moitié » du développement de l'IA[1][2]. Dans la première moitié, les avancées étaient motivées par de nouvelles architectures de modèles et méthodes de formation qui grimpaient sans relâche aux benchmarks[3] – des convnets et LSTM aux Transformers – tous optimisés via un apprentissage supervisé ou auto-supervisé sur des ensembles de données statiques. Mais aujourd'hui, des modèles de pointe comme GPT-4 ont essentiellement saturé de nombreux benchmarks, et le simple fait d'augmenter la taille des données et des paramètres offre des rendements décroissants[2]. Ce changement a suscité une réévaluation de la manière dont nous pouvons obtenir davantage d'intelligence et d'utilité de l'IA.
Un consensus émergent est que l'apprentissage par renforcement (RL) jouera un rôle majeur dans cette prochaine phase. Le RL a longtemps été considéré comme le « but ultime » de l'IA – un cadre suffisamment puissant pour éventuellement réussir à des tâches arbitraires en optimisant les récompenses à long terme[4]. En effet, il est difficile d'imaginer des systèmes surhumains comme AlphaGo ou AlphaStar sans le RL au cœur[4]. Maintenant, avec de grands modèles pré-entraînés comme fondation, de nombreux chercheurs soutiennent que « le pré-entraînement est terminé » – les futures avancées viendront de l'entraînement postérieur de ces modèles dans des environnements interactifs via le RL. Comme l'a écrit un essai récent, une fois que nous avons des modèles pré-entraînés massifs (les « a priori ») et des environnements adaptés, « l'algorithme RL pourrait être la partie la plus triviale » de la création d'agents avancés[5]. En d'autres termes, nous avons cuit le gâteau avec le pré-entraînement ; l'apprentissage par renforcement est la clé pour le glacer avec du raisonnement et de l'agency.
Shunyu Yao, dans La Seconde Moitié, exprime cet ethos. Il note que l'IA moderne offre déjà une « recette fonctionnelle » – pré-entraînement de modèles de langage à grande échelle + mise à l'échelle + raisonnement – qui peut résoudre de nombreuses tâches sans nouveaux algorithmes[2][6]. Ainsi, le jeu a changé : inventer simplement une autre architecture ne produira plus les mêmes avancées. Au lieu de cela, nous devons nous concentrer sur l'évaluation et les environnements – essentiellement, sur des tâches qui obligent l'IA à véritablement penser et agir, et non à simplement prédire le prochain token[7][8]. Et cela signifie inévitablement utiliser l'apprentissage par renforcement. Yao appelle l'apprentissage par renforcement « l'échiquier final de l'IA » et affirme que maintenant que nous avons les bons ingrédients (des a priori puissants issus du pré-entraînement, plus des environnements plus riches avec le langage et les outils), « la recette change complètement le jeu » dans cette seconde moitié[1]. Nous devrions nous attendre à un pivot des benchmarks statiques vers des tâches interactives, et des évaluations ponctuelles vers un apprentissage continu en conditions réelles. En bref, l'apprentissage par renforcement devient central pour la manière dont nous faisons avancer l'IA à partir de maintenant.
Pourquoi ce regain d'intérêt pour le RL ? En termes simples, l'apprentissage par renforcement permet d'obtenir des capacités que l'apprentissage supervisé seul ne peut pas facilement atteindre. Les Grands Modèles de Langage (LLMs) en sont un bon exemple. Un transformateur comme GPT-4, pré-entraîné sur des textes d'internet, acquiert une quantité énorme de connaissances et de reconnaissance des motifs linguistiques – mais à lui seul, il manque encore de véritable agentivité. Le pré-entraînement enseigne « comment parler », mais pas nécessairement quelles décisions prendre dans un contexte interactif. En revanche, le RL peut enseigner à une IA quels objectifs poursuivre et comment agir pour les atteindre, en maximisant les récompenses qui reflètent ces objectifs. Ce passage de la prédiction passive à l'expérimentation active et à la réception de feedback est crucial pour le raisonnement, la planification et l'alignement.
Les travaux récents sur les agents basés sur LLM démontrent comment l'apprentissage par renforcement (RL) ouvre de nouveaux niveaux de performance. Par exemple, le modèle open-source Kimi K2 a été affiné de bout en bout avec l'apprentissage par renforcement, ce qui « enseigne au modèle à planifier, réagir et s'auto-corriger à travers de longues chaînes de raisonnement au lieu de se fier uniquement à la post-formation supervisée »[9]. Grâce au RL, K2 a acquis des schémas de raisonnement autonomes – il apprend à vérifier les faits, à itérer sur des hypothèses, et à rester prudent même lorsqu'une question semble facile[10]. Le résultat est un modèle qui ne se contente pas de régurgiter les données d'entraînement, mais qui réfléchit activement à comment résoudre des problèmes nouveaux. De même, le projet K2 met l'accent sur la fiabilité : l'agent préfère vérifier les réponses avant de les finaliser, reflétant une tendance formée par RL à maximiser l'exactitude plutôt que la rapidité[11]. En essence, l'apprentissage par renforcement a imprégné le modèle d'une boucle « agentique » interne de planification et de réflexion, le poussant au-delà des limites de la prédiction du prochain jeton.
Nous observons ce schéma chez d'autres systèmes avancés également. L'amélioration de ChatGPT par rapport à GPT-3 a été principalement réalisée via l'apprentissage par renforcement à partir de feedback humain (RLHF). Après avoir pré-entraîné le modèle sur du texte, OpenAI l'a affiné avec des retours humains et des modèles de récompense, ce qui a considérablement amélioré son utilité et son respect des instructions. John Schulman – un chercheur principal sur ChatGPT – décrit ce processus : des testeurs humains ont fourni un signal de récompense qui a rendu le modèle bien meilleur pour tenir des conversations cohérentes, rester sur la bonne voie et éviter les résultats non désirés[12]. En d'autres termes, RLHF a aligné le modèle sur les préférences humaines et les normes conversationnelles. Cette technique est devenue une norme de facto pour transformer les grands modèles de langage bruts en assistants utiles. Comme le note un article de WIRED, l'apprentissage par renforcement est désormais une méthode « de plus en plus populaire » pour affiner les modèles en leur donnant des récompenses basées sur le feedback pour optimiser[13]. Que ce soit pour faire suivre des instructions à un chatbot ou pour doter un grand modèle de compétences en résolution de problèmes, l'apprentissage par renforcement est l'outil de choix une fois que le pré-entraînement a atteint ses limites.
L'importance de l'apprentissage par renforcement (RL) va au-delà du simple ajustement pour la politesse ; il s'agit d'enseigner aux modèles à prendre des décisions. Un blog technique récent de Macaron AI’s Mind Labs a résumé cela : « À mesure que les LLM évoluent au-delà de la pré-formation vers l'apprentissage expérientiel, l'apprentissage par renforcement est devenu la clé pour débloquer des capacités de raisonnement avancées. »[14] Plutôt que de considérer le RL comme une réflexion après coup, les projets de pointe le considèrent comme un « pilier de conception de premier ordre pour le comportement agentique, et non juste une étape de finition »[15]. En termes pratiques, cela signifie entraîner les systèmes d'IA en les plaçant dans des environnements simulés ou réels où ils doivent agir, recevoir des retours et s'améliorer – qu'il s'agisse d'un agent LLM parcourant des outils ou d'un robot apprenant à naviguer. L'apprentissage expérientiel via le RL est la manière dont l'IA acquerra des compétences qui ne peuvent pas être capturées dans des ensembles de données statiques.
Il est révélateur que de nouveaux laboratoires d'IA se forment autour de cette philosophie. Thinking Machines Lab, une startup fondée par d'anciens dirigeants d'OpenAI, vient de se lancer avec une évaluation de 2 milliards de dollars pour développer des outils de réglage fin des modèles de pointe via le RL et d'autres techniques. Leur produit phare « Tinker » vise à automatiser le réglage fin par RL des grands modèles, pariant que permettre à de nombreuses personnes de « tirer de nouvelles capacités des grands modèles en utilisant l'apprentissage par renforcement » sera la prochaine grande innovation en IA[16][17]. De même, Macaron AI (une nouvelle entreprise de recherche) conçoit des optimiseurs RL personnalisés et une infrastructure pour faire évoluer le RL vers des modèles à un billion de paramètres[18][19]. Des efforts comme ceux-ci soulignent une tendance plus large : la communauté de l'IA voit une énorme opportunité dans le RL pour pousser les modèles vers de nouveaux horizons – que ce soit pour les rendre plus utilisateurs d'outils et capables de raisonnement (comme avec Kimi K2 et les agents de Macaron) ou plus alignés et personnalisés (comme avec ChatGPT et Tinker). En résumé, le RL est désormais considéré comme une technologie clé pour réaliser le plein potentiel des modèles de base construits au cours de la dernière décennie.

Peut-être que la raison la plus convaincante de la montée en puissance du RL est son succès à résoudre des problèmes au-delà du cadre limité des ensembles de données statiques, réalisant souvent des exploits qui étaient longtemps hors de portée. Les jalons dans le jeu ont été la première preuve marquante : les AlphaGo et AlphaZero de DeepMind et le Five d'OpenAI ont conquis le jeu de Go, les échecs et même des jeux vidéo complexes par le biais de l'apprentissage par renforcement profond. Ces systèmes ont démontré que, avec une récompense bien définie (comme gagner une partie), les agents RL peuvent surpasser les champions humains grâce à une pratique assidue et à l'optimisation[4]. Notamment, la victoire de l'OpenAI Five sur l'équipe championne du monde de Dota-2 en 2019 a été obtenue par un entraînement purement via l'auto-apprentissage RL à une échelle sans précédent, démontrant le « pouvoir surprenant » des algorithmes RL d'aujourd'hui lorsqu'une expérience suffisante est fournie[20]. Ce projet a mis en évidence à la fois le potentiel et les défis du RL : il a nécessité une simulation massive (équivalente à des centaines d'années de jeu) et une ingénierie ingénieuse pour fonctionner, mais cela a fonctionné, produisant une collaboration et des stratégies au-delà de ce qu'une IA basée sur des règles pourrait faire.
De manière cruciale, l'apprentissage par renforcement (RL) ne se limite plus aux jeux. Une avancée marquante en 2022 a vu DeepMind utiliser le RL profond pour contrôler un plasma de fusion nucléaire en temps réel, ce qui était auparavant impossible avec des contrôleurs manuels. En s'entraînant dans un simulateur puis en déployant dans un réacteur tokamak, leur agent a appris à manipuler des bobines magnétiques pour contenir le plasma, réussissant à apprendre à stabiliser une réaction de fusion de manière autonome[21]. Cela a démontré comment le RL peut gérer des problèmes de contrôle dynamiques et de haute dimension en physique – ouvrant de nouvelles voies pour la recherche scientifique qui repose sur une prise de décision séquentielle précise[21].
Un autre domaine où l'apprentissage par renforcement prouve sa robustesse dans le monde réel est l'interaction multi-agents et la théorie des jeux. Un exemple frappant est le CICERO de Meta, le premier IA à atteindre un niveau de performance humaine dans le jeu Diplomacy, qui nécessite négociation et construction d'alliances entre plusieurs joueurs. CICERO combine un LLM pour le langage avec un module de planification entraîné par RL ; il doit élaborer des stratégies, modéliser les intentions des autres joueurs et dialoguer de manière persuasive. Le résultat a été une percée : CICERO a réussi à coopérer et rivaliser efficacement avec des humains, même en présence de mensonges et de bluff. Comme l'ont noté les observateurs, c'est 「le premier IA à atteindre un niveau de performance humaine dans Diplomacy, un jeu de stratégie nécessitant confiance, négociation et coopération avec plusieurs joueurs.」[22] Cela va au-delà des tactiques de jeux de société ; cela suggère que les agents RL peuvent gérer la stratégie sociale et les environnements dynamiques de théorie des jeux. De telles capacités sont essentielles pour une IA qui pourrait un jour naviguer dans les économies, les négociations ou les décisions organisationnelles complexes.
Enfin, et peut-être de manière plus spectaculaire, l'apprentissage par renforcement (RL) s'aventure entièrement hors de la Terre. Au cours de l'année écoulée, les chercheurs ont réalisé ce qui ne peut être décrit que comme de la science-fiction devenue réalité : des satellites et robots autonomes en orbite contrôlés par l'apprentissage par renforcement. Dans une expérience du laboratoire de recherche navale des États-Unis sur la Station spatiale internationale, un algorithme RL (entraîné en simulation) a pris le contrôle d'un robot Astrobee en vol libre et a réussi à effectuer des manœuvres autonomes en microgravité[23][24]. L'équipe de la NRL a noté qu'il s'agit du « premier contrôle robotique autonome dans l'espace utilisant des algorithmes d'apprentissage par renforcement », ce qui renforce la confiance que le RL peut gérer les conditions difficiles des opérations spatiales[23]. Plus récemment encore, le 30 octobre 2025, une équipe de l'université de Würzburg a réalisé une **démonstration en orbite mondiale : leur petit satellite InnoCube a exécuté une manœuvre d'alignement d'attitude entièrement sous le contrôle d'un agent RL embarqué[25][26]. Comme l'a dit le chercheur principal, « nous avons réalisé la première preuve pratique mondiale qu'un contrôleur d'attitude de satellite entraîné à l'aide de l'apprentissage profond par renforcement peut fonctionner avec succès en orbite. »[26] C'est un moment charnière – le RL est passé des simulations et des laboratoires au contrôle des systèmes physiques dans l'espace. Le contrôleur AI a appris dans un simulateur haute fidélité et a été téléchargé sur le satellite, où il a effectué des tâches d'orientation précises sans intervention humaine[27][28]. Le processus habituel de plusieurs mois de réglage manuel de l'algorithme de contrôle d'un satellite a été remplacé par un agent RL capable de s'adapter à la volée[29]. Ces succès en robotique spatiale mettent en évidence la capacité du RL à produire des politiques qui s'adaptent et se généralisent dans l'incertitude du monde réel – une étape clé vers des véhicules, drones et robots plus autonomes ici sur Terre également.
Tous ces exemples soulignent un point crucial : l'apprentissage par renforcement arrive à maturité au moment où nous en avons le plus besoin. Alors que l'IA entre dans sa « deuxième moitié », où le défi n'est pas seulement de prédire mais de performer, l'AR fournit le cadre pour l'expérimentation, l'adaptation et l'optimisation à long terme. Contrairement à l'apprentissage supervisé, qui est lié aux données passées, l'AR permet aux systèmes d'apprendre de leur propre expérience et de s'améliorer grâce à l'essai-erreur. Cela est essentiel pour toute IA qui doit fonctionner dans des situations non structurées et nouvelles – qu'il s'agisse d'un assistant résolvant une nouvelle requête utilisateur ou d'un robot faisant face à des obstacles inattendus.
Il y a aussi des implications plus profondes sur la façon dont nous mesurons le progrès en IA. Nous ne pouvons plus nous fier uniquement à des benchmarks statiques pour évaluer l'intelligence d'un modèle. Au lieu de cela, les chercheurs proposent de nouveaux systèmes d'évaluation qui reflètent le monde réel : tâches continues, interactions humain-dans-la-boucle et scénarios non-i.i.d.[8][30]. En associant de tels environnements riches avec l'entraînement RL, nous forçons nos modèles à développer des comportements plus robustes et généralisables. Selon Yao, la deuxième moitié consistera à créer des agents qui sortent de la boucle des benchmarks et fournissent réellement une utilité dans le monde réel[31][32]. La vague d'investissement dans les laboratoires centrés sur le RL et l'adoption rapide du RLHF dans l'industrie reflètent une reconnaissance que maintenant est le moment de faire ce saut.
Cela dit, adopter l'apprentissage par renforcement (RL) ne va pas sans défis. L'entraînement RL peut être instable et gourmand en ressources (l'entraînement coûteux d'OpenAI Five en est un bon exemple[20]). Cela exige souvent des simulations rapides ou des environnements où les erreurs sont peu coûteuses – des conditions pas toujours disponibles dans les domaines à enjeux élevés. Cependant, des progrès sont également réalisés dans ces domaines. De nouveaux algorithmes et cadres (comme les optimisations All-Sync RL avec DAPO de Macaron) améliorent considérablement l'efficacité de l'entraînement RL à grande échelle[19][33]. Des techniques comme le transfert sim2real, la modélisation des récompenses et des stratégies d'exploration plus sûres aident les systèmes RL à passer à des déploiements réels sans échecs catastrophiques[34][35]. Il est important que la communauté apprenne à mélanger RL avec d'autres paradigmes – par exemple, utiliser des modèles linguistiques comme critiques ou planificateurs, utiliser des démonstrations humaines pour guider RL (une sorte d'apprentissage par imitation hybride), et plus encore. Ces approches hybrides tirent souvent le meilleur des deux mondes : la connaissance du pré-entraînement et la prise de décision de l'apprentissage par renforcement.
En conclusion, se concentrer sur l'apprentissage par renforcement maintenant n'est pas une question de battage médiatique pour le plaisir – c'est une reconnaissance des besoins et des opportunités existants. Nous sommes à un carrefour où nos systèmes d'IA possèdent des capacités latentes considérables (grâce au pré-entraînement), et la façon de activer ces capacités est par l'apprentissage dirigé par des objectifs. Qu'il s'agisse d'aligner le comportement de l'IA sur les valeurs humaines, de doter les robots d'une véritable autonomie ou de pousser l'IA à résoudre de nouveaux problèmes scientifiques et techniques, l'apprentissage par renforcement fournit les outils pour affiner et améliorer l'IA de manière itérative grâce aux retours. Nous assistons à la transition d'une ère d'apprentissage passif à une ère d'apprentissage et d'action actifs. Comme le dit le proverbe, « ce qui nous a amenés ici ne nous mènera pas là-bas. » Le gros du travail de l'apprentissage de la représentation est peut-être largement accompli par les modèles géants, mais transformer ces modèles en agents utiles, adaptatifs et fiables – c'est là le travail de l'apprentissage par renforcement. En investissant dans la recherche et les applications de l'apprentissage par renforcement maintenant, nous abordons essentiellement les problèmes difficiles de front : créer une IA capable de penser par étapes, explorer des alternatives, se remettre des erreurs et finalement maîtriser des tâches à final ouvert. Dans la grande trajectoire de l'IA, ce changement est aussi significatif que la révolution de l'apprentissage profond des années 2010. La seconde moitié vient tout juste de commencer, et l'apprentissage par renforcement est prêt à en être la force motrice.
Références : [4][1][2][13][12][9][15][18][23][22][25][26][19][21]
[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] La deuxième mi-temps – Shunyu Yao – 姚顺雨
https://ysymyth.github.io/The-Second-Half/
[9] [10] [11] [15] Présentation de Kimi K2 Thinking | Blog
https://kimik2thinking.org/blog/introducing-kimi-k2-thinking
[12] [13] [16] [17] Exclusivité : Le laboratoire d'IA furtif de Mira Murati lance son premier produit | WIRED
https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/
[14] [19] [33] MIND LABS | Échelle RL Synchronisé avec DAPO et LoRA
[18] Une Analyse de Macaron : Modèle Kimi K2 « Pensant » : Avancer l'IA Agentique Ouverte - Macaron
https://macaron.im/blog/kimi-k2-thinking
[20] OpenAI Five bat les champions du monde de Dota 2 | OpenAI
https://openai.com/index/openai-five-defeats-dota-2-world-champions/
[21] Accélérer la science de la fusion grâce au contrôle du plasma appris - Google DeepMind
https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/
[22] CICERO : IA en diplomatie et relations | blog_posts – Weights & Biases
https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5
[23] [24] [34] [35] L'apprentissage par renforcement fait sensation dans l'espace > Laboratoire de recherche navale des États-Unis > Nouvelles du NRL
[25] [26] [27] [28] [29] Première mondiale dans l'espace : l'IA de Würzburg contrôle un satellite -
https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/