Des modèles statiques aux agents adaptatifs : Innovations dans Tinker et Mind Lab

Auteur : Boxu LI

Dans le paysage en constante évolution de l'intelligence artificielle, où l'entraînement à des échelles extrêmes a donné naissance à des capacités statiques redoutables, la frontière se déplace désormais de la construction de modèles statiques toujours plus grands vers la création de systèmes agentiques – des agents IA capables de raisonner en profondeur, d'utiliser des outils, de voir et de se souvenir, et d'apprendre continuellement de l'expérience[1].

La plateforme Tinker de Thinking Machines Lab, avec son annonce de disponibilité générale récente le 12 décembre 2025, représente un saut infrastructurel crucial, démocratisant l'accès au réglage fin et à l'extension multimodale des modèles de billions de paramètres. Parallèlement, Mind Lab — la division de recherche de Macaron AI — articule un cadre philosophique et technique pour l'"intelligence expérientielle", où les modèles passent de dépôts de connaissances figés à des processus dynamiques qui se raffinent grâce aux retours du monde réel. Cette convergence offre des opportunités profondes pour affiner la co-conception de la recherche et du produit, fermant la boucle entre l'innovation algorithmique et l'adaptation déployée.

Principales innovations dans les mises à jour de Tinker

La plateforme Tinker de Thinking Machines Lab atteint une disponibilité générale, prenant en charge le réglage fin du modèle MoE à mille milliards de paramètres Kimi K2 Thinking de Moonshot AI, l'inférence compatible OpenAI, et les entrées multimodales via la série Qwen3-VL d'Alibaba.
Ces éléments permettent une personnalisation efficace des modèles de raisonnement et de vision-langage de pointe, avec des démonstrations montrant une performance supérieure en few-shot dans la classification d'images.
Mind Lab (le bras de recherche de Macaron AI) fait progresser le RL évolutif basé sur LoRA sur des modèles MoE similaires à l'échelle du billion, en mettant l'accent sur l'adaptation expérientielle.

Dans cet article, nous plongerons dans le nouveau modèle de raisonnement Kimi K2 de Tinker, l'interface compatible OpenAI, et les modèles de vision Qwen3-VL, puis explorerons la philosophie de l'intelligence expérientielle de Mind Lab, leurs avancées en apprentissage par renforcement (RL) à mille milliards de paramètres, leur approche de diffusion de mémoire, et les implications stratégiques pour construire la prochaine génération de systèmes d'IA.

Les dernières innovations de Tinker : Raisonnement, Outils, et Vision

Tinker est une plateforme de formation en IA conçue pour permettre aux chercheurs d'affiner et de déployer des modèles de pointe sans se soucier de l'infrastructure[2][3]. En décembre 2025, Tinker a annoncé plusieurs mises à jour majeures renforçant les capacités de raisonnement, l'utilisation d'outils, et la compréhension visuelle des modèles d'IA[4]:

Modèle de Pensée Kimi K2 : Les utilisateurs peuvent désormais affiner le modèle de pensée Kimi K2, un modèle colossal avec 1 billion de paramètres, le plus grand de la gamme de Tinker[5]. Kimi K2 est un transformateur Mixture-of-Experts (MoE) conçu pour un raisonnement en chaîne de pensée et l'utilisation d'outils agentiques[6]. Malgré son envergure, seul un sous-ensemble (~32B) de ses paramètres est actif à un moment donné, lui permettant d'atteindre des performances de raisonnement de pointe tout en maintenant une inférence efficace[7]. Ce modèle ouvert – décrit comme une « intelligence agentique ouverte » – rivalise ou surpasse de nombreux modèles fermés sur des benchmarks de raisonnement complexes[7]. En prenant en charge Kimi K2 sur Tinker, Thinking Machines permet aux chercheurs de tirer parti d'un moteur de raisonnement avancé pour les tâches nécessitant une logique multi-étapes, une planification ou des appels d'outils externes. Importamment, Tinker affine ces modèles en utilisant LoRA (Low-Rank Adaptation), en entraînant de petites matrices d'adaptateurs au lieu de mettre à jour tous les milliards de poids[8]. Cette approche réduit considérablement la mémoire et les calculs nécessaires pour la personnalisation. En fait, des études internes ont montré qu'avec la bonne configuration, LoRA peut égaliser les performances d'apprentissage d'un affinement complet tout en utilisant beaucoup moins de ressources[9]. En pratique, cela signifie que les utilisateurs peuvent adapter un modèle géant comme Kimi K2 à de nouvelles tâches ou domaines sans coût prohibitif – un pas crucial vers des flux de travail de raisonnement plus efficaces.
Inférence Compatible avec l'API OpenAI : Pour accélérer l'intégration recherche-produit, Tinker a introduit une interface d'inférence compatible avec l'API d'OpenAI pour les complétions[10]. Essentiellement, on peut interroger un modèle hébergé par Tinker en utilisant les mêmes appels d'API que ceux utilisés par la plateforme d'OpenAI, en spécifiant un chemin de modèle avec une URI spéciale tinker://. Par exemple, les développeurs peuvent appeler l'API de complétion du modèle Tinker avec une syntaxe similaire à celle d'OpenAI (modèle, prompt, max_tokens, etc.) et obtenir des résultats comme s'ils appelaient openai.Completion.create[10]. Cette compatibilité plug-and-play signifie que tout outil ou application construit autour de l'API d'OpenAI peut intégrer sans heurts les modèles de Tinker[10]. Cela réduit les frictions pour l'adoption de modèles ouverts avancés dans les produits réels : vous pourriez affiner Kimi K2 sur Tinker, puis l'intégrer dans un agent de chaîne de pensée existant ou un cadre de chatbot avec des changements de code minimes. De plus, l'ossature API de Tinker permet même un échantillonnage d'un modèle pendant qu'il est encore en cours de formation[10] – permettant une évaluation interactive ou des boucles d'entraînement augmentées par des outils où un modèle peut être testé et utilisé parallèlement à son processus d'affinement. Cette mise à jour soutient des flux de développement d'agents plus efficaces, permettant aux chercheurs d'intégrer et de tester continuellement les améliorations du modèle dans des environnements réalistes.
Modèles Vision–Langage Qwen3-VL : Une autre grande nouveauté de Tinker est la prise en charge des modèles multimodaux vision-langage. La plateforme a ajouté deux modèles compatibles avec la vision, Qwen3-VL-30B et Qwen3-VL-235B, qui peuvent accepter des entrées d'image en plus du texte[11]. Ces modèles (30 milliards et 235 milliards de paramètres respectivement, tous deux architectures MoE) sont réglés pour suivre des instructions incluant des images, par exemple répondre à des questions sur un diagramme ou interpréter une photo. Avec de simples appels API, les utilisateurs peuvent désormais alimenter une image (en tant que ImageChunk) entrelacée avec du texte dans le modèle et obtenir une réponse en langage[12]. Cela débloque une variété d'applications informées par la vision – de l'analyse de captures d'écran et de graphiques aux assistants multimodaux qui voient et parlent. Notamment, les modèles Qwen3-VL ont été conçus en mettant l'accent sur des capacités de vision efficaces en données. Pour illustrer cela, Thinking Machines a affiné le modèle Qwen3-VL-235B sur quelques tâches classiques de classification d'images (Caltech101, Oxford Flowers, etc.), en utilisant des adaptateurs LoRA pour l'efficacité[13]. Ils ont comparé ses performances à une référence forte uniquement vision (modèle DINOv2 ViT avec une tête de classificateur), à travers des quantités variables de données d'entraînement par classe[14].

[15] Comparaison entre le Qwen3-VL-235B ajusté (modèle vision-langage) et le DINOv2 (référence uniquement vision) sur des tâches de classification d'images avec un nombre limité d'exemples étiquetés. Qwen3-VL atteint une plus grande précision, en particulier dans le régime de faible données (à l'extrême gauche), grâce à sa compréhension visuelle informée par le langage.

Même avec seulement un exemple par classe, le modèle Qwen3-VL 235B a atteint une précision raisonnable, surpassant significativement DINOv2 dans ce régime de données extrêmement faible[15]. À mesure que le nombre d'exemples augmentait, les deux modèles se sont améliorés, mais Qwen3-VL a conservé un avantage, démontrant une généralisation plus forte en peu d'exemples[16]. L'avantage provient des connaissances linguistiques et mondiales intégrées du modèle – par exemple, Qwen3-VL a déjà un concept de ce à quoi ressemble ou est décrit un « tournesol » ou un « golden retriever », grâce à son pré-entraînement multimodal[16]. Cela signifie qu'il peut reconnaître ou catégoriser de nouvelles images avec un minimum de nouveaux exemples. En termes pratiques, les utilisateurs de Tinker peuvent atteindre une haute précision sur les tâches visuelles avec des ensembles de données très réduits en exploitant ces grands modèles vision-langage. Cette capacité vision économe en données est cruciale pour les scénarios réels où les données étiquetées sont rares. Elle laisse également entrevoir la puissance du raisonnement augmenté par les outils : un modèle qui « voit » peut exploiter à la fois les indices visuels et le contexte linguistique, ce qui en fait un agent plus polyvalent (par exemple, lire un diagramme et l'expliquer, ou utiliser une image comme partie d'une chaîne de raisonnement). Dans l'ensemble, l'ajout de Qwen3-VL à Tinker étend la portée de la plateforme du texte pur au domaine visuel, permettant des workflows de raisonnement multimodal sous la même API de formation unifiée.

Systèmes Adaptatifs de Mind Lab : L'Intelligence Expérientielle en Action

Sur le front de la recherche, Mind Lab – un nouveau laboratoire de recherche affilié à Macaron AI – s'attaque au défi de rendre les agents IA vraiment adaptatifs et expérientiels. L'éthique de Mind Lab est que « la véritable intelligence vient de l'expérience réelle, pas seulement d'un entraînement préalable plus important »[17]. En d'autres termes, le simple fait d'augmenter les modèles sur des ensembles de données statiques ne suffit pas ; le prochain saut dans l'IA viendra de systèmes qui apprennent continuellement des interactions, un peu comme les humains accumulant de l'expérience. Mind Lab encadre cette vision sous le terme d'Intelligence Expérientielle – passant de « cerveaux » statiques à des « esprits » adaptatifs capables de former des modèles internes du monde, de mettre à jour leurs connaissances grâce au feedback, d'avoir des objectifs ou des valeurs explicites, et même de réfléchir sur leurs propres actions[18]. Cela répond directement aux limites des LLM actuels, qui sont souvent puissants mais figés après l'entraînement préalable[18]. En introduisant des mécanismes pour une adaptation véritable – tels que l'apprentissage par renforcement continu et la mémoire dynamique – Mind Lab vise à créer des agents qui évoluent avec l'utilisation.

Les deux piliers fondamentaux du travail de Mind Lab sont : (1) l'affinage efficace des modèles massifs en RL pour inculquer de nouveaux comportements, et (2) des systèmes de mémoire avancés permettant aux agents de conserver et d'utiliser des connaissances à long terme. Les deux visent à rendre l'IA plus agentique (décidant et s'améliorant de manière autonome) et à relier étroitement les avancées de la recherche au déploiement des produits.

RL à un billion de paramètres basé sur LoRA avec 10 % de GPU

Comment avons-nous réalisé cela ?

L'une des réalisations phares de Mind Lab est la démonstration de l'apprentissage par renforcement à l'échelle des trillions de paramètres – et ce, de manière pratique et rentable. En décembre 2025, ils ont annoncé le premier pipeline RL de bout en bout sur le modèle de raisonnement Kimi K2 de 1,04 trillion de paramètres, réalisé avec seulement ~10 % des ressources GPU normalement nécessaires pour un tel entraînement[19]. Comment cela a-t-il été possible ? L'équipe a construit un moteur d'entraînement spécialisé qui combine le réglage fin efficace des paramètres (LoRA) avec le parallélisme hybride à travers la structure Mixture-of-Experts du modèle[20][21].

Au lieu d'ajuster tous les trillions de poids, l'approche de Mind Lab injecte des matrices d'adaptation de faible rang dans les couches sélectionnées de Kimi K2 (à la fois dans la structure dense et au sein des couches d'experts) et ne met à jour que celles-ci pendant le RL[22]. Cela réduit considérablement le nombre de paramètres entraînables (par exemple, un rang LoRA de quelques dizaines ou centaines par couche, au lieu de matrices complètes) et diminue ainsi l'utilisation de la mémoire et des calculs d'un ordre de grandeur. En même temps, entraîner un modèle de cette taille nécessite de répartir efficacement la charge de travail sur de nombreux GPU. L'équipe a employé une stratégie hybride-parallèle : une utilisation coordonnée du parallélisme de tenseur, du parallélisme de pipeline, du parallélisme d'experts (pour les experts MoE) et du parallélisme de séquence (pour l'entraînement de longues séquences), tous rendus compatibles avec les mises à jour fragmentées de LoRA[23]. En pratique, cela signifiait tirer parti des cadres d'entraînement de grands modèles existants (Megatron de NVIDIA et VolcEngine RL de ByteDance), les augmentant pour gérer LoRA sur MoE, et équilibrer soigneusement le calcul sur 64 GPU dans un cluster[24]. Le résultat a été un entraînement RL stable sur politique (semblable à un algorithme de style PPO) sur le modèle complet Kimi K2 avec un modèle de récompense fournissant des retours sur la qualité du raisonnement[22], ce qui était auparavant jugé infaisable pour la plupart des équipes en raison du coût.

Tout aussi important, cela a fonctionné : le Kimi K2 ajusté avec LoRA a réalisé des améliorations significatives sur les tâches de raisonnement à long terme, avec des courbes d'apprentissage régulières et sans divergence[25]. De manière cruciale, le modèle adapté a conservé les compétences générales du modèle de base (grâce à des changements de poids minimaux et ciblés) tout en acquérant de nouveaux comportements spécifiques aux tâches[26]. Cela signifie que l'énorme connaissance préalable du modèle de base n'a pas été effacée, mais seulement augmentée – un avantage clé de l'ajustement LoRA. En fait, les expériences de Mind Lab ont confirmé que les modèles plus grands offrent une meilleure base pour le RL. Avec un budget d'entraînement fixe, un grand modèle plus de petits adaptateurs LoRA a surpassé un modèle plus petit entraîné avec un ajustement complet, à la fois sur les tâches dans le domaine et en transférant vers de nouvelles tâches[27]. Comme l'équipe le dit, le RL est « limité par les connaissances préalables » – si le modèle de base ne peut pas générer de trajectoires de haute qualité dès le départ, le RL a peu de signaux à amplifier[27]. Un puissant modèle pré-entraîné comme le Kimi K2 offre au RL un ensemble riche de comportements sur lesquels se concentrer, tandis que l'entraînement d'un petit modèle à partir de zéro doit inventer ces comportements à nouveau. Cette idée renverse la sagesse conventionnelle : il peut être plus efficace en termes de calcul de faire du RL sur un grand modèle (avec une forte connaissance préalable et l'efficacité de LoRA) que de faire du RL sur un modèle plus petit, même si le modèle plus petit est moins cher par étape[28]. La contribution de Mind Lab ici n'est pas seulement un algorithme, mais une stratégie d'infrastructure – un plan pour rendre l'apprentissage continu faisable sur les plus grands modèles. Ils ont intégré leurs méthodes dans des projets open-source (Megatron-Bridge, VERL)[29], afin que la communauté puisse reproduire et développer ce travail, permettant potentiellement à de nombreux groupes d'affiner des agents à un billion de paramètres avec des budgets matériels modestes.

Diffusion de la Mémoire : Repenser la Mémoire des Agents au-delà des Bases de Données Vectorielles

Démo en direct de la Diffusion de la Mémoire

Une autre frontière que Mind Lab explore est la manière dont un agent IA peut gérer les mémoires à long terme de ses interactions. De nombreux systèmes actuels ajoutent une base de données vectorielle pour récupérer des extraits de conversations passées ou utilisent des techniques de résumé pour compresser l'historique. Mind Lab propose un système de mémoire plus intégré, « mémoire native au modèle » appelé Memory Diffusion[30]. L'idée est de traiter toute la séquence de dialogue ou de trajectoire d'un agent comme une mémoire éditable dans le contexte du modèle, plutôt que comme quelque chose de stocké à l'extérieur. Memory Diffusion fonctionne en maintenant de manière itérative une fenêtre de contexte de taille fixe via une boucle masquer-allouer-remplir[30]. À chaque étape, le modèle décide quels tokens (fragments de conversation passée) garder (masquer) et lesquels abandonner, puis remplit l'espace libéré avec du contenu nouvellement entré – tout en respectant un budget strict de tokens pour la longueur du contexte[30]. Essentiellement, le modèle apprend à gérer son propre contexte, compressant ou oubliant les détails moins pertinents et conservant les faits importants à mesure que l'interaction se développe. Cela est analogue à l'oubli intelligent, où l'objectif n'est pas de tout se rappeler indéfiniment (ce qui n'est pas faisable compte tenu des limites de longueur de contexte), mais de se souvenir utilement dans le cadre de contraintes réelles[30].

En opérant au niveau de la séquence de tokens, la diffusion de la mémoire évite le besoin d'embeddings externes ou de recherches de similarité ; la « mémoire » vit dans le même espace représentationnel que le contexte de travail du modèle. Mind Lab rapporte que cette approche atteint des performances de mémoire à long terme à la pointe de la technologie, ce qui signifie que l'agent peut poursuivre des conversations ou des tâches prolongées sans perdre d'informations pertinentes, grâce à des mécanismes appris dans le modèle[31]. Il fonctionne également en temps constant par rapport à la taille du contexte – pas d'explosion des coûts de récupération à mesure que l'historique s'allonge, puisque la longueur du contexte est fixée et gérée via les opérations de masque/remplissage[31]. En termes pratiques, un agent avec diffusion de la mémoire pourrait s'engager dans une conversation durant des milliers de tours et, bien qu'il ne puisse garder explicitement chaque détail, il décidera continuellement de ce qu'il faut retenir. Les préférences importantes des utilisateurs ou les questions non résolues persisteront, tandis que les bavardages triviaux d'il y a longtemps pourraient être éliminés. Cette approche traite la mémoire comme un composant de première classe de la cognition du modèle, en accord avec la vision de Mind Lab selon laquelle la mémoire devrait être une partie active et apprenante du système plutôt qu'un entrepôt de données passif[30].

En savoir plus sur notre blog technique

Co-conception Recherche–Produit : Un Boucle d'Apprentissage Continue

Les affordances infrastructurelles de Tinker et les efficacités algorithmiques de Mind Lab forment une symbiose naturelle. Tinker permet l'application directe du LoRA RL hybride de Mind Lab à Kimi K2 et Qwen3-VL, facilitant les boucles agentiques multimodales.

Dans la co-conception recherche-produit—le principe fondamental de Mind Lab—cela se manifeste ainsi :

Instrumentation pour le Feedback : Les agents déployés (par exemple, via les modèles servis par Tinker) génèrent des épisodes structurés à partir des interactions utilisateur, des résultats d'outils et des corrections.
Pipelines RL en Ligne : Le parallélisme hybride soutient des mises à jour continues sur les signaux en direct, faisant évoluer les fonctions de valeur et les politiques sans lots hors ligne.
Adaptation Multimodale : Les entrées visuelles permettent le RL sur les tâches perceptuelles, affinant les modèles du monde pour la navigation GUI, la compréhension de documents ou le raisonnement visuel.
Sécurité et Stabilité : Les rollouts colocalisés minimisent le décalage de distribution; les récompenses en flux (comme dans l'exemple d'esthétique HTML de Mind Lab) empêchent le piratage des récompenses.

Stratégiquement, ce paradigme accélère l'itération : les produits deviennent des bancs d'essai expérimentaux, produisant des données haute-fidélité qui affinent les hypothèses de recherche. Par exemple, les gains en classification visuelle en few-shot de Tinker peuvent amorcer des objectifs RL dans les agents visuels déployés, alignant progressivement les politiques perceptuelles avec les préférences des utilisateurs.

Traditionnellement, la recherche en IA produisait un modèle ou un algorithme, puis une équipe produit pouvait déterminer comment le déployer, avec une itération relativement lente entre les deux. Mind Lab fonctionne plutôt sur une philosophie de co-conception recherche-produit : chaque nouvelle technique est rapidement testée dans un cadre d'agent en direct, et les interactions réelles des utilisateurs génèrent des données pour affiner la recherche[32].

« La recherche et le produit ne sont plus des pistes séparées. Ils forment une boucle de rétroaction fermée : expérience utilisateur → données → entraînement RL → déploiement → meilleure UX → données enrichies → répétition. »[33]. En pratique, cela signifie que lorsque Mind Lab améliore son algorithme RL ou son système de mémoire, ils l'intègrent dans un agent réellement utilisé par les utilisateurs (par exemple, l'assistant personnel IA de Macaron) et observent comment il fonctionne avec de vrais utilisateurs. Les données d'utilisation – les questions posées par les utilisateurs, là où l'agent échoue ou réussit, les retours explicites – sont ensuite réinjectées comme signal d'entraînement (par affinage supervisé ou apprentissage par renforcement) pour la prochaine mise à jour du modèle. Ce cycle serré accélère grandement l'apprentissage : le produit est l'expérience.

Une implication est l'utilisation de modèles de récompense en streaming et de RLHF en ligne (apprentissage par renforcement à partir des retours humains). Au lieu de collecter un ensemble de données statique de comparaisons de préférences humaines et d'entraîner un modèle de récompense une seule fois, le cadre de Mind Lab envisage de mettre à jour continuellement le modèle de récompense à mesure que de nouveaux retours arrivent pendant le déploiement. Par exemple, si un agent résout des tâches pour les utilisateurs et reçoit occasionnellement un pouce vers le bas ou une correction, ces signaux peuvent être diffusés dans le modèle de récompense pour affiner sa notion de comportement « bon » en temps réel. La prochaine fois que l'apprentissage par renforcement est exécuté (ce qui pourrait être à un rythme planifié ou même de manière asynchrone), le modèle de récompense mis à jour guide la politique pour mieux s'aligner sur les préférences des utilisateurs. Ce paradigme de RL en streaming transforme le déploiement en une extension de l'entraînement – plus l'agent fonctionne dans le monde réel, plus il accumule d'expérience et meilleur il devient. L'interface compatible OpenAI fournie par Tinker complète en fait cette stratégie : elle permet à ces modèles continuellement appris d'être facilement intégrés dans des produits et outils existants, ce qui signifie qu'un laboratoire de recherche peut rapidement déployer de nouvelles versions de modèles dans un produit et observer les résultats, sans avoir besoin de reconstruire l'intégration à chaque fois.

Du côté de Tinker, la capacité de la plateforme à échantillonner à partir d'un modèle en cours d'entraînement[10] pourrait faciliter de telles boucles itératives en permettant des évaluations intermédiaires et des décisions de réglage précises. Du côté de Mind Lab, la boucle de co-conception garantit que leurs innovations (comme le RL à l'échelle du trillion ou la diffusion de mémoire) sont testées sous pression dans des cas d'utilisation réels. Cette approche met en lumière les défis pratiques dès le début (par exemple, comment gérer la latence ou les entrées utilisateur inattendues) et comble le fossé entre la recherche de pointe et les produits d'IA destinés aux utilisateurs. Le bénéfice stratégique est que les améliorations sont motivées par des besoins réels et directement validées par rapport à l'utilisation réelle. Comme le note Mind Lab, le véritable progrès provient de « l'apprentissage continu des interactions utilisateur-produit »[33], et un agent capable de s'adapter in situ offrira finalement une bien meilleure expérience utilisateur qu'un agent figé au moment du déploiement.

Implications pour l'IA agentique et les futurs systèmes co-conçus

Ensemble, les avancées de Tinker et Mind Lab mettent en évidence un changement profond dans notre façon de construire des systèmes d'IA – des modèles statiques aux agents adaptatifs co-conçus avec leurs environnements. Plusieurs implications clés émergent :

Des modèles de fond aux agents de fondation : L'introduction de modèles agentiques comme Kimi K2 (avec l'utilisation d'outils et le raisonnement intégrés) et des techniques pour les affiner continuellement suggère que les grands modèles de langage évoluent pour devenir des plateformes de comportement, et pas seulement de connaissance. Au lieu de modèles entraînés une fois qui ne font qu'imiter le texte, nous obtenons des agents capables de planifier, d'agir et d'intégrer des retours. Cela brouille la ligne entre un modèle d'IA et un produit d'IA : le modèle devient de plus en plus l'agent avec lequel vous interagissez, et il peut se mettre à jour pour mieux vous servir. Construire de tels agents nécessite d'unir la recherche centrée sur le modèle (nouvelles architectures, méthodes d'entraînement) avec une réflexion centrée sur le produit (expérience utilisateur, contraintes de déploiement) dans un seul cycle de développement.
Le raisonnement augmenté par des outils comme norme : Avec l'interface compatible OpenAI de Tinker et des modèles explicitement conçus pour l'utilisation d'outils, nous pouvons prévoir des agents IA invoquant de manière transparente des outils externes, des API ou des bases de données dans le cadre de leur processus de raisonnement. La conception de Kimi K2 et les expériences agentiques de Mind Lab soulignent toutes deux que résoudre des tâches complexes nécessite souvent qu'une IA consulte des outils ou simule des environnements[34][35]. Les systèmes futurs intégreront probablement les API d'outils au cœur de l'entraînement du modèle (comme l'a fait la synthèse de données agentiques à grande échelle de Kimi[36]), offrant des capacités d'utilisation d'outils prêtes à l'emploi. Stratégiquement, cela signifie que les produits d'IA seront plus qu'un modèle monolithique – ils deviendront des plateformes d'orchestration d'outils, où le modèle sert de cerveau qui sait quand et comment appeler d'autres services. La facilité d'intégration des modèles Tinker via des API familières abaisse la barrière pour les développeurs créant de tels workflows IA utilisant des outils en pratique.
Interaction avec état et IA personnalisée : Les innovations en matière de mémoire comme la diffusion de mémoire pointent vers une IA capable de maintenir un état à long terme des interactions. Au lieu de traiter chaque session ou requête isolément, les agents futurs porteront une mémoire des interactions, préférences et contextes précédents de manière principée et limitée. Cela permettra des assistants IA beaucoup plus personnalisés et conscients du contexte – ceux qui ne se réinitialisent pas à chaque fois, mais qui apprennent vraiment avec qui ils interagissent et ce qui se passe. Importamment, l'approche de Mind Lab montre que cela peut être fait sans fenêtres de contexte infinies ; grâce à une gestion de la mémoire apprise, les agents peuvent être plus intelligents sur ce qu'il faut se rappeler. Pour les utilisateurs, cela signifie une expérience plus fluide : une IA personnelle qui se souvient des conversations passées donnera l'impression d'un dialogue continu ou d'un assistant cohérent, plutôt que d'une série d'utilisations déconnectées. Cela soulève également de nouvelles questions de conception : comment s'assurer que les bonnes choses sont retenues ou oubliées ? La réponse réside probablement dans des techniques comme la diffusion de mémoire qui intègrent l'oubli et l'accentuation à la manière humaine.
Infrastructure hybride comme avantage concurrentiel : Les bases techniques posées par ces projets – par exemple, l'entraînement parallèle hybride, LoRA-sur-MoE, RL distribué – seront un atout majeur pour les équipes de développement IA. Les groupes qui adoptent ces méthodes peuvent affiner les plus grands modèles avec un calcul relativement modeste, ce qui pourrait démocratiser la capacité à construire des agents IA spécialisés haute performance. Au lieu que seules les grandes entreprises technologiques puissent déployer des modèles à mille milliards de paramètres, n'importe quel laboratoire ou startup pourrait tirer parti d'un modèle ouvert comme Kimi K2 et l'adapter via LoRA sur un petit cluster GPU[37][21]. Cela nivelle le terrain de jeu et encourage également l'expérimentation avec de grands modèles dans des domaines de niche (car le coût est moins prohibitif). Nous pourrions voir une explosion d'agents à échelle de mille milliards adaptés – certains axés sur le raisonnement médical, d'autres sur la recherche juridique, d'autres sur la conception créative – tous rendus possibles par des cadres d'affinement efficaces. Les intégrations open-source (Megatron, etc.) garantissent en outre que ces innovations se répandent rapidement. De plus, une approche parallèle hybride signifie que pour tout budget matériel donné, on peut extraire une formation plus efficace par un ordonnancement et une parallélisation intelligents, plutôt que d'accepter un modèle plus petit. Cela est crucial alors que nous poussons les modèles à incorporer plus de modalités et de contextes plus longs, ce qui augmentera encore les demandes computationnelles.
Apprentissage continu et interaction homme-IA : Enfin, la notion de système d'apprentissage en boucle fermée transforme le rôle de l'utilisateur dans l'évolution de l'IA. Chaque interaction utilisateur devient un exemple d'entraînement potentiel, et chaque déploiement est une expérience. Concrètement, cela pourrait mener à des services IA qui s'améliorent considérablement du jour au lendemain en se réentraînant sur les données de la veille – un peu comme les mises à jour logicielles qui se déroulent. Les utilisateurs pourraient commencer à s'attendre à ce que si ils corrigent une IA aujourd'hui, elle ne répétera pas l'erreur demain. Cela met en place un cercle vertueux : de meilleurs produits attirent davantage d'utilisation, ce qui génère plus de données pour apprendre, ce qui améliore à son tour le produit. Cependant, cela exige également une co-conception minutieuse de l'évaluation et de la sécurité – si un agent apprend de ses propres interactions, nous avons besoin de modèles de récompense robustes et de garde-fous pour garantir qu'il apprend les bonnes leçons (en évitant de renforcer des comportements indésirables). Le travail de Mind Lab sur l'incorporation des récompenses de préférence humaine et de l'autocritique dans le RL est un modèle précoce pour cela[35]. À long terme, une telle co-conception recherche-produit pourrait devenir une pratique courante : au lieu qu'un article de recherche se termine par « nous avons affiné un modèle et atteint X », le critère de succès sera « nous avons déployé un agent adaptatif aux utilisateurs et il a durablement amélioré sa performance/utilité de Y% au fil du temps ».

Vers des esprits adaptatifs : une vision concluante

Alors que les lois de mise à l'échelle statique atteignent un plateau, la synthèse illustrée par la personnalisation accessible à l'échelle du trillion de Tinker et l'apprentissage par renforcement expérientiel efficace de Mind Lab annonce une ère de transformation. En intégrant l'adaptation dans le cycle du produit, nous dépassons les cerveaux fragiles pour aller vers des esprits résilients—des systèmes qui non seulement raisonnent et perçoivent à des niveaux de pointe mais croissent en symbiose avec leurs environnements. Cette trajectoire coévolutive promet une IA qui n'est pas seulement capable, mais qui devient continuellement plus en phase avec les besoins humains et les complexités du monde réel.

[1] [34] [35] [36] [2507.20534] Kimi K2 : Intelligence Agentique Ouverte

https://ar5iv.labs.arxiv.org/html/2507.20534

[2] [3] [8] [9] Tinker - Thinking Machines Lab

https://thinkingmachines.ai/tinker/

[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker : Disponibilité générale et entrée de vision - Thinking Machines Lab

https://thinkingmachines.ai/blog/tinker-general-availability/

[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] Comment nous construisons un raisonnement RL avec un trillion de paramètres avec 10% de GPUs

https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus?trk=article-ssr-frontend-pulse_little-text-block

[17] [30] [33] Macaron IA | LinkedIn

https://www.linkedin.com/company/macaronaiofficial

[18] [19] [29] [31] [32] Présentation de Mind Lab — Le bras de recherche de Macaron AI

https://www.linkedin.com/pulse/introducing-mind-lab-macaron-ais-research-arm-macaronaiofficial-tkz2e?trk=organization_guest_main-feed-card_feed-article-content