Une Analyse de Macaron : Modèle « Thinking » Kimi K2 : Faire Avancer l'IA Agentique Ouverte

Introduction

Le Kimi K2 de Moonshot AI est un modèle de langage ouvert révolutionnaire (LLM) qui repousse les limites de l'IA « agentique » – des modèles qui ne se contentent pas de discuter, mais peuvent penser et agir. Dévoilé à la mi-2025, le Kimi K2 est un modèle Mixture-of-Experts (MoE) avec un total sans précédent de 1 trillion de paramètres (32 milliards actifs par inférence). Cette échelle massive, associée à des techniques d'entraînement innovantes, a permis au Kimi K2 de surpasser les modèles propriétaires de pointe comme le GPT-4.1 d'OpenAI et le Claude (Opus 4) d'Anthropic sur plusieurs benchmarks complexes. Contrairement à de nombreux LLM précédents qui se concentraient sur le Q&A ou le dialogue simples, le Kimi K2 est conçu pour la résolution autonome de problèmes – écrire du code, utiliser des outils et exécuter des plans en plusieurs étapes pour accomplir des tâches. Dans cet article, nous plongeons dans le modèle d'architecture « pensant » mis à jour du Kimi K2, ses innovations en matière d'entraînement, et comment il se compare à des modèles similaires. Nous établirons également des liens avec des concepts discutés sur le blog tech de Macaron (par exemple, piles de raisonnement hybrides et cadres de suivi d'instructions) et suggérerons comment la direction R&D de Macaron – y compris un nouveau modèle de texte RL+diffusion – s'aligne avec ces avancées.

Innovations architecturales : MoE à l'échelle du trillion avec MuonClip

Au cœur de Kimi K2 se trouve une architecture de transformateur à mélange d'experts. Au lieu d'un réseau dense monolithique, le MoE divise le modèle en plusieurs « experts » spécialisés où seul un sous-ensemble s'active par jeton. Kimi K2 utilise 384 experts avec un routage top-2, ce qui signifie que chaque jeton passe par 8 experts sélectionnés (plus un expert partagé) parmi les 384. Cela a l'effet d'un modèle de 1 000 milliards de paramètres tout en gardant seulement 32 milliards de paramètres actifs par jeton – une manière efficace de passer à l'échelle. L'architecture comporte 61 couches et une dimension d'attention de 7168, avec une fenêtre de contexte initialement jusqu'à 128K jetons (énorme selon les normes de l'industrie). Notamment, Kimi K2 a réduit le nombre de têtes d'attention pour améliorer la stabilité sur de longs contextes, un ajustement pratique pour éviter la divergence d'entraînement dans les réseaux profonds.

Réaliser un modèle de cette taille a nécessité de surmonter des défis majeurs d'optimisation. Moonshot a introduit un nouvel optimiseur appelé MuonClip, une version améliorée de l'optimiseur de deuxième ordre Muon. MuonClip utilise une technique innovante de QK-clipping qui ajuste dynamiquement les matrices de projection query/key pour éviter le redoutable problème des "logits explosifs" dans les transformers. Grâce à cela, Kimi K2 a pu être pré-entraîné sur un nombre stupéfiant de 15,5 billions de tokens sans aucune pointe de perte – une prouesse qui serait presque impossible avec l'optimisation conventionnelle AdamW. En d'autres termes, le modèle a convergé de manière stable à une échelle bien au-delà de ce que les LLM précédents ont atteint, utilisant significativement plus de données d'entraînement pour de meilleures connaissances et compétences. L'utilisation de MuonClip et d'autres astuces d'entraînement (comme des mises à jour de haut rang adaptées à la géométrie des pertes) ont donné à K2 un avantage en termes d'efficacité des tokens, ce qui signifie qu'il a appris davantage de chaque token que les modèles précédents. Cette attention à la stabilité et à l'efficacité de l'entraînement fait écho à certains thèmes de la recherche de Macaron – par exemple, les Mind Labs de Macaron ont exploré des optimiseurs RL alternatifs et des stratégies de fine-tuning pour maîtriser des modèles très larges. (Voir le blog tech de Macaron : « Scaling All-Sync RL with DAPO and LoRA » pour savoir comment Macaron a réussi à affiner un modèle de 671 milliards de paramètres avec 10 fois moins de GPU en utilisant des optimisations sur mesure.)

Post-formation Agentique : Compétences Synthétiques et RL Conjoint

La pré-formation a construit une base solide pour Kimi K2, mais son véritable différenciateur réside dans ce qui est venu après la pré-formation. Moonshot a soumis K2 à un processus de post-formation en plusieurs étapes visant à doter le modèle de compétences en raisonnement, en utilisation d'outils et en alignement. Une étape clé était un pipeline de synthèse de données agentiques à grande échelle. Ici, l'équipe a généré un grand nombre d'exemples de tâches à plusieurs étapes : le modèle devait décomposer de manière autonome les problèmes, appeler des outils, écrire et déboguer du code, et produire des solutions vérifiées correctes. Des milliers d'outils réels et simulés ont été impliqués, et chaque tâche était accompagnée d'un barème ou d'un test vérifiable par machine pour vérifier le succès. De manière importante, des “vérificateurs” basés sur des LLM ont examiné les actions et les résultats du modèle, éliminant les échecs. Cette approche – que l'équipe de Moonshot décrit comme faisant partie d'une “Économie des Vérificateurs” – a assuré que seules les trajectoires de raisonnement de haute qualité devenaient des retours d'entraînement. C'est un peu comme avoir un relecteur de code automatisé ou un vérificateur de preuves mathématiques aux côtés du modèle, à grande échelle. Fait intéressant, le propre système de Macaron met en avant une idée similaire de raisonnement vérifiable : par exemple, le pipeline de synthèse de code autonome de Macaron combine génération neuronale avec vérifications et tests symboliques, une approche hybride qui améliore la fiabilité par rapport à la sortie neuronale pure.

Après la formation à l'utilisation d'outils synthétiques, Moonshot a affiné davantage K2 avec une étape de renforcement conjoint (RL). Pendant le réglage fin du RL, Kimi K2 a été autorisé à interagir avec des environnements réels et simulés, recevant des récompenses pour accomplir des tâches. De manière unique, Moonshot ne s'est pas uniquement appuyé sur des modèles de récompense statiques; au lieu de cela, ils ont entraîné un modèle critique en parallèle avec K2 pour juger ses réponses. Ce critique a d'abord été formé sur des tâches objectives (où le succès est clair, comme réussir des tests unitaires) avant d'être autorisé à évaluer des aspects subjectifs (utilité, ton). En procédant ainsi, ils ont atténué le piratage de récompenses et ont maintenu les incitations du modèle alignées avec la correction vérifiable avant le style ou la préférence. Le stade de RL a également incorporé des mesures pour stabiliser la génération de textes longs : K2 a été régularisé avec un bref retour à son objectif de pré-formation (pour éviter d'oublier les compétences de base), et des techniques comme le plafonnement des récompenses et la décroissance de la température ont été utilisées pour éviter le type de dérive et de verbosité qui peuvent affecter les modèles ajustés par RL. Le résultat final de cette formation rigoureuse est que Kimi K2 est devenu très compétent en raisonnement multi-étapes et utilisation d'outils tout en restant fiable – essentiellement un « agent » capable de planifier et d'exécuter, pas seulement de discuter. Le régime d'entraînement de Kimi K2 peut être vu comme une incarnation de nombreuses meilleures pratiques convergentes : apprentissage supervisé massif, plus des données agentiques ciblées, plus un réglage fin de RL soigneux pour affiner la prise de décision du modèle.

Indicateurs de Performance : Comment Kimi K2 se Positionne

Alors, que procurent toutes ces innovations en termes de performance réelle ? Selon de nombreux critères, Kimi K2 a établi un nouveau standard pour les modèles ouverts. D'après le rapport technique de Moonshot et des évaluations indépendantes, K2-Instruct (la variante ajustée aux instructions) offre des résultats à la pointe parmi les LLM open-source sur des tâches complexes de codage, de raisonnement et à étapes multiples. En fait, sur plusieurs indicateurs, K2 ne se contente pas de surpasser les modèles ouverts mais égale ou dépasse certains modèles fermés célèbres. Par exemple, sur SWE-Bench (Vérifié) - un banc d'essai de codage agentique difficile qui évalue si un modèle peut corriger du code avec l'aide d'outils - Kimi K2 obtient un score de 65,8% de précision, surpassant GPT-4.1 (54,6%) de manière significative. Il devance même Claude 2 d'Anthropic (Claude “Sonnet 4” a obtenu un score de 54,2% dans des conditions similaires) et s'approche du meilleur score « pensée activée » de Claude (72,7%). Avec un peu de calcul supplémentaire au moment du test (par exemple, plusieurs tentatives en parallèle), K2 peut augmenter son score sur cet indicateur à 71,6%, comblant ainsi pratiquement l'écart avec la performance spécialisée de Claude.

Kimi K2 excelle également dans les tâches de codage pur. Sur LiveCodeBench, un défi de codage de bout en bout, K2 a atteint une précision de 53,7%, surpassant GPT-4.1 (44,7%), Claude Opus 4 (47,4%) et DeepSeek-V3 (46,9%) – un témoignage de sa prouesse en codagemedium.com. Cela suggère que la formation de K2 sur le code et le débogage (avec tous ces vérificateurs) a porté ses fruits avec un modèle capable de générer un code correct et exécutable plus souvent que les autres modèles. Un autre résultat impressionnant provient de MATH-500, un benchmark de problèmes mathématiques avancés : Kimi K2 a atteint une précision de 97,4%, surpassant GPT-4.1 (qui a obtenu 92,4%)medium.com. Résoudre des mathématiques avec près de 97% de réussite est remarquable, indiquant les fortes capacités de raisonnement du modèle dans un domaine qui nécessite généralement une réflexion logique étape par étape. K2 obtient également des scores impressionnants sur des tâches comme GPQA-Diamond (résolution de problèmes généraux) et divers concours de codage. Son score de 27,1% sur OJBench (un ensemble de défis de programmation classique) est le plus élevé parmi les modèles ouverts, montrant qu'il peut gérer le codage algorithmique traditionnel à un certain degrémedium.com. Et sur un benchmark exigeant et intensif en connaissances appelé Tau2, Kimi K2 a atteint 65,8%, surpassant largement GPT-4.1 (38,6%) et Claude 2 (45,2%)medium.com – ici, la capacité de K2 à utiliser des outils (comme la navigation web ou les calculatrices) lui a probablement donné un avantage considérable dans les réponses aux requêtes liées aux télécommunications.

Il convient de noter que bien que Kimi K2 excelle dans ces domaines, il n'est pas strictement supérieur en tout – une vue impartiale est importante. Par exemple, Claude 2 conserve encore une légère avance sur la version la plus difficile du benchmark de codage SWE-Bench lorsqu'il est autorisé à « réfléchir » étape par étape (72,7 % contre 65,8 % pour K2). Et des modèles comme GPT-4 possèdent toujours des capacités que K2 n'a pas – notamment la compréhension multimodale (GPT-4 peut voir des images, K2 ne le peut pas à l'heure actuelle) et peut-être une certaine finesse conversationnelle. Moonshot a délibérément concentré K2 sur des tâches textuelles et agentiques, échangeant des éléments comme la transparence du raisonnement par chaîne de pensée et les entrées multimodales pour la vitesse et la spécialisation. La nature open-source de Kimi K2 lui confère cependant un avantage unique : tout le monde peut l'utiliser ou le peaufiner, sans les frais élevés des API propriétaires. Moonshot propose une API pour K2 à une fraction du coût d'OpenAI (environ 2,50 $ par million de tokens contre 8 $ par million pour GPT-4). Cette rentabilité, combinée à une performance de premier ordre en codage et raisonnement, positionne K2 comme une alternative ouverte convaincante aux modèles de la classe GPT-4. En effet, les observateurs ont qualifié Kimi K2 de « la sortie de modèle d'IA la plus importante de l'année » sur la scène ouverte, marquant la réponse de la Chine aux géants occidentaux de l'IA. Il suit les traces de modèles comme DeepSeek d'Alibaba et, à bien des égards, surpasse les performances de DeepSeek (K2 a dépassé la dernière version de DeepSeek de ~20+ points sur les principaux benchmarks de codage). La conclusion est que Kimi K2 a atteint un nouveau niveau de capacité pour les modèles ouverts, égalant ou surpassant les titulaires sur une multitude de tâches pratiques – une avancée significative dans le paysage dynamique des LLM.

Le nouveau mode « Réflexion » : K2 avec chaîne de pensée

Peut-être que la mise à jour la plus excitante pour Kimi K2 est l'introduction d'un modèle spécialisé K2 « Thinking » – essentiellement, une version de K2 qui ralentit et raisonne en profondeur. Le K2-Instruct original était décrit comme « réflexe, sans longue réflexion » – il était conçu pour produire des réponses utiles rapidement en une seule fois, ce qui est excellent pour la latence mais pas toujours pour la résolution de problèmes complexes. En reconnaissant cela, Moonshot a récemment lancé Kimi-K2-Thinking, une variante explicitement conçue pour le raisonnement multi-étapes et l'utilisation d'outils sur plusieurs tours. En mode K2-Thinking, le modèle peut planifier de manière autonome une séquence d'actions, s'engager dans une chaîne de pensée interne prolongée, et invoquer des outils ou des API externes pour recueillir des informations avant de finaliser les réponses. Techniquement, il prend en charge une fenêtre de contexte allant jusqu'à 256K tokens (extrêmement grande, pour conserver les calculs intermédiaires) et peut produire un champ spécial reasoning_content qui retrace son processus de réflexion. Par exemple, si on lui pose une question de recherche complexe, K2-Thinking pourrait générer un plan : diviser la requête en sous-questions, effectuer une recherche web (l'un de ses appels d'outils), résumer les résultats, effectuer des calculs, puis synthétiser une réponse finale – tout en consignant ces étapes dans le reasoning_content. Les premiers rapports indiquent que K2-Thinking peut décomposer des instructions par lui-même, analyser des données (par exemple, des fichiers CSV ou JSON via des outils), et même générer des rapports structurés de manière autonome. Cela comble efficacement une lacune de la base K2 : l'absence de support explicite pour la chaîne de pensée. Avec K2-Thinking, le modèle de Moonshot se rapproche des systèmes comme l'approche « Plan-and-Solve » de GPT-4 ou le raisonnement AI Constitutionnel de Claude, où l'IA peut penser à voix haute et itérer sur des problèmes difficiles. C'est un progrès significatif car il combine la puissance brute de K2 (cette énorme base de connaissances et compétence en codage) avec un processus cognitif semblable à un agent pour s'attaquer à des tâches qui ne peuvent simplement pas être réalisées en une seule fois.

L'introduction de la pensée K2 résonne avec les idées que nous avons explorées dans le contexte de Macaron. Dans l'architecture hybride de raisonnement de Macaron, l'accent est mis sur l'équilibre entre des réponses réflexes rapides et un raisonnement délibératif plus approfondi en fonction de la tâche, passant essentiellement entre la cognition « Système 1 » et « Système 2 ». K2 incarne désormais ce principe en deux modes : le mode réflexe original pour des réponses rapides, et le mode réflexion pour des réponses complexes. De plus, le cadre de suivi des instructions de Macaron a souligné à quel point il est crucial pour les assistants IA de bien analyser et décomposer les instructions des utilisateurs avant d'agir (pour la sécurité et la précision). La pensée K2 s'aligne clairement avec cela : en décomposant explicitement les tâches en sous-tâches et en appels d'outils, il est moins probable qu'une demande soit mal interprétée ou qu'une étape importante soit omise. De plus, la capacité de la pensée K2 à intégrer des API d'outils externes fait écho à la philosophie de Macaron selon laquelle les IA personnelles devraient interagir avec le monde (calendriers, données web, applications) plutôt que de fonctionner en isolement. En un sens, Kimi K2 évolue d'un « cerveau » puissant à quelque chose de plus proche d'un agent cognitif complet, ce qui est précisément la direction que beaucoup dans la communauté IA (y compris Macaron) croient être l'avenir.

Comparaison avec d'autres modèles de pointe

Avec Kimi K2 (et le nouveau mode de réflexion) en main, comment l’offre de Moonshot se compare-t-elle à d'autres modèles de pointe comme OpenAI GPT-4, Anthropic Claude 2, ou le supposé Gemini de Google ? Nous avons déjà vu que K2 se maintient face à GPT-4.1 et Claude 2 sur les benchmarks de codage et de raisonnement – une réalisation impressionnante étant donné que ces modèles avaient l'avantage de données fermées et d'un développement plus long. Il est important de noter que GPT-4 possède encore des atouts comme l'entrée visuelle et peut-être un réglage plus raffiné du langage naturel. Claude 2 (par exemple, Claude Sonnet 4.5) est connu pour ses réponses longues “constitutionnellement” alignées et sa longue autonomie (gérant des sessions très longues), et en effet Claude a montré des taux de réussite légèrement plus élevés sur certaines tâches très agentiques lorsqu'il est autorisé à penser sans limite. Cependant, K2 réduit cet écart avec le mode de réflexion en acquérant des capacités similaires à long terme. En termes de connaissances brutes et de mathématiques, K2 pourrait même avoir un avantage (comme en témoigne son score presque parfait au MATH-500). Le Gemini de Google, qui n'est pas encore sorti à la date de cet écrit, devrait être un modèle multimodal et hautement optimisé, possiblement supérieur à GPT-4. Kimi K2 n'a pas encore de multimodalité (pas de compréhension d'image ou de son), donc c'est un domaine où il pourrait être en retard par rapport aux modèles de prochaine génération. Mais l'approche modulaire de K2 pourrait compenser en lui permettant de se connecter à des modèles de vision ou autres comme outils (on pourrait imaginer associer K2 à un outil de légende d'image pour imiter le raisonnement multimodal).

Il faut également prendre en compte le déploiement et le coût. Kimi K2, étant open source (avec une licence permissive), peut être auto-hébergé ou adapté par n'importe qui. Son design MoE signifie que son exécution n'est pas bon marché - il vous faudrait au moins plusieurs GPU A100 ou similaires pour le servir avec une faible latence. Moonshot a fourni des versions quantifiées (par exemple, un GGUF quantifié) qui peuvent fonctionner sur des configurations plus petites pour l'expérimentation, mais pour vraiment l'exploiter en production à pleine échelle de 1T, il faut du matériel sérieux. C'est un compromis : GPT-4 n'est accessible que via API (pas d'auto-hébergement), mais le gros du travail est caché dans le cloud ; avec K2, vous gérez l'infrastructure mais gagnez en contrôle. Pour les entreprises soucieuses de la confidentialité des données ou de la personnalisation, K2 offre un niveau d'indépendance que les modèles fermés n'ont pas. Les blogs d'ingénierie de Macaron ont souvent mis en avant des points similaires lors de l'intégration de modèles - équilibrer la capacité brute d'un modèle avec des considérations pratiques comme la latence, le coût et la contrôlabilité. Dans le cas de Macaron, ils ont expérimenté à la fois avec des APIs fermées (comme Claude) et des modèles ouverts (comme DeepSeek) pour alimenter différentes fonctionnalités. Une tendance probable émerge : des déploiements hybrides où un modèle ouvert comme K2 est utilisé pour certaines tâches (par exemple, le codage, où il excelle) et un modèle spécialisé pour d'autres (peut-être un plus petit modèle de dialogue pour le chat informel, ou un modèle de vision pour les images).

Conclusion et Perspectives

Le Kimi K2 de Moonshot (et la mise à jour K2-Thinking) représente une avancée significative dans les modèles d'IA – non seulement en raison de chiffres plus importants, mais parce qu'ils allient l'échelle à de véritables capacités de raisonnement dans une plateforme ouverte. Techniquement, le K2 démontre que les architectures Mixture-of-Experts sont une voie viable pour atteindre une échelle de plusieurs trillions, et que de nouvelles méthodes d'optimisation (MuonClip) peuvent dompter de tels modèles sans échecs catastrophiques d'entraînement. La performance de haut niveau du modèle sur les benchmarks de codage et de raisonnement prouve que l'échelle massive et l'entraînement innovant se traduisent par une véritable compétence en résolution de problèmes. Peut-être le plus important, Kimi K2 illustre un paradigme “agentique” : il a été explicitement entraîné à utiliser des outils, à vérifier son travail et à s'améliorer via l'interaction (RL). C'est un changement par rapport aux modèles de prédiction statiques et ponctuels du passé. Il comble certaines lacunes avec la résolution de problèmes de type humain – par exemple en décomposant les tâches en étapes, en utilisant des ressources externes, en vérifiant les résultats – tout cela au sein d'un système d'IA unique. Pour la communauté de l'IA open-source, la sortie de K2 (avec des checkpoints de base et instruits disponibles) est une aubaine, permettant aux chercheurs de construire sur un modèle qui peut agir, pas seulement discuter. Cela établit une nouvelle référence pour ce qu'un modèle ouvert peut accomplir, mettant probablement la pression sur les leaders des modèles fermés pour améliorer leurs performances ou réduire leurs prix.

Du point de vue de Macaron, l'émergence de Kimi K2 confirme de nombreuses directions dans lesquelles nous nous dirigeons dans notre propre R&D. Nos discussions sur le blog concernant le raisonnement hiérarchique, les chaînes d'action vérifiables et le suivi d'instructions enrichi trouvent un exemple concret dans la conception de K2. Il est encourageant de voir ces idées mises en pratique à grande échelle. Bien sûr, il y a toujours place à l'amélioration. K2 manque encore de multimodalité et sa chaîne de pensée (bien que désormais présente dans le modèle Thinking) est une nouvelle addition qui évoluera certainement. L'alignement et la sécurité demeurent des défis – on pourrait se demander comment le modèle 1T se comporte dans des scénarios adverses ou ouverts non couverts par son modèle de récompense. Ce sont des domaines où la recherche continue (y compris ici chez Macaron) se poursuivra. En fait, l'équipe de Macaron explore une approche novatrice utilisant l'apprentissage par renforcement en tandem avec la génération de texte basée sur la diffusion – essentiellement un nouveau modèle de diffusion de texte post-formation – pour obtenir un contrôle encore plus précis sur les sorties d'une IA. Bien que les détails soient à venir, nous envisageons que cela pourrait permettre à une IA de « réfléchir en diffusant » à travers les possibilités de manière contrôlable, réduisant potentiellement les problèmes comme les hallucinations tout en préservant la créativité. C'est une subtile indication d'où pourrait se produire le prochain saut : combiner les forces des LLMs de transformateurs (comme K2) avec des techniques de modèles de diffusion et un réglage rigoureux par apprentissage par renforcement.

En résumé, le modèle de pensée K2 de Kimi K2 inaugure une nouvelle ère d'IA ouverte capable de raisonner en profondeur et d'agir de manière autonome. Il témoigne des progrès rapides dans notre domaine – il y a un an ou deux, de telles performances d'un modèle ouvert auraient semblé utopiques (sans vouloir faire de jeu de mots). Maintenant, c'est là, et cela nous pousse tous à penser plus grand. Alors que nous intégrons ces avancées et expérimentons nos propres hybrides (que ce soit par des piles de raisonnement hybride ou des hybrides diffusion-RL), la frontière entre ce qui était à la pointe et ce qui est accessible ne cesse de s'estomper. La bonne nouvelle pour les développeurs et les utilisateurs est enthousiasmante : des systèmes d'IA plus puissants, transparents et contrôlables se profilent à l'horizon, qu'ils proviennent de Moonshot, OpenAI ou des laboratoires de Macaron. Et cela signifie une IA qui non seulement nous comprend mieux, mais peut aussi travailler à nos côtés sur des tâches complexes – inaugurant véritablement l'ère des agents d'IA et de l'intelligence collaborative.