Auteur : Boxu Li 

Macaron AI n'est pas juste un outil de productivité – c'est une plateforme qui transforme nos conversations en mini-applications gérant les calendriers, planifiant des voyages et explorant des hobbies. Sous cette interface amicale se trouve un système sophistiqué d'apprentissage par renforcement (RL) et un moteur de mémoire qui retient ce qui est important et oublie ce qui ne l'est pas[1]. Alors que Macaron se prépare à intégrer Claude Sonnet 4.5 et DeepSeek V3.2‑Exp, ainsi que le Claude Agent SDK/Code 2.0, ce blog explore comment ces nouveaux modèles et outils peuvent améliorer la qualité des résultats de Macaron, réduire le temps de création des mini-apps et diminuer les bugs. Nous combinons des informations techniques des mises à jour d'Anthropic, des recherches de DeepSeek et des blogs d'ingénierie de Macaron pour dresser un tableau clair de l'avenir.

1 Le moteur interne de Macaron : RL, mémoire et éthique

Avant de comparer les modèles, il est utile de comprendre ce qui rend Macaron unique. Macaron utilise un système RL à plusieurs couches pour transformer les conversations quotidiennes en tâches et en code. Le système décompose le problème en plusieurs modules – gestion de la conversation, sélection de la mémoire, synthèse de code et retour du simulateur – et applique un apprentissage par renforcement hiérarchique (HRL) pour les coordonner[2]. Un méta-contrôleur de haut niveau décide quel module activer ensuite, tandis que les politiques RL de bas niveau décident des actions spécifiques comme récupérer une mémoire, appeler une API ou exécuter du code généré[2]. Ce design permet à Macaron de décomposer des objectifs complexes – de la planification d'un voyage à l'organisation des finances – en sous-tâches gérables.

1.1 Modélisation des récompenses et retour d'information humain

Dans l'IA personnelle, il n'existe pas de « condition de victoire » unique ; la satisfaction de l'utilisateur, la confidentialité, la ponctualité et la sensibilité culturelle sont tous importants. Macaron construit sa fonction de récompense en combinant retours implicites et explicites. Les signaux implicites incluent la durée des conversations, la fréquence d'utilisation et le ton, tandis que les évaluations explicites et les pouces vers le haut/bas aident à calibrer les préférences[3]. Macaron utilise également l'élicitation des préférences, en présentant des réponses alternatives ou des designs de mini-apps et en demandant aux utilisateurs lesquels ils préfèrent. Un modèle d'inférence apprend ensuite une fonction d'utilité latente sur les actions possibles, similaire à l'apprentissage par renforcement à partir de retours humains (RLHF) mais étendu avec des annotations culturelles – les évaluateurs japonais mettent l'accent sur la politesse et le contexte, tandis que les évaluateurs coréens soulignent les formulations communautaires versus individualistes[4]. Ces signaux alimentent un modèle de récompense qui prédit la satisfaction de l'utilisateur et encourage l'agent à suivre les normes locales.

1.2 RL hiérarchique et macro‑actions

Pour gérer diverses tâches utilisateur, Macaron utilise HRL pour sélectionner des modules et sous-politiques. Au sein des modules, il utilise le cadre des options : une séquence d'actions accomplissant un sous-objectif est traitée comme une seule option (par exemple, « résumer les dépenses du mois dernier » ou « recommander un plan d'étude bilingue »)[3]. Les options découvertes dans un domaine peuvent être transférées à un autre si les structures sous-jacentes s'alignent. Macaron définit également des macro-actions qui encapsulent des dialogues multi-tours ou des calculs prolongés, comme planifier des vacances en famille (destination, transport, hébergement et itinéraire)[3]. Les agents RL évaluent les macro-actions en fonction de la récompense cumulative plutôt que des signaux à court terme, encourageant l'agent à optimiser la satisfaction à long terme.

1.3 Attribution de crédit et tissage temporel

Attribuer le crédit à des actions spécifiques lorsque les récompenses arrivent tardivement est difficile. Macaron utilise l'entrelacement temporel, connectant les événements dans le temps avec des fils narratifs. Le système construit un graphe d'interactions où les nœuds représentent des souvenirs et les arêtes représentent des relations causales ; lors de l'évaluation d'un résultat, il parcourt le graphe à rebours pour identifier quelles récupérations ou actions ont contribué[2]. Le raisonnement contrefactuel aide à évaluer ce qui se serait passé si des actions alternatives avaient été prises, empêchant l'agent de supposer automatiquement que répéter une action réussie produit toujours la même récompense[2]. Macaron utilise également des récompenses différées et des traces d'éligibilité pour propager le signal vers les décisions antérieures – telles que la sélection de mémoire ou le ton de la conversation – encourageant l'agent à optimiser la satisfaction à long terme[5].

1.4 Équité, sécurité et éthique

Les agents personnels d'IA doivent éviter les biais et se conformer aux réglementations. Macaron intègre des contraintes d'équité dans la fonction de récompense ; par exemple, l'agent est pénalisé s'il recommande systématiquement des activités spécifiques à un genre sans qu'on le lui demande[5]. Une bibliothèque de politiques éthiques encode les normes culturelles et les exigences légales, et violer ces directives déclenche une récompense négative ou bloque l'action entièrement[5]. Une supervision humaine est intégrée dans les décisions à fort impact comme la planification financière ou les conseils en santé, satisfaisant la Loi cadre sur l'IA coréenne et la Loi de promotion de l'IA du Japon[5]. Macaron enregistre les décisions de RL et fournit aux utilisateurs des explications sur les raisons pour lesquelles certains souvenirs ou modules ont été sélectionnés, soutenant les audits et la transparence[5].

1.5 Le moteur de mémoire : compression, récupération et régulation

Le moteur de mémoire de Macaron est l'épine dorsale de la personnalisation. Il organise les souvenirs en réserves à court terme, épisodiques et à long terme. La réserve à court terme conserve la conversation actuelle (8 à 16 messages) ; la réserve épisodique retient les interactions récentes compressées via une attention convolutionnelle ; et la réserve à long terme utilise une base de données vectorielle haute dimension avec des balises de métadonnées (horodatage, domaine, langue)[6]. Pour gérer les coûts, Macaron utilise la résumé latent pour identifier les segments saillants et les compresser en vecteurs de longueur fixe ; un objectif d'auto-encodage reconstruit les états cachés à partir des résumés compressés, et un apprentissage par renforcement ajuste le résumeur pour conserver l'information importante pour un rappel ultérieur[7]. Un jeton de mémoire dynamique agit comme un réseau de pointeurs : il récupère des souvenirs candidats, évalue leur pertinence et décide s'il faut les retourner ou continuer à chercher[8].

La récupération implique une recherche d’approximations des voisins les plus proches avec quantification de produit et une pertinence marginale maximale pour équilibrer similarité et diversité[9]. L'expansion de requête utilise l'objectif de l'utilisateur et l'intention latente ; par exemple, une demande japonaise pour « 花火大会 » (festival de feux d'artifice) s'élargit pour inclure les billets, la date et la météo[10]. La fédération de pertinence gère les requêtes inter-domaines, utilisant une fonction de porte softmax pour distribuer les probabilités de récupération à travers les domaines et les langues[11]. Ces composants sont entraînés par RL, et l'attribution de crédit via le tissage temporel assure que l'agent apprend quelles mémoires étaient cruciales[12]. Le système de mémoire de Macaron diffère de la génération augmentée par récupération traditionnelle (RAG) car les mémoires sont spécifiques à l'utilisateur, le stockage et la récupération sont guidés par RL, et chaque mémoire inclut des métadonnées de confidentialité régissant l'accès[13].

2 Le SDK de l'Agent Claude et Claude Code 2.0

Bien que l'architecture interne de Macaron soit robuste, la création de mini-apps nécessite toujours la lecture et l'écriture de fichiers, l'exécution de code, l'utilisation du contrôle de version et l'interaction avec les API web. Le Claude Agent SDK d'Anthropic fournit exactement ces capacités, exposant le même harnais d'agent qui alimente l'assistant terminal de Claude Code[14]. Il propose des outils précis : opérations sur les fichiers (lire, écrire, grep, glob), commandes bash, récupération web, exécution de code multi-langues et opérations Git[15]. Contrairement aux assistants qui indexent préalablement un code source, les agents Claude recherchent à la demande en utilisant grep/find/glob pour localiser les fichiers, ce qui les rend plus flexibles dans les dépôts dynamiques[16]. Le SDK inclut de larges fenêtres de contexte avec compactage et synthèse automatiques, permettant aux agents de maintenir un contexte de code substantiel sans atteindre les limites de jetons[17]. Les développeurs peuvent spécifier les outils autorisés et les modes de permission et ajouter des crochets pour la sécurité, permettant une autonomie avec des garde-fous[18].

Éléments de base du SDK

  1. Outils – Le SDK permet aux ingénieurs de sélectionner quels outils (I/O de fichiers, bash, récupération web, exécution de code) sont disponibles pour un agent[19].
  2. Extensions MCP – L'intégration avec le Model Context Protocol permet aux serveurs externes (bases de données, recherche d'emails, recherche vectorielle) d'étendre l'ensemble d'outils[20].
  3. Sous-agents – Les agents définis dans .claude/agents ont leurs propres invites système, ensembles d'outils restreints et sélection de modèle optionnelle ; les tâches peuvent être déléguées à ces sous-agents[21].
  4. Mémoire et contexte de projet – Un bloc-notes persistant (CLAUDE.md) maintient le contexte à travers les sessions et respecte la configuration au niveau du dépôt[22].
  5. Gestion du contexte et exécution – La compaction automatique du contexte, les réponses en streaming et la gestion des erreurs typées simplifient les tâches de longue durée[23].

Nouvelles fonctionnalités de Claude Code 2.0

Claude Code 2.0 apporte des mises à jour conviviales pour les développeurs : les points de contrôle permettent aux développeurs de sauvegarder les progrès et de revenir en arrière lorsque l'agent fait des erreurs[24]. Une extension VS Code intègre l'agent dans l'IDE, tandis qu'une interface de terminal rafraîchie améliore la gestion des états[25]. L'API Claude propose désormais l'édition de contexte et un outil de mémoire qui aident les agents à fonctionner plus longtemps en effaçant automatiquement le contexte et en récupérant les éléments pertinents[26]. L'application et l'API Claude peuvent désormais exécuter du code, créer des fichiers et analyser des données[27], transformant un LLM en un assistant de codage complet. Ces fonctionnalités sont particulièrement pertinentes pour le pipeline de mini-applications de Macaron, qui implique la génération de code de programme, son test dans un bac à sable, la correction des erreurs et l'interaction avec des services externes.

3 Claude Sonnet 4.5 : autonomie prolongée et qualité supérieure

Claude Sonnet 4.5 est le modèle le plus performant d'Anthropic pour le codage, les tâches agentiques et l'utilisation informatique. DevOps.com rapporte que Sonnet 4.5 peut fonctionner de manière autonome pendant plus de 30 heures, bien plus longtemps que les sept heures de son prédécesseur. Il excelle dans le suivi des instructions, la refactorisation du code et la production prête à l'emploi, et domine le benchmark SWE-Bench Verified sur les tâches de codage réalistes. Dans les déploiements réels, les améliorations sont tangibles : les benchmarks internes de Replit ont vu les erreurs d'édition de code passer de 9 % avec Sonnet 4 à 0 % avec Sonnet 4.5, tandis que les équipes de cybersécurité ont réduit le temps de gestion des vulnérabilités de 44 % et amélioré la précision de 25 %. Les ingénieurs de Netflix décrivent Sonnet 4.5 comme « excellent pour les tâches de développement logiciel, apprenant les schémas de notre base de code pour fournir des implémentations précises ».

Les outils de développement et les fonctionnalités de mémoire de Sonnet 4.5 se synchronisent avec l'Agent SDK. Le modèle prend en charge l'édition de contexte et la gestion de la mémoire, ce qui permet de supprimer automatiquement les anciens contextes et de ramener les éléments pertinents au premier plan[24]. Il peut naviguer dans les interfaces graphiques en cliquant, tapant et interagissant avec les menus, permettant l'automatisation des outils sans API. Combiné avec l'architecture de sous-agents et les points de contrôle du SDK, cela signifie que Macaron peut construire des mini-applications sur plusieurs jours sans perdre le contexte, et revenir en arrière pour corriger les erreurs si nécessaire.

4 DeepSeek V3.2‑Exp : efficacité grâce à l'attention éparse

Alors que Sonnet 4.5 se concentre sur la qualité et l'autonomie, DeepSeek V3.2‑Exp met l'accent sur l'efficacité. Le modèle introduit DeepSeek Sparse Attention (DSA), sélectionnant uniquement les tokens les plus importants pendant l'attention. Cela réduit la complexité de quadratique O(n²) à O(nk), offrant une inférence 2 à 3 fois plus rapide sur de longs contextes, une utilisation de la mémoire réduite de 30 à 40 % et une réduction de plus de 50 % des prix de l'API[28]. Malgré ces économies, V3.2‑Exp maintient la parité avec le modèle précédent V3.1‑Terminus sur la plupart des benchmarks[29]. La version open-source permet à Macaron d'exécuter le modèle localement, de l'affiner et d'explorer de nouvelles architectures[30]. Reuters note que DeepSeek considère cela comme une étape intermédiaire vers son architecture de prochaine génération ; le mécanisme DSA réduit les coûts informatiques tout en améliorant certains types de performances[31], et le service passe automatiquement à V3.2‑Exp avec une réduction massive de prix pour les utilisateurs[32].

DeepSeek V3.2‑Exp hérite de la conception « mixture-of-experts » et ajoute la précision mixte ainsi que l'attention latente multi-têtes[33]. Cependant, étant expérimental, il montre de légères régressions sur les tâches de raisonnement complexes[34] et manque des outils d'agent intégrés dans l'écosystème Claude. Pour Macaron, cela signifie que V3.2‑Exp est mieux adapté aux tâches sensibles au coût ou au prototypage, où la rapidité et le débit sont plus importants que la précision maximale du codage.

5 Comparaison entre Sonnet 4.5 et DeepSeek V3.2‑Exp pour Macaron

La décision de Macaron de se connecter aux deux modèles invite à une comparaison de leurs forces et faiblesses. Le tableau ci-dessous résume les attributs clés :

Fonctionnalité
Sonnet 4.5
DeepSeek V3.2‑Exp
Focus
Codage de haute qualité, tâches agentiques, longue autonomie
Traitement efficace des longs contextes[35]
Architecture
Modèle propriétaire avec autonomie de longue durée (>30 heures) et suivi précis des instructions
Mélange d'experts avec attention clairsemée réduisant les calculs[28]
Mémoire & contexte
Large fenêtres de contexte; gestion automatique de la mémoire via l'outil mémoire[24]
Prise en charge des longs contextes via attention clairsemée; utilisation de la mémoire réduite[28]
Outils développeur
SDK d'agent avec sous-agents, points de contrôle, intégration VS Code[36][24]
Pas de SDK officiel; code open-source permet des intégrations personnalisées mais manque d'outil mémoire intégré
Coût
Inchangé par rapport à Sonnet 4; 3 $/M tokens d'entrée et 15 $/M tokens de sortie[37]
Réduction de prix de l'API de 50 %+[38]; gratuit pour auto-hébergement
Points forts
Précision de codage la plus élevée (SWE‑Bench Vérifié 77–82 %), autonomie prolongée, sécurité robuste
Efficacité exceptionnelle; inférence 2 à 3× plus rapide et utilisation de la mémoire inférieure[28]; open-source
Points faibles
Coûts de tokens plus élevés; API propriétaire; peut nécessiter une gestion attentive des invites
Statut expérimental; légères régressions sur le raisonnement complexe[34]; manque d'outillage intégré

À partir de cette comparaison, nous pouvons élaborer une stratégie hybride. Macaron pourrait utiliser DeepSeek V3.2‑Exp pour les brouillons initiaux, profitant d'une faible latence et d'un coût réduit, puis affiner ou valider avec Sonnet 4.5 pour garantir la précision et la sécurité. Pour les mini-apps complexes nécessitant un raisonnement approfondi, Sonnet 4.5 reste le meilleur choix, tandis que V3.2‑Exp excelle dans les itérations rapides ou la génération en masse.

6 Comment les nouveaux modèles amélioreront le pipeline des mini-apps de Macaron

La question centrale pour Macaron est de savoir si Sonnet 4.5 et DeepSeek V3.2‑Exp peuvent améliorer la qualité, réduire le temps de développement et diminuer les bugs. Nous analysons chaque facteur dans le contexte du pipeline de Macaron :

6.1 Qualité du code et des résultats

Sonnet 4.5 offre une meilleure qualité de code et moins d'erreurs. Selon Replit, les erreurs d'édition de code sont passées de 9 % à zéro en passant de Sonnet 4 à Sonnet 4.5. Cela signifie que les mini‑applications générées par Macaron se compileront de manière plus fiable, avec moins d'erreurs de syntaxe ou d'importations manquantes. L'amélioration de la compréhension des instructions par le modèle permet à Macaron de comprendre les spécifications des utilisateurs plus précisément ; son refactoring de code amélioré garantit que les modules générés sont propres et modulaires. Pour les tâches financières et de cybersécurité, Sonnet 4.5 a amélioré la précision de 25 % à 44 %, suggérant des gains similaires pour les applications de voyage et de bien-être de Macaron. DeepSeek V3.2‑Exp, bien que légèrement moins performant sur le raisonnement complexe, maintient des performances comparables à celles de V3.1 avec une meilleure efficacité [29] ; lorsqu'il est affiné sur le domaine de Macaron, il pourrait offrir une précision suffisamment élevée pour des mini‑applications plus simples.

6.2 Vitesse de création des mini‑applications

La capacité du Sonnet 4.5 à fonctionner de manière autonome pendant plus de 30 heures signifie que Macaron peut générer des mini-applications de bout en bout lors d'une seule session continue sans réinitialisations manuelles. Combiné avec la gestion du contexte et les points de contrôle du SDK Agent, cela réduit le temps passé à redémarrer des tâches ou à recharger le contexte. L'architecture des sous-agents permet à Macaron de paralléliser les tâches : un agent peut gérer la génération de l'interface utilisateur tandis qu'un autre s'occupe de l'intégration des API, chacun avec son propre contexte et ses outils. Pendant ce temps, l'inférence 2 à 3 fois plus rapide et la réduction de la mémoire utilisée de DeepSeek V3.2-Exp se traduisent par des réponses plus rapides [28]. Par exemple, si la génération d'un itinéraire de voyage nécessitait 30 secondes avec Sonnet 4.5, la version V3.2-Exp pourrait produire une ébauche en 10 à 15 secondes ; Sonnet 4.5 l'affinerait ensuite. L'effet net est un temps plus court pour atteindre la première version utilisable, permettant des boucles de retour utilisateur rapides.

6.3 Processus plus fluides et moins de bugs

L'automatisation réduit les erreurs humaines, mais l'autonomie peut introduire de nouveaux bugs si elle n'est pas correctement gérée. Les points de contrôle du SDK Agent permettent aux développeurs de sauvegarder et de revenir à l'état précédent de l'agent[24]. Si Macaron effectue un appel API incorrect ou écrit dans le mauvais fichier lors de la génération d'une mini‑application, le développeur peut revenir à un point de contrôle précédent au lieu de recommencer. L'édition de contexte prévient l'épuisement des jetons et garantit que seul le contexte pertinent est conservé, minimisant les hallucinations. Pour DeepSeek, la version open source permet à l'équipe de Macaron d'inspecter et de modifier le modèle, d'intégrer des vérifications de sécurité personnalisées et d'affiner pour des tâches spécifiques au domaine. De plus, les propres mécanismes de RL de Macaron – tissage temporel, raisonnement contrefactuel et contraintes d'équité – continuent de surveiller la satisfaction des utilisateurs et de pénaliser les comportements nuisibles[2][5], réduisant le risque de bugs et de violations éthiques.

6.4 Considérations de coût

Les modèles de haute qualité ont un coût. Le tarif des tokens de Sonnet 4.5 reste inchangé par rapport à Sonnet 4 (3 $/M tokens d'entrée, 15 $/M tokens de sortie)[37]. DeepSeek V3.2‑Exp réduit de moitié le coût des appels d'API[38] et, étant open source, peut être auto-hébergé. Macaron peut donc optimiser les coûts en utilisant V3.2‑Exp pour les ébauches initiales ou les tâches à faible enjeu (par exemple, générer des composants d'interface utilisateur ou des calculatrices simples) et réserver Sonnet 4.5 pour les tâches à fort enjeu (par exemple, planification financière, conseils médicaux) où l'exactitude et la conformité sont essentielles. Les économies réalisées grâce à une inférence plus rapide et à une utilisation réduite du GPU (discutées ci-dessous) compensent également les coûts de calcul.

7 Les innovations de Macaron en matière d'entraînement par renforcement : DAPO, LoRA et All‑Sync RL

Améliorer le modèle n'est qu'une partie de l'histoire ; l'efficacité de l'entraînement affecte la rapidité avec laquelle Macaron peut itérer sur les politiques RL. MIND LABS décrit un système qui combine optimisation de politique d'échantillonnage dynamique et découplée (DAPO) avec adaptation de bas rang (LoRA) dans une architecture All‑Sync RL pour entraîner un modèle DeepSeek de 671B en utilisant seulement 48 GPU H800 – une réduction de 10× par rapport aux 512 GPU nécessaires pour le RL standard[39]. Le parallélisme de pipeline utilisant Coati et SGLang, ainsi que la fusion et la quantification LoRA accélérées, éliminent les « bulles GPU » où les GPU restent inactifs en attendant l'inférence[40]. Le résultat est une réduction du temps de l'horloge murale pour une seule étape d'entraînement de 9 heures à 1,5 heure[41]. Ces avancées signifient que Macaron peut réentraîner ses modèles de récompense ou ses portes de mémoire plus rapidement, incorporer les retours plus vite et déployer les améliorations aux utilisateurs plus tôt.

Figure 1 – L'utilisation du GPU passe de 512 à 48 GPU H800 lorsque All‑Sync RL est utilisé avec LoRA, rendant la recherche RL plus accessible et accélérant l'expérimentation[39].

Au-delà de l'efficacité, les mises à jour de faible rang de LoRA réduisent les coûts de communication des poids du modèle, et l'échantillonnage dynamique stabilise l'entraînement en filtrant les incitations et en façonnant les récompenses[42]. Pour Macaron, ces techniques signifient que les futures mises à jour de la mémoire et des politiques peuvent être formées rapidement sans engendrer de coûts de calcul prohibitifs.

8 Flux de travail du développeur : intégrer Sonnet 4.5 et DeepSeek dans Macaron

Créer une mini-application avec Macaron implique plusieurs étapes :

  • Compréhension de l'intention – Macaron analyse la demande de l'utilisateur et identifie les composants nécessaires (par exemple, sources de données, éléments d'interface utilisateur, API externes). L'amélioration du suivi des instructions de Sonnet 4.5 aide à extraire une intention précise et à planifier les étapes d'exécution, tandis que V3.2‑Exp peut rapidement prototyper des intentions potentielles pour la sélection de l'utilisateur.
  • Synthèse de programme – L'agent utilise le SDK Claude Agent pour générer du code, rechercher dans le dépôt, lire des modèles et écrire de nouveaux fichiers. Les sous-agents peuvent se spécialiser dans le front‑end (React) ou le back‑end (Python), et la gestion contextuelle assure que le bon code est disponible sans surcharger la mémoire. Les capacités de long contexte et de refactorisation de code de Sonnet 4.5 produisent des programmes plus propres et plus faciles à maintenir, tandis que V3.2‑Exp accélère le premier brouillon.
  • Exécution en bac à sable – Le code généré est exécuté dans un environnement sécurisé. L'agent lit les journaux, capture les erreurs et corrige les bugs de manière itérative. Les points de contrôle offrent des retours sûrs, et les signaux de récompense RL pénalisent le code qui échoue aux tests. Macaron peut également effectuer des tests d'intégration avec des services externes en utilisant les outils bash et fetch web du SDK Agent.
  • Interaction et affinage – L'agent présente la mini‑application à l'utilisateur via l'interface conversationnelle de Macaron. Le moteur de mémoire stocke la conversation et utilise RL pour décider quelles mémoires rappeler lors des futures interactions. Les retours de l'utilisateur mettent à jour le modèle de récompense et influencent les générations futures.

En intégrant Sonnet 4.5 et DeepSeek V3.2‑Exp, Macaron peut personnaliser ce flux de travail. Par exemple, une application de planification de voyage pourrait avoir l'agent générateur d'UI utilisant DeepSeek pour proposer rapidement des mises en page, tandis que la logique de l'itinéraire et l'optimisation des horaires utilisent Sonnet 4.5 pour garantir l'exactitude et une gestion correcte des calendriers. Une application de budgétisation pourrait s'appuyer sur DeepSeek pour des graphiques et tableaux initiaux mais utiliser Sonnet 4.5 pour des calculs financiers complexes et la conformité aux réglementations.

9 Visualisation des améliorations

Pour illustrer les avantages tangibles de ces technologies, les graphiques suivants résument les principaux indicateurs.

Figure 2 – Vue comparative de Sonnet 4.5 et DeepSeek V3.2‑Exp en termes de précision du codage, de vitesse relative, de coût et d'autonomie. Des barres plus hautes représentent de meilleures valeurs pour la précision et l'autonomie; des barres plus basses indiquent une meilleure performance (plus rapide ou moins chère) en termes d'efficacité et de coût.

Figure 3 – Les benchmarks internes de Replit montrent que les erreurs d'édition de code sont passées de 9 % avec Sonnet 4 à zéro avec Sonnet 4.5. Un meilleur suivi des instructions et une refactorisation du code mènent à des mini-applications plus fiables.

Figure 4 – La combinaison de DAPO et LoRA dans un pipeline All-Sync RL réduit le temps de traitement d'une étape d'entraînement de 9 heures à 1,5 heure[41], permettant des mises à jour plus rapides des modèles de récompense et des politiques de mémoire.

Ces visualisations soulignent que les avantages ne sont pas théoriques. Des exigences GPU réduites, un entraînement plus rapide, une plus grande précision et des coûts inférieurs contribuent tous à un pipeline de mini-applications plus fluide et efficace.

10 Directions futures

En regardant vers l'avenir, tant Anthropic que DeepSeek ont laissé entendre qu'ils prévoyaient des architectures plus ambitieuses. Le successeur de Sonnet 4.5 pourrait étendre les fenêtres de contexte, améliorer le raisonnement multilingue et prendre en charge des interactions d'outils plus complexes. L'architecture de nouvelle génération de DeepSeek devrait s'appuyer sur une attention éparse pour atteindre des performances encore plus élevées à moindre coût[31]. Pour Macaron, des recherches supplémentaires sur la mémoire auto-compressante, l'apprentissage tout au long de la vie et l'alignement interlingual pourraient améliorer la personnalisation et la confidentialité[43]. Intégrer l'apprentissage fédéré permettrait aux utilisateurs de former des modèles de mémoire localement, ne partageant que les mises à jour des modèles, améliorant ainsi la performance collective tout en préservant la confidentialité[43]. Du côté de l'RL, l'approche de Macaron pourrait incorporer des théories normatives – utilitarisme, déontologie, éthique des vertus – pour fournir des explications de ses actions[44].

En résumé, la décision de Macaron de se connecter à Claude Sonnet 4.5 et DeepSeek V3.2‑Exp, propulsé par le Claude Agent SDK, le place à l'avant-garde de l'IA personnelle. Sonnet 4.5 offre une qualité inégalée, une autonomie prolongée et des outils de développement riches ; DeepSeek apporte rapidité, efficacité et flexibilité open-source. Associés aux techniques innovantes d'entraînement RL et au moteur de mémoire de Macaron, ces modèles aideront Macaron à construire des mini-applications plus rapidement, plus fluidement et avec moins de bugs. À mesure que l'IA personnelle continue d'évoluer, le mélange d'autonomie, de sécurité, d'éthique et d'efficacité de Macaron sert de modèle pour une innovation responsable.


[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] À l'intérieur du moteur de mémoire de Macaron : Compression, Récupération et Régulation Dynamique - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [titre inconnu]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Construire des agents avec le SDK de Claude Code

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5 : Fonctionnalités, Tarification Et Comparaison - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] IA sur IA : DeepSeek-3.2-Exp et DSA – Champaign Magazine

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] DeepSeek de Chine lance un modèle d'IA 'intermédiaire' en route vers la prochaine génération | Reuters

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/

[39] [40] [41] [42] MIND LABS | Mise à l'échelle All-Sync RL avec DAPO et LoRA

https://mindlabs.macaron.im/

Boxu a obtenu son diplôme de licence à l'Université Emory en économie quantitative. Avant de rejoindre Macaron, Boxu a passé la majeure partie de sa carrière dans le domaine des capitaux privés et du capital-risque aux États-Unis. Il est maintenant chef de cabinet et vice-président du marketing chez Macaron AI, gérant les finances, la logistique et les opérations, tout en supervisant le marketing.

Postuler pour devenir Les premiers amis de Macaron