Author: Boxu Li
While the novelty of Macaron AI often draws attention to its ability to generate custom mini‑apps or to act as an empathetic friend, its true backbone is an intricate memory engine. This system allows Macaron to remember what matters, forget what doesn't, and retrieve relevant experiences quickly and safely. A simple conversation about music can lead to reminders about a concert next month, an automatically compiled playlist, or the generation of a karaoke assistant. None of this is possible without memory mechanisms capable of handling long dialogues and diverse topics. This blog provides a deep technical dive into Macaron's memory engine, discussing hierarchical compression, vector retrieval, reinforcement‑guided gating and privacy control. We compare Macaron's design with other retrieval‑augmented generation (RAG) systems and discuss how these mechanisms enable Japanese and Korean users to enjoy personalized experiences.
Macaron organise la mémoire en plusieurs magasins. Le magasin à court terme maintient la conversation actuelle et couvre environ 8 à 16 messages. Il fonctionne comme un contexte de transformateur typique : les tokens sont traités séquentiellement avec attention. Le magasin épisodique contient les interactions récentes (par exemple, les derniers jours) et est rafraîchi périodiquement. Ici, Macaron utilise un transformateur compressif : les messages sont compressés en vecteurs résumés grâce à l'attention convolutionnelle, permettant au modèle de maintenir le contexte au-delà de la longueur native de la fenêtre. Le magasin à long terme conserve les événements importants, les faits et les configurations des mini-apps et est implémenté comme une base de données vectorielle. Chaque élément de mémoire comprend des métadonnées (horodatage, étiquettes de domaine, étiquettes de langue) et un encodage produit par un encodeur multilingue.
Un des principaux défis dans les longues conversations est que le coût de l'auto-attention croît de manière quadratique avec la longueur de la séquence. Pour gérer cela, Macaron utilise une couche de résumé latent : plutôt que de prêter attention à chaque token, le modèle apprend à identifier les segments saillants et à les compresser en une représentation de longueur fixe. Cette couche est entraînée à l'aide d'un objectif d'auto-encodage qui reconstruit les états cachés à partir des résumés compressés. L'apprentissage par renforcement affine le résumeur : si l'agent échoue à se souvenir de détails importants par la suite, la politique est pénalisée, l'encourageant à retenir plus d'informations sur des événements similaires à l'avenir.
Le jeton de mémoire décrit dans l'article de presse taïwanais fonctionne comme un pointeur qui parcourt la mémoire pour sélectionner des éléments pertinents. Lors du rappel, le jeton interroge itérativement la banque de mémoire : il récupère une mémoire candidate, évalue sa pertinence par rapport au contexte actuel en utilisant une fonction de score apprise, et décide s'il doit la retourner ou continuer la recherche. Ce processus est semblable à un réseau pointeur utilisé dans l'optimisation combinatoire neuronale. Les signaux de renforcement guident le jeton à sélectionner des séquences de mémoires qui maximisent la satisfaction de l'utilisateur (par exemple, prédire correctement la préférence d'un utilisateur pour le jazz). Le jeton peut également mettre à jour la mémoire : lorsque de nouvelles informations arrivent, il décide de les fusionner avec les mémoires existantes ou d'allouer un nouvel emplacement.
La mémoire à long terme de Macaron utilise une base de données vectorielle à haute dimension. Les requêtes sont converties en embeddings via un encodeur multilingue ; ensuite, une recherche de voisins approximatifs les plus proches (ANN) renvoie les principales mémoires. Le système utilise la quantification de produit pour accélérer la recherche et maintenir une latence inférieure à 50 ms, même en stockant des millions d'éléments de mémoire. Pour éviter de récupérer des doublons triviaux, le système applique une pertinence marginale maximale (MMR), équilibrant similarité et diversité parmi les résultats.
Le simple appariement de mots-clés ne suffit pas à capturer l'intention de l'utilisateur. Macaron étend les requêtes en utilisant l'objectif actuel de l'utilisateur et l'intention latente. Par exemple, si un utilisateur à Tokyo mentionne « 花火大会 » (festival de feux d'artifice), le système élargit la requête pour inclure « billets », « date » et « météo » en fonction des actions typiques liées aux festivals. Si un utilisateur coréen demande comment faire des « 김치전 » (galettes de kimchi), le système recherche également des expériences culinaires passées, des données nutritionnelles et la disponibilité locale des ingrédients. L'expansion des requêtes est gérée par un prédicteur d'objectifs entraîné à mapper le contexte de la conversation à un ensemble de sous-thèmes pertinents.
Le moteur de mémoire doit gérer les requêtes qui s'étendent sur plusieurs domaines. Le mécanisme de fédération de pertinence décrit dans l'article de Macaron sur le modèle autoévaluatif permet au système d'accéder aux souvenirs à travers les limites de domaine. Lorsque l'agent aide un utilisateur japonais à organiser un mariage, il peut avoir besoin de récupérer des souvenirs de voyage (destinations de lune de miel), des souvenirs financiers (budget) et des souvenirs culturels (étiquette de mariage). Chaque domaine a son propre index de récupération, et le système utilise une fonction de porte softmax pour distribuer les probabilités de récupération entre les domaines. La fonction de porte est entraînée par RL pour minimiser la récupération d'éléments non pertinents tout en garantissant que les connexions importantes entre domaines ne sont pas manquées. Pour les requêtes multilingues, la fonction de porte prend également en compte les étiquettes de langue pour privilégier les souvenirs dans la même langue mais permet une récupération interlangues lorsque la similarité sémantique est élevée.
L'équipe Macaron s'est inspirée du projet FireAct, qui a démontré que l'apprentissage par renforcement (RL) après l'entraînement améliore la précision du raisonnement de 77 % par rapport aux méthodes basées sur des invites. Dans Macaron, le RL est utilisé pour entraîner la politique de gestion de la mémoire : un réseau neuronal qui décide s'il faut stocker, mettre à jour ou supprimer des informations et comment pondérer les souvenirs récupérés. La fonction de récompense combine plusieurs signaux : achèvement de tâche, satisfaction de l'utilisateur, conformité à la confidentialité et efficacité computationnelle. Par exemple, récupérer trop de souvenirs ralentit les réponses, donc la récompense pénalise les rappels inutiles. Oublier des détails pertinents diminue la satisfaction de l'utilisateur, donc la politique apprend à les conserver plus longtemps. La fonction de récompense est ajustée différemment pour les marchés japonais et coréen : les utilisateurs japonais peuvent pénaliser le partage excessif de détails privés, tandis que les utilisateurs coréens peuvent valoriser la rapidité et les suggestions proactives.
L'apprentissage par renforcement a souvent du mal avec les horizons longs: les actions entreprises maintenant peuvent affecter les résultats bien plus tard. Macaron aborde ce problème grâce au tissage temporel, un mécanisme où les événements à travers le temps sont connectés par des horodatages et des fils narratifs. Lors de l'évaluation de l'impact de la remémoration d'un ancien souvenir, le système peut retracer la chaîne d'interactions qui en a découlé. Cela permet à l'agent d'apprentissage par renforcement d'attribuer du crédit ou du blâme à des décisions de récupération spécifiques. Par exemple, si le fait de se référer à un anniversaire oublié améliore une relation, le système attribue une récompense positive à la porte de mémoire qui préserve le souvenir de l'anniversaire. Si ressurgir un moment embarrassant a causé un malaise, la porte reçoit une récompense négative.
Macaron utilise l'apprentissage par renforcement hiérarchique pour gérer la complexité. Un contrôleur de haut niveau sélectionne des modules (par exemple, récupération, résumé, compression) en fonction de l'objectif actuel de l'utilisateur, tandis que des politiques de bas niveau gèrent des actions spécifiques au sein de chaque module. Ce design modulaire facilite l'apprentissage par transfert : une politique de filtrage entraînée pour des conversations culinaires japonaises peut être réutilisée pour des recettes coréennes. Cela permet également à Macaron de mettre à jour des modules individuels sans réentraîner l'ensemble du système. Pour assurer la stabilité, Macaron emploie l'optimisation de politique proximale (PPO) avec découpage de région de confiance, équilibrant exploration et exploitation et prévenant l'oubli catastrophique.
De nombreux systèmes d'IA utilisent la génération augmentée par récupération pour améliorer la précision factuelle en puisant des informations dans des bases de données externes. Les modèles comme GPT‑4 avec RAG s'appuient sur des bases de connaissances statiques et n'adaptent pas la récupération en fonction des retours utilisateurs. Le moteur de mémoire de Macaron se distingue de trois manières clés :
Les récents LLMs, comme Claude 3 d'Anthropic et Gemini de Google, peuvent gérer des contextes de centaines de milliers de tokens en augmentant la fenêtre d'attention. Ces modèles ne réalisent pas de récupération explicite ; ils s'appuient plutôt sur la capacité à suivre de longues séquences. Bien que cela leur permette de se rappeler des segments de conversation antérieurs, c'est coûteux en termes de calcul et ne prend pas en charge l'oubli contrôlé par l'utilisateur. Macaron combine un contexte moyen avec la récupération pour atteindre une couverture similaire à moindre coût et avec un meilleur contrôle de la confidentialité. Le token de mémoire dynamique agit comme un pointeur vers un stockage externe, permettant au modèle de gérer des années de données sans tout stocker dans le contexte actif.
Des bases de données vectorielles comme Pinecone et Faiss sont souvent utilisées pour stocker des embeddings pour les tâches de récupération. Le stockage à long terme de Macaron s'appuie sur ces technologies mais les intègre avec une régulation contrôlée par RL. Pendant ce temps, les premiers réseaux de mémoire comme le réseau de mémoire de bout en bout pré-calculent un ensemble fixe de slots de mémoire et les suivent avec une attention douce. Macaron étend cela en permettant au nombre de slots de croître ou de diminuer dynamiquement et en utilisant RL pour décider quels slots restent. En ce sens, le moteur de mémoire de Macaron ressemble davantage à une machine de Turing neuronale avec un contrôleur appris qui lit et écrit sur une bande de mémoire externe.
La conformité aux réglementations régionales est cruciale. La liaison des politiques attache des règles de confidentialité lisibles par machine aux données. Par exemple, une mémoire contenant des données financières pourrait inclure une règle stipulant qu'elle ne peut être consultée qu'après une authentification biométrique. La transparence différenciée offre des niveaux de divulgation variés à différents intervenants : un consommateur japonais peut consulter ses propres données, un régulateur coréen peut voir des statistiques agrégées, et les développeurs reçoivent des retours anonymisés pour améliorer le modèle. Ces mécanismes s'alignent sur l'accent mis par la loi de promotion de l'IA sur la transparence et sur les exigences de la loi-cadre sur l'IA en Corée concernant la gestion des risques et la supervision humaine.
La loi de promotion de l'IA au Japon ne prévoit pas de sanctions directes mais utilise un mécanisme de dénonciation publique pour identifier publiquement les entreprises non conformes. Les journaux d'audit de Macaron suivent l'accès à la mémoire et les décisions politiques, permettant à l'entreprise de démontrer sa conformité en cas d'audit. Le cadre coréen peut imposer des amendes modestes (jusqu'à 30 millions de KRW) pour les infractions. En attachant des métadonnées à chaque événement mémoire, Macaron peut générer des rapports de conformité automatiquement. Le système permet également aux utilisateurs d'exporter et de supprimer leurs données, en s'alignant sur la norme mondiale émergente de portabilité des données.
Le système de mémoire de Macaron reflète l'architecture de la mémoire humaine. Les scientifiques cognitifs décrivent la mémoire de travail comme un tampon limité dans le cortex préfrontal, la mémoire épisodique comme un stockage basé sur les événements médié par l'hippocampe, et la mémoire sémantique comme une connaissance générale distribuée à travers le cortex. De même, Macaron dispose d'une fenêtre contextuelle à court terme, d'un stockage épisodique et d'une base de données vectorielle à long terme. La dégradation de référence ressemble à la courbe de l'oubli humaine : les souvenirs s'estompent à moins d'être renforcés. Le tissage temporel évoque la manière dont les humains créent des récits de vie en reliant des événements au fil du temps. En imitant ces mécanismes, Macaron optimise non seulement les ressources informatiques mais produit également des interactions plus naturelles. Lorsqu'un utilisateur se remémore un festival d'enfance, l'agent peut rappeler des événements connexes et les intégrer dans la conversation actuelle, comme le ferait un ami humain.
Malgré sa sophistication, le moteur de mémoire de Macaron soulève des questions. Un domaine est la mémoire auto-compressante : développer des modules neuronaux qui résument et compressent automatiquement les souvenirs sans supervision externe. Un autre est l'apprentissage continu : permettre à l'agent d'adapter continuellement ses stratégies de mémoire à mesure que le comportement des utilisateurs évolue. L'alignement interlinguistique reste un sujet de recherche actif ; les futurs modèles pourraient utiliser l'apprentissage de représentation contrastive pour aligner les souvenirs entre le japonais, le coréen et d'autres langues de manière plus fluide. Les chercheurs explorent également le matériel neuromorphique et les réseaux neuronaux à impulsions pour mettre en œuvre la mémoire à moindre coût énergétique. Enfin, l'intégration de l'apprentissage fédéré permettra aux utilisateurs de former localement les modèles de mémoire de Macaron, ne partageant que les mises à jour des modèles plutôt que les données brutes, renforçant ainsi la confidentialité tout en améliorant la performance collective.