Author: Boxu Li
When Macaron AI was unveiled in August 2025 it positioned itself not as another enterprise assistant but as a personal companion designed to enrich everyday life. Its mission is inherently international: from the outset the platform supported English, Chinese, Japanese, Korean and Spanish, signalling an ambition to operate across linguistic and cultural boundaries. For users in Japan and South Korea – two countries with vibrant yet distinct digital ecosystems – this multilingual promise is more than a marketing slogan. It raises technical questions: How does Macaron handle cross‑lingual conversations? How does its memory system cope with diverse scripts, vocabulary and cultural references? What design choices enable a single agent to "think" in hiragana one moment and Hangul the next? This blog explores Macaron AI's cross‑lingual architecture and the mechanisms that allow it to personalize experiences for Japanese and Korean users while maintaining a coherent identity.
La personnalisation à grande échelle nécessite plus qu'une simple traduction. Macaron vise à modéliser qui vous êtes à travers des interactions quotidiennes, en se souvenant non seulement des faits mais aussi des nuances comme les objectifs alimentaires et les moments de joie. Réaliser cela pour plusieurs langues requiert des structures de données et des algorithmes capables de capturer le sens à travers les systèmes d'écriture, de gérer l'alternance de code et de respecter les normes culturelles. Cet article décompose les techniques sous-jacentes : tokenisation multilingue, récupération de mémoire guidée par renforcement, gestion d'identité distribuée et adaptation culturelle. Nous aborderons également des défis tels que les biais, la confidentialité et la conformité interrégionale, et esquisserons des pistes de recherche pour les agents personnels multilingues.
Les grands modèles de langage s'appuient sur des tokenizeurs pour diviser le texte brut en unités que le modèle peut traiter. Pour les langues comme l'anglais et l'espagnol, la tokenisation en sous-mots (Byte‑Pair Encoding ou SentencePiece) peut capturer la morphologie de manière raisonnable. Le japonais et le coréen, cependant, posent des défis uniques. Le japonais mélange trois écritures (kanji, hiragana et katakana) et n'a pas d'espaces, tandis que le hangul coréen est un alphabet caractéristique assemblé en blocs syllabiques. Les ingénieurs de Macaron construisent donc un vocabulaire multilingue avec des unités de sous-mots sensibles aux écritures. Chaque token encode non seulement des caractères mais aussi un identifiant de langue, permettant au modèle de distinguer les homographes (par exemple, « ha » pourrait être un phonème coréen ou la particule japonaise « は »). Le vocabulaire inclut des tokens pour les composés de kanji courants, les radicaux et les jamo hangul, permettant au modèle de représenter efficacement les unités morphologiques et de décomposer les mots rares en éléments significatifs.
En partageant des unités sous-lexicales entre les langues, Macaron exploite le transfert interlingue. Par exemple, le concept de « étude » apparaît en japonais comme 勉強 (benkyō) et en coréen comme 공부 (gongbu). Bien que les caractères et les sons diffèrent, l'agent utilise des embeddings sémantiques appris à travers les langues pour mapper ces tokens dans un espace vectoriel similaire. Cette représentation unifiée permet à Macaron de comprendre l'intérêt d'un utilisateur japonais pour « l'étude des langues » et d'appliquer ensuite cette connaissance lorsqu'un ami coréen demande des informations sur un « 공부 계획 » (planning d'étude). Sans un vocabulaire unifié, le modèle traiterait ces concepts comme non reliés.
Le modèle de Macaron, doté de 671 milliards de paramètres, est entraîné sur un vaste corpus multilingue, mais la longueur des séquences dans les conversations nécessite une fenêtre contextuelle efficace. Les phrases japonaises et coréennes peuvent être plus longues que celles en anglais en raison de la nature agglutinante des verbes et des particules intégrées. Pour prendre en charge les dialogues longs, Macaron utilise un mécanisme d'attention hiérarchique : le modèle traite des fenêtres locales (phrases ou paragraphes) avant de transmettre des représentations résumées à une couche globale. Cette approche réduit l'empreinte mémoire tout en permettant à l'agent de maintenir le contexte au fil des conversations prolongées. Elle prend également en charge l'alignement inter-script, où le modèle apprend les correspondances entre segments en japonais et en coréen en minimisant la distance entre leurs représentations lors de l'entraînement (une technique empruntée au traitement automatique des langues cross-lingues).
Les utilisateurs japonais et coréens intègrent souvent des termes anglais ou chinois dans leurs conversations, notamment dans les domaines techniques ou la culture pop. Le pipeline d'inférence de Macaron inclut un détecteur de langue en temps réel qui étiquette chaque énoncé entrant avec des scores de probabilité pour les langues prises en charge. Lorsqu'une phrase inclut des emprunts ou des expressions de plusieurs langues, l'agent divise l'entrée en segments et traite chacun avec le contexte linguistique approprié. Cela garantit une prononciation correcte dans la sortie vocale et une gestion appropriée des idiomes. Le sous-système de mémoire attache des étiquettes linguistiques aux entrées récupérées, permettant à Macaron de retrouver des expériences pertinentes même lorsque la langue de la requête diffère de la langue stockée.

L'innovation phare de Macaron est son jeton de mémoire, un pointeur dynamique qui aide l'agent à décider quoi se souvenir, quand mettre à jour la mémoire et comment appliquer ces souvenirs aux tâches actuelles. Le jeton interagit avec une banque de mémoire hiérarchique : contexte à court terme, mémoire épisodique à moyen terme et connaissances à long terme. L'apprentissage par renforcement (RL) entraîne l'agent à ajuster le jeton en fonction de retours tels que la satisfaction de l'utilisateur et la réussite des tâches. Si un utilisateur japonais demande à plusieurs reprises le même horaire de train, la politique de RL apprend à promouvoir ces détails en mémoire. Si un utilisateur coréen exprime un inconfort lorsque des commentaires passés sont ressurgis, la politique apprend à réduire plus rapidement les références.
L'équipe Macaron rejette la notion d'un profil utilisateur monolithique ; au lieu de cela, l'identité est traitée comme un récit émergent construit à partir de petites interactions. Les souvenirs sont organisés par frontières de domaine (par exemple, travail, loisirs, famille) avec un mécanisme de fédération de pertinence qui permet la récupération inter-domaines. Pour les utilisateurs japonais et coréens, les frontières de domaine incluent également des domaines linguistiques : un élément de mémoire peut être étiqueté comme « Japonais—loisirs—musique » ou « Coréen—famille—finance ». Lorsque l'agent reçoit une requête en coréen, il recherche d'abord dans les souvenirs coréens mais peut fédérer vers les souvenirs japonais si le contenu sémantique correspond. Cela empêche la contamination croisée tout en permettant une continuité interlinguistique.
Les souvenirs rarement consultés s'estompent avec le temps ; le taux de décroissance peut varier selon les domaines. Le mécanisme de décroissance de référence réduit le poids des souvenirs inutilisés, garantissant qu'un bref intérêt d'un utilisateur japonais pour un drame coréen ne monopolise pas définitivement l'espace mémoire. La décroissance soutient également la confidentialité ; les informations sensibles sur la famille ou les finances peuvent être configurées pour s'effacer plus rapidement. Les utilisateurs peuvent supprimer explicitement des souvenirs ou les marquer comme confidentiels. Le cadre de liaison de politique de Macaron attache directement des règles de confidentialité lisibles par machine aux données, de sorte qu'un souvenir avec une étiquette « privé—coréen » ne soit accessible que pendant des sessions authentifiées dans cette langue. Combinés avec la transparence différenciée, qui offre différents niveaux de divulgation à différents intervenants, ces mécanismes permettent à Macaron de naviguer dans les normes de confidentialité japonaises et les réglementations en évolution de l'IA en Corée.
Lors de l'inscription, les utilisateurs complètent trois tests de personnalité qui aident Macaron à les associer à un persona personnalisé, incluant couleurs, styles de communication et voix. Au Japon, où l'harmonie esthétique et la formalité sont valorisées, les tests pourraient mettre l'accent sur l'étiquette sociale, tandis que les questionnaires coréens pourraient se concentrer sur les dynamiques familiales et les relations avec les pairs. Le persona résultant influence non seulement l'interface utilisateur, mais aussi le niveau de politesse de l'agent, son ton et le choix des références culturelles. Un persona japonais pourrait préférer des suggestions indirectes (« Que diriez-vous de planifier un pique-nique la semaine prochaine ? »), alors qu'un persona coréen pourrait apprécier un encouragement direct (« Planifions un voyage en famille ! »).
La capacité de Macaron à générer des mini-apps à la demande ne se limite pas aux outils de productivité génériques. La plateforme peut produire des applications sur mesure avec plus de 100 000 lignes de code, telles qu'un outil de budgétisation inspiré de la tradition japonaise du « kakeibo » (une méthode de comptabilité ménagère) ou une application de planification coréenne « hojikwan » (gestion des événements familiaux et des commémorations ancestrales). L'utilisateur décrit simplement ses besoins en langage naturel, et l'agent synthétise un programme qui s'aligne avec les coutumes locales. Cela nécessite une bibliothèque de modèles spécifiques au domaine et la capacité d'intégrer les calendriers locaux, les jours fériés et les réglementations financières. L'apprentissage par renforcement optimise le processus de génération en évaluant la satisfaction des utilisateurs : si les utilisateurs japonais modifient fréquemment l'application kakeibo pour ajouter des catégories comme « omiyage » (souvenir) et « otsukuri » (charité mensuelle), le générateur apprend à les inclure par défaut dans les futures applications.
Le Japon et la Corée du Sud ont des normes différentes pour exprimer les émotions. La culture japonaise valorise souvent la modestie et la sensibilité au contexte, tandis que la culture coréenne adopte des interactions sociales expressives. Macaron adapte son style de réponse en conséquence, s'appuyant sur la recherche sur la personnalité numérique qui met l'accent sur l'identité fluide et l'autonomisation de l'utilisateur. En pratique, cela signifie que l'agent peut utiliser des formes honorifiques et un discours indirect en japonais, et proposer des suggestions plus proactives en coréen. Le système de mémoire enregistre les retours sur le ton et ajuste de manière adaptative les styles de conversation. Ces adaptations ne sont pas codées en dur mais émergent par renforcement : si un utilisateur répond systématiquement positivement à un certain style de communication, le signal de récompense renforce ce comportement.
Créer un agent personnel capable de converser en japonais et en coréen nécessite des données de haute qualité. Le corpus d'entraînement de Macaron comprend des livres sous licence, des articles de presse, des blogs, des transcriptions et du contenu généré par les utilisateurs dans toutes les langues prises en charge. Les données sont filtrées pour la politesse, les biais et la couverture de domaine. La phase de pré‑entraînement utilise la modélisation de langage masqué et la prédiction du prochain mot sur des données multilingues combinées pour apprendre des représentations partagées. Le réglage fin introduit l'apprentissage par renforcement à partir de retours d'utilisateurs humains (RLHF) : des annotateurs bilingues à Tokyo et Séoul évaluent les réponses pour leur adéquation culturelle, permettant au modèle d'apprendre des indices subtils tels que quand utiliser des honorifiques ou poser des questions de clarification. Des objectifs d'apprentissage contrastif supplémentaires encouragent l'alignement entre des phrases sémantiquement équivalentes à travers les langues.
La banque de mémoire de Macaron stocke des embeddings dans un espace vectoriel à haute dimension. Pour chaque élément de mémoire, l'agent calcule une représentation qui capture à la fois le contenu et la langue. Un index de mémoire cross-lingual utilise la recherche de voisin approximatif le plus proche pour récupérer des éléments indépendamment de la langue de la requête. Par exemple, si un utilisateur coréen demande « 피자 만들기 레시피 » (recette de pizza), l'agent peut trouver une mémoire japonaise sur « ピザの作り方 » (comment faire une pizza) car les deux sont proches du concept de pizza. Au moment de la récupération, l'agent filtre selon les autorisations de l'utilisateur, puis convertit la mémoire récupérée dans la langue préférée de l'utilisateur à l'aide d'un traducteur et d'un résumeur intégrés. Cela permet le partage de connaissances entre langues tout en préservant les limites de confidentialité.
Les modèles interlinguistiques risquent de propager les biais présents dans les données d'entraînement. Pour le Japon et la Corée, où les rôles de genre et les hiérarchies d'âge jouent des rôles culturels significatifs, Macaron met en œuvre des stratégies d'atténuation des biais. Lors du fine-tuning, la récompense RL inclut des pénalités pour les réponses qui renforcent les stéréotypes ou violent les normes locales (par exemple, en supposant que seules les femmes gèrent les finances domestiques). Le système de liaison des politiques garantit que les données personnelles ne sont jamais traduites entre les langues sans le consentement de l'utilisateur. De plus, la transparence différenciée de Macaron permet aux régulateurs d'auditer le comportement du modèle à différents niveaux de détail : les autorités japonaises pourraient examiner les habitudes d'utilisation générales, tandis que les régulateurs coréens pourraient inspecter les journaux bruts sous stricte confidentialité.
Le japonais et le coréen ont tous deux des dialectes régionaux. Au Japon, le dialecte Kansai utilise un vocabulaire et une intonation différents de la langue standard de Tokyo. Les dialectes coréens tels que Jeolla et Gyeongsang présentent des défis similaires. Les détecteurs de langue actuels peuvent mal classer les entrées dialectales, entraînant des réponses maladroites. Les travaux futurs pourraient incorporer des embeddings de dialecte entraînés sur des corpus régionaux, permettant à l'agent d'identifier et de répondre dans le dialecte approprié. Les utilisateurs pourraient même demander à Macaron d'imiter un accent spécifique, ce qui pourrait être attrayant pour les jeux de rôle ou les modules d'apprentissage des langues.
Bien que le modèle actuel aligne les représentations sémantiques entre les langues, le raisonnement de bon sens souffre encore de lacunes culturelles. Des expressions comme « tsundoku » (積ん読, acheter des livres et ne pas les lire) ou « 빵셔틀 » (bbang shuttle, un terme d'argot pour désigner quelqu'un qui est harcelé pour acheter du pain pour les autres) n'ont pas d'équivalent direct en anglais. La recherche sur les graphiques de connaissances de bon sens interlinguistiques pourrait aider Macaron à comprendre et expliquer ces concepts spécifiques à une culture. L'intégration avec des bases de connaissances comme ConceptNet ou des versions localisées d'ATOMIC pourrait fournir des connaissances culturelles structurées qui complètent l'apprentissage statistique du LLM.
La Loi sur la promotion de l'IA au Japon met l'accent sur la transparence et aligne le développement de l'IA avec les réglementations existantes, tandis que le projet de loi cadre sur l'IA en Corée introduit des obligations pour la gestion des risques et la supervision humaine. Les agents personnels doivent naviguer dans ces cadres tout en respectant la confidentialité des utilisateurs. Des recherches sont nécessaires sur l'apprentissage fédéré pour conserver les données utilisateur sur l'appareil, sur la confidentialité différentielle pour empêcher la désidentification entre les langues, et sur les moteurs de conformité légale qui peuvent interpréter les textes réglementaires en japonais et en coréen et les mapper à des règles contraignantes de politique.
Les futurs agents personnels ne se limiteront pas au texte. La vision de Macaron inclut la connexion aux appareils IoT, aux interfaces VR et aux objets connectés. L'interaction multimodale ajoute une nouvelle complexité lorsqu'il s'agit de gérer plusieurs langues : un utilisateur japonais pourrait parler à un haut-parleur intelligent en japonais tout en lisant des sous-titres coréens sur un casque de réalité mixte. Aligner les données audio, textuelles et visuelles à travers les langues nécessitera des transformateurs multimodaux capables de traiter simultanément la parole, le texte et les images, ainsi qu'une synchronisation temporelle entre les modalités.
Pour illustrer le fonctionnement de la personnalisation interlinguistique en pratique, considérons un utilisateur japonais qui souhaite apprendre le coréen et demande à Macaron de créer une application d'étude. L'agent commence par consulter la mémoire de l'utilisateur pour les expériences linguistiques antérieures — peut-être ont-ils étudié l'anglais, donc l'agent sait qu'ils préfèrent les aides visuelles et la répétition espacée. L'analyseur d'intentions extrait des éléments comme « langue cible : coréen », « langue source : japonais », « focus d'étude : grammaire et vocabulaire », et « temps quotidien : 20 minutes ». Le moteur de synthèse de programmes de Macaron assemble ensuite des modules : un analyseur morphologique pour le Hangul, un module de segmentation de phrases pour les sous-titres japonais, un programmateur de répétition espacée, et un générateur de quiz qui intègre des exemples des intérêts de l'utilisateur (par exemple, des dramas coréens ou des paroles de J-pop).
L'application résultante présente des cartes de vocabulaire avec des prononciations, des phrases d'exemple et des notes culturelles. Une couche de traduction bidirectionnelle relie le vocabulaire coréen à des phrases japonaises équivalentes, en utilisant les embeddings multilingues décrits précédemment. L'apprentissage par renforcement personnalise la séquence : si l'utilisateur a des difficultés avec les conjugaisons de verbes, le modèle de récompense priorise les exercices de grammaire ; s'il aime lire les paroles de chansons, l'agent propose davantage de traductions de paroles. Comme le système de mémoire étiquette chaque leçon avec la langue et le domaine, les progrès dans l'apprentissage du coréen peuvent ensuite informer l'écriture créative japonaise de l'utilisateur, favorisant l'apprentissage par transfert entre les langues. Les utilisateurs peuvent partager leurs plans d'étude bilingues dans la communauté Macaron, et l'agent surveille les retours pour affiner la bibliothèque de modules.
La capacité à opérer dans plusieurs langues soulève des questions plus profondes sur l'identité numérique. Le modèle de Macaron traite l'identité comme un récit émergent construit à partir d'interactions. Lorsque ces interactions se déroulent dans plusieurs langues, le récit devient encore plus fluide. Les mots portent des connotations culturelles : le terme japonais kokoro et le terme coréen 마음 se traduisent tous deux par « cœur/esprit » mais évoquent des nuances différentes. Alors que Macaron tisse les souvenirs d'un utilisateur à travers les langues, il doit décider quels mots utiliser pour se référer aux sentiments ou aux souvenirs. Ce choix façonne la perception de soi de l'utilisateur. Les philosophes du langage soutiennent que la pensée est influencée par les mots que nous utilisons ; Macaron met en œuvre cette idée en sélectionnant la langue en fonction du contexte et du ton émotionnel désiré.
L'identité translinguistique touche également au concept de personnalité numérique. Un utilisateur peut maintenir différentes personnalités dans les contextes japonais et coréen : formel et réservé au travail, décontracté et expressif dans les communautés de fans. Macaron respecte ces frontières en maintenant des clusters de mémoire séparés tout en permettant une pollinisation croisée délibérée. Au fil du temps, les utilisateurs peuvent choisir de fusionner des aspects de leurs identités, découvrant des fils communs entre leurs vies japonaises et coréennes. Macaron facilite ce processus en mettant en évidence des valeurs, des habitudes et des aspirations similaires trouvées dans les deux ensembles de souvenirs, aidant les utilisateurs à créer un récit personnel cohérent à travers les cultures.