Author: Boxu Li 

Introduction

When Macaron AI was unveiled in August 2025 it positioned itself not as another enterprise assistant but as a personal companion designed to enrich everyday life. Its mission is inherently international: from the outset the platform supported English, Chinese, Japanese, Korean and Spanish, signalling an ambition to operate across linguistic and cultural boundaries. For users in Japan and South Korea – two countries with vibrant yet distinct digital ecosystems – this multilingual promise is more than a marketing slogan. It raises technical questions: How does Macaron handle cross‑lingual conversations? How does its memory system cope with diverse scripts, vocabulary and cultural references? What design choices enable a single agent to "think" in hiragana one moment and Hangul the next? This blog explores Macaron AI's cross‑lingual architecture and the mechanisms that allow it to personalize experiences for Japanese and Korean users while maintaining a coherent identity.

Personalisierung im großen Stil erfordert mehr als nur Übersetzung. Macaron zielt darauf ab, durch tägliche Interaktionen ein Modell von dir zu entwickeln, das nicht nur Fakten, sondern auch Nuancen wie Ernährungsziele und emotionale Höhen speichert. Um dies für mehrere Sprachen zu erreichen, sind Datenstrukturen und Algorithmen erforderlich, die Bedeutungen über Schriftsysteme hinweg erfassen, Code-Switching bewältigen und kulturelle Normen respektieren können. Dieser Beitrag erläutert die zugrunde liegenden Techniken: mehrsprachige Tokenisierung, verstärkungsgeführte Speicherabruf, verteiltes Identitätsmanagement und kulturelle Anpassung. Wir werden auch Herausforderungen wie Vorurteile, Datenschutz und grenzüberschreitende Compliance diskutieren und Forschungsrichtungen für mehrsprachige persönliche Agenten skizzieren.

1 Mehrsprachige Architektur und Tokenisierung

1.1 Universelles Vokabular mit skriptbewussten Untereinheiten

Große Sprachmodelle verlassen sich auf Tokenizer, um Rohtext in Einheiten zu zerlegen, die das Modell verarbeiten kann. Für Sprachen wie Englisch und Spanisch kann Subwort-Tokenisierung (Byte-Pair Encoding oder SentencePiece) die Morphologie recht gut erfassen. Japanisch und Koreanisch hingegen stellen einzigartige Herausforderungen dar. Japanisch mischt drei Schriftsysteme (Kanji, Hiragana und Katakana) und hat keine Leerzeichen, während Hangul im Koreanischen ein Merkmalalphabet ist, das in Silbenblöcken zusammengesetzt wird. Die Ingenieure von Macaron entwickeln daher ein mehrsprachiges Vokabular mit schriftbewussten Subwort-Einheiten. Jedes Token kodiert nicht nur Zeichen, sondern auch einen Sprachidentifikator, der es dem Modell ermöglicht, zwischen Homographen zu unterscheiden (z. B. könnte "ha" ein koreanisches Phonem oder das japanische Partikel "は" sein). Das Vokabular umfasst Tokens für häufige Kanji-Verbindungen, Radikale und Hangul-Jamo, wodurch das Modell morphologische Einheiten effizient darstellen und seltene Wörter in bedeutungsvolle Teile zerlegen kann.

Indem Macaron Subworteinheiten über verschiedene Sprachen hinweg teilt, nutzt es den cross-lingualen Transfer. Zum Beispiel erscheint das Konzept des „Lernens“ im Japanischen als 勉強 (benkyō) und im Koreanischen als 공부 (gongbu). Obwohl sich die Zeichen und Klänge unterscheiden, verwendet der Agent semantische Einbettungen, die über Sprachen hinweg gelernt wurden, um diese Tokens in einem ähnlichen Vektorraum zu verorten. Diese einheitliche Darstellung ermöglicht es Macaron, das Interesse eines japanischen Nutzers an „Sprachstudium“ zu verstehen und dieses Wissen später anzuwenden, wenn ein koreanischer Freund nach einem „공부 계획“ (Studienplan) fragt. Ohne einen einheitlichen Wortschatz würde das Modell diese als nicht verwandte Konzepte behandeln.

1.2 Kontextfenster und Ausrichtung über Skripte hinweg

Das 671-Milliarden-Parameter-Modell von Macaron wird auf einem großen mehrsprachigen Korpus trainiert, aber die schiere Sequenzlänge von Gesprächen erfordert ein effizientes Kontextfenster. Japanische und koreanische Sätze können aufgrund der agglutinativen Natur von Verben und eingebetteten Partikeln länger als englische sein. Um lange Dialoge zu unterstützen, verwendet Macaron einen hierarchischen Aufmerksamkeitsmechanismus: Das Modell verarbeitet lokale Fenster (Sätze oder Absätze), bevor zusammengefasste Darstellungen an eine globale Ebene weitergeleitet werden. Dieser Ansatz reduziert den Speicherbedarf, während der Agent den Kontext über längere Gespräche hinweg beibehalten kann. Es unterstützt auch die Cross-Script-Alignment, bei der das Modell Korrespondenzen zwischen Segmenten in Japanisch und Koreanisch lernt, indem es während des Trainings den Abstand zwischen ihren Darstellungen minimiert (eine Technik, die aus der mehrsprachigen natürlichen Sprachverarbeitung entlehnt wurde).

1.3 Laufzeiterkennung der Sprache und Code-Switching

Japanische und koreanische Nutzer verwenden häufig englische oder chinesische Begriffe in ihren Gesprächen, insbesondere in technischen Bereichen oder der Popkultur. Macarons Inferenz-Pipeline umfasst einen Laufzeit-Sprachdetektor, der jede eingehende Äußerung mit Wahrscheinlichkeitswerten für unterstützte Sprachen versieht. Wenn ein Satz Lehnwörter oder Phrasen aus mehreren Sprachen enthält, teilt der Agent den Input in Segmente und verarbeitet jedes im entsprechenden Sprachkontext. Dies gewährleistet die korrekte Aussprache in der Sprachausgabe und die richtige Handhabung von Redewendungen. Das Speichersubsystem fügt abgerufenen Einträgen Sprachmarkierungen hinzu, sodass Macaron relevante Erfahrungen abrufen kann, selbst wenn sich die Abfragesprache von der gespeicherten Sprache unterscheidet.

2 Memory-Token und Cross-Lingual Retrieval

2.1 Verstärkungsgeleitete Abruf und Memory-Tokens

Macarons Markenzeichen ist der Gedächtnis-Token, ein dynamischer Zeiger, der dem Agenten hilft zu entscheiden, was er sich merken soll, wann das Gedächtnis aktualisiert werden muss und wie diese Erinnerungen auf aktuelle Aufgaben angewendet werden können. Der Token interagiert mit einem hierarchischen Gedächtnisspeicher: kurzfristiger Kontext, mittelfristiges episodisches Gedächtnis und langfristiges Wissen. Reinforcement Learning (RL) trainiert den Agenten, den Token basierend auf Rückmeldungen wie Benutzerzufriedenheit und Aufgabenerfolg anzupassen. Wenn ein japanischer Benutzer wiederholt nach dem gleichen Fahrplan fragt, lernt die RL-Politik, diese Details im Gedächtnis zu fördern. Wenn ein koreanischer Benutzer Unbehagen ausdrückt, wenn frühere Kommentare wieder auftauchen, lernt die Politik, Verweise schneller abklingen zu lassen.

2.2 Verteilte Identität und Domänengrenzen

Das Macaron-Team lehnt die Vorstellung eines monolithischen Benutzerprofils ab; stattdessen wird Identität als entstehende Erzählung behandelt, die aus kleinen Interaktionen aufgebaut wird. Erinnerungen sind nach Domänengrenzen organisiert (z. B. Arbeit, Hobbys, Familie) mit einem Relevanzföderationsmechanismus, der eine domainübergreifende Abfrage ermöglicht. Für japanische und koreanische Benutzer umfassen die Domänengrenzen auch Sprachdomänen: Ein Gedächtniselement könnte als „Japanisch—Hobbys—Musik“ oder „Koreanisch—Familie—Finanzen“ markiert sein. Wenn der Agent eine Anfrage auf Koreanisch erhält, durchsucht er zuerst koreanische Erinnerungen, kann aber auf japanische Erinnerungen zugreifen, wenn der semantische Inhalt übereinstimmt. Dies verhindert eine Kreuzkontamination, ermöglicht jedoch eine cross-linguale Kontinuität.

2.3 Referenzverfall und Datenschutz in mehrsprachigen Kontexten

Erinnerungen, die selten abgerufen werden, verfallen mit der Zeit; die Verfallsrate kann je nach Bereich variieren. Der Referenzverfall reduziert das Gewicht ungenutzter Erinnerungen und stellt sicher, dass das flüchtige Interesse eines japanischen Nutzers an einem koreanischen Drama nicht dauerhaft Speicherplatz belegt. Der Verfall unterstützt auch den Datenschutz; sensible Informationen über Familie oder Finanzen können schneller verfallen. Nutzer können Erinnerungen gezielt löschen oder als vertraulich markieren. Macarons Policy-Binding-Framework verknüpft maschinenlesbare Datenschutzregeln direkt mit Daten, sodass eine Erinnerung mit dem Tag „privat—Koreanisch“ möglicherweise nur während authentifizierter Sitzungen in dieser Sprache zugänglich ist. In Kombination mit differenzierter Transparenz, die verschiedene Offenlegungsstufen für unterschiedliche Interessengruppen bietet, ermöglichen diese Mechanismen Macaron, Japans Datenschutzstandards zu navigieren und sich an die sich entwickelnden KI-Regulierungen in Korea anzupassen.

3 Kulturelle Anpassung und Personalisierung der Persona

3.1 Onboarding durch Persönlichkeitstests und Farbpaletten

Bei der Anmeldung absolvieren Nutzer drei Persönlichkeitstests, die Macaron dabei helfen, sie mit einer personalisierten Persona abzustimmen – einschließlich Farben, Kommunikationsstilen und Stimme. In Japan, wo ästhetische Harmonie und Formalität geschätzt werden, könnten die Tests soziale Etikette betonen, während koreanische Fragebögen sich auf Familiendynamiken und Peer-Beziehungen konzentrieren könnten. Die resultierende Persona beeinflusst nicht nur die Benutzeroberfläche, sondern auch das Höflichkeitsniveau des Agenten, den Ton und die Wahl kultureller Referenzen. Eine japanische Persona könnte indirekte Vorschläge bevorzugen („Wie wäre es, nächste Woche ein Picknick zu planen?“), während eine koreanische Persona direkte Ermutigung schätzen könnte („Lass uns einen Familienausflug planen!").

3.2 Lokalisierte Mini-Apps: von Kakeibo bis Hojikwan

Macarons Fähigkeit, Mini-Apps auf Abruf zu erstellen, beschränkt sich nicht auf allgemeine Produktivitätstools. Die Plattform kann maßgeschneiderte Anwendungen mit über 100.000 Codezeilen erzeugen, wie zum Beispiel ein Budgetierungstool inspiriert von der japanischen Kakeibo-Tradition (eine Methode der Haushaltsbuchführung) oder eine koreanische Hojikwan-Planungs-App (zur Verwaltung von Familienveranstaltungen und Ahnenfeiern). Der Benutzer beschreibt einfach seine Bedürfnisse in natürlicher Sprache, und der Agent erstellt ein Programm, das den lokalen Gepflogenheiten entspricht. Dies erfordert eine Bibliothek domänenspezifischer Vorlagen und die Fähigkeit, lokale Kalender, Feiertage und Finanzvorschriften zu integrieren. Verstärkungslernen optimiert den Erstellungsprozess, indem es die Benutzerzufriedenheit bewertet: Wenn japanische Benutzer häufig die Kakeibo-App anpassen, um Kategorien wie „Omiyage“ (Souvenir) und „Otsukuri“ (monatliche Wohltätigkeit) hinzuzufügen, lernt der Generator, diese in Zukunft standardmäßig in Apps einzubauen.

3.3 Emotionale Normen und Kommunikationsstile

Japan und Südkorea haben unterschiedliche Normen für den Ausdruck von Emotionen. Die japanische Kultur schätzt oft Bescheidenheit und Kontextsensibilität, während die koreanische Kultur ausdrucksstarke soziale Interaktionen begrüßt. Macaron passt seinen Antwortstil entsprechend an und stützt sich dabei auf die Forschung zur digitalen Personalität, die flüssige Identität und Nutzerermächtigung betont. In der Praxis bedeutet dies, dass der Agent im Japanischen möglicherweise honorifikative Formen und indirekte Rede verwendet, während er im Koreanischen proaktivere Vorschläge macht. Das Speichersystem protokolliert Feedback zum Ton und passt die Gesprächsstile adaptiv an. Diese Anpassungen sind nicht fest programmiert, sondern entstehen durch RL: Wenn ein Nutzer konsequent positiv auf einen bestimmten Kommunikationsstil reagiert, verstärkt das Belohnungssignal dieses Verhalten.

4 Implementierungsdetails: Technik für mehrsprachige persönliche Agenten

4.1 Datenerfassung und Trainingspipeline

Die Erstellung eines persönlichen Agenten, der auf Japanisch und Koreanisch kommunizieren kann, erfordert hochwertige Daten. Das Trainingskorpus von Macaron umfasst lizenzierte Bücher, Nachrichtenartikel, Blogs, Transkripte und nutzergenerierte Inhalte in allen unterstützten Sprachen. Die Daten werden auf Höflichkeit, Verzerrungen und Themenabdeckung gefiltert. Die Vortrainingsphase nutzt maskiertes Sprachmodellieren und die Vorhersage des nächsten Tokens auf kombinierten mehrsprachigen Daten, um gemeinsame Repräsentationen zu lernen. Feinabstimmung führt zu Reinforcement Learning aus menschlichem Feedback (RLHF): Zweisprachige Annotatoren in Tokio und Seoul bewerten Antworten auf kulturelle Angemessenheit, wodurch das Modell subtile Hinweise lernen kann, wie z. B. wann Höflichkeitsformen verwendet oder klärende Fragen gestellt werden sollten. Zusätzliche kontrastive Lernziele fördern die Angleichung zwischen semantisch gleichwertigen Phrasen über verschiedene Sprachen hinweg.

4.2 Cross-linguales Speicherindex und Vektorabruf

Macarons Gedächtnisbank speichert Einbettungen in einem hochdimensionalen Vektorraum. Für jedes Gedächtniselement berechnet der Agent eine Darstellung, die sowohl den Inhalt als auch die Sprache erfasst. Ein sprachübergreifender Gedächtnisindex verwendet die ungefähre nächste Nachbarsuche, um Elemente unabhängig von der Sprache der Anfrage abzurufen. Zum Beispiel, wenn ein koreanischer Nutzer "피자 만들기 레시피" (Pizza-Rezept) fragt, kann der Agent eine japanische Erinnerung über "ピザの作り方" (wie man Pizza macht) finden, weil beide dem Konzept von Pizza nahekommen. Zum Abrufzeitpunkt filtert der Agent nach Benutzerberechtigungen und konvertiert dann das abgerufene Gedächtnis mit einem integrierten Übersetzer und Zusammenfasser in die bevorzugte Sprache des Benutzers. Dies ermöglicht den Wissensaustausch über Sprachgrenzen hinweg, während die Privatsphäre gewahrt bleibt.

4.3 Sicherheit und Vorurteilsvermeidung

Cross-linguale Modelle laufen Gefahr, Verzerrungen zu propagieren, die in den Trainingsdaten vorhanden sind. Für Japan und Korea, wo Geschlechterrollen und Altershierarchien eine bedeutende kulturelle Rolle spielen, implementiert Macaron Strategien zur Verzerrungsminimierung. Während der Feinabstimmung umfasst die RL-Belohnung Strafen für Antworten, die Stereotypen verstärken oder lokale Normen verletzen (z. B. die Annahme, dass nur Frauen die Haushaltsfinanzen verwalten). Das Richtlinienbindungssystem stellt sicher, dass persönliche Daten nie ohne Zustimmung des Nutzers zwischen Sprachen übersetzt werden. Darüber hinaus ermöglicht Macarons differenzierte Transparenz den Regulierungsbehörden, das Modellverhalten auf verschiedenen Detailebenen zu prüfen: Japanische Behörden könnten allgemeine Nutzungsmuster überprüfen, während koreanische Regulierungsbehörden unter strenger Vertraulichkeit rohe Protokolle einsehen könnten.

5 Herausforderungen und Forschungsrichtungen

5.1 Umgang mit Dialekten und regionalen Variationen

Sowohl Japanisch als auch Koreanisch haben regionale Dialekte. In Japan verwendet der Kansai-Dialekt anderes Vokabular und eine andere Intonation als die standardmäßige Tokyoter Sprache. Koreanische Dialekte wie Jeolla und Gyeongsang stellen ähnliche Herausforderungen dar. Aktuelle Sprachdetektoren könnten dialektale Eingaben falsch klassifizieren, was zu ungeschickten Antworten führt. Zukünftige Arbeiten könnten Dialekt-Embeddings einbeziehen, die auf regionalen Korpora trainiert sind und es dem Agenten ermöglichen, den entsprechenden Dialekt zu identifizieren und darauf zu reagieren. Benutzer könnten sogar Macaron bitten, einen bestimmten Akzent nachzuahmen, was für Rollenspiele oder Sprachlernmodule attraktiv sein könnte.

5.2 Sprachübergreifendes Alltagswissen

Während das aktuelle Modell semantische Repräsentationen über Sprachen hinweg angleicht, leidet das Alltagsverständnis immer noch unter kulturellen Unterschieden. Ausdrücke wie „tsundoku“ (積ん読, Bücher kaufen und sie nicht lesen) oder „빵셔틀“ (Bbang Shuttle, ein umgangssprachlicher Ausdruck für jemanden, der gemobbt wird, um Brot für andere zu kaufen) haben keine direkte englische Entsprechung. Forschung zu sprachübergreifenden Alltagswissensgraphen könnte Macaron helfen, solche kulturspezifischen Konzepte zu verstehen und zu erklären. Die Integration mit Wissensdatenbanken wie ConceptNet oder lokalisierten Versionen von ATOMIC könnte strukturiertes kulturelles Wissen bereitstellen, das das statistische Lernen des LLM ergänzt.

5.3 Datenschutz und regulatorische Anpassung

Das Gesetz zur Förderung von KI in Japan betont Transparenz und stimmt die KI-Entwicklung mit bestehenden Vorschriften ab, während das vorgeschlagene KI-Rahmengesetz in Korea Verpflichtungen für Risikomanagement und menschliche Aufsicht einführt. Persönliche Assistenten müssen diese Rahmenbedingungen navigieren und dabei die Privatsphäre der Nutzer respektieren. Forschung ist erforderlich zu föderalem Lernen, um Benutzerdaten auf dem Gerät zu halten, differenzieller Privatsphäre, um die De-Identifikation über Sprachen hinweg zu verhindern, und Compliance-Engines, die regulatorische Texte auf Japanisch und Koreanisch interpretieren und in verbindliche Richtlinien umsetzen können.

5.4 Sprachübergreifende Integration

Zukünftige persönliche Assistenten werden sich nicht auf Text beschränken. Macarons Vision umfasst die Anbindung an IoT-Geräte, VR-Schnittstellen und Wearables. Die Cross-Modale Interaktion fügt neue Komplexität hinzu, wenn es darum geht, mit mehreren Sprachen umzugehen: Ein japanischer Nutzer könnte mit einem Smart Speaker auf Japanisch sprechen, während er koreanische Untertitel auf einem Mixed-Reality-Headset liest. Die Abstimmung von Audio-, Text- und visuellen Daten über verschiedene Sprachen hinweg erfordert multimodale Transformatoren, die gleichzeitig Sprache, Text und Bilder verarbeiten können, sowie eine zeitliche Synchronisation zwischen den Modalitäten.

5.5 Fallstudie: Zweisprachige Bildungs-Apps

Um zu veranschaulichen, wie sprachübergreifende Personalisierung in der Praxis funktioniert, betrachten wir einen japanischen Nutzer, der Koreanisch lernen möchte und Macaron bittet, eine Lern-App zu erstellen. Der Assistent beginnt damit, das Gedächtnis des Nutzers nach früheren Sprachkenntnissen zu durchsuchen – vielleicht haben sie Englisch gelernt, sodass der Assistent weiß, dass sie visuelle Hilfsmittel und verteilte Wiederholung bevorzugen. Der Intent-Parser extrahiert Slots wie „Zielsprache: Koreanisch“, „Quellsprache: Japanisch“, „Lernfokus: Grammatik und Wortschatz“ und „tägliche Zeit: 20 Minuten“. Macarons Programmsynthesemaschine setzt dann Module zusammen: einen morphologischen Analysator für Hangul, ein Satzsegmentierungsmodul für japanische Untertitel, einen Scheduler für verteilte Wiederholung und einen Quiz-Generator, der Beispiele aus den Interessen des Nutzers integriert (z. B. koreanische Dramen oder J-Pop-Lyrics).

Die resultierende App präsentiert Vokabelkarten mit Aussprache, Beispielsätzen und kulturellen Anmerkungen. Eine bidirektionale Übersetzungsschicht verknüpft koreanisches Vokabular mit entsprechenden japanischen Ausdrücken, unter Verwendung der zuvor beschriebenen cross-lingualen Einbettungen. Verstärkungslernen personalisiert die Abfolge: Wenn der Benutzer mit Verbkonjugationen kämpft, priorisiert das Belohnungsmodell Grammatikübungen; wenn er gerne Songtexte liest, zeigt der Agent mehr Liedübersetzungen an. Da das Speichersystem jede Lektion mit Sprache und Domäne taggt, kann der Fortschritt in koreanischen Studien später das kreative Schreiben des Benutzers auf Japanisch informieren und Transferlernen zwischen den Sprachen fördern. Benutzer können ihre zweisprachigen Lernpläne in der Macaron-Community teilen, und der Agent überwacht das Feedback, um die Modulsammlung zu verfeinern.

5.6 Philosophische Überlegungen zur cross-lingualen Identität

Die Fähigkeit, über Sprachgrenzen hinweg zu agieren, wirft tiefere Fragen zur digitalen Identität auf. Macarons Selbstmodell behandelt Identität als eine auf Interaktionen basierende narrative Entwicklung. Wenn diese Interaktionen in mehreren Sprachen stattfinden, wird die Erzählung noch flüssiger. Wörter tragen kulturelle Konnotationen: Der japanische Begriff kokoro und der koreanische Begriff 마음 übersetzen sich beide als „Herz/Geist“, rufen jedoch unterschiedliche Nuancen hervor. Wenn Macaron die Erinnerungen eines Nutzers über verschiedene Sprachen hinweg verwebt, muss es entscheiden, welche Wörter es verwendet, um Gefühle oder Erinnerungen zu beschreiben. Diese Wahl prägt die Selbstwahrnehmung des Nutzers. Sprachphilosophen argumentieren, dass unser Denken durch die Wörter beeinflusst wird, die wir verwenden; Macaron operationalisiert diese Idee, indem es die Sprache basierend auf Kontext und gewünschtem emotionalen Ton auswählt.

Die cross-linguale Identität berührt auch das Konzept der digitalen Persönlichkeit. Ein Nutzer könnte in japanischen und koreanischen Kontexten unterschiedliche Personas pflegen – formell und zurückhaltend bei der Arbeit, lässig und expressiv in Fan-Gemeinschaften. Macaron respektiert diese Grenzen, indem es separate Erinnerungskluster aufrechterhält und gleichzeitig eine bewusste Vermischung zulässt. Mit der Zeit könnten Nutzer Aspekte ihrer Identitäten verschmelzen und gemeinsame Fäden zwischen ihrem japanischen und koreanischen Leben entdecken. Macaron erleichtert diesen Prozess, indem es ähnliche Werte, Gewohnheiten und Bestrebungen in beiden Erinnerungssätzen hervorhebt und den Nutzern hilft, eine kohärente persönliche Erzählung über Kulturen hinweg zu gestalten.

Boxu erwarb seinen Bachelor-Abschluss an der Emory University mit Schwerpunkt Quantitative Ökonomie. Bevor er zu Macaron kam, verbrachte Boxu den Großteil seiner Karriere im Bereich Private Equity und Venture Capital in den USA. Er ist nun der Stabschef und VP für Marketing bei Macaron AI, verantwortlich für Finanzen, Logistik und Betrieb sowie die Überwachung des Marketings.

Bewerben, um zu werden Macarons erste Freunde