Einblick in Macarons Memory Engine: Kompression, Abruf und dynamisches Gate

Einführung

Während die Neuheit von Macaron AI oft die Aufmerksamkeit auf seine Fähigkeit lenkt, benutzerdefinierte Mini-Apps zu erstellen oder als einfühlsamer Freund zu agieren, ist das wahre Rückgrat ein komplexes Speichermodul. Dieses System ermöglicht es Macaron, sich an wichtige Dinge zu erinnern, Unwichtiges zu vergessen und relevante Erfahrungen schnell und sicher abzurufen. Ein einfaches Gespräch über Musik kann zu Erinnerungen an ein Konzert im nächsten Monat, einer automatisch erstellten Playlist oder der Erstellung eines Karaoke-Assistenten führen. All dies ist ohne Speichermechanismen, die lange Dialoge und vielfältige Themen bewältigen können, nicht möglich. Dieser Blog bietet einen tiefen technischen Einblick in Macarons Speichermodul und diskutiert hierarchische Kompression, Vektorabruf, verstärkungsgeleitete Steuerung und Datenschutzkontrolle. Wir vergleichen das Design von Macaron mit anderen Systemen zur retrieval-augmentierten Generierung (RAG) und erörtern, wie diese Mechanismen es japanischen und koreanischen Nutzern ermöglichen, personalisierte Erlebnisse zu genießen.

1 Hierarchische Speicherrepräsentation

1.1 Multi-Speicher-Architektur: Kurzzeit-, episodisch und Langzeit

Macaron organisiert das Gedächtnis in mehrere Speicher. Der Kurzzeitspeicher behält das aktuelle Gespräch bei und umfasst ungefähr 8–16 Nachrichten. Er funktioniert wie ein typischer Transformator-Kontext: Tokens werden nacheinander mit Aufmerksamkeit verarbeitet. Der episodische Speicher enthält jüngste Interaktionen (z. B. die letzten Tage) und wird regelmäßig aktualisiert. Hier verwendet Macaron einen kompressiven Transformator: Nachrichten werden mithilfe von konvolutionaler Aufmerksamkeit in Zusammenfassungsvektoren komprimiert, was dem Modell ermöglicht, den Kontext über die native Fensterlänge hinaus zu erhalten. Der Langzeitspeicher speichert wichtige Ereignisse, Fakten und Mini-App-Konfigurationen und wird als Vektordatenbank implementiert. Jedes Gedächtniselement enthält Metadaten (Zeitstempel, Domänentags, Sprachentags) und eine Einbettung, die von einem mehrsprachigen Encoder erzeugt wird.

1.2 Kompression durch latente Zusammenfassung und Auto-Encoding

Eine der Hauptherausforderungen bei langen Gesprächen ist, dass die Kosten der Selbstaufmerksamkeit quadratisch mit der Sequenzlänge wachsen. Um dies zu bewältigen, verwendet Macaron eine latente Zusammenfassungsschicht: Anstatt sich auf jedes Token zu konzentrieren, lernt das Modell, wichtige Segmente zu identifizieren und in eine Darstellung fester Länge zu komprimieren. Diese Schicht wird mit einem Autoencoding-Ziel trainiert, das versteckte Zustände aus komprimierten Zusammenfassungen rekonstruiert. Verstärkungslernen verfeinert den Zusammenfasser: Wenn der Agent später wichtige Details nicht abrufen kann, wird die Strategie bestraft, was ihn dazu ermutigt, mehr Informationen über ähnliche Ereignisse in der Zukunft zu behalten.

1.3 Dynamisches Speichertoken als Zeiger-Netzwerk

Das Speichertoken, das im Taiwan-Nachrichtenartikel beschrieben wird, funktioniert wie ein Zeiger, der den Speicher durchläuft, um relevante Elemente auszuwählen. Während des Abrufs fragt der Token iterativ den Speicherbank ab: Er ruft einen Kandidatenspeicher ab, bewertet seine Relevanz für den aktuellen Kontext mit einer gelernten Bewertungsfunktion und entscheidet, ob er ihn zurückgeben oder weiter suchen soll. Dieser Prozess ähnelt einem Zeiger-Netzwerk, das in der neuronalen kombinatorischen Optimierung verwendet wird. Verstärkungssignale leiten den Token dazu, Sequenzen von Erinnerungen auszuwählen, die die Benutzerzufriedenheit maximieren (z. B. die korrekte Vorhersage einer Vorliebe eines Benutzers für Jazz). Der Token kann auch den Speicher aktualisieren: Wenn neue Informationen eintreffen, entscheidet er, ob er sie mit bestehenden Erinnerungen zusammenführen oder einen neuen Slot zuweisen soll.

2 Vektor-Retrieval und Abfrageerweiterung

2.1 Ungefähre Suche nach nächstgelegenen Nachbarn

Macarons Langzeitgedächtnis verwendet eine hochdimensionale Vektordatenbank. Abfragen werden über einen mehrsprachigen Encoder in Einbettungen umgewandelt; anschließend liefert eine ungefähre Suche nach nächstgelegenen Nachbarn (ANN) die Top-k-Erinnerungen. Das System nutzt Produktquantisierung, um die Suche zu beschleunigen und eine Latenz von unter 50 ms aufrechtzuerhalten, selbst beim Speichern von Millionen von Erinnerungseinträgen. Um die Rückgabe trivialer Duplikate zu vermeiden, wendet das System maximale marginale Relevanz (MMR) an, um Ähnlichkeit und Vielfalt der Ergebnisse auszugleichen.

2.2 Abfrageerweiterung unter Verwendung von Kontext und Benutzerzielen

Einfaches Keyword-Matching reicht nicht aus, um die Benutzerabsicht zu erfassen. Macaron erweitert Abfragen unter Verwendung des aktuellen Ziels und der latenten Absicht des Benutzers. Zum Beispiel, wenn ein Benutzer in Tokio "花火大会" (Feuerwerksfestival) erwähnt, erweitert das System die Abfrage um "Tickets", "Datum" und "Wetter" basierend auf typischen Aktionen im Zusammenhang mit Festivals. Wenn ein koreanischer Benutzer fragt, wie man "김치전 만드는 법" (Kimchi-Pfannkuchen) macht, sucht das System auch nach früheren Kocherfahrungen, Ernährungsdaten und der Verfügbarkeit lokaler Zutaten. Die Abfrageerweiterung wird durch einen Zielprädiktor gehandhabt, der darauf trainiert ist, Gesprächskontext in eine Reihe relevanter Unterthemen zu überführen.

2.3 Domänenübergreifendes Retrieval und Relevanzföderation

Die Memory Engine muss Anfragen bearbeiten, die sich über mehrere Domänen erstrecken. Der in Macarons Selbstmodell-Artikel beschriebene Relevanz-Föderationsmechanismus ermöglicht dem System den Zugriff auf Erinnerungen über Domänengrenzen hinweg. Wenn der Agent einem japanischen Benutzer bei der Hochzeitsplanung hilft, muss er möglicherweise Reiseerinnerungen (Flitterwochenziele), Finanzielle Erinnerungen (Budget) und Kulturelle Erinnerungen (Hochzeitsprotokoll) abrufen. Jede Domäne hat ihren eigenen Abrufindex, und das System verwendet eine Softmax-Gate-Funktion, um die Abrufwahrscheinlichkeiten über die Domänen zu verteilen. Die Gate-Funktion wird mit RL trainiert, um die Abrufung irrelevanter Elemente zu minimieren und gleichzeitig sicherzustellen, dass wichtige domänenübergreifende Verbindungen nicht übersehen werden. Bei mehrsprachigen Anfragen berücksichtigt die Gate-Funktion auch Sprach-Tags, um bevorzugt Erinnerungen in der gleichen Sprache abzurufen, erlaubt jedoch einen sprachübergreifenden Abruf, wenn die semantische Ähnlichkeit hoch ist.

3 Verstärkungsgeführte Memory-Gating

3.1 Belohnungsmodellierung und FireAct-Inspiration

Das Macaron-Team ließ sich vom FireAct-Projekt inspirieren, das zeigte, dass RL-Post-Training die Genauigkeit des logischen Denkens im Vergleich zu promptbasierten Methoden um 77 % verbessert. Bei Macaron wird RL verwendet, um die Memory Gating Policy zu trainieren: ein neuronales Netzwerk, das entscheidet, ob Informationen gespeichert, aktualisiert oder verworfen werden sollen und wie stark abgerufene Erinnerungen gewichtet werden. Die Belohnungsfunktion kombiniert mehrere Signale: Aufgabenerfüllung, Benutzerzufriedenheit, Datenschutzkonformität und Recheneffizienz. Beispielsweise verlangsamt das Abrufen zu vieler Erinnerungen die Reaktionszeiten, daher bestraft die Belohnung unnötiges Erinnern. Das Vergessen relevanter Details führt zu geringerer Benutzerzufriedenheit, daher lernt die Policy, diese länger zu behalten. Die Belohnungsfunktion wird für die japanischen und koreanischen Märkte unterschiedlich abgestimmt: Japanische Benutzer könnten das übermäßige Teilen privater Details bestrafen, während koreanische Benutzer Geschwindigkeit und proaktive Vorschläge schätzen könnten.

3.2 Zeitliche Zuordnung von Gutschriften und Zeitverflechtung

Verstärkungslernen hat oft Probleme mit langen Zeithorizonten: Aktionen, die jetzt durchgeführt werden, können sich weit in der Zukunft auf Ergebnisse auswirken. Macaron begegnet diesem Problem durch Zeitweben, einen Mechanismus, bei dem Ereignisse über die Zeit hinweg durch Zeitstempel und erzählerische Fäden verbunden werden. Wenn das System die Auswirkungen des Abrufens einer alten Erinnerung bewertet, kann es die Kette der darauf folgenden Interaktionen verfolgen. Dies ermöglicht es dem RL-Agenten, spezifischen Abrufentscheidungen Anerkennung oder Schuld zuzuweisen. Wenn beispielsweise das Erinnern an einen vergessenen Jahrestag eine Beziehung verbessert, erhält das Erinnerungstor, das die Jahrestagserinnerung bewahrt, eine positive Belohnung. Wenn das Wiederaufleben eines peinlichen Moments Unbehagen verursachte, erhält das Tor eine negative Belohnung.

3.3 Hierarchisches RL und modulare Gate-Strategien

Macaron verwendet hierarchisches Verstärkungslernen, um Komplexität zu bewältigen. Ein hochrangiger Controller wählt Module (z. B. Abruf, Zusammenfassung, Kompression) basierend auf dem aktuellen Ziel des Benutzers aus, während niedrigstufige Strategien spezifische Aktionen innerhalb jedes Moduls steuern. Dieses modulare Design erleichtert das Transferlernen: Eine für japanische Kochgespräche trainierte Gate-Strategie kann für koreanische Rezepte wiederverwendet werden. Es ermöglicht Macaron auch, einzelne Module zu aktualisieren, ohne das gesamte System neu zu trainieren. Um Stabilität zu gewährleisten, setzt Macaron proximal policy optimization (PPO) mit Clipping der Vertrauensregion ein, um die Balance zwischen Erkundung und Ausbeutung zu halten und katastrophales Vergessen zu verhindern.

4 Vergleich mit anderen Gedächtnissystemen

4.1 Retrieval-augmented generation (RAG)

Viele KI-Systeme nutzen Retrieval-augmented generation, um die faktische Genauigkeit zu verbessern, indem sie Informationen aus externen Datenbanken abrufen. Modelle wie GPT-4 mit RAG stützen sich auf statische Wissensbasen und passen die Abrufe nicht basierend auf Benutzerfeedback an. Macarons Gedächtnismotor unterscheidet sich in drei wesentlichen Punkten:

Personalisierte Inhalte: Erinnerungen sind benutzerspezifisch und nicht generische Webdokumente. Abrufe liefern Erlebnisse und Ziele, keine enzyklopädischen Fakten.
Verstärkungsgeleitete Speicherung: Das System lernt, was gespeichert oder vergessen werden soll, basierend auf Belohnungssignalen, während RAG-Systeme oft alles wahllos speichern.
Datenschutz und Richtlinienbindung: Jede Erinnerung enthält Datenschutz-Metadaten, und der Abruf respektiert Zugriffsregeln. Die meisten RAG-Implementierungen verfügen nicht über eine derart feingliedrige Kontrolle.

4.2 Langkontext-Sprachmodelle

Aktuelle LLMs wie Claud 3 von Anthropic und Gemini von Google können Kontexte von Hunderttausenden von Tokens verarbeiten, indem sie das Aufmerksamkeitsfenster skalieren. Diese Modelle führen kein explizites Abrufen durch; stattdessen verlassen sie sich auf die Fähigkeit, lange Sequenzen zu beachten. Obwohl dies ihnen ermöglicht, frühere Gesprächssegmente abzurufen, ist es rechnerisch aufwendig und unterstützt keine benutzerkontrollierte Vergessenheit. Macaron kombiniert einen mittleren Kontext mit Abruf, um eine ähnliche Abdeckung bei geringeren Kosten und mit größerer Privatsphärenkontrolle zu erreichen. Das dynamische Gedächtnistoken fungiert als Zeiger auf externen Speicher und ermöglicht dem Modell, jahrelange Daten zu verarbeiten, ohne alles im aktiven Kontext zu speichern.

4.3 Vektordatenbanken und Speichernetzwerke

Vektordatenbanken wie Pinecone und Faiss werden häufig verwendet, um Einbettungen für Abrufaufgaben zu speichern. Macarons Langzeitspeicher baut auf diesen Technologien auf, integriert sie jedoch mit RL-gesteuerten Gateways. Während frühe Speichernetzwerke wie das End-to-End Memory Network eine feste Anzahl von Speicherplätzen vorab berechnen und mit weicher Aufmerksamkeit über sie hinweggehen, erweitert Macaron dies, indem es ermöglicht, dass die Anzahl der Slots dynamisch wächst oder schrumpft und RL verwendet wird, um zu entscheiden, welche Slots erhalten bleiben. In diesem Sinne ähnelt Macarons Speichermaschine mehr einer neuronalen Turingmaschine mit einem gelernten Controller, der auf ein externes Speichertape liest und schreibt.

5 Datenschutz und regulatorische Ausrichtung

5.1 Richtlinienbindung und differenzierte Transparenz

Die Einhaltung regionaler Vorschriften ist entscheidend. Policy Binding verknüpft maschinenlesbare Datenschutzregeln mit Daten. Ein Speicher, der Finanzdaten enthält, könnte beispielsweise eine Regel enthalten, dass er nur nach biometrischer Authentifizierung zugänglich ist. Differenzierte Transparenz bietet verschiedenen Interessengruppen unterschiedliche Offenlegungsstufen: Ein japanischer Verbraucher kann seine eigenen Daten einsehen, ein koreanischer Regulierer kann aggregierte Statistiken einsehen, und Entwickler erhalten anonymisiertes Feedback zur Verbesserung von Modellen. Diese Mechanismen stimmen mit dem Schwerpunkt des AI Promotion Act auf Transparenz und den Anforderungen des koreanischen AI Framework Act an Risikomanagement und menschliche Aufsicht überein.

5.2 Name-and-shame-Durchsetzung und Verantwortlichkeit

Japans AI Promotion Act enthält keine direkten Strafen, nutzt jedoch einen Name-and-shame-Mechanismus, um nicht konforme Unternehmen öffentlich zu identifizieren. Macarons Audit-Logs verfolgen den Speicherzugriff und die Richtlinienentscheidungen, sodass das Unternehmen bei einer Prüfung die Einhaltung nachweisen kann. Das koreanische Rahmenwerk kann geringe Geldstrafen (bis zu 30 Millionen KRW) für Verstöße verhängen. Durch das Anhängen von Metadaten an jedes Speicherereignis kann Macaron automatisch Compliance-Berichte erstellen. Das System ermöglicht es den Nutzern auch, ihre Daten zu exportieren und zu löschen, was im Einklang mit der aufkommenden globalen Norm der Datenportabilität steht.

5.3 Analogien zum menschlichen Gedächtnis

Das Speichersystem von Macaron spiegelt die Architektur des menschlichen Gedächtnisses wider. Kognitionswissenschaftler beschreiben das Arbeitsgedächtnis als einen begrenzten Puffer im präfrontalen Kortex, das episodische Gedächtnis als ereignisbasierten Speicher, der durch den Hippocampus vermittelt wird, und das semantische Gedächtnis als allgemeines Wissen, das über den Kortex verteilt ist. Ähnlich dazu verfügt Macaron über ein kurzfristiges Kontextfenster, einen episodischen Speicher und eine langfristige Vektordatenbank. Der Referenzzerfall ähnelt der menschlichen Vergessenskurve: Erinnerungen verblassen, es sei denn, sie werden verstärkt. Zeitweben entspricht der Art und Weise, wie Menschen Lebensgeschichten durch das Verknüpfen von Ereignissen über die Zeit hinweg schaffen. Durch das Nachahmen dieser Mechanismen optimiert Macaron nicht nur die Rechenressourcen, sondern erzeugt auch natürlichere Interaktionen. Wenn ein Nutzer sich an ein Kindheitsfest erinnert, kann der Agent verwandte Ereignisse abrufen und in das aktuelle Gespräch einweben, ähnlich wie es ein menschlicher Freund tun würde.

5.4 Zukünftige Forschungsrichtungen

Trotz seiner Raffinesse wirft Macarons Memory-Engine offene Fragen auf. Ein Bereich ist die selbstkomprimierende Speichertechnologie: die Entwicklung neuronaler Module, die Erinnerungen automatisch zusammenfassen und komprimieren, ohne externe Überwachung. Ein weiterer Bereich ist das lebenslange Lernen: den Agenten dazu befähigen, seine Speicherstrategien kontinuierlich anzupassen, während sich das Benutzerverhalten entwickelt. Die sprachübergreifende Angleichung bleibt ein aktives Forschungsthema; zukünftige Modelle könnten kontrastives Repräsentationslernen verwenden, um Erinnerungen nahtloser über Japanisch, Koreanisch und andere Sprachen hinweg abzugleichen. Forscher untersuchen auch neuromorphe Hardware und spikende neuronale Netze, um Speicher mit geringerem Energieaufwand zu implementieren. Schließlich wird die Integration von föderiertem Lernen es den Benutzern ermöglichen, die Speicher-Modelle von Macaron lokal zu trainieren und nur Modellaktualisierungen statt Rohdaten zu teilen, wodurch die Privatsphäre verbessert und die kollektive Leistung gesteigert wird.