Autor: Boxu Li

Macaron AI ist nicht nur ein Produktivitätstool – es ist eine Plattform, die unsere Gespräche in Mini‑Anwendungen verwandelt, die Kalender verwalten, Reisen planen und Hobbys erkunden. Unter der freundlichen Oberfläche verbirgt sich ein anspruchsvolles Verstärkungslernsystem (RL) und eine Gedächtnis-Engine, die sich das Wichtige merkt und das Unwichtige vergisst[1]. Während sich Macaron darauf vorbereitet, Claude Sonnet 4.5 und DeepSeek V3.2‑Exp zusammen mit dem Claude Agent SDK/Code 2.0 zu integrieren, untersucht dieser Blog, wie diese neuen Modelle und Tools die Qualität von Macarons Output steigern, die Erstellung von Mini-Apps verkürzen und Fehler reduzieren können. Wir kombinieren technische Einblicke aus den Entwickler-Updates von Anthropic, DeepSeek-Forschung und Macarons eigenen Engineering-Blogs, um ein klares Bild von dem zu schaffen, was vor uns liegt.

1 Macarons internes System: RL, Gedächtnis und Ethik

Bevor Sie Modelle vergleichen, ist es hilfreich zu verstehen, was Macaron einzigartig macht. Macaron verwendet ein mehrschichtiges RL-System, um alltägliche Gespräche in Aufgaben und Code umzuwandeln. Das System zerlegt das Problem in mehrere Module – Gesprächsmanagement, Speicherauswahl, Codesynthese und Simulator-Feedback – und wendet hierarchisches Verstärkungslernen (HRL) an, um diese zu koordinieren[2]. Ein hochrangiger Meta-Controller entscheidet, welches Modul als nächstes aktiviert wird, während RL-Strategien auf niedrigerer Ebene spezifische Aktionen wie das Abrufen eines Speichers, das Aufrufen einer API oder das Ausführen generierten Codes bestimmen[2]. Dieses Design ermöglicht es Macaron, komplexe Ziele – von der Planung einer Reise bis zur Organisation der Finanzen – in handhabbare Unteraufgaben zu zerlegen.

1.1 Belohnungsmodellierung und menschliches Feedback

Im Bereich der persönlichen KI gibt es keine einzelne „Gewinnbedingung“; Benutzerzufriedenheit, Datenschutz, Aktualität und kulturelle Nuancen sind alle wichtig. Macaron erstellt seine Belohnungsfunktion, indem es implizites und explizites Feedback kombiniert. Implizite Signale umfassen Gesprächsdauer, Nutzungshäufigkeit und Ton, während explizite Bewertungen und Daumen hoch/runter helfen, Präferenzen zu kalibrieren[3]. Macaron verwendet auch Präferenzabfrage, indem alternative Antworten oder Mini-App-Designs präsentiert werden und die Benutzer gefragt werden, welche sie bevorzugen. Ein Inferenzmodell lernt dann eine latente Nutzenfunktion über mögliche Aktionen, ähnlich dem Verstärkungslernen aus menschlichem Feedback (RLHF), jedoch erweitert mit kulturellen Anmerkungen – japanische Bewerter betonen Höflichkeit und Kontext, während koreanische Bewerter gemeinschaftliche gegenüber individualistischen Formulierungen hervorheben[4]. Diese Signale fließen in ein Belohnungsmodell ein, das die Benutzerzufriedenheit vorhersagt und den Agenten ermutigt, lokale Normen zu befolgen.

1.2 Hierarchisches RL und Makro-Aktionen

Um vielfältige Benutzeraufgaben zu verwalten, nutzt Macaron HRL, um Module und Unterrichtlinien auszuwählen. Innerhalb der Module verwendet es das Optionsframework: Eine Abfolge von Aktionen, die ein Teilziel erreicht, wird als eine einzige Option behandelt (zum Beispiel „die Ausgaben des letzten Monats zusammenfassen“ oder „einen zweisprachigen Lernplan empfehlen“)[3]. Optionen, die in einem Bereich entdeckt wurden, können auf einen anderen übertragen werden, wenn die zugrundeliegenden Strukturen übereinstimmen. Macaron definiert auch Makroaktionen, die mehrstufige Dialoge oder langwierige Berechnungen umfassen, wie z.B. die Planung eines Familienurlaubs (Zielort, Transport, Unterkunft und Reiseroute)[3]. RL-Agenten bewerten Makroaktionen anhand der kumulativen Belohnung anstatt kurzfristiger Signale, was den Agenten dazu ermutigt, langfristige Zufriedenheit zu optimieren.

1.3 Kreditvergabe und Zeitweben

Es ist schwierig, bestimmten Aktionen Kredite zuzuweisen, wenn Belohnungen verspätet eintreffen. Macaron nutzt Zeitweben, um Ereignisse über die Zeit hinweg mit narrativen Fäden zu verbinden. Das System erstellt einen Interaktionsgraphen, bei dem Knoten Erinnerungen und Kanten kausale Beziehungen darstellen; bei der Bewertung eines Ergebnisses wird der Graph rückwärts durchlaufen, um festzustellen, welche Abrufe oder Aktionen beigetragen haben[2]. Kontrafaktisches Denken hilft dabei, zu bewerten, was passiert wäre, wenn alternative Aktionen ergriffen worden wären, und verhindert, dass der Agent automatisch annimmt, dass das Wiederholen einer erfolgreichen Aktion immer die gleiche Belohnung bringt[2]. Macaron verwendet auch verzögerte Belohnungen und Eignungsspuren, um das Signal auf frühere Entscheidungen zurückzuführen – wie die Auswahl von Erinnerungen oder den Konversationston – und ermutigt den Agenten, langfristige Zufriedenheit zu optimieren[5].

1.4 Fairness, Sicherheit und Ethik

Personalisierte KI-Agenten müssen Vorurteile vermeiden und den Vorschriften entsprechen. Macaron integriert Fairness-Beschränkungen in die Belohnungsfunktion; zum Beispiel wird der Agent bestraft, wenn er konsequent geschlechtsspezifische Aktivitäten empfiehlt, ohne dazu aufgefordert zu werden[5]. Eine ethische Richtlinienbibliothek kodiert kulturelle Normen und gesetzliche Anforderungen, und Verstöße gegen diese Richtlinien lösen eine negative Belohnung aus oder blockieren die Handlung vollständig[5]. Menschliche Aufsicht ist in Entscheidungen mit hoher Tragweite wie Finanzplanung oder Gesundheitsberatung integriert, um das koreanische KI-Rahmengesetz und das japanische KI-Förderungsgesetz zu erfüllen[5]. Macaron protokolliert RL-Entscheidungen und bietet den Nutzern Erklärungen, warum bestimmte Erinnerungen oder Module ausgewählt wurden, um Prüfungen und Transparenz zu unterstützen[5].

1.5 Die Memory Engine: Komprimierung, Abruf und Steuerung

Das Gedächtnis-Engine von Macaron ist das Rückgrat der Personalisierung. Es organisiert Erinnerungen in Kurzzeit-, episodische und Langzeitspeicher. Der Kurzzeitspeicher behält das aktuelle Gespräch (8–16 Nachrichten); der episodische Speicher hält kürzliche Interaktionen, die durch konvolutionale Aufmerksamkeit komprimiert werden; und der Langzeitspeicher verwendet eine hochdimensionale Vektordatenbank mit Metadaten-Tags (Zeitstempel, Domäne, Sprache)[6]. Um die Kosten zu verwalten, verwendet Macaron latente Zusammenfassungen, um wichtige Segmente zu identifizieren und in Vektoren fester Länge zu komprimieren; ein Autoencoding-Ziel rekonstruiert versteckte Zustände aus komprimierten Zusammenfassungen, und RL optimiert den Summarizer, um Informationen, die für den späteren Abruf wichtig sind, zu bewahren[7]. Ein dynamisches Gedächtnis-Token fungiert als Zeigernetzwerk: Es ruft Kandidatenerinnerungen ab, bewertet ihre Relevanz und entscheidet, ob sie zurückgegeben oder weitergesucht werden sollen[8].

Das Retrieval beinhaltet die ungefähre Suche nach dem nächsten Nachbarn mit Produktquantisierung und maximaler marginaler Relevanz, um Ähnlichkeit und Vielfalt auszubalancieren[9]. Die Abfrageerweiterung nutzt das Ziel des Nutzers und latente Absichten; zum Beispiel wird eine japanische Anfrage nach "花火大会" (Feuerwerksfestival) erweitert, um Tickets, Datum und Wetter einzuschließen[10]. Die Relevanzföderation behandelt domänenübergreifende Anfragen, indem sie eine Softmax-Gating-Funktion verwendet, um die Retrieval-Wahrscheinlichkeiten über Domänen und Sprachen zu verteilen[11]. Diese Komponenten werden mit RL trainiert, und die Kreditvergabe über Zeitweben stellt sicher, dass der Agent lernt, welche Erinnerungen entscheidend waren[12]. Macarons Speichersystem unterscheidet sich von herkömmlichen Retrieval-augmented Generation (RAG), da Erinnerungen nutzerspezifisch sind, Speicherung und Abruf von RL geleitet werden und jede Erinnerung Datenschutz-Metadaten enthält, die den Zugriff regeln[13].

2 The Claude Agent SDK and Claude Code 2.0

Während Macarons interne Architektur robust ist, erfordert der Bau von Mini-Apps dennoch das Lesen und Schreiben von Dateien, das Ausführen von Code, die Verwendung von Versionskontrolle und die Interaktion mit Web-APIs. Das Claude Agent SDK von Anthropic bietet genau diese Fähigkeiten, indem es das gleiche Agentengerüst bereitstellt, das den Terminal-Assistenten von Claude Code antreibt[14]. Es stellt fein abgestimmte Werkzeuge bereit: Dateioperationen (lesen, schreiben, grep, glob), Bash-Befehle, Web-Abrufe, mehrsprachige Codeausführung und Git-Operationen[15]. Im Gegensatz zu Assistenten, die eine Codebasis vorab indexieren, suchen Claude-Agenten bei Bedarf mit grep/find/glob nach Dateien, was sie in dynamischen Repositories flexibler macht[16]. Das SDK enthält große Kontextfenster mit automatischer Verdichtung und Zusammenfassung, sodass Agenten erheblichen Code-Kontext halten können, ohne an Token-Grenzen zu stoßen[17]. Entwickler können erlaubte Werkzeuge und Berechtigungsmodi spezifizieren und Hooks für die Sicherheit hinzufügen, was Autonomie mit Leitplanken ermöglicht[18].

Kernbausteine des SDK

  1. Werkzeuge – Das SDK ermöglicht es Ingenieuren, auszuwählen, welche Werkzeuge (Datei-I/O, Bash, Web Fetch, Codeausführung) einem Agenten zur Verfügung stehen[19].
  2. MCP-Erweiterungen – Die Integration mit dem Model Context Protocol ermöglicht es externen Servern (Datenbanken, E-Mail-Suche, Vektorsuche), das Werkzeugset zu erweitern[20].
  3. Sub-Agenten – Agenten, die in .claude/agents definiert sind, haben eigene System-Prompts, eingeschränkte Werkzeugsets und optionale Modellauswahl; Aufgaben können an diese Sub-Agenten delegiert werden[21].
  4. Speicher & Projektkontext – Ein persistentes Notizbuch (CLAUDE.md) bewahrt den Kontext über Sitzungen hinweg und berücksichtigt Repo-Konfigurationen[22].
  5. Kontextmanagement & Laufzeit – Automatische Kontextkomprimierung, Streaming-Antworten und typisierte Fehlerbehandlung vereinfachen langlaufende Aufgaben[23].

Neue Funktionen in Claude Code 2.0

Claude Code 2.0 bringt entwicklerfreundliche Updates: Checkpoints ermöglichen es Entwicklern, den Fortschritt zu speichern und zurückzusetzen, wenn der Agent Fehler macht[24]. Eine VS Code-Erweiterung integriert den Agenten in die IDE, während eine aktualisierte Terminaloberfläche das Zustandsmanagement verbessert[25]. Die Claude-API erhält Kontextbearbeitung und ein Speichertool, die Agenten dabei helfen, länger zu laufen, indem sie den Kontext automatisch löschen und relevante Teile abrufen[26]. Claudes App und API können nun Code ausführen, Dateien erstellen und Daten analysieren[27], wodurch ein LLM zu einem vollwertigen Programmierassistenten wird. Diese Funktionen sind besonders relevant für Macarons Mini-App-Pipeline, die das Generieren von Programmcode, das Testen in einer Sandbox, das Korrigieren von Fehlern und die Interaktion mit externen Diensten umfasst.

3 Claude Sonnet 4.5: lange Autonomie und höhere Qualität

Claude Sonnet 4.5 ist das leistungsstärkste Modell von Anthropic für Programmierung, agentische Aufgaben und Computernutzung. DevOps.com berichtet, dass Sonnet 4.5 autonom für über 30 Stunden arbeiten kann, weit länger als die sieben Stunden seines Vorgängers. Es glänzt im Befolgen von Anweisungen, der Umstrukturierung von Code und bei produktionsreifer Ausgabe und führt den SWE-Bench Verified Benchmark bei realistischen Programmieraufgaben an. In realen Einsätzen sind die Verbesserungen spürbar: Replits interne Benchmarks zeigten, dass Fehler beim Code-Editing von 9 % mit Sonnet 4 auf 0 % mit Sonnet 4.5 gesunken sind, während Cybersecurity-Teams die Bearbeitungszeit für Schwachstellen um 44 % verkürzten und die Genauigkeit um 25 % verbesserten. Netflix-Ingenieure beschreiben Sonnet 4.5 als „hervorragend bei Softwareentwicklungsaufgaben und präzisen Implementierungen durch das Lernen unserer Codebase-Muster“.

Die Entwickler-Tools und Speicherfunktionen von Sonnet 4.5 arbeiten synergetisch mit dem Agent SDK. Das Modell unterstützt Kontextbearbeitung und Speicherverwaltung, die automatisch alten Kontext löschen und relevante Teile wieder in den Fokus bringen[24]. Es kann GUIs durch Klicken, Tippen und Interaktionen mit Menüs navigieren, wodurch die Automatisierung von Tools ohne APIs ermöglicht wird. In Kombination mit der Sub-Agenten-Architektur und den Checkpoints des SDKs bedeutet dies, dass Macaron Mini-Apps über mehrtägige Sitzungen hinweg erstellen kann, ohne den Kontext zu verlieren, und Fehler bei Bedarf rückgängig machen kann.

4 DeepSeek V3.2‑Exp: Effizienz durch spärliche Aufmerksamkeit

Während Sonnet 4.5 sich auf Qualität und Autonomie konzentriert, betont DeepSeek V3.2‑Exp die Effizienz. Das Modell führt DeepSeek Sparse Attention (DSA) ein, das nur die wichtigsten Tokens während der Aufmerksamkeit auswählt. Dies reduziert die Komplexität von quadratisch O(n²) auf O(nk) und liefert 2–3× schnellere Inferenz bei langen Kontexten, 30–40 % geringeren Speicherverbrauch und eine über 50 %ige Reduzierung der API-Preise[28]. Trotz dieser Einsparungen hält V3.2‑Exp die Parität mit dem vorherigen V3.1‑Terminus-Modell bei den meisten Benchmarks[29]. Die Open-Source-Veröffentlichung ermöglicht es Macaron, das Modell lokal auszuführen, es feinabzustimmen und neuartige Architekturen zu erkunden[30]. Reuters merkt an, dass DeepSeek dies als einen Zwischenschritt zu seiner nächsten Generation von Architekturen sieht; der DSA-Mechanismus senkt die Rechenkosten, während er einige Leistungsarten steigert[31], und der Dienst wird automatisch auf V3.2‑Exp mit einer massiven Preissenkung für die Nutzer aufgerüstet[32].

DeepSeek V3.2-Exp übernimmt das Expertenmix-Design und fügt gemischte Präzision sowie mehrköpfige latente Aufmerksamkeit hinzu[33]. Da es sich jedoch um ein experimentelles Modell handelt, zeigt es leichte Rückschritte bei komplexen Denkaufgaben[34] und es fehlen die integrierten Agentenwerkzeuge des Claude-Ökosystems. Für Macaron bedeutet dies, dass V3.2-Exp besser für kostenempfindliche Aufgaben oder Prototypen geeignet ist, bei denen Geschwindigkeit und Durchsatz wichtiger sind als höchste Codierungsgenauigkeit.

5 Vergleich von Sonnet 4.5 und DeepSeek V3.2-Exp für Macaron

Die Entscheidung von Macaron, sich mit beiden Modellen zu verbinden, lädt zu einem Vergleich ihrer Stärken und Schwächen ein. Die folgende Tabelle fasst die wichtigsten Attribute zusammen:

Feature
Sonnet 4.5
DeepSeek V3.2‑Exp
Focus
Hochwertiges Codieren, agentische Aufgaben, lange Autonomie
Effiziente Verarbeitung langer Kontexte[35]
Architecture
Eigenes Modell mit langer Autonomiedauer (>30 Stunden) und starker Befolgung von Anweisungen
Mischung aus Experten mit spärlicher Aufmerksamkeit zur Reduzierung des Rechenaufwands[28]
Memory & context
Große Kontextfenster; automatisches Speichermanagement über Speicherwerkzeug[24]
Unterstützt lange Kontexte durch spärliche Aufmerksamkeit; reduzierte Speichernutzung[28]
Developer tooling
Agent SDK mit Sub-Agenten, Checkpoints, VS Code-Integration[36][24]
Kein offizielles SDK; Open-Source-Code ermöglicht benutzerdefinierte Integrationen, aber ohne integriertes Speichermanagement
Cost
Unverändert gegenüber Sonnet 4; 3 $/M Eingabetokens und 15 $/M Ausgabetokens[37]
50 % API-Preisnachlass[38]; kostenlos selbst zu hosten
Strengths
Höchste Codiergenauigkeit (SWE-Bench Verifiziert 77–82 %), erweiterte Autonomie, robuste Sicherheit
Außergewöhnliche Effizienz; 2–3× schnellere Inferenz und geringerer Speicherverbrauch[28]; Open-Source
Weaknesses
Höhere Tokenkosten; proprietäre API; erfordert möglicherweise sorgfältiges Prompt-Management
Experimenteller Status; geringfügige Rückschritte bei komplexem Denken[34]; fehlt integriertes Tooling

Aus diesem Vergleich können wir eine Hybridstrategie ableiten. Macaron könnte DeepSeek V3.2‑Exp für erste Entwürfe nutzen, um von niedriger Latenz und Kosten zu profitieren, und anschließend mit Sonnet 4.5 verfeinern oder validieren, um Korrektheit und Sicherheit zu gewährleisten. Für komplexe Mini-Apps, die tiefes Denken erfordern, bleibt Sonnet 4.5 die beste Wahl, während V3.2‑Exp sich bei schnellen Iterationen oder der Generierung großer Mengen auszeichnet.

6 Wie neue Modelle Macarons Mini-App-Pipeline verbessern werden

Die Kernfrage für Macaron ist, ob Sonnet 4.5 und DeepSeek V3.2‑Exp die Qualität verbessern, die Entwicklungszeit verkürzen und Fehler reduzieren können. Wir analysieren jeden Faktor im Kontext von Macarons Pipeline:

6.1 Qualität von Code und Ausgabe

Sonnet 4.5 liefert höhere Codequalität und weniger Fehler. Laut Replit sanken die Codebearbeitungsfehler von 9 % auf null, als von Sonnet 4 auf Sonnet 4.5 umgestellt wurde. Das bedeutet, dass von Macaron generierte Mini-Apps zuverlässiger kompiliert werden, mit weniger Syntaxfehlern oder fehlenden Imports. Die verbesserte Befolgung von Anweisungen durch das Modell hilft Macaron, Benutzerspezifikationen genauer zu verstehen; seine verbesserte Code-Refaktorisierung sorgt dafür, dass generierte Module sauber und modular sind. Bei Finanz- und Cybersicherheitsaufgaben verbesserte Sonnet 4.5 die Genauigkeit um 25 % bis 44 %, was auf ähnliche Gewinne für Macarons Reise- und Wellness-Apps hindeutet. DeepSeek V3.2-Exp, obwohl etwas schwächer im komplexen Denken, bleibt mit V3.1 vergleichbar in der Leistung bei besserer Effizienz[29]; bei Feinabstimmung auf Macarons Bereich könnte es eine ausreichend hohe Genauigkeit für einfachere Mini-Apps liefern.

6.2 Geschwindigkeit der Mini-App-Erstellung

Die Fähigkeit von Sonnet 4.5, über 30 Stunden autonom zu laufen, bedeutet, dass Macaron in einer einzigen kontinuierlichen Sitzung End-to-End-Mini-Apps generieren kann, ohne manuelle Resets. In Kombination mit dem Kontextmanagement und den Checkpoints des Agent SDK wird die Zeit für das Neustarten von Aufgaben oder das erneute Laden des Kontexts reduziert. Die Sub-Agent-Architektur ermöglicht es Macaron, Aufgaben zu parallelisieren: Ein Agent kann die UI-Generierung übernehmen, während ein anderer die API-Integration verwaltet, jeweils mit eigenem Kontext und eigenen Tools. In der Zwischenzeit bedeutet die 2–3× schnellere Inferenz und der geringere Speicherverbrauch von DeepSeek V3.2-Exp schnellere Antworten[28]. Wenn beispielsweise das Erstellen eines Reiseplans mit Sonnet 4.5 30 Sekunden erforderte, könnte V3.2-Exp einen Rohentwurf in 10–15 Sekunden erstellen; Sonnet 4.5 würde ihn dann verfeinern. Das Nettoergebnis ist eine kürzere Zeit bis zur ersten verwendbaren Version, was schnelle Benutzer-Feedback-Schleifen ermöglicht.

6.3 Reibungslosere Prozesse und weniger Fehler

Automatisierung reduziert menschliche Fehler, aber Autonomie kann neue Bugs einführen, wenn sie nicht richtig verwaltet wird. Die Checkpoints des Agent SDKs ermöglichen es Entwicklern, den Zustand des Agents zu speichern und zurückzusetzen[24]. Wenn Macaron beim Erstellen einer Mini-App einen falschen API-Aufruf macht oder in die falsche Datei schreibt, kann der Entwickler zu einem früheren Checkpoint zurückkehren, anstatt von vorne zu beginnen. Kontextbearbeitung verhindert Token-Erschöpfung und stellt sicher, dass nur relevanter Kontext beibehalten wird, wodurch Halluzinationen minimiert werden. Für DeepSeek ermöglicht die Open-Source-Veröffentlichung dem Macaron-Team, das Modell zu inspizieren und zu modifizieren, benutzerdefinierte Sicherheitsprüfungen zu integrieren und für bereichsspezifische Aufgaben zu optimieren. Darüber hinaus überwachen Macarons eigene RL-Mechanismen – Zeitweben, kontrafaktisches Denken und Fairness-Beschränkungen – weiterhin die Benutzerzufriedenheit und bestrafen schädliches Verhalten[2][5], wodurch das Risiko von Bugs und ethischen Verstößen verringert wird.

6.4 Kostenüberlegungen

Hochwertige Modelle haben ihren Preis. Die Token-Preise von Sonnet 4.5 bleiben unverändert gegenüber Sonnet 4 (3 $/M Eingabetoken, 15 $/M Ausgabetoken)[37]. DeepSeek V3.2‑Exp halbiert die Kosten für API-Aufrufe[38] und kann, da es Open Source ist, selbst gehostet werden. Macaron kann daher die Kosten optimieren, indem V3.2‑Exp für erste Entwürfe oder weniger wichtige Aufgaben (z. B. Generierung von UI-Komponenten oder einfachen Rechnern) genutzt wird und Sonnet 4.5 für wichtige Aufgaben (z. B. Finanzplanung, medizinische Beratung) reserviert wird, bei denen Genauigkeit und Einhaltung entscheidend sind. Einsparungen durch schnellere Inferenz und reduzierte GPU-Nutzung (siehe unten) gleichen ebenfalls die Berechnungskosten aus.

7 Macarons RL-Trainingsinnovationen: DAPO, LoRA und All‑Sync RL

Die Verbesserung des Modells ist nur ein Teil der Geschichte; die Effizienz beim Training beeinflusst, wie schnell Macaron RL-Strategien iterieren kann. MIND LABS beschreibt ein System, das Decoupled Clip und Dynamic Sampling Policy Optimization (DAPO) mit Low‑Rank Adaptation (LoRA) in einer All‑Sync RL-Architektur kombiniert, um ein 671B DeepSeek-Modell mit nur 48 H800-GPUs zu trainieren – eine 10-fache Reduzierung im Vergleich zu den 512 GPUs, die für standardmäßiges RL benötigt werden[39]. Pipeline-Parallelisierung mit Coati und SGLang sowie beschleunigte LoRA-Zusammenführung und Quantisierung eliminieren „GPU-Blasen“, bei denen GPUs untätig auf Inferenz warten[40]. Das Ergebnis ist eine Reduzierung der Wanduhrenzeit für einen einzigen Trainingsschritt von 9 Stunden auf 1,5 Stunden[41]. Diese Fortschritte bedeuten, dass Macaron seine Belohnungsmodelle oder Memory Gates schneller neu trainieren, Feedback schneller integrieren und Verbesserungen schneller an die Benutzer ausrollen kann.

Abbildung 1 – GPU-Auslastung sinkt von 512 auf 48 H800 GPUs, wenn All‑Sync RL mit LoRA verwendet wird, wodurch zugänglichere RL-Forschung und schnellere Experimente ermöglicht werden[39].

Neben der Effizienz reduzieren die Low-Rank-Updates von LoRA die Kommunikationskosten von Modellgewichten, und dynamisches Sampling stabilisiert das Training durch das Filtern von Eingaben und die Formung von Belohnungen[42]. Für Macaron bedeuten diese Techniken, dass zukünftige Speicher- und Richtlinienaktualisierungen schnell trainiert werden können, ohne prohibitive Rechenkosten zu verursachen.

8 Entwickler-Workflow: Integration von Sonnet 4.5 und DeepSeek in Macaron

Die Erstellung einer Mini-App mit Macaron umfasst mehrere Phasen:

  • Intentionsverständnis – Macaron analysiert die Anforderung des Nutzers und identifiziert die notwendigen Komponenten (z.B. Datenquellen, UI-Elemente, externe APIs). Die verbesserte Befolgung von Anweisungen in Sonnet 4.5 hilft, genaue Absichten zu extrahieren und Ausführungsschritte zu planen, während V3.2‑Exp potenzielle Absichten schnell prototypisiert, damit der Nutzer auswählen kann.
  • Programmsynthese – Der Agent verwendet das Claude Agent SDK, um Code zu generieren, das Repository zu durchsuchen, Vorlagen zu lesen und neue Dateien zu schreiben. Unteragenten können sich auf Frontend (React) oder Backend (Python) spezialisieren, und das Kontextmanagement stellt sicher, dass der richtige Code verfügbar ist, ohne den Speicher zu überlasten. Die langen Kontexte und die Code-Refactoring-Fähigkeiten von Sonnet 4.5 erzeugen sauberere, besser wartbare Programme, während V3.2‑Exp den ersten Entwurf beschleunigt.
  • Sandbox-Ausführung – Generierter Code wird in einer sicheren Umgebung ausgeführt. Der Agent liest Protokolle, erfasst Fehler und behebt iterativ Bugs. Checkpoints bieten sichere Rückfallmöglichkeiten, und RL-Belohnungssignale bestrafen Code, der Tests nicht besteht. Macaron kann auch Integrationstests gegen externe Dienste mit den Bash- und Web-Fetch-Tools des Agent SDKs durchführen.
  • Interaktion und Verfeinerung – Der Agent präsentiert dem Nutzer die Mini-App über Macarons konversationale Schnittstelle. Die Speicher-Engine speichert das Gespräch und verwendet RL, um zu entscheiden, welche Erinnerungen in zukünftigen Interaktionen abgerufen werden sollen. Feedback vom Nutzer aktualisiert das Belohnungsmodell und beeinflusst zukünftige Generationen.

Durch die Integration von Sonnet 4.5 und DeepSeek V3.2‑Exp kann Macaron diesen Workflow individuell anpassen. Zum Beispiel könnte eine Reiseplanungs-App den UI-Generator-Agenten verwenden, um mit DeepSeek schnell Layouts vorzuschlagen, während die Reiselogik und Terminoptimierung Sonnet 4.5 nutzen, um Genauigkeit und die korrekte Handhabung von Kalendern sicherzustellen. Eine Budgetierungs-App könnte sich auf DeepSeek für anfängliche Diagramme und Tabellen stützen, aber Sonnet 4.5 für komplexe Finanzberechnungen und die Einhaltung von Vorschriften verwenden.

9 Visualisierung der Verbesserungen

Um die greifbaren Vorteile dieser Technologien zu veranschaulichen, fassen die folgenden Diagramme die wichtigsten Kennzahlen zusammen.

Abbildung 2 – Eine vergleichende Ansicht von Sonnet 4.5 und DeepSeek V3.2‑Exp in Bezug auf Codiergenauigkeit, relative Geschwindigkeit, Kosten und Autonomie. Höhere Balken stehen für bessere Werte bei Genauigkeit und Autonomie; niedrigere Balken zeigen eine bessere (schnellere oder günstigere) Leistung in Bezug auf Effizienz und Kosten an.

Abbildung 3 – Replits interne Benchmarks zeigen, dass Codebearbeitungsfehler von 9 % mit Sonnet 4 auf null mit Sonnet 4.5 gesunken sind. Verbesserte Befolgung von Anweisungen und Code-Refaktorisierung führen zu zuverlässigeren Mini-Apps.

Abbildung 4 – Die Kombination von DAPO und LoRA in einer All-Sync-RL-Pipeline reduziert die Echtzeitdauer eines Trainingsschritts von 9 Stunden auf 1,5 Stunden[41], was schnellere Updates von Belohnungsmodellen und Gedächtnispolitiken ermöglicht.

Diese Visualisierungen verdeutlichen, dass die Vorteile nicht theoretisch sind. Reduzierte GPU-Anforderungen, schnelleres Training, höhere Genauigkeit und geringere Kosten tragen alle zu einer reibungsloseren, effizienteren Mini-App-Pipeline bei.

10 Zukünftige Richtungen

Blickt man in die Zukunft, haben sowohl Anthropic als auch DeepSeek ehrgeizigere Architekturen angedeutet. Der Nachfolger von Sonnet 4.5 könnte die Kontextfenster erweitern, das mehrsprachige Denken verbessern und komplexere Werkzeuginteraktionen unterstützen. Die nächste Generation der Architektur von DeepSeek wird voraussichtlich auf sparsamer Aufmerksamkeit aufbauen, um eine noch höhere Leistung bei geringeren Kosten zu erreichen[31]. Für Macaron könnte weitere Forschung in den Bereichen selbstkomprimierender Speicher, lebenslanges Lernen und sprachübergreifende Ausrichtung die Personalisierung und Privatsphäre verbessern[43]. Die Integration von föderiertem Lernen würde es den Nutzern ermöglichen, Speichermodelle lokal zu trainieren, indem nur Modellaktualisierungen geteilt werden, was die kollektive Leistung verbessert und gleichzeitig die Privatsphäre wahrt[43]. Auf der Seite des RL könnte Macarons Ansatz normative Theorien – Utilitarismus, Deontologie, Tugendethik – integrieren, um Erklärungen für seine Handlungen zu liefern[44].

Zusammenfassend lässt sich sagen, dass Macarons Entscheidung, sich mit Claude Sonnet 4.5 und DeepSeek V3.2‑Exp zu verbinden, angetrieben durch das Claude Agent SDK, es an die Spitze der persönlichen KI positioniert. Sonnet 4.5 bietet unvergleichliche Qualität, erweiterte Autonomie und umfangreiche Entwicklerwerkzeuge; DeepSeek bietet Geschwindigkeit, Effizienz und Open-Source-Flexibilität. In Kombination mit Macarons innovativen RL-Trainingstechniken und Speichermotoren werden diese Modelle Macaron dabei helfen, Mini-Apps schneller, reibungsloser und mit weniger Fehlern zu erstellen. Während sich die persönliche KI weiterentwickelt, dient Macarons Mischung aus Autonomie, Sicherheit, Ethik und Effizienz als Blaupause für verantwortungsvolle Innovation.


[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Inside Macaron's Memory Engine: Kompression, Abruf und dynamisches Gating - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [Titel unbekannt]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Agenten mit dem Claude Code SDK entwickeln

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: Funktionen, Preise und Vergleich - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] KI auf KI: DeepSeek-3.2-Exp und DSA – Champaign Magazine

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] Chinas DeepSeek veröffentlicht 'intermediate' AI-Modell auf dem Weg zur nächsten Generation | Reuters

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/

[39] [40] [41] [42] MIND LABS | Skalierung von All-Sync RL mit DAPO und LoRA

https://mindlabs.macaron.im/

Boxu erwarb seinen Bachelor-Abschluss an der Emory University mit Schwerpunkt Quantitative Ökonomie. Bevor er zu Macaron kam, verbrachte Boxu den Großteil seiner Karriere im Bereich Private Equity und Venture Capital in den USA. Er ist nun der Stabschef und VP für Marketing bei Macaron AI, verantwortlich für Finanzen, Logistik und Betrieb sowie die Überwachung des Marketings.

Bewerben, um zu werden Macarons erste Freunde