Von statischen Modellen zu adaptiven Agenten: Innovationen in Tinker und Mind Lab

Autor: Boxu LI

In der sich entwickelnden Landschaft der künstlichen Intelligenz, in der das Vortraining in extremem Maßstab beeindruckende statische Fähigkeiten hervorgebracht hat, verlagert sich die Grenze nun vom Bau immer größerer statischer Modelle hin zur Schaffung von agentenbasierten Systemen – KI-Agenten, die tiefgreifend denken, Werkzeuge nutzen, sehen und erinnern können und kontinuierlich aus Erfahrungen lernen[1].

Die Tinker-Plattform des Thinking Machines Lab, mit ihrer kürzlich am 12. Dezember 2025 angekündigten allgemeinen Verfügbarkeit, stellt einen entscheidenden infrastrukturellen Schritt dar, der den Zugang zur Feinabstimmung und multimodalen Erweiterung von Billionen-Parameter-Modellen demokratisiert. Gleichzeitig formuliert Mind Lab— die Forschungsabteilung von Macaron AI—einen philosophischen und technischen Rahmen für "erfahrungsbasierte Intelligenz", bei der Modelle von eingefrorenen Wissensspeichern zu dynamischen Prozessen übergehen, die sich durch Rückmeldungen aus der realen Welt verfeinern. Diese Konvergenz bietet tiefgreifende Möglichkeiten zur Verfeinerung des Co-Designs von Forschung und Produkt und schließt die Lücke zwischen algorithmischer Innovation und eingesetzter Anpassung.

Wichtige Innovationen in Tinkers Updates

Die Tinker-Plattform von Thinking Machines Lab erreicht allgemeine Verfügbarkeit und unterstützt das Feintuning des Kimi K2 Thinking MoE-Modells von Moonshot AI mit einer Billion Parameter, OpenAI-kompatible Inferenz und multimodale Eingaben über die Qwen3-VL-Serie von Alibaba.
Diese ermöglichen eine effiziente Anpassung von modernen Denk- und Sprach-Bild-Modellen, mit Demonstrationen, die eine überlegene Few-Shot-Leistung in der Bildklassifikation zeigen.
Mind Lab (die Forschungsabteilung von Macaron AI) fördert skalierbares LoRA-basiertes RL auf ähnlichen Billionen-MoE-Modellen und betont erfahrungsbasierte Anpassung.

In diesem Beitrag tauchen wir ein in das neue Kimi K2-Denkmodell von Tinker, die OpenAI-kompatible Schnittstelle und die Qwen3-VL-Vision-Modelle und erkunden dann die Philosophie der erfahrungsbasierten Intelligenz von Mind Lab, ihre Durchbrüche im Bereich der Verstärkungslernen (RL) mit einer Billion Parametern, den Ansatz der Memory-Diffusion und die strategischen Implikationen für den Aufbau der nächsten Generation von KI-Systemen.

Tinkers Neueste Innovationen: Denken, Werkzeuge und Vision

Tinker ist eine KI-Trainingsplattform, die es Forschern ermöglicht, hochmoderne Modelle zu optimieren und bereitzustellen, ohne sich um die Infrastruktur kümmern zu müssen[2][3]. Im Dezember 2025 kündigte Tinker mehrere bedeutende Updates an, die die Schlussfolgerungsfähigkeiten, den Einsatz von Tools und das Verständnis von Visionen der KI-Modelle stärken[4]:

Kimi K2 Thinking Model: Nutzer können jetzt das Kimi K2 Thinking, ein kolossales 1-Billionen-Parameter-Modell und das größte in Tinkers Angebot, feinabstimmen[5]. Kimi K2 ist ein Mixture-of-Experts (MoE) Transformer, der für ausgedehnte Gedankenketten und die Nutzung von Werkzeuge entworfen wurde[6]. Trotz seiner Größe sind nur ein Teil (~32B) seiner Parameter gleichzeitig aktiv, was ihm ermöglicht, eine erstklassige Leistung im Bereich des logischen Denkens zu erzielen und gleichzeitig die Inferenz effizient zu halten[7]. Dieses offene Modell – beschrieben als „offene agentische Intelligenz“ – konkurriert mit vielen geschlossenen Modellen oder übertrifft sie sogar bei komplexen Logik-Benchmarks[7]. Durch die Unterstützung von Kimi K2 auf Tinker ermöglicht Thinking Machines Forschern, eine fortschrittliche Denkmaschine für Aufgaben zu nutzen, die mehrstufige Logik, Planung oder externe Werkzeugaufrufe erfordern. Wichtig ist, dass Tinker solche Modelle mit LoRA (Low-Rank Adaptation) feinabstimmt, indem kleine Adaptermatrizen trainiert werden, anstatt alle Billionen Gewichte zu aktualisieren[8]. Dieser Ansatz reduziert den Speicherbedarf und die Rechenleistung für die Anpassung erheblich. Tatsächlich haben interne Studien gezeigt, dass LoRA mit der richtigen Konfiguration die Lernleistung einer vollständigen Feinabstimmung erreichen kann, während wesentlich weniger Ressourcen benötigt werden[9]. In der Praxis bedeutet dies, dass Nutzer ein riesiges Modell wie Kimi K2 an neue Aufgaben oder Domänen anpassen können, ohne dass die Kosten prohibitiv sind – ein entscheidender Schritt für effizientere Denk-Workflows.
OpenAI API-kompatible Inferenz: Um die Integration von Forschung und Produkt zu beschleunigen, hat Tinker eine Inferenzschnittstelle eingeführt, die kompatibel mit OpenAIs API für Vervollständigungen ist[10]. Im Wesentlichen kann man ein auf Tinker gehostetes Modell mit denselben API-Aufrufen abfragen, die die Plattform von OpenAI verwendet, indem man einen Modellpfad mit einer speziellen tinker:// URI angibt. Beispielsweise können Entwickler die Vervollständigungs-API des Tinker-Modells mit einer OpenAI-ähnlichen Syntax (Modell, Prompt, max_tokens, etc.) aufrufen und Ergebnisse erhalten, als ob sie openai.Completion.create verwenden würden[10]. Diese Plug-and-Play-Kompatibilität bedeutet, dass jedes auf der OpenAI API aufgebaute Tool oder jede Anwendung nahtlos Tinkers Modelle integrieren kann[10]. Es reduziert die Hürden für die Einführung fortschrittlicher offener Modelle in echten Produkten: Man könnte Kimi K2 auf Tinker feinabstimmen und es dann mit minimalen Codeänderungen in ein bestehendes Agenten- oder Chatbot-Framework integrieren. Darüber hinaus ermöglicht Tinkers API-Struktur sogar das Sampling von einem Modell, während es noch trainiert wird[10] – dies ermöglicht interaktive Bewertungen oder werkzeugergänzte Trainingsschleifen, bei denen ein Modell parallel zu seinem Feinabstimmungsprozess getestet und verwendet werden kann. Dieses Update unterstützt effizientere Agentenentwicklungs-Workflows, indem es Forschern ermöglicht, kontinuierlich Modellverbesserungen in realistischen Umgebungen zu integrieren und zu testen.
Qwen3-VL Vision–Language Modelle: Eine weitere bedeutende Ergänzung zu Tinker ist die Unterstützung für multimodale Vision-Language-Modelle. Die Plattform hat zwei vision-fähige Modelle hinzugefügt, Qwen3-VL-30B und Qwen3-VL-235B, die Bilddaten neben Text akzeptieren können[11]. Diese Modelle (30 Milliarden und 235 Milliarden Parameter, beide MoE-Architekturen) sind darauf abgestimmt, Aufforderungen zu folgen, die Bilder beinhalten, z.B. Fragen zu einem Diagramm zu beantworten oder ein Foto zu interpretieren. Mit einfachen API-Aufrufen können Nutzer jetzt ein Bild (als ImageChunk) zusammen mit Text in das Modell einspeisen und eine Sprachantwort erhalten[12]. Dies eröffnet eine Vielzahl von bildgestützten Anwendungen – von der Analyse von Screenshots und Diagrammen bis hin zu multimodalen Assistenten, die sehen und sprechen können. Bemerkenswert ist, dass die Qwen3-VL-Modelle mit datenwirksamen Vision-Fähigkeiten im Hinterkopf entworfen wurden. Um dies zu veranschaulichen, hat Thinking Machines das 235B Qwen3-VL-Modell auf einigen klassischen Bildklassifizierungsaufgaben (Caltech101, Oxford Flowers, etc.) mit LoRA-Adaptern effizient feinabgestimmt[13]. Sie verglichen seine Leistung mit einem starken vision-only Baseline (DINOv2 ViT Modell mit einem Klassifikator-Kopf) über verschiedene Mengen an Trainingsdaten pro Klasse[14].

[15] Vergleich von feinabgestimmtem Qwen3-VL-235B (Visionssprachmodell) vs. DINOv2 (nur Vision-Baseline) bei Bildklassifizierungsaufgaben mit begrenzten markierten Beispielen. Qwen3-VL erreicht eine höhere Genauigkeit, insbesondere im Bereich mit wenigen Daten (ganz links), dank seines sprachlich informierten visuellen Verständnisses.

Selbst mit nur einem Beispiel pro Klasse erreichte das 235B Qwen3-VL Modell eine angemessene Genauigkeit und übertraf DINOv2 in diesem extremen Low-Data-Szenario[15] deutlich. Mit der Zunahme der Beispiele verbesserten sich beide Modelle, aber Qwen3-VL behielt einen Vorsprung und zeigte eine stärkere Few-Shot-Generalisation[16]. Der Vorteil rührt vom eingebauten Sprach- und Weltwissen des Modells her – zum Beispiel hat Qwen3-VL bereits ein Konzept davon, wie ein „Sonnenblume“ oder „Golden Retriever“ aussieht oder beschrieben wird, dank seines multimodalen Pretrainings[16]. Das bedeutet, dass es neue Bilder mit minimalen neuen Beispielen erkennen oder kategorisieren kann. In der Praxis können Tinker-Nutzer hohe Genauigkeit bei Vision-Aufgaben mit sehr kleinen Datensätzen erreichen, indem sie diese großen Vision-Language-Modelle nutzen. Diese daten-effiziente Vision-Fähigkeit ist entscheidend für reale Szenarien, in denen gelabelte Daten knapp sind. Es deutet auch auf die Stärke des werkzeugergänzten Denkens hin: Ein Modell, das „sieht“, kann sowohl visuelle Hinweise als auch linguistischen Kontext nutzen und so zu einem vielseitigeren Agenten werden (zum Beispiel ein Diagramm lesen und erklären oder ein Bild als Teil einer Argumentationskette verwenden). Insgesamt erweitert die Hinzufügung von Qwen3-VL zu Tinker die Reichweite der Plattform vom reinen Text auf den visuellen Bereich und ermöglicht multi-modale Denk-Workflows unter derselben einheitlichen Trainings-API.

Adaptive Systeme von Mind Lab: Erfahrungsintelligenz in Aktion

An der Forschungsfront stellt sich Mind Lab – ein neues, mit Macaron AI verbundenes Forschungsinstitut – der Herausforderung, KI-Agenten wirklich adaptiv und erfahrungsbasiert zu gestalten. Die Philosophie von Mind Lab ist, dass „echte Intelligenz aus echter Erfahrung kommt, nicht nur aus größerem Vortraining“[17]. Mit anderen Worten: Das bloße Hochskalieren von Modellen auf statischen Datensätzen reicht nicht aus; der nächste Sprung in der KI wird von Systemen kommen, die kontinuierlich aus Interaktionen lernen, ähnlich wie Menschen Erfahrungen sammeln. Mind Lab nennt diese Vision Erfahrungsintelligenz – der Übergang von statischen „Gehirnen“ zu adaptiven „Geistern“, die interne Weltmodelle bilden, ihr Wissen durch Feedback aktualisieren, explizite Ziele oder Werte haben und sogar über ihre eigenen Handlungen reflektieren können[18]. Dies ist eine direkte Antwort auf die Einschränkungen der aktuellen LLMs, die oft mächtig, aber nach dem Vortraining eingefroren sind[18]. Durch die Einführung von Mechanismen für echte Anpassung – wie kontinuierliches Verstärkungslernen und dynamisches Gedächtnis – zielt Mind Lab darauf ab, Agenten zu schaffen, die sich mit der Nutzung weiterentwickeln.

Zwei zentrale Säulen der Arbeit von Mind Lab sind: (1) Effizientes RL-Finetuning von riesigen Modellen, um neue Verhaltensweisen zu verankern, und (2) Fortschrittliche Speichersysteme, die es den Agenten ermöglichen, langfristiges Wissen zu behalten und zu nutzen. Beide zielen darauf ab, KI agentenhaft zu machen (autonomes Entscheiden und Verbessern) und Forschungsergebnisse eng mit der Produktentwicklung zu verknüpfen.

LoRA-basiertes RL mit Billionen Parametern und 10% GPUs

Wie haben wir das erreicht?

Eine der wichtigsten Errungenschaften von Mind Lab ist der Nachweis von Reinforcement Learning im Billionen-Parameter-Maßstab – und das auf praktische und kosteneffiziente Weise. Im Dezember 2025 kündigten sie die erste End-to-End-RL-Pipeline auf dem 1,04T-Parameter-Kimi-K2-Reasoning-Modell an, erreicht mit nur ~10% der GPU-Ressourcen, die für ein solches Training normalerweise erforderlich wären[19]. Wie war das möglich? Das Team entwickelte eine spezielle Trainingsmaschine, die parameter-effizientes Finetuning (LoRA) mit hybrider Parallelität über die Mixture-of-Experts-Struktur des Modells kombiniert[20][21].

Anstatt alle Billionengewichte zu tunen, injiziert Mind Labs Ansatz niedrig-rangige Anpassungsmatrizen in ausgewählte Schichten von Kimi K2 (sowohl im dichten Backbone als auch in den Experten-Schichten) und aktualisiert nur diese während des RL[22]. Dies reduziert die Anzahl der trainierbaren Parameter drastisch (zum Beispiel ein LoRA-Rang von einigen Dutzend oder Hunderten pro Schicht, anstatt vollständiger Matrizen) und verringert somit den Speicher- und Rechenaufwand um eine Größenordnung. Gleichzeitig erfordert das Training eines Modells dieser Größe, dass die Arbeitsbelastung effizient über viele GPUs verteilt wird. Das Team verfolgte eine hybrid-parallele Strategie: eine koordinierte Nutzung von Tensor-Parallelismus, Pipeline-Parallelismus, Experten-Parallelismus (für die MoE-Experten) und Sequenz-Parallelismus (für das Training langer Sequenzen), die alle mit geshardeten LoRA-Updates kompatibel gemacht wurden[23]. In der Praxis bedeutete dies die Nutzung bestehender Trainings-Frameworks für große Modelle (NVIDIAs Megatron und ByteDances VolcEngine RL), die erweitert wurden, um LoRA auf MoE zu bewältigen, und das sorgfältige Balancieren der Berechnung über 64 GPUs in einem Cluster[24]. Das Ergebnis war ein stabiles On-Policy-RL-Training (ähnlich einem PPO-Algorithmus) des vollständigen Kimi K2-Modells mit einem Belohnungsmodell, das Rückmeldung zur Qualität des Schließens gab[22] – etwas, das zuvor für die meisten Teams aufgrund der Kosten als unmachbar galt.

Genauso wichtig: es funktionierte: Das LoRA-feinabgestimmte Kimi K2 erzielte bedeutende Verbesserungen bei Aufgaben mit langfristigem Denken, mit gleichmäßigen Lernkurven und ohne Abweichungen[25]. Entscheidend ist, dass das angepasste Modell die allgemeinen Fähigkeiten des Basismodells beibehielt (dank nur minimaler, gezielter Gewichtsanpassungen), während es neue, aufgabenspezifische Verhaltensweisen erlernte[26]. Das bedeutet, dass das umfangreiche Vorwissen des Basismodells nicht überschrieben, sondern nur erweitert wurde – ein wesentlicher Vorteil der LoRA-Feinabstimmung. Tatsächlich bestätigten die Experimente von Mind Lab, dass größere Modelle eine stärkere Grundlage für RL bieten. Unter einem festen Trainingsbudget übertraf ein großes Modell plus kleine LoRA-Adapter ein kleineres Modell, das mit vollständiger Abstimmung trainiert wurde, sowohl bei domänenspezifischen Aufgaben als auch bei der Übertragung auf neue Aufgaben[27]. Wie das Team es ausdrückt, ist RL „vorwissensbegrenzt“ – wenn das Basismodell nicht von Anfang an hochwertige Trajektorien generieren kann, hat RL wenig Signal, das es verstärken kann[27]. Ein leistungsstarkes vortrainiertes Vorwissen wie Kimi K2 bietet RL eine reichhaltige Auswahl an Verhaltensweisen, auf die es sich konzentrieren kann, während das Training eines kleinen Modells von Grund auf diese Verhaltensweisen neu erfinden muss. Diese Erkenntnis stellt die konventionelle Weisheit auf den Kopf: Es kann rechnerisch effizienter sein, RL mit einem großen Modell (mit einem starken Vorwissen und LoRA-Effizienz) durchzuführen als mit einem kleineren Modell, selbst wenn das kleinere Modell pro Schritt günstiger ist[28]. Der Beitrag von Mind Lab hier ist nicht nur ein Algorithmus, sondern eine Infrastrukturstrategie – ein Plan, um kontinuierliches Lernen bei den größten Modellen machbar zu machen. Sie haben ihre Methoden in Open-Source-Projekte (Megatron-Bridge, VERL) eingebracht[29], sodass die Community diese Arbeit reproduzieren und darauf aufbauen kann, was potenziell vielen Gruppen ermöglicht, Billionen-Parameter-Agenten mit bescheidenen Hardware-Budgets fein abzustimmen.

Memory Diffusion: Neugestaltung des Agentengedächtnisses jenseits von Vektordatenbanken

Memory Diffusion Live-Demo

Eine weitere Grenze, die das Mind Lab erkundet, ist, wie ein KI-Agent mit langfristigen Erinnerungen an seine Interaktionen umgehen kann. Viele aktuelle Systeme fügen eine Vektordatenbank hinzu, um vergangene Gesprächsausschnitte abzurufen, oder verwenden Zusammenfassungstechniken, um die Historie zu komprimieren. Mind Lab schlägt ein integrierteres, „modell-natives“ Gedächtnissystem namens Memory Diffusion vor[30]. Die Idee ist, die gesamte Sequenz eines Agenten-Dialogs oder einer Trajektorie als editierbares Gedächtnis im Kontext des Modells zu behandeln, anstatt etwas, das extern gespeichert wird. Memory Diffusion arbeitet, indem es iterativ ein Fenster fester Größe im Kontext über eine Mask–Allocate–Refill-Schleife[30] aufrechterhält. In jedem Schritt entscheidet das Modell, welche Tokens (Teile vergangener Gespräche) behalten (maskieren) und welche fallen gelassen werden sollen, und füllt dann den freigewordenen Raum mit neu eingehendem Inhalt wieder auf – und das alles unter Einhaltung eines strengen Token-Budgets für die Kontextlänge[30]. Im Wesentlichen lernt das Modell, seinen eigenen Kontext zu verwalten, weniger relevante Details zu komprimieren oder zu vergessen und wichtige Fakten zu behalten, während die Interaktion wächst. Dies ist vergleichbar mit intelligentem Vergessen, wobei das Ziel nicht darin besteht, alles unbegrenzt zu erinnern (was angesichts der Begrenzungen der Kontextlänge nicht machbar ist), sondern nützlich unter realen Einschränkungen zu erinnern[30].

Durch den Betrieb auf der Token-Sequenz-Ebene vermeidet Memory Diffusion die Notwendigkeit externer Embeddings oder Ähnlichkeitssuchen; das „Gedächtnis“ befindet sich im gleichen Repräsentationsraum wie der Arbeitskontext des Modells. Mind Lab berichtet, dass dieser Ansatz state-of-the-art Leistungen bei langanhaltenden Gedächtnisfähigkeiten erzielt, was bedeutet, dass der Agent längere Gespräche oder Aufgaben fortsetzen kann, ohne relevante Informationen zu verlieren, alles durch erlernte Mechanismen im Modell[31]. Es läuft auch in konstanter Zeit relativ zur Kontextgröße – keine Explosion der Abrufkosten, während die Geschichte wächst, da die Kontextlänge festgelegt und über die Masken-/Auffülloperationen verwaltet wird[31]. In praktischen Begriffen könnte ein Agent mit Memory Diffusion an einem Gespräch teilnehmen, das Tausende von Runden dauert, und während er nicht explizit jedes Detail behalten kann, wird er kontinuierlich entscheiden, was im Gedächtnis bleiben soll. Wichtige Benutzerpräferenzen oder ungelöste Fragen bleiben bestehen, während triviales Geplänkel aus viel früheren Zeiten möglicherweise entfernt wird. Dieser Ansatz behandelt das Gedächtnis als erstklassige Komponente der Kognition des Modells, im Einklang mit der Ansicht von Mind Lab, dass das Gedächtnis ein aktiver, lernender Teil des Systems sein sollte, anstatt ein passiver Datenspeicher[30].

Mehr erfahren Sie in unserem technischen Blog

Forschung–Produkt Co-Design: Eine kontinuierliche Lernschleife

Die infrastrukturellen Möglichkeiten von Tinker und die algorithmische Effizienz von Mind Lab bilden eine natürliche Symbiose. Tinker ermöglicht die direkte Anwendung von Mind Labs hybridem LoRA RL auf Kimi K2 und Qwen3-VL und erleichtert multimodale agentische Schleifen.

Im Forschung-Produkt Co-Design – Mind Labs Kerntenet – zeigt sich dies als:

Instrumentation für Feedback: Eingesetzte Agenten (z.B. über Tinker-Modelle bereitgestellt) erzeugen strukturierte Episoden aus Benutzerinteraktionen, Tool-Ergebnissen und Korrekturen.
Online-RL-Pipelines: Hybride Parallelität unterstützt kontinuierliche Updates auf Live-Signalen und entwickelt Wertfunktionen und Richtlinien ohne Offline-Batches weiter.
Multimodale Anpassung: Visuelle Eingaben ermöglichen RL bei Wahrnehmungsaufgaben, verfeinern Weltmodelle für die GUI-Navigation, das Verständnis von Dokumenten oder visuelles Denken.
Sicherheit und Stabilität: Lokalisierte Rollouts minimieren Verteilungsschwankungen; Streaming-Belohnungen (wie im HTML-Ästhetik-Beispiel von Mind Lab) verhindern Belohnungshacking.

Strategisch beschleunigt dieses Paradigma die Iteration: Produkte werden zu experimentellen Testumgebungen, die hochpräzise Daten liefern, die Forschungshypothesen verfeinern. Beispielsweise können wenige Schuss-Klassifikationen von Tinker RL-Ziele in eingesetzten visuellen Agenten initiieren und die Wahrnehmungspolitik schrittweise an Benutzerpräferenzen anpassen.

Traditionell würde die KI-Forschung ein Modell oder einen Algorithmus produzieren, und dann könnte ein Produktteam getrennt herausfinden, wie es implementiert wird, mit relativ langsamer Iteration zwischen den beiden. Mind Lab hingegen operiert nach einer Philosophie des Forschungs-Produkt-Co-Designs: Jede neue Technik wird schnell in einer Live-Agenten-Umgebung getestet, und echte Nutzerinteraktionen generieren Daten zur Verfeinerung der Forschung[32].

„Forschung und Produkt sind keine getrennten Bahnen mehr. Sie sind ein geschlossener Feedback-Loop: Benutzererfahrung → Daten → RL-Training → Implementierung → bessere UX → reichere Daten → Wiederholung.“[33]. In der Praxis bedeutet dies, dass wenn Mind Lab ihren RL-Algorithmus oder ihr Speichersystem verbessert, sie es in einen tatsächlichen benutzerorientierten Agenten integrieren (zum Beispiel Macarons persönlichen KI-Assistenten) und beobachten, wie er mit echten Nutzern performt. Die Nutzungsdaten – welche Fragen die Nutzer stellen, wo der Agent scheitert oder Erfolg hat, explizites Feedback – werden dann als Trainingssignal (durch überwachte Feinabstimmung oder Verstärkungslernen) für das nächste Modell-Update zurückgeführt. Dieser enge Loop beschleunigt das Lernen erheblich: Das Produkt ist das Experiment.

Eine Implikation ist die Verwendung von Streaming-Belohnungsmodellen und Online-RLHF (Reinforcement Learning from Human Feedback). Anstatt ein statisches Datenset menschlicher Präferenzvergleiche zu sammeln und ein Belohnungsmodell einmalig zu trainieren, sieht das Framework von Mind Lab vor, das Belohnungsmodell kontinuierlich zu aktualisieren, während neues Feedback während der Bereitstellung eingeht. Wenn ein Agent beispielsweise Aufgaben für Benutzer löst und gelegentlich einen Daumen nach unten oder eine Korrektur erhält, können diese Signale in das Belohnungsmodell gestreamt werden, um sein Verständnis von „gutem“ Verhalten dynamisch zu verfeinern. Das nächste Mal, wenn RL ausgeführt wird (was in einem geplanten Rhythmus oder sogar asynchron sein könnte), leitet das aktualisierte Belohnungsmodell die Strategie an, sich besser an die Benutzerpräferenzen anzupassen. Dieses Streaming-RL-Paradigma macht die Bereitstellung zu einer Erweiterung des Trainings – je länger der Agent in der realen Welt läuft, desto mehr Erfahrung sammelt er und desto besser wird er. Die von Tinker bereitgestellte OpenAI-kompatible Schnittstelle ergänzt diese Strategie tatsächlich: Sie ermöglicht es, diese kontinuierlich gelernten Modelle einfach in bestehende Produkte und Werkzeuge zu integrieren, was bedeutet, dass ein Forschungslabor schnell neue Modellversionen in ein Produkt einführen und Ergebnisse beobachten kann, ohne jedes Mal die Integration neu aufbauen zu müssen.

Von Tinkers Seite aus könnte die Fähigkeit der Plattform, während des Trainings von einem Modell zu sampeln[10], solche iterativen Schleifen erleichtern, indem Zwischenevaluierungen und fein abgestimmte Entscheidungen ermöglicht werden. Auf der Seite von Mind Lab stellt der Co-Design-Kreislauf sicher, dass ihre Innovationen (wie RL im Billionenmaßstab oder Memory Diffusion) in realen Anwendungsfällen einem Stresstest unterzogen werden. Dieser Ansatz bringt praktische Herausforderungen frühzeitig ans Licht (z. B. wie man mit Latenz oder unerwarteten Benutzereingaben umgeht) und schließt die Lücke zwischen modernster Forschung und benutzerorientierten KI-Produkten. Der strategische Vorteil besteht darin, dass Verbesserungen durch reale Bedürfnisse getrieben und direkt im Hinblick auf reale Anwendungen validiert werden. Wie Mind Lab feststellt, kommt echter Fortschritt aus dem „kontinuierlichen Lernen aus Nutzer-Produkt-Interaktionen“[33], und ein Agent, der sich situativ anpassen kann, wird letztlich ein weit besseres Benutzererlebnis bieten als einer, der bei der Bereitstellung festgelegt ist.

Auswirkungen auf agentische KI und zukünftige co-designte Systeme

Zusammen genommen zeigen die Fortschritte von Tinker und Mind Lab einen tiefgreifenden Wandel in der Art und Weise, wie wir KI-Systeme bauen – von statischen Modellen zu adaptiven Agenten, die mit ihren Umgebungen co-designt werden. Es ergeben sich mehrere wichtige Implikationen:

Von Grundmodellen zu grundlegenden Agenten: Die Einführung von agentischen Modellen wie Kimi K2 (mit integriertem Werkzeuggebrauch und logischem Denken) und Techniken zur kontinuierlichen Feinabstimmung deutet darauf hin, dass große Sprachmodelle sich zu Plattformen für Verhalten entwickeln, nicht nur für Wissen. Anstatt einmalig trainierte Modelle, die nur Text imitieren, erhalten wir Agenten, die planen, handeln und Feedback integrieren können. Dies verwischt die Grenze zwischen einem KI-Modell und einem KI-Produkt: Das Modell ist zunehmend der Agent, mit dem du interagierst, und es kann sich selbst aktualisieren, um dir besser zu dienen. Der Bau solcher Agenten erfordert die Vereinigung von modellzentrierter Forschung (neue Architekturen, Trainingsmethoden) mit produktzentriertem Denken (Benutzererfahrung, Einsatzbeschränkungen) in einem einzigen Entwicklungszyklus.
Tool-unterstütztes Denken als Norm: Mit Tinkers OpenAI-kompatibler Schnittstelle und Modellen, die explizit für den Werkzeuggebrauch entwickelt wurden, können wir voraussehen, dass KI-Agenten nahtlos externe Werkzeuge, APIs oder Datenbanken als Teil ihres Denkprozesses nutzen. Kimi K2s Design und Mind Labs agentische Experimente betonen beide, dass die Lösung komplexer Aufgaben oft erfordert, dass eine KI Werkzeuge konsultiert oder Umgebungen simuliert[34][35]. Zukünftige Systeme werden wahrscheinlich Werkzeug-APIs im Kern des Modelltrainings integrieren (wie Kimi's groß angelegte agentische Datensynthese[36]), was sofort nutzbare Werkzeugfähigkeiten ermöglicht. Strategisch bedeutet dies, dass KI-Produkte mehr als ein monolithisches Modell sein werden – sie werden Plattformen zur Werkzeugorchestrierung, bei denen das Modell als Gehirn dient, das weiß, wann und wie andere Dienste aufgerufen werden. Die einfache Integration von Tinker-Modellen über vertraute APIs senkt die Hürde für Entwickler, solche werkzeugnutzende KI-Workflows in der Praxis zu erstellen.
Zustandsbewusste Interaktion und personalisierte KI: Gedächtnisinnovationen wie Memory Diffusion weisen auf KI hin, die einen langfristigen Zustand über Interaktionen aufrechterhalten kann. Anstatt jede Sitzung oder Anfrage isoliert zu behandeln, werden zukünftige Agenten sich an frühere Interaktionen, Vorlieben und Kontexte auf eine grundlegende, begrenzte Weise erinnern. Dies ermöglicht viel personalisiertere und kontextbewusste KI-Assistenten – solche, die nicht jedes Mal neu starten, sondern wirklich lernen, mit wem sie interagieren und was passiert ist. Wichtig ist, dass Mind Labs Ansatz zeigt, dass dies auch ohne unendliche Kontextfenster möglich ist; durch gelerntes Gedächtnismanagement können Agenten intelligenter darin werden, was sie sich merken. Für Benutzer bedeutet dies ein flüssigeres Erlebnis: eine persönliche KI, die sich an vergangene Gespräche erinnert, wird sich mehr wie ein fortlaufender Dialog oder ein konsistenter Assistent anfühlen, anstatt eine Reihe von isolierten Nutzungen. Es wirft auch neue Designfragen auf: Wie stellen wir sicher, dass die richtigen Dinge erinnert oder vergessen werden? Die Antwort liegt wahrscheinlich in Techniken wie der Memory Diffusion, die menschliches Vergessen und Betonung einbeziehen.
Hybride Infrastruktur als Wettbewerbsvorteil: Die technische Grundlage, die durch diese Projekte gelegt wurde – z. B. hybrides paralleles Training, LoRA-on-MoE, verteiltes RL – wird ein Game-Changer für KI-Entwicklungsteams sein. Gruppen, die diese Methoden übernehmen, können die größten Modelle mit relativ bescheidener Rechenleistung feinabstimmen, was die Fähigkeit demokratisieren könnte, spezialisierte Hochleistungs-KI-Agenten zu bauen. Anstatt dass nur große Technologieunternehmen in der Lage sind, Billionen-Parameter-Modelle zu implementieren, könnte jedes Labor oder Startup ein offenes Modell wie Kimi K2 nutzen und es über LoRA auf einem kleineren GPU-Cluster anpassen[37][21]. Dies ebnet das Spielfeld und ermutigt auch zu Experimenten mit großen Modellen in Nischendomänen (da die Kosten weniger prohibitiv sind). Wir könnten eine Explosion maßgeschneiderter Billionen-Skala-Agenten sehen – einige fokussiert auf medizinisches Denken, andere auf Rechtsforschung, wieder andere auf kreatives Design – alles ermöglicht durch effiziente Feinabstimmungs-Frameworks. Die Open-Source-Integrationen (Megatron usw.) stellen zudem sicher, dass sich diese Innovationen schnell verbreiten. Darüber hinaus bedeutet ein hybrider paralleler Ansatz, dass für jedes gegebene Hardware-Budget mehr effektives Training durch intelligentes Scheduling und Parallelisierung herausgeholt werden kann, anstatt einfach ein kleineres Modell zu akzeptieren. Dies ist entscheidend, da wir Modelle weiterentwickeln, um mehr Modalitäten und längere Kontexte zu integrieren, was die Rechenanforderungen weiter erhöhen wird.
Kontinuierliches Lernen und Mensch-KI-Interaktion: Schließlich transformiert die Vorstellung eines geschlossenen Lernsystems die Rolle des Benutzers in der KI-Entwicklung. Jede Benutzerinteraktion wird zu einem potenziellen Trainingsbeispiel und jede Bereitstellung zu einem Experiment. In praktischen Begriffen könnte dies zu KI-Diensten führen, die sich über Nacht dramatisch verbessern, indem sie sich auf die Daten des Vortages neu trainieren – ähnlich wie Software-Updates ausgerollt werden. Benutzer könnten erwarten, dass, wenn sie eine KI heute korrigieren, sie morgen den Fehler nicht wiederholt. Dies setzt einen positiven Kreislauf in Gang: Bessere Produkte ziehen mehr Nutzer an, was mehr Daten zum Lernen liefert, was wiederum das Produkt verbessert. Es erfordert jedoch auch eine sorgfältige Mitgestaltung von Bewertung und Sicherheit – wenn ein Agent aus seinen eigenen Interaktionen lernt, benötigen wir robuste Belohnungsmodelle und Schutzmaßnahmen, um sicherzustellen, dass er die richtigen Lektionen lernt (um die Verstärkung unerwünschter Verhaltensweisen zu vermeiden). Mind Labs Arbeit zur Einbeziehung von menschlichen Präferenzbelohnungen und Selbstkritik in RL ist ein frühes Vorbild dafür[35]. Langfristig könnte eine solche Forschung–Produkt-Mitgestaltung zur Standardpraxis werden: anstatt ein Forschungspapier mit „wir haben ein Modell feinabgestimmt und X erreicht“ zu beenden, wird das Erfolgskriterium „wir haben einen adaptiven Agenten für Benutzer bereitgestellt und seine Leistung/Nützlichkeit nachhaltig um Y% über die Zeit verbessert“ sein.

Auf dem Weg zu adaptiven Köpfen: Eine abschließende Vision

Während statische Skalierungsgesetze stagnieren, leitet die Synthese, die durch Tinkers zugängliche Billionen-Skalierung und Mind Labs effizientes erfahrungsbasiertes RL veranschaulicht wird, eine transformative Ära ein. Indem wir Anpassung in den Produktzyklus integrieren, bewegen wir uns über fragile Gehirne hinaus zu belastbaren Köpfen—Systemen, die nicht nur auf Spitzenniveau denken und wahrnehmen, sondern symbiotisch mit ihrer Umgebung wachsen. Diese ko-evolutionäre Entwicklung verspricht KI, die nicht nur fähig ist, sondern sich kontinuierlich besser an menschliche Bedürfnisse und die Komplexität der realen Welt anpasst.

[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence

https://ar5iv.labs.arxiv.org/html/2507.20534

[2] [3] [8] [9] Tinker - Thinking Machines Lab

https://thinkingmachines.ai/tinker/

[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: Allgemeine Verfügbarkeit und Vision Input - Thinking Machines Lab

https://thinkingmachines.ai/blog/tinker-general-availability/

[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] Wie wir Reasoning RL mit Billionen Parametern mit 10% GPUs aufbauen

https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus?trk=article-ssr-frontend-pulse_little-text-block

[17] [30] [33] Macaron AI | LinkedIn

https://www.linkedin.com/company/macaronaiofficial

[18] [19] [29] [31] [32] Einführung in Mind Lab — die Forschungsabteilung von Macaron AI

https://www.linkedin.com/pulse/introducing-mind-lab-macaron-ais-research-arm-macaronaiofficial-tkz2e?trk=organization_guest_main-feed-card_feed-article-content