Warum Reinforcement Learning im „zweiten Halbzeit“ der KI im Mittelpunkt steht

Autor: Boxu Li

Vom Pre-Training zur „zweiten Halbzeit“ der KI

Nach einem Jahrzehnt, das von groß angelegtem Pre-Training dominiert wurde, tritt die KI-Community in das, was einige als die „zweite Halbzeit“ der KI-Entwicklung bezeichnen[1][2]. In der ersten Halbzeit wurde der Fortschritt durch neue Modellarchitekturen und Trainingsmethoden vorangetrieben, die unermüdlich Benchmarks verbessert haben[3] – von Convnets und LSTMs bis zu Transformers – alle optimiert durch überwachtes oder selbstüberwachtes Lernen auf statischen Datensätzen. Doch heute haben Spitzenmodelle wie GPT-4 viele Benchmarks im Wesentlichen ausgeschöpft, und das bloße Skalieren von Daten und Parametern bringt abnehmende Erträge[2]. Dieser Wandel hat eine erneute Überprüfung ausgelöst, wie wir weitere Intelligenz und Nutzen aus KI ziehen können.

Ein aufkommender Konsens ist, dass Reinforcement Learning (RL) in dieser nächsten Phase eine übergroße Rolle spielen wird. RL wurde lange als das „Endspiel“ der KI angesehen – ein Rahmenwerk, das stark genug ist, um schließlich beliebige Aufgaben zu meistern, indem es langfristige Belohnungen optimiert[4]. Tatsächlich ist es schwer, sich übermenschliche Systeme wie AlphaGo oder AlphaStar ohne RL im Kern vorzustellen[4]. Jetzt, mit großen vortrainierten Modellen als Grundlage, argumentieren viele Forscher, dass „Vortraining vorbei ist“ – die zukünftigen Durchbrüche werden durch das Nachtraining dieser Modelle in interaktiven Umgebungen mittels RL kommen. Wie ein kürzlich erschienener Essay es ausdrückte: Sobald wir massive vortrainierte Modelle (die „Priors“) und geeignete Umgebungen haben, „könnte der RL-Algorithmus der trivialste Teil“ beim Aufbau fortschrittlicher Agenten sein[5]. Mit anderen Worten, wir haben den Kuchen mit Vortraining gebacken; Reinforcement Learning ist der Schlüssel, um ihn mit Vernunft und Handlungsfähigkeit zu „glasieren“.

Shunyu Yao artikuliert in The Second Half dieses Ethos. Er stellt fest, dass moderne KI bereits ein „funktionierendes Rezept“ bietet – großangelegte Sprachmodellvorbereitung + Skalierung + Schlussfolgerungen –, das viele Aufgaben ohne neue Algorithmen lösen kann[2][6]. Das Spiel hat sich also geändert: Einfach eine weitere Architektur zu erfinden, wird nicht mehr die Sprünge bringen, die es einst tat. Stattdessen müssen wir uns auf Evaluierung und Umgebungen konzentrieren – im Wesentlichen auf Aufgaben, die die KI wirklich denken und handeln lassen, anstatt nur das nächste Token vorherzusagen[7][8]. Und das bedeutet unvermeidlich die Nutzung von RL. Yao nennt RL „das Endspiel der KI“ und argumentiert, dass jetzt, da wir die richtigen Zutaten haben (starke Vorerfahrungen aus der Vorbereitungsphase, plus reichhaltigere Umgebungen mit Sprache und Werkzeugen), „das Rezept das Spiel in dieser zweiten Hälfte komplett verändert“[1]. Wir sollten einen Wechsel von statischen Benchmarks zu interaktiven Aufgaben erwarten und von einmaligen Bewertungen zu kontinuierlichem Lernen in freier Wildbahn. Kurz gesagt, wird Reinforcement Learning zentral für die Weiterentwicklung der KI von nun an.

RL als Schlüssel zur Freischaltung fortgeschrittener Fähigkeiten

Warum der erneute Fokus auf RL? Einfach gesagt, verstärkendes Lernen ermöglicht Fähigkeiten, die mit überwachten Lernen allein nicht leicht zu erreichen sind. Große Sprachmodelle (LLMs) sind ein Paradebeispiel. Ein Transformer wie GPT-4, vortrainiert auf Internettexten, lernt eine enorme Menge an Wissen und Mustererkennung in der Sprache – doch ihm fehlt immer noch die echte Handlungsfähigkeit. Das Vortraining lehrt „wie man spricht“, aber nicht unbedingt welche Entscheidungen in einer interaktiven Umgebung zu treffen sind. Im Gegensatz dazu kann RL einer KI beibringen, welche Ziele sie verfolgen und welche Maßnahmen sie ergreifen soll, um diese zu erreichen, indem es Belohnungen maximiert, die diese Ziele widerspiegeln. Dieser Wechsel vom passiven Vorhersagen zum aktiven Experimentieren und Feedback erhalten ist entscheidend für Schlussfolgerungen, Planung und Ausrichtung.

Kürzliche Arbeiten an LLM-basierten Agenten zeigen, wie RL neue Leistungsniveaus erschließt. Zum Beispiel wurde das Open-Source-Modell Kimi K2 end-to-end mit Reinforcement Learning feinabgestimmt, was „dem Modell beibringt, durch lange Argumentationsketten zu planen, zu reagieren und sich selbst zu korrigieren, anstatt sich ausschließlich auf überwachte Nachschulungen zu verlassen“[9]. Durch RL erwarb K2 autonome Denkweisen – es lernt, Fakten zu überprüfen, Hypothesen zu iterieren und vorsichtig zu bleiben, selbst wenn eine Frage einfach erscheint[10]. Das Ergebnis ist ein Modell, das nicht nur Trainingsdaten wiedergibt, sondern aktiv herausfindet, wie es neue Probleme lösen kann. Ebenso betont das K2-Projekt die Zuverlässigkeit: Der Agent zieht es vor, Antworten zu verifizieren, bevor er sie abschließt, was eine RL-geschulte Tendenz widerspiegelt, Korrektheit vor Geschwindigkeit zu maximieren[11]. Im Wesentlichen hat Reinforcement Learning dem Modell eine interne „agentische“ Schleife des Planens und Reflektierens eingehaucht, die es über die Grenzen der nächsten Token-Vorhersage hinausführt.

Wir sehen dieses Muster auch bei anderen fortgeschrittenen Systemen. ChatGPTs eigene Verbesserung von GPT-3 kam hauptsächlich durch Reinforcement Learning aus menschlichem Feedback (RLHF). Nachdem das Modell auf Text vortrainiert wurde, verfeinerte OpenAI es mit menschlichem Feedback und Belohnungsmodellen, was seine Hilfsbereitschaft und Befolgung von Anweisungen erheblich verbesserte. John Schulman – ein leitender Forscher bei ChatGPT – beschreibt diesen Prozess: menschliche Tester gaben ein Belohnungssignal, das das Modell viel besser darin machte, kohärente Gespräche zu führen, auf Kurs zu bleiben und unerwünschte Ausgaben zu vermeiden[12]. Mit anderen Worten, RLHF richtete das Modell an menschlichen Vorlieben und Gesprächsnormen aus. Diese Technik ist zu einem de facto Standard geworden, um rohe LLMs in hilfreiche Assistenten zu verwandeln. Wie ein WIRED-Artikel feststellt, ist Reinforcement Learning jetzt eine „zunehmend beliebte“ Methode zur Feinabstimmung von Modellen, indem sie belohnungsbasiertes Feedback erhalten, um zu optimieren[13]. Egal, ob es darum geht, einen Chatbot dazu zu bringen, Anweisungen zu befolgen, oder einem großen Modell Problemlösungsfähigkeiten zu verleihen, RL ist das bevorzugte Werkzeug, sobald das Vortraining alles getan hat, was es kann.

Die Bedeutung von RL geht über das bloße Feinabstimmen für Höflichkeit hinaus; es geht darum, Modelle zur Entscheidungsfindung zu lehren. Ein aktueller technischer Blog von Macaron AI’s Mind Labs fasste dies zusammen: „Da sich LLMs über das Pre-Training hinaus in Richtung erfahrungsbasiertes Lernen weiterentwickeln, hat sich Reinforcement Learning als Schlüssel zur Freischaltung fortschrittlicher Argumentationsfähigkeiten herauskristallisiert.“[14] Anstatt RL als Nachgedanken zu behandeln, sehen fortschrittliche Projekte es als „erstklassigen Gestaltungspfeiler für agentisches Verhalten, nicht nur als letzten Polierschritt“[15]. Praktisch bedeutet das, KI-Systeme zu trainieren, indem man sie in simulierte oder reale Umgebungen versetzt, in denen sie handeln, Feedback erhalten und sich verbessern müssen – sei es ein LLM-Agent, der Werkzeuge durchsucht, oder ein Roboter, der das Navigieren lernt. Erfahrungsbasiertes Lernen durch RL ist der Weg, wie KI Fähigkeiten erwirbt, die in statischen Datensätzen nicht erfasst werden können.

Es ist bezeichnend, dass neue KI-Labore sich um diese Philosophie herum bilden. Thinking Machines Lab, ein Startup, das von ehemaligen OpenAI-Führern gegründet wurde, startete gerade mit einer beeindruckenden Seed-Bewertung von 2 Milliarden Dollar, um Werkzeuge für das Feintuning von fortschrittlichen Modellen mittels RL und anderen Techniken zu entwickeln. Ihr Flaggschiff-Produkt „Tinker“ zielt darauf ab, das RL-Feintuning von großen Modellen zu automatisieren, in der Überzeugung, dass es der nächste große Trend in der KI sein wird, viele Menschen zu befähigen, „neue Fähigkeiten aus großen Modellen herauszukitzeln, indem sie Reinforcement Learning nutzen“. Ebenso entwirft Macaron AI (eine neue Forschungseinrichtung) maßgeschneiderte RL-Optimierer und Infrastrukturen, um RL auf Modelle mit Billionen von Parametern zu skalieren. Solche Bemühungen unterstreichen einen breiteren Trend: Die KI-Community sieht riesige Chancen im RL, um Modelle zu neuen Grenzen zu bringen – sei es, sie werkzeugbenutzender und vernünftiger zu machen (wie bei Kimi K2 und Macarons Agenten) oder besser abgestimmt und individuell angepasst (wie bei ChatGPT und Tinker). Zusammengefasst wird RL jetzt als eine Schlüsseltechnologie betrachtet, um das volle Potenzial der in den letzten zehn Jahren entwickelten Grundmodelle zu realisieren.

Reale Auswirkungen: Von Simulationen zu Satelliten

Vielleicht der überzeugendste Grund für den zunehmenden Stellenwert von RL ist sein Erfolg bei der Bewältigung von Problemen jenseits des Sandkastens statischer Datensätze – oft erzielt es Leistungen, die lange Zeit unerreichbar waren. Meilensteine im Spiel waren der erste dramatische Beweis: DeepMinds AlphaGo, AlphaZero und OpenAIs Five eroberten Go, Schach und sogar komplexe Videospiele durch tiefes Reinforcement Learning. Diese Systeme zeigten, dass RL-Agenten, wenn sie eine klar definierte Belohnung (wie das Gewinnen eines Spiels) erhalten, menschliche Meister durch reines Üben und Optimieren übertreffen können[4]. Bemerkenswert war der Sieg von OpenAI Five über das Weltmeister-Dota-2-Team im Jahr 2019, der durch reines Selbstspiel-RL im beispiellosen Maßstab erreicht wurde – und die „überraschende Kraft“ der heutigen RL-Algorithmen demonstrierte, wenn genügend Erfahrung bereitgestellt wird[20]. Dieses Projekt hob sowohl das Potenzial als auch die Herausforderungen von RL hervor: Es erforderte massive Simulationen (entsprechend Hunderten von Jahren Spielzeit) und geniale Ingenieurskunst, um zu funktionieren, aber es funktionierte – es produzierte Teamarbeit und Strategien, die über das hinausgingen, was jede regelbasierte KI leisten konnte.

ADCS-Box (Attitude Determination and Control System) wird im Qualifikationsmodell des InnoCube-Satelliten installiert.

Entscheidend ist, dass RL nicht mehr auf Spiele beschränkt ist. Ein wegweisender Erfolg im Jahr 2022 war, als DeepMind tiefes RL nutzte, um ein Fusionsplasma in Echtzeit zu steuern, etwas, das zuvor mit manuellen Steuerungen unmöglich war. Durch das Training in einem Simulator und die anschließende Implementierung in einem Tokamak-Reaktor lernte ihr Agent, magnetische Spulen zu manipulieren, um das Plasma einzudämmen, und erlernte erfolgreich die autonome Stabilisierung einer Fusionsreaktion[21]. Dies zeigte, wie RL hochdimensionale, dynamische Steuerungsprobleme in der Physik lösen kann – neue Wege für die wissenschaftliche Forschung zu eröffnen, die auf präzise sequenzielle Entscheidungsfindung angewiesen ist[21].

Ein weiteres Gebiet, in dem RL seine reale Stärke unter Beweis stellt, ist die Interaktion zwischen mehreren Agenten und die Spieltheorie. Ein bemerkenswertes Beispiel ist Metas CICERO, die erste KI, die menschliches Leistungsniveau im Spiel Diplomacy erreicht hat, das Verhandlungen und den Aufbau von Allianzen zwischen mehreren Spielern erfordert. CICERO kombiniert ein LLM für Sprache mit einem RL-trainierten Planungsmodul; es muss Strategien entwickeln, die Absichten anderer Spieler modellieren und überzeugend dialogisieren. Das Ergebnis war ein Durchbruch – CICERO konnte effektiv mit Menschen kooperieren und konkurrieren, selbst in Anwesenheit von Lügen und Täuschungen. Wie Beobachter feststellten, ist es „die erste KI, die menschliches Leistungsniveau in Diplomacy erreicht hat, einem Strategiespiel, das Vertrauen, Verhandlung und Kooperation mit mehreren Spielern erfordert.“[22] Dies geht über Brettspiel-Taktiken hinaus; es deutet darauf hin, dass RL-Agenten in der Lage sind, soziale Strategien und dynamische spieltheoretische Umgebungen zu bewältigen. Solche Fähigkeiten sind entscheidend für KI, die eines Tages möglicherweise Wirtschaften, Verhandlungen oder komplexe organisatorische Entscheidungen navigieren könnte.

Schließlich und vielleicht am dramatischsten, wagt sich das RL vollständig von der Erde weg. Im vergangenen Jahr haben Forscher etwas erreicht, das nur als Science-Fiction, die real geworden ist, beschrieben werden kann: autonome Satelliten und Roboter im Orbit, die durch Reinforcement Learning gesteuert werden. In einem Experiment des U.S. Naval Research Lab auf der Internationalen Raumstation übernahm ein RL-Algorithmus (im Simulator trainiert) die Kontrolle über einen Astrobee-Freiflugroboter und führte erfolgreich autonome Manöver in der Mikrogravitation durch[23][24]. Das Team des NRL stellte fest, dass dies die „erste autonome Robotersteuerung im Weltraum mit Reinforcement-Learning-Algorithmen“ ist und das Vertrauen stärkt, dass RL mit den schwierigen Bedingungen von Weltraumoperationen umgehen kann[23]. Noch kürzlich, am 30. Oktober 2025, erreichte ein Team der Universität Würzburg eine weltweit erste Demo im Orbit: ihr kleiner InnoCube-Satellit führte ein Haltungsanpassungsmanöver vollständig unter der Kontrolle eines an Bord befindlichen RL-Agenten aus[25][26]. Wie der leitende Forscher sagte, „wir haben den weltweit ersten praktischen Beweis erbracht, dass ein mit Deep Reinforcement Learning trainierter Satelliten-Haltungsregler erfolgreich im Orbit operieren kann.“[26] Dies ist ein Wendepunkt – RL hat den Sprung von Simulationen und Laboren zur Steuerung physischer Systeme im Weltraum geschafft. Der KI-Controller wurde in einem hochpräzisen Simulator trainiert und auf den Satelliten hochgeladen, wo er präzise Orientierungstätigkeiten ohne menschliches Eingreifen durchführte[27][28]. Der übliche monatelange Prozess der Feinabstimmung eines Steuerungsalgorithmus für Satelliten wurde durch einen RL-Agenten ersetzt, der sich spontan anpassen kann[29]. Diese Erfolge in der Weltraumrobotik unterstreichen die Fähigkeit von RL, Politiken zu entwickeln, die sich unter realen Unsicherheiten anpassen und verallgemeinern – ein wichtiger Meilenstein auf dem Weg zu autonomeren Fahrzeugen, Drohnen und Robotern hier auf der Erde.

Auswirkungen und zukünftige Entwicklungen

All diese Beispiele unterstreichen einen entscheidenden Punkt: Das Verstärkungslernen wird gerade jetzt erwachsen, wo wir es am dringendsten benötigen. Während sich KI in die „zweite Hälfte“ bewegt, wo es nicht nur um Vorhersagen, sondern um Leistung geht, bietet RL den Rahmen für Experimentieren, Anpassen und langfristige Optimierung. Anders als das überwachte Lernen, das an vergangene Daten gebunden ist, ermöglicht RL Systemen, aus eigener Erfahrung zu lernen und sich durch Versuch und Irrtum zu verbessern. Dies ist essenziell für jede KI, die in unstrukturierten, neuen Situationen agieren muss – sei es ein Assistent, der eine neue Nutzeranfrage löst, oder ein Roboter, der mit unerwarteten Hindernissen zurechtkommt.

Es gibt auch tiefere Implikationen dafür, wie wir den Fortschritt in der KI messen. Wir können uns nicht mehr ausschließlich auf statische Benchmarks verlassen, um die Intelligenz eines Modells zu bewerten. Stattdessen schlagen Forscher neue Bewertungsansätze vor, die die reale Welt widerspiegeln: kontinuierliche Aufgaben, Mensch-in-der-Schleife-Interaktionen und nicht-i.i.d.-Szenarien[8][30]. Durch die Kombination solcher reichen Umgebungen mit RL-Training zwingen wir unsere Modelle, robustere und generalisierbare Verhaltensweisen zu entwickeln. In den Worten von Yao wird die zweite Hälfte darin bestehen, Agenten zu schaffen, die aus der Benchmark-Schleife ausbrechen und tatsächlich praktischen Nutzen in der realen Welt liefern[31][32]. Der Ansturm auf Investitionen in RL-zentrierte Labore und die schnelle Einführung von RLHF in der Industrie spiegeln die Erkenntnis wider, dass jetzt der Zeitpunkt gekommen ist, diesen Sprung zu machen.

Das gesagt, die Annahme von RL kommt nicht ohne Herausforderungen. Das Training von RL kann instabil und ressourcenintensiv sein (ein Beispiel hierfür sind die kostspieligen Trainings von OpenAI Five [20]). Es erfordert oft schnelle Simulationen oder Umgebungen, in denen Fehler billig sind – etwas, das in hochriskanten Bereichen nicht immer verfügbar ist. Dennoch werden auch in diesen Bereichen Fortschritte gemacht. Neue Algorithmen und Frameworks (wie Macarons All-Sync RL mit DAPO-Optimierungen) verbessern die Effizienz des großflächigen RL-Trainings dramatisch [19][33]. Techniken wie sim2real Transfer, Belohnungsmodellierung und sicherere Erkundungsstrategien helfen RL-Systemen, den Sprung zu realen Einsätzen ohne katastrophale Ausfälle zu schaffen [34][35]. Wichtig ist, dass die Gemeinschaft lernt, wie man RL mit anderen Paradigmen mischt – zum Beispiel, indem Sprachmodelle als Kritiker oder Planer verwendet werden, menschliche Demonstrationen zur Führung des RL herangezogen werden (eine Art hybrides Imitationslernen) und mehr. Diese hybriden Ansätze bieten oft das Beste aus beiden Welten: das Wissen aus dem Vortraining und die Entscheidungsfindung des Reinforcement Learning.

Zusammenfassend lässt sich sagen, dass der Fokus auf Reinforcement Learning jetzt nicht eine Frage des Hypes um seiner selbst willen ist – es ist eine Anerkennung dessen, wo die Bedürfnisse und Chancen liegen. Wir stehen an einem Punkt, an dem unsere KI-Systeme über enorme latente Fähigkeiten verfügen (dank des Vortrainings), und der Weg, um diese Fähigkeiten zu aktivieren, ist das zielgerichtete Lernen. Ob es darum geht, das Verhalten von KI mit menschlichen Werten in Einklang zu bringen, Robotern echte Autonomie zu verleihen oder KI dazu zu bringen, neue wissenschaftliche und technische Probleme zu lösen – RL bietet die Werkzeuge, um KI durch Feedback iterativ zu verfeinern und zu verbessern. Wir erleben den Übergang von einer Ära des passiven Lernens zu einer des aktiven Lernens und Handelns. Wie das Sprichwort sagt: „Was uns hierher gebracht hat, wird uns nicht dorthin bringen.“ Das schwere Heben des Repräsentationslernens könnte größtenteils durch riesige Modelle erledigt sein, aber diese Modelle in nützliche, adaptive und vertrauenswürdige Agenten zu verwandeln – das ist die Arbeit des Reinforcement Learnings. Indem wir jetzt in RL-Forschung und -Anwendungen investieren, gehen wir im Wesentlichen die harten Probleme direkt an: KI zu entwickeln, die in Schritten denken, Alternativen erkunden, sich von Fehlern erholen und letztendlich offene Aufgaben meistern kann. Im großen Verlauf der KI ist dieser Wandel so bedeutsam wie die Deep-Learning-Revolution der 2010er Jahre. Die zweite Hälfte hat gerade erst begonnen, und Reinforcement Learning ist bereit, ihre treibende Kraft zu sein.

Referenzen:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]


[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] Die zweite Hälfte – Shunyu Yao – 姚顺雨

https://ysymyth.github.io/The-Second-Half/

[9] [10] [11] [15] Einführung Kimi K2 Thinking | Blog

https://kimik2thinking.org/blog/introducing-kimi-k2-thinking

[12] [13] [16] [17] Exklusiv: Mira Murati’s geheimes AI-Labor startet sein erstes Produkt | WIRED

https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/

[14] [19] MIND LABS | Skalierung von All-Sync RL mit DAPO und LoRA

https://mindlabs.macaron.im/

[18] Eine Macaron-Analyse: Kimi K2 「Thinking」 Modell: Fortschritt in der offenen agentischen KI - Macaron

https://macaron.im/blog/kimi-k2-thinking

[20] OpenAI Five besiegt Dota 2 Weltmeister | OpenAI

https://openai.com/index/openai-five-defeats-dota-2-world-champions/

[21] Beschleunigung der Fusionswissenschaft durch erlernte Plasmakontrolle - Google DeepMind

https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/

[22] CICERO: KI in Diplomatie und Beziehungen | blog_posts – Weights & Biases

https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5

[23] [24] [34] [35] Reinforcement Learning sorgt für Aufsehen im Weltraum > U.S. Naval Research Laboratory > NRL Nachrichten

https://www.nrl.navy.mil/Media/News/Article/4297593/reinforcement-learning-is-making-a-buzz-in-space/

[25] [26] [27] [28] [29] Weltpremiere im All: Würzburger KI steuert Satelliten -

https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/

Boxu erwarb seinen Bachelor-Abschluss an der Emory University mit Schwerpunkt Quantitative Ökonomie. Bevor er zu Macaron kam, verbrachte Boxu den Großteil seiner Karriere im Bereich Private Equity und Venture Capital in den USA. Er ist nun der Stabschef und VP für Marketing bei Macaron AI, verantwortlich für Finanzen, Logistik und Betrieb sowie die Überwachung des Marketings.

Bewerben, um zu werden Macarons erste Freunde