Von Skalierung zu erfahrungsbasierter Intelligenz: Ilya Sutskevers Vision & Macarons Ansatz

Autor: Boxu Li

Das Ende der „Skalierungs“-Ära und eine Rückkehr zur Forschung

In einem kürzlichen Gespräch mit Dwarkesh Patel reflektierte Ilya Sutskever – Mitbegründer von OpenAI und nun Leiter des Startups Safe Superintelligence (SSI) – über den Stand der KI und ihre zukünftige Entwicklung. Sutskever behauptet, dass die KI-Branche die Ära des „einfach größer machen“ hinter sich lässt und in ein Zeitalter der Grundlagenforschung zurückkehrt[1]. Zwischen etwa 2012 und 2020 wurde der Fortschritt im Deep Learning durch neue Ideen vorangetrieben (das „Zeitalter der Forschung“), gefolgt von 2020–2025 mit einem Schwerpunkt auf der Skalierung von Daten und Parametern (das „Zeitalter der Skalierung“)[1]. Doch nun bringen einfach nur größere Modelle oder Datensätze abnehmende Erträge. Wie Sutskever es unverblümt ausdrückt: „Wenn man einfach das 100-fache der Skalierung erreicht, wird [nicht] alles transformiert… es ist wieder das Zeitalter der Forschung, nur mit großen Computern.“[2][3]. Mit anderen Worten, zukünftige Durchbrüche werden nicht aus bloßer Skalierung resultieren, sondern aus neuen Trainingsrezepten und intelligenteren Algorithmen.

Ein zentrales Problem, das diesen Wandel motiviert, ist das, was Sutskever als Generalisierungslücke bezeichnet. Die heutigen großen Modelle können zwar Benchmarks meistern, stolpern jedoch immer noch bei praktischen Aufgaben – ein Paradox, das zunehmend offensichtlich wird. „Diese Modelle generalisieren irgendwie drastisch schlechter als Menschen. Es ist super offensichtlich. Das scheint eine sehr grundlegende Sache zu sein,“ bemerkt Sutskever[4]. Modelle, die bei Programmierwettbewerben oder Sprachprüfungen Bestnoten erzielen, können dennoch bizarre Fehler machen – denselben Fehler immer wieder zu beheben oder bei einfachen, gesunden Menschenverstandentscheidungen zu scheitern – die kein kompetenter Mensch machen würde[4][5]. Dies unterstreicht eine Fragilität: Neuronale Netzwerke verstehen oder passen sich nicht so robust an wie Menschen, trotz ihrer beeindruckenden, engen Fähigkeiten. Wie eine Zusammenfassung von Sutskevers Vortrag erklärt, selbst wenn wir Modelle gebaut haben, die bei Bewertungen gut abschneiden, bleibt ihre Zuverlässigkeit in der realen Welt „eine Fragilität, die durch … hohe Leistung bei Bewertungen im Gegensatz zu Fehlern in der realen Welt belegt wird.“[6]

Warum scheitern aktuelle Modelle bei der Generalisierung? Sutskever schlägt vor, dass dies teilweise ein Artefakt unseres Trainingsparadigmas ist. Im Zeitalter des groß angelegten Vortrainings haben wir dem Modell einfach alles (Internet-Text im großen Maßstab) zugeführt und gehofft, dass die Datenbreite zu umfassenden Fähigkeiten führt. Das hat es – bis zu einem gewissen Punkt. Nach dem Vortraining verfeinern Unternehmen die Modelle mit Reinforcement Learning (RL) auf spezifische Benchmarks oder Benutzeranweisungen. Sutskever vermutet, dass diese RL-Phase oft dazu führt, dass Modelle übermäßig spezialisiert werden, um bei Tests gut abzuschneiden, anstatt ihr Verständnis wirklich zu verbessern[7]. In seinem Gespräch gibt er ein anschauliches Beispiel: Ein „Schüler“ (analog zu einem KI-Modell) verbringt 10.000 Stunden damit, Probleme im Bereich des Wettbewerbsprogrammierens zu üben, und wird ein Genie bei Programmierwettbewerben, während ein anderer Schüler bescheidener übt und sich auf ein breiteres Verständnis der Informatik konzentriert[8][9]. Der erste könnte Wettbewerbe gewinnen, aber der zweite wird ein vielseitigerer Ingenieur in der realen Welt. Die heutigen Modelle sind wie der übermäßig vorbereitete Spezialist – sie glänzen in den engen Bedingungen, für die sie abgestimmt wurden, aber ihnen fehlt der „Ich-Faktor“, den Menschen haben, um Fähigkeiten auf neue, komplexe Probleme anzupassen[10][11]. Kurz gesagt, unsere KIs haben noch nicht die robuste, fließende Generalisierung erreicht, die wir Menschen durch ein Leben voller Erfahrungen erlangen.

Warum Menschen besser lernen: Stichproben-Effizienz und kontinuierliches Lernen

Ein zentrales Thema in Sutskevers Diskussion ist die Mustererkennungseffizienz des menschlichen Lernens. Menschen benötigen erstaunlich wenig Daten, um komplexe Aufgaben zu erlernen. Zum Beispiel hat Yann LeCun darauf hingewiesen, dass ein Teenager vielleicht 10 Stunden braucht, um Autofahren zu lernen – ein verschwindend kleiner Datensatz nach AI-Maßstäben[12]. Kinder lernen, Autos (und tausende andere Konzepte) allein durch alltägliche Erfahrungen zu erkennen[12]. Im Gegensatz dazu benötigen aktuelle KI-Modelle oft riesige Datensätze und können dennoch nicht mit der menschlichen Flexibilität mithalten. Sutskever bemerkt, dass die Evolution uns mit einigen nützlichen induktiven Voreinstellungen ausstattet – z.B. haben Millionen von Jahren der Sicht- und Bewegungsentwicklung unser Gehirn geprägt – aber das allein ist nicht die ganze Geschichte[13][12]. Selbst in Bereichen, die nicht von der Evolution geschärft wurden (wie Lesen, Mathematik oder Programmieren), lernen Menschen heute schneller als Algorithmen[14][15]. Das deutet darauf hin, dass „was auch immer Menschen gut im Lernen macht“ über reines eingebautes Wissen hinausgeht – wir haben einen grundsätzlich effizienteren Lernalgorithmus[14][15].

Was könnte dieser Algorithmus sein? Ein Hinweis, argumentiert Sutskever, ist, dass Menschen kontinuierlich und interaktiv lernen, nicht in einem einzigen großen Schwung. Wir nehmen keine Terabytes von Text auf und frieren dann unser Gehirn ein; stattdessen lernen wir aus laufenden Erfahrungen und aktualisieren ständig unser Wissen. Er weist darauf hin, dass ein Mensch im Alter von 15 Jahren weitaus weniger Gesamtdaten aufgenommen hat als das Korpus eines großen Sprachmodells, und dennoch erreichen wir mit 15 ein tieferes Verständnis und machen weitaus weniger offensichtliche Fehler[16][17]. Der Unterschied ist, dass Menschen ein Leben lang weiter lernen – wir betrachten unsere „Trainingsphase“ nicht als abgeschlossen in der Jugend. „Ein Mensch ist keine AGI… stattdessen verlassen wir uns auf kontinuierliches Lernen“, sagt Sutskever und betont, dass selbst eine superintelligente KI eher wie ein 15-jähriges Wunderkind eingesetzt werden müsste als ein allwissendes Orakel[18][19]. Eine solche KI hätte eine solide Grundlage, aber „es fehlt ihr zunächst an einer riesigen Menge Wissen“ – sie würde dann im Job lernen in verschiedenen Rollen, genau wie ein kluger junger Mensch in die Welt hinausgeht, um als Arzt oder Ingenieur zu trainieren[19][20]. Tatsächlich ist Sutskevers Vision einer sicheren Superintelligenz ausdrücklich kein statisches Modell, das „weiß, wie man jeden Job macht“, sondern ein System, das „lernen kann, jeden einzelnen Job zu machen“ und sich ständig verbessert[20][21]. Mit anderen Worten, echter KI-Erfolg könnte bedeuten, Meister des Lernens zu schaffen, nicht nur Meister einer festen Aufgabe.

Ein weiterer Aspekt des menschlichen Lernens sind unsere eingebauten Feedback-Mechanismen. Menschen haben Emotionen und Intuitionen, die wie ein internes Belohnungssignal wirken und uns beim Erlernen neuer Fähigkeiten leiten. Sutskever erzählt von einem bemerkenswerten Fall: Ein Mann, der aufgrund einer Gehirnschädigung die Fähigkeit verloren hatte, Emotionen zu empfinden, wurde katastrophal schlecht im Entscheiden und hatte Schwierigkeiten, selbst einfache Entscheidungen wie die Wahl der Socken zu treffen[22][23]. Ohne emotionale Hinweise hatte er kein inneres Gefühl für Wichtigkeiten. Dies deutet darauf hin, dass unser Gehirn eine Art Wertfunktion nutzt – eine laufende Einschätzung, wie gut die Dinge laufen – um effizient zu lernen und Entscheidungen zu treffen[24][25]. Im Bereich des verstärkenden Lernens warten wir nicht bis zum Ende einer Erfahrung, um eine Belohnung zu erhalten; wir erzeugen intrinsische Belohnungen in Zwischenschritten (Freude, Frustration, Neugier usw.), was das Lernen enorm beschleunigt. Sutskever argumentiert, dass den heutigen RL-Algorithmen diese Vielfalt fehlt – sie warten oft auf eine Endpunktzahl und sind daher bei Aufgaben mit langer Laufzeit extrem ineffizient[26][27]. „Wenn man etwas macht, das lange dauert... wird es bis zum [Ende] überhaupt nichts lernen“, erklärt er über naives RL[28]. Die Lösung besteht darin, KI-Agenten ein besseres Fortschrittsgefühl zu geben – eine Wertfunktion, um lange Feedback-Verzögerungen zu überbrücken[29][30]. Die Einbeziehung solcher interner Feedbacks könnte das Training viel effizienter machen. Sutskever vergleicht es sogar damit, wie Emotionen für Menschen funktionieren[31] und nennt es eine vielversprechende Richtung, um „Ihre Rechenleistung produktiver zu nutzen“ als durch bloßes Ausprobieren[30]. Zusammengefasst könnte eine Kombination aus kontinuierlichem Lernen und reichhaltigerer Selbstüberwachung (Wertsignale) der Schlüssel zur Schließung der Generalisierungslücke sein.

Wichtige Erkenntnis: Aktuelle KI-Modelle benötigen weit mehr Daten als Menschen und sind dennoch nicht so anpassungsfähig. Menschen lernen effizient, indem sie kontinuierlich Erfahrungen sammeln und mithilfe interner Rückmeldungen (unserer „emotionalen“ Wertfunktion) ihr Lernen steuern. Der Aufbau von KI, die auf ähnliche interaktive und inkrementelle Weise lernt – und die ihren eigenen Fortschritt beurteilen kann – könnte die Generalisierungsfähigkeit erheblich verbessern[32][4].

Über das Vortraining hinaus: Auf dem Weg zur Erfahrungsintelligenz

Diese Erkenntnisse stimmen tief mit unserer Philosophie bei Macaron AI überein. Wir fassen es oft in einem Satz zusammen: Wahre Intelligenz lernt aus realen Erfahrungen. Anstatt sich ausschließlich auf größere Modelle oder größere Offline-Datensätze zu verlassen, konzentriert sich die Forschung von Macaron auf erfahrungsbasiertes Lernen – das Training von KI durch aktive Interaktionen, Feedback und langfristiges Gedächtnis, ähnlich wie ein Mensch im Laufe der Zeit Fähigkeiten erlangt. Dieser Ansatz, den wir Erfahrungsintelligenz nennen, dreht sich um Modelle, deren Fähigkeiten sich aus der Qualität und Vielfalt der Erfahrungen entwickeln, die sie lernen, und nicht nur aus der Menge der Daten, die sie aufnehmen. Es ist ein bewusster Abschied von der Ära des blinden Skalierens. Wie Sutskever selbst betonte, bringt das bloße Anhäufen von mehr Daten oder Parametern abnehmende Erträge[2]; der nächste Sprung nach vorn wird von Algorithmen kommen, die durch die Nutzung der richtigen Erfahrungen mehr aus weniger lernen können.

Konkret hat die Mind Lab-Forschungsabteilung von Macaron Pioniertechniken entwickelt, um kontinuierliches, feedbackgesteuertes Lernen in großen Modellen zu ermöglichen. Wir werfen unser Basismodell nicht weg und trainieren für jedes Upgrade ein neues Modell von Grund auf neu. Stattdessen erweitern wir starke Basismodelle mit iterativem Nachtraining: Verstärkungslernen bei realen Aufgaben, feedbackgesteuertes Lernen mit Mensch-in-der-Schleife und Integration von Langzeitspeicher. Zum Beispiel war unser Team kürzlich das erste weltweit, das eine hochleistungsfähige RL-Feinabstimmung an einem 1-Billionen-Parameter-Open-Source-Modell durchgeführt hat – mit parameter-effizienten LoRA-Adaptern – und dabei nur ~10% des üblichen GPU-Budgets verbraucht hat. Dies war ein Durchbruch in der Machbarkeit von großskaligem Nachtraining. Im Wesentlichen haben wir gezeigt, dass einem kolossalen Modell neue Erfahrungen zu geben (und daraus zu lernen) um Größenordnungen effizienter durchgeführt werden kann als mit naiven Methoden. Das Ergebnis? Anstatt nur eine leicht niedrigere Perplexität auf statischen Daten zu erzielen, haben wir dem Modell durch Interaktion neue Fähigkeiten beigebracht – und das auf eine praktikable, kosteneffiziente Weise. (Bemerkenswerterweise haben wir die Techniken dahinter als Open Source veröffentlicht und zu populären Trainingsframeworks wie NVIDIAs Megatron und ByteDances VEGA beigetragen, damit die breitere Gemeinschaft darauf aufbauen kann.)

Gedächtnis: Weisheit im Vergessen lernen

Ein weiterer Pfeiler von Macarons Ansatz ist das Gedächtnis – nicht im banalen Sinne eines Chat-Verlaufsfensters, sondern als ein erlernter Bestandteil des Modells, der im Laufe der Zeit Wissen ansammelt und kuratiert. Menschen behandeln nicht jede Information gleichwertig; wir erinnern uns an wichtige Ereignisse und vergessen den Rest bereitwillig. Diese Fähigkeit, weise zu vergessen, ist entscheidend, um langfristige Abhängigkeiten ohne Überlastung zu bewältigen. Inspiriert davon haben unsere Forscher ein neuartiges Gedächtnissystem namens Memory Diffusion entwickelt. Anders als bei brutalen Caching- oder Abrufmethoden lehrt Memory Diffusion das Modell, wie sich Informationen über ein langes Gespräch oder eine Nutzungsgeschichte hinweg entwickeln sollten. Das Modell lernt, irrelevante Details zu „diffundieren“ und die wesentlichen Fakten zu schärfen, während der Kontext wächst. Empirisch hat diese Methode klassische Gedächtnis-Benchmarks (wie Kontext mit fester Länge oder heuristische Abrufe) in Bezug auf die Aufrechterhaltung der Kohärenz über lange Horizonte hinweg übertroffen. Intuitiver gibt es dem Modell eine Art Arbeitsgedächtnis, das priorisiert, was wichtig ist – so wie Ihr Gehirn die Werbetafeln, die Sie auf Ihrem Weg passiert haben, schnell vergisst, aber behält, wohin Sie unterwegs sind und warum. Indem das Modell lernt, welche Signale zu behalten und welche loszulassen sind, erhalten wir ein System, das wichtige Erkenntnisse von einer Aufgabe zur nächsten weitertragen kann und so kontinuierliches Lernen ermöglicht. Dieser Gedächtnismechanismus ist zu einem Schlüsselelement in der Architektur von Macarons Agenten geworden, neben unseren Fortschritten in der Argumentation und der Nutzung von Werkzeugen. Es ist ein weiteres Beispiel dafür, wie wir architektonische Intelligenz über rohe Größe stellen: Anstatt einfach ein Kontextfenster auf 1 Million Tokens zu erweitern (was ineffizient ist), geben wir dem Modell die Möglichkeit, Wissen aus seiner eigenen Erfahrung intelligent zu komprimieren und abzurufen.

Feedback-Schleifen aus der realen Welt

Entscheidend ist, dass Macarons Forschung nicht isoliert von unserem Produkt stattfindet. Wir glauben an eine enge Forschung↔Produkt-Schleife: Verbesserungen im Labor werden direkt durch die Benutzererfahrung validiert, und Erkenntnisse aus dem Produkt informieren neue Forschung. Zum Beispiel protokolliert Macarons persönliche KI-App aktiv anonymisiertes Feedback darüber, wo die Antworten der KI unzureichend sind oder wann Benutzer unzufrieden erscheinen. Diese Signale fließen als zusätzliches Belohnungssignal in unser Verstärkungslernen-Training ein. Wir haben festgestellt, dass Training mit echtem Benutzerfeedback oft größere Verbesserungen der Fähigkeiten bringt als einfach nur mehr Internettexte zum Vortraining hinzuzufügen. Dies stimmt mit Sutskevers Beobachtung überein, dass worauf man trainiert wichtiger sein kann als die Menge – eine kleine Menge gezielter Erfahrungen kann einem Modell etwas beibringen, was Milliarden von statischen Tokens nicht könnten[7]. Indem wir die Schleife zwischen Einsatz und Forschung schließen, stellen wir sicher, dass unsere KI tatsächlich bei den Aufgaben besser wird, die den Menschen wichtig sind. In Sutskevers Worten geben wir unseren Modellen den „Es-Faktor“, der aus der Erfahrung der Welt resultiert, nicht nur aus dem bloßen Auswendiglernen.

Konvergenz: Ein neues Paradigma für KI

Es ist ermutigend zu sehen, dass unter den führenden Persönlichkeiten der KI ein wachsender Konsens besteht, dass kontinuierliches, erfahrungsbasiertes Lernen der Weg in die Zukunft ist. Sutskevers Vision einer Superintelligenz, die wie ein Mensch lernt – ständig und anpassungsfähig – ist genau der Weg, den Macaron verfolgt. Wir sind nicht allein in diesem Wandel. Googles jüngste Pathways-Strategie befürwortet beispielsweise ebenfalls das Training eines Modells für viele Aufgaben und Modalitäten, damit es im Laufe der Zeit neue Fähigkeiten erlernen kann und über rein zweckgebundene Modelle hinausgeht. Forscher wie Jason Wei und Jeff Dean haben die Notwendigkeit von Architekturen diskutiert, die Wissen schrittweise und effizient akkumulieren können, anstatt sich ausschließlich auf gigantische One-Shot-Trainingsläufe zu verlassen. Dies repräsentiert einen breiteren industriellen Trend hin zu dem, was man „lernbasierte KI“ nennen könnte (im Gegensatz zur heutigen modellzentrierten KI). In diesem neuen Paradigma stellt sich die Frage: Wie schnell kann eine KI eine neue Fähigkeit erlernen oder sich an eine neue Situation anpassen? – anstatt wie viele Parameter sie hat oder wie viele Daten zur Vorab-Trainierung verwendet wurden. Nach diesem Maßstab haben die Menschen immer noch die Nase vorn. Aber die Lücke schließt sich.

Bei Macaron AI setzen wir darauf, dass erlebnisorientierte Intelligenz – KI, die aus echten Erfahrungen lernt – die nächste Welle von Leistung und Zuverlässigkeit entfesseln wird. Wir sehen bereits Beweise dafür: Unsere mit Reinforcement Learning und menschlichem Feedback trainierten Modelle schneiden nicht nur besser bei Benchmarks ab, sondern sind vor allem in der Praxis besser auf die Bedürfnisse der Nutzer abgestimmt. Sie machen weniger absurde Fehler und erholen sich eleganter von Missgeschicken, weil ihr Training ihnen beigebracht hat, Fehler zu bemerken und zu korrigieren (ähnlich wie ein Mensch es tun würde). Unsere Gedächtnismechanismen verleihen ihnen ebenfalls eine Kontinuität, die reinen Transformern fehlt, sodass ein Gespräch oder eine Aufgabe über Monate hinweg fortgesetzt werden kann, ohne zurückgesetzt zu werden. All diese Vorteile resultieren daraus, Intelligenz als einen Prozess und nicht als ein statisches Artefakt zu behandeln. Wie Sutskever es ausdrückte, könnte eine eingesetzte KI während der Einführung eine „Lernphase mit Versuch und Irrtum“ durchlaufen – und das ist ein Merkmal, kein Fehler, solange es kontrolliert und abgestimmt ist.

Natürlich ist die Ausrichtung von entscheidender Bedeutung, wenn wir über das eigenständige Lernen von KI sprechen. Interessanterweise schlug Sutskever vor, dass es sogar einfacher sein könnte, eine KI auszurichten, die im Laufe der Zeit wirklich lernt und versteht – möglicherweise eine, die das fühlende Leben wertschätzt und die Welt und andere empathisch modellieren kann – als eine statische Superintelligenz, die hinter verschlossenen Türen trainiert wurde[33]. Wenn eine KI im Austausch mit Menschen aufwächst, besteht die Möglichkeit, menschliche Werte während ihrer Entwicklung zu vermitteln (und Fehltritte zu beobachten und zu korrigieren). Dies spiegelt unsere Ansicht wider, dass Transparenz und schrittweise Einführung der Schlüssel zu sicherer KI sind. Die Macaron-Plattform bietet durch die direkte Einbindung der Nutzer und das Lernen von ihnen einen natürlichen Rahmen für diesen schrittweisen Ansatz. Wir führen absichtlich neue Lernfähigkeiten stufenweise ein, überwachen das Verhalten und sammeln Feedback, anstatt ein im Verborgenen trainiertes Black-Box-Modell freizusetzen. Kurz gesagt, erfahrungsbasiertes Lernen macht KI nicht nur intelligenter – es kann KI auch sicherer und menschlicher ausrichten.

Fazit: Die Erfahrungsintelligenz annehmen

Sowohl die zukunftsorientierte Perspektive von Ilya Sutskever als auch der Entwicklungsweg von Macaron führen zur gleichen Schlussfolgerung: Der nächste Durchbruch in der KI wird ein meisterhafter Lerner sein, nicht nur ein größerer Merker. Eine KI, die aus Erfahrungen lernt, Feedback internalisiert, sich langfristig erinnert und anpasst – im Grunde eine KI, die wachsen kann – ist eine, die sich auf die Unordnung der realen Welt verallgemeinern kann. Dies stellt einen tiefgreifenden Wandel in der Denkweise im Vergleich zu früheren Jahren dar: Es geht nicht nur darum, wie viel Wissen das Modell anfangs hat, sondern wie effektiv es neues Wissen gewinnen kann. Sutskevers Vorstellung eines „superintelligenten 15-Jährigen“ fasst diese Idee zusammen[18][19]. Bei Macaron arbeiten wir daran, gemeinsam mit unserer Benutzer-Community eine solche kontinuierlich lernende KI zu entwickeln.

Die Auswirkungen von experimentellem, kontinuierlichem Lernen durch KI sind umfassend. Technisch bedeutet das eine höhere Mustereffizienz – mehr mit weniger zu erreichen – und Modelle, die sich schnell an jede Domäne oder Verteilung anpassen können. Wirtschaftlich verspricht es KI-Arbeiter, die im Handumdrehen umgeschult werden können, was die Innovation und Produktivität erheblich beschleunigt (Sutskever prognostiziert ein potenziell schnelles Wachstum, sobald sich solche KI verbreitet[34][35]). Und für die Gesellschaft bedeutet es verständlichere KI-Systeme, weil wir sehen werden, wie sie lernen und ihre Entwicklung mitgestalten können, anstatt ein fertig entwickeltes Rätsel vorgesetzt zu bekommen.

Dies zu erreichen wird nicht einfach sein. Es erfordert Fortschritte in Algorithmen, Systemen und unserem theoretischen Verständnis von Lernen. Doch die Puzzleteile fügen sich zusammen: von Wertfunktionen und fortgeschrittenem RL bis hin zu lebenslangen Speicherarchitekturen und menschlicher Einbindung in das Training. Wenn wir diese Teile integrieren, kommen wir einer KI näher, die wirklich auf eigenen Füßen denkt und lernt. Dies ist das Ethos, das Macarons Forschung antreibt, und es steht in enger Übereinstimmung mit der Vision von Führungspersönlichkeiten wie Sutskever. Das Zeitalter des Skalierens hat uns viel gelehrt, aber das Zeitalter der Erfahrungsintelligenz bricht jetzt an. In diesem neuen Zeitalter ist die Grenze nicht nur größere Modelle – es sind intelligentere, anpassungsfähigere, menschlichere Lerner. Und genau das streben wir an zu bauen.

Quellen:

· Interview mit Ilya Sutskever von Dwarkesh Patel (Nov 2025) – Dwarkesh Podcast: „Vom Zeitalter der Skalierung zum Zeitalter der Forschung.“ Höhepunkte verfügbar im Blog von Dwarkesh[1][4][18][19].

· Zusammenfassung der wichtigsten Punkte von Sutskever im Best of AI Digest[36].

· LeCuns Beobachtung zur Effizienz menschlichen Fahrens (von Sutskever referenziert)[12].

· Macaron AI Mind Lab – Interne Forschungsberichte zu Erfahrungsintelligenz und Gedächtnis (2025).

· Open-Source-Beiträge von Macaron AI zum großangelegten RL-Training (Megatron-Bridge & VEGA-Integration, 2025).

Ilya Sutskever – Wir bewegen uns von der Ära des Skalierens zur Ära der Forschung

https://www.dwarkesh.com/p/ilya-sutskever-2

[6] [31] [33] [36] Antriebskräfte in der KI: Skalierung bis 2025 und darüber hinaus (Jason Wei, OpenAI) erklärt durch die besten KI-Papiere

https://creators.spotify.com/pod/profile/ehwkang/episodes/Driving-Forces-in-AI-Scaling-to-2025-and-Beyond-Jason-Wei--OpenAI-e30rd59

Boxu erwarb seinen Bachelor-Abschluss an der Emory University mit Schwerpunkt Quantitative Ökonomie. Bevor er zu Macaron kam, verbrachte Boxu den Großteil seiner Karriere im Bereich Private Equity und Venture Capital in den USA. Er ist nun der Stabschef und VP für Marketing bei Macaron AI, verantwortlich für Finanzen, Logistik und Betrieb sowie die Überwachung des Marketings.

Bewerben, um zu werden Macarons erste Freunde