ChatGPTs 3. Jubiläumsgeschenk – DeepSeek V3.2 Serie fordert GPT-5 und Gemini heraus

Autor: Boxu Li

Drei Jahre nach dem Debüt von ChatGPT ist ein neuer Open-Source-Herausforderer als Geburtstagsgeschenk für die KI-Community erschienen. DeepSeek-V3.2 und DeepSeek-V3.2-Speciale – zwei neu veröffentlichte große Sprachmodelle – erweitern die Grenzen offener KI-Systeme. Entwickelt vom chinesischen KI-Labor DeepSeek, zielen diese Modelle darauf ab, eine GPT-5-ähnliche Argumentationsleistung zu erbringen und konkurrieren mit hochmodernen geschlossenen Modellen wie Googles Gemini-3.0-Pro[1][2]. Beide Modelle und ein detaillierter technischer Bericht wurden als Open Source zur Verfügung gestellt, was Forschern und Entwicklern einen genaueren Einblick in den Fortschritt offener Modelle ermöglicht.

DeepSeek-V3.2: Alltagstauglichkeit auf GPT-5-Niveau

DeepSeek-V3.2 ist als ausgewogenes „Daily Driver“-Modell konzipiert – eines, das sich für allgemeine Fragenbeantwortung, Programmierhilfe und AI-Agenten-Aufgaben in echten Anwendungen eignet. Laut den Benchmarks von DeepSeek entsprechen die Schlussfolgerungsfähigkeiten von V3.2 dem Niveau von GPT-5 in öffentlichen Schlußfolgerungstests und liegen nur geringfügig hinter Gemini-3.0-Pro[1]. In praktischen Begriffen bedeutet dies, dass V3.2 komplexe logische und analytische Fragen fast genauso gut bewältigen kann wie die besten geschlossenen Modelle von heute. Bemerkenswert ist, dass V3.2 viel präzisere Ausgaben produziert als einige frühere offene Modelle (wie Kimi-K2-Thinking), wodurch der Tokenverbrauch und die Wartezeit des Nutzers reduziert werden, ohne an Tiefe der Argumentation zu verlieren[3].

Unter der Haube hat DeepSeek-V3.2 685 Milliarden Parameter, die pro Token aktiviert werden (von einer 670B MoE-Architektur) – aber es ist auf Effizienz und den Einsatz in langen Kontexten optimiert. Es unterstützt ein erweitertes 128K-Token-Kontextfenster, das die Analyse von Hunderten von Seiten Text auf einen Schlag ermöglicht. Trotz seiner Größe wurde V3.2 feinabgestimmt, um das Denken mit dem Einsatz externer Werkzeuge zu integrieren. Tatsächlich ist es das erste Modell von DeepSeek, das im Prozess der Werkzeugnutzung „denken“ kann. Es unterstützt sowohl einen Gedankenkettenmodus als auch einen Standardmodus bei der Verwendung von Werkzeugen, wodurch es in der Lage ist, durch mehrstufige, werkzeuggestützte Aufgaben (wie die Verwendung von Taschenrechnern, Code-Interpretern oder Suchmaschinen) strukturiert zu denken. Dies macht V3.2 besonders leistungsstark für Agentenanwendungen – von Code-Assistenten, die Code ausführen, bis hin zu Konversationsagenten, die im Internet surfen.

V3.2-Speciale: Extremes Denken, auf Augenhöhe mit Gemini Pro

Für Nutzer, die noch mehr Denkleistung benötigen, hat DeepSeek die V3.2-Speciale neben dem Standardmodell veröffentlicht. Die Speciale-Variante treibt das Open-Source-Denken auf die Spitze, indem sie einen erweiterten „Denkmechanismus“ integriert und sogar ein spezielles Modul zur Beweisführung mathematischer Theoreme (aus dem DeepSeek-Math-V2 Modell) hinzufügt. Das Ergebnis ist ein Modell, das auf hochkomplexe Problemlösungen abgestimmt ist – „an den Grenzen der Modellfähigkeiten forschen,“ wie es die Entwickler ausdrücken[4]. Bei strengen Logik- und Mathematik-Benchmarks ist die Leistung von DeepSeek-V3.2-Speciale vergleichbar mit Gemini-3.0-Pro[4], was im Wesentlichen dem neuesten Stand in diesen Bereichen entspricht.

Dieser Anspruch wird durch Speciales Erfolge in prestigeträchtigen Wettbewerben untermauert: Es soll angeblich Ergebnisse auf Goldmedaillenniveau bei der Internationalen Mathematik-Olympiade (IMO 2025), der Chinesischen Mathematik-Olympiade (CMO 2025), den ICPC 2025 Weltfinals (Programmierung) und der IOI 2025 (Informatik)[5]. Tatsächlich erreichte V3.2-Speciale beim ICPC-Programmierwettbewerb ein Niveau eines menschlichen Silbermedaillengewinners (2. Platz) und bei der IOI entsprach es einem Top-10 menschlichen Teilnehmer[5]. Dies sind bemerkenswerte Leistungen für ein KI-Modell, das seine Fähigkeiten im logischen Denken und in der Problemlösung auf menschlichem Spitzenniveau zeigt.

Es ist erwähnenswert, dass Speciale ein expertenorientiertes Modell ist. Es glänzt beim ausführlichen logischen Denken (z. B. detaillierte Beweise, mehrstufige Logik, komplexe Programmierherausforderungen), ist aber nicht für lockere Gespräche oder kreatives Schreiben optimiert. Zudem ist der Betrieb teurer – Speciale neigt dazu, erheblich mehr Token zu verbrauchen, um zu seinen Antworten zu gelangen[6]. Derzeit bietet DeepSeek nur V3.2-Speciale über eine begrenzte Forschungs-API an (ohne Tool-Nutzung) und weist darauf hin, dass es für akademische oder anspruchsvolle logische Aufgaben gedacht ist, nicht für den alltäglichen Austausch.

Effizientes Schlussfolgern durch Sparse Attention (DSA)

Eine der zentralen Innovationen, die die Leistung von DeepSeek-V3.2 ermöglicht, ist ein neuer Aufmerksamkeitsmechanismus namens DeepSeek Sparse Attention (DSA). Traditionelle Transformer-Modelle verursachen quadratische Kosten, wenn die Kontextlänge wächst, da jedes Token auf jedes andere Token achtet. DSA durchbricht dieses Nadelöhr, indem es ein fein abgestimmtes, sparsames Aufmerksamkeitsmuster verwendet[7]. Es führt eine „Lightning-Indexer“-Komponente ein, die schnell Relevanzbewertungen zwischen dem aktuellen und früheren Tokens schätzt, um dann nur die top-$k$ relevantesten Tokens auszuwählen[7]. Im Wesentlichen lernt das Modell, irrelevanten Kontext zu ignorieren und sich nur auf die wichtigen Teile einer langen Sequenz zu konzentrieren.

Dieses spärliche Aufmerksamkeitsdesign reduziert den Rechenaufwand für lange Sequenzen von O(L²) auf O(L·k), wobei k viel kleiner als L ist. In der Implementierung von DeepSeek wurde k=2048 verwendet (jedes Token beachtet 2048 ausgewählte vergangene Tokens) während der zweiten Trainingsphase. Das Team nutzte eine zweiphasige Trainingsstrategie für DSA: Zuerst ein dichtes Aufwärmen, bei dem der Lightning-Indexer zusammen mit voller Aufmerksamkeit für einige Milliarden Tokens trainiert wurde, um sicherzustellen, dass er das Verhalten der vollen Aufmerksamkeit nachahmt. Dann wurde das Modell auf den sparsamen Modus umgestellt und mit der Top-$k$-Einschränkung auf Hunderte von Milliarden weiteren Tokens trainiert. Das Ergebnis ist ein enormer Effizienzgewinn ohne Genauigkeitsverlust. Tatsächlich schnitt V3.2-Exp (der experimentelle Vorläufer des endgültigen Modells) auf Augenhöhe mit V3.1-Terminus über eine Vielzahl von Benchmarks ab, trotz der Verwendung der neuen spärlichen Aufmerksamkeit[8].

Praktisch bedeutet DSA, dass lange Dokumente kein Problem mehr darstellen. Interne Tests zeigten eine bis zu 2–3× schnellere Verarbeitung bei 128K-langen Eingaben und etwa 30–40% weniger Speicherverbrauch[9]. Auch die Kosten sinken erheblich. DeepSeek berichtete, dass bei 128K-Kontexten auf ihrem H800-Cluster die Promptkosten (Prefill) pro Million Tokens von ~$0.70 auf ~$0.20 und die Generierungskosten von ~$2.40 auf ~$0.80 sanken – eine 3× Reduzierung der Kosten für Langkontext-Inferenz. In der öffentlichen API haben sich diese Einsparungen in über 50% niedrigeren Preisen für Nutzer übersetzt[10]. Kurz gesagt, ermöglicht DSA, dass V3.2 extrem lange Eingaben in einem Bruchteil der Zeit und Kosten früherer Modelle verarbeiten kann, ohne die Ausgabequalität zu beeinträchtigen.

Verstärkungslernen im großen Maßstab: GRPO und Expert Distillation

Ein weiterer wichtiger Faktor für die starke Leistung von DeepSeek-V3.2 ist das umfangreiche Reinforcement Learning (RL) Fine-Tuning, das in das Modell eingeflossen ist. Das DeepSeek-Team investierte eine beispiellose Menge an Rechenleistung in das Post-Training RL – über 10 % der für das Pre-Training verwendeten Rechenleistung, was für ein Modell im 670 Milliarden-Bereich enorm ist. Dies ist höchst ungewöhnlich im Bereich der Open-Source-KI, wo RL-Fine-Tuning-Budgets typischerweise viel kleiner sind. Der Grundgedanke ist, dass während das Pre-Training breites Wissen vermittelt, intensives RL fortgeschrittene Fähigkeiten freischalten kann, indem das Modell mit komplexen Zielen (wie dem Lösen von mehrstufigen Problemen, der Nutzung von Werkzeugen oder der Einhaltung von Anweisungen unter Einschränkungen) in Einklang gebracht wird.[2].

Um das RL sicher zu skalieren, baute DeepSeek auf ihrem maßgeschneiderten Group Relative Policy Optimization (GRPO) Algorithmus auf. Sie führten mehrere Verbesserungen in Bezug auf Stabilität und Effizienz in dieser RL-Pipeline ein:

· Unverzerrte KL-Schätzung: Das Team behob Probleme im ursprünglichen K3-Schätzer, der für KL-Divergenzstrafen verwendet wurde, und beseitigte systematische Verzerrungen, die zu unbegrenzten Gradientenupdates führen könnten. Dies verhinderte Trainingsinstabilitäten, die auftreten können, wenn die Policy zu weit von der Referenzpolicy abweicht.

· Offline-Sequenzmaskierung: Da das RL-Training oft große Chargen von „Rollout“-Daten erzeugt, die dann über viele Gradientenaktualisierungen hinweg wiederverwendet werden (ein Off-Policy-Szenario), berechnete DeepSeek die KL-Divergenz zwischen der Rollout-Politik und der aktuellen Politik für jede Probe. Wenn sich die Politik einer generierten Sequenz zu weit vom aktuellen Modell entfernt hatte, wurde diese Sequenz aus den Trainingsaktualisierungen ausgeschlossen (maskiert)[11][12]. Dieser clevere Trick stellte sicher, dass das Modell hauptsächlich von On-Policy- oder nahezu On-Policy-Daten lernte, was die Stabilität verbesserte und verhinderte, dass schlechte Trajektorien das Lernen verzerren.

· Routing für MoE beibehalten: Die Modelle von DeepSeek verwenden eine Mixture-of-Experts-Architektur, was bedeutet, dass verschiedene „Experten“ (Sub-Netzwerke) unterschiedliche Tokens bearbeiten. Eine Herausforderung dabei ist, dass geringfügige Unterschiede zwischen Inferenz- und Trainingsimplementierungen dazu führen können, dass für denselben Input unterschiedliche Experten ausgewählt werden, was zu Inkonsistenzen führt. DeepSeek hat dies gelöst, indem es die Experten-Routing-Entscheidungen während der Inferenz erfasst und die gleichen Experten-Routen während der RL-Updates erzwungen hat. Diese Methode „Routing beibehalten“ stellte sicher, dass die Parameter, die während des RL angepasst wurden, den gleichen Experten entsprechen, die auch bei der Inferenz verwendet würden, um unangenehme Überraschungen durch Expertenwechsel zu vermeiden.

Zusätzlich zu diesen algorithmischen Anpassungen war das Datenregime für RL sehr ambitioniert. DeepSeek trainierte eine Reihe von Spezialmodellen – jedes auf einen bestimmten Bereich oder eine bestimmte Fähigkeit fokussiert – und destillierte dann das Wissen aus all diesen Modellen in V3.2. Zum Beispiel wurden domänenspezifische Experten für Mathematik (Beweise), Programmierung, logisches Denken, allgemeine werkzeugerweiterte Aufgaben, codebasierte Agenten und suchbasierte Agenten feinabgestimmt. Jedes dieser Spezialmodelle wurde sowohl im „denkenden“ (Kette der Gedanken) Modus als auch im „nicht-denkenden“ Modus nach Bedarf trainiert. Mit diesen Experten generierte DeepSeek einen riesigen synthetischen Datensatz mit hochwertigen Demonstrationen in jedem Bereich, der dann verwendet wurde, um das endgültige Modell V3.2 zu überwachen. Diese Experten-Destillations-Pipeline lieferte V3.2 reichhaltige Trainingssignale über 85.000+ komplexe Anweisungen hinweg und deckte alles ab, von schrittweisen mathematischen Beweisen bis hin zu Software-Debugging-Sitzungen.

Verbesserte Agentenfähigkeiten und Integration der Werkzeugnutzung

Eine der Hauptfunktionen von DeepSeek-V3.2 ist die stark verbesserte Agentenfähigkeit – im Wesentlichen die Fähigkeit des Modells, Probleme zu planen, zu begründen und mit Werkzeugen in einem mehrstufigen Prozess zu lösen. Frühere Versionen des DeepSeek-Denkmodells hatten eine große Einschränkung: Wenn das Modell im „Denkmodus“ war (d.h. eine Gedankenkette produzierte), konnte es keine externen Werkzeuge aufrufen und umgekehrt. V3.2 beseitigt diese Barriere. Es ist das erste DeepSeek-Modell, das das Denken vollständig mit der Werkzeugnutzung integriert, was bedeutet, dass es eine interne Argumentationskette aufrechterhalten kann, während es gleichzeitig Werkzeugaufrufe (z.B. Code ausführen, im Internet suchen) während des Dialogs ausführt[13]. Dies führt zu einem wesentlich stärkeren und flexibleren Agentenverhalten.

Um dies zu unterstützen, hat das DeepSeek-Team die Funktionsweise des Modells für Kontextmanagement bei mehrstufigen Aufgaben neu konzipiert. In Version 3.2 werden die Denkvorgänge des Modells (die „Gedanken“) über eine Abfolge von Werkzeugaufrufen hinweg beibehalten, anstatt bei jedem Schritt gelöscht zu werden. Nur wenn eine neue Benutzeranfrage eintrifft, wird der Kontext des Denkprozesses zurückgesetzt, während die relevante Werkzeuginteraktionshistorie in der Konversation weiterhin erhalten bleibt[14][15]. Dieser Ansatz spart viele Tokens und ermöglicht es dem Modell, eine beständige Gedankenkette für ein Problem aufzubauen, während es iterativ Werkzeuge aufruft. Zum Beispiel, wenn der Benutzer eine komplizierte Codierungsfrage stellt, kann das Modell die Schritte durchdenken, einen Python-Interpreter aufrufen, um Code zu testen, weiterdenken basierend auf dem Ergebnis, möglicherweise ein Dokumentationssuchwerkzeug aufrufen und so weiter – es finalisiert seine Antwort erst, wenn es eine korrekte Lösung verifiziert hat. Alle zwischenzeitlichen Überlegungen bleiben dem Modell erhalten, bis die Aufgabe abgeschlossen ist.

DeepSeek gab dem Modell auch eine „Kaltstart“-Eingabe, die dieses Verhalten ausdrücklich fördert. Die Systemanweisungen drängen das Modell dazu, zunächst einen detaillierten Denkprozess auszugeben (gekennzeichnet mit speziellen Tokens), bevor die endgültige Antwort offenbart wird, insbesondere bei komplexen Aufgaben wie Programmierherausforderungen. Diese Eingabesteuerung stellt sicher, dass V3.2 weiß, dass es seine Gedankenketten- und Werkzeugfähigkeiten bei schwierigen Anfragen einsetzen sollte, anstatt direkt zu einer (oft fehlerhaften) Antwort zu springen.

Vielleicht der beeindruckendste Aspekt des Fähigkeiten-Sets von V3.2 liegt in der Art und Weise, wie es trainiert wurde. Das Team konstruierte eine automatische Umgebungssynthese-Pipeline, um realistische, herausfordernde Szenarien zu schaffen, aus denen das Modell lernen kann. Sie generierten 1.827 interaktive Aufgabenumgebungen, gepaart mit über 85.000 komplexen Anweisungen, die das Modell lösen sollte[16]. Entscheidend ist, dass diese Aufgaben so gestaltet wurden, dass sie „schwer zu lösen, leicht zu überprüfen“ sind. Mit anderen Worten, das Modell wird mit Problemen konfrontiert, die einen großen Suchraum haben (schwer, zufällig eine Lösung zu finden), aber klare Kriterien, um eine Lösung zu überprüfen. Diese Eigenschaft macht sie ideal für das Reinforcement Learning: Das Modell kann experimentieren (oder ein Werkzeug verwenden), um eine Lösung vorzuschlagen und dann schnell überprüfen, ob sie alle gegebenen Einschränkungen erfüllt.

Ein Beispiel für eine synthetisierte Aufgabe war das Problem der Planung einer dreitägigen Reiseroute mit mehreren Einschränkungen (keine Wiederholung von Städten, dynamische Anpassung der Budgets basierend auf Hotelkosten usw.). Es ist extrem schwierig für ein Modell, einfach eine gültige Reiseroute zu erraten, da die Einschränkungen ein kombinatorisches Problem schaffen – aber wenn das Modell eine mögliche Reiseroute entwickelt, ist es einfach zu überprüfen, ob alle Einschränkungen erfüllt sind. Durch das Training an vielen solchen Aufgaben (in Bereichen wie Reiseplanung, Terminplanung, logische Rätsel und mehr) hat V3.2 gelernt, besser mit Problemen umzugehen, die Suche, Optimierung oder mehrstufiges Denken erfordern. Dieses Trainingsregime hat die Generalisierung des Modells auf neue, unbekannte Agentenaufgaben erheblich verbessert.

Im Bereich der Codierungsagenten hat DeepSeek GitHub angezapft und Millionen von echten Problemthreads und Pull-Anfragen durchsucht. Sie konstruierten automatisch Zehntausende ausführbare Codierungsherausforderungsumgebungen aus diesen Daten. Das Modell konnte lernen, einen Fehlerbericht oder eine Funktionsanfrage zu lesen und dann mit Werkzeugunterstützung durch eine Codebasis zu navigieren, um eine Korrektur oder Funktion zu implementieren. Diese Umgebungen deckten mehrere Programmiersprachen ab (Python, Java, JavaScript etc.) und setzten das Modell einer Vielzahl von Softwareproblemen aus. Eine separate Pipeline behandelte suchbasierte QA-Agenten: Mithilfe einer Multi-Agenten-Simulation generierte DeepSeek Datensätze, bei denen ein Agent schwierige Fragen zu Nischenentitäten stellte und ein anderer Agent (mit Zugriff auf ein Suchwerkzeug) die Antworten finden und überprüfen musste. Diese mehrstufige Generierung (Fragenerstellung → Websuche → Antwortvalidierung) lieferte hochwertige Trainingsbeispiele, um V3.2 beizubringen, wie man ein effektiver „Forschungsassistent“ wird.

Dank dieser Bemühungen hat DeepSeek-V3.2 einen Durchbruch bei Aufgaben mit Werkzeugen erzielt. Bei internen Bewertungen erreichte V3.2 die höchsten Punktzahlen aller offenen Modelle in einer Reihe von Agenten-Benchmarks und verkleinerte damit den Abstand zu geschlossenen Modellen erheblich[17]. Die Entwickler betonen, dass V3.2 nicht explizit auf die spezifischen Werkzeuge in diesen Tests abgestimmt wurde – was darauf hindeutet, dass seine Agentenfähigkeiten auf reale Szenarien übertragbar sind und nicht nur auf enge Benchmarks beschränkt sind[18]. Mit anderen Worten, das Modell hat gelernt, wie man im Allgemeinen denkt und Werkzeuge benutzt, anstatt sich auf bestimmte Aufgaben zu spezialisieren.

Leistungsbenchmarks und Vergleich

Wie schneiden die neuen Modelle von DeepSeek im Vergleich zu den besten KI-Systemen auf dem Markt ab? Der technische Bericht und erste Analysen liefern einige Antworten. Insgesamt bietet DeepSeek-V3.2 Spitzenleistungen in mathematischem Denken und Programmieraufgaben, und V3.2-Speciale kann sich sogar mit den besten bei komplexem Denken messen – es gibt jedoch Bereiche (wie den offenen Einsatz von Werkzeugen), in denen geschlossene Modelle immer noch im Vorteil sind. Unten ist eine Momentaufnahme der ausgewählten Benchmark-Ergebnisse, die die Wettbewerbslandschaft verdeutlichen:

Tabelle 1: Leistung bei Beispiel-Reasoning-Benchmarks (Genauigkeit%)

Benchmark (2025)
OpenAI GPT-5.1 Pro
Google Gemini-3.0-Pro
DeepSeek-V3.2
DeepSeek-V3.2-Speciale
AIME (Mathematik-Olympiade)
~94,6% (geschätzt)
~95,0% (geschätzt)
93,1%
96,0%[4]
HMMT (Mathematik-Turnier)
88,3%
97,5%
92,5%
99,2%[4]
GPQA (Wissenschafts-QA, schwer)
85,7%
91,9%
82,4%
85,7%

<small>Quellen: DeepSeek-Technischer Bericht[4]. Die Ergebnisse von GPT-5.1 und Gemini sind ungefähre Werte aus den Grafiken des Berichts. Speciale erreicht oder übertrifft oft Gemini bei Mathematikaufgaben, während die Standard-V3.2 auf GPT-5-Niveau liegt, leicht unter Gemini.</small>

Wie wir sehen können, hält DeepSeek-V3.2 sein Versprechen bei akademischen Denkherausforderungen. Bei Mathematikwettbewerben wie AIME und HMMT liegt die Genauigkeit von V3.2 auf einem ähnlichen Niveau wie ein fortgeschrittenes GPT-5-Modell und nur wenige Punkte unter den Spitzenwerten von Gemini. Das Speciale-Modell übertrifft sogar Gemini bei diesen Mathematik-Benchmarks[4], was den Nutzen seines verbesserten „Langzeitdenkens“ zeigt. Diese Ergebnisse sind beeindruckend – Mathematik und formales Denken galten lange als Schwäche offener Modelle, aber V3.2 zeigt, dass Open-Source-Systeme in diesem Bereich Leistungen auf höchstem Niveau erreichen können[19].

Auf der Coding-Seite glänzt auch DeepSeek-V3.2, obwohl der Wettbewerb hart ist. Im SWE-Bench Verified-Test (der überprüft, ob ein Modell fehlerbehebende Code-Diffs erzeugen kann, die Unit-Tests bestehen), erzielte V3.2 ~73%, was deutlich über seinem Vorgänger liegt (V3.1 erzielte ~66%[20]) und etwa auf Augenhöhe mit anderen führenden Open-Modellen wie Moonshots Kimi K2 und Alibabas Qwen-3. Tatsächlich übertreffen all diese Open-Modelle leicht OpenAIs älteres 120B-Basismodell auf diesem Coding-Benchmark[21][22]. Dies unterstreicht, wie weit offene Modelle in der praktischen Coding-Fähigkeit fortgeschritten sind. DeepSeek V3.2 kann zuverlässig echte Fehler beheben und funktionierenden Code generieren, was es extrem nützlich für Entwicklerunterstützung macht.

Gegen die absolut besten geschlossenen Modelle ist das Bild jedoch gemischt. Bei bestimmten Codierungsaufgaben hat GPT-5.1 immer noch einen Vorteil. Zum Beispiel in dem komplexeren Terminal-Bench 2.0 (das die Verwendung von mehrstufigen CLI-Tools und das Codieren in einer Agentenschleife bewertet), deuten frühe Berichte darauf hin, dass GPT-5 und sogar Anthropics Claude DeepSeek übertreffen, insbesondere in Bezug auf die anhaltende Zuverlässigkeit bei langen Werkzeugnutzungssitzungen[23]. Die Genauigkeit von DeepSeek-V3.2 sinkt bei diesen komplizierten mehrstufigen Agentenaufgaben, was zeigt, dass es zwar sehr fähig ist, aber noch nicht der Spitzenreiter ist, wenn es um vollständig autonome Codierungsagenten oder die Lösung von Langzeitproblemen geht. Ebenso liegt V3.2 bei umfassenden Tool-Use-Benchmarks wie MCP-Universe und Tool-Decathlon deutlich hinter GPT-5 und Gemini zurück[24]. Die Systeme von OpenAI und Google führen komplexe, mehrstufige Pläne immer noch konsistenter aus. Der Abstand hat sich verringert – V3.2 erreichte neue Höchstwerte für offene Modelle bei diesen Tests[17] – aber es bleibt ein beträchtlicher Abstand, bevor offene Modelle wirklich mit geschlossenen in der allgemeinen Werkzeugnutzungsfähigkeit gleichziehen können.

Zusammenfassend lässt sich sagen, dass DeepSeek-V3.2 in vielen Bereichen eine nahezu wegweisende Leistung erbringt. Es ist mit GPT-5 wettbewerbsfähig bei realen Programmieraufgaben und konkurriert sogar mit Gemini in fortgeschrittener mathematischer Argumentation[19]. Gleichzeitig ist es kein umfassender Ersatz für GPT-5 oder Gemini in allen Bereichen – insbesondere in ultraschwierigen "Agenten"-Szenarien, die eine umfangreiche Werkzeugkoordination erfordern, wo diese geschlossenen Modelle immer noch im Vorteil sind[25][24]. Diese ausgewogene Sichtweise ist wichtig, um Erwartungen zu setzen: V3.2 glänzt in dem, wofür es optimiert wurde (Argumentation und Programmierung mit Effizienz), während die Speciale-Variante zeigt, was möglich ist, wenn man die Argumentation bis an die Grenzen treibt.

Einschränkungen und Ausblick

Trotz der beeindruckenden Errungenschaften ist das DeepSeek-Team offen in Bezug auf bestimmte Einschränkungen der V3.2-Serie. Erstens, da die gesamten Trainings-FLOPs (Floating-Point-Operationen) immer noch geringer sind als bei einigen ultra-großen geschlossenen Modellen, könnte die Breite des Weltwissens und die Speicherung seltener Fakten in V3.2 hinter führenden Modellen wie GPT-5 zurückbleiben. Mit anderen Worten, es könnte einige obskure Trivia oder domänenspezifische Informationen nicht kennen, die größere proprietäre Modelle aufgenommen haben. Dies ist ein häufiger Kompromiss bei offenen Modellen, die häufig auf etwas kleineren oder weniger vielfältigen Korpora trainieren müssen.

Eine weitere Herausforderung ist die Token-Effizienz. DeepSeek stellt fest, dass sowohl V3.2 als auch Speciale manchmal längere Begründungsketten generieren müssen, um die gleiche Antwortqualität zu erreichen, die ein Modell wie Gemini-3.0-Pro mit einer prägnanteren Antwort erzielen kann[6]. In der Praxis bedeutet dies, dass die Nutzung von V3.2 im „Denkmodus“ höhere Tokenkosten (und Verzögerungen) verursachen kann, um extrem schwierige Probleme zu lösen – das Modell wird ausführlich sein, während es die Schritte durchläuft. Besonders Speciale, obwohl außergewöhnlich fähig, ist tokenhungrig: Es könnte einen sehr detaillierten Beweis oder eine Erklärung liefern, wo ein menschlicher Experte oder ein verfeinertes geschlossenes Modell eine präzisere Antwort geben könnte. Dies ist nicht immer ein Nachteil (das gründliche Denken kann wertvoll sein), macht aber bestimmte Anwendungen teurer.

DeepSeek-V3.2 fehlt es derzeit auch an Feintuning für offene Konversationsgewandtheit oder kreatives Schreiben. Der Fokus seines Trainings lag eindeutig auf strukturiertem Problemlösen und Agenten. Benutzer haben beobachtet, dass sein Stil logisch und informativ ist, aber möglicherweise weniger natürlich gesprächig oder fantasievoll im Vergleich zu Modellen wie GPT-4 oder Claude in zwanglosen Dialogen. Dies war eine bewusste Entscheidung: DeepSeek priorisierte Forschungstätigkeiten, Programmierung und mathematische Fähigkeiten für diese Version, selbst wenn dies einen Rückgang der allgemeinen Gesprächigkeit bedeutete.

In die Zukunft blickend hat das DeepSeek-Team andeutungsweise weiteren Fortschritt angekündigt. Der V3.2 technische Bericht diskutiert offen diese Schwächen als Ziele für zukünftige Verbesserungen. In der Community gibt es bereits Vorfreude auf ein potenzielles DeepSeek-R2 Modell – das, wenn die Namensgebung beibehalten wird, das nächste auf Logik ausgerichtete Modell sein könnte, das auf den Grundlagen von R1 und V3.2 aufbaut. (DeepSeeks Anhänger fragten halb im Scherz „Wann kommt R2?!“ als Reaktion auf den V3.2-Start.) Wenn und wann R2 kommt, besteht die Erwartung, dass es die Lücken weiter schließen könnte, möglicherweise durch die Einbeziehung noch größerer Trainingsdurchläufe, mehr Wissensinfusion und verbesserte Token-Effizienztechniken.

Derzeit stellt DeepSeek-V3.2 einen Meilenstein in der Open-Source-AI-Welt dar. Es zeigt, dass ein offenes Modell mit cleverem Engineering – von sparsamer Aufmerksamkeit über massives RL-Fine-Tuning bis hin zur synthetischen Aufgabenerstellung – Spitzenleistung in den Bereichen Argumentation und Programmierung erreichen kann, die einst als Domäne von geschlossenen Modellen mit Billionen Parametern galten. Wie ein Analyst es ausdrückte, ist V3.2 ein „starkes, kostengünstiges Denk- und Programmiermodell, das auf dem Niveau der Spitzenklasse Ergebnisse liefert, wo die meisten Entwickler tatsächlich arbeiten: Code und Mathematik“[26]. Es mag GPT-5 oder Gemini nicht als universelle AI-Lösung entthronen, aber in seiner spezialisierten Rolle gelingt DeepSeek-V3.2 spektakulär[27] – und entscheidend ist, dass es als frei verfügbares Modell dies tut. In der breiteren AI-Ökosystem ist das in der Tat ein unbezahlbares Geschenk zu diesem Jubiläum von ChatGPT.

Quellen: Die Informationen und Zitate in diesem Artikel stammen aus den offiziellen Release-Notizen und dem technischen Bericht von DeepSeek[1][4][13][17], Nachrichtenberichterstattung und Analysen in AI-Publikationen[2], sowie unabhängige Bewertungen von DeepSeek-V3.2 durch frühe Nutzer[19][24] und Community-Experten[7][8]. Alle Benchmarks und Vergleiche spiegeln den aktuellen Stand (Dez 2025) der Modellleistung bei den jeweiligen Aufgaben wider.

[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 Offizielle Version: Verstärkte Agentenfähigkeiten, integriertem Nachdenken und Schlussfolgern | DeepSeek API-Dokumentation

https://api-docs.deepseek.com/zh-cn/news/news251201

[2] DeepSeek veröffentlicht neue Reasoning-Modelle, um GPT-5 zu erreichen und mit Gemini 3 Pro zu konkurrieren

https://analyticsindiamag.com/ai-news-updates/deepseek-releases-new-reasoning-models-to-match-gpt-5-rival-gemini-3-pro/

[7] [8] [9] [10] [11] [12] [21] [22] DeepSeek V3.2-Exp Review. Das neueste experimentelle Modell von DeepSeek… | von Barnacle Goose | Okt., 2025 | Medium

https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c

[19] [23] [24] [25] [26] [27] DeepSeek V3.2 vs Gemini 3.0 vs Claude 4.5 vs GPT-5 | von Mehul Gupta | Data Science in Your Pocket | Dez, 2025 | Medium

https://medium.com/data-science-in-your-pocket/deepseek-v3-2-vs-gemini-3-0-vs-claude-4-5-vs-gpt-5-55a7d865debc

[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-V3.1

Boxu erwarb seinen Bachelor-Abschluss an der Emory University mit Schwerpunkt Quantitative Ökonomie. Bevor er zu Macaron kam, verbrachte Boxu den Großteil seiner Karriere im Bereich Private Equity und Venture Capital in den USA. Er ist nun der Stabschef und VP für Marketing bei Macaron AI, verantwortlich für Finanzen, Logistik und Betrieb sowie die Überwachung des Marketings.

Bewerben, um zu werden Macarons erste Freunde