DeepSeek-V4 MoE: Im Inneren des Open-Source-Durchbruchs mit 1 Billion Parametern

Autor: Boxu Li

Einführung: Sparse-Modelle auf Billionen-Skala bringen

DeepSeek-V4 hat die KI-Community im Sturm erobert und ist das größte offene Mixture-of-Experts (MoE) Sprachmodell bis heute. Ein arXiv-Preprint, der dieses 1 Billionen-Parameter-Modell beschreibt, verbreitete sich rasant online und verdeutlicht einen Paradigmenwechsel in der Skalierung von KI. Im Gegensatz zu dichten Modellen, die alle Gewichte für jedes Token aktivieren, aktivieren MoE-Modelle wie DeepSeek nur einen kleinen Bruchteil ihrer Parameter gleichzeitig – typischerweise <10% pro Token[1]. Diese spärliche Aktivierung ist das Merkmal, das Billionen-Parameter-Modelle möglich macht[1]. Im Fall von DeepSeek-V4 werden etwa 32 Milliarden Parameter (≈3% der Gesamtheit) für ein beliebiges Eingabetoken verwendet, wodurch eine enorme Kapazität mit weit geringeren Rechenkosten als bei einem ebenso großen dichten Modell genutzt wird.

Warum das große Aufsehen? Zum einen ist DeepSeek-V4 das größte offene MoE-Modell, das es bisher gibt, und übertrifft Vorgänger wie DeepSeek-V3 (671B Parameter) und konkurriert sogar in vielen Aufgaben mit geschlossenen Modellen[2]. Die Veröffentlichung unter einer freizügigen Open-Source-Lizenz ermöglicht es jedem, ein Modell im GPT-5-Maßstab zu testen oder einzusetzen – eine dramatische Entwicklung in einer Zeit, in der Spitzenmodelle oft proprietär sind. Darüber hinaus deuten frühe Benchmark-Tests darauf hin, dass DeepSeek-V4 Spitzenleistungen in spezialisierten Bereichen wie Mathematik und Programmierung erbringt (wo sich die Spezialisierung von MoE-Experten auszahlt), und das zu einem Bruchteil der Kosten früherer großer Modelle[3][4]. All diese Faktoren zusammen haben DeepSeek-V4 zu einer viralen Sensation unter Forschern und Ingenieuren gemacht.

Größtes offenes MoE-Modell: Wichtige Spezifikationen und Innovationen

Um DeepSeek-V4 zu schätzen, ist es hilfreich, die wichtigsten technischen Details zu kennen und zu verstehen, wie es sich mit anderen Spitzenmodellen vergleicht:

Modell (2025)

Architektur

Parameter (Gesamt / Aktiv)

Kontextfenster

Verfügbarkeit

DeepSeek-V4

MoE (Sparse, ~16 Experten/Token)

~1 Billion / ~32 Milliarden (geschätzt)[5]

128K (erweitert, Gerücht bis zu 1M)

Open-Source (MIT-Lizenz)[4]

Moonshot Kimi K2

MoE (Sparse)

1 Billion / 32 Milliarden[5]

256K[6]

Open-Source (MIT-Lizenz)

Alibaba Qwen3-Max

MoE (Sparse)

>1 Billion / ~22 Milliarden[7][8]

256K

Open-Source (Apache-2.0)

OpenAI GPT-5 (geschätzt)

Dicht (Vollständig aktiviert)

~1.8 Billionen / ~1.8 Billionen (100% aktiv)[9]

32K

Geschlossene Quelle (proprietär)

Tabelle: DeepSeek-V4s 1T-Param MoE im Kontext mit ähnlichen Next-Gen-Modellen. „Aktiv“ bezieht sich auf die Parameter, die pro Token verwendet werden (MoE-Modelle leiten jedes Token durch eine Untergruppe von Experten). Kontext = maximale Sequenzlänge, die das Modell verarbeiten kann.

Wie oben gezeigt, tritt DeepSeek-V4 einem erlesenen Club von Billionen-Parameter-Modellen bei, neben anderen kürzlich angekündigten chinesischen Modellen wie Kimi K2 und Qwen3-Max. Alle nutzen sparsam-gesteuerte MoE-Architekturen, um nur Zehnmilliarden von Parametern gleichzeitig „aktiv“ zu halten[5]. Im Gegensatz dazu müsste ein dichtes Modell (wie GPT-5) jedes Gewicht bei jedem Durchlauf verwenden – ein Ansatz, der jenseits des 500B–1T-Bereichs unerschwinglich wird[10]. Bemerkenswert ist, dass das Design von DeepSeek-V4 angeblich einen 16-Experten-Pfad nutzt, was bedeutet, dass jedes Token von bis zu 16 Experten-Unternetzwerken in jeder MoE-Schicht verarbeitet wird, ausgewählt aus Hunderten von verfügbaren Experten. Dies ist eine erhebliche Steigerung gegenüber früheren MoE-Modellen (die oft Top-2- oder Top-4-Experten nutzten) und zielt darauf ab, die Ausdruckskraft des Modells durch feinere spezialisierte Routen zu maximieren.

Sparsame Weiterleitung mit einer 16-Experten-Pfad-Architektur

Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.

DeepSeek-V4 baut auf der bewährten MoE-Architektur von DeepSeek auf, die in V2/V3[11] eingeführt und durch die DeepSeekMoE-Forschungsreihe verfeinert wurde. Im Kern ersetzt das Modell die standardmäßigen Feed-Forward-Layer des Transformers durch eine Reihe paralleler Expertennetzwerke. Für jedes eingehende Token wählt ein steuernder Router dynamisch eine Handvoll Experten aus, die am besten geeignet sind, den Inhalt dieses Tokens zu verarbeiten (z.B. können einige Experten auf Code spezialisiert sein, andere auf Mathematik, andere auf allgemeine Syntax). Nur die ausgewählten Expertennetzwerke werden für dieses Token ausgeführt, wodurch die Berechnung sparsam bleibt.

Entscheidend ist, dass DeepSeek das MoE-Routing innoviert hat, um die Spezialisierung und Nutzung von Experten zu verbessern. Die DeepSeekMoE-Architektur führte zwei Schlüsselstrategien[12] ein:

Feinabgestimmte Expertensegmentierung: Anstatt nur einige wenige massive Experten zu haben, teilt DeepSeek jedes Feed-Forward-Netzwerk in viele kleinere Experten auf (in V3 sind es 256 Experten pro MoE-Schicht). Dies ermöglicht die Aktivierung von mehr Experten pro Token (m×K statt K), ohne die Kosten pro Token zu erhöhen[12]. In früheren MoE wie GShard könnte ein Token zu den Top-2-Experten gehen; DeepSeek V3 hat dies effektiv auf die Top-14 erhöht, indem Experten in kleinere Teile segmentiert wurden[13]. DeepSeek-V4 geht noch weiter – mit einem 16-Experten-Pfad engagiert sich jeder Token parallel mit 16 Experten und bietet eine reiche Mischung spezialisierter Berechnungen. Indem jeder Experte relativ klein gehalten wird, bleibt die Gesamtberechnung pro Token überschaubar, selbst wenn die Gesamtanzahl der Experten (und die Gesamtparameter) dramatisch zunimmt[12].
Geteilte „Generalisten“-Experten: DeepSeek weist auch eine Teilmenge von Experten als geteilte Experten zu, die bei jedem Token aktiviert werden[14]. Diese fungieren als allgemeine Wissenspools, um universelle Muster (allgemeine Sprache, allgemeines Denken) zu behandeln, und stellen sicher, dass jeder Token eine gewisse allgemeine Verarbeitung erhält. Währenddessen können sich die anderen Experten auf Nischen- oder komplexe Muster konzentrieren, ohne grundlegendes Wissen redundant neu zu lernen[14]. Diese Innovation mildert das „Expertenredundanz“-Problem, bei dem mehrere Experten sonst zu ähnlichen Fähigkeiten konvergieren könnten. Durch die Isolierung von $K_s$ geteilten Experten für allgemeines Wissen kann DeepSeek-V4 die verbleibenden Experten rein auf spezialisierte Wissensdomänen widmen[12].

Die Kombination aus feiner Segmentierung und gemeinsamen Experten hilft, Expertenüberschneidungen und -zusammenbrüche zu vermeiden, eine berüchtigte Herausforderung in MoEs. In traditionellen MoEs, wenn der Router nicht sorgfältig verwaltet wird, könnte er einige Experten übermäßig beanspruchen und andere unzureichend trainieren („Route Collapse“). DeepSeek-V3/V4 begegnen diesem Problem mit einer Lastenausgleichs-Routing-Strategie, die keinen zusätzlichen Verlust benötigt[15]. Anstatt des zusätzlichen Verlustterms, der im Switch Transformer verwendet wird, um die Nutzung der Experten zu erzwingen, verwendet der Router von DeepSeek dynamisches Routing mit adaptiven Kapazitätsgrenzen, um die Last natürlich auszugleichen[16]. Die Strategie ohne zusätzlichen Verlust von V3 erwies sich als effektiv – das Training war stabil und alle Experten blieben gut ausgelastet[17]. Wir können erwarten, dass V4 diesen Ansatz fortsetzt, was ein reibungsloses Training von Hunderten von Experten ohne Zusammenbruch ermöglicht.

Zusammenfassend lässt sich sagen, dass die Architektur von DeepSeek-V4 das modernste MoE-Design verkörpert: dünn besetztes Experten-Routing, das die Kapazität erheblich erweitert, ein 16-Experten-Aktivierungspfad für reichhaltigere Kombinationen von Expertise pro Token und maßgeschneiderte Techniken, um sicherzustellen, dass sich Experten spezialisieren (über feinkörnige Aufteilung und geteilte Generalisten) und robust trainieren. Es ist ein Modell, das „breit wächst“ durch Experten statt „hoch“ durch Schichten – eine grundlegend andere Skalierungsstrategie als die dichte GPT-Serie.

Kosteneffizienz: Training & Inferenz im großen Maßstab

Einer der überzeugendsten Aspekte von DeepSeek-V4 ist seine Kosteneffizienz, sowohl im Training als auch in der Bereitstellung. Die Skalierung auf 1 Billion Parameter mag unerschwinglich teuer erscheinen, aber die dünn besetzte Berechnung des MoE hält die tatsächlichen Kosten weit unter denen eines dichten Modells mit einer Billion Parametern.

Trainingsberechnung: Das Team von DeepSeek hat wiederholt bewiesen, dass selbst bei großen Maßstäben wirtschaftlich trainiert werden kann. Zum Beispiel wurde DeepSeek-V3 (671B Parameter) mit 14,8 Billionen Tokens vortrainiert und in den Phasen des überwachten Lernens und RLHF feingetunt, wobei die Gesamtkosten für das Training nur 2,788 Millionen H800 GPU-Stunden betrugen[18]. Das ist bemerkenswert niedrig, wenn man bedenkt, dass Modelle wie GPT-4 wahrscheinlich zig Millionen GPU-Stunden verbraucht haben. Das Training von DeepSeek-V3 war auch sehr stabil, ohne Verlustspitzen oder Neustarts notwendig[17] – eine beeindruckende Leistung für MoE, dank ihrer robusten Routing-Methode. Während die genauen V4-Trainingsstatistiken noch nicht öffentlich sind, hat es wahrscheinlich diesen Trend der effizienten Skalierung fortgesetzt. Der Vorteil von MoE ist klar: Man kann die Gesamtparameter um das 10-fache erhöhen, zahlt aber nur, sagen wir, 2–3× mehr in der Berechnung, wenn man den gleichen Bruchteil aktiviert lässt[10]. Branchenanalysen weisen darauf hin, dass MoE ~3× schnelleres Training bei festgelegter Rechenleistung zur Erreichung eines Zielverlusts liefern kann, verglichen mit dichten Modellen, durch seine spärliche Nutzung[10].
Inferenz- und Nutzungskosten: DeepSeek hat Schlagzeilen gemacht, indem es GPT-ähnliche Leistung zu einem Bruchteil der Nutzungskosten liefert. Das vorherige Modell DeepSeek-R1 (die Instruct-Version von V3) war 30× günstiger als OpenAIs text-davinci (o1) bei den Ausgabekosten pro Token[4]. Dies resultiert direkt aus der Effizienz von MoE – zur Inferenzzeit berechnet V4 nur einen ~30B-Parameter-Forward-Pass pro Token, was viel einfacher zu betreiben ist als ein 1T-dichter Forward-Pass. In der Praxis bedeutet dies, dass selbst ein Billionen-Parameter-MoE mit moderaten GPU-Clustern oder sogar Einzelmaschinen für kleinere Chargen bedient werden kann, insbesondere bei optimierten Bereitstellungen. (Bemerkenswert ist, dass das 1T Kimi K2 Modell von Moonshot mit 4-Bit-Quantisierung läuft, um den Speicher-/Rechenbedarf weiter zu senken[19].) Nutzer haben bereits berichtet, dass DeepSeeks API extrem erschwinglich für Abfragen mit großem Kontext ist, was Anwendungsfälle ermöglicht, die auf geschlossenen APIs kostenprohibitiv wären. Die offene Veröffentlichung bedeutet auch, dass Organisationen V4 selbst hosten können, um API-Kosten vollständig zu vermeiden. Im Wesentlichen bietet DeepSeek-V4 ein „offenes GPT-5“ zu vielleicht Centbeträgen im Vergleich zu OpenAI – ein großer Gewinn für zugängliche KI.
Trainingsbudget: In absoluten Zahlen ist das Training eines 1T-Modells nicht mehr nur für Tech-Giganten reserviert. Die Effizienz von MoE plus immer leistungsfähigere Hardware haben die Hürde drastisch gesenkt. Zum Beispiel hat Moonshot AI Berichten zufolge Kimi K2 (1T MoE) für nur 4,6 Millionen Dollar in Cloud-Computing trainiert[20]. Die Kosten von DeepSeek sollten in einem ähnlichen Bereich liegen. Zwar ist das nicht billig, aber es ist um Größenordnungen weniger als das, was ein dichtes Modell mit vergleichbarer Fähigkeit 2025 kosten würde. Sparse-Modelle demokratisieren effektiv extrem-skaliertes KI, sodass Startups und akademische Labors mit Billionen-Parameter-Skalen experimentieren können.

Zusammenfassend lässt sich sagen, dass DeepSeek-V4 durch geschicktes Abwägen zwischen voller und spärlicher Nutzung nahezu eine Spitzenleistung mit drastisch geringerer Rechenleistung erreicht. Es verkörpert das MoE-Versprechen: „Skaliere das Modell, nicht die Kosten.“ Diese Effizienz ist ein Hauptgrund, warum viele Experten MoE-Architekturen als die Zukunft großer KI-Modelle sehen[21][10].

Leistungsmerkmale: Spezialisierte Stärken

Abgesehen von der reinen Größe, was kann DeepSeek-V4 tatsächlich leisten? Erste Anzeichen deuten darauf hin, dass es in Bereichen, in denen Experten-Spezialisierung besonders vorteilhaft ist – insbesondere komplexes Denken (Mathematik, Logik) und Programmierung – herausragt, während es starke allgemeine Fähigkeiten beibehält, die mit den besten Modellen vergleichbar sind.

Mathematik und Logik: DeepSeek-Modelle haben sich einen Ruf für hervorragende mathematische Logik erworben. DeepSeek-V3 erreichte 89,3 % auf GSM8K (Grundschulmathematik) und 61,6 % auf dem MATH-Benchmark (Mathematik auf Wettbewerbsniveau)[3] – Ergebnisse, die GPT-4 und anderen Top-Modellen Konkurrenz machen. Dies wurde einem speziellen „Denk“-Trainingsmodus und MoE-Experten zugeschrieben, die sich auf mathematische Fähigkeiten konzentrieren. Es wird erwartet, dass DeepSeek-V4 das Niveau von GPT-5 bei mathematischen Logikaufgaben erreicht oder übertrifft[3], und die Lücke zu den neuesten geschlossenen Modellen in diesem Bereich im Wesentlichen schließt. Eine so starke Leistung bei mathematischen Textaufgaben und schrittweiser Logik ist von großer Bedeutung, da diese Aufgaben vom Experten-Mix-Ansatz profitieren (z. B. können einige Experten Algebra verinnerlichen, andere Geometrie usw. und den Problemraum aufteilen). Praktisch gesehen wäre V4 für jede Anwendung, die komplexe Berechnungen oder symbolische Logik erfordert, eine Top-Wahl.
Programmierung und Debugging: MoE hat die Programmierfähigkeiten ähnlich gesteigert. Zwischen DeepSeek V2.5 und V3 sprang die Leistung der Codegenerierung in ihrem internen Benchmark von 17,8 % auf 48,4 %[22] – ein massiver Sprung von etwa 30 % absolut, was größtenteils auf die erweiterte Anzahl von Experten und das Training zurückzuführen ist. Obwohl spezifische V4-Programmiermetriken noch nicht veröffentlicht sind, setzt sich dieser Aufwärtstrend wahrscheinlich fort. Konkurrenzmodelle wie Kimi K2 berichten von erstklassigen Code-Logik-Ergebnissen (~71 % auf einem herausfordernden mehrstufigen Code-Benchmark)[23][24], was darauf hindeutet, dass spärliche Modelle jetzt führend in der programmierbezogenen Intelligenz sind. DeepSeek-V4 ist als Modell für „KI-Programmierassistent 2025“-Anwendungsfälle positioniert[25][26]. Seine Fähigkeit, einen 256K oder größeren Kontext zu halten, bedeutet, dass es gesamte Codebasen oder mehrere Dateien aufnehmen und ganzheitlich darüber nachdenken kann – etwas, womit GPT-4 (32K max.) Schwierigkeiten hat. Benutzer können im Vergleich zu früheren offenen Modellen mit zuverlässigerer Codegenerierung, besseren Debugging-Vorschlägen und einer verbesserten Handhabung langer, komplexer Programmieraufgaben rechnen[27][28].
Allgemeinwissen und Benchmarks: In breiten NLP- und Wissens-Benchmarks wird erwartet, dass DeepSeek-V4 auf Augenhöhe mit anderen fortschrittlichen Modellen abschneidet. DeepSeek-V3 hat bereits andere Open-Source-LLMs übertroffen und war in vielen Bewertungen vergleichbar mit führenden geschlossenen Modellen[2]. Die zusätzliche Kapazität und Feinabstimmung von V4 sollte das nur noch verbessern. Es wird voraussichtlich eng mit Zeitgenossen wie Qwen-3 (das bei chinesischen und mehrsprachigen Aufgaben führend ist) und Claude 3.5 konkurrieren, während es sich bei englischen Mainstream-Benchmarks GPT-4/GPT-5 annähert. Ein bemerkenswerter Vorteil ist das extrem große Kontextfenster von V4 (angeblich 128K Tokens oder mehr). Dies ermöglicht Anwendungsfälle wie das Einlesen langer Forschungspapiere, umfangreicher Verträge oder einer mehrstufigen Agentenplanung. Zum Beispiel wurde gezeigt, dass Qwen-3's 256K Kontext ganze Code-Repositories und lange Dialoge bewältigen kann[29]; DeepSeek-V4 sollte eine ähnliche oder größere Kontextlänge bieten, was Aufgaben, die das Querverweisen oder das Logik über lange Dokumente erfordern, erheblich zugutekommt.
Menschliche Ausrichtung und Nützlichkeit: Mit R1 zeigte DeepSeek, dass es Modelle feinabstimmen kann, um für allgemeine Benutzer hilfreich und harmlos zu sein und erreichte dabei Parität mit OpenAIs frühem GPT-4o Modell in der Ausrichtung, während es viel günstiger war[4]. Wir können erwarten, dass ein DeepSeek-R2 (die instruktionstunierte Version von V4) veröffentlicht oder in Arbeit ist, das wahrscheinlich einer Verstärkungslernen mit menschlichem Feedback (RLHF) unterzogen wird, um seine Ausgaben zu verfeinern. Die offene MIT-Lizenz und die starke Leistung führten bereits dazu, dass DeepSeek-R1 in viele Plattformen integriert wurde (von Microsoft Azure über Hugging Face bis hin zu lokalen Assistenten)[30][31]. Wenn V4 diese offene und anpassungsfähige Philosophie beibehält, wird es sich ebenfalls schnell durch das Ökosystem verbreiten – von Chatbots bis hin zu Produktivitätstools – und eine brauchbare kostenlose Alternative zu geschlossenen Modellen für eine Vielzahl von Anwendungen bieten.

Kurz gesagt, DeepSeek-V4 scheint die Stärken von MoE auszuspielen: Es ist ein Mathematikgenie, ein fähiger Programmierer und ein solider Allround-Gesprächs-KI. Es mag Modelle wie GPT-5 nicht in jeder einzelnen Aufgabe übertreffen (GPT-5 könnte in einigen „generalistischen“ Bereichen oder im multimodalen Verständnis noch einen Vorteil haben[32]), aber V4 kann in mehreren wichtigen Bereichen die Führung beanspruchen oder einen engen zweiten Platz belegen und ist dabei zugänglicher. Für viele spezifische Anwendungsfälle – insbesondere solche, die einen großen Kontext oder domänenspezifisches Denken erfordern – bietet es eine unschlagbare Kombination aus hoher Leistung und niedrigen Kosten.

Implikationen und Ausblick

Der Start von DeepSeek-V4 signalisiert mehr als nur den Erfolg eines Unternehmens – es repräsentiert einen breiteren Wandel hin zu sparsamen Expertenmodellen in der Zukunft der KI. Wie eine Analyse feststellte: „Um Billionen-Parameter-Modelle zu erreichen, die trainierbar und einsetzbar sind, wird Sparsamkeit durch MoE zum einzigen gangbaren Ansatz.“[10] DeepSeek hat dies bewiesen, indem es ein Billionen-Modell geliefert hat, das die Gemeinschaft tatsächlich nutzen kann. Das traditionelle dichte Skalieren (einfach das Modell größer machen und mit Gewalt durchsetzen) stößt auf ernsthafte abnehmende Erträge und Kostenbarrieren[33][34]. Sparsame Modelle wie DeepSeek-V4 weisen einen Weg nach vorne, bei dem wir die KI-Fähigkeiten weiter ausbauen können, ohne die Rechenanforderungen proportional zu erhöhen.

Aus Marktperspektive stehen offene chinesische Modelle nun den besten westlichen Laboren in nichts nach. DeepSeek-V4 und seine Kollegen (Qwen3, Kimi K2) wurden sowohl in den Medien als auch in Benchmarks direkt mit GPT-5 verglichen[35][36]. Sie übertreffen oft Modelle der GPT-4-Klasse in speziellen Bereichen (Programmierung, Logik) und das zu einem Bruchteil der Kosten[37][38]. Dies zwingt zu einem wettbewerbsorientierten Umdenken: OpenAI und andere könnten sich gedrängt fühlen, MoE-Techniken zu integrieren oder ihre Kosten drastisch zu senken. Für Endnutzer und Entwickler ist das ein großer Gewinn – wir haben mehr Möglichkeiten denn je an der Spitze der KI, und viele dieser Optionen sind Open-Source und kostengünstig. Das Innovations-Tempo im chinesischen KI-Ökosystem, das durch Modelle wie DeepSeek angestoßen wurde, ist bemerkenswert; es senkt die Kosten und steigert die Leistung, was der globalen Gemeinschaft zugutekommt.

Abschließend sei darauf hingewiesen, dass DeepSeek-V4s Ansatz im Gegensatz zu einem anderen aufkommenden Ansatz steht: Reinforcement Learning + speichererweiterte Modelle. Die MoE-Strategie erhöht die Modellkapazität (Parameter) und stützt sich auf Routing, um Komplexität zu bewältigen, während sich andere Forschungen darauf konzentrieren, die Modellfähigkeit durch externe Werkzeuge, Langzeitgedächtnis oder agentenähnliche Denkschleifen zu verbessern. Zum Beispiel integrieren Modelle wie Kimi K2 „Thinking“ die Nutzung von Werkzeugen und eine agentenartige Schleife mit einem 256K-Kontext, um bemerkenswerte Planungen über lange Horizonte hinweg zu erreichen[5][39]. Ebenso erkunden kommende Systeme explizite Speichermodule oder neuronale Abrufmethoden, um kleineren Modellen zu ermöglichen, größere durch Informationsabruf zu übertreffen. DeepSeeks Philosophie war bisher, so viel Wissen wie möglich in die Modellparameter zu packen (und tatsächlich könnte V4 einige mehrstufige Denkprozesse in sein Fine-Tuning integrieren). Beide Ansätze – Skalierung durch MoE und Verbesserung durch Memory/RL – ergänzen sich gegenseitig. Vielleicht sehen wir bald Hybride, die massive MoE-Netzwerke mit dynamischem Speicher oder Werkzeuginterfaces kombinieren. In jedem Fall setzt der Erfolg von V4 eine hohe Messlatte: Jeder alternative Ansatz muss sich in seiner Leistung und Effizienz daran messen lassen, um ernst genommen zu werden.

Fazit

DeepSeek-V4 MoE markiert einen Meilenstein in der KI-Entwicklung – ein offenes Modell mit 1 Billion Parametern, das MoEs Versprechen von „groß werden und effizient bleiben“ verwirklicht. Es zeigt, dass spärliche Expertenmodelle in der Lage sind, in anspruchsvollen Aufgaben erstklassige Ergebnisse zu erzielen und oft dichtere Modelle zu übertreffen, die viel kostspieliger in der Ausbildung und im Betrieb sind. Durch die Open-Source-Veröffentlichung von V4 unter der MIT-Lizenz hat DeepSeek-AI zudem sichergestellt, dass dieser Durchbruch weit zugänglich ist, was globale Forschung und Anwendungsentwicklung vorantreibt. Die virale Resonanz des Modells online ist ein Beweis für die Begeisterung der Community: Wir erleben das Schließen der Qualitätslücke zwischen offenen Modellen und den besten geschlossenen Modellen, und in einigen Nischen ziehen die offenen Modelle sogar voraus[40][38].

Wenn wir in die Zukunft blicken, werden die in DeepSeek-V4 eingeführten Techniken – von der 16-Experten-Routing bis zur ausgleichsfreien Balance – wahrscheinlich viele zukünftige Architekturen beeinflussen. Als KI-Forscher haben wir nun Beweise dafür, dass die Skalierung der Breite (Experten) genauso mächtig sein kann wie die Skalierung der Tiefe oder der Daten, wenn nicht sogar mächtiger, für bestimmte Probleme. In der Zwischenzeit rücken die nächsten Herausforderungen in den Fokus: Wie kann man die Kohärenz über Kontexte mit Millionen von Tokens aufrechterhalten, wie kann man Echtzeit-Lernen oder -Speicher integrieren und wie kann man das „Routing“-Gehirn von MoE-Modellen weiter verbessern? DeepSeek-V4 hat ein neues Kapitel in dieser Geschichte aufgeschlagen, und sein Einfluss wird sowohl im Engineering von KI-Systemen als auch in der Wirtschaftlichkeit der KI-Bereitstellung (günstigere, offenere Modelle für alle) spürbar sein.

Zusammengefasst ist DeepSeek-V4 ein Triumph des Designs sparsamer Modelle – es liefert GPT-5-ähnliche Fähigkeiten durch eine Armee von Experten, anstatt durch ein riesiges Monolith. Es unterstreicht, dass die Grenze der KI nicht mehr nur davon abhängt, wer mehr Daten oder TPU-Pods hat, sondern auch von intelligenter Architektur und Offenheit. Wenn wir diesen MoE-Ansatz mit anderen Wegen (wie Verstärkungslernen + Speicherstrategien in kommenden Arbeiten) vergleichen, wird eines klar: Das Rennen zur AGI hat jetzt mehrere gangbare Wege. Dank Innovationen wie DeepSeek-V4 beschleunigt sich dieses Rennen auf eine offene, kostensensible und äußerst spannende Weise.

Quellen:

· DeepSeek-AI, DeepSeek-V3 Technischer Bericht, arXiv (2025) – Vorgestellt wurde ein 671B-param MoE (37B aktiv); stabiles Training auf 14,8T Tokens[18]. Demonstrierte Open-Model-Performance auf Augenhöhe mit geschlossenen GPT-4-Level-Modellen[2] mit nur 2,788M H800-Stunden Training[41].

· DeepSeek-AI, DeepSeekMoE: Ultimative Experten-Spezialisierung, arXiv (2024) – Vorgeschlagen wurden feinkörnige Expertensegmentierung und geteilte Experten, um MoE-Überschneidungen zu lösen[12], wodurch m·K Experten aktiv sind (DeepSeekMoE 2B erreichte die gleiche Leistung wie das dichte 2B mit nur der Hälfte des Rechenaufwands)[42]. Validierte Skalierung auf 145B mit erheblichen Zuwächsen gegenüber GShard MoE.

· Joyce Birkins, DeepSeek Offizielle Papiere Übersicht, Medium (Feb 2025) – erklärte die Architektur von DeepSeek V2/V3. Anmerkung zu V3: 671B insgesamt vs. 37B aktiv (nur ~5,5%)[11], Nutzung eines aux-loss-freien Lastenausgleichs[15], und 14 Experten/Token durch Expertensplitting[13]. Hervorgehoben wird die Stabilität von V3 und der enorme Sprung in den Code-Fähigkeiten (30%+) im Vergleich zu V2.5[22].

· Cerebras Blog, MoE Grundlagen: Sparse Modelle (Juli 2025) – Diskutierte, warum <10% Aktivierung (wie in DeepSeek) ein Merkmal für Billionen-Skalen-Modelle ist[1]. Zeigte, dass selbst 32 Experten 3× schnelleres Training oder 5% besseren Verlust bei gleicher Rechenleistung ermöglichen können[43], und dass das 256-Experten-Design von DeepSeek diese Effizienz exemplifiziert[44]. Veranschaulichte, wie MoEs dichte (Chinchilla-optimale) Modelle bei fester Rechenleistung übertreffen[45].

· Spectrum AI Labs (Paras), DeepSeek V4 vs Qwen3-Max vs GPT-5 (Nov 2025) – Vergleich der neuesten chinesischen Modelle. Berichtet über DeepSeek V3’s 89,3% GSM8K und 61,6% MATH, wobei erwartet wird, dass V4 GPT-5 bei mathematischem Denken erreicht oder übertrifft [3]. Qwen 2.5-Max’s HumanEval mit 92,7% führt die Codier-Benchmarks an [25], während DeepSeek V3 bei 88,9% liegt. Betont den Kostenvorteil von DeepSeek (Open-Source, ~30× günstiger als OpenAI) [46][47].

· Reddit-DeepSeek-Community-Posts (2025) – Hervorgehoben R1’s Kosten: „Leistung gleich OpenAI-o1, zu 1/27 des Preises“[48]. Auch Gerüchte über das 1M-Token-Kontextfenster von V4 (unbestätigt)[49] und die Verwendung von „V3.2 sparse attention“ als Testumgebung für lange Kontexte vor V4 wurden erwähnt. Das Feedback der Community zeigt äußerst niedrige API-Nutzungskosten (Bruchteile eines Cents pro Million Tokens), die ausgiebige lange Gespräche ermöglichen[50].

· Moonshot AI, Kimi K2 Thinking – Architektur & Leistung (Nov 2025) – Beschrieb ein zeitgemäßes 1T-Param MoE-Modell. K2 verwendet 256K Kontext, 1T insgesamt mit 32B aktiviert[5] und INT4-Quantisierung zur Effizienzsteigerung[51]. Zeigte starke Fähigkeiten zur Werkzeugnutzung über lange Horizonte (200+ aufeinanderfolgende Aufrufe) und erstklassige Agenten-Benchmarks[52], die das Potenzial der Kombination von MoE-Skalierung mit agentischen Denkprozessen demonstrieren. Die Trainingskosten von K2 betragen ~$4.6M[20] und veranschaulichen die neue Erschwinglichkeit von Billionen-Parametern-Training.

[1] [10] [21] [33] [34] [43] [44] [45] MoE-Grundlagen: Warum Sparse-Modelle die Zukunft der KI sind

https://www.cerebras.ai/blog/moe-guide-why-moe

[2] [17] [18] [41] [2412.19437] DeepSeek-V3 Technischer Bericht

https://arxiv.org/abs/2412.19437

[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 vs Qwen3-Max-Thinking: Die chinesischen KI-Modelle, die GPT-5 schlagen | Spectrum AI Labs

https://spectrumailab.com/blog/deepseek-v4-vs-qwen3-max-thinking-chinese-ai-models-beating-gpt5

[4] [7] [22] [30] [31] [48] Generative AI Großmodell wöchentlicher Bericht | jax

https://cdjax.com/?p=680

[5] [6] [19] [23] [24] [39] [51] [52] Kimi K2 Denken: Langfristige Planung mit 256K Kontext | von My Social | . | Nov, 2025 | Medium

https://medium.com/aimonks/kimi-k2-thinking-long-horizon-planning-with-256k-context-67cd1277fb72

[9] Benchmark-Bewertung von DeepSeek-Sprachmodellen in ...

https://www.nature.com/articles/s41591-025-03727-2

[11] [13] [14] [15] [16] Deepseek 4 Offizielle Papierübersicht: Deepseek MoE, MLA, MTP, Distillation | von Joyce Birkins | Medium

https://medium.com/@joycebirkins/deepseek-4-official-papers-overview-deepseek-moe-mla-mtp-distillation-49a97b3b90a8

[12] [42] [2401.06066] DeepSeekMoE: Auf dem Weg zur ultimativen Expertenspezialisierung in Mixture-of-Experts Sprachmodellen

https://arxiv.org/abs/2401.06066

[20] Kimi K2 Thinking: Das $4.6M-Modell verändert KI-Erzählungen

https://recodechinaai.substack.com/p/kimi-k2-thinking-the-46m-model-shifting

[49] [50] Deepseek V4. : r/DeepSeek

https://www.reddit.com/r/DeepSeek/comments/1nwvnmb/deepseek_v4/