DeepSeek-V4 MoE: داخل ابتكار مفتوح المصدر يحتوي على تريليون بارامتر

المؤلف: Boxu L

مقدمة: دفع النماذج المتفرقة إلى مقياس التريليون

DeepSeek-V4 اجتاحت مجتمع الذكاء الاصطناعي باعتبارها أكبر نموذج لغوي مفتوح من نوع Mixture-of-Experts (MoE) حتى الآن. انتشرت مسودة بحثية على arXiv تسلط الضوء على هذا النموذج الذي يحتوي على 1 تريليون معلمة، مما يُظهر تحولًا في كيفية توسع الذكاء الاصطناعي. على عكس النماذج الكثيفة التي تقوم بتفعيل جميع الأوزان لكل رمز، فإن النماذج مثل MoE DeepSeek تقوم بتفعيل جزء صغير فقط من معلماتها في كل مرة – عادةً <10% لكل رمز[1]. هذه التفعيل النادر هو الميزة التي تجعل النماذج التي تحتوي على تريليون معلمة ممكنة[1]. في حالة DeepSeek-V4، يتم استخدام حوالي 32 مليار معلمة (≈3% من الإجمالي) لأي رمز مدخل معين، مما يستفيد من سعة هائلة بتكاليف حساب أقل بكثير من نموذج كثيف بنفس الحجم.

لماذا كل هذا الاهتمام؟ أولاً، DeepSeek-V4 هو أكبر نموذج MoE مفتوح المصدر حتى الآن، متفوقًا على النماذج السابقة مثل DeepSeek-V3 (671B params) وحتى ينافس النماذج المغلقة في العديد من المهام[2]. إصداره تحت رخصة مصدر مفتوحة ومرنة يعني أن أي شخص يمكنه تجربة أو نشر نموذج بمقياس GPT-5 – وهو تطور دراماتيكي في عصر حيث النماذج الرائدة غالبًا ما تكون ملكية خاصة. علاوة على ذلك، تشير الاختبارات الأولية إلى أن DeepSeek-V4 يقدم أداء متقدمًا في المجالات المتخصصة مثل الرياضيات والبرمجة (حيث تبرز تخصصات MoE)، وذلك بجزء من تكلفة النماذج الكبيرة السابقة[3][4]. كل هذه العوامل مجتمعة جعلت DeepSeek-V4 ظاهرة شائعة بين الباحثين والمهندسين.

أكبر نموذج MoE مفتوح: المواصفات الرئيسية والابتكارات

لفهم DeepSeek-V4 بشكل أفضل، من المفيد معرفة التفاصيل التقنية الرئيسية وكيفية مقارنته بالنماذج الرائدة الأخرى:

النموذج (2025)

البنية

المعلمات (الإجمالي / النشطة)

نافذة السياق

التوافر

DeepSeek-V4

MoE (متفرق، ~16 خبير/رمز)

~1 تريليون / ~32 مليار (تقديري)[5]

128K (موسع، شائعة تصل إلى 1M)

مفتوح المصدر (رخصة MIT)[4]

Moonshot Kimi K2

MoE (متفرق)

1 تريليون / 32 مليار[5]

256K[6]

مفتوح المصدر (رخصة MIT)

Alibaba Qwen3-Max

MoE (متفرق)

>1 تريليون / ~22 مليار[7][8]

256K

مفتوح المصدر (Apache-2.0)

OpenAI GPT-5 (تقديري)

كثيف (مفعّل بالكامل)

~1.8 تريليون / ~1.8 تريليون (100% نشط)[9]

32K

مغلق المصدر (ملكية خاصة)

جدول: DeepSeek-V4’s 1T-param MoE في سياق مع نماذج الجيل التالي المماثلة. تشير كلمة 'نشط' إلى المعاملات المستخدمة لكل رمز (تقوم نماذج MoE بتوجيه كل رمز من خلال مجموعة فرعية من الخبراء). السياق = الحد الأقصى لطول التسلسل الذي يمكن للنموذج التعامل معه.

كما هو موضح أعلاه، ينضم DeepSeek-V4 إلى نادي النخبة من النماذج ذات التريليون معلمة بجانب النماذج الصينية الأخرى التي تم الإعلان عنها مؤخرًا مثل Kimi K2 و Qwen3-Max. تعتمد جميع هذه النماذج على بنى MoE ذات البوابات المتفرقة للحفاظ على عشرات المليارات فقط من المعلمات "نشطة" في كل مرة[5]. على النقيض من ذلك، يحتاج النموذج الكثيف (مثل GPT-5) إلى استخدام كل وزن في كل مرة – وهو نهج يصبح باهظ التكلفة عند تجاوز النطاق 500 مليار–1 تريليون[10]. يُذكر أن تصميم DeepSeek-V4 يستخدم مسار 16 خبيرًا، مما يعني أن كل رمز يتم معالجته بواسطة ما يصل إلى 16 شبكة فرعية خبيرة في كل طبقة MoE، يتم اختيارها من بين مئات الخبراء المتاحين. هذا يمثل زيادة كبيرة عن نماذج MoE السابقة (التي غالبًا ما استخدمت أفضل 2 أو 4 خبراء) ويهدف إلى زيادة القوة التعبيرية للنموذج من خلال مسارات أكثر تخصصًا ودقة.

التوجيه المتفرق باستخدام بنية مسار مكونة من 16 خبيرًا

Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.

يعتمد DeepSeek-V4 على بنية MoE المثبتة الخاصة بـ DeepSeek والتي تم تقديمها في الإصدارات V2/V3 وتم تحسينها من خلال سلسلة أبحاث DeepSeekMoE. في جوهره، يستبدل النموذج الطبقات العادية لتغذية المُحوِّل إلى الأمام بمصفوفة من شبكات الخبراء المتوازية. لكل رمز وارد، يقوم مُوجِّه البوابة باختيار ديناميكي لعدد من الخبراء الأنسب لمعالجة محتوى هذا الرمز (مثل بعض الخبراء قد يتخصصون في الأكواد، آخرون في الرياضيات، وآخرون في بناء الجمل الشائع). فقط شبكات الخبراء المختارة هي التي تُنفذ لهذا الرمز، مما يجعل الحساب متفرقًا.

بشكل أساسي، قامت DeepSeek بتحديث توجيه MoE لتحسين تخصيص الخبراء واستخدامهم. قدمت DeepSeekMoE architecture استراتيجيتين رئيسيتين[12]:

التقسيم الدقيق للخبراء: بدلاً من وجود عدد قليل من الخبراء الضخم، يقوم DeepSeek بتقسيم كل شبكة تغذية أمامية إلى العديد من الخبراء الأصغر (في الإصدار V3، 256 خبيرًا لكل طبقة MoE). يتيح هذا تفعيل المزيد من الخبراء لكل رمز (m×K بدلاً من K) دون زيادة تكلفة كل رمز[12]. في MoE السابقة مثل GShard، كان الرمز قد يذهب إلى أفضل خبيرين؛ قام DeepSeek V3 بزيادة هذا ليصل إلى أفضل 14 خبيرًا بشكل فعال من خلال تقسيم الخبراء إلى أجزاء أدق[13]. يأخذ DeepSeek-V4 هذا إلى مستوى أبعد – حيث يحتوي على مسار من 16 خبيرًا، يشارك كل رمز 16 خبيرًا بالتوازي، مما يوفر مزيجًا غنيًا من الحسابات المتخصصة. من خلال الحفاظ على صغر حجم كل خبير نسبيًا، تظل الحسابات الإجمالية لكل رمز قابلة للإدارة حتى مع زيادة العدد الإجمالي للخبراء (والإجمالي للمعاملات) بشكل كبير[12].
الخبراء "العامة" المشتركون: يخصص DeepSeek أيضًا مجموعة فرعية من الخبراء كـ خبراء مشتركين يتم تفعيلهم دائمًا لكل رمز[14]. يعمل هؤلاء كأحواض معرفة عامة للتعامل مع الأنماط العالمية (اللغة العامة، التفكير العام)، مما يضمن أن كل رمز يحصل على معالجة عامة. في الوقت نفسه، يمكن للخبراء الآخرين التركيز على الأنماط المتخصصة أو المعقدة دون إعادة تعلم المعرفة الأساسية بشكل زائد[14]. يخفف هذا الابتكار من مشكلة "التكرار الخبيري" حيث قد تتقارب الخبراء المتعددة إلى مهارات مشابهة. من خلال عزل $K_s$ من الخبراء المشتركين للمعرفة العامة، يمكن لـ DeepSeek-V4 تخصيص الخبراء المتبقيين فقط لمجالات المعرفة المتخصصة[12].

يساعد الجمع بين التقسيم الدقيق والخبراء المشتركين في تجنب تداخل الخبراء والانهيار، وهو تحدٍ معروف في MoEs. في MoEs التقليدية، إذا لم يتم إدارة الموجه بعناية، فقد يفرط في استخدام بعض الخبراء ويقلل من تدريب الآخرين («انهيار التوجيه»). تعالج DeepSeek-V3/V4 هذا باستخدام استراتيجية توجيه توازن الأحمال التي لا تحتاج إلى خسارة إضافية[15]. بدلاً من استخدام مصطلح الخسارة الإضافي في Switch Transformer لإجبار استخدام الخبراء، يستخدم موجه DeepSeek توجيهًا ديناميكيًا بحدود سعة تكيفية لتوازن الأحمال بشكل طبيعي[16]. أثبتت استراتيجية عدم الخسارة الإضافية في V3 فعاليتها - كان التدريب مستقرًا وظل جميع الخبراء مستخدمين بشكل جيد[17]. يمكننا أن نتوقع أن تواصل V4 هذا النهج، مما يتيح تدريبًا سلسًا لمئات الخبراء دون انهيار.

باختصار، يمثل تصميم DeepSeek-V4 ذروة تصميم MoE الرائد: توجيه الخبراء النادر الذي يوسع السعة بشكل كبير، ومسار تفعيل بـ 16 خبيراً لتقديم مزيج أغنى من الخبرات لكل رمز، وتقنيات مخصصة لضمان تخصص الخبراء (عبر تقسيمات دقيقة وخبراء عامين مشتركين) وتدريب قوي. إنه نموذج "يتوسع عرضياً" عبر الخبراء بدلاً من "الارتفاع" عبر الطبقات - استراتيجية توسيع مختلفة جوهرياً عن سلسلة GPT الكثيفة.

الكفاءة في التكلفة: التدريب والاستنتاج على نطاق واسع

إحدى الجوانب الأكثر جاذبية في DeepSeek-V4 هي الكفاءة في التكلفة، سواء في التدريب أو التنفيذ. قد يبدو التوسع إلى تريليون معلمة مكلفاً بشكل كبير، ولكن حساب MoE النادر يحافظ على التكاليف الفعلية أقل بكثير من نموذج تريليون معلمة كثيف.

حسابات التدريب: أظهر فريق DeepSeek مرارًا وتكرارًا قدرة على التدريب الاقتصادي حتى على نطاقات ضخمة. على سبيل المثال، تم تدريب DeepSeek-V3 (671 مليار معلمة) مسبقًا على 14.8 تريليون رمز وتم تحسينه بمراحل إشرافية وRLHF بتكلفة تدريب إجمالية تبلغ فقط 2.788 مليون ساعة GPU H800[18]. هذا يعتبر منخفضًا بشكل مذهل نظرًا لأن نماذج مثل GPT-4 استهلكت على الأرجح عشرات الملايين من ساعات GPU. كان تدريب DeepSeek-V3 أيضًا مستقرًا للغاية، دون ارتفاعات في الخسائر أو الحاجة إلى إعادة تشغيل[17] - إنجاز مثير للإعجاب لـ MoE، بفضل طريقتهم القوية في التوجيه. في حين أن إحصائيات تدريب V4 الدقيقة ليست متاحة للجمهور بعد، فمن المحتمل أنها استمرت في هذا الاتجاه للتوسع الفعال. ميزة MoE واضحة: يمكنك زيادة المعلمات الإجمالية 10× ولكن تدفع فقط، مثلاً، 2–3× أكثر في الحساب إذا حافظت على نفس النسبة المفعلة[10]. تشير تحليلات الصناعة إلى أن MoE يمكن أن يحقق تدريبًا أسرع بحوالي 3× مع حساب ثابت للوصول إلى خسارة مستهدفة، مقارنة بالنماذج الكثيفة، بفضل استخدامه المتناثر[10].
تكلفة الاستدلال والاستخدام: حققت DeepSeek عناوين الصحف بتقديم أداء بمستوى GPT بتكلفة استخدام جزئية صغيرة. كان النموذج السابق DeepSeek-R1 (النسخة التوجيهية لـ V3) أرخص بـ 30× من text-davinci (o1) من OpenAI في تكلفة الإخراج لكل رمز[4]. هذا ينبع مباشرة من كفاءة MoE - في وقت الاستدلال، يقوم V4 فقط بحساب تمرير للأمام بحوالي 30 مليار معلمة لكل رمز، وهو أسهل بكثير في التشغيل من تمرير للأمام كثيف بمليار معلمة. في الممارسة العملية، يعني هذا أن حتى نموذج MoE بمليار معلمة يمكن تشغيله بمجموعات GPU متوسطة أو حتى آلات فردية للدفعات الصغيرة، خاصة مع عمليات النشر المحسنة. (من الجدير بالذكر أن نموذج Kimi K2 بمليار معلمة من Moonshot يعمل بتكميم 4 بت لخفض احتياجات الذاكرة/الحساب بشكل أكبر[19].) أفاد المستخدمون بالفعل أن واجهة برمجة التطبيقات DeepSeek ميسورة التكلفة للغاية للاستفسارات ذات السياقات الكبيرة، مما يتيح حالات استخدام كانت محظورة التكلفة على واجهات برمجة التطبيقات المغلقة. الإصدار المفتوح يعني أيضًا أن المؤسسات يمكنها استضافة V4 ذاتيًا لتجنب تكاليف واجهة برمجة التطبيقات بالكامل. بشكل أساسي، يوفر DeepSeek-V4 “GPT-5 المفتوح” ربما بسنتات على الدولار بالمقارنة مع OpenAI - فوز كبير للذكاء الاصطناعي المتاح.
ميزانية التدريب: من الناحية المطلقة، لم يعد تدريب نموذج بمليار معلمة محصورًا على عمالقة التكنولوجيا. كفاءة MoE بالإضافة إلى الأجهزة القوية بشكل متزايد قد قللت بشكل كبير من الحاجز. على سبيل المثال، يُقال إن Moonshot AI قد دربت Kimi K2 (1T MoE) مقابل فقط 4.6 مليون دولار في حساب السحابة[20]. يجب أن تكون تكاليف DeepSeek في نطاق مشابه. على الرغم من أنها ليست رخيصة، إلا أن هذا أقل بمقدار أوامر حجم مما سيكلفه تدريب نموذج كثيف ذو قدرة مماثلة في عام 2025. النماذج المتناثرة تساهم بشكل فعال في دمقرطة الذكاء الاصطناعي ذو النطاق الواسع، مما يسمح للشركات الناشئة والمختبرات الأكاديمية بالتجربة على نطاقات بمليارات المعلمات.

باختصار، من خلال الموازنة الذكية بين الاستخدام الكامل والاستخدام النادر، يحقق DeepSeek-V4 أداءً قريبًا من الأفضل في فئته مع تقليل كبير في الحسابات. يجسد وعد MoE: "قم بتوسيع النموذج، وليس التكلفة." هذه الكفاءة هي سبب رئيسي لماذا يرى العديد من الخبراء أن هياكل MoE هي مستقبل النماذج الكبيرة للذكاء الاصطناعي [21][10].

أبرز الأداء: نقاط القوة المتخصصة

بعيدًا عن الحجم الخام، ماذا يمكن أن يفعل DeepSeek-V4 فعلاً؟ تشير المؤشرات المبكرة إلى أنه يتفوق في المجالات التي يكون فيها التخصص الخبير الأكثر فائدة – لا سيما التفكير المعقد (الرياضيات، المنطق) والبرمجة – مع الحفاظ على قدرات عامة قوية على قدم المساواة مع أفضل النماذج.

الرياضيات والاستدلال: لقد اكتسبت نماذج DeepSeek سمعة قوية في الاستدلال الرياضي الممتاز. حقق DeepSeek-V3 نتيجة 89.3٪ في اختبار GSM8K (الرياضيات المدرسية) و 61.6٪ في معيار MATH (الرياضيات في مستوى المنافسة)[3] - نتائج تنافس GPT-4 والنماذج الأخرى الرائدة. يُعزى هذا إلى وضع تدريب خاص "التفكير" وخبراء MoE الذين يركزون على مهارات الرياضيات. من المتوقع أن يتطابق DeepSeek-V4 مع مستوى GPT-5 أو يتجاوزه في مهام الاستدلال الرياضي[3]، مما يغلق الفجوة مع النماذج الحديثة المغلقة في هذا المجال. يعتبر الأداء القوي في مسائل الرياضيات والكلمات والاستدلال خطوة بخطوة أمرًا بالغ الأهمية، حيث تستفيد هذه المهام من نهج خليط الخبراء (مثل بعض الخبراء يمكنهم استيعاب الجبر، وآخرون الهندسة، وما إلى ذلك، وتقسيم مساحة المشكلة). من الناحية العملية، لأي تطبيق يتطلب حسابات معقدة أو استدلال رمزي، سيكون V4 خيارًا ممتازًا.
الترميز وتصحيح الأخطاء: لقد عزز MoE قدرات الترميز بشكل مماثل. بين DeepSeek V2.5 و V3، قفز أداء توليد الكود من 17.8٪ إلى 48.4٪ في معيارهم الداخلي[22] - زيادة مطلقة تبلغ حوالي 30٪، ويرجع ذلك بشكل كبير إلى زيادة عدد الخبراء والتدريب. بينما لم تُنشر بعد مقاييس ترميز V4 المحددة، إلا أنه من المحتمل أن يواصل هذا الاتجاه التصاعدي. تشير النماذج المنافسة مثل Kimi K2 إلى تحقيق نتائج رائدة في استدلال الكود (حوالي 71٪ على معيار كود متعدد الخطوات)[23][24]، مما يشير إلى أن النماذج المتفرقة أصبحت الآن رائدة في الذكاء المتعلق بالترميز. تم وضع DeepSeek-V4 كنموذج مثالي للاستخدام في حالات "مساعد ترميز AI لعام 2025"[25][26]. قدرته على استيعاب 256K أو أكبر من السياق يعني أنه يمكنه تناول قواعد بيانات الكود بالكامل أو ملفات متعددة والتفكير فيها بشكل شامل - وهو أمر يعاني منه GPT-4 (32K كحد أقصى). يمكن للمستخدمين توقع توليد كود أكثر موثوقية، واقتراحات تصحيح أخطاء أفضل، وتحسين التعامل مع المهام الطويلة والمعقدة للترميز مقارنة بالنماذج المفتوحة السابقة[27][28].
المعرفة العامة والمعايير: في معايير NLP والمعرفة الواسعة، من المتوقع أن يقدم DeepSeek-V4 أداءً مشابهًا للنماذج المتطورة الأخرى. لقد تفوق DeepSeek-V3 بالفعل على نماذج LLM مفتوحة المصدر الأخرى وكان مقارنةً بالنماذج المغلقة الرائدة في العديد من التقييمات[2]. من المفترض أن تحسن السعة الإضافية لـ V4 والتدقيق الدقيق عليه ذلك. من المرجح أن يتنافس عن كثب مع المعاصرين مثل Qwen-3 (الذي يتصدر المهام الصينية ومتعددة اللغات) و Claude 3.5، بينما يقترب من GPT-4/GPT-5 في المعايير الإنجليزية الرئيسية. ميزة لافتة للنظر هي نافذة السياق الكبيرة للغاية لـ V4 (يُقال إنها تصل إلى 128K توكن أو أكثر). هذا يمكن من حالات الاستخدام مثل استيعاب الأوراق البحثية الطويلة، العقود الطويلة، أو تخطيط الوكلاء المتعدد الأدوار. على سبيل المثال، تم إثبات قدرة Qwen-3 على التعامل مع مستودعات الكود بالكامل والحوارات الطويلة بسياق 256K[29]؛ يجب أن يوفر DeepSeek-V4 طول سياق مماثل أو أكبر، مما يفيد بشكل كبير المهام التي تتضمن الرجوع المتقاطع أو الاستدلال على الوثائق الطويلة.
محاذاة الإنسان والفائدة: أظهر DeepSeek مع R1 قدرته على تدريب النماذج لتكون مفيدة وغير ضارة للمستخدمين العامين، محققًا التكافؤ مع نموذج GPT-4o المبكر لشركة OpenAI في المحاذاة بينما كان أرخص بكثير[4]. يمكننا أن نتوقع إصدار DeepSeek-R2 (الإصدار المضبوط بالتعليمات من V4) أو قيد التطوير، والذي من المرجح أن يخضع لتعلم التعزيز من ردود فعل المستخدمين (RLHF) لتحسين مخرجاته. لقد أدى الترخيص المفتوح لـ MIT والأداء القوي بالفعل إلى دمج DeepSeek-R1 في العديد من المنصات (من Microsoft Azure إلى Hugging Face إلى المساعدين المحليين)[30][31]. إذا حافظ V4 على هذا النهج المفتوح والمرن، فسوف ينتشر بسرعة عبر النظام البيئي أيضًا - من روبوتات الدردشة إلى أدوات الإنتاجية - مما يوفر بديلاً مجانيًا للنماذج المغلقة لمجموعة واسعة من التطبيقات.

باختصار، يبدو أن DeepSeek-V4 يستفيد من نقاط قوة MoE: فهو ساحر في الرياضيات، ومبرمج ماهر، وذكاء اصطناعي محادثي شامل قوي. قد لا يتفوق بشكل كبير على نماذج مثل GPT-5 في كل مهمة (قد يكون لـ GPT-5 ميزة في بعض المناطق "العامة" أو الفهم متعدد الوسائط)، لكن V4 يمكنه المطالبة بالقيادة أو مركز ثاني قريب في عدة مجالات رئيسية، مع كونه أكثر سهولة في الوصول. بالنسبة للعديد من الحالات الخاصة – خاصة تلك التي تتطلب سياقًا كبيرًا أو تفكيرًا خاصًا بالمجال – فإنه يقدم مزيجًا لا يُضاهى من الأداء العالي والتكلفة المنخفضة.

التداعيات والتوقعات

يشير ظهور DeepSeek-V4 إلى أكثر من مجرد إنجاز لشركة واحدة – بل يمثل تحولاً أوسع نحو نماذج الخبراء المتفرقة في مستقبل الذكاء الاصطناعي. كما ورد في تحليل واحد، "للوصول إلى نماذج ذات تريليون معلمة يمكن تدريبها ونشرها، فإن التقليل من الكثافة من خلال MoE أصبح هو النهج الوحيد القابل للتطبيق."[10] أثبتت DeepSeek ذلك من خلال تقديم نموذج بحجم التريليون يمكن للمجتمع بالفعل استخدامه. إن التوسع التقليدي الكثيف (فقط جعل النموذج أكبر واستخدام القوة الغاشمة) يواجه عوائد متناقصة بشدة وحواجز تكاليف[33][34]. تشير النماذج المتفرقة مثل DeepSeek-V4 إلى طريق للمضي قدمًا حيث يمكننا الاستمرار في توسيع قدرات الذكاء الاصطناعي دون الحاجة إلى زيادة متطلبات الحوسبة بشكل متناسب.

من منظور السوق، النماذج الصينية المفتوحة الآن تنافس أفضل ما تقدمه المختبرات الغربية. تم إجراء مقارنات مباشرة بين DeepSeek-V4 ونظرائه (Qwen3, Kimi K2) مع GPT-5 في كل من الإعلام والمعايير[35][36]. غالبًا ما تتفوق على نماذج من فئة GPT-4 في مجالات متخصصة (البرمجة، التفكير) وتفعل ذلك بجزء من السعر[37][38]. هذا يجبر على إعادة التفكير في المنافسة: قد تشعر OpenAI وغيرها بالضغط لتبني تقنيات MoE أو خفض تكاليفها بشكل كبير. بالنسبة للمستخدمين النهائيين والمطورين، إنها فوز كبير – لدينا خيارات أكثر من أي وقت مضى في طليعة الذكاء الاصطناعي، والعديد من هذه الخيارات مفتوحة المصدر وموفرة للميزانية. وتيرة الابتكار في نظام الذكاء الاصطناعي في الصين التي حفزتها نماذج مثل DeepSeek رائعة؛ فهي تخفض التكاليف وتزيد الأداء، مما يعود بالنفع على المجتمع العالمي.

أخيرًا، يجدر الإشارة إلى أن نهج DeepSeek-V4 يختلف عن مسار آخر ناشئ: التعلم المعزز + النماذج المدمجة بالذاكرة. يوسع استراتيجية MoE من سعة النموذج (المعلمات) وتعتمد على التوجيه للتعامل مع التعقيد، بينما يركز بعض الأبحاث الأخرى على تعزيز قدرة النموذج من خلال الأدوات الخارجية، الذاكرة طويلة الأمد، أو حلقات التفكير الشبيهة بالوكيل. على سبيل المثال، تتضمن نماذج مثل Kimi K2 “التفكير” استخدام الأدوات وحلقة وكيلة مع سياق 256K لتحقيق تخطيط بعيد المدى ملحوظ[5][39]. وبالمثل، تستكشف الأنظمة القادمة وحدات الذاكرة الصريحة أو الاسترجاع العصبي لتمكين النماذج الأصغر من التفوق على الأكبر من خلال البحث عن المعلومات. حتى الآن، كانت فلسفة DeepSeek هي حزم أكبر قدر ممكن من المعرفة داخل معلمات النموذج (وبالفعل، قد تدمج V4 بعض التفكير متعدد الخطوات في تحسينها). كلا النهجين - التوسع عبر MoE والتعزيز عبر الذاكرة/التعلم المعزز - مكملان. قد نرى قريبًا نماذج هجينة تجمع بين شبكات MoE الضخمة والذاكرة الديناميكية أو واجهات الأدوات. في أي حال، يضع نجاح V4 معيارًا عاليًا: أي نهج بديل يجب أن يرقى إلى أدائه وكفاءته ليؤخذ على محمل الجد.

الخاتمة

DeepSeek-V4 MoE يُعتبر علامة فارقة في تطوير الذكاء الاصطناعي - نموذج مفتوح يحتوي على تريليون معلمة يحقق وعد MoE بـ 'التوسع والبقاء فعالاً'. يُظهر أن النماذج الخبيرة المتفرقة يمكنها تحقيق نتائج متقدمة في المهام الصعبة، وغالباً ما تتفوق على النماذج الكثيفة التي تكون أكثر تكلفة في التدريب والتشغيل. من خلال جعل V4 مفتوح المصدر تحت رخصة MIT، ضمنت DeepSeek-AI أن هذا الاختراق متاح على نطاق واسع، مما يعزز البحث والتطوير العالمي. الاستقبال الفيروسي للنموذج عبر الإنترنت هو شهادة على حماس المجتمع: نحن نشهد تقارب جودة بين النماذج المفتوحة وأفضل النماذج المغلقة، وفي بعض المجالات، تتفوق النماذج المفتوحة[40][38].

بالنظر إلى المستقبل، من المحتمل أن تؤثر التقنيات التي تم ابتكارها في DeepSeek-V4 – من توجيه 16 خبيرًا إلى التوازن الخالي من الملحقات – على العديد من البنى المستقبلية. كباحثين في الذكاء الاصطناعي، لدينا الآن دليل على أن توسيع العرض (الخبراء) يمكن أن يكون قويًا مثل توسيع العمق أو البيانات، إن لم يكن أكثر قوة، لبعض المشاكل. في غضون ذلك، تتبلور التحديات القادمة: كيفية الحفاظ على التماسك عبر سياقات من مليون رمز، كيفية دمج التعلم أو الذاكرة في الوقت الفعلي، وكيفية تحسين "دماغ الموجه" في نماذج MoE بشكل أكبر. لقد فتح DeepSeek-V4 فصلاً جديدًا في هذه القصة، وسيكون له تأثير في كل من هندسة أنظمة الذكاء الاصطناعي واقتصاديات نشر الذكاء الاصطناعي (نماذج أرخص وأكثر انفتاحًا للجميع).

باختصار، يعد DeepSeek-V4 انتصارًا في تصميم النماذج المتفرقة - حيث يقدم قوة تشبه GPT-5 من خلال جيش من الخبراء بدلاً من كيان عملاق واحد. يؤكد أن الحدود الجديدة في الذكاء الاصطناعي لم تعد تتعلق فقط بمن يملك المزيد من البيانات أو وحدات TPU، بل تتعلق أيضًا بالهندسة الذكية والانفتاح. مع مقارنة هذا النهج MoE بطرق أخرى (مثل استراتيجيات التعلم المعزز + الذاكرة في الأعمال القادمة)، يتضح شيء واحد: السباق للوصول إلى الذكاء الاصطناعي العام الآن يحتوي على مسارات متعددة قابلة للتحقيق. وبفضل الابتكارات مثل DeepSeek-V4، يتسارع هذا السباق بطريقة مفتوحة وواعية بالتكلفة ومثيرة للغاية.

· DeepSeek-AI، تقرير DeepSeek-V3 الفني، arXiv (2025) - تم تقديم MoE بقدرة 671 مليار بارامتر (37 مليار نشط)؛ تدريب مستقر على 14.8 تريليون رمز[18]. أظهر أداء النموذج المفتوح على قدم المساواة مع نماذج GPT-4 المغلقة[2] مع تدريب فقط 2.788 مليون ساعة H800[41].

· DeepSeek-AI، DeepSeekMoE: التخصص النهائي للخبراء، arXiv (2024) – اقترح تقسيم الخبراء بشكل دقيق ومشاركة الخبراء لحل تداخل MoE[12]، مما يتيح تنشيط m·K خبراء (DeepSeekMoE 2B يطابق أداء dense 2B باستخدام نصف القدرة الحسابية)[42]. تم التحقق من التوسع إلى 145B مع تحقيق مكاسب كبيرة مقارنة بـ GShard MoE.

· جويز بيركنز، نظرة عامة على الأوراق الرسمية لـ DeepSeek، Medium (فبراير 2025) – شرح بنية DeepSeek V2/V3. أشار إلى إجمالي V3 البالغ 671 مليار مقابل 37 مليار نشط (فقط ~5.5٪)[11]، واستخدام موازنة الأحمال بدون خسائر إضافية[15]، و14 خبيرًا/رمزًا من خلال تقسيم الخبراء[13]. أبرز استقرار V3 والقفزة الكبيرة في قدرة الكود (30٪+) مقارنة بـ V2.5[22].

· مدونة Cerebras، أساسيات MoE: النماذج المتفرقة (يوليو 2025) – تمت مناقشة سبب كون التفعيل أقل من 10٪ (كما في DeepSeek) ميزة للنماذج ذات المقياس التريليوني[1]. أظهرت أن حتى 32 خبيرًا يمكن أن يحققوا تدريبًا أسرع بثلاث مرات أو خسارة أفضل بنسبة 5٪ لنفس القدرة الحاسوبية[43]، وأن تصميم DeepSeek بـ 256 خبيرًا يُظهر هذه الكفاءة[44]. توضيح كيف أن MoEs تتفوق على النماذج الكثيفة (الأمثل من Chinchilla) عند نفس القدرة الحاسوبية[45].

· مختبرات سبيكتروم للذكاء الاصطناعي (باراس)، ديب سيك V4 مقابل كوين3-ماكس مقابل GPT-5 (نوفمبر 2025) – مقارنة أحدث النماذج الصينية. تم الإبلاغ عن ديب سيك V3 بنسبة 89.3٪ في GSM8K و 61.6٪ في الرياضيات، متوقعين أن V4 يتطابق أو يتفوق على GPT-5 في الاستدلال الرياضي[3]. تم الإشارة إلى أن كوين 2.5-ماكس بنسبة 92.7٪ في HumanEval يتصدر معايير البرمجة[25], مع ديب سيك V3 بنسبة 88.9٪. أكد على ميزة ديب سيك في التكلفة (مفتوح المصدر، ~30× أرخص من OpenAI)[46][47].

· Reddit DeepSeek community posts (2025) – تم تسليط الضوء على تكلفة R1: “أداء يعادل OpenAI-o1، بسعر 1/27 من السعر”[48]. كما أُشير إلى شائعات عن نافذة سياق V4 التي تحتوي على 1M رمز (غير مؤكد)[49] واستخدام “V3.2 sparse attention” كبيئة اختبار للسياق الطويل قبل V4. تشير ملاحظات المجتمع إلى تكلفة استخدام API منخفضة للغاية (أجزاء من السنت لكل مليون رمز) مما يتيح محادثات طويلة مريحة[50].

· Moonshot AI، Kimi K2 Thinking – العمارة والأداء (نوفمبر 2025) – تم وصف نموذج معاصر ببارامتر 1T MoE. يستخدم K2 سياق 256K، بإجمالي 1T مع 32B مفعل[5] وكميّة INT4 لتحقيق الكفاءة[51]. أظهر قدرات قوية لاستخدام الأدوات على مدى طويل (أكثر من 200 نداء متتابع) ومعايير أداء وكيل متقدمة[52]، مما يظهر الإمكانيات لدمج مقياس MoE مع حلقات التفكير الوكيلية. تكلفة تدريب K2 ~$4.6M[20] تبرز القدرة الجديدة على تحمل تكاليف التدريب على بارامترات تريليون.

[1] [10] [21] [33] [34] [43] [44] [45] أساسيات MoE: لماذا النماذج المتفرقة هي مستقبل الذكاء الاصطناعي

https://www.cerebras.ai/blog/moe-guide-why-moe

[2] [17] [18] [41] [2412.19437] تقرير تقني لـ DeepSeek-V3

https://arxiv.org/abs/2412.19437

[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 مقابل Qwen3-Max-Thinking: النماذج الصينية للذكاء الاصطناعي التي تتفوق على GPT-5 | مختبرات سبكتروم للذكاء الاصطناعي