
المؤلف: Boxu L
DeepSeek-V4 اجتاحت مجتمع الذكاء الاصطناعي باعتبارها أكبر نموذج لغوي مفتوح من نوع Mixture-of-Experts (MoE) حتى الآن. انتشرت مسودة بحثية على arXiv تسلط الضوء على هذا النموذج الذي يحتوي على 1 تريليون معلمة، مما يُظهر تحولًا في كيفية توسع الذكاء الاصطناعي. على عكس النماذج الكثيفة التي تقوم بتفعيل جميع الأوزان لكل رمز، فإن النماذج مثل MoE DeepSeek تقوم بتفعيل جزء صغير فقط من معلماتها في كل مرة – عادةً <10% لكل رمز[1]. هذه التفعيل النادر هو الميزة التي تجعل النماذج التي تحتوي على تريليون معلمة ممكنة[1]. في حالة DeepSeek-V4، يتم استخدام حوالي 32 مليار معلمة (≈3% من الإجمالي) لأي رمز مدخل معين، مما يستفيد من سعة هائلة بتكاليف حساب أقل بكثير من نموذج كثيف بنفس الحجم.
لماذا كل هذا الاهتمام؟ أولاً، DeepSeek-V4 هو أكبر نموذج MoE مفتوح المصدر حتى الآن، متفوقًا على النماذج السابقة مثل DeepSeek-V3 (671B params) وحتى ينافس النماذج المغلقة في العديد من المهام[2]. إصداره تحت رخصة مصدر مفتوحة ومرنة يعني أن أي شخص يمكنه تجربة أو نشر نموذج بمقياس GPT-5 – وهو تطور دراماتيكي في عصر حيث النماذج الرائدة غالبًا ما تكون ملكية خاصة. علاوة على ذلك، تشير الاختبارات الأولية إلى أن DeepSeek-V4 يقدم أداء متقدمًا في المجالات المتخصصة مثل الرياضيات والبرمجة (حيث تبرز تخصصات MoE)، وذلك بجزء من تكلفة النماذج الكبيرة السابقة[3][4]. كل هذه العوامل مجتمعة جعلت DeepSeek-V4 ظاهرة شائعة بين الباحثين والمهندسين.
لفهم DeepSeek-V4 بشكل أفضل، من المفيد معرفة التفاصيل التقنية الرئيسية وكيفية مقارنته بالنماذج الرائدة الأخرى:
جدول: DeepSeek-V4’s 1T-param MoE في سياق مع نماذج الجيل التالي المماثلة. تشير كلمة 'نشط' إلى المعاملات المستخدمة لكل رمز (تقوم نماذج MoE بتوجيه كل رمز من خلال مجموعة فرعية من الخبراء). السياق = الحد الأقصى لطول التسلسل الذي يمكن للنموذج التعامل معه.
كما هو موضح أعلاه، ينضم DeepSeek-V4 إلى نادي النخبة من النماذج ذات التريليون معلمة بجانب النماذج الصينية الأخرى التي تم الإعلان عنها مؤخرًا مثل Kimi K2 و Qwen3-Max. تعتمد جميع هذه النماذج على بنى MoE ذات البوابات المتفرقة للحفاظ على عشرات المليارات فقط من المعلمات "نشطة" في كل مرة[5]. على النقيض من ذلك، يحتاج النموذج الكثيف (مثل GPT-5) إلى استخدام كل وزن في كل مرة – وهو نهج يصبح باهظ التكلفة عند تجاوز النطاق 500 مليار–1 تريليون[10]. يُذكر أن تصميم DeepSeek-V4 يستخدم مسار 16 خبيرًا، مما يعني أن كل رمز يتم معالجته بواسطة ما يصل إلى 16 شبكة فرعية خبيرة في كل طبقة MoE، يتم اختيارها من بين مئات الخبراء المتاحين. هذا يمثل زيادة كبيرة عن نماذج MoE السابقة (التي غالبًا ما استخدمت أفضل 2 أو 4 خبراء) ويهدف إلى زيادة القوة التعبيرية للنموذج من خلال مسارات أكثر تخصصًا ودقة.
Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.
يعتمد DeepSeek-V4 على بنية MoE المثبتة الخاصة بـ DeepSeek والتي تم تقديمها في الإصدارات V2/V3 وتم تحسينها من خلال سلسلة أبحاث DeepSeekMoE. في جوهره، يستبدل النموذج الطبقات العادية لتغذية المُحوِّل إلى الأمام بمصفوفة من شبكات الخبراء المتوازية. لكل رمز وارد، يقوم مُوجِّه البوابة باختيار ديناميكي لعدد من الخبراء الأنسب لمعالجة محتوى هذا الرمز (مثل بعض الخبراء قد يتخصصون في الأكواد، آخرون في الرياضيات، وآخرون في بناء الجمل الشائع). فقط شبكات الخبراء المختارة هي التي تُنفذ لهذا الرمز، مما يجعل الحساب متفرقًا.
بشكل أساسي، قامت DeepSeek بتحديث توجيه MoE لتحسين تخصيص الخبراء واستخدامهم. قدمت DeepSeekMoE architecture استراتيجيتين رئيسيتين[12]:
يساعد الجمع بين التقسيم الدقيق والخبراء المشتركين في تجنب تداخل الخبراء والانهيار، وهو تحدٍ معروف في MoEs. في MoEs التقليدية، إذا لم يتم إدارة الموجه بعناية، فقد يفرط في استخدام بعض الخبراء ويقلل من تدريب الآخرين («انهيار التوجيه»). تعالج DeepSeek-V3/V4 هذا باستخدام استراتيجية توجيه توازن الأحمال التي لا تحتاج إلى خسارة إضافية[15]. بدلاً من استخدام مصطلح الخسارة الإضافي في Switch Transformer لإجبار استخدام الخبراء، يستخدم موجه DeepSeek توجيهًا ديناميكيًا بحدود سعة تكيفية لتوازن الأحمال بشكل طبيعي[16]. أثبتت استراتيجية عدم الخسارة الإضافية في V3 فعاليتها - كان التدريب مستقرًا وظل جميع الخبراء مستخدمين بشكل جيد[17]. يمكننا أن نتوقع أن تواصل V4 هذا النهج، مما يتيح تدريبًا سلسًا لمئات الخبراء دون انهيار.
باختصار، يمثل تصميم DeepSeek-V4 ذروة تصميم MoE الرائد: توجيه الخبراء النادر الذي يوسع السعة بشكل كبير، ومسار تفعيل بـ 16 خبيراً لتقديم مزيج أغنى من الخبرات لكل رمز، وتقنيات مخصصة لضمان تخصص الخبراء (عبر تقسيمات دقيقة وخبراء عامين مشتركين) وتدريب قوي. إنه نموذج "يتوسع عرضياً" عبر الخبراء بدلاً من "الارتفاع" عبر الطبقات - استراتيجية توسيع مختلفة جوهرياً عن سلسلة GPT الكثيفة.
إحدى الجوانب الأكثر جاذبية في DeepSeek-V4 هي الكفاءة في التكلفة، سواء في التدريب أو التنفيذ. قد يبدو التوسع إلى تريليون معلمة مكلفاً بشكل كبير، ولكن حساب MoE النادر يحافظ على التكاليف الفعلية أقل بكثير من نموذج تريليون معلمة كثيف.
باختصار، من خلال الموازنة الذكية بين الاستخدام الكامل والاستخدام النادر، يحقق DeepSeek-V4 أداءً قريبًا من الأفضل في فئته مع تقليل كبير في الحسابات. يجسد وعد MoE: "قم بتوسيع النموذج، وليس التكلفة." هذه الكفاءة هي سبب رئيسي لماذا يرى العديد من الخبراء أن هياكل MoE هي مستقبل النماذج الكبيرة للذكاء الاصطناعي [21][10].
بعيدًا عن الحجم الخام، ماذا يمكن أن يفعل DeepSeek-V4 فعلاً؟ تشير المؤشرات المبكرة إلى أنه يتفوق في المجالات التي يكون فيها التخصص الخبير الأكثر فائدة – لا سيما التفكير المعقد (الرياضيات، المنطق) والبرمجة – مع الحفاظ على قدرات عامة قوية على قدم المساواة مع أفضل النماذج.
باختصار، يبدو أن DeepSeek-V4 يستفيد من نقاط قوة MoE: فهو ساحر في الرياضيات، ومبرمج ماهر، وذكاء اصطناعي محادثي شامل قوي. قد لا يتفوق بشكل كبير على نماذج مثل GPT-5 في كل مهمة (قد يكون لـ GPT-5 ميزة في بعض المناطق "العامة" أو الفهم متعدد الوسائط)، لكن V4 يمكنه المطالبة بالقيادة أو مركز ثاني قريب في عدة مجالات رئيسية، مع كونه أكثر سهولة في الوصول. بالنسبة للعديد من الحالات الخاصة – خاصة تلك التي تتطلب سياقًا كبيرًا أو تفكيرًا خاصًا بالمجال – فإنه يقدم مزيجًا لا يُضاهى من الأداء العالي والتكلفة المنخفضة.
يشير ظهور DeepSeek-V4 إلى أكثر من مجرد إنجاز لشركة واحدة – بل يمثل تحولاً أوسع نحو نماذج الخبراء المتفرقة في مستقبل الذكاء الاصطناعي. كما ورد في تحليل واحد، "للوصول إلى نماذج ذات تريليون معلمة يمكن تدريبها ونشرها، فإن التقليل من الكثافة من خلال MoE أصبح هو النهج الوحيد القابل للتطبيق."[10] أثبتت DeepSeek ذلك من خلال تقديم نموذج بحجم التريليون يمكن للمجتمع بالفعل استخدامه. إن التوسع التقليدي الكثيف (فقط جعل النموذج أكبر واستخدام القوة الغاشمة) يواجه عوائد متناقصة بشدة وحواجز تكاليف[33][34]. تشير النماذج المتفرقة مثل DeepSeek-V4 إلى طريق للمضي قدمًا حيث يمكننا الاستمرار في توسيع قدرات الذكاء الاصطناعي دون الحاجة إلى زيادة متطلبات الحوسبة بشكل متناسب.
من منظور السوق، النماذج الصينية المفتوحة الآن تنافس أفضل ما تقدمه المختبرات الغربية. تم إجراء مقارنات مباشرة بين DeepSeek-V4 ونظرائه (Qwen3, Kimi K2) مع GPT-5 في كل من الإعلام والمعايير[35][36]. غالبًا ما تتفوق على نماذج من فئة GPT-4 في مجالات متخصصة (البرمجة، التفكير) وتفعل ذلك بجزء من السعر[37][38]. هذا يجبر على إعادة التفكير في المنافسة: قد تشعر OpenAI وغيرها بالضغط لتبني تقنيات MoE أو خفض تكاليفها بشكل كبير. بالنسبة للمستخدمين النهائيين والمطورين، إنها فوز كبير – لدينا خيارات أكثر من أي وقت مضى في طليعة الذكاء الاصطناعي، والعديد من هذه الخيارات مفتوحة المصدر وموفرة للميزانية. وتيرة الابتكار في نظام الذكاء الاصطناعي في الصين التي حفزتها نماذج مثل DeepSeek رائعة؛ فهي تخفض التكاليف وتزيد الأداء، مما يعود بالنفع على المجتمع العالمي.
أخيرًا، يجدر الإشارة إلى أن نهج DeepSeek-V4 يختلف عن مسار آخر ناشئ: التعلم المعزز + النماذج المدمجة بالذاكرة. يوسع استراتيجية MoE من سعة النموذج (المعلمات) وتعتمد على التوجيه للتعامل مع التعقيد، بينما يركز بعض الأبحاث الأخرى على تعزيز قدرة النموذج من خلال الأدوات الخارجية، الذاكرة طويلة الأمد، أو حلقات التفكير الشبيهة بالوكيل. على سبيل المثال، تتضمن نماذج مثل Kimi K2 “التفكير” استخدام الأدوات وحلقة وكيلة مع سياق 256K لتحقيق تخطيط بعيد المدى ملحوظ[5][39]. وبالمثل، تستكشف الأنظمة القادمة وحدات الذاكرة الصريحة أو الاسترجاع العصبي لتمكين النماذج الأصغر من التفوق على الأكبر من خلال البحث عن المعلومات. حتى الآن، كانت فلسفة DeepSeek هي حزم أكبر قدر ممكن من المعرفة داخل معلمات النموذج (وبالفعل، قد تدمج V4 بعض التفكير متعدد الخطوات في تحسينها). كلا النهجين - التوسع عبر MoE والتعزيز عبر الذاكرة/التعلم المعزز - مكملان. قد نرى قريبًا نماذج هجينة تجمع بين شبكات MoE الضخمة والذاكرة الديناميكية أو واجهات الأدوات. في أي حال، يضع نجاح V4 معيارًا عاليًا: أي نهج بديل يجب أن يرقى إلى أدائه وكفاءته ليؤخذ على محمل الجد.
DeepSeek-V4 MoE يُعتبر علامة فارقة في تطوير الذكاء الاصطناعي - نموذج مفتوح يحتوي على تريليون معلمة يحقق وعد MoE بـ 'التوسع والبقاء فعالاً'. يُظهر أن النماذج الخبيرة المتفرقة يمكنها تحقيق نتائج متقدمة في المهام الصعبة، وغالباً ما تتفوق على النماذج الكثيفة التي تكون أكثر تكلفة في التدريب والتشغيل. من خلال جعل V4 مفتوح المصدر تحت رخصة MIT، ضمنت DeepSeek-AI أن هذا الاختراق متاح على نطاق واسع، مما يعزز البحث والتطوير العالمي. الاستقبال الفيروسي للنموذج عبر الإنترنت هو شهادة على حماس المجتمع: نحن نشهد تقارب جودة بين النماذج المفتوحة وأفضل النماذج المغلقة، وفي بعض المجالات، تتفوق النماذج المفتوحة[40][38].
بالنظر إلى المستقبل، من المحتمل أن تؤثر التقنيات التي تم ابتكارها في DeepSeek-V4 – من توجيه 16 خبيرًا إلى التوازن الخالي من الملحقات – على العديد من البنى المستقبلية. كباحثين في الذكاء الاصطناعي، لدينا الآن دليل على أن توسيع العرض (الخبراء) يمكن أن يكون قويًا مثل توسيع العمق أو البيانات، إن لم يكن أكثر قوة، لبعض المشاكل. في غضون ذلك، تتبلور التحديات القادمة: كيفية الحفاظ على التماسك عبر سياقات من مليون رمز، كيفية دمج التعلم أو الذاكرة في الوقت الفعلي، وكيفية تحسين "دماغ الموجه" في نماذج MoE بشكل أكبر. لقد فتح DeepSeek-V4 فصلاً جديدًا في هذه القصة، وسيكون له تأثير في كل من هندسة أنظمة الذكاء الاصطناعي واقتصاديات نشر الذكاء الاصطناعي (نماذج أرخص وأكثر انفتاحًا للجميع).
باختصار، يعد DeepSeek-V4 انتصارًا في تصميم النماذج المتفرقة - حيث يقدم قوة تشبه GPT-5 من خلال جيش من الخبراء بدلاً من كيان عملاق واحد. يؤكد أن الحدود الجديدة في الذكاء الاصطناعي لم تعد تتعلق فقط بمن يملك المزيد من البيانات أو وحدات TPU، بل تتعلق أيضًا بالهندسة الذكية والانفتاح. مع مقارنة هذا النهج MoE بطرق أخرى (مثل استراتيجيات التعلم المعزز + الذاكرة في الأعمال القادمة)، يتضح شيء واحد: السباق للوصول إلى الذكاء الاصطناعي العام الآن يحتوي على مسارات متعددة قابلة للتحقيق. وبفضل الابتكارات مثل DeepSeek-V4، يتسارع هذا السباق بطريقة مفتوحة وواعية بالتكلفة ومثيرة للغاية.
· DeepSeek-AI، تقرير DeepSeek-V3 الفني، arXiv (2025) - تم تقديم MoE بقدرة 671 مليار بارامتر (37 مليار نشط)؛ تدريب مستقر على 14.8 تريليون رمز[18]. أظهر أداء النموذج المفتوح على قدم المساواة مع نماذج GPT-4 المغلقة[2] مع تدريب فقط 2.788 مليون ساعة H800[41].
· DeepSeek-AI، DeepSeekMoE: التخصص النهائي للخبراء، arXiv (2024) – اقترح تقسيم الخبراء بشكل دقيق ومشاركة الخبراء لحل تداخل MoE[12]، مما يتيح تنشيط m·K خبراء (DeepSeekMoE 2B يطابق أداء dense 2B باستخدام نصف القدرة الحسابية)[42]. تم التحقق من التوسع إلى 145B مع تحقيق مكاسب كبيرة مقارنة بـ GShard MoE.
· جويز بيركنز، نظرة عامة على الأوراق الرسمية لـ DeepSeek، Medium (فبراير 2025) – شرح بنية DeepSeek V2/V3. أشار إلى إجمالي V3 البالغ 671 مليار مقابل 37 مليار نشط (فقط ~5.5٪)[11]، واستخدام موازنة الأحمال بدون خسائر إضافية[15]، و14 خبيرًا/رمزًا من خلال تقسيم الخبراء[13]. أبرز استقرار V3 والقفزة الكبيرة في قدرة الكود (30٪+) مقارنة بـ V2.5[22].
· مدونة Cerebras، أساسيات MoE: النماذج المتفرقة (يوليو 2025) – تمت مناقشة سبب كون التفعيل أقل من 10٪ (كما في DeepSeek) ميزة للنماذج ذات المقياس التريليوني[1]. أظهرت أن حتى 32 خبيرًا يمكن أن يحققوا تدريبًا أسرع بثلاث مرات أو خسارة أفضل بنسبة 5٪ لنفس القدرة الحاسوبية[43]، وأن تصميم DeepSeek بـ 256 خبيرًا يُظهر هذه الكفاءة[44]. توضيح كيف أن MoEs تتفوق على النماذج الكثيفة (الأمثل من Chinchilla) عند نفس القدرة الحاسوبية[45].
· مختبرات سبيكتروم للذكاء الاصطناعي (باراس)، ديب سيك V4 مقابل كوين3-ماكس مقابل GPT-5 (نوفمبر 2025) – مقارنة أحدث النماذج الصينية. تم الإبلاغ عن ديب سيك V3 بنسبة 89.3٪ في GSM8K و 61.6٪ في الرياضيات، متوقعين أن V4 يتطابق أو يتفوق على GPT-5 في الاستدلال الرياضي[3]. تم الإشارة إلى أن كوين 2.5-ماكس بنسبة 92.7٪ في HumanEval يتصدر معايير البرمجة[25], مع ديب سيك V3 بنسبة 88.9٪. أكد على ميزة ديب سيك في التكلفة (مفتوح المصدر، ~30× أرخص من OpenAI)[46][47].
· Reddit DeepSeek community posts (2025) – تم تسليط الضوء على تكلفة R1: “أداء يعادل OpenAI-o1، بسعر 1/27 من السعر”[48]. كما أُشير إلى شائعات عن نافذة سياق V4 التي تحتوي على 1M رمز (غير مؤكد)[49] واستخدام “V3.2 sparse attention” كبيئة اختبار للسياق الطويل قبل V4. تشير ملاحظات المجتمع إلى تكلفة استخدام API منخفضة للغاية (أجزاء من السنت لكل مليون رمز) مما يتيح محادثات طويلة مريحة[50].
· Moonshot AI، Kimi K2 Thinking – العمارة والأداء (نوفمبر 2025) – تم وصف نموذج معاصر ببارامتر 1T MoE. يستخدم K2 سياق 256K، بإجمالي 1T مع 32B مفعل[5] وكميّة INT4 لتحقيق الكفاءة[51]. أظهر قدرات قوية لاستخدام الأدوات على مدى طويل (أكثر من 200 نداء متتابع) ومعايير أداء وكيل متقدمة[52]، مما يظهر الإمكانيات لدمج مقياس MoE مع حلقات التفكير الوكيلية. تكلفة تدريب K2 ~$4.6M[20] تبرز القدرة الجديدة على تحمل تكاليف التدريب على بارامترات تريليون.
[1] [10] [21] [33] [34] [43] [44] [45] أساسيات MoE: لماذا النماذج المتفرقة هي مستقبل الذكاء الاصطناعي
https://www.cerebras.ai/blog/moe-guide-why-moe
[2] [17] [18] [41] [2412.19437] تقرير تقني لـ DeepSeek-V3
https://arxiv.org/abs/2412.19437
[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 مقابل Qwen3-Max-Thinking: النماذج الصينية للذكاء الاصطناعي التي تتفوق على GPT-5 | مختبرات سبكتروم للذكاء الاصطناعي
https://spectrumailab.com/blog/deepseek-v4-vs-qwen3-max-thinking-chinese-ai-models-beating-gpt5
[4] [7] [22] [30] [31] [48] تقارير أسبوعية حول ديناميكيات نماذج الذكاء الاصطناعي التوليدي | جاكس
[5] [6] [19] [23] [24] [39] [51] [52] التفكير باستخدام Kimi K2: تخطيط بعيد الأفق بسياق 256K | بواسطة My Social | . | نوفمبر، 2025 | Medium
https://medium.com/aimonks/kimi-k2-thinking-long-horizon-planning-with-256k-context-67cd1277fb72
[9] تقييم معيار لنماذج اللغة الكبيرة DeepSeek في ...
https://www.nature.com/articles/s41591-025-03727-2
[11] [13] [14] [15] [16] نظرة عامة على الأوراق الرسمية لـ Deepseek 4: Deepseek MoE, MLA, MTP, Distillation | بواسطة جويز بيركنز | Medium
[12] [42] [2401.06066] DeepSeekMoE: نحو التخصص النهائي للخبراء في نماذج اللغة متعددة الخبراء
https://arxiv.org/abs/2401.06066
[20] Kimi K2 Thinking: نموذج الـ4.6M الذي يغير سرديات الذكاء الاصطناعي
https://recodechinaai.substack.com/p/kimi-k2-thinking-the-46m-model-shifting
[49] [50] Deepseek V4. : r/DeepSeek
https://www.reddit.com/r/DeepSeek/comments/1nwvnmb/deepseek_v4/