هدية الذكرى الثالثة لـ ChatGPT – سلسلة DeepSeek V3.2 تتحدى GPT-5 و Gemini

المؤلف: بوكسو لي

بعد ثلاث سنوات من ظهور ChatGPT، وصل منافس جديد مفتوح المصدر كهدية عيد ميلاد لمجتمع الذكاء الاصطناعي. DeepSeek-V3.2 و DeepSeek-V3.2-Speciale - نموذجان لغويان كبيران تم إصدارهما حديثًا - يدفعان حدود أنظمة الذكاء الاصطناعي المفتوحة. تم تطوير هذه النماذج من قبل مختبر الذكاء الاصطناعي الصيني DeepSeek، وتهدف إلى تقديم أداء استدلال بمستوى GPT-5، مما ينافس النماذج المغلقة الحديثة مثل Google’s Gemini-3.0-Pro[1][2]. تم فتح مصدر كلا النموذجين وتقرير تقني متعمق، مما يتيح للباحثين والمطورين إلقاء نظرة أقرب على مدى تطور النماذج المفتوحة.

DeepSeek-V3.2: الأداء اليومي بمستوى GPT-5

تم تصميم DeepSeek-V3.2 كنموذج "للاستخدام اليومي" المتوازن - وهو مناسب للإجابة على الأسئلة العامة، ومساعدة البرمجة، ومهام وكيل الذكاء الاصطناعي في التطبيقات الحقيقية. وفقًا لمعايير DeepSeek، فإن قدرات الاستنتاج في V3.2 تضاهي مستوى GPT-5 في اختبارات الاستنتاج العامة ولا تزال متأخرة قليلاً عن Gemini-3.0-Pro[1]. بمعنى عملي، هذا يعني أن V3.2 يمكنه التعامل مع الأسئلة المنطقية والتحليلية المعقدة تقريبًا بنفس كفاءة أفضل النماذج المغلقة اليوم. ومن الجدير بالذكر أن V3.2 ينتج مخرجات أكثر اختصارًا من بعض النماذج المفتوحة السابقة (مثل Kimi-K2-Thinking)، مما يقلل من استخدام الرموز ووقت انتظار المستخدم دون فقدان عمق الاستنتاج[3].

تحت الغطاء، يحتوي DeepSeek-V3.2 على 685 مليار معلمة مفعلة لكل رمز (من أصل هندسة 670B MoE) - ولكنه مُحسّن للكفاءة وللاستخدام على المدى الطويل. يدعم نافذة سياق موسعة 128K رمز، مما يتيح تحليل مئات الصفحات من النص دفعة واحدة. بالرغم من حجمه، تم تحسين V3.2 لدمج التفكير مع استخدام الأدوات الخارجية. في الواقع، هو أول نموذج لـ DeepSeek يمكنه "التفكير" أثناء استدعاء الأدوات. يدعم كل من وضع سلسلة التفكير والوضع القياسي عند استخدام الأدوات، مما يسمح له بالتفكير من خلال مهام متعددة الخطوات مدعومة بالأدوات (مثل استخدام الآلات الحاسبة أو مفسري الشفرات أو محركات البحث) بطريقة منظمة. هذا يجعل V3.2 قويًا بشكل خاص لتطبيقات الوكلاء - بدءًا من مساعدي البرمجة الذين يشغلون الشفرات إلى الوكلاء الحواريين الذين يتصفحون الويب.

V3.2-Speciale: التفكير المتطرف، على قدم المساواة مع Gemini Pro

للمستخدمين الذين يحتاجون إلى قدرة أكبر في الاستدلال، أصدرت DeepSeek الإصدار V3.2-Speciale بجانب النموذج القياسي. يدفع إصدار Speciale الاستدلال مفتوح المصدر إلى أقصى الحدود، حيث يدمج آلية "تفكير" موسعة وحتى دمج وحدة مخصصة لإثبات النظريات الرياضية (من نموذج DeepSeek-Math-V2). والنتيجة هي نموذج مصمم لحل المشكلات المعقدة للغاية - "استكشاف حدود قدرة النموذج" كما يصفه المطورون[4]. في اختبارات المنطق الصارمة والمعايير الرياضية، أداء DeepSeek-V3.2-Speciale مقارن بـ Gemini-3.0-Pro[4]، مما يجعله مماثلًا لأحدث ما توصلت إليه التكنولوجيا في تلك المجالات.

هذا الادعاء مدعوم بإنجازات Speciale في مسابقات مرموقة: حيث حققت نتائج على مستوى الميدالية الذهبية في الأولمبياد الدولي للرياضيات (IMO 2025)، والأولمبياد الصيني للرياضيات (CMO 2025)، ونهائيات العالم ICPC 2025 (برمجة)، وIOI 2025 (معلوماتية)[5]. في الواقع، في مسابقة البرمجة ICPC، كان أداء V3.2-Speciale على قدم المساواة مع الفائز بالميدالية الفضية البشرية (المركز الثاني)، وفي IOI كان مكافئًا لـ متسابق بشري من العشرة الأوائل[5]. هذه إنجازات بارزة لنموذج AI، تُظهر قدرات التفكير وحل المشكلات على مستوى الإنسان النخبة.

من الجدير بالذكر أن Speciale هو نموذج يركز على الخبراء. إنه يتفوق في التفكير الطويل الأمد (مثل الإثباتات التفصيلية، المنطق المتعدد الخطوات، تحديات البرمجة المعقدة)، ولكنه غير مخصص للدردشة العادية أو الكتابة الإبداعية. كما أنه أكثر تكلفة في التشغيل - يميل Speciale إلى استهلاك عدد أكبر من الرموز للوصول إلى إجاباته [6]. في الوقت الحالي، تقدم DeepSeek فقط V3.2-Speciale عبر واجهة برمجة تطبيقات بحث محدودة (بدون تمكين استخدام الأدوات) وتحذر من أنه مخصص للمهام الأكاديمية أو التفكير عالي المخاطر بدلاً من المحادثات اليومية.

الاستنتاج الفعال عبر الانتباه المتناثر (DSA)

إحدى الابتكارات الرئيسية التي تمكن أداء DeepSeek-V3.2 هي آلية انتباه جديدة تسمى انتباه متناثر DeepSeek (DSA). تتحمل نماذج المحولات التقليدية تكلفة تربيعية مع زيادة طول السياق، لأن كل رمز يهتم بكل رمز آخر. يكسر DSA هذا الاختناق باستخدام نمط انتباه متناثر دقيق [7]. يُدخل مكون “الفهرس السريع” الذي يقدر بسرعة درجات الأهمية بين الرمز الحالي والرموز السابقة، ثم يختار فقط الرموز الأكثر أهمية من بين الأعلى-$k$ للانتباه إليها[7]. في جوهره، يتعلم النموذج تجاهل السياق غير المهم والتركيز فقط على الأجزاء المهمة من تسلسل طويل.

يقلل تصميم الاهتمام المتناثر من العمليات الحسابية المطلوبة لتسلسلات طويلة من O(L²) إلى O(L·k)، حيث أن k أصغر بكثير من L. في تنفيذ DeepSeek، تم استخدام k=2048 (كل رمز يتابع 2048 رمزًا ماضيًا مختارًا) خلال المرحلة الثانية من التدريب. استخدم الفريق استراتيجية تدريب من مرحلتين لـ DSA: أولاً تسخين كثيف حيث تم تدريب المؤشر السريع إلى جانب الانتباه الكامل لمليارات الرموز للتأكد من أنه تعلم محاكاة سلوك الانتباه الكامل. ثم تم تحويل النموذج إلى وضع متناثر وتم تدريبه على مئات المليارات من الرموز الإضافية مع وضع قيود أعلى-$k$. والنتيجة هي تحقيق كفاءة هائلة بدون فقدان في الدقة. بل في الواقع، كان أداء V3.2-Exp (السابق التجريبي للنموذج النهائي) على قدم المساواة مع V3.1-Terminus عبر مجموعة من المعايير، على الرغم من استخدام الاهتمام المتناثر الجديد.

عمليًا، يعني DSA أن الوثائق الطويلة لم تعد عبئًا. أظهرت الاختبارات الداخلية معالجة أسرع بمقدار 2-3× على مدخلات بطول 128K واستخدام ذاكرة أقل بنسبة حوالي 30-40% [9]. كما تنخفض التكاليف بشكل كبير. أفاد DeepSeek أنه بالنسبة للسياقات 128K على مجموعتهم H800، انخفضت تكلفة الطلب (التعبئة المسبقة) لكل مليون رمز من ~$0.70 إلى ~$0.20، وتكلفة التوليد من ~$2.40 إلى ~$0.80 – وهو ما يمثل تخفيضًا بمقدار 3× في تكلفة الاستنتاج طويل المدى. في واجهة البرمجة العامة، تُرجمت هذه التوفيرات إلى أكثر من 50% انخفاض في الأسعار للمستخدمين [10]. باختصار، يسمح DSA للإصدار V3.2 بمعالجة المدخلات الطويلة للغاية بجزء من الوقت والتكلفة للنماذج السابقة، دون المساس بجودة المخرجات.

التعلم المعزز على نطاق واسع: GRPO وتقطير الخبراء

عامل رئيسي آخر في الأداء القوي لـ DeepSeek-V3.2 هو التحسين الضخم للتعلم المعزز (RL) الذي تم تطبيقه عليه. استثمر فريق DeepSeek كمية غير مسبوقة من الحوسبة في مرحلة ما بعد التدريب باستخدام التعلم المعزز - تتجاوز 10٪ من الحوسبة المستخدمة في مرحلة ما قبل التدريب (والتي هي بحد ذاتها ضخمة لنموذج بحجم 670 مليار). هذا غير معتاد بشكل كبير في الذكاء الاصطناعي مفتوح المصدر، حيث تكون ميزانيات التحسين بالتعلم المعزز عادةً أصغر بكثير. الفكرة هي أنه بينما يعلم التدريب المسبق المعرفة العامة، يمكن للتعلم المعزز المكثف أن يفتح القدرات المتقدمة من خلال مواءمة النموذج مع أهداف معقدة (مثل حل المشكلات متعددة الخطوات، استخدام الأدوات، أو الالتزام بالتعليمات تحت قيود)[2].

لتوسيع نطاق التعلم العميق بأمان، قامت ديب سيك ببناء على خوارزمية تحسين السياسة الجماعية النسبية (GRPO) الخاصة بهم. قاموا بإدخال العديد من التحسينات على الاستقرار والكفاءة في هذا المسار:

· تقدير KL غير متحيز: قام الفريق بإصلاح المشكلات في المقدر K3 الأصلي المستخدم لعقوبات تباعد KL، مما أزال التحيز المنهجي الذي يمكن أن يؤدي إلى تحديثات متدرجة غير محدودة. هذا منع عدم استقرار التدريب الذي يمكن أن يحدث عندما تنحرف السياسة بعيدًا عن السياسة المرجعية.

· إخفاء التسلسل غير المتصل بالإنترنت: نظرًا لأن تدريب التعلم المعزز (RL) غالبًا ما يولد دفعات كبيرة من بيانات "الطرح" التي يتم استخدامها مرة أخرى عبر العديد من تحديثات التدرج (وهو سيناريو خارج السياسة)، فقد حسبت DeepSeek تباين KL بين سياسة الطرح والسياسة الحالية لكل عينة. إذا كانت سياسة تسلسل مولد قد انحرفت كثيرًا عن النموذج الحالي، تم استبعاد ذلك التسلسل (استبعاده) من تحديثات التدريب[11][12]. هذه الخدعة الذكية ضمنت أن النموذج تعلم في الغالب من البيانات الموجودة على السياسة أو القريبة منها، مما يحسن الاستقرار ويمنع المسارات السيئة من تشويه التعلم.

· الحفاظ على التوجيه لمزيج الخبراء: تستخدم نماذج DeepSeek بنية مزيج الخبراء، مما يعني أن "الخبراء" المختلفين (الشبكات الفرعية) يتعاملون مع رموز مختلفة. التحدي هنا هو أن الاختلافات الطفيفة بين تنفيذ الاستدلال والتدريب يمكن أن تؤدي إلى اختيار خبراء مختلفين لنفس الإدخال، مما يؤدي إلى عدم الاتساق. عالجت DeepSeek هذا الأمر من خلال التقاط قرارات توجيه الخبراء أثناء الاستدلال وإجبار استخدام نفس مسارات الخبراء أثناء تحديثات التعلم المعزز. تضمن هذا الأسلوب "الحفاظ على التوجيه" أن تتوافق المعلمات المعدلة أثناء التعلم المعزز مع نفس الخبراء الذين سيتم استخدامهم في الاستدلال، مما يجنب أي مفاجآت غير سارة من تبديل الخبراء.

بالإضافة إلى هذه التعديلات الخوارزمية، كانت نظام البيانات لـ RL طموحًا جدًا. قامت DeepSeek بتدريب سلسلة من النماذج المتخصصة – كل منها يركز على مجال أو مهارة معينة – ثم تم تقطير المعرفة من جميعها في V3.2. على سبيل المثال، قاموا بضبط خبراء متخصصين في المجالات ل الرياضيات (البراهين)، البرمجة، التفكير المنطقي، المهام العامة المدعومة بالأدوات، العملاء المعتمدين على الأكواد، و العملاء المعتمدين على البحث. تم تدريب كل من هذه النماذج المتخصصة في وضع “التفكير” (سلسلة التفكير) ووضع “غير التفكير” حسب الحاجة. باستخدام هؤلاء الخبراء، قامت DeepSeek بإنشاء مجموعة بيانات اصطناعية ضخمة من العروض التوضيحية عالية الجودة في كل مجال، والتي استخدمت بعد ذلك للإشراف على النموذج النهائي V3.2. زودت عملية تقطير الخبراء V3.2 بإشارات تدريب غنية عبر أكثر من 85,000 إرشادات معقدة، تغطي كل شيء من براهين الرياضيات خطوة بخطوة إلى جلسات تصحيح البرمجيات.

تحسين قدرات الوكيل ودمج استخدام الأدوات

إحدى الميزات البارزة في DeepSeek-V3.2 هي قدرات الوكيل المحسنة بشكل كبير – وهي بشكل أساسي قدرة النموذج على التخطيط والتفكير واستخدام الأدوات في حلقة متعددة الخطوات لحل المشكلات. كانت الإصدارات السابقة من نموذج التفكير في DeepSeek تعاني من قيد كبير: إذا كان النموذج في "وضع التفكير" (أي إنتاج سلسلة من الأفكار)، لم يكن يمكنه استدعاء الأدوات الخارجية، والعكس صحيح. يقوم V3.2 بإزالة هذا الحاجز. إنه أول نموذج من DeepSeek يدمج تمامًا التفكير مع استخدام الأدوات، مما يعني أنه يمكنه الحفاظ على سلسلة التفكير الداخلية بينما يقوم أيضًا بإصدار استدعاءات للأدوات (مثل تشغيل الشيفرات، البحث عبر الإنترنت) أثناء الحوار[13]. هذا ينتج سلوك وكيل أكثر قوة ومرونة.

لدعم ذلك، أعاد فريق DeepSeek تخيل كيفية عمل إدارة السياق للنموذج في المهام متعددة الأدوار. في الإصدار V3.2، يتم الحفاظ على تتبعات التفكير للنموذج (الـ"أفكار") عبر سلسلة من استدعاءات الأدوات، بدلاً من مسحها في كل خطوة. فقط عندما تصل استفسار مستخدم جديد يقوم النظام بإعادة تعيين سياق التفكير (مع الاحتفاظ بتاريخ التفاعل مع الأدوات ذات الصلة في المحادثة)[14][15]. هذه الطريقة توفر الكثير من الرموز وتسمح للنموذج ببناء سلسلة تفكير مستدامة للمشكلة أثناء استدعاء الأدوات بشكل تكراري. على سبيل المثال، إذا سأل المستخدم سؤالًا معقدًا حول البرمجة، يمكن للنموذج التفكير في الخطوات، واستدعاء مترجم Python لاختبار بعض الأكواد، ثم متابعة التفكير بناءً على النتيجة، ربما استدعاء أداة بحث في الوثائق، وهكذا - فقط يقر الإجابة عندما يتحقق من الحل الصحيح. جميع عمليات التفكير المؤقتة تبقى متاحة للنموذج حتى يتم إنجاز المهمة.

كما أعطى DeepSeek النموذج مطالبة "البدء البارد" التي تشجع بشكل صريح على هذا السلوك. تدفع تعليمات النظام النموذج لإخراج عملية تفكير مفصلة (مؤشرة بعلامات خاصة) قبل الكشف عن الإجابة النهائية، خاصة في المهام المعقدة مثل تحديات البرمجة. يضمن هذا التوجيه أن V3.2 يعرف أنه يجب استخدام قدراته في التفكير المتسلسل واستخدام الأدوات للاستفسارات الصعبة، بدلاً من القفز مباشرة إلى إجابة (غالباً ما تكون معيبة).

ربما يكون الجانب الأكثر إثارة للإعجاب في مجموعة مهارات الوكيل V3.2 هو كيفية تدريبه. قام الفريق بإنشاء خط أنابيب توليف بيئة تلقائية لإنشاء سيناريوهات واقعية وتحديات لتتعلم منها النموذج. قاموا بإنشاء 1,827 بيئة مهام تفاعلية مصحوبة بـ 85,000+ من التعليمات المعقدة ليحلها النموذج. الأهم من ذلك، تم تصميم هذه المهام لتكون "صعبة الحل، سهلة التحقق". بمعنى آخر، يتم تقديم النموذج مع مشاكل ذات مساحة بحث كبيرة (صعبة الحل بالصدفة) ولكن معايير واضحة للتحقق من الحل. هذه الخاصية تجعلها مثالية للتعلم التعزيزي: يمكن للنموذج التجربة (أو استخدام أداة) لاقتراح حل ثم التحقق بسرعة مما إذا كان يفي بجميع القيود المعطاة.

على سبيل المثال، كانت واحدة من المهام المركبة هي مشكلة تخطيط جدول سفر لمدة ثلاثة أيام مع قيود متعددة (تجنب تكرار المدن، تعديل الميزانيات ديناميكيًا بناءً على تكاليف الفنادق، إلخ). من الصعب جدًا على النموذج أن يخمن خط سير صحيح لأن القيود تخلق مشكلة تركيبية - ولكن إذا قدم النموذج خط سير محتمل، فمن السهل التحقق مما إذا كانت جميع القيود مستوفاة. من خلال التدريب على العديد من هذه المهام (التي تمتد لعدة مجالات مثل تخطيط السفر، الجدولة، الألغاز المنطقية، والمزيد)، تعلم الإصدار 3.2 التعامل بشكل أفضل مع المشكلات التي تتطلب البحث أو التحسين أو التفكير متعدد الخطوات. لقد حسّن هذا النظام التدريبي بشكل كبير من التعميم للنموذج على مهام الوكلاء الجديدة وغير المرئية.

في مجال وكلاء البرمجة، قامت DeepSeek بالاستفادة من GitHub – حيث قامت بتعدين ملايين من سلاسل القضايا الحقيقية وطلبات السحب. وقامت ببناء عشرات الآلاف من بيئات تحديات البرمجة القابلة للتنفيذ تلقائيًا من هذه البيانات. يمكن للنموذج ممارسة قراءة تقرير خطأ أو طلب ميزة، ثم التنقل في قاعدة كود (بمساعدة أدوات) لتنفيذ إصلاح أو ميزة. غطت هذه البيئات العديد من لغات البرمجة (بايثون، جافا، جافا سكريبت، إلخ)، مما يعرض النموذج لمجموعة واسعة من مشكلات البرمجيات. تعاملت سلسلة معالجة منفصلة مع وكلاء QA المعتمدين على البحث: باستخدام محاكاة متعددة الوكلاء، قامت DeepSeek بتوليد مجموعات بيانات حيث يطرح وكيل واحد أسئلة صعبة حول الكيانات النادرة ويجب على وكيل آخر (مع وصول إلى أداة بحث) العثور على الإجابات والتحقق منها. أسفرت هذه العملية متعددة الخطوات (بناء السؤال → البحث على الويب → التحقق من الإجابة) عن أمثلة تدريب عالية الجودة لتعليم الإصدار 3.2 كيفية أن يكون "مساعد بحث" فعالاً.

بفضل هذه الجهود، حقق DeepSeek-V3.2 اختراقًا في مهام الوكلاء الذين يستخدمون الأدوات. في التقييمات الداخلية، حقق V3.2 أعلى درجات لأي نموذج مفتوح على مجموعة من معايير الوكلاء، مما قلل بشكل كبير الفجوة مع النماذج المغلقة[17]. يبرز المطورون أن V3.2 لم يتم ضبطه بشكل مخصص لأدوات معينة في هذه الاختبارات - مما يشير إلى أن مهاراته في استخدام الوكلاء تنتقل إلى سيناريوهات العالم الحقيقي، وليس فقط المعايير الضيقة[18]. بعبارة أخرى، تعلم النموذج كيفية التفكير واستخدام الأدوات بشكل عام، بدلاً من التكيف مع مهام معينة.

معايير الأداء والمقارنة

كيف تقارن النماذج الجديدة لـ DeepSeek بأفضل أنظمة الذكاء الاصطناعي في السوق؟ يقدم التقرير الفني والتحليلات الأولية بعض الإجابات. بشكل عام، يقدم DeepSeek-V3.2 أداءً من الدرجة الأولى في مهام التفكير الرياضي والترميز، وحتى V3.2-Speciale ينافس أفضل النماذج في التفكير المعقد - لكن لا تزال هناك مجالات (مثل استخدام الأدوات المفتوحة) حيث تظل النماذج المغلقة تحتفظ بالتفوق. فيما يلي لقطة من نتائج المعايير المختارة التي توضح المشهد التنافسي:

الجدول 1: الأداء في معايير التفكير العينة (الدقة%)

المعيار (2025)

OpenAI GPT-5.1 Pro

Google Gemini-3.0-Pro

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

AIME (أولمبياد الرياضيات)

~94.6% (تقديري)

~95.0% (تقديري)

93.1%

96.0%[4]

HMMT (مسابقة الرياضيات)

88.3%

97.5%

92.5%

99.2%[4]

GPQA (أسئلة العلوم، صعب)

85.7%

91.9%

82.4%

85.7%

<small>المصادر: التقرير الفني لـ DeepSeek[4]. نتائج GPT-5.1 و Gemini هي قيم تقريبية من الرسوم البيانية للتقرير. غالبًا ما يتفوق Speciale أو يضاهي Gemini في المهام الرياضية، بينما V3.2 القياسي يكون عند مستوى GPT-5، أقل قليلاً من Gemini.</small>

كما نرى، فإن DeepSeek-V3.2 يفي بوعده في تحديات التفكير الأكاديمي. في مسابقات الرياضيات مثل AIME و HMMT، دقة V3.2 تقارب نموذج GPT-5 المتقدم، وتفصله نقاط قليلة فقط عن درجات Gemini المتقدمة. حتى أن نموذج Speciale يتفوق على Gemini في تلك المعايير الرياضية[4]، مما يوضح فائدة نهج "التفكير الطويل" المحسّن. هذه النتائج ملفتة للنظر – فقد كانت الرياضيات والمنطق الرسمي تعتبر منذ فترة طويلة نقطة ضعف النماذج المفتوحة، لكن V3.2 يظهر أن الأنظمة مفتوحة المصدر يمكن أن تحقق أداءً على مستوى متقدم في هذا المجال[19].

في جانب الترميز، يتألق DeepSeek-V3.2 أيضًا على الرغم من شدة المنافسة. في اختبار SWE-Bench Verified (الذي يتحقق مما إذا كان النموذج يمكنه إنتاج تغييرات في الشيفرة التي تصلح الأخطاء وتنجح في اجتياز اختبارات الوحدة)، حصل V3.2 على ~73%، متفوقًا بشكل كبير على سابقه (حصل V3.1 على ~66%[20]) ومقاربًا لنماذج مفتوحة أخرى مثل Kimi K2 من Moonshot وQwen-3 من Alibaba. في الحقيقة، جميع هذه النماذج المفتوحة تتفوق قليلاً على النموذج القديم 120B من OpenAI في هذا المعيار البرمجي[21][22]. هذا يبرز مدى تقدم النماذج المفتوحة في القدرة العملية على البرمجة. يمكن لـ DeepSeek V3.2 إصلاح الأخطاء الفعلية بشكل موثوق وإنشاء شيفرة تعمل، مما يجعله مفيدًا جدًا لمساعدة المطورين.

ومع ذلك، ضد أفضل النماذج المغلقة على الإطلاق، تكون الصورة مختلطة. في بعض مهام البرمجة، لا يزال GPT-5.1 يحتفظ بميزة. على سبيل المثال، في Terminal-Bench 2.0 الأكثر تعقيدًا (الذي يقيم استخدام أدوات CLI متعددة الخطوات والبرمجة في حلقة الوكيل)، تشير التقارير الأولية إلى أن GPT-5 وحتى Claude من Anthropic يتفوقان على DeepSeek، خاصة في الاستمرارية الوثوقية على مدى جلسات طويلة لاستخدام الأدوات[23]. تنخفض دقة DeepSeek-V3.2 في تلك المهام المعقدة متعددة الخطوات، مما يعكس أنه رغم كفاءته الكبيرة، إلا أنه ليس بعد الأفضل عندما يتعلق الأمر بالوكلاء البرمجيين المستقلين تمامًا أو حل المشكلات طويلة الأمد. وبالمثل، في معايير استخدام الأدوات الشاملة مثل MCP-Universe وTool-Decathlon، يتأخر V3.2 بشكل كبير عن GPT-5 وGemini[24]. لا تزال أنظمة OpenAI وGoogle تنفذ خططًا معقدة متعددة الأدوات بشكل أكثر اتساقًا. الفجوة قد تقلصت - حيث وصل V3.2 إلى مستويات جديدة من الأداء للنماذج المفتوحة في هذه الاختبارات[17] - ولكن لا تزال هناك فجوة كبيرة قبل أن تتمكن النماذج المفتوحة من مطابقة النماذج المغلقة في الكفاءة العامة لاستخدام الأدوات.

باختصار، يقدم DeepSeek-V3.2 أداءً قريبًا من الحدود في العديد من المجالات. إنه منافس لـ GPT-5 في مهام الترميز الحقيقية وحتى يُعادل Gemini في التفكير الرياضي المتقدم[19]. في الوقت نفسه، ليس بديلاً شاملاً لـ GPT-5 أو Gemini في كل المجالات، خاصة في سيناريوهات "الوكيل" المعقدة للغاية التي تتضمن تنسيق الأدوات المتقن، حيث لا تزال هذه النماذج المغلقة تمتلك ميزة[25][24]. هذه النظرة المتوازنة مهمة لتحديد التوقعات: V3.2 يتفوق في ما تم تحسينه له (التفكير والترميز بكفاءة)، بينما يظهر النوع الخاص ما هو ممكن عند دفع التفكير إلى أقصى الحدود.

القيود والتوقعات

بالرغم من الإنجازات المثيرة للإعجاب، فإن فريق DeepSeek صريح بشأن بعض القيود في سلسلة V3.2. أولاً، نظرًا لأن إجمالي عمليات النقاط العائمة في التدريب لا يزال أقل من بعض النماذج المغلقة فائقة الضخامة، فقد تتأخر سعة المعرفة العالمية وحفظ الحقائق النادرة في V3.2 مقارنة بالرواد مثل GPT-5. بمعنى آخر، قد لا تكون لديها معرفة ببعض المعلومات الغامضة أو المتخصصة التي استوعبتها النماذج الخاصة الأكبر. هذا يعتبر مقايضة شائعة في النماذج المفتوحة، والتي غالبًا ما تضطر للتدريب على مجموعات بيانات أقل حجماً أو تنوعًا.

تحدٍ آخر هو كفاءة الرموز. يشير DeepSeek إلى أن كلًا من V3.2 وSpeciale يحتاجان أحيانًا إلى توليد سلاسل استدلال أطول للوصول إلى نفس جودة الإجابة التي يمكن أن يحققها نموذج مثل Gemini-3.0-Pro باستجابة أكثر اختصارًا[6]. في الممارسة، يعني استخدام V3.2 في "وضع التفكير" قد يترتب عليه تكلفة رموز أعلى (وزمن استجابة أطول) لحل المشكلات الصعبة للغاية - سيكون النموذج مفصلًا أثناء العمل على الخطوات. Speciale على وجه الخصوص، رغم كفاءته العالية، يستهلك الرموز بكثرة: قد ينتج إثباتًا أو تفسيرًا مفصلًا حيث يمكن لخبير بشري أو نموذج مغلق محسن تقديم إجابة أكثر إحكامًا. هذا ليس دائمًا جانبًا سلبيًا (فالتفكير المتعمق يمكن أن يكون قيمًا)، ولكنه يجعل بعض الاستخدامات أكثر تكلفة.

DeepSeek-V3.2 يفتقر حالياً إلى الضبط الدقيق للحديث المفتوح أو الكتابة الإبداعية. كان تركيز تدريبه واضحاً على حل المشكلات المهيكلة والوكلاء. لاحظ المستخدمون أن أسلوبه منطقي ومعلوماتي، لكنه قد يكون أقل حيوية أو إبداعاً مقارنة بالنماذج مثل GPT-4 أو Claude في الحوارات العادية. كان هذا خياراً واعياً: فقد أولى DeepSeek الأولوية لمهام البحث والبرمجة والقدرات الرياضية في هذا الإصدار، حتى لو كان ذلك يعني بعض الانخفاض في الحوارات العامة.

بالنظر إلى المستقبل، ألمح فريق DeepSeek إلى استمرار التقدم. يناقش التقرير الفني V3.2 بصراحة هذه النقائص كأهداف للتحسين المستقبلي. هناك بالفعل توقعات من المجتمع لنموذج DeepSeek-R2 المحتمل - والذي، إذا كان الاسم صحيحًا، قد يكون النموذج التالي المتمحور حول التفكير الذي يبني على أسس R1 وV3.2. (تابعو DeepSeek تضرعوا نصف مازحين "متى سيصل R2؟!" ردًا على إطلاق V3.2.) إذا ومتى جاء R2، فإن التوقعات تشير إلى أنه قد يسد الفجوات بشكل أكبر، ربما عن طريق دمج تدريبات أكبر، وإدخال المزيد من المعرفة، وتقنيات كفاءة الرموز المحسنة.

في الوقت الحالي، يمثل DeepSeek-V3.2 نقطة تحول في عالم الذكاء الاصطناعي المفتوح المصدر. يثبت أنه من خلال الهندسة الذكية – من الانتباه المتناثر إلى التوليف الضخم لـRL وإنشاء المهام الاصطناعية – يمكن لنموذج مفتوح أن يصل إلى أداء متقدم في مجالات التفكير والبرمجة، وهي المجالات التي كانت تعتبر سابقاً من اختصاص النماذج المغلقة ذات التريليونات من المعاملات. كما وصفها أحد المحللين، فإن V3.2 هو "نموذج تفكير وبرمجة قوي ومنخفض التكلفة يقدم نتائج على مستوى متقدم حيث يعمل معظم المطورين فعلياً: في البرمجة والرياضيات"[26]. ربما لا يزيح GPT-5 أو Gemini كحل شامل للذكاء الاصطناعي، لكن في دوره المتخصص، ينجح DeepSeek-V3.2 بشكل مدهش[27] – والأهم من ذلك، أنه يقوم بذلك كنموذج متاح مجاناً. في النظام البيئي الأوسع للذكاء الاصطناعي، هذه هدية لا تقدر بثمن في هذه الذكرى لChatGPT.

المصادر: تم الحصول على المعلومات والاقتباسات في هذه المقالة من ملاحظات الإصدار الرسمي لـ DeepSeek والتقرير الفني[1][4][13][17]، تغطية الأخبار والتحليلات في منشورات الذكاء الاصطناعي[2]، وكذلك التقييمات المستقلة لـ DeepSeek-V3.2 من قبل المستخدمين الأوائل[19][24] وخبراء المجتمع[7][8]. جميع المقاييس والمقارنات تعكس الوضع الحالي (ديسمبر 2025) لأداء النموذج في المهام المعنية.

[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 النسخة الرسمية: تعزيز قدرات الوكيل، دمج التفكير والاستنتاج | مستندات DeepSeek API

https://api-docs.deepseek.com/zh-cn/news/news251201

[2] أصدرت DeepSeek نماذج استدلال جديدة لمنافسة GPT-5، وتحدي Gemini 3 Pro

https://analyticsindiamag.com/ai-news-updates/deepseek-releases-new-reasoning-models-to-match-gpt-5-rival-gemini-3-pro/

[7] [8] [9] [10] [11] [12] [21] [22] مراجعة DeepSeek V3.2-Exp. نموذج DeepSeek التجريبي الأخير... | بواسطة Barnacle Goose | أكتوبر، 2025 | Medium

https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c

[19] [23] [24] [25] [26] [27] DeepSeek V3.2 مقابل Gemini 3.0 مقابل Claude 4.5 مقابل GPT-5 | بقلم ميهول جوبتا | علم البيانات في جيبك | ديسمبر، 2025 | ميديوم

https://medium.com/data-science-in-your-pocket/deepseek-v3-2-vs-gemini-3-0-vs-claude-4-5-vs-gpt-5-55a7d865debc

[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-V3.1