مقارنة شاملة بين LLM: كلود أوبوس 4.5 وChatGPT 5.1 وGoogle Gemini 3 Pro

المؤلف: بوكسو لي

المقدمة

في أواخر عام 2025، أصدرت ثلاث شركات رائدة في الذكاء الاصطناعي - Anthropic وOpenAI وGoogle DeepMind - نماذج لغوية كبيرة من الجيل القادم. تمثل كلود أوبوس 4.5 من Anthropic وChatGPT 5.1 من OpenAI (المبني على سلسلة GPT-5.1) وGemini 3 Pro من Google قمة التقدم في الذكاء الاصطناعي. تعد جميعها بقفزات كبيرة في القدرات، من التعامل مع سياقات ضخمة إلى حل مهام البرمجة والاستنتاج المعقدة. يقدم هذا الاستعراض العميق مقارنة تقنية لهذه النماذج في أبعاد رئيسية - معايير الأداء، قدرات الاستنتاج، توليد الكود، زمن استجابة API، التكلفة، نافذة سياق الرموز، التخصيص والتعديل - لفهم كيف يتفوقون على بعضهم البعض.

ملفات النماذج: Claude Opus 4.5 هو أحدث نموذج رئيسي من Anthropic (خليفة لـ Claude 2 وسلسلة Claude 4)، ويدعي أنه "أفضل نموذج في العالم للبرمجة، والوكلاء، واستخدام الكمبيوتر" [1]. يعد نموذج ChatGPT 5.1 من OpenAI ترقية لسلسلة GPT-5، ويقدم في وضعين (فوري وتفكير) لتحقيق التوازن بين السرعة وعمق التفكير [2]. يعتبر Google’s Gemini 3 Pro أعلى نموذج في عائلة Gemini، وهو نموذج متعدد الوسائط تم بناؤه بواسطة Google DeepMind، ويُوصف بأنه "نموذجنا الأكثر ذكاءً" مع قدرات متقدمة في التفكير واستخدام الأدوات [3][4]. بينما تظل الهياكل التفصيلية ملكية خاصة، فإن جميعها أنظمة كبيرة تعتمد على Transformer ومن المحتمل أن تكون بعدد تريليونات من المعلمات، مُعززة بتدريب وتحسين واسع النطاق (مثل التعلم المعزز من خلال ملاحظات البشر). أدناه، نقارنها بالتفصيل.

الأداء على المعايير

النموذج
المعرفة العامة (MMLU / PiQA)
GPQA Diamond (أسئلة صعبة)
امتحان الإنسانية الأخير (HLE)
ARC‑AGI (التفكير)
التوصيف
Gemini 3 Pro
≈"خبير بشري" في المعايير الأكاديمية القياسية؛ ~90%+
91.9%[5]
37.5% (بدون أدوات)[8]
31%، تصل إلى 45% في وضع "التفكير العميق"[9]
الأحدث في المهام الأصعب للتفكير؛ فعلياً بمستوى "دكتوراه" في المعايير المتقدمة[10].
GPT‑5.1
≈91.0% على MMLU[6]، بشكل أساسي يعادل Gemini[6]
– (لم يعلن عنها علناً؛ قابلة للمقارنة بشكل عام في المعرفة)
≈26.8%[8]
≈18%[9]
معرفة عامة قوية جداً؛ يتأخر عن Gemini 3 Pro في التفكير شديد الصعوبة، لكنه لا يزال تنافسياً.
Claude Opus 4.5
لا يوجد MMLU رسمي؛ استخدم Claude Sonnet 4.5 كنسبة تقريبية في الثمانينات العليا[7]
≈13.7% لنموذج Claude السابق[8]
أقل من GPT‑5.1 وGemini 3 Pro في ARC‑AGI[9]
أداء أكاديمي قوي؛ أضعف نسبياً في التفكير المتقدم، مع نقاط قوة في مجالات أخرى (لا سيما البرمجة).

المعرفة والاستدلال (MMLU، ARC، إلخ): في اختبارات المعرفة العامة مثل MMLU (فهم اللغة متعدد المهام الضخم)، تعمل النماذج الثلاثة بالقرب من أو فوق مستوى الخبراء البشريين. تقارير Google تشير إلى أن Gemini 3 Pro يحقق حوالي 91.9% في أصعب مجموعات الأسئلة (GPQA Diamond) ويتصدر لوحة المتصدرين في LMArena بإلو قدره 1501[5]. يعتبر GPT‑5.1 قويًا بشكل مشابه في MMLU – ففي تحليل واحد، سجل GPT‑5.1 حوالي 91.0% في MMLU، بما يتماشى تقريبًا مع Gemini 3 Pro[6]. لم تنشر Anthropic درجة MMLU الرسمية لـ Opus 4.5، ولكن سلفه (Claude Sonnet 4.5) كان في حدود 80% العالية[7]، مما يشير إلى أن Opus 4.5 قريب من هذا المستوى في المهام الأكاديمية. في الامتحانات الاستدلالية الأكثر تحديًا، تظهر الفروقات.

Humanity’s Last Exam (a brutal reasoning test) saw Gemini 3 Pro score 37.5% (no tools) – significantly higher than GPT‑5.1 (~26.8%) or Anthropic’s prior model (~13.7%)[8]. Likewise, on the ARC-AGI reasoning challenge, Gemini 3 Pro reached 31% (and up to 45% in a special “Deep Think” mode), far surpassing GPT‑5.1 (~18%) and previous Claude models[9]. These results indicate that Google’s model currently leads on the hardest reasoning benchmarks, likely reflecting Gemini’s advanced planning and problem-solving training. OpenAI’s GPT‑5.1 is not far behind on knowledge and reasoning, while Anthropic’s strength lies elsewhere (as we’ll see in coding). Overall, on standard benchmarks like MMLU and PiQA all three are tightly clustered at ~90% accuracy[5], but for “frontier” reasoning tests (complex math, logic puzzles), Gemini 3 Pro has an edge with its “PhD-level” performance[10].

Code Generation & Software Benchmarks: Anthropic Claude Opus 4.5 has explicitly targeted coding and “agentic” computer-use tasks, and it currently claims the crown on code benchmarks. In Anthropic’s internal evaluation on SWE-Bench (Software Engineering Bench) Verified, Opus 4.5 achieved 80.9% success – the highest of any frontier model[11]. This slightly outperforms OpenAI’s GPT‑5.1-Codex-Max model (77.9%) and Google’s Gemini 3 Pro (76.2%) on the same test[11]. The chart below, from Anthropic’s announcement, illustrates the margin by which Claude 4.5 leads in real-world coding tasks:

حقق Claude Opus 4.5 أعلى درجة في SWE-Bench Verified (مشاكل البرمجة الواقعية)، متفوقًا قليلاً على Codex GPT‑5.1 لـ OpenAI وGemini 3 Pro لـ Google[11].

هذه النتيجة ملحوظة لأن نسخة GPT‑5.1 Codex-Max كانت بحد ذاتها تحسينًا كبيرًا للبرمجة (قامت OpenAI بتدريبها على مهام هندسة البرمجيات واستخدام الأدوات)[12]. ومع ذلك، تمكنت Opus 4.5 من التقدم بضع نقاط مئوية. جوجل Gemini 3 Pro قريب جدًا؛ فهو "يتفوق بشكل كبير" على سلفه Gemini 2.5 في هذه المعايير الخاصة بوكلاء البرمجة[13]، ولكنه حالياً يتخلف عن Claude الجديد. من الناحية العملية، تعتبر النماذج الثلاثة جميعها مساعدين متمكنين في البرمجة - قادرة على توليد كود صحيح للمهمات المعقدة، وإعادة هيكلة قواعد الشفرات الكبيرة، وحتى تشغيل بيئات التطوير. ولكن تركيز Anthropic على جودة الكود والكفاءة يظهر: أبلغ المطورون أن Claude Opus 4.5 يظهر "تخطيط مهام متقدم واستخدام الأدوات" في البرمجة، ويحل المشكلات بعدد أقل من الرموز[14][15]. في الواقع، تقول Anthropic إن Opus 4.5 يمكنه التعامل مع تدفقات عمل البرمجة متعددة الخطوات "بكفاءة أكبر من أي نموذج قمنا باختباره" ويحقق معدلات نجاح أعلى مع استخدام حتى 65% رموز أقل في نفس المهام[16]. تجعل هذه الكفاءة ومهارة البرمجة Claude 4.5 قويًا للغاية لحالات استخدام هندسة البرمجيات.

معايير مرجعية أخرى: لكل نموذج نقاط قوة فريدة. تتجلى براعة Gemini 3 في الوسائط المتعددة في معايير التفكير في الصور والفيديو - على سبيل المثال، MMMU-Pro (Multimodal MMLU) و Video-MMMU، حيث حققت Gemini 3 Pro نقاطًا 81٪ و 87.6٪ على التوالي، مما يثبت معيارًا جديدًا[17]. كما حققت 72.1٪ في SimpleQA Verified، مما يشير إلى دقة محسنة في الأسئلة المفتوحة[18]. بينما تتميز GPT‑5.1 من OpenAI في جودة المحادثة واتباع التعليمات بشكل أوثق من سابقاتها. وعلى الرغم من أنها ليست مرتبطة بمعيار واحد، فقد لاحظت OpenAI أن الذكاء العام وأسلوب التواصل في GPT‑5.1 قد شهدا تحسنًا "ملحوظًا"[19]. لاحظ العديد من المراقبين أن GPT‑5.1 يبدو "أدفأ، وأكثر ذكاءً، وأفضل في اتباع التعليمات" في المهام اليومية[2]، وهو ما قد لا يظهر في مقاييس الدقة الخالصة ولكنه يحسن من استخدامه في العالم الحقيقي. تم تصميم Opus 4.5 من Anthropic أيضًا للمهام العملية بخلاف البرمجة - وجد المختبرون أنه "يكتشف الحل" للأخطاء المعقدة متعددة الأنظمة و "يتعامل مع الغموض ويحلل المقايضات" دون الحاجة إلى توجيه[20]. باختصار، المعايير تخبر جزءًا فقط من القصة. جميع النماذج الثلاثة تؤدي على مستوى يعادل أو يفوق المستوى البشري في العديد من الاختبارات الأكاديمية. يدفع Gemini 3 الحدود في التحديات المنطقية والوسائط المتعددة الصعبة، ويتصدر Claude 4.5 في المهام المعقدة لاستخدام الأدوات والبرمجة، بينما تقدم GPT‑5.1 توازنًا بين الأداء القوي والقدرة المحادثية المتطورة.

قدرات التفكير الطويل والتفكير المنطقي

أحد المواضيع في هذه النماذج الجديدة هو تحسين التفكير طويل الأمد - القدرة على معالجة المشكلات المعقدة من خلال خطوات متعددة أو على مدى فترات طويلة. قدمت شركة OpenAI نموذج GPT-5.1 مع وضع “التفكير”، وهو نموذج تفكير متقدم يتميز بأنه “أكثر إصراراً في المهام المعقدة”[2]. سيقوم GPT-5.1 Thinking بالتفكير لفترة أطول (أي تخصيص المزيد من الحسابات الداخلية أو الخطوات) للأسئلة الصعبة، مما يمكنه من حل المشكلات التي تتطلب منطق متعدد الخطوات. اتبعت Google نهجًا مشابهًا مع Gemini 3 Deep Think، وهو وضع اختياري لـ Gemini 3 Pro الذي “يدفع حدود الذكاء إلى أبعد من ذلك” في المشكلات المعقدة[21]. في الاختبارات، تفوق Gemini 3 Deep Think بشكل كبير على الوضع العادي في أصعب المعايير (مثل زيادة درجة امتحان Humanity’s Last Exam من 37.5% إلى 41.0%، وARC-AGI إلى 45.1%)[22]. يُشير ذلك إلى أن النموذج يمكنه التفكير داخلياً في المهام الصعبة جداً عند إعطائه المزيد من “وقت التفكير.”

تؤكد Claude Opus 4.5 من Anthropic بالمثل على التفكير الممتد. إنها تحافظ تلقائيًا على 「كتل التفكير」 من الأدوار السابقة، مما يحافظ على سلسلة التفكير عبر جلسة طويلة [23] - كانت النماذج السابقة من Claude تتجاهل هذه، لكن Opus 4.5 يمكنه الاحتفاظ بالتفكير الوسيط، وهو أمر حاسم للعمل المتعدد الخطوات المتسق. كما أضافت Anthropic 「معامل الجهد」 إلى Opus 4.5 الذي يتحكم مباشرة في عدد الرموز التي يستهلكها النموذج في التفكير والشرح [24]. عند الجهد العالي، سينتج Opus تحليلات شاملة جدًا (مفيدة للتصحيح المعقد أو البحث العميق)، بينما عند الجهد المنخفض يقدم إجابات مختصرة مناسبة للمهام السريعة ذات الحجم الكبير [25]. هذا فعليًا زر للتحكم في عمق التفكير مقابل السرعة.

في الممارسة العملية، تعني هذه الميزات أن كل نموذج يمكنه التعامل مع مهام التفكير المستمر بشكل أفضل بكثير من الأجيال السابقة. على سبيل المثال، ذكرت OpenAI أن GPT-5.1-Codex-Max يمكنه العمل بشكل مستقل لساعات في كل مرة، وتحسين الكود وتصحيح الأخطاء بشكل تكراري دون تدخل بشري [26][27]. يستخدم تقنية تسمى "التكثيف" لتقليص وتكثيف السياق أثناء العمل، مما يسمح بالعمل المتماسك على ملايين الرموز في جلسة واحدة [28][29]. لاحظ سيمون ويليسون، أحد المختبرين الأوائل، أن نماذج Anthropic يمكنها أيضاً الاستمرار في جلسات البرمجة الطويلة – فقد استخدم Opus 4.5 لتشغيل حوالي 30 دقيقة من البرمجة الذاتية، وحتى النموذج الأصغر Claude Sonnet 4.5 كان قادراً على متابعة العمل بفعالية [30][31]. Gemini 3، مع نافذة السياق الكبيرة واستخدام الأدوات المدمجة، مصمم بشكل خاص "لتخطيط وتنفيذ المهام المعقدة من البداية إلى النهاية" عبر وكلاء يمكنهم العمل في بيئة IDE أو حتى في محطة لينكس [32][33]. في منتجات Google الخاصة، يمكن للذكاء الاصطناعي المستند إلى Gemini تحليل الوثائق الطويلة أو الفيديوهات وإنتاج مخرجات منظمة مثل البطاقات التعليمية أو الخطط خطوة بخطوة [34][35].

الخلاصة: لقد جعلت النماذج الثلاثة التفكير أكثر استمرارية واستقلالية. يمكنها التعامل مع سير العمل المعقد الذي يمتد عبر خطوات عديدة. تقدم OpenAI وGoogle خيارات (وضع التفكير، التفكير العميق) لتعزيز التفكير عند الحاجة. يتم تشغيل Opus من Anthropic بمستوى عالٍ من التفكير بشكل افتراضي، ويتيح للمطورين التحكم اليدوي في التوازن بين الشمولية والكمون[24]. يعكس هذا تقارباً في التصميم: بدلاً من الاستجابة بطلقة واحدة دائماً، تحاكي هذه النماذج داخلياً “التفكير لفترة أطول”[36][37] لمعالجة المشكلات الأصعب واستخدام الأدوات بفعالية، مما يقترب من سلوك الوكيل الحقيقي.

توليد الكود واستخدام الأدوات

القدرات البرمجية: كما ذكر سابقًا، يتفوق Claude 4.5 حاليًا على GPT‑5.1 وGemini 3 في معايير البرمجة المقاسة [11]. لكن الثلاثة يتمتعون بقدرة عالية على توليد الأكواد، بشكل يفوق النماذج التي أُصدرت منذ سنة أو سنتين. على سبيل المثال، تم تدريب GPT‑5.1-Codex-Max من OpenAI على "مهام هندسة البرمجيات الحقيقية" مثل مراجعات الأكواد، وإنشاء طلبات السحب، والإجابة على أسئلة البرمجة [12]. يمكنه العمل عبر ملفات متعددة وحتى التعامل مع بيئات Windows (وهو أمر جديد، مما يشير إلى تدريبه على مهام خاصة بنظام التشغيل) [38][39]. وفي الوقت نفسه، كان Claude Opus 4.5 مسؤولاً عن إعادة الهيكلة المعقدة التي تشمل عدة قواعد أكواد ووكلاء، وفقًا لعملاء Anthropic [40]. وجد المطورون الذين يستخدمون Claude في بيئة تطوير متكاملة (مثل Claude Code) أنه يمكنه تنسيق التغييرات عبر العشرات من الملفات مع أخطاء قليلة [41]. كما يبرز Gemini 3 من Google في تطوير البرمجيات: وُصف بأنه "أفضل نموذج للبرمجة الحيوية والبرمجة الوكيلية الذي قمنا ببنائه" من قبل Google، وتصدر معيار WebDev (مهام تطوير الويب) بدرجة Elo بلغت 1487 [13]. في اختبار Terminal-Bench المباشر (تنفيذ النموذج لأوامر نظام لينكس)، حقق Gemini 3 Pro نسبة 54.2%، أعلى من GPT‑5.1 (~47%) أو النماذج السابقة من Anthropic [42][43]. وهذا يشير إلى أن Gemini قوي بشكل خاص في استخدام الأدوات/الأوامر لإنجاز مهام البرمجة بشكل مستقل.

استخدام الأدوات والوكلاء: إلى جانب إنشاء الشفرات الخام، يعد السلوك الوكيل مجالًا رئيسيًا - بحيث يكون للنموذج القدرة على استخدام الأدوات أو التصرف كوكيل مستقل. جميع الشركات الثلاث تُمكّن هذا بطرق مختلفة. تدعم منصة OpenAI استدعاء الوظائف وقد قدمت “وكلاء OpenAI” الذين يسمحون لـ GPT-5.1 باستخدام الأدوات (مثل متصفحات الويب، مفسرات الشفرات، إلخ) لإكمال المهام. يمكن لـ GPT-5.1 أيضًا “ضغط” ذاكرته العاملة تلقائيًا خلال جلسات استخدام الأدوات الطويلة، كما هو موصوف، حتى لا ينفد السياق[28][29]. قامت Google ببناء بيئة كاملة موجهة للوكلاء تسمى Google Antigravity حول Gemini 3[32]. في هذا النظام، تمتلك وكلاء Gemini وصولًا مباشرًا إلى محرر الشفرات، الطرفية، والمتصفح. يمكنهم “تخطيط وتنفيذ المهام البرمجية المعقدة بشكل مستقل” - كتابة الشفرة، تشغيلها، اختبارها، وتكرارها، كل ذلك داخل منصة التطوير[44][33]. يتم تعزيز ذلك بواسطة مهارات Gemini المتعددة الوسائط: على سبيل المثال، يمكن لوكيل من Gemini قراءة لقطة شاشة أو تصميم كنموذج إدخال، ثم توليد وتنفيذ الشفرة لإعادة إنتاج واجهة المستخدم.

أنثروبيك، من جهتها، قامت بترقية أدوات «استخدام الكمبيوتر» الخاصة بـClaude. الآن يمكن لـClaude Opus 4.5 طلب لقطة شاشة مكبرة عالية الدقة لأجزاء من الشاشة لفحص دقيق[45][46]. في تطبيقات Claude وSDK الخاصة بأنثروبيك، يمكنه تشغيل كمبيوتر افتراضي - النقر على الأزرار، التمرير، الكتابة - والميزة الجديدة للتكبير تساعده في قراءة النصوص الصغيرة أو عناصر واجهة المستخدم التي كانت صعبة الرؤية سابقًا[47][48]. مع مجموعة من الأدوات المتاحة (قشرة باش، تنفيذ الكود، متصفح الويب، إلخ. في API الخاص بـClaude[49][50])، يبدو أن Claude 4.5 مصمم بوضوح للتفوق في «العملاء الذين يستخدمون الكمبيوتر.» ويشير المختبرون الأوائل إلى أن Opus 4.5 يظهر «أفضل تخطيط للمهام الأمامية واستدعاء الأدوات الذي شهدناه حتى الآن»، حيث ينفذ سير عمل متعدد الخطوات مع عدد أقل من الطرق المسدودة[14][51]. على سبيل المثال، شهدت Warp (شركة أدوات التطوير) تحسينًا بنسبة 15% على Bench Terminal مع Claude 4.5 مقارنة بـClaude 4.1، مشيدةً بتفكيره المتواصل الذي يؤدي إلى تخطيط أفضل للمدى الطويل[52].

باختصار، عندما يتعلق الأمر بالبرمجة واستخدام الأدوات: - Claude Opus 4.5 يتفوق قليلاً في معدل النجاح في البرمجة البحتة وهو فعال للغاية (يحل المهام بعدد أقل بكثير من الرموز)[53][54]. إنه اختيار ممتاز لإعادة الهيكلة على نطاق واسع، نقل الأكواد، وأي شيء يهم فيه تكلفة الرموز، بفضل تحسينات تقلل استخدام الرموز بنسبة 50-76% في الاختبارات[55][54]. - GPT‑5.1 (Codex-Max) هو منافس قريب جداً يندمج بعمق مع سير عمل المطور (CLI، ملحقات IDE[56]). يُعرف بأنه شريك برمجة موثوق يمكنه العمل لساعات، ويدعم الآن نوافذ السياق المتعددة بشكل أصلي (مما يعني أنه يمكنه التعامل بسلاسة مع أجزاء المشروع بالتتابع)[28]. نظام OpenAI يجعل دمج الأدوات سهلاً عبر استدعاءات الوظائف. - Gemini 3 Pro يجلب قوة جوجل في دمج البحث، البيانات والمدخلات متعددة الوسائط في البرمجة. لا يكتب الأكواد فقط بل يمكنه تشغيل البرمجيات (الطرفية، المتصفح، إلخ.) بفعالية. تفوق جوجل في الوسائط المتعددة يعني أن Gemini يمكنه دمج السياق البصري (تصميمات النماذج، الرسوم البيانية) مباشرة في عملية البرمجة - ميزة فريدة بين هذه النماذج.

جميع الثلاثة يدفعون نحو الذكاء الاصطناعي الذي لا يكتب الشيفرة فقط بل يعمل كمهندس مستقل. وهذا واضح في تقارير عن وكلاء الذكاء الاصطناعي الذين “يتعلمون من التجربة ويحسنون مهاراتهم الخاصة” في حلقة تكرارية[57][58]. وصف أحد العملاء وكلاء Claude 4.5 بأنهم قاموا بتحسين أنفسهم على مدى 4 تكرارات للوصول إلى الأداء الأمثل في مهمة ما، بينما النماذج الأخرى استغرقت 10 تكرارات ولم تتمكن من تحقيق ذلك[59][60]. هذا النوع من السلوك التكيفي واستخدام الأدوات يتطور بسرعة، وكل من هذه النماذج في طليعة التكنولوجيا.

نافذة السياق والذاكرة

كانت نوافذ السياق الكبيرة ميزة مميزة لـ Claude من Anthropic، ويواصل Opus 4.5 هذا الاتجاه مع نافذة سياق 200,000 رمز للإدخال (وحتى 64 ألف رمز في الإخراج)[61]. يكفي هذا لإدخال مئات الصفحات من النص أو وثائق طويلة متعددة في مرة واحدة. من الناحية العملية، تتيح 200 ألف رمز (~150,000 كلمة)، على سبيل المثال، إدخال قاعدة برمجيات كاملة أو كتاب إلى Claude للتحليل. تستخدم Anthropic هذه الميزة لتمكين جلسات الدردشة "اللانهائية" دون الوقوع في عقبة - في الواقع، يدعم Claude 4.5 محادثات طويلة جدًا ويمكنه تذكر المزيد من التاريخ مما تفعله معظم النماذج[62][63].

لقد تجاوزت Google الآن هذا الأمر باستخدام نافذة سياق Gemini 3 Pro المكونة من 1,048,576 رمزًا (حوالي مليون رمز)[64][65]. هذا قفزة بحجم كبير. يمكن لـ Gemini 3 "فهم مجموعات بيانات ضخمة بما في ذلك النصوص، الصوت، الصور، الفيديو، ملفات PDF، وحتى مستودعات الأكواد بالكامل مع نافذة سياق تبلغ 1M رمزًا"[64][65]. في الأساس، يمكنه استيعاب كتب أو ساعات من الصوت/الفيديو كمدخلات. في الواقع، يدعم النموذج مدخلات متعددة الأوضاع حقًا – يمكنك إعطائه ملف PDF طويل، بالإضافة إلى عدة صور ومقاطع صوتية في طلب واحد، طالما أن إجمالي الرموز (بعد ترميزها) أقل من الحد[64][66]. تذكر وثائق Google أنه يمكنه معالجة ما يصل إلى 900 صورة في طلب واحد، أو فيديوهات كبيرة (مع ترميز الإطارات كرموز)[67]. هذا السياق الضخم يغير قواعد اللعبة لمهام مثل مراجعة قواعد الكود الكبيرة، تحليل العقود القانونية الطويلة، أو تلخيص ساعات من النصوص.

لم يعلن GPT-5.1 من OpenAI صراحة عن سياق ثابت بحجم يصل إلى 1M، ولكنه قدم تقنيات تتجاوز الحدود السابقة. قدم GPT-4 نسخة سياق 128k (في ChatGPT Enterprise ونماذج GPT-4 32k)، وهناك مؤشرات على أن GPT-5 يمكنه التعامل مع ما يصل إلى 400k أو أكثر من الرموز في بعض الإعدادات[68][69]. بشكل أكثر تحديدًا، آلية “التكثيف” في GPT-5.1-Codex-Max تسمح للنموذج بتلخيص أجزاء قديمة من المحادثة أو تاريخ المهمة بشكل مستمر، مما يمنحه ذاكرة عمل غير محدودة على مدى جلسات طويلة[28][29]. على سبيل المثال، يمكن لـ GPT-5.1 العمل لمدة 24+ ساعة عن طريق ضغط السياق بشكل دوري لتحرير المساحة و*“تكرار هذه العملية حتى تكتمل المهمة.”*[70][71]. لذلك بينما قد يكون نافذة GPT-5.1 الخام بحوالي 128k رمز لكل طلب، فإن تصميمه يسمح له بتجاوز ذلك عن طريق ربط السياقات. كما أن OpenAI تقوم بإطلاق ميزات تخزين السياق وذاكرة المحادثة طويلة الأمد في ChatGPT، مما يشير إلى أن النموذج يمكنه تذكر أجزاء سابقة من الحوار حتى عندما تتجاوز الحد الرمزي الاسمي.

لتلخيص قدرات السياق: - Claude Opus 4.5: ~200K نافذة الرموز (المدخلات) أصليًا[61]. هذا مرتفع للغاية ومناسب لمعظم مهام الوثائق الطويلة. نظام تسعير Anthropic يأخذ هذا في الاعتبار: إذا تجاوزت 200k في طلب واحد، سيتم محاسبتك بسعر "سياق 1M" أعلى[72][73] (مما يعني أنه قد يكون لديهم وضع 1M تجريبي أيضًا). - GPT‑5.1: رسميًا حتى 128K في عمليات النشر الحالية لـ ChatGPT Pro[74]، ولكن مع ضغط السياق التلقائي مما يمكنه من استخدام ملايين الرموز بشكل فعال خلال جلسة[28][29]. يمكننا التفكير فيه كدعم سياق طويل ديناميكي بدلاً من نافذة ثابتة كبيرة. - Gemini 3 Pro: نافذة 1M رمز – الأكبر بين أي نموذج رئيسي – ومصممة خصيصًا لسياق متعدد الوسائط (نص+صورة+صوت+فيديو في واحد)[64][75]. هذا يسمح بتحليلات مثل "تغذية النموذج بمحاضرة فيديو كاملة وعدة أوراق بحثية وجعله يلخص أو يجيب على الأسئلة"، وهو ما سيكون غير ممكن في سياقات أصغر.

كل هذا يعني أن قيود الذاكرة لم تعد عائقًا مع هذه النماذج كما كان من قبل. حيث كانت النماذج السابقة تكافح لتذكر التفاصيل من بداية مستند طويل، فإن هذه النماذج يمكنها الاحتفاظ بكميات هائلة من المعلومات دفعة واحدة. هذا يفيد بشكل خاص المهام مثل التفكير طويل المدى (مثل إيجاد حل يتطلب الرجوع إلى العديد من أجزاء المدخلات) والحوارات المفتوحة التي تمتد لعشرات الأدوار.

السرعة والكمون

مع وجود سياقات كبيرة واستدلالات معقدة، قد يتوقع المرء أن تكون هذه النماذج بطيئة، ولكن كل مزود قدم طرقًا لإدارة التأخير. نهج OpenAI هو تمييز النماذج: GPT‑5.1 الفوري مقابل GPT‑5.1 التفكير[76]. النموذج الفوري محسن للاستجابات السريعة والمحادثات – إنه النموذج الذي "غالبًا ما يفاجئ الناس بمرحه بينما يبقى واضحًا ومفيدًا."[77]. إنه الخيار ذو التأخير المنخفض للدردشة اليومية. من ناحية أخرى، نموذج التفكير هو العامل الأساسي للاستفسارات المعقدة، وبينما يكون محسنًا ليكون أسرع في المهام السهلة، فإنه يستغرق وقتًا أطول في المهام الصعبة لأنه يتعامل مع الاستدلال العميق[78]. يتيح نظام النموذج ذو المستويين للمستخدمين تبادل السرعة بالدقة عند الطلب. في الواقع، يشعر المستخدمون أن GPT‑5.1 الفوري سريع الاستجابة جدًا (مشابه لـ GPT‑4 Turbo أو أسرع)، بينما قد يستغرق GPT‑5.1 التفكير وقتًا أطول بشكل ملحوظ عند حل مشكلة صعبة، ولكنه يقدم إجابات أفضل.

الحل الذي قدمته Anthropic، كما ذكر، هو معامل الجهد في Claude 4.5 [24]. بشكل افتراضي، يتم ضبطه على "مرتفع"، مما يعني أن النموذج يزيد من الشمولية (مما قد يزيد من التأخير). يمكن للمطورين ضبطه ليكون متوسط أو منخفض. تشير بيانات Anthropic إلى أنه عند جهد متوسط، يمكن لـ Opus 4.5 حل المهام بنفس الدقة كما كان من قبل ولكن باستخدام عدد أقل بكثير من الرموز، مما يتيح استجابة أسرع [53][54]. في مثال واحد، تماثل الجهد المتوسط أداء Claude Sonnet 4.5 في SWE-Bench بينما استخدم 76% رموز إخراج أقل [53][54] - مما يترجم إلى انخفاض كبير في التأخير والتكلفة. لذا، إذا كان التطبيق يحتاج إلى إجابات سريعة، فإن ضبط الجهد على مستوى أقل يوفر ردودًا أقصر (ولكن لا تزال فعالة). على الجهد المرتفع، قد يستغرق Claude وقتًا أطول قليلاً، لكنه ينتج مخرجات مفصلة جدًا. تقارير المستخدمين الأوائل تشير إلى أن أوقات استجابة Claude "مستقرة ويمكن التنبؤ بها" حتى في حالة الجهد العالي، على الرغم من أن الردود الأطول تستغرق وقتًا أطول لتوليدها [79].

يحتوي Google’s Gemini 3 Pro أيضًا على معلمة thinking_level (بقيمة "منخفضة" أو "عالية")، والتي تحل محل إعداد "thinking_budget" السابق من Gemini 2[80]. يتيح هذا المستوى للمستخدم أن يقرر ما إذا كان يجب على Gemini القيام بالتفكير الداخلي بالحد الأدنى (للسرعة) أو التفكير الأقصى (للجودة)[80]. تقدم Google أيضًا إعداد media_resolution للمدخلات متعددة الوسائط، حيث يمكنك اختيار معالجة الصور/الفيديو بدقة أقل للحصول على نتائج أسرع أو بدقة عالية للحصول على دقة بصرية أفضل (على حساب المزيد من الرموز والبطء)[81]. هذه التحكمات تعترف بأن معالجة مليون رمز أو صور كبيرة تكون بطيئة بطبيعتها - لذا يمكن للمطورين ضبط السرعة عن طريق تعديل مقدار "تفكير" النموذج وكيفية تحليله بدقة للوسائط. لا يوجد مقارنة علنية جنبًا إلى جنب لزمن الانتقال بين GPT-5.1 وClaude وGemini، ولكن الأدلة القصصية تشير إلى:

  • GPT-5.1 Instant سريع للغاية للاستفسارات العادية (غالبًا ما ينتهي في بضع ثوانٍ)، وحتى وضع التفكير حصل على تحسينات في السرعة - لاحظت OpenAI أنه "أصبح الآن أسهل للفهم وأسرع في المهام البسيطة" مما كان عليه من قبل[78].
  • Claude 4.5 في الجهد العالي دقيق للغاية، مما قد يعني نتائج أطول وزمن انتظار طفيف أكثر، ولكن في المتوسط/المنخفض يتسارع بشكل ملحوظ. لاحظ أحد مستخدمي Reddit الذي يختبر مهام البرمجة أن GPT-5.1 وClaude كانا تقريبًا متساويين في السرعة بعد تحسينات GPT-5.1، بينما كان GPT-5 السابق أبطأ من Claude في بعض المهام الطويلة[82][83].
  • زمن انتظار Gemini 3 Pro يعتمد على السياق - تزويده بمئات الصور أو مليون رمز سيكون بطبيعة الحال أبطأ. ومع ذلك، بالنسبة لحجم الموجهات النموذجية، يُقال إن Gemini سريع، وبنية Google السحابية (TPUs) محسنة لخدمة هذه النماذج عالميًا. لم تُصدر Google أرقام زمن الانتقال الصريحة، ولكن توفر "Gemini 3 Flash" (نسخة سريعة ومنخفضة التكلفة مع سياق أصغر) يشير إلى أن النموذج الـPro الكامل مصمم للمهام الثقيلة بدلاً من الأسئلة والإجابات السريعة[84].

باختصار، الآن تسمح جميع النماذج الثلاثة بمقايضة بين السرعة والتفكير. فهي تقدم أدوات داخلية أو نماذج متغيرة لضمان أنه إذا لم تكن بحاجة إلى التفكير العميق، فلن تكون عالقًا في الانتظار. بالنسبة لمعظم التطبيقات العامة (مطالبات قصيرة، تعقيد معتدل)، يمكن لكل نموذج الاستجابة في الوقت الفعلي تقريبًا (بضع ثوانٍ). بالنسبة للوظائف الكبيرة جدًا أو المعقدة، يمكنك توقع وقت تشغيل متعدد الثواني أو حتى عدة دقائق، ولكن لديك السيطرة على ذلك عبر الإعدادات. هذا تطور ضروري مع نمو نوافذ السياق والمهام الأكبر – ومن المشجع أنه حتى عندما تتعامل مع مشاكل أكثر تعقيدًا، تبقى هذه النماذج قابلة للاستخدام في الإعدادات التفاعلية.

التكلفة والتسعير

المنافسة ليست فقط حول القدرات – التكلفة عامل رئيسي، ونحن نشهد تحركات جريئة هنا. في الواقع، إطلاق Anthropic لنسخة Opus 4.5 جاء مع تخفيض كبير في السعر: تكلفة مكالمات API لـ Opus 4.5 تبلغ 5 دولارات لكل مليون رمز إدخال و25 دولارًا لكل مليون رمز إخراج[85][86]. هذا يمثل ثلث سعر النسخة السابقة Opus 4.1 (التي كانت 15/75 دولار لكل مليون)[85]. قامت Anthropic بشكل متعمد بتخفيض الأسعار لجعل Claude أكثر جاذبية للمطورين، معترفة بأن النماذج السابقة من Opus كانت مكلفة للغاية[87][88]. مع الأسعار الجديدة، أصبح استخدام Claude للمهام الكبيرة أكثر جدوى – الآن هو أغلى قليلاً فقط لكل رمز مقارنة بالنماذج الأصغر لـ Anthropic (Claude Sonnet 4.5 هو 3/15 دولار لكل مليون)[89].

كيف يمكن مقارنة هذا؟ عائلة GPT-5.1 من OpenAI أرخص بالفعل لكل رمز. تكلفة استدعاءات API لـ GPT-5.1 تبلغ تقريبًا $1.25 لكل مليون رمز إدخال و$10 لكل مليون رمز إخراج للنموذج الأساسي[89]. نموذج Google’s Gemini 3 Pro يقع في الوسط: حوالي $2 لكل مليون إدخال و$12 لكل مليون إخراج عند مستوى السياق القياسي 200k[89]. (والجدير بالذكر أن Google تخطط لفرض رسوم إضافية إذا استخدمت أكثر من 200k رمزًا حتى السياق الكامل 1M – حوالي $4/$18 لكل مليون في هذا النطاق[90].) تعني هذه الأرقام أن OpenAI تقدم حاليًا أقل سعر لكل رمز للنماذج الرائدة. على سبيل المثال، قد يكلف إنشاء إجابة تحتوي على 1000 رمز ~$0.012 مع GPT-5.1 مقابل ~$0.025 مع Claude 4.5 – حوالي نصف التكلفة. Google ستكون ~$0.015. ومع ذلك، يجب موازنة التكلفة مقابل الكفاءة: إذا كان أحد النماذج يحل مهمة بعدد أقل من الرموز أو بعدد أقل من المحاولات، يمكن أن يوفر المال بشكل عام. تؤكد Anthropic أن Opus 4.5 أكثر كفاءة في استخدام الرموز بشكل كبير، مما قد يقلل من الاستخدام (والتكلفة) بنسبة 50%+ في بعض المهام بينما يحافظ على الدقة السابقة[53][54]. كما أشار أحد المستخدمين الأوائل، "Opus 4.5 يغني التفكير المتوسط مع Sonnet 4.5 بنفس الجودة بينما يستخدم 76% أقل من الرموز... ~60% تكلفة أقل."[91]. لذا، قد يدفع المطور أكثر قليلاً لكل رمز مع Claude، ولكن إذا كان Claude يستخدم عددًا أقل بكثير من الرموز للوصول إلى الحل، فإن الفرق في التكلفة الإجمالية يتقلص.

من الجدير بالذكر أيضًا كيفية التعامل مع الوصول: - Claude Opus 4.5 متاح عبر API (كلود للشرائح Pro/Max/Team) وعلى منصات السحابة الكبرى مثل AWS وAzure وGoogle Cloud [92]. هناك أيضًا تطبيق Claude Pro للمستهلك حيث يمكن استخدام Opus بشكل تفاعلي. التكلفة التي ناقشناها تنطبق على استخدام API. - ChatGPT 5.1 متاح للمستخدمين النهائيين عبر ChatGPT (يحصل مستخدمو Plus وEnterprise على GPT‑5.1 اعتبارًا من نوفمبر 2025)، وعبر OpenAI API للمطورين. تسعير OpenAI لاستخدام GPT‑5.1 في ChatGPT Plus هو في الأساس اشتراك ثابت، بينما API يكون الدفع حسب الاستخدام لكل رمز (كما هو موضح أعلاه). كما أنهم يقدمون ChatGPT Enterprise مع استخدام مجاني حتى حدود معينة. - Gemini 3 Pro متاح عبر منصة Vertex AI من Google (كنموذج معاينة حاليًا) [93]، عبر Gemini API وفي منتجات مثل تطبيق Gemini Chat وAI Studio [94] [95]. لم تعلن Google عن أسعار الرموز علنًا على موقعها، ولكن وفقًا للتقارير، فإن تسعير API يتراوح في النطاق المذكور (2/12 دولار لكل مليون رمز) مشابه لتسعير PaLM 2. كما تدمج Google Gemini في ميزات المستهلك (مثل تجربة البحث التوليدية وأدوات Google Workspace AI) حيث لا يتم فرض رسوم مباشرة على المستخدمين النهائيين لكل رمز.

باختصار، تقدم OpenAI أقل سعر خام لاستخدام API لنموذج رائد، في حين أن Anthropic خفضت أسعارها بشكل كبير للبقاء تنافسية (أصبح Opus الآن 1/3 من تكلفته السابقة، رغم أنه لا يزال ~2× معدل OpenAI)[89]. تسعير Google يقع بين الاثنين، مع تكلفة إضافية لبعض الجلسات ذات السياق الكبير[89]. بالنسبة للشركات التي تقرر أي نموذج تستخدمه، فإن التكلفة لكل استفسار ستعتمد على المهمة: قد تكون تكلفة وظيفة البرمجة الطويلة مشابهة عبر الثلاثة إذا كانت ادعاءات كفاءة Claude صحيحة، في حين قد تكون الاستفسارات القصيرة هي الأرخص مع GPT‑5.1. من الرائع أن نرى المنافسة تخفض الأسعار – مما يجعل الذكاء الاصطناعي المتقدم أكثر توافرًا.

التخصيص والتكيف

أحد الجوانب الملحوظة هو أن التخصيص (بالمعنى التقليدي لتحديث أوزان النموذج بناءً على بيانات مخصصة) ليس متاحًا بسهولة لهذه النماذج الأحدث - على الأقل حتى الآن. لا يدعم كلود أوبوس 4.5 ولا جيميني 3 برو حاليًا تخصيص المستخدم[96][97]. لم تطلق OpenAI الإصدار GPT‑5.1 للتخصيص أيضًا (تشير مستندات API الخاصة بهم إلى "التخصيص: غير مدعوم" لنماذج سلسلة GPT‑5)[97][98]. هذا مفهوم: هذه النماذج ضخمة للغاية وأيضًا مُحاذاة بعناية؛ فقد يسبب التخصيص المفتوح تحديات تتعلق بالسلامة والقدرة.

بدلاً من ذلك، التركيز يكون على التخصيص المستند إلى التعليمات. على سبيل المثال، قدمت OpenAI طرقًا جديدة لتخصيص سلوك ChatGPT في تحديث 5.1. أضافوا “إعدادات مسبقة للشخصية” وعناصر تحكم في النغمة - مما يسمح للمستخدمين بالاختيار من بين أنماط معدة مسبقًا (مثل المطور، المعلم، المتشكك، إلخ.) أو إعداد تعليمات مخصصة لتشكيل استجابات المساعد[99][100]. هذا ليس تحسينًا لأوزان النموذج، ولكنه آلية مرنة لجعل النموذج يتصرف بطرق معينة. وبالمثل، توفر Anthropic عناصر تحكم بأسلوب الذكاء الاصطناعي الدستوري وتعليمات النظام لتوجيه Claude، ومع Opus 4.5 يلاحظون أنه “يحافظ على استمرارية التفكير” ويمكنه متابعة الأدوار أو التعليمات المعقدة بشكل أفضل عبر الجلسات الطويلة[23]. تسمح واجهة برمجة التطبيقات Gemini من Google للمطورين بتقديم رسائل النظام لتعيين السياق أو الدور (مماثلة لتوجيهات النظام في OpenAI) وحتى دمج التخزين المؤقت للسياق الضمني والصريح لتحيز النموذج بالمعلومات الخلفية ذات الصلة[101][102]. في الأساس، بينما لا يمكنك تحسين هذه النماذج العملاقة مباشرة، يمكنك تزويدها ببياناتك في وقت التشغيل - على سبيل المثال، بإدخال المستندات في نافذة السياق الكبيرة أو باستخدام التعليمات المحسنة عن طريق الاسترجاع. تقدم Vertex AI من Google محرك RAG (توليد محسن بالاسترجاع) الذي يعمل مع Gemini لجلب المستندات المؤسسية حسب الحاجة[103]، محققًا العديد من أهداف التحسين (الإجابة على الأسئلة الخاصة بالمجال، إلخ.) دون تغيير جوهر النموذج.

من الجدير بالذكر أن شركة OpenAI قد قدمت نماذج شقيقة أصغر (مثل GPT-5 Nano، إلخ) وفتحت مصدر بعض النماذج (مثل openai-o3 وo4-mini). قد تدعم هذه النماذج الأصغر التخصيص وتعمل كإصدارات مكررة من GPT-5 للمهام المتخصصة. ولكن عندما يتعلق الأمر بالنماذج الرئيسية المذكورة هنا، لا يتيح أي منها حاليًا إعادة تدريب النموذج بالكامل على بيانات مخصصة. بدلاً من ذلك، الاستراتيجية هي: استخدام هندسة الأوامر، تعليمات النظام، استرجاع المعرفة الخارجية، والمعايير المدمجة (مثل النبرة، مستوى التفكير) لتكييف مخرجات النموذج مع احتياجاتك.

من منظور البحث، قد يتغير ذلك في المستقبل - قد تصبح الطرق مثل LoRA (التكيف منخفض الرتبة) أو التوليف الدقيق الفعال في استخدام المعلمات ممكنة على هذه النماذج الكبيرة. ولكن في الوقت الحالي، يقتصر التوليف الدقيق فعليًا على خط التدريب الخاص بمزود الخدمة. على سبيل المثال، قامت OpenAI بتوليف GPT-5.1 من قاعدة GPT-5 بإضافة تعلم معزز وتوليف توجيهي (يذكرون أن GPT-5.1 "بُني على تحديث لنموذج استدلالنا الأساسي")[105]، واستخدمت Anthropic تقنيات مثل التوليف الدقيق الدستوري لضبط كلود. كمستخدم نهائي أو مطور، تستفيد من هذه النماذج بشكل كبير كما هي، وتخصيصها عبر واجهة API بدلاً من تحديث الأوزان.

هيكل النموذج والتصميم (تخمين)

بينما تكون التفاصيل الرسمية نادرة، يمكننا استنتاج بعض الاختلافات في فلسفة التصميم: - من المفترض أن يكون Claude Opus 4.5 نموذجًا كثيفًا من نوع Transformer مثل سابقاته. لم تكشف Anthropic عن عدد المعاملات، ولكن كانت الإصدارات السابقة من Claude تُشاع بأنها تعادل GPT-4 من حيث الحجم. يبدو أن تركيز Anthropic ينصب على البيانات والمهارات: فقد قاموا بتدريب Claude 4.5 بشكل مكثف على البرمجة واستخدام الأدوات (الشيل، الويب) والحوار، وطبقوا تقنيات محاذاة متقدمة (التعلم المعزز مع ملاحظات بشرية بالإضافة إلى طريقتهم "Constitutional AI").

النتيجة هي نموذج "يفهمها فقط" - مع حكم أفضل بشكل غير رسمي على المهام الواقعية [20][106]. أحد الجوانب المعمارية المثيرة للاهتمام هو كيفية تعامل كلود مع السياق الطويل: من المحتمل أن أنثروبيك تستخدم استراتيجيات ترميز موضعي أو تعديلات على الانتباه (مثل ALiBi أو الانتباه المركز) للوصول إلى 200 ألف رمز. وحقيقة أن آثار التفكير محفوظة تشير إلى معمارية تعامل سلسلة الأفكار الخاصة بها كجزء من المدخلات المتقدمة [23]. كلود 4.5 يتوفر أيضًا على أجهزة السحابة مع تحسين ضرب المصفوفات وربما التوازي النموذجي للتعامل مع السياق الكبير بكفاءة. - OpenAI GPT‑5.1 (و GPT‑5) يُعتقد أنه يجمع بين نموذج أساسي ورؤوس/أوضاع متخصصة.

مدونة OpenAI تشير إلى أن GPT-5 هو نظام موحد يتألف من نموذج سريع ونموذج تفكير أعمق (GPT-5 Thinking) للأسئلة الأصعب[107]. من المحتمل أن تشمل بنية GPT-5 عدة وحدات أو مفتاح من نوع Mixture-of-Experts الذي يوجه الاستفسارات السهلة إلى نموذج فرعي أصغر والاستفسارات الصعبة إلى نموذج أكبر، مما يحسن من السرعة والكفاءة من حيث التكلفة. تشير الإشارة إلى الإصدارات المحدثة المتاحة الآن في ChatGPT (فوري وتفكير)[99] إلى ذلك. من المحتمل أن يحتوي GPT-5 على عدد من التريليونات من المعلمات أو نماذج خبراء متعددة – كانت هناك شائعة مبكرة أن GPT-4 كان لديه 16 خبيرًا يحتوي كل منهم على ~111B من المعلمات (على الرغم من أنها غير مؤكدة). قد يكون لدى GPT-5 معلمات موسعة أو تدريب أكثر كفاءة (استثمرت OpenAI في تقنيات تحسين جديدة ومجموعات أكبر). كما وسع مدخلات الوسائط بشكل ما: يمكن لـ GPT-5 قبول الصور كمدخلات (متابعة لرؤية GPT-4)، وربما وسائط أخرى بشكل محدود[68][108].

ومع ذلك، كانت OpenAI أكثر تحفظًا مع النماذج المتعددة الوسائط في الممارسة العملية؛ حيث يفصلون أشياء مثل Sora (نموذج للصوت وربما لوسائط أخرى) بدلاً من دمجها بالكامل. لذلك، فإن GPT-5.1 هو في الأساس نموذج قائم على النصوص مع بعض القدرات البصرية. - Google Gemini 3 Pro هو نموذج متعدد الوسائط بشكل صريح من الأساس [109][110]. تم تصميم عائلة Gemini (Gemini 1, 2, 3) بواسطة Google DeepMind للتعامل مع النصوص والرؤية والمزيد في نموذج موحد. من المحتمل أن يتضمن مشفرات الرؤية ومعالجة الصوت داخل هيكل النموذج.

قد تحتوي تقارير أبحاث Google أو التلميحات (إذا تم نشرها) على تفاصيل حول استخدام Gemini لمجموعة من أساسيات المحولات - ربما واحدة للغة وواحدة للرؤية، مع مساحة تمثيل مشتركة. تشير النتائج (مثل أحدث ما توصلت إليه الأبحاث في المعايير متعددة الوسائط [17]) إلى تكامل وثيق جداً. جانب آخر هو استخدام الأدوات: كان لدى DeepMind عمل سابق على الوكلاء التكيفيين (مثل AlphaGo، الروبوتات، إلخ)، وألمح Demis Hassabis إلى أن تقنيات من تلك المجالات ستؤثر على تصميم Gemini. على سبيل المثال، قد يدمج Gemini التعلم المعزز أو خوارزميات التخطيط لزيادة قدراته "الوكيلة" [109] [111]. إن حقيقة أنه يمكنه تشغيل جهاز كمبيوتر وحل مهام تفاعلية (معايير مثل Terminal و Vending-machine، إلخ) تشير إلى بنية أو روتين تدريب يتضمن محاكاة وكيلة. كما رأينا ذكرًا لـ "توقيعات التفكير" والتحقق الصارم لاستخدام الأدوات متعددة الأدوار في مستندات Gemini [112] [113] - قد يكون هذا ميزة معمارية للحفاظ على سلوك الاستدعاء للأدوات في النموذج موثوقًا (ربما وحدة منفصلة تتحقق من كل فكرة/عمل). أخيرًا، من المحتمل أن تكون السياق 1M لـ Gemini قد تطلبت ابتكارًا معماريًا - ربما دمج آليات الاسترجاع أو الانتباه المقسم حتى لا يركز بشكل تربيعي على مليون رمز مرة واحدة.

في جوهر الأمر، تعد كلاود، وجي بي تي-5.1، وجيميني جميعها أنظمة ذكاء اصطناعي ضخمة قائمة على المحولات مع ميزات متعددة. الهياكل الدقيقة خاصة بكل منها، ولكن تم تحسين كل منها لأولويات مختلفة قليلاً: كلاود للسياقات الطويلة جدًا والموثوقية في البرمجة/العملاء، جي بي تي-5.1 لتجربة دردشة متوازنة مع التفكير التكيفي، وجيميني للفهم المتعدد الوسائط الواسع والمهام المعقدة التي تعتمد على الأدوات.

الخاتمة

نشهد تقاربًا مثيرًا في طليعة الذكاء الاصطناعي: تمثل Claude Opus 4.5 وChatGPT 5.1 وGemini 3 Pro جميعها “نماذج متقدمة” تدفع الحدود لما يمكن للذكاء الاصطناعي تحقيقه، وكل منها بنكهة فريدة. يظهر Claude 4.5 كمتخصص في البرمجة والوكالات – إنه النموذج الذي يمكنك الاتصال به لإعادة هيكلة قاعدة الكود بالكامل بين عشية وضحاها أو تشغيل جدول بيانات لمدة ساعة. إنه مضبوط لأداء “العمل العميق” وأصبح الآن أكثر توفيرًا من خلال تخفيض الأسعار[85][86]. يستمر ChatGPT 5.1 في إرث OpenAI من القدرات الواسعة مع التحسين – إنه يتفوق في المحادثة والتعليمات، بينما لا يزال يمثل حلاً عامًا قويًا للمشكلات والمبرمج (خاصة مع المتغير Codex-Max)[11]. تحسيناته في متابعة نية المستخدم وتقديم التخصيص تجعله شريكًا للذكاء الاصطناعي سهل الاستخدام[19]. من ناحية أخرى، يبدو Gemini 3 Pro وكأنه نظرة إلى المستقبل: إنه متعدد الوسائط حقًا ويظهر قدرات تفكير تصل إلى ما يمكن أن يسمى “نماذج الذكاء الاصطناعي العام” (مع وضع التفكير العميق الذي يتعامل مع المشكلات التي كان يُعتقد أنها غير قابلة للحل بواسطة الذكاء الاصطناعي)[114][111]. مع سياق 1M ودمج في نظام Google، يمكن أن يكون Gemini هو جوهر التطبيقات التي تمزج بين النصوص والصور والإجراءات بسلاسة.

A few key takeaways from this:

Raw performance is now task-dependent. There is no single “best at everything” model; instead, we see a leapfrogging pattern. Claude 4.5 leads on coding benchmarks[11], Gemini 3 leads on logical reasoning and multimodal tasks[5][17], and GPT‑5.1 is essentially at parity on knowledge tests and offers the most refined conversational experience. The gaps are relatively narrow in many areas (often just a few percentage points), which is impressive considering how far these models have surpassed earlier benchmarks and even human baselines.

السياق والاستمرارية مهمان بقدر أهمية الدقة الخام. القدرة على الاستمرار في المحادثات الطويلة أو معالجة الوثائق الكبيرة دون فقدان السياق تمثل فوزًا كبيرًا في سهولة الاستخدام. هنا، وضعت Google معيارًا جديدًا (1M رموز، إدخال متعدد الوثائق)[64]، لكن Anthropic و OpenAI لديهما حلولهم (200k رموز ودمج على التوالي[61][29]). هذا يعني أن المستخدمين يمكنهم توقع تقليل كبير في مقاطعات "عذرًا، حد السياق" ويمكنهم استخدام هذه النماذج لمهام تلخيص أو تحليل البيانات على نطاق واسع حقًا.

التكيف مقابل الضبط الدقيق: على الرغم من أننا لا نستطيع ضبط هذه العمالقة بدقة حتى الآن، إلا أن أدوات التحكم المختلفة (مستويات الجهد، الإعدادات المسبقة للشخصية، أدوات النظام) تمنح المطورين والمستخدمين الكثير من التأثير على المخرجات دون إعادة التدريب[24][100]. قد يستمر هذا الاتجاه: قد تحتوي النماذج المستقبلية على أدوات تحكم أكثر تجزئة (على سبيل المثال، تفعيل وضع "حقائق صارمة" أو وضع "إبداعي" دون الحاجة إلى نماذج منفصلة). - التكلفة تتجه في الاتجاه الصحيح - نحو الانخفاض. حقيقة أن Anthropic شعرت بالحاجة إلى تخفيض أسعار Opus بثلثين، وأن OpenAI وGoogle يتنافسان على أسعار الرموز، تظهر أن التنافس يفيد المستخدمين[85][89]. تشغيل المهام واسعة النطاق (ملايين الرموز) لا يزال ليس رخيصًا، ولكنه أصبح أكثر معقولية. أصبح من الممكن الآن لشركة ناشئة صغيرة استخدام نموذج متقدم على مجموعة بيانات كبيرة دون فاتورة فلكية، مما قد يحفز المزيد من الابتكار.

في النهاية، يعتمد النموذج "الأفضل" على احتياجاتك. إذا كنت بحاجة إلى فهم متعدد الوسائط أو أفضل استنتاج مطلق في مسائل المنطق الصعبة/الرياضيات، فإن Google’s Gemini 3 Pro يحتفظ بميزة حاليًا. إذا كنت تحتاج إلى مساعد برمجة بالذكاء الاصطناعي أو وكيل لأتمتة مهام البرامج، فقد يقدم Anthropic’s Claude Opus 4.5 أفضل النتائج (مع أسلوب إخراج أكثر توقعًا للرمز). إذا كنت ترغب في ذكاء اصطناعي عام يتميز بالتنوع والموثوقية والفعالية من حيث التكلفة لمجموعة واسعة من المهام، فإن ChatGPT 5.1 يظل خيارًا رائعًا بدعم من نظام OpenAI.

ما هو واضح هو أن النماذج الثلاثة تدفع بعضها البعض - والمجال - إلى الأمام. وكما لاحظ تحليل واحد، فإن تقييم النماذج اللغوية الكبيرة الجديدة يصبح أصعب لأن كل جيل جديد يتقدم بخطوة صغيرة فقط عن السابق[115][116]. ولكن هذه الخطوات الصغيرة تتراكم لتشكل شيئًا عميقًا: نماذج الذكاء الاصطناعي التي تقترب من الكفاءة على مستوى احترافي في البرمجة، وتتجاوز الخبراء البشريين في بعض الاختبارات[117]، وتتعامل مع وسائل متعددة بسلاسة، ويمكنها الحفاظ على تفاعلات طويلة. عصر الذكاء الاصطناعي العام والكبير الذي يتمتع بسياق وقدرات تبدو لا حصر لها قد بدأ حقًا، وكلود 4.5 وGPT‑5.1 وجيميني 3 برو يقودون الطريق.

المصادر: بناءً على الإعلانات الرسمية والوثائق من Anthropic[118][11]، وOpenAI[2][28]، وGoogle DeepMind[17][64]، بالإضافة إلى نتائج المعايير والرؤى التي أبلغ عنها أطراف ثالثة موثوقة[11][13]. تم اقتباس ادعاءات ونقاط كل نموذج من هذه المصادر لضمان الدقة.

[1] [14] [15] [16] [20] [40] [51] [52] [59] [60] [62] [63] [87] [88] [92] [118] تقديم Claude Opus 4.5 \ Anthropic

https://www.anthropic.com/news/claude-opus-4-5

[2] [19] [76] [77] [78] [104] GPT-5.1: شات جي بي تي أذكى وأكثر تفاعلية | OpenAI

https://openai.com/index/gpt-5-1/

[3] [4] [5] [6] [7] [8] [9] [10] [13] [17] [18] [21] [22] [32] [33] [34] [35] [44] [94] [95] [109] [110] [111] [114] جيميني 3: تقديم أحدث نموذج جيميني للذكاء الاصطناعي من جوجل

https://blog.google/products/gemini/gemini-3/

[11] [53] [54] [55] [57] [58] [85] [86] [106] إصدار كلود أوبوس 4.5 من أنثروبيك هنا: AI أرخص، محادثات لا نهائية، ومهارات برمجة تتفوق على البشر | VentureBeat

https://venturebeat.com/ai/anthropics-claude-opus-4-5-is-here-cheaper-ai-infinite-chats-and-coding

[12] [26] [27] [28] [29] [36] [37] [38] [39] [56] [70] [71] [105] بناء المزيد مع GPT-5.1-Codex-Max | OpenAI

https://openai.com/index/gpt-5-1-codex-max/

[23] [24] [25] [45] [46] [47] [48] [49] [50] ما الجديد في كلود 4.5 - مستندات كلود

https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-5

[30] [31] [41] [61] [89] [90] [115] [116] Claude Opus 4.5، ولماذا أصبح تقييم النماذج اللغوية الكبيرة الجديدة صعبًا بشكل متزايد

https://simonwillison.net/2025/Nov/24/claude-opus/

[42] [43] جيميني 3 برو - نهج التقييم والمنهجية والنهج الإصدار 2

http://deepmind.google/models/evals-methodology/gemini-3-pro

[64] [65] [66] [67] [75] [80] [81] [93] [96] [101] [102] [103] [112] [113] جيميني 3 برو  |  الذكاء الاصطناعي التوليدي على Vertex AI  |  وثائق جوجل كلاود

https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-pro

[68] شرح GPT-5: الميزات، الأداء، التسعير وحالات الاستخدام في ...

https://www.leanware.co/insights/gpt-5-features-guide

[69] LLMs مع أكبر نوافذ سياق - Codingscape

https://codingscape.com/blog/llms-with-largest-context-windows

[72] التسعير - مستندات Claude

https://platform.claude.com/docs/en/about-claude/pricing

[73] Claude Opus 4.5 مقابل Sonnet 4.5: ثورة التسعير والأداء ...

https://vertu.com/lifestyle/claude-opus-4-5-vs-sonnet-4-5-vs-opus-4-1-the-evolution-of-anthropics-ai-models/?srsltid=AfmBOorwdEvjBy7o_kYmFhLrs_cP8wilvmsV5ZtxI-lYhR0H6wBPAOW_

[74] حدود نافذة سياق GPT-5 في ChatGPT - 8K للمستخدمين المجانيين،

https://x.com/rohanpaul_ai/status/1953549303638557183

[79] Claude Sonnet 4.5 مقابل GPT-5: الأداء، الكفاءة، والتسعير ...

https://portkey.ai/blog/claude-sonnet-4-5-vs-gpt-5

[82] لقد اختبرت GPT-5.1 Codex مقابل Sonnet 4.5، ووجدته ... - Reddit

https://www.reddit.com/r/ClaudeAI/comments/1oy36ag/i_tested_gpt51_codex_against_sonnet_45_and_its/

[83] مواجهة GPT-5.1 Codex مع Claude 4.5 Sonnet وKimi K2 Thinking

https://composio.dev/blog/kimi-k2-thinking-vs-claude-4-5-sonnet-vs-gpt-5-codex-tested-the-best-models-for-agentic-coding

[84] هل نهاية قانون مور للأجهزة الذكية؟ عرض جيميني فلاش تحذيرًا

https://news.ycombinator.com/item?id=44457371

[91] Claude Opus 4.5 أرخص بكثير من Opus 4.1 - ريديت

https://www.reddit.com/r/singularity/comments/1p5pdjq/claude_opus_45_is_much_cheaper_than_opus_41/

[97] النماذج/gpt-5 - نموذج - OpenAI API

https://platform.openai.com/docs/models/gpt-5

[98] ما الجديد في Azure OpenAI في نماذج Microsoft Foundry؟

https://learn.microsoft.com/en-us/azure/ai-foundry/openai/whats-new?view=foundry-classic

[99] [100] شركة OpenAI تتجول في حبل مشدود مع الشخصيات الثمانية الجديدة لـ GPT-5.1

https://arstechnica.com/ai/2025/11/openai-walks-a-tricky-tightrope-with-gpt-5-1s-eight-new-personalities/

[107] التعريف بـ GPT-5 - شركة OpenAI

https://openai.com/index/introducing-gpt-5/

[108] GPT-5: ميزات جديدة، اختبارات، معايير، والمزيد - DataCamp

https://www.datacamp.com/blog/gpt-5

[117] GPT-5 اجتاز أصعب امتحان طبي على الأرض، و... - Reddit

https://www.reddit.com/r/deeplearning/comments/1mraxnh/gpt5s_medical_reasoning_prowess_gpt5_just_passed/

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends