
المؤلف: بوكسو لي
جيميني 3 من جوجل هو أحدث نموذج ذكاء اصطناعي متعدد الوسائط من جوجل ديبمايند، ويمثل قفزة كبيرة في القدرات التقنية. نستعرض أدناه بنية جيميني 3، وبيانات تدريبه، وأداءه في الاختبارات، ثم نقارنه بعمق مع GPT‑4 من أوبن إيه آي (بما في ذلك GPT‑4 توربو الأحدث) وكلود 2/2.1 من أنثروبيك في مجالات التفكير، البرمجة، الوسائط المتعددة، الكفاءة، طول السياق، أدوات المطورين، ومواءمة الأمان. كما ندرج جدول مقارنة يلخص المقاييس والميزات الرئيسية.
الهيكلية: تستخدم نماذج جيميني من جوجل هيكلية Transformer مع خليط نادر من الخبراء (MoE) [1]. وهذا يعني أن النموذج يوجه الرموز ديناميكيًا إلى شبكات فرعية من الخبراء المختلفة، مما ينشط فقط مجموعة فرعية من المعلمات لكل رمز إدخال. يسمح تصميم MoE بقدرة إجمالية ضخمة دون زيادة متناسبة في الحساب لكل رمز[2]. في الواقع، يمكن أن يكون جيميني كبيرًا للغاية (مليارات المعلمات موزعة بين الخبراء) ومع ذلك يظل فعالًا في التشغيل، مما يساهم في أدائه العالي. في المقابل، تستخدم GPT‑4 وكلود هيكليات Transformer كثيفة (أحجامها الدقيقة وتفاصيلها ليست متاحة علنًا)، مما يعني أنه يتم استخدام جميع معلمات النموذج لكل رمز. كما أن هيكلية جيميني متعددة الوسائط بشكل أصلي – حيث تم تدريبه مسبقًا من البداية على النصوص والصور والصوت معًا (وحتى الفيديو)، بدلاً من إضافة وحدات رؤية منفصلة لاحقًا[3]. يساعد هذا التصميم المتكامل على التفكير بشكل مشترك عبر الوسائط بفعالية أكثر من النهج متعددة الوسائط السابقة، التي غالبًا ما كانت تجمع شبكات منفصلة [4].
القدرات متعددة الوسائط: Gemini 3 هو نموذج “متعدد الوسائط بشكل أصلي”. يمكنه قبول نصوص، صور، صوت، وفيديو كمدخلات، وتوليد نصوص (وحتى صور) كمخرجات. على سبيل المثال، يمكنك تقديم صورة مع سؤال، أو حتى مقطع صوتي أو فيديو إلى Gemini، وسيفسر المحتوى ويرد بتحليل أو إجابات. أفادت جوجل بأن Gemini يتفوق على النماذج السابقة في معايير فهم الصور دون الاعتماد على التعرف البصري الضوئي الخارجي للنصوص في الصور - وهو دليل على فهمه البصري الكامل. من خلال التدريب على وسائط متعددة من البداية وتحسين الأداء ببيانات متعددة الوسائط إضافية، يطور Gemini تمثيلاً موحداً للبيانات النصية والبصرية/الصوتية. والجدير بالذكر أن Gemini يمكنه توليد صور من أوامر نصية (عبر نموذج Gemini Image المتكامل) وحتى إجراء عمليات تحرير الصور من خلال تعليمات نصية. هذا يتجاوز قدرات الرؤية في GPT-4 – حيث يمكن لـGPT-4 تفسير الصور (GPT-4V) ووصفها نصياً، لكنه لا يمكنه إنتاج صور جديدة (يتم التعامل مع توليد الصور بواسطة نماذج منفصلة مثل DALL·E في نظام OpenAI). من ناحية أخرى، يعد Claude 2 من Anthropic حالياً نموذجاً نصياً فقط – لا يقبل أو ينتج الصور/الصوت بشكل افتراضي. لذا، Gemini 3 يتميز بدعمه للمدخلات والمخرجات متعددة الوسائط، حيث يتعامل مع النصوص، الرؤية، والصوت/الفيديو بسلاسة في نظام واحد.
بيانات التدريب والحجم: بينما لم يتم الكشف عن المعايير الدقيقة لـ Gemini 3 (Ultra)، تم تدريبه على مجموعة بيانات كبيرة ومتنوعة للغاية. تم تدريب نماذج Gemma 3 المفتوحة من جوجل (27B وأقل) على ما يصل إلى 14 تريليون رمز تغطي نصوص الويب، الكود، الرياضيات، والصور في أكثر من 140 لغة[9][10]. يمكننا أن نستنتج أن Gemini الرائد استفاد من بيانات ضخمة مماثلة. الحد الأقصى للمعرفة لـ Gemini 2.5 (السابق المباشر) كان يناير 2025[11]، مما يعني أنه تم تدريبه على معلومات حتى وقت قريب جدًا، مما يجعله أكثر حداثة من GPT‑4 أو Claude. (للمرجعية، كان الحد الأقصى للمعرفة لـ GPT‑4 حوالي سبتمبر 2021 لإصداره الأول في مارس 2023، رغم أن GPT‑4 Turbo قد تم تحديثه لاحقًا بمعرفة الأحداث العالمية حتى أبريل 2023[12]. Claude 2’s بيانات التدريب تصل إلى بداية 2023 بشكل عام.) هذا يشير إلى أن Gemini 3 لديه قاعدة المعرفة الأحدث بين الثلاثة اعتبارًا من أواخر 2025. كما قامت جوجل بتطبيق تصفية بيانات واسعة النطاق للسلامة، بإزالة المحتوى الإشكالي (مثل CSAM أو البيانات الشخصية الحساسة) من مجموعة تدريب Gemini[13].
نافذة السياق الطويلة: إحدى الميزات البارزة لـ Gemini هي طول السياق الضخم. يمكن لـ Gemini 3 التعامل مع مدخلات طويلة جدًا - أكثر من مليون رمز في نافذة السياق الخاصة به[14]. هذا يمثل فرقًا كبيرًا عن ما تقدمه النماذج الأخرى حاليًا. عمليًا، مليون رمز يعادل حوالي 800,000 كلمة، أو عدة آلاف من صفحات النصوص. أثبتت جوجل أن Gemini 2.5 يمكنه قراءة وتلخيص نص بعرض 402 صفحة لمهمة أبولو وحتى تحليل 3 ساعات من محتوى الفيديو دون مشكلة[15]. بالمقارنة، يقدم الإصدار الأساسي لـ GPT-4 من OpenAI خيارات سياق تصل إلى 8K أو 32K رمز، ويدعم الإصدار الأحدث GPT-4 Turbo حتى 128K رمز في السياق[16] - حوالي 300 صفحة من النصوص. جاء إصدار Claude 2 من Anthropic في الأصل بنافذة 100K رمز، وتم تحديثه إلى Claude 2.1 ليصل إلى 200K رمز (حوالي 150,000 كلمة أو 500+ صفحة)[17]. لذا في حين أن Claude 2.1 يتفوق الآن على OpenAI من حيث حجم السياق (200K مقابل 128K)، فإن Gemini 3 لا يزال يتفوق بكثير مع سعة رمزية تزيد عن 1M. هذا السياق الضخم مفيد بشكل خاص لمهام مثل استيعاب قواعد البيانات الكاملة، الوثائق الكبيرة أو حتى عدة وثائق في آن واحد. ومع ذلك، فإنه يأتي بتكلفة حسابية - معالجة مئات الآلاف من الرموز ستكون أبطأ (تشير Anthropic إلى أن استفسار بطول 200K رمز يمكن أن يستغرق بضع دقائق لـ Claude 2.1)[18]. ميزة جوجل هي أنه على بنيتها التحتية TPUv5، يمكن توزيع Gemini وتحسينه لهذه السياقات الطويلة.
أداء المعيار: في المعايير الأكاديمية القياسية، حقق Gemini 3 (وسابقاته 2.x) نتائج متقدمة للغاية. في الواقع، كان Gemini أول نموذج يتجاوز أداء الخبراء البشريين في امتحان MMLU المتعدد المهام الضخم [19]. حقق Gemini 1.0 Ultra نسبة 90.0% في MMLU [20]، متفوقًا على معيار الخبراء البشريين (~89.8%) [21][22] وبفارق كبير عن نتيجة GPT‑4. (تم الإبلاغ عن دقة MMLU لـ GPT‑4 بنسبة 86.4% في وضع 5-shot القابل للمقارنة [23]. حقق Gemini نسبة 90% باستخدام التوجيهات المتقدمة - مثل سلسلة التفكير مع التصويت بالأغلبية - لـ "التفكير بعناية أكبر" قبل الإجابة [24].) كما تفوق Gemini على GPT‑4 في العديد من المهام الأخرى في التقييمات المبكرة. على سبيل المثال، في مجموعة Big-Bench Hard من مهام التفكير التحدي، حقق Gemini Ultra نسبة 83.6% مقابل 83.1% لـ GPT‑4 (ما يعادل تقريبًا المستوى المتقدم) [25]. في مسائل الكلمات الرياضية في GSM8K، وصل Gemini إلى دقة 94.4% (مع توجيهات سلسلة التفكير) مقارنةً بـ ~92% لـ GPT‑4 [26]. في مجال البرمجة، أظهر Gemini مهارة استثنائية: حيث حقق نسبة 74.4% في معيار HumanEval لبرمجة بايثون (pass@1) [27]، متفوقًا بشكل كبير عن ~67% لـ GPT‑4 في نفس الاختبار [28]. في الواقع، تعد قدرات Gemini في البرمجة رائدة في الصناعة – حيث لاحظت Google أنه "يتفوق في عدة معايير للبرمجة، بما في ذلك HumanEval"، وقدم حتى نظام AlphaCode 2 المدعوم من Gemini الذي يمكنه حل مشاكل البرمجة التنافسية بما يتجاوز ما يمكن للنظام الأصلي AlphaCode فعله [29][30]. في الملخص، يقدم Gemini 3 أداءً من الدرجة الأولى عبر التفكير المعرفي والرياضيات والبرمجة، وغالبًا ما يتفوق على GPT‑4 و Claude في نتائج المعايير (التفاصيل المقارنة تلي في القسم التالي).
وضع "التفكير العميق" المحسن: قدرة مميزة في جيل Gemini 2.x هي تقديم وضع تفكير يسمى "التفكير العميق". يسمح هذا الوضع للنموذج بالتفكير بشكل واضح عبر خطوات داخلية قبل إنتاج الإجابة النهائية[31][32]. في التطبيق، يتم تنفيذ تقنيات مثل سلاسل التفكير الموازية والتأمل الذاتي، مستوحاة من الأبحاث في التفكير الفوري وشجرة الأفكار. أبلغت جوجل أن Gemini 2.5 Deep Think حسّن بشكل كبير قدرة النموذج على حل المشكلات المعقدة التي تتطلب الإبداع والتخطيط خطوة بخطوة، من خلال جعل النموذج يولد ويقيم مسارات تفكير متعددة[33][34]. على سبيل المثال، مع تمكين وضع التفكير العميق، سجل Gemini 2.5 Pro درجات أعلى في معايير صعبة (كما هو موضح في أوضاع تقييم جوجل "التفكير مقابل عدم التفكير")[35]. بينما كان هذا الوضع إعدادًا منفصلًا في Gemini 2.5، تشير الشائعات إلى أن Gemini 3 يدمج هذه الاستراتيجيات المتقدمة للتفكير بشكل افتراضي، مما يلغي الحاجة إلى تبديل منفصل[36]. لا GPT-4 ولا Claude لديهم ميزة مكافئة معروضة للمستخدمين النهائيين (على الرغم من أنهم يمكنهم أيضًا أن يتم دفعهم إلى التفكير المتسلسل عن طريق التوجيه). يُعتبر "ميزانية التفكير التكيفية" لجيميني أيضًا جديرة بالملاحظة - يمكن للمطورين ضبط مقدار التفكير الذي يجب أن يقوم به النموذج (التبادل بين التكلفة/التأخير والجودة)، ويمكن للنموذج ضبط عمق التفكير تلقائيًا عندما لا يتم تحديد ميزانية[37][38]. هذا المستوى من التحكم فريد من نوعه لعرض جوجل ويجذب المطورين الذين يحتاجون إلى ضبط التوازن بين الجودة والسرعة.
البنية التحتية والكفاءة: قامت جوجل ببناء جيميني ليكون عالي الكفاءة وقابل للتوسع على أجهزة TPU المخصصة لها. وفقًا لجوجل، تم تدريب جيميني على TPU v4 وv5e، وهو النموذج الأكثر قابلية للتوسع والموثوقية الذي تم تدريبه حتى الآن [39][40]. في الواقع، عند إطلاق جوجل له، أعلنت عن كمبيوتر فائق جديد TPU v5p خصيصًا لتسريع تطوير جيميني والجيل القادم من الذكاء الاصطناعي [40]. إحدى الفوائد هي أن جيميني يمكنه العمل بشكل أسرع في وقت الاستنتاج مقارنة بالنماذج السابقة، على الرغم من حجمه – حيث لاحظت جوجل أنه على أجهزة TPU، حقق جيميني خفضًا بنسبة 40% في التأخير للاستفسارات باللغة الإنجليزية في اختبار داخلي واحد، مقارنة بالنموذج السابق [41]. بالإضافة إلى ذلك، تمتلك جوجل أحجامًا متعددة من جيميني لتلبية الاحتياجات المختلفة: على سبيل المثال، جيميني فلاش وفلاش-لايت هما نسختان أصغر وأسرع محسنة للتأخير الأقل والتكلفة، بينما جيميني برو (وألتر) أكبر للحصول على أعلى جودة [42][43]. هذا يشبه تقديم OpenAI لـ GPT-3.5 Turbo مقابل GPT-4، أو تقديم Anthropic لـ Claude Instant مقابل Claude-v2. على سبيل المثال، جيميني 2.5 فلاش-لايت مخصص للمهام ذات الحجم الكبير والحساسة للتكلفة، في حين أن 2.5 برو مخصص للمهام الأكثر تعقيدًا [44][45]. من خلال تغطية كامل "حدود باريتو" للقدرة مقابل التكلفة، تتيح عائلة جيميني للمطورين اختيار النموذج الذي يناسب حالتهم الخاصة [46]. يعني التكيف وتحسين TPU أن جيميني يمكن نشره بكفاءة، ومن المحتمل أن تستخدمه جوجل على نطاق واسع في منتجاتها (البحث، ووركسبيس، أندرويد) مع تقديم محسن.
ملخص Gemini 3: ببساطة، Gemini 3 هو قوة ذكاء اصطناعي متعددة الوسائط مع بنية MoE مبتكرة، وعمق تدريب هائل (أحدث المعرفة والرموز والبيانات البصرية)، ونافذة سياق غير مسبوقة (حوالي 1 مليون رمز)، وأداء متقدم على المعايير الأكاديمية. يقدم مستويات جديدة من التفكير (من خلال وضع “التفكير”) ويمنح المطورين القدرة على موازنة الدقة مقابل السرعة. بعد ذلك، سنقوم بمقارنة هذه القوة ضد سلسلة GPT-4 من OpenAI وClaude 2 من Anthropic.
لتأسيس المقارنة، دعونا نلقي نظرة على نتائج المعايير القياسية لكل نموذج في المهام الأساسية: المعرفة والتفكير (MMLU وBig-Bench Hard)، مسائل الكلمات في الرياضيات (GSM8K)، والترميز (HumanEval). هذه المعايير، رغم أنها ليست شاملة، تعطي إحساسًا كمياً بإمكانات كل نموذج.
نلخص بعض هذه المقارنات المرجعية في الجدول أدناه:
يسلط الجدول أدناه الضوء على المقاييس الرئيسية للأداء والقدرات لكل من جوجل جيميني 3، وOpenAI's GPT-4 (GPT-4 Turbo)، وAnthropic's Claude 2.1:
المصادر: مؤشرات الأداء مأخوذة من التقارير الرسمية: المدونة الفنية لجوجل ديب مايند جيميني[72][27]، وثائق GPT-4 الخاصة بـ OpenAI[28]، وبطاقة نموذج كلود الخاصة بـ Anthropic[50]. المعلومات السياقية وميزات من إعلانات جوجل[14][6]، أخبار يوم مطوري OpenAI[16]، وتحديثات Anthropic[17].
الآن بعد أن رأينا الأرقام العامة، دعونا نقارن النماذج عبر أبعاد مختلفة بالتفصيل:
جميع النماذج الثلاثة - Gemini 3 وGPT-4 وClaude 2 - في طليعة قدرات التفكير الاصطناعي، لكن بشكل عام، Gemini وGPT-4 أقوى في المهام الأكثر تحديًا. وضع GPT-4 معيارًا جديدًا عند إطلاقه، وغالبًا ما يضاهي أو يتجاوز الأداء البشري في اختبارات المعرفة والتفكير. تم تصميم Gemini من Google خصيصًا لتجاوز هذا المعيار، وقد تمكن بالفعل من التفوق قليلاً على GPT-4 في العديد من المعايير الأكاديمية (مثل MMLU والرياضيات والبرمجة، إلخ، كما ذُكر أعلاه). في الاستخدام العملي، يظهر كل من GPT-4 وGemini اتساقًا منطقيًا ممتازًا وقدرة على التفكير متعدد الخطوات (مثل حل المشكلات المعقدة خطوة بخطوة)، ومعرفة واسعة. لاحظ المستخدمون أن GPT-4 لديه أسلوب تفكير مصقول وموثوق - فهو عادةً ما يتبع التعليمات بعناية وينتج إجابات منظمة ومبررة جيدًا. Gemini 3، خاصة مع قدرته على التفكير العميق، يمكن أن يكون أكثر تحليلًا للمشاكل الصعبة، حيث يقوم بفعالية بـ"سلسلة التفكير" داخليًا لزيادة الدقة في الأسئلة المعقدة [33][34]. وقد عرضت Google قدرة Gemini على حل مهام معقدة مثل إنشاء المحاكيات وكتابة الأكواد المعقدة وحتى لعب الألعاب الإستراتيجية من خلال التفكير على عدة خطوات [73][74]. أحد المزايا لـGemini هو حداثة بياناته التدريبية - مع المعرفة حتى 2024/2025، قد يكون لديه معلومات أكثر حداثة عن الأحداث أو الأبحاث الجديدة، في حين أن GPT-4 (بنهاية 2023) قد يفتقر أحيانًا إلى الحقائق الحديثة جدًا.
Claude 2, while very capable, is often described as slightly less “intelligent” or rigorous than GPT‑4 in complex reasoning. Its MMLU score (78.5%) indicates it doesn’t reach the same exam-level mastery[47]. That said, Claude excels at natural language understanding and explanation – it has a talent for producing human-like, clear explanations of its reasoning. Anthropic trained Claude with a dialog format (the “Assistant” persona), and it tends to articulate its thought process more readily than GPT‑4 (which by default gives final answers unless prompted for steps). For many common-sense or everyday reasoning tasks, Claude is on par with GPT‑4. But on especially difficult logical puzzles or highly technical questions, GPT‑4 still has the edge in accuracy. Users also report that Claude is more willing to admit uncertainty or say “I’m not sure” when it’s uncertain (an intentional design for honesty)[71], whereas GPT‑4 might attempt an answer. This can make Claude feel more cautious or limited at times, but also means it might hallucinate facts slightly less.
ملخص: يعتبر GPT-4 وGemini 3 الأفضل في مجال الاستدلال العام، حيث يظهر Gemini أداءً متساويًا أو أفضل قليلاً في المعايير الجديدة (بفضل التقنيات المتقدمة وربما المزيد من بيانات التدريب). لا يبتعد Claude 2 كثيرًا عن العديد من المهام وغالبًا ما يقدم استدلالًا مفصلًا في إجاباته، لكنه لا يصل لمستوى المعايير الأعلى نفسها. إذا كان استخدامك يتطلب أقوى استدلال على المشكلات الصعبة (مثل الامتحانات المعقدة أو المسائل اللفظية الصعبة)، فإن Gemini 3 أو GPT-4 سيكونان الخيارين الأفضل، بينما يعد Claude بديلاً قادرًا يميل إلى جانب الحذر في إجاباته.
Gemini 3 and OpenAI’s GPT‑4 are both exceptionally strong coders, and notably, Anthropic’s Claude 2 has also proven to be a great coding assistant. In coding evaluations like HumanEval and competitive programming, Gemini currently holds a slight lead (as noted, 74% vs GPT‑4’s 67% pass rate)[27][28]. Google has demonstrated Gemini generating complex interactive code – for example, creating fractal visualizations, browser games, or data visualizations from scratch, given only high-level prompts[73][74]. It can handle very large codebases thanks to its million-token context – a developer could literally paste an entire repository or multiple source files into Gemini and ask it to refactor code or find bugs. This is transformative for development workflows: Gemini can “remember” and utilize an entire project’s code context during its reasoning. GPT‑4’s context maxes out at 128K (which is still enough for maybe ~100 files of code, depending on size)[56], and Claude 2.1 at 200K tokens might manage a bit more. But neither approaches Gemini’s capacity for whole-codebase understanding.
في المساعدة اليومية في البرمجة (مثل كتابة الدوال، شرح الكود، أو اقتراح التحسينات)، جميع النماذج الثلاثة تعمل بشكل جيد. يُعرف GPT‑4 بأنه موثوق جدًا في توليد الكود الصحيح والصحيح نحويًا في لغات مثل بايثون، جافا سكريبت، إلخ. كان النموذج الأول الذي تم دمجه في GitHub Copilot (كخلفية لـ Copilot X) وهو شائع بين المطورين لمهام مثل كتابة اختبارات الوحدة، تحويل الشيفرة الزائفة إلى كود، وتصحيح الأخطاء. قد تكون مخرجات كود GPT‑4 أكثر اختصارًا ومباشرة، بينما يقدم Claude غالبًا شروحات مطولة جدًا مع الكود، وهو ما يقدره بعض المطورين (يشبه البرمجة مع مهندس كبير ثرثار). من حيث القدرة، تفوق Claude 2 في الواقع على GPT‑4 في بعض المعايير البرمجية (71% مقابل 67% في HumanEval)[50][28]، مما يشير إلى أن Anthropic جعلت البرمجة محط تركيز في تحديث تدريب Claude. لاحظ المستخدمون أن Claude جيد بشكل خاص في فهم الطلبات الغامضة وملء التفاصيل في الكود (من غير المرجح أن يرفض فقط إذا كان الطلب غير محدد؛ يحاول تخمين النية وإنتاج شيء عملي).
الأدوات وضبط الدقة البرمجية: تقدم OpenAI أدوات متخصصة مثل مترجم الكود (الذي يُعرف الآن باسم تحليل البيانات المتقدم) وتملك تكاملات إضافات للبرمجة (مثل إضافة طرفية أو إضافة قاعدة بيانات)، التي توسع من فائدة GPT-4 في البرمجة. لم تعلن Google بشكل علني عن أدوات محددة لـ "تنفيذ الكود" لـ Gemini، ولكن بالنظر إلى تكامل Gemini في سحابة Google، يمكن تخيل استخدامها في دفاتر Colab أو متصلة ببيئة تنفيذ لاختبار الكود. قدمت Anthropic مؤخرًا واجهة برمجة تطبيقات استخدام الأدوات في Claude 2.1 التي تتيح له تنفيذ الوظائف المقدمة من المطور - على سبيل المثال، يمكن السماح لـ Claude بتشغيل وظيفة تجميع أو اختبار على الكود الذي يولده[61][75]. هذا مشابه لاستدعاء الوظائف في OpenAI، مما يتيح نوعًا من الوكيل البرمجي الديناميكي الذي يمكنه اختبار مخرجاته الخاصة وتصحيح الأخطاء. يمكن أن تستفيد جميع النماذج من مثل هذه حلقات التغذية الراجعة، ولكنها تعتمد حاليًا على تنفيذ المطور.
باختصار، جميع النماذج الثلاثة هي مساعدين ممتازين في البرمجة، لكن السياق الضخم لـGemini 3 ومعاييره البرمجية الأعلى قليلاً تشير إلى أنه يمكنه التعامل مع مهام برمجية أكبر وأكثر تعقيداً في دفعة واحدة (مثل تحليل آلاف الأسطر من الشيفرة معاً). لقد أثبت GPT-4 نفسه بشكل واسع في مجتمع المطورين من خلال الأدوات والتكاملات، وClaude 2 هو بديل قوي، خاصة لأولئك الذين يفضلون أسلوبه التوضيحي أو يحتاجون إلى سياق 200K للملفات البرمجية الكبيرة. بالنسبة لدقة البرمجة الخالصة، يبدو أن Gemini 3 له تفوق طفيف، مع Claude 2 ليس بعيدًا جدًا، وGPT-4 ما زال قويًا للغاية وربما الأكثر اختبارًا في سيناريوهات البرمجة الحقيقية.
هذا هو المكان الذي يبرز فيه Gemini 3 حقًا. تم بناء Gemini كذكاء اصطناعي متعدد الوسائط منذ اليوم الأول، بينما أضاف GPT-4 القدرات البصرية كتوسعة، ولا يزال Claude نصيًا فقط حتى الآن.
بالمعنى العملي، قدرات جميني 3 المتعددة الوسائط تفتح العديد من الاحتمالات: يمكنك استخدامه كوكيل ذكاء اصطناعي واحد لتحليل ملف PDF يحتوي على نصوص وصور (جداول، رسوم بيانية)، أو للإجابة عن أسئلة حول محتوى فيديو، إلخ. على سبيل المثال، أظهرت جوجل أنه على معيار جديد متعدد الوسائط (يسمى MMMU)، حقق جميني ألترا مستوى جديدًا بنسبة 59.4%، في حين أن النماذج السابقة كانت تواجه صعوبة[77][78]. القدرة على مزج الوسائط في طلب واحد تعني أيضًا أنه يمكنك القيام بأشياء مثل: "هنا صورة رسم بياني - ما الاتجاه الذي يظهره؟ الآن اكتب تقريرًا (نص) حول هذا الاتجاه." يمكن لجميني استيعاب الرسم البياني وإنتاج التقرير النصي الذي يحلله مباشرة. يمكن لـ GPT-4 أيضًا تحليل صورة الرسم البياني بشكل جيد، ولكن كلود لم يستطع ذلك على الإطلاق.
السطر الأخير: لأي استخدام يتطلب فهم الرؤية أو الصوت إلى جانب اللغة، فإن Gemini 3 هو النموذج الأكثر قدرة ومرونة. رؤية GPT-4 قوية، لكن Gemini يغطي أنواعًا أكثر من البيانات ويمكنه أيضًا إنشاء محتوى بصري. حاليًا، Claude محدود بالمهام النصية. لذا، في مقارنة متعددة الوسائط، يفوز Gemini 3 بشكل واضح بقدراته المتعددة الحواس الشاملة، مع GPT-4 في المرتبة الثانية (الرؤية فقط)، وClaude يركز على النص.
لقد تطرقنا إلى أطوال السياق، لكن دعونا نعيد التأكيد ونتوسع في اعتبارات الكفاءة. تشير "نافذة السياق" إلى مقدار الإدخال (والمخرجات المولدة) التي يمكن للنموذج أن يأخذها بعين الاعتبار في وقت واحد. يمكن للسياق الأكبر أن يمكن النموذج من تذكر المحادثات السابقة أو الوثائق الكبيرة. كما أُشير:
الكفاءة والكمون: مع السياقات والنماذج الأكبر، تصبح سرعة الاستدلال مصدر قلق. GPT-4 في شكله الأساسي معروف بأنه أبطأ من GPT-3.5، وغالباً ما يأخذ وقتاً أطول بشكل ملحوظ للردود (خاصة مع زيادة طول السياق). قامت OpenAI بمعالجة هذا من خلال تحسين GPT-4 Turbo ليكون أسرع وأرخص - حيث أفادوا بأنه أرخص بثلاث مرات في الرموز المدخلة ومرتين في الرموز المخرجة بالنسبة لـ GPT-4 Turbo مقارنةً بـ GPT-4 الأصلي[16][67]، وهو ما يعني أيضاً بعض المكاسب في السرعة أو على الأقل الفعالية من حيث التكلفة. لاحظ العديد من المطورين أن GPT-4 Turbo أسرع قليلاً في الاستجابة. Claude 2 يميل إلى أن يكون سريعاً جداً للطلبات القصيرة إلى المتوسطة - غالباً أسرع من GPT-4 (بما أن كلود أصغر حجماً ومصمم لتحقيق إنتاجية عالية). بالنسبة للسياقات الطويلة، يزداد كمون كلود؛ عند الوصول إلى 200k الكامل، كما هو ملاحظ، يمكن أن يستغرق الأمر دقائق (وهو متوقع - فهذا مقدار كبير من النص يجب معالجته). أداء Gemini 3 من حيث السرعة لم يتم قياسه مباشرة من قبل الغرباء بعد، لكن ادعاء جوجل بأنه “أسرع بكثير من النماذج السابقة على TPUs”[82] يشير إلى أنه فعال. علاوة على ذلك، توفير جوجل نسخ “فلاش” أخف من جيميني يعني أنه إذا كان الكمون حرجاً، يمكن للمطور اختيار جيميني فلاش أو فلاش-لايت التي تستجيب بسرعة أكبر (على حساب بعض الدقة)[83][84]. في المقابل، تمتلك OpenAI وAnthropic أيضاً فكرة النماذج الأصغر: GPT-3.5 Turbo هو بديل سريع للمهام الأبسط، وClaude Instant هو النموذج السريع لـ Anthropics.
جانب آخر هو الكفاءة في التكلفة: جميع المزودين يفرضون رسومًا أكبر لاستخدام أكبر سياق. سيكون GPT-4 من OpenAI بـ 128k مكلفًا لكل استدعاء، وClaude من Anthropic بسياق 100k/200k يكلف أكثر أيضًا (قاموا بتعديل الأسعار في 2.1 لتكون أكثر ملاءمة لاستخدام السياق الكبير [17][85]). تسعير Google لـ Gemini عبر API يظهر تدرجًا: على سبيل المثال، كان Gemini 2.5 Pro (بسياق >200k) له تكلفة إدخال حوالي 1.25 دولار لكل مليون رمز (أو 2.50 دولار لوضع "التفكير") [35]، بينما كان Flash-Lite الأصغر بـ 0.10 دولار لكل مليون رمز [35] – نطاق كبير جدًا. هذا يشير إلى أن Google تتوقع أن يستخدم فقط المستخدمون الثقيلون السياق الضخم بالسعر المرتفع، بينما يمكن أن يكون الاستخدام اليومي على النماذج الأرخص.
الخلاصة حول السياق/الكفاءة: إذا كنت بحاجة للعمل مع مستندات أو سياقات كبيرة جدًا، فإن Gemini 3 لا مثيل له مع نافذة بمقدار 1M رمز – يمكنه نظريًا استيعاب كتب كاملة، أو مجموعات مستندات متعددة، أو ساعات من نصوص الخطابات دفعة واحدة. يأتي Claude 2.1 في المرتبة الثانية مع نافذة سخية جدًا بمقدار 200k التي تغطي في الممارسة العملية جميع الحالات تقريبًا (ربما باستثناء المكتبات الكاملة). GPT-4 بمقدار 128k أيضًا كبير الآن، وإن كان لا يزال متأخرًا. في الاستخدام النموذجي لبضعة آلاف من الرموز، تكون جميع النماذج سريعة نسبيًا، حيث يعتبر GPT-4 هو الأبطأ ولكنه الأكثر دقة، وClaude سريع جدًا وGemini مُحسّن على الأرجح على خوادم جوجل (رغم أن المقارنات الدقيقة للسرعة صعبة بدون بيانات عامة). نهج جوجل يوفر مرونة أكبر (أحجام نماذج متنوعة، واستدلال قابل للتعديل)، بينما تركز OpenAI وAnthropic على تواجد نماذج أبسط ويعتمدون على المستخدم لاختيار المستويات الأعلى أو الأدنى (GPT-4 مقابل 3.5، Claude مقابل Claude Instant).
كل من هؤلاء مقدمي خدمات الذكاء الاصطناعي يقدم نظامًا بيئيًا مختلفًا للمطورين:
التكامل مع المنتجات الأخرى: تقوم Google بدمج Gemini في منتجاتها الخاصة (يوجد في Android واجهات برمجة تطبيقات لنماذج Nano على الجهاز [87]، كما يحصل Chrome على ميزات تعتمد على Gemini، إلخ)، مما يعني أنه إذا كنت في نظام Google البيئي، سيكون Gemini متاحًا في العديد من الأماكن. نموذج OpenAI يتم دمجه عبر الشراكات (مثلًا، يستخدم Bing Chat GPT-4، وتستخدم ميزات معينة في Office 365 OpenAI عبر Azure). نموذج Claude من Anthropic يتم دمجه في عدد أقل من المنتجات الموجهة للمستخدم النهائي ولكنه متاح في منصات مثل Slack (تطبيق Claude)، وهم يتعاونون مع بائعين مثل Quora (تستخدم Poe Claude وGPT-4).
مجتمع المطورين والدعم: تمتلك OpenAI أكبر مجتمع مستخدمين حتى الآن بفضل شعبية ChatGPT، لذا من الممكن أن يكون لدى GPT-4 أكثر الدروس التعليمية الخارجية، المكتبات، والمساعدة من المجتمع. علاقات مطوري Google للذكاء الاصطناعي تتزايد مع الموارد المتاحة على AI.Google.dev لـ Gemini، وAnthropic تعتبر جديدة نسبياً في التواصل الخارجي لكنها توسع نطاق توفرها بنشاط (مؤخراً فتحوا claude.ai عالمياً للمستخدمين المجانيين، مما يساعد المطورين على التعرف عليها).
باختصار، لدى المطورين خيارات رائعة مع الثلاثة جميعًا: إذا كنت تريد التحكم الأقصى وربما استضافة نماذج أصغر بنفسك، فإن نهج جوجل Gemma/Gemini جذاب (نماذج أصغر مفتوحة + واجهة برمجة تطبيقات قوية للنموذج الكبير). إذا كنت تريد واجهة برمجة تطبيقات بسيطة مع الكثير من الميزات الجاهزة، فإن GPT-4 الخاص بـ OpenAI خيار قوي. إذا كنت تفضل سياقًا طويلاً ونموذجًا أكثر أمانًا فور الاستخدام، فإن Claude 2.1 الخاص بـ Anthropic مثير للاهتمام. لا يعتبر أي من هذه النماذج مفتوح المصدر في الفئة العليا (باستثناء نماذج Gemmas الأصغر الخاصة بجوجل)، لذا في كل الحالات تعتمد على المزود للنماذج الكبيرة. ولكن المنافسة أدت إلى تقارب الميزات: الآن جميعهم لديهم نوع من واجهة برمجة التطبيقات لاستخدام الأدوات، جميعهم يدعمون تعليمات النظام، جميعهم يقدمون سياقات كبيرة (أكثر من 100 ألف)، وجميعهم يكرسون الجهود لأدوات الأمان والموثوقية.
ضمان أن تكون نماذج الذكاء الاصطناعي مفيدة ولا تنتج محتوى ضار هو محور تركيز رئيسي لجميع المنظمات الثلاث، وكل منها تتبع نهجًا مختلفًا قليلاً:
من حيث أي نموذج هو "الأكثر أمانًا،" من الصعب قياس ذلك بدون سياق. تعتبر النماذج الثلاثة من الطراز الأول في التوافق لوقت صدورها. وفقًا للتجارب الشخصية، يُعرف كلود بكونه مقاومًا جدًا للرفض عند التعامل مع المحتوى البريء – مما يعني أنه عادة لا يرفض إلا إذا كان ذلك ضروريًا حقًا. قد يكون GPT-4 أحيانًا أكثر حذرًا (على سبيل المثال، قد يتطلب إعادة صياغة دقيقة إذا كان هناك تلميح في طلب المستخدم لشيء ضد السياسات). يتم مراقبة توافق جيميني من قبل المجتمع؛ ويبدو أنه يحقق توازنًا مشابهًا لـ GPT-4 (صارم بشأن المحتوى غير المسموح به، لكنه ليس مفرطًا في رفض الاستفسارات المحايدة). من المحتمل أن تكون خبرة DeepMind في أمان التعلم المعزز (يذكرون أبحاثًا في "الفرق الحمراء" للإقناع، إلخ.[68]) قد ساهمت في تدريب أمان قوي لجيميني. وأيضًا، نظرًا لأن جيميني يمكنه إنتاج الصور، يجب على Google التأكد من أنه يتبع القواعد هناك أيضًا (مثل عدم توليد صور صريحة أو محمية بحقوق الطبع والنشر)، مما يضيف طبقة أخرى من الأمان للنظر فيها.
أخيرًا، جميع الشركات الثلاث ملتزمة بتحسين مستمر. ينشرون بانتظام تحديثات (تحسّن GPT-4 من OpenAI في تحديثات ChatGPT، وتحسّن Claude من Anthropic في النسخة 2.1، ولا شك أن Google ستقوم بتحديث Gemini بناءً على الملاحظات). بالنسبة لمطور أو مؤسسة، قد يجذب Claude إذا كانت السلامة هي الأولوية المطلقة، نظرًا لتركيزه المزدوج على عدم الإضرار والصدق. يعد GPT-4 في المرتبة الثانية، مع العديد من الفحوصات والكثير من ميزات السلامة (بالإضافة إلى دعم معايير الامتثال والمراقبة من OpenAI). من المحتمل أن يكون Gemini آمنًا أيضًا (حيث أن لدى Google الكثير لتخسره في عدم إنتاج مخرجات ضارة من خلال خدماتها)؛ ويقدم قدرات جديدة مثل توليد الصور التي تخضع لسياسات منفصلة (على سبيل المثال، لن ينتج صورًا عنيفة أو للبالغين - مما يشبه على ما يبدو كيفية تصفية Imagen).
باختصار، جميع النماذج الثلاثة متوافقة بشكل كبير وآمنة نسبيًا للاستخدام العام، مع اختلافات طفيفة في الفلسفة: تستخدم OpenAI وGoogle التعلم المعزز من خلال التغذية الراجعة البشرية بشكل أساسي (بالإضافة إلى بعض التغذية الراجعة من الذكاء الاصطناعي)، بينما تعتمد Anthropic أكثر على التنظيم الذاتي للذكاء الاصطناعي عبر دستور. قد يجد المستخدمون أن ردود GPT-4 وGemini أكثر إيجازًا في حالات الرفض، بينما قد يقدم Claude مقالًا صغيرًا أكثر تهذيبًا بسبب مبادئه. من حيث الدقة الواقعية، تتمتع GPT-4 وGemini بميزة طفيفة في المعايير، لكن تحسينات Claude 2.1 قللت من الفجوة في تقليل الهلوسة[70][94]. يبقى من الأفضل دائمًا تنفيذ الفحوصات وعدم الثقة العمياء في أي مخرجات نموذج فردي للتطبيقات الحرجة.
تمثل Gemini 3 من Google، وGPT‑4 (Turbo) من OpenAI، وClaude 2.1 من Anthropic طليعة نماذج الذكاء الاصطناعي في عام 2025. Gemini 3 يظهر كمنافس قوي لـ GPT‑4، مع أداء متطور في العديد من المجالات، ودعم لمزيد من الوسائط، وطول سياق غير مسبوق يتيح استخدامات جديدة تمامًا. GPT‑4 يبقى معيارًا ذهبيًا للموثوقية، مع قدرات ممتازة في الاستدلال ونظام بيئي واسع للمطورين، مدعوم الآن بإدخال الرؤية وسياق بطول 128K. Claude 2.1 يقدم مزيجًا مغريًا من القدرات - مهارات قوية جدًا في اللغة والبرمجة، وأكبر نافذة سياق متاحة (200K)، وتصميم يركز على الأمان يجذب الشركات.
الاختيار بينهما يعتمد على التطبيق: إذا كنت تحتاج إلى فهم متعدد الوسائط أو توليد الصور مدمجًا مع النص، فإن Gemini 3 هو الفائز الواضح. إذا كنت تحتاج إلى أفضل نموذج تحليلي للنص مع الكثير من التكاملات ولا تمانع في حدود السعر، فإن GPT-4 هو خيار مثبت. إذا كنت تحتاج إلى تحليل مستندات طويلة أو تريد نموذجًا مضبوطًا ليكون شفافًا للغاية وأقل عرضة للهلوسة، فإن Claude 2.1 ممتاز.
شيء واحد مؤكد - المنافسة بين هذه النماذج تقود إلى تطورات سريعة. جميعها تتحسن باستمرار، وقد تتضاءل الفروق مع كل تحديث. في الوقت الحالي، قمنا بتفصيل اختلافاتها في البنية، القدرة على التفكير، القدرة على البرمجة، الميزات متعددة الأوضاع، السرعة، معالجة السياق، أدوات المطورين، والتوافق. من خلال الاستفادة من المعايير والمصادر الموثوقة، نأمل أن تساعد هذه المقارنة الشاملة المطورين وعشاق التكنولوجيا على فهم مكانة هذه النماذج الرائدة بالنسبة لبعضها البعض[72][27][96].
أخيرًا، إذا كنت تفكر في كتابة منشور مدونة حول هذا الموضوع، إليك بعض أفكار العناوين الجذابة لـSEO التي تستهدف الكلمات الرئيسية ذات الصلة وتجذب اهتمام كل من المطورين وقراء التقنية العامة:
كل من هذه العناوين يتضمن مصطلحات بحث شائعة (Gemini 3، GPT-4، Claude 2، مقارنة نماذج الذكاء الاصطناعي) ويعد بتحليل واضح، مما ينبغي أن يساعد في الحصول على ترتيب جيد وجذب القراء المهتمين بمقارنات وقدرات نماذج الذكاء الاصطناعي.
المصادر: المعلومات في هذه المقارنة مدعومة بمصادر رسمية: إعلانات وتقارير تقنية من جوجل لجيمني[72][1]، وثائق GPT-4 من OpenAI[16]، بطاقة موديل Claude وتحديثات من Anthropic[50][17]، بالإضافة إلى أبحاث ونتائج بنشمارك أخرى مذكورة في جميع أنحاء هذه المقالة. تم الاستشهاد بجميع بنشمارك والادعاءات من مصادر موثوقة للتحقق.
[1] [2] [11] [14] [15] [46] storage.googleapis.com
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
[3] [4] [5] [7] [8] [20] [24] [29] [30] [39] [40] [41] [49] [52] [68] [69] [72] [77] [78] [82] تقديم جيميني: النموذج الأكثر قدرة من جوجل للذكاء الاصطناعي حتى الآن
https://blog.google/technology/ai/google-gemini-ai/
[6] [31] [32] [33] [34] [35] [37] [38] [42] [43] [44] [45] [51] [55] [66] [73] [74] [79] [80] [83] [84] [86] [93] الجوزاء - جوجل ديب مايند
https://deepmind.google/models/gemini/
[9] [10] [13] [63] [64] [87] [92] بطاقة نموذج Gemma 3 | Google AI للمطورين
https://ai.google.dev/gemma/docs/core/model_card_3
[12] [16] [56] [60] [67] [88] نماذج جديدة ومنتجات للمطورين أُعلن عنها في يوم المطورين | OpenAI
https://openai.com/index/new-models-and-developer-products-announced-at-devday/
تقديم Claude 2.1 \ Anthropic
https://www.anthropic.com/news/claude-2-1
[19] [21] [22] [23] [25] [26] [27] [28] [48] [54] [57] [58] [76] جيميني - جوجل ديب مايند
https://nabinkhair42.github.io/gemini-ui-clone/
[36] شائعات Google Gemini 3 Pro: تاريخ الإصدار، الميزات، وما يجب توقعه في أواخر 2025...
[47] [50] [53] [96] anthropic.com
https://www.anthropic.com/claude-2-model-card
[89] الوصول إلى تحسين GPT-4 - واجهة برمجة التطبيقات - مجتمع مطوري OpenAI
https://community.openai.com/t/access-to-gpt-4-finetuning/555372
[90] النموذج الأساسي كلود 2.1 من Anthropic متاح الآن بشكل عام ...