
المؤلف: بوكسو لي
تطورت Grok من xAI بسرعة من روبوت دردشة على X إلى منصة ذكاء اصطناعي واسعة النطاق. في هذا التحليل العميق، نستعرض كيف تقدمت البنية التحتية الأساسية وقدرات النموذج من Grok-1، 2، 3، و4 – وما الذي يمكننا توقعه من Grok-5 القادم.
جروك هي عائلة النماذج اللغوية الكبيرة (LLM) الرئيسية التي طورتها شركة xAI للذكاء الاصطناعي التابعة لإيلون ماسك. بدأت في أواخر عام 2023 كروبوت محادثة موجه للمستهلكين على X (المعروفة سابقًا بتويتر) بشخصية متمردة وذكية بعض الشيء. ما جعل جروك يبرز على الفور هو وعيه في الوقت الحقيقي – على عكس معظم النماذج اللغوية الكبيرة الأخرى التي تحتوي على بيانات تدريب قديمة، كان جروك مدمجًا بشكل وثيق مع تغذية X الحية ويمكنه إجراء عمليات بحث على الويب مباشرة[1]. في الممارسة، جروك هو مزيج بين نموذج لغوي كبير ووكيل بيانات حي: يمكنه سحب أحدث المعلومات من منشورات X والويب، ثم دمج تلك الحقائق مع الاستشهادات في ردوده[1]. هذا الروبوت بأسلوب "دليل المسافر إلى المجرة" كان مستعدًا للإجابة على أي شيء تقريبًا (حتى الأسئلة "الساخنة" التي قد ترفضها الذكاء الاصطناعي الأخرى)، مما جذب الانتباه – وبعض الجدل – نظرًا لنهجه غير المصفى.
تحت الغطاء، Grok ليس نموذجًا واحدًا بل مجموعة من النماذج والأدوات. في البداية، قامت xAI بإتاحة نموذج Grok-1 الأساسي (شبكة ضخمة تحتوي على 314 مليار معلمة) كمصدر مفتوح تحت رخصة Apache-2.0، مما يشير إلى استراتيجية مفتوحة غير معتادة. منذ ذلك الحين، قامت xAI بالتطوير بسرعة: أضاف Grok-1.5 سياق طويل ورؤية متعددة الوسائط، حسّن Grok-2 من السرعة والدعم متعدد اللغات، قدم Grok-3 أساليب تفكير صريحة، وGrok-4 (و 4 "ثقيل") دفع نحو مجال الوكلاء المتعددين باستخدام الأدوات والوكلاء التعاونيين الفرعيين. يمكن الآن الوصول إلى Grok عبر روبوت المحادثة Grok على X، من خلال واجهة برمجة تطبيقات xAI، وحتى من خلال منصات السحابة (تدرج Oracle Cloud Grok-4 كعرض نموذج من الدرجة الأولى). باختصار، تطور Grok من روبوت دردشة فريد إلى منظومة AI كاملة - منظومة تتمحور حول البحث عن الحقيقة، التكامل في الوقت الحقيقي، والتفكير الثقيل.
خلف الواجهة الأمامية الحواريّة لـ Grok يكمن أحد أقوى الحواسيب الفائقة للذكاء الاصطناعي في العالم. Colossus – مجموعة xAI الضخمة من وحدات معالجة الرسوميات في ممفيس، تينيسي – تم بناؤها لتدريب وتشغيل Grok على مقياس رائد. أعلن عنها في منتصف عام 2024 وسماها ماسك "مجموعة ممفيس الفائقة"، وتم تصميم Colossus لما يصل إلى 100,000 وحدة معالجة رسوميات من نوع NVIDIA H100 متصلة عبر شبكة RDMA عالية النطاق الترددي. ووفقًا لكلمات ماسك، "إنه أقوى مجموعة تدريب للذكاء الاصطناعي في العالم!". مركز البيانات الذي يضم Colossus هو منشأة بقدرة 150 ميغاواط تم بناؤها في 122 يومًا فقط – إنجاز سريع لدرجة أنه استحوذ على اهتمام وسائل الإعلام وحتى جولة فيديو من ServeTheHome.

تصميم الأجهزة: الوحدة الأساسية لـ Colossus هي رف Supermicro مبرد بالسائل يحتوي على 8 خوادم، كل منها يحتوي على 8× NVIDIA H100 GPUs (64 GPU لكل رف). يحتوي كل رف أيضًا على وحدة توزيع المبرد (CDU) ومفاتيح شبكة عالية السرعة، ويتم تجميع الرفوف في مجموعات من 8 (512 GPU) تشكل مجموعات صغيرة. هذا التصميم المتجانس والوحدوي يجعل من السهل التوسيع والإدارة. جميع المكونات - GPUs، معالجات Xeon المزدوجة، مفاتيح PCIe - مبردة بالسائل، وهو أمر ضروري نظرًا لحرارة H100 وميزانية الطاقة للمرفق البالغة 150 ميجاوات. يستخدم الشبكات نسيج Spectrum-X Ethernet من NVIDIA ووحدات BlueField-3 DPU لتحقيق 400 جيجابت في الثانية+ لكل عقدة، مما يمكن الـ GPUs عبر الرفوف من التواصل بسرعات فائقة [4][5]. باختصار، قامت xAI ببناء Colossus لتقليل الاختناقات: وصلات سريعة، تبريد للاستخدام العالي المستمر، وطاقة/تبريد زائدة بحيث لا تتوقف أي فشل واحد عن التدريب.
الحوسبة المتدرجة والهجينة: اعتبارًا من منتصف عام 2024، كان لدى xAI حوالي 32,000 وحدة H100 متصلة بالإنترنت مع خطط لزيادة العدد إلى 100,000 بحلول نهاية العام. كما أعلنوا عن توسع (كولوسوس 2) مع 300,000 وحدة معالجة رسومية من الجيل التالي (NVIDIA B200s) لعام 2025[6]. حتى أثناء بناء مركز البيانات الخاص بهم، لم تعتمد xAI على مصدر واحد للحوسبة: استأجروا حوالي 16,000 وحدة معالجة رسومية H100 على سحابة Oracle واستعانوا بمراكز بيانات AWS وX (تويتر) الاحتياطية كذلك [7]. أعطت هذه الاستراتيجية الهجينة xAI المرونة لبدء تدريب النماذج الكبيرة فورًا (باستخدام وحدات معالجة رسومية السحابية) ثم نقل الأحمال تدريجيًا إلى حاسوبهم الفائق الداخلي. بحلول أواخر عام 2025، يُقال إن كولوسوس سيشمل 150,000 وحدة معالجة رسومية H100 (بالإضافة إلى عشرات الآلاف من وحدات H200 الأحدث) حيث كانت xAI تستعد لـ Grok-4 وما بعده.
برمجيات المكدس: للاستفادة من هذا العتاد، قامت xAI ببناء إطار تدريب موزع مخصص يركز على JAX (مكتبة المصفوفات وML عالية الأداء من جوجل)، مع طبقة تنظيم تعتمد على Rust تعمل على Kubernetes[8]. وفقًا لكلمات xAI الخاصة، "تشغيل تدريب LLM يشبه قطار شحن يندفع إلى الأمام؛ إذا انحرفت إحدى العربات، يتم سحب القطار بالكامل عن المسار." كان الحفاظ على موثوقية عالية واستخدام نموذج FLOP (MFU) عبر آلاف وحدات معالجة الرسوميات (GPUs) أولوية قصوى. يقوم منسق التدريب في xAI بالكشف التلقائي عن أي عقدة تبدأ في التصرف بشكل غير طبيعي (مثل أخطاء العتاد) ويمكنه إعادة تشغيل أجزاء العمل بسلاسة إذا لزم الأمر[9]. يتم تخزين مئات الجيجابايت من حالة النموذج بطريقة مقاومة للأخطاء بحيث لا يؤدي فشل خادم واحد إلى محو أيام من التقدم. في الأساس، تعاملت xAI مع البنية التحتية كمشكلة من الدرجة الأولى - حيث استثمرت في الأدوات للحفاظ على أكثر من 10,000 وحدة معالجة رسوميات مشغولة حتى عند فشل العتاد أو عند تجربة هياكل نماذج جديدة. يتيح هذا المكدس الذي يجمع بين JAX وRust وKubernetes لـ xAI القدرة على توسيع الوظائف عبر مجموعة Colossus والتكرار بسرعة على متغيرات النموذج (كما يتضح من سرعة إصدار نسخ Grok). إنها فلسفة مشابهة لبنية جوجل المعتمدة على TPU أو مكدس البرمجيات الخاص بـ OpenAI، لكن xAI خصصته لدمج مجموعات وحدات معالجة الرسوميات والتأكيد على مقاومة الفشل.
تم تقديم النسخة الكاملة الأولى، Grok-1، في أواخر عام 2023 كـ نموذج حدودي تم تطويره في غضون أربعة أشهر تقريبًا. يعتمد تصميم Grok-1 على Mixture-of-Experts (MoE) Transformer، وهو في الأساس نموذج متفرق حيث يتعامل "الخبراء" المختلفون (الشبكات الفرعية) مع الرموز المختلفة. من حيث الحجم، يُعتبر Grok-1 ضخمًا: 314 مليار معلمة في المجموع، مع 64 طبقة Transformer و48 رأس انتباه. يستخدم مفردات مكونة من 131 ألف رمز وحجم تضمين يبلغ 6,144، وكان نافذة السياق في الإصدار المفتوح تحتوي على 8,192 رمزًا. ومع ذلك، فإن جزءًا فقط من تلك الأوزان البالغة 314 مليار نشط لكل رمز. يعني تصميم MoE أن كل رمز يمر عبر شبكة توجيه تختار خبيرين (وحدات تقدمية) من مجموعة كبيرة، لذا قد يتم استخدام حوالي 1/8 من المعلمات لرمز الإدخال المحدد. يتيح ذلك لـ Grok-1 تحقيق القدرة التمثيلية للنموذج الذي يتجاوز 300 مليار معلمة بينما يقوم بحساب ما يعادل ~79 مليار معلمة لكل رمز – مما يحقق كفاءة كبيرة في التدريب والاستدلال.
مخطط طبقة مزيج الخبراء في نموذج لغة كبير. بدلاً من تفعيل كل خلية عصبية لكل إدخال، يستخدم نموذج مزيج الخبراء مثل Grok-1 شبكة بوابات لتوجيه بيانات كل رمز عبر مجموعة صغيرة من شبكات الخبراء (تفعيل متناثر)، ثم يدمج النتائج. هذا يسمح بوجود عدد هائل من المعلمات دون زيادة حسابية في تكلفة الحوسبة.
تم التحقق من نهج MoE الخاص بـ Grok-1 من خلال أدائه. عند الإصدار، أفادت xAI أن Grok-1 سجل 73% على معيار المعرفة MMLU و63.2% على HumanEval للبرمجة – متفوقًا على نماذج مثل GPT-3.5 وInflection-1 من OpenAI، ويأتي في المرتبة الثانية بعد GPT-4 في أواخر عام 2023. وأكدت الاختبارات المستقلة مهارات Grok-1 القوية في الرياضيات والاستدلال بالنسبة لفئته الحاسوبية. على سبيل المثال، تمكن Grok-1 من اجتياز امتحان الرياضيات لمدرسة ثانوية في المجر بدرجة C (59%)، مما يعادل Anthropic’s Claude 2 (55%) وليس بعيدًا عن GPT-4 (68%) في نفس الظروف. كان هذا ملحوظًا لأن Grok-1 حقق هذه النتائج مع حساب تدريبي أقل من إجمالي حساب GPT-4، مما يبرز كفاءة تدريب xAI.
ومع ذلك، كان Grok-1 أيضًا يستهلك الكثير من الموارد. تشغيل النموذج الكامل 314B بدقة 16 بت يتطلب حوالي ~640 جيجابايت من VRAM للاستدلال. هذا النوع من البصمة يعني أنه لا يمكن لخادم واحد استضافته؛ تحتاج إلى تقسم النموذج على عدة وحدات معالجة رسومية (GPU) لخدمة النموذج، وحتى المزيد من وحدات المعالجة الرسومية (مع التوازي في البيانات) لتدريبه. هذا أوضح سبب بناء xAI لـ Colossus ولماذا يعتبر الاتصال عالي السرعة أمرًا حيويًا - في نطاق Grok-1، غالبًا ما تكون ذاكرة وحدات المعالجة الرسومية والنطاق الترددي هي العوامل المحددة. بالفعل، أظهر مهندسو AMD Grok-1 على خادم MI300X بـ 8 وحدات معالجة رسومية (MI300X يحتوي على 192 جيجابايت لكل وحدة معالجة رسومية، واحدة من القليل التي يمكنها التعامل مع متطلبات ذاكرة Grok-1). باختصار، أثبت Grok-1 أن xAI يمكنها تدريب نموذج من فئة GPT-3.5 من البداية، لكنه أيضًا دفع حدود الأجهزة، مما استلزم كتلة ضخمة ومجموعة تدريب مخصصة موصوفة أعلاه.
لم تتوقف xAI عند Grok-1 الأساسي. في مارس 2024، أعلنوا عن Grok-1.5، الذي جلب ترقيتين رئيسيتين: نافذة سياق بـ 128,000 رمز وتحسينات كبيرة في المهارات الرياضية والبرمجية. احتفظ Grok-1.5 تقريباً بنفس الهيكل وعدد المعلمات مثل Grok-1 (لم تكشف xAI عن أرقام المعلمات الجديدة، مما يشير إلى أنه كان تحسينًا للنموذج الحالي)، لكنه كان يستطيع التعامل مع مدخلات أطول بـ 16 مرة واستخدام تقنيات "الإشراف القابل للتوسع" لتعزيز التفكير. إن تحقيق سياق 128 ألف ليس بالأمر السهل - من المحتمل أنه تضمن خطط ترميز موضعي جديدة ومناهج تدريب لضمان أن النموذج لم ينس كيفية التعامل مع المطالبات القصيرة. وكانت النتيجة مثيرة للإعجاب: أظهر Grok-1.5 استرجاعًا مثاليًا للمعلومات عبر نافذة 128 ألف في الاختبارات الداخلية [10]، وتفوق في المهام التي تتطلب العثور على "إبرة في كومة قش" حيث قد يكون هناك مقتطف ذو صلة مخفي بعمق في مستند طويل.
الأهم من ذلك، تحسنت قدرة Grok-1.5 على التفكير وحل المشكلات بشكل ملحوظ. في معيار MATH التحدي (مسائل الرياضيات على مستوى المسابقات)، حقق Grok-1.5 نسبة 50.6%، وهي أكثر من ضعف نسبة Grok-1 البالغة 23.9%. كما حقق نسبة 90% على GSM8K، وهي مجموعة مسائل رياضية نصية (من نسبة Grok-1 البالغة ~63%). ولتوليد الشيفرات، وصل Grok-1.5 إلى نسبة 74.1% على HumanEval، مرتفعة من 63%. لقد قربت هذه التحسينات Grok إلى مستوى GPT-4 في المهام الكمية - في الواقع، ورد أن Grok-1.5 تساوى أو تفوق على Claude 2 من Anthropic و PaLM 2 من Google في العديد من معايير القياس. لتحقيق ذلك، استخدمت xAI تقنيات مثل توجيه سلسلة الأفكار وربما دمجت المزيد من التعديلات الدقيقة على بيانات الشيفرات والرياضيات. كما قدم Grok-1.5 نموذج “المعلم الذكي” في حلقة التدريب - وهو في الأساس مراجعين بمساعدة بشرية وأدوات قاموا بإنتاج عروض توضيحية عالية الجودة للتفكير لتعديل حل المشكلات خطوة بخطوة لـ Grok[11]. كان هذا بداية تركيز xAI على الإشراف بمساعدة الأدوات، الذي سنرى المزيد منه في الإصدارات اللاحقة.
في أبريل 2024، دفعت xAI حدود الإمكانيات أكثر مع Grok-1.5V، وهو امتداد متعدد الوسائط يمكنه معالجة الصور بالإضافة إلى النصوص. أخذ Grok-1.5V ("V" للرؤية) Grok-1.5 الماهر في الرياضيات ذو السياق الطويل ومنحه عيونًا: حيث تم تدريبه لتفسير الصور الفوتوغرافية، والرسوم البيانية، ولقطات الشاشة، ومدخلات بصرية أخرى بجانب النصوص. أثبت النموذج قيمته فورًا بتفوقه على GPT-4V الخاص بـ OpenAI وأقرانه الآخرين القادرين على الرؤية في معيار جديد يُسمى RealWorldQA، والذي يختبر الفهم المكاني في الصور الحقيقية. حقق Grok-1.5V نسبة 68.7% في RealWorldQA، مقابل 60.5% لـ GPT-4V و61.4% لـ Google Gemini. بشكل عملي، يمكن لـ Grok-1.5V الإجابة عن الأسئلة حول ما يحدث في صورة، وتحليل مخطط أو مستند، ثم التفكير فيه بنفس قدرة السياق الطويل التي يمتلكها للنصوص. هذا القفزة متعددة الوسائط أظهرت التزام xAI بالذكاء الاصطناعي الذي لا يقتصر على التنبؤ بالنصوص بل كونه محرك تفكير أكثر شمولية يمكنه فهم البيانات المعقدة في العالم الحقيقي. كما أنها مهدت الطريق لاستخدام Grok في تطبيقات مثل تحليل الصور الطبية أو تصحيح لقطات واجهات المستخدم، وهي مجالات ألمح إليها ماسك للنمو المستقبلي.
وصول جروك-2 في أواخر عام 2024 كان بمثابة انتقال من "معاينة حصرية" إلى نموذج أكثر توفرًا على نطاق واسع. فتحت xAI الوصول إلى جروك لجميع المستخدمين على X في هذا الوقت، مما يشير إلى الثقة في متانة جروك-2 [12][13]. من الناحية التقنية، لم يكن هيكل جروك-2 خروجًا جذريًا - لا يزال يعتمد على نموذج MoE الكبير (على الأرجح 128k). لكن xAI قضت النصف الأخير من عام 2024 في تحسين سرعة جروك-2 وقدراته متعددة اللغات واستخدام الأدوات. كان النموذج المحدث لجروك-2 في ديسمبر 2024 "أسرع بثلاث مرات" في الاستدلال، وأفضل في اتباع التعليمات، وطليقًا في العديد من اللغات [13][14]. وهذا يشير إلى أنهم قاموا بتحسين توجيه MoE وربما قاموا بتقطير أجزاء من النموذج لتحقيق الكفاءة. كما قدمت xAI نموذجًا أصغر يسمى جروك-2-ميني لخدمة الحالات الحساسة للتكلفة أو ذات الطاقة المنخفضة (ربما يكون مشابهًا لـ GPT-3.5 Turbo من OpenAI مقابل GPT-4 الكامل).
إحدى الميزات الرئيسية لـ Grok-2 كانت البحث الحي مع الإحالات. يمكن لـ Grok الآن إجراء عمليات بحث على الويب تلقائيًا أو مسح منشورات X عند الإجابة على سؤال، ثم تقديم الإحالات في ناتجها[15]. هذا يعني أن محرك البحث ومدقق الحقائق قد تم دمجهما بشكل فعال في سير عمل النموذج. وفقًا لـ xAI، سمحت تكاملات Grok-2 مع X لها بالحصول على معرفة فورية بالأخبار العاجلة والموضوعات الرائجة والبيانات العامة، مما يمنحها ميزة في الاستفسارات حول الأحداث الحالية[1]. على سبيل المثال، إذا طُلب منها عن مباراة رياضية حدثت "الليلة الماضية"، يمكن لـ Grok-2 البحث عن النتيجة والاستشهاد بمقال إخباري أو منشور X مع النتيجة. أصبحت هذه القدرة في الوقت الحقيقي نقطة بيع فريدة - على عكس GPT-4 الذي كان لديه حد تدريب ثابت (وأضاف فقط لاحقًا مكون إضافي للتصفح)، كان Grok مولودًا متصلًا بالبيانات الحية. من منظور هندسي، تضمنت ميزة البحث الحي نظامًا فرعيًا يشبه الوكيل: يمكن لمطالبة Grok أن تُشَغِّل أداة داخلية تستفسر عن X أو واجهات برمجة تطبيقات الويب، ثم يُضاف النص المسترجع إلى سياق Grok (مع عنوان URL المصدر) للإجابة النهائية[1][16]. قدمت xAI عناصر تحكم للمستخدمين أو المطورين لتحديد ما إذا كان ينبغي على Grok البحث التلقائي، أو البحث دائمًا، أو البقاء على المعرفة الداخلية فقط[1][11].
كما حسّن Grok-2 الوصول والتكلفة. بحلول ديسمبر 2024، جعلت xAI روبوت الدردشة Grok مجانيًا لجميع مستخدمي X (مع وجود مستويات مدفوعة فقط لتوفير حدود سرعة أعلى)[13]. كما أطلقوا واجهة برمجة تطبيقات عامة مع نماذج Grok-2 بسعر 2 دولار لكل مليون رمز إدخال (سعر عدواني يتفوق على العديد من المنافسين)[17]. وضعت هذه الخطوة Grok-2 ليس فقط كحصرية لـ X، ولكن كمنصة عامة للمطورين. تقنيًا، من المحتمل أن يكون تدريب Grok-2 قد شمل ملايين التفاعلات من مستخدمي Grok-1 في المرحلة التجريبية، بالإضافة إلى نموذج مكافأة كبير للتوافق. ذكرت فريق ماسك استخدام "مدرسين AI" (مراجعين بشريين) لتنسيق بيانات التعديل والتركيز على جعل Grok محايدًا سياسيًا لكنه لا يزال فكاهيًا[11][18]. كانت هناك عقبات – أدى الأسلوب غير المقيد لـ Grok إلى إنتاج بعض المخرجات المسيئة، والتي كان على xAI معالجتها بتحديثات على فلاتر الأمان و"تقييد" ميل Grok لتكرار تغريدات ماسك الشخصية في إجاباته[19]. بنهاية فترة Grok-2، وجدت xAI توازنًا أفضل: لا يزال Grok يمكن أن يكون جريئًا، لكنه كان أقل احتمالًا لإنتاج محتوى غير مسموح به أو متحيز، بفضل RLHF (التعلم المعزز من ملاحظات البشر) ومحفزات النظام الأكثر إحكامًا.
أُطلق في أوائل عام 2025، مثل Grok-3 قفزة في جعل النموذج يفكر بشكل أكثر شفافية. وصفت xAI Grok-3 بأنه "أكثر نماذجها تقدمًا حتى الآن" في ذلك الوقت، مشيرة إلى قدراته القوية في الاستدلال. تحت السطح، زادت Grok-3 من حسابات التدريب بمقدار 10× مقارنة بـ Grok-2، مما يشير إما إلى نموذج أكبر أو ببساطة فترة تدريب أطول بكثير مع المزيد من البيانات. من الممكن أن xAI زادت عدد الخبراء أو الطبقات، لكنهم لم يفصحوا عن أعداد جديدة من المعاملات. بدلاً من ذلك، كان التركيز على كيفية تعامل Grok-3 مع مهام الاستدلال. قدمت أوضاع استدلال خاصة: وضع "التفكير" حيث يظهر النموذج سلسلة أفكاره (مما يتيح للمستخدمين إلقاء نظرة على استدلاله خطوة بخطوة في لوحة منفصلة)، و وضع "الدماغ الكبير" للاستفسارات المعقدة، الذي خصص المزيد من الحسابات (أو ربما شغّل عدة دورات استدلال) لإنتاج إجابة أكثر شمولاً. كانت هذه الميزات متوافقة مع الاتجاه الصناعي "للسماح للنموذج بالتفكير بصوت عالٍ" لزيادة الشفافية والدقة.
في المعايير والتقييمات، قلّص Grok-3 الفجوة بشكل كبير مع GPT-4. وذكرت وسائل الإعلام التقنية أن Grok-3 يضاهي أو يتفوق على GPT-4 من OpenAI (الإصدار الأصلي، وليس الافتراضي GPT-4.5) في العديد من المعايير الأكاديمية والبرمجة. على سبيل المثال، قيل إن Grok-3 يحقق نتائج مكافئة لـ GPT-4 وClaude 2 في اختبارات التفكير ARC Advanced وMMLU، وتألّق بشكل خاص في مهام الرياضيات والبرمجة حيث كان لنماذج Grok ميزة متواجدة. ومن الدلائل المبكرة على قوة Grok-3: حقق 90%+ في GSM8K (تقريبًا مثالي في مسائل الرياضيات المدرسية) و**~75%+ في HumanEval**، مما يجعله في مستوى GPT-4 في تلك الفئات. بالإضافة إلى ذلك، حسّن Grok-3 الفهم متعدد اللغات، مما يجعله أكثر تنافسية على الصعيد العالمي.
من زاوية البنية التحتية، كان Grok-3 هو اللحظة التي انغمس فيها xAI حقًا في استخدام الأدوات. يمكن للنموذج استدعاء أدوات خارجية مثل الآلات الحاسبة، البحث، مفسري الكود، وغيرها بشكل أكثر سلاسة، وكان النظام يدمج تلك النتائج في الإجابات. أساسًا، بدأ Grok-3 في طمس الخط الفاصل بين نموذج لغوي ضخم وإطار عمل وكيل. بدلاً من توقع أن يقوم نموذج ضخم واحد بكل شيء داخليًا، كان Grok-3 يقوم بتقسيم الاستفسار المعقد إلى خطوات، ويستخدم الأدوات أو الإجراءات الفرعية لبعض الخطوات (مثل استرجاع مستند، تشغيل كود بايثون، التحقق من إثبات)، ثم تركيب الإجابة النهائية. هذا النهج كان تلميحًا لما كان قادمًا في Grok-4 Heavy. كما يتماشى مع خريطة طريق أبحاث xAI التي تذكر التحقق الرسمي والإشراف القابل للتوسع – يمكن لـ Grok-3 استخدام المدققين الخارجيين أو المواد المرجعية للتحقق من نتائجه في المواقف الحرجة[20][21]. كل هذا جعل من Grok-3 مساعدًا أكثر موثوقية وكفاءة، مما جعله يتجاوز كونه مجرد بديل لجهاز GPT-3 ليصبح أقرب إلى باحث ذكاء اصطناعي يمكنه الاستشهاد بالمصادر وحل المشكلات متعددة الخطوات بشكل موثوق.
في منتصف عام 2025، أصدرت شركة xAI Grok-4، ووصفتها بأنها "أذكى نموذج في العالم". ورغم أن مثل هذه الادعاءات يجب أن تؤخذ بحذر، فإن Grok-4 بلا شك من النماذج الرائدة في عام 2025. التغيير الكبير مع Grok-4 هو أنه لم يعد مجرد نموذج واحد - خاصة في تكوين Grok-4 Heavy، فهو أساسًا نماذج متخصصة متعددة تعمل معًا. قامت xAI ببناء Grok-4 كنظام متعدد الوكلاء: عندما تطرح سؤالًا معقدًا، يمكن لـ Grok-4 تشغيل "خبراء" (وكلاء) مختلفين داخليًا لمعالجة أجزاء من المشكلة، ثم تجميع نتائجهم[22][23]. على سبيل المثال، قد تقوم جلسة Grok-4 Heavy بتوظيف وكيل للبحث على الويب، وآخر لتحليل جدول بيانات، وآخر لكتابة الكود، مع وكيل منسق ينظم هذه المهام الفرعية. هذا مشابه في الروح لمشاريع مثل AutoGPT من OpenAI أو وكلاء "الذكاء الاصطناعي الدستوري" من Anthropic، لكن xAI دمجتها على مستوى المنتج - Grok-4 Heavy هو النسخة متعددة الوكلاء من Grok التي يمكن للمستخدمين في الشركات استفسارها مباشرة.
نتيجة هذا التصميم هي أن Grok-4 يتفوق في المهام المعقدة والطويلة الأمد. يمكنه الحفاظ على تسلسل ثابت عبر ملايين الرموز (توثيق API لـ xAI يذكر Grok-4.1 Fast مع نافذة سياق تبلغ 2,000,000 رمز لبعض المتغيرات)، وهو فعليًا غير محدود لمعظم الاستخدامات الحقيقية. يمكن لوكلاء Grok-4 إجراء الاسترجاع والتفكير بالتوازي، مما يجعله أسرع بكثير في أشياء مثل البحث الشامل أو توليد الخطط التفصيلية. في مقاييس التقييم المصممة لاختبار التفكير المتقدم (مثل آخر امتحان للبشرية، وهو امتحان دكتوراه محاكي بـ 2500 سؤال)، ذكرت التقارير أن Grok-4 سجل في نطاق 40% – أعلى من العديد من المعاصرين ودليل على قدرة قوية على التفكير بدون تدريب مسبق[2][22]. في معايير البرمجة وضمان الجودة، لوحظ أن Grok-4 Heavy يتفوق على أقوى أنظمة النماذج الفردية، بفضل قدرته على تجنب الأخطاء عبر التحقق المزدوج من العمل بواسطة وكلاء متعددين[22][20].
جلب Grok-4 أيضًا تكامل الأدوات الأصلية إلى مرحلة النضج. يمكن للنموذج استخدام مجموعة من الأدوات المستضافة بواسطة xAI بشكل مستقل: تصفح الويب، تنفيذ الكود، قاعدة بيانات متجهة للاسترجاع، تحليل الصور، والمزيد. عندما يتلقى استفسارًا من المستخدم، يقرر Grok-4 (خاصة في وضع "الاستنتاج") ما إذا كان ومتى يجب استدعاء هذه الأدوات. يتم بث كل هذا للمستخدم بشفافية كاملة - قد ترى Grok يقول "يبحث عن الأوراق ذات الصلة..."، ثم يستشهد بتلك الأوراق في الإجابة النهائية. تم تصميم النظام بحيث يكون استخدام الأدوات سلسًا ولا يحتاج المستخدم إلى تنسيقها؛ ما عليك سوى طرح سؤال باللغة البسيطة، وسيتولى Grok الباقي. يلاحظ أن xAI لا تفرض رسومًا على استخدام الأدوات خلال الفترة التجريبية (يريدون تشجيع الاستخدام المكثف للأدوات لتحسين قدرات النموذج).
من الفروع المتخصصة لنموذج Grok-4 هو grok-code-fast-1، وهو نموذج يركز على البرمجة، و Grok 4.1 Fast (للاستدلال وغير الاستدلال)، حيث تم تحسينهما لأداء عالٍ ويتم تقديمهما مجانًا في بعض الحالات. هذا يُظهر استراتيجية xAI في تقديم أحجام وسرعات مختلفة من Grok لتلبية الاحتياجات المختلفة - بدءًا من 4.1 Fast المجاني والقوي (مع تقليل الهلوسة بسبب استخدام الأدوات) إلى الوكيل الثقيل المتقدم للتحليلات المؤسسية.
من حيث التوافق، أُصدرت Grok-4 مع ضمانات أمان أقوى (بعد حوادث Grok-3 حيث أطلقت نكات معادية للسامية وكانت في موقف محرج لفترة وجيزة[19]). قامت xAI بتطبيق فلاتر أكثر صرامة وأكدت أن ردود Grok لا تتأثر بآراء شخصية لموسك[19]. كما قدموا آلية تغذية راجعة حيث يمكن للمستخدمين تقييم الإجابات، مما يساهم في تحسينات مستمرة. بحلول أواخر عام 2025، لم تواجه Grok حوادث عامة كبيرة أخرى، مما يشير إلى أن الجمع بين RLHF، ومدرسي الذكاء الاصطناعي المتخصصين (خبراء المجال الذين يقومون بتحسين النموذج في المجالات الحساسة)، وعمليات الفحص الذاتي متعدد الوكلاء كان يعمل بشكل أفضل. في الواقع، خضعت xAI لتحول إلى “مدرسي الذكاء الاصطناعي المتخصصين” في عام 2025، مفضلة الخبراء في الموضوعات لتنسيق بيانات التدريب (مثل الرياضيين والمحامين، وما إلى ذلك لمراجعة المخرجات) بدلاً من العاملين العامين. من المحتمل أن يكون هذا قد حسن دقة Grok-4 في الحقائق وقلل من التحيزات في المجالات المتخصصة.
فيما يلي ملخص لتطور نموذج Grok من عام 2023 إلى 2025، مع تسليط الضوء على المواصفات والقدرات الرئيسية:
جدول: تطور نماذج xAI Grok (2023–2025)
المصادر: الإعلانات الرسمية لـ xAI، التقارير الإعلامية[22]، وإشاعات حول Grok-5[21].
مع Grok-4، حجزت xAI لنفسها مكانًا واضحًا في مجال الذكاء الاصطناعي. تشمل نقاط القوة الأساسية لـ Grok اعتبارًا من عام 2025:
ومع ذلك، فإن Grok ليس خالياً من القيود:
باختصار، Grok في عام 2025 هو قوي وفريد - ممتاز للمستخدمين الذين يحتاجون إلى الاستدلال المتطور والمعلومات الجديدة، ولكنه يتطلب معالجة دقيقة من جانب الأمان وموارد كبيرة للتنفيذ على نطاق واسع.
كل العيون الآن على Grok-5، الذي كانت xAI تلمح له لعام 2026. بينما التفاصيل الرسمية نادرة، تقارير المطلعين وتلميحات ماسك ترسم صورة طموحة. من المتوقع أن يكون Grok-5 أكثر من مجرد LLM - من المحتمل أن يكون منصة ذكاء اصطناعي وكيلي تأخذ كل ما قام به Grok-4 بشكل جيد وتدفعه إلى الأمام. تشمل الشائعات الرئيسية والميزات المحتملة:
في الوقت الحالي، لدى xAI خارطة طريق للميزات التي قد تُطرح حتى قبل Grok-5 الكامل. تتضمن هذه الميزات أشياء مثل نماذج الذكاء الاصطناعي الشخصية (استخدام بيانات المستخدم الخاصة لإنشاء نموذج شخصي، مع ضوابط الخصوصية)، وتكامل أعمق مع منصة X (Grok كمساعد مدمج لإنشاء المحتوى أو إدارته على X)، وتخصيصات دقيقة لـ Grok حسب المجال (مثل Grok للمالية، وGrok للطب، التي تستفيد من البيانات المتخصصة). كل هذه الأمور ستكتسب زخمًا في الطريق نحو Grok-5.
إذا كنت مهندسًا، أو عالم بيانات، أو قائد منتج يتابع تطور Grok، فإن السؤال الكبير هو كيفية الاستفادة من هذه التطورات. إليك بعض الاعتبارات العملية للاستعداد لـ Grok-5 والنماذج المتقدمة المشابهة:
في الختام، تطورت Grok من xAI بسرعة مذهلة، وإذا كان Grok-5 يرقى إلى مستوى الضجة المحيطة به، فقد يحدد معيارًا جديدًا لما يمكن لمساعد AI فعله - كونه مدقق حقائق، ومحرك تفكير، ووكيل مستقل في آن واحد. من خلال فهم بنية Grok واختيارات التصميم، نرى نموذجًا لأنظمة الذكاء الاصطناعي التي تقدر المعرفة في الوقت الفعلي وشفافية التفكير. سواء تبنيت Grok أم لا، فإن هذه الأفكار (السياقات الطويلة، استخدام الأدوات، التفكير متعدد الوكلاء، التعلم المستمر من التغذية الراجعة) من المرجح أن تكون جزءًا من جميع المنصات الجادة للذكاء الاصطناعي في المستقبل. أفضل شيء يمكن لأي فريق متمرس في التكنولوجيا فعله هو تصميم المرونة والحفاظ على البحث العميق في كيفية إدماج كل نموذج جديد (مثل Grok-5، وGPT-5، وGemini، إلخ) في مجموعتهم. تتحرك مشهد الذكاء الاصطناعي بسرعة البرق – قد يتجاوز Grok-5 المتطور اليوم Grok-4 المتقدم – لكن بالبقاء غير متحيز، مطلع، وقابل للتكيف، يمكنك ركوب الموجة بدلاً من الغرق فيها.
المصادر:
1. xAI News – “مجموعة xAI في ممفيس أصبحت نشطة، مع ما يصل إلى 100,000 من وحدات معالجة الرسومات Nvidia H100”[7] (يوليو 2024)
2. ServeTheHome – “داخل مجموعة كولوسوس 100K GPU الخاصة بـ xAI” (أكتوبر 2024)
3. مدونة AMD ROCm – “استدلال باستخدام Grok-1 على وحدات معالجة الرسومات من AMD” (أغسطس 2024)
4. إعلان xAI – “الإعلان عن Grok-1.5” (مارس 2024)
5. إعلان xAI – “الإصدار المفتوح لـ Grok-1 (بطاقة النموذج)” (نوفمبر 2023)
6. مدونة Encord – “Grok-1.5V متعدد الأنماط – نظرة أولى” (أبريل 2024)
7. مركز مساعدة xAI – 「حول Grok، مساعدك الذكي المرح على X」[11][1] (تم الوصول في نوفمبر 2025)
8. وثائق سحابة أوراكل – 「xAI Grok 4 – معلومات النموذج」[2][22] (2025)
9. The Verge – 「xAI يجري تعديلات على Grok بعد المخرجات المثيرة للجدل」[19] (نوفمبر 2025)
10. مركز أخبار الذكاء الاصطناعي – “شائعات حول xAI Grok 5: وضع الحقيقة 2.0 وما يمكن توقعه”[21] (أغسطس 2025)
[1] [11] [16] [18] [26] [27] حول Grok
https://help.x.com/en/using-x/about-grok
[2] [3] جروك AI: أحدث الأخبار والتحديثات والميزات من xAI | مركز أخبار الذكاء الاصطناعي
https://www.ainewshub.org/blog/categories/grok
[4] [5] بناء كولوسوس: الحاسوب الفائق الرائد من سوبرمايكرو المصمم لشركة xAI التابعة لإيلون ماسك | VentureBeat
[6] [7] [25] تم تشغيل الحوسبة الفائقة لـxAI في ممفيس، مع ما يصل إلى 100,000 وحدة معالجة رسومات من نوع Nvidia H100 - DCD
[8] [9] [10] الإعلان عن Grok-1.5 | xAI
[12] [13] [14] [15] [17] توصيل Grok للجميع | xAI
[19] لماذا ينشر Grok أشياء خاطئة ومسيئة على X؟ إليك 4 ...
https://www.politifact.com/article/2025/jul/10/Grok-AI-chatbot-Elon-Musk-artificial-intelligence/
[20] [21] [23] [24] شائعات xAI Grok 5: تاريخ الإصدار، 'وضع الحقيقة' 2.0، وما يمكن توقعه في أوائل 2026