Kimi K2: المنافس المفتوح المصدر لـ LLM ينافس ChatGPT-5.1 وClaude 4.5 في الاستدلال

المؤلف: بوكسو لي

ماذا يفكر Kimi K2؟

Kimi K2 Thinking هو أحدث نموذج لغوي كبير (LLM) من Moonshot AI، صُمم كوكيل تفكير يمكنه التفكير خطوة بخطوة واستدعاء الأدوات الخارجية بشكل ذاتي. في جوهره، يعد Kimi K2 نموذج تفكير وكيل مفتوح المصدر يدفع حدود التفكير العميق وتنفيذ المهام طويلة الأمد. تم إطلاقه في أواخر عام 2025، ويتميز بهيكل ضخم يحتوي على تريليون معلمة، ولكنه يعمل بكفاءة عن طريق تفعيل 32 مليار معلمة فقط لكل استنتاج باستخدام تصميم Mixture-of-Experts (MoE)[1]. يتيح ذلك لـ K2 تقديم أداء من الدرجة الأولى في المهام المعقدة دون الحاجة إلى أجهزة غير عملية. كنموذج مفتوح (تم إصداره تحت ترخيص MIT معدل)، فإن Kimi K2 متاح بحرية لمجتمع الذكاء الاصطناعي – تباين ملحوظ مع الأنظمة الملكية مثل سلسلة GPT-5 من OpenAI وClaude من Anthropic.

الميزات الرئيسية والابتكارات

  • التفكير المتسلسل العميق واستخدام الأدوات: تم تدريب Kimi K2 على دمج التفكير المتسلسل مع استدعاء الأدوات الديناميكي. يمكنه استدعاء محركات البحث والآلات الحاسبة ومفسرات الأكواد وواجهات برمجة التطبيقات الأخرى بشكل مستقل أثناء التفكير. بشكل مثير للإعجاب، يظل متماسكًا على مدى 200-300 استدعاء للأدوات دون تدخل بشري[2][3]. النماذج السابقة كانت تتشتت أو تنسى الأهداف بعد 30-50 استدعاء، لذا فإن تركيز K2 طويل الأمد يعد إنجازًا في وكلاء استخدام الأدوات. هذا يمكن من تنفيذ تدفقات عمل معقدة (مثل البحث، البرمجة، الكتابة) تمتد لمئات الخطوات مع البقاء على المسار.
  • نافذة سياق هائلة: بفضل طول سياق يبلغ 256,000 رمز[4][5]، يمكن لـ Kimi K2 معالجة كتب كاملة أو نصوص متعددة الساعات كمدخلات. هذا يتفوق بشكل كبير على سياق معظم النماذج اليوم (للمقارنة، قدم Claude 4.0 100K رمز، وحتى المنافسين الجدد مثل DeepSeek V4 وGoogle Gemini 3 يصلون الآن فقط إلى سياق مليون رمز[6][7]). هذه السياق الضخم يسمح لـ K2 بدمج المعرفة عبر المستندات الطويلة أو الحوارات دون الحاجة إلى تقصير أو نسيان المعلومات السابقة، مما يعزز استمرارية التفكير.
  • كفاءة MoE تريليون معلمة: تحت الغطاء، يستخدم K2 بنية خليط من الخبراء تستخدم 384 شبكة فرعية للخبراء ولكن تقوم بتفعيل جزء فقط لكل استعلام[8]. يعمل بشكل فعال كنموذج ذو 32 مليار معلمة لكل رمز (يختار 8 خبراء لكل رمز)[1]، مما يمنحه قوة نموذج تريليون معلمة بجزء من تكلفة التشغيل. هذا النهج في التوجيه المتناثر يعني أن هناك المزيد من “العقول” المتخصصة التي تتعامل مع جوانب مختلفة من المهمة، مما يحسن التفكير المتعدد المجالات دون الحاجة إلى حاسوب فائق لكل تشغيل. نماذج المعلمات التريليونية كانت نظرية بحتة – Kimi K2 يظهر تصميمًا يمكن تحقيقه حيث يلتقي الحجم الأقصى والعملية.
  • التكمية INT4 للسرعة: بشكل فريد، تم تدريب K2 بعدياً مع التدريب الواعي للتكمية لدعم الأوزان ذات 4 بت بشكل أصلي[9]. هذه التكمية INT4 تقلل من الذاكرة وزمن الاستدلال بحوالي النصف دون فقدان في الدقة[10]. في الممارسة، يعني ذلك أن K2 يمكنه توليد الإجابات أسرع وعلى ذاكرة GPU أقل من النماذج ذات الحجم المماثل. تم الإبلاغ عن جميع نتائج المعايير الخاصة به بدقة INT4[10]، مما يوضح أن الكفاءة لا تحتاج إلى التضحية بالأداء. بالنسبة للمطورين، هذا يخفض الحاجز لاستخدام مثل هذا النموذج الكبير على أجهزة متواضعة.
  • الوكالة المستقرة طويلة الأمد: بفضل نماذج المكافأة المتخصصة والتدريب على الاتساق، يظهر K2 سلوكًا موجهًا نحو الأهداف مستقرًا على مدى الجلسات الطويلة جدًا. يقاوم الانحراف أو التدهور النموذجي الذي تظهره الوكلاء الآخرون بعد العديد من التفاعلات. على سبيل المثال، وجد المختبرون الأوائل أنه يمكنه الحفاظ على السياق والأهداف حتى بعد 300 استدعاء للأدوات أو جلسة تفكير مستمرة لمدة 4 ساعات[11][3]. هذه الموثوقية في المهام الطويلة (مثل حل المشكلات خطوة بخطوة أو مشاريع البرمجة متعددة المراحل) هي فارق رئيسي.

بنية Kimi K2: MoE و"رسم بياني للتفكير"

في الأساس، تجمع بنية Kimi K2 بين بنية Transformer متطورة وطبقة MoE (مزيج من الخبراء) في كل كتلة تقريبًا. يحتوي على 61 طبقة مع 384 خبيرًا في المجموع، باستخدام 64 رأس اهتمام ووظيفة التفعيل SwiGLU[8]. فقط 8 خبراء نشطون لكل رمز، يتم توجيههم بواسطة شبكة بوابة توجه كل استفسار إلى "الخبراء" الأكثر صلة. يمنح هذا التصميم K2 شكلًا من أشكال التفكير المعياري: يمكن للخبراء المختلفين التخصص في المهام الفرعية (الرياضيات، البرمجة، اللغة، إلخ)، ويقوم النموذج بتجميع "رسم بياني للتفكير" لمسارات الخبراء أثناء معالجة الإدخال. في جوهره، كل استفسار معقد يعبر رسمًا بيانيًا لعقد الخبراء، مما يمكّن من تفكير أكثر تنوعًا ودقة من النموذج الأحادي.

تتوافق هذه الفكرة مع الأبحاث الناشئة التي تمثل سلاسل التفكير كرسوم بيانية بدلاً من مسارات خطية، مما يمكن أن يحسن فهم النموذج وقوته. من المحتمل أن تدريب K2 شجع هذا السلوك التفرعي والدمجي في سلسلة التفكير، مما أدى إلى رسم بياني ضمني للتفكير لكل استفسار. النتيجة هي نموذج لغة كبير يقترب من المشكلات بمرونة، مستكشفًا مسارات حل متعددة داخليًا قبل الوصول إلى الإجابات. قد يساهم هذا في درجاته العالية على معايير التفكير. على الرغم من التعقيد، يظل K2 سهل الاستخدام: يذكر المختبرون أنه يعمل بسرعة حوالي 15 رمزًا/ثانية على إعداد مزدوج M3-Ultra (شركة آبل)، ويمكن أن يحتوي نموذج كامل 1T في حوالي 600 جيجابايت من ذاكرة الفيديو مع الضغط[12][13]. بالنسبة لنموذج مجتمع مفتوح المصدر، فإن ذلك يعتبر متاحًا بشكل ملحوظ بالنظر إلى النطاق.

أداء القياس: Kimi K2 مقابل GPT-5.1، Claude 4.5، وDeepSeek

تم اختبار Kimi K2 من Moonshot ضد أفضل النماذج لعام 2025. في العديد من معايير الذكاء الاصطناعي 2025، تحقق K2 نتائج لافتة. فهو يضع معايير جديدة للتميز في العديد من تحديات التفكير، وغالبًا ما يتفوق على نظرائه مغلقة المصدر[2][14]. أدناه لقطة مقارنة لأداء القياس الرئيسي (الأعلى = الأداء الأفضل):

معيار الأداء (2025)
Kimi K2
GPT‑5.1
Claude 4.5
DeepSeek V3.2
آخر امتحان للبشرية (مع الأدوات)
44.9%[15]
41.7%[16]
~32%[16]
20.3%[16]
بحث الويب BrowseComp (مع الأدوات)
60.2%[15]
54.9%[17]
24.1%[18]
40.1%[17]
GPQA (دقة الأسئلة الصعبة)
85.7%[15]
84.5%[15]
79.9%[19]
SWE-Bench (البرمجة، تم التحقق)
71.3%[11][20]
68% (تقدير)
طول نافذة السياق
256K رموز[5]
「متعددة النوافذ」 (مليون+ مع الضغط)[21]
100K رموز
1M رموز (V4)[6]

Table: Kimi K2 Thinking vs. top models – On complex reasoning (HLE) and web research tasks, K2 leads the pack, even edging out GPT-5.1. It excels at agentic tool-augmented benchmarks like BrowseComp, vastly outperforming Claude 4.5 (which struggled with tool use)[15]. GPQA shows K2 matching GPT-5.1 on difficult Q&A, and on coding benchmarks (SWE-Bench), K2 is at the frontier for open models[11][20]. K2’s only category of modest performance is in certain knowledge-heavy tasks where GPT-5.1 or Claude still hold a slight edge[14] – for instance, GPT-5.1 scored a bit higher on some advanced language tasks, and Claude 4.5 reportedly retains an advantage on a few high-level creative writing evaluations. Nonetheless, Kimi K2 has narrowed the gap dramatically. It’s the closest an open model has ever come to the closed “frontier” models in overall capability[22].

لا سيما Humanity’s Last Exam (HLE) – وهو اختبار قاسٍ وشامل يغطي العديد من المجالات – كان عرضاً لـ K2. مع تمكين الأدوات، حقق Kimi K2 نسبة 44.9%، متفوقًا على GPT-5.1 الذي حصل على 41.7%[18]. هذا أمر مهم: HLE هو في الأساس اختبار يشبه تورينج من المعرفة والتفكير، لذا فإن تفوق نموذج مفتوح على نموذج رئيسي لـ OpenAI هنا يعد خبراً يستحق الاهتمام. في BrowseComp، وهو معيار بحث ويب صعب، حقق K2 نسبة 60.2% مقابل 54.9% لـ GPT-5.1، بينما تأخر Claude 4.5 بفارق كبير عند 24%[15]. هذا يبرز كيف يمكن لنماذج "الوكلاء" التي تستخدم الأدوات مثل Kimi K2 أن تهيمن على المهام التي تتطلب استرجاعاً نشطاً واستدلالًا متعدد الخطوات. لم يكن Claude من Anthropic، حتى في وضع التفكير "Sonnet 4.5"، مُحسّنًا لمثل هذه المهام التفاعلية، في حين تم بناء K2 لهذا الغرض.

من الجدير بالذكر أن ليست كل نتيجة انتصاراً لـ K2. لا تزال هناك مجالات (مثل بعض الاختبارات العامة والمهام الإبداعية) حيث GPT-5.1 أو Claude 4.5 يتفوقان[14]. على سبيل المثال، يتفوق GPT-5.1 قليلاً في بعض المعايير الأكاديمية المتقدمة ويساعد التعديل الدقيق الواسع لكلود في تحسين جودة المحادثات المعقدة في بعض الأحيان. ومع ذلك، فإن الفجوات صغيرة، وغالباً ما يفوز K2 أو يتعادل ضمن الهامش. هذا يمثل قفزة هائلة لنماذج LLM مفتوحة المصدر، بالنظر إلى أنه قبل عام فقط كانت أفضل النماذج المفتوحة تتأخر كثيراً وراء أمثال GPT-4.

كيمي K2 مقابل GPT-5.1 Codex-Max

GPT-5.1-Codex-Max الخاص بـ OpenAI هو إصدار متخصص من GPT-5.1 يهدف إلى البرمجة الطويلة الأمد والمهام الوكيلية. إنه نموذج مغلق، ولكن استنادًا إلى المعلومات المتاحة، يستخدم GPT-5.1 بنية كثيفة (مفعّلة بالكامل) من المحتمل أن تكون في نطاق مئات المليارات من المعلمات (لم تكشف OpenAI عن الحجم الدقيق). في المقارنات، كيمي K2 يقف في مواجهة GPT-5.1. في معايير التفكير مثل HLE، تفوق K2 قليلاً على GPT-5.1 باستخدام الأدوات، وكاد يطابق أدائه في الأسئلة المعقدة (نسبة K2 هي 85.7% مقابل 84.5% لـ GPT-5.1 في مجموعة أسئلة صعبة). لا يزال GPT-5.1 يحتفظ بتفوق طفيف في بعض المجالات - على سبيل المثال، تدريبه على الترميز متعدد الخطوات والرياضيات يمنحه درجات شبه مثالية في بعض اختبارات الرياضيات/البرمجة (أفادت OpenAI بأن GPT-5.1 يصل إلى نسبة 99.6% في اختبار AIME للرياضيات باستخدام الأدوات، متفوقًا قليلاً على نسبة K2 البالغة 99.1%). لكن هذه الفروقات طفيفة.

أحد الفروق الكبيرة هو التعامل مع السياق: يحتوي Kimi K2 على نافذة ثابتة من 256 ألف رمز، بينما يستخدم GPT-5.1 Codex-Max استراتيجية "متعددة السياقات" تسمى الضغط. يمكن لنموذج OpenAI العمل عبر نوافذ سياق متعددة، مما يسمح له بالتعامل مع ملايين الرموز في مهمة موسعة واحدة. بدلاً من نافذة واحدة ضخمة، يقوم بتقسيم وضغط السياق حسب الحاجة. هذا يمنح GPT-5.1 شكلاً من مساحة العمل اللامتناهية، مثل قراءة قاعدة كاملة من الأكواد. لا يمكن لـ K2 التعامل مع ملايين الرموز دفعة واحدة بشكل طبيعي – فهو محدود بـ 256 ألف رمز في المرة الواحدة – لكنه لا يزال يمكنه معالجة مستندات ضخمة دفعة واحدة. لذلك في مهام مثل إعادة هيكلة الأكواد بشكل كبير، قد يكون لدى GPT-5.1 ميزة بفضل تعامله الذكي مع السياق. على الجانب الآخر، ميزة Kimi K2 هي إمكانية الوصول: فهو مفتوح المصدر ويمكن استضافته ذاتياً، بينما GPT-5.1 هو خدمة ملكية. يمكن للمطورين دمج K2 عبر APIs متوافقة مع OpenAI أو تشغيله على أجهزة خاصة بهم، مما يتيح لهم تجنب الاعتماد على البائع. في الملخص، يتساوى Kimi K2 وGPT-5.1 في معايير التفكير، لكنهما يختلفان في الفلسفة – أحدهما هو انتصار المجتمع المفتوح في التوسعة، والآخر نموذج مغلق مع حيل متقدمة ملكية.

Claude 4.5 (“سونيت”) مقابل Kimi K2

تمثل Claude 4.5 من Anthropic، والتي رمزت باسم "Claude Sonnet 4.5"، تحديثًا يركز على سلاسل التفكير الأطول وأسلوب "تفكير محادثي" أكثر. قدمت Claude 4.5 رموز التفكير المتداخلة – حيث أن Claude أحيانًا يتحدث مع نفسه لحل مشكلة داخليًا، وهي طريقة كانت فريدة من نوعها لـ Anthropic. ومن المثير للاهتمام، أن هذا مشابه لكيفية تنفيذ Kimi K2 والنماذج الأخرى التفكير المتسلسل، على الرغم من أن Claude تاريخيًا كان يقوم بذلك دون استخدام الأدوات. في المقارنة المباشرة، يتفوق Kimi K2 على Claude 4.5 في معظم المهام المعززة بالأدوات بفارق كبير. كما هو موضح أعلاه، في تحدي BrowseComp (التنقل/البحث على الويب)، حقق K2 نسبة 60% بينما حققت Claude 4.5 فقط 24%. يقترح هذا أن تفكير Claude يتعثر عندما يكون هناك حاجة لاستخدام الأدوات أو التفاعل مع الويب - ربما لأن Claude لم يُبنى بشكل صريح لاستدعاء الأدوات بشكل ذاتي. ومع ذلك، بقيت Claude 4.5 قادرة على المنافسة في اختبارات المعرفة البحتة. على سبيل المثال، في اختبار MMLU الموسع للمعرفة، كانت درجات Claude في الثمانينات العالية، تقريبًا على قدم المساواة مع K2.

فيما يتعلق بالكتابة الإبداعية و"الإحساس"، فإن كلود معروف بأسلوبه الودي والأقل تحديدًا. أشار المستخدمون الأوائل إلى أن Kimi K2 حافظ على جودة كتابة مميزة من النماذج السابقة له، لذا يمكنه إنتاج ردود شبيهة بالبشر وجذابة أيضًا. كلا من كلود وK2 يدعمان سياق أكثر من 100K (كلود يصل إلى 100K، بينما K2 يتجاوز ذلك بكثير)، مما يعني أنهما يتعاملان جيدًا مع المحادثات أو المستندات الطويلة. حيث يتفوق K2 هو في المهام المحددة والهادفة - يبقى على المسار ولا يضل الطريق عبر مئات الخطوات، في حين أن المستخدمين أحيانًا يلاحظون أن كلود قد يتشتت أو يحتاج إلى توجيه أحيانًا في الاستفسارات المعقدة للغاية.

عامل آخر هو الانفتاح: Claude 4.5 مغلق المصدر ويمكن الوصول إليه عبر API (مع تكاليف وقيود)، بينما K2 مفتوح. إذا كان المطور أو الباحث يحتاج إلى فحص النموذج أو تحسينه، فإن K2 يوفر تلك المرونة. باختصار، يُعترف بقوة Claude 4.5 في الذكاء الاصطناعي للمحادثة الطبيعية، ولكن يثبت Kimi K2 أنه أكثر قوة في التفكير المنظم واستخدام الأدوات**، مما يجعله على الأرجح الوكيل "المفكر" الأكثر** قوة بين الاثنين.

DeepSeek V4 وGemini 3: المتحدون الجدد

تشهد ساحة الذكاء الاصطناعي تطورًا سريعًا، وغالبًا ما يتم ذكر اسمين إلى جانب Kimi K2 هما DeepSeek وGemini. DeepSeek V4 (متوقع أواخر عام 2025) هو المنتج الرائد القادم من مختبر DeepSeek في الصين، المعروف بدفع حدود طول السياق والكفاءة بشكل كبير. تشير معاينة إلى أن DeepSeek V4 سيدعم نافذة سياق بمليون رمز - تكفي لاحتواء الحرب والسلام مرتين[6]. هذا يتجاوز حتى سياق K2 ويشير إلى التركيز على استيعاب بيانات ضخمة (مثل قواعد الأكواد أو المكتبات بأكملها) دفعة واحدة. ويشير المختبرون الأوائل لـ V4 إلى زيادة بنسبة 40% في حل المشكلات خطوة بخطوة مقارنة بـ V3 مع تقليل كبير في أخطاء التفكير[27]. إذا كانت هذه الأرقام صحيحة، فقد يتحدى DeepSeek V4 Kimi K2 في مهام التفكير المنهجي. ومع ذلك، فإن نماذج DeepSeek تركز تاريخيًا على "benchmaxing" - التفوق في درجات الاختبار - أحيانًا على حساب الدقة في العالم الحقيقي[28]. يبقى أن نرى ما إذا كان V4 يمكنه مطابقة سلوك K2 الشامل. Kimi K2، مع تدريبه على MoE واستخدام الأدوات، يُعتبر وكيلًا أكثر تكاملاً من البداية، بينما قد يحتاج DeepSeek إلى مكونات إضافية أو توجيهات لتحقيق نفس الشيء.

على الجانب الآخر، Gemini 3 Pro من جوجل هو رد عملاق التقنية على الذكاء الاصطناعي من الجيل التالي. يوصف Gemini 3 Pro كنموذج متعدد الأنماط يركز على “الاستدلال أولًا” مع قدرات وكيلة متقدمة، ويتميز أيضًا بشكل ملحوظ بنافذة سياق 1M رمز [7]. تم بناؤه للتفوق في حل المشكلات المعقدة وحتى التعامل مع الصور والأنماط الأخرى، مع التركيز بشكل مختلف قليلاً عن Kimi K2 الذي يركز فقط على النصوص. في معاييرها الداخلية، يُشاع أن Gemini 3 يتفوق على النماذج السابقة في الاستدلال، البرمجة، والمهام متعددة الأنماط [29][30]. كنموذج مغلق، سيكون Gemini متاحًا عبر خدمات جوجل (مثل Vertex AI) بدلاً من تنزيل الأوزان. وتشير الشائعات إلى أن Gemini 3 قد يتفوق على بعض درجات K2، ولكن حتى يتم اختبارها علنًا، تظل Kimi K2 تحتفظ بالصدارة بين نماذج LLM الوكيلة المعلن عنها.

من اللافت أن الفجوة بين النماذج المفتوحة والمغلقة تتقلص بسرعة. يلاحظ ناثان لامبرت أن كيمي K2 هو "أقرب ما وصلت إليه النماذج المفتوحة إلى حدود الأداء المغلق في أي وقت مضى"[22]. النماذج المفتوحة مثل DeepSeek وKimi تصل الآن إلى المستوى الذي كانت تحتفظ به النماذج المملوكة قبل عام. بالنسبة لممارسي الذكاء الاصطناعي، يعني هذا المزيد من الخيارات والتقدم السريع. يمكن للمرء الاستفادة من Kimi K2 عبر Hugging Face أو Moonshot API اليوم، والاستمتاع بنتائج مماثلة لـ GPT-5.1 في العديد من الحالات، دون قيود النظام المغلق. وبالمثل، فإن المنافسة من DeepSeek V4 وGemini 3 وغيرهم ستدفع على الأرجح لمزيد من الابتكار من OpenAI وAnthropic (الذين "سيضطرون للتعرق" كما يقول المجتمع[31]).

الأسئلة الشائعة: Kimi K2 والذكاء الاصطناعي للمنطق الجيل الجديد

س: ما هو نموذج التفكير Kimi K2؟ ج: Kimi K2 Thinking هو نموذج لغة كبير تم تطويره بواسطة Moonshot AI، وهو مصمم كوكيل للمنطق المستقل. إنه نموذج ذو تريليون معلمة (معمارية مزيج من الخبراء) يمكنه حل المشكلات المعقدة خطوة بخطوة واستدعاء أدوات خارجية (مثل البحث على الويب أو بايثون) أثناء عملية التفكير. Kimi K2 مفتوح المصدر، مما يتيح لأي شخص استخدامه أو نشره، ويحقق أداءً رائدًا في العديد من معايير الذكاء الاصطناعي لعام 2025.

س: هل Kimi K2 مفتوح المصدر ومجاني للاستخدام؟ ج: نعم. تم إصدار Kimi K2 بشكل مفتوح (تحت ترخيص MIT معدل) للمجتمع[1]. يمكنك تنزيل أوزان النموذج من Hugging Face أو استخدامه عبر واجهة برمجة التطبيقات لـ Moonshot[24]. كون Kimi K2 مفتوح المصدر يعني أن الباحثين والمطورين يمكنهم تشغيله على أجهزتهم الخاصة، وضبطه بدقة، أو دمجه في التطبيقات دون دفع رسوم ترخيص (على الأقل للتطبيقات الصغيرة). هذه الإتاحة تمنح ميزة كبيرة مقارنة بالنماذج المغلقة مثل GPT-5.1 أو Claude، المتاحة فقط من خلال واجهات برمجة التطبيقات المدفوعة.

س: كيف يقارن Kimi K2 مع GPT-5.1 وClaude 4.5؟ ج: Kimi K2 يتساوى مع أحدث الإصدارات GPT-5.1 وClaude 4.5 في العديد من مجالات التفكير، وحتى أنه يتفوق عليهما في بعض المقاييس[15][14]. على سبيل المثال، حقق K2 درجات أعلى في اختبار معيار صعب (HLE مع الأدوات) من GPT-5.1[18]، وتفوق بشكل كبير على Claude 4.5 في مهمة بحث على الويب (BrowseComp)[15]. لا يزال GPT-5.1 يمتلك تفوقاً طفيفاً في بعض المهام (ولديه ميزات خاصة مثل معالجة السياق متعدد النوافذ[21])، وClaude 4.5 يتفوق في المهام الإبداعية والتفاعلية. لكن بشكل عام، حقق Kimi K2 مستوى مماثلاً لأفضل النماذج المغلقة في القدرة – إنجاز مذهل لنموذج مفتوح.

س: ما هي الأجهزة اللازمة لتشغيل Kimi K2؟ ج: Kimi K2 كبير: يحتوي على 1 تريليون من المعاملات (مع 32 مليار نشط لكل رمز). يتطلب النموذج الكامل حوالي 500-600 جيجابايت من VRAM لتحميله عند دقة FP16. ومع ذلك، بفضل التكميم بـ 4 بت، يمكن تشغيله في حوالي >150 جيجابايت من VRAM إذا تم استخدام أوزان INT4[12][13]. يضع هذا الأمر في متناول الخوادم أو التجمعات عالية الأداء (على سبيل المثال، يمكن لـ 8× A100 GPUs استضافته). للاستخدام الشخصي، يمكنك أيضًا تشغيل إصدارات أصغر أو استخدام خدمات السحاب. أحد مستخدمي Reddit قام بتشغيل K2 عند ~15 رمز/ثانية باستخدام شريحتين من Apple M3 Ultra (مع النموذج المكوم)[12]. باختصار، على الرغم من أن الأمر ليس سهلاً، إلا أن تصميم K2 الفعال يجعله ممكنًا للتجربة مع مقياس التريليون من المعاملات على إعداد متعدد GPU معقول.

Q: How many tools can Kimi K2 use in one session? A: Kimi K2 can orchestrate an impressive number of tool calls in a single session – around 200 to 300 sequential tool uses without human intervention[2][3]. This means K2 can keep searching, calculating, coding, and so on in a loop for hundreds of steps as it works towards a goal. It maintains context throughout these calls, using a special formatting to intermix “thinking” and tool execution. This capability is part of why it’s called a “thinking” model – it’s effectively running an autonomous agent loop internally. By contrast, most earlier models would go off track or forget the goal much sooner (after a few dozen tool uses at best).

الآثار: مستقبل الذكاء الاصطناعي الوكيل وانتشار الذاكرة

يمثل ظهور Kimi K2 لحظة محورية لنماذج التفكير الذاتية. لدينا الآن نظام مفتوح المصدر ينافس أفضل النماذج المغلقة في التفكير المعقد وتنفيذ المهام الذاتية. هذا يطمس الخط الفاصل بين قوى الذكاء الاصطناعي المملوكة والمشاريع المدفوعة من المجتمع. بالنسبة لمجال الذكاء الاصطناعي، يشير إلى أن التقدم الأساسي (مثل السياق الطويل، تكامل استخدام الأدوات، والحجم الضخم) ليس حصريًا للشركات التي تقدر قيمتها بالتريليونات. إصدارات النماذج المفتوحة الأسرع وسد فجوة الأداء تضغط على المعامل المغلقة للابتكار بما يتجاوز مجرد زيادة عدد المعلمات[31]. من المحتمل أن نشهد دورة سريعة من التفوق المتبادل، حيث تتبنى النماذج المفتوحة الأبحاث الجديدة بنفس سرعة النماذج التجارية أو حتى أسرع. هذه الديناميكية التنافسية تفيد المستخدمين النهائيين والباحثين، حيث تصبح النماذج أكثر قدرة وشفافية وقابلية للتخصيص.

بالنسبة لـ انتشار الذاكرة في Macaron والجهود المماثلة، فإن نجاح Kimi K2 يعد تأكيدًا. يتماشى انتشار الذاكرة - نهج Macaron لمنح الوكلاء الذكاء الاصطناعي بذاكرة عميقة ومستمرة على فترات طويلة - مع الاتجاه الذي يمثله K2. أظهر Kimi K2 أن السياق الطويل للغاية والاستدلال المستقر على المدى الطويل يمكن تحقيقه في الممارسة، وهو بالضبط النوع من القدرة التي يسعى انتشار الذاكرة لتوفيرها. يمكن أن يؤدي دمج ذاكرة طويلة الأمد غنية في نموذج وكيل إلى تمكين وكلاء الذكاء الاصطناعي من التعلم مدى الحياة الذين يحتفظون بالمعرفة ويقومون بتنقيحها بمرور الوقت. يلمح K2 إلى هذا المستقبل من خلال الحفاظ على التماسك خلال جلسات طويلة لاستخدام الأدوات؛ ربما تكون الخطوة التالية هي النماذج التي تتذكر عبر الجلسات، وتنشر باستمرار معلومات جديدة في مخزن معرفة مستمر. مشروع انتشار الذاكرة في Macaron مستعد للاستفادة من هذه التطورات، وربما يجمع بين رسوم بيانية للاستدلال مثل K2 وآليات ذاكرة طويلة المدى لإنشاء ذكاء اصطناعي يتعلم باستمرار.

في الختام، Kimi K2 Thinking ليست مجرد نموذج كبير آخر - إنها خطة للمكان الذي تتجه إليه الذكاء الاصطناعي. يوضح أن نموذجًا مفتوح المصدر يمكن أن يحقق قدرة استدلال من الدرجة الأولى بالهيكل والتدريب الصحيحين. عندما ندخل هذه الأفكار في الأنظمة الجديدة (سواء كان نموذج OpenAI القادم، أو Google’s Gemini، أو وكلاء Macaron الخاصين)، نقترب من الذكاء الاصطناعي الذي يمكن أن يفكر، يتذكر، ويعمل بشكل موثوق عبر آفاق غير محددة. لأي شخص يتابع الذكاء الاصطناعي، أداء Kimi K2 هو إشارة واضحة: عصر الذكاء الاصطناعي الوكيل القوي والمفتوح قد وصل، والتأثيرات المتتابعة - المزيد من الابتكار، المزيد من التعاون، ونعم، المزيد من انتشار الذاكرة الداخلية - ستشكل الجيل القادم من الوكلاء الأذكياء.

[1] [11] [12] [13] [15] [18] [20] [24] مراجعتي العملية لـ Kimi K2 Thinking: الذكاء الاصطناعي مفتوح المصدر الذي يغير اللعبة : r/LocalLLaMA

https://www.reddit.com/r/LocalLLaMA/comments/1oqi4qp/my_handson_review_of_kimi_k2_thinking_the/

[2] [4] [8] [16] [17] [19] [23] [26] moonshotai/Kimi-K2-Thinking · Hugging Face

https://huggingface.co/moonshotai/Kimi-K2-Thinking

[3] [5] [9] [10] [14] [22] [25] [28] [31] ٥ أفكار حول Kimi K2 Thinking - بقلم Nathan Lambert

https://www.interconnects.ai/p/kimi-k2-thinking-what-it-means

[6] [27] معاينة DeepSeek V4: نافذة سياق بمليون رمز وتسريع الاستدلال | بواسطة هندسة الذكاء الاصطناعي | سبتمبر، 2025 | Medium

https://ai-engineering-trend.medium.com/deepseek-v4-preview-million-token-context-window-and-inference-acceleration-73496d89f814

[7] نماذج Google  |  الذكاء الاصطناعي التوليدي على Vertex AI  |  توثيق Google Cloud

https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models

[21] بناء المزيد مع GPT-5.1-Codex-Max | OpenAI

https://openai.com/index/gpt-5-1-codex-max/

[29] يتوفر Gemini 3 للمؤسسات | مدونة Google Cloud

https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-is-available-for-enterprise

[30] ثلاث سنوات من GPT-3 إلى Gemini 3 - بقلم إيثان مولليك

https://www.oneusefulthing.org/p/three-years-from-gpt-3-to-gemini

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends