
المؤلف: بوكسو لي
نموذج Kimi K2 من Moonshot AI هو نموذج لغوي مفتوح المصدر رائد يدفع حدود الذكاء الاصطناعي "الوكيل" – النماذج التي لا تكتفي بالدردشة فقط، بل يمكنها التفكير والعمل. تم الكشف عنه في منتصف عام 2025، يعد Kimi K2 نموذج خليط من الخبراء (MoE) مع عدد غير مسبوق من 1 تريليون معلمة إجمالًا (32 مليار نشطة لكل استنتاج). هذا الحجم الهائل، إلى جانب تقنيات التدريب المبتكرة، قد مكن Kimi K2 من التفوق على النماذج الرائدة الخاصة مثل GPT-4.1 من OpenAI و Claude (Opus 4) من Anthropic في العديد من المعايير المعقدة. على عكس العديد من النماذج اللغوية السابقة التي ركزت على الأسئلة والأجوبة البسيطة أو الحوار، تم تصميم Kimi K2 لحل المشكلات بشكل مستقل – كتابة الأكواد، استخدام الأدوات، وتنفيذ الخطط متعددة الخطوات لإتمام المهام. في هذه المقالة، نلقي نظرة عميقة على بنية النموذج "التفكيرية" المحدثة لـ Kimi K2، وابتكارات التدريب الخاصة بها، وكيفية مقارنتها بالنماذج المماثلة. سنقوم أيضًا بربط المفاهيم التي تمت مناقشتها في مدونة Macaron التقنية (مثل مكدسات الاستدلال الهجينة وأطر متابعة التعليمات) ونلمح إلى كيفية توافق اتجاه البحث والتطوير الخاص بـ Macaron – بما في ذلك نموذج نصي جديد قائم على التعلم المعزز والانتشار – مع هذه التطورات.
في قلب Kimi K2 توجد بنية المزيج من الخبراء (Mixture-of-Experts) للترانسفورمر. بدلاً من شبكة كثيفة موحدة، تقوم MoE بتقسيم النموذج إلى العديد من “الخبراء” المتخصصين حيث يتم تفعيل جزء فرعي فقط لكل رمز. يستخدم Kimi K2 عدد 384 من الخبراء مع توجيه لأعلى 2، مما يعني أن كل رمز يمر عبر 8 خبراء مختارين (بالإضافة إلى خبير واحد مشترك) من بين 384. هذا يمنح تأثير نموذج يحتوي على 1 تريليون معلمة بينما يتم تفعيل فقط 32 مليار معلمة لكل رمز - طريقة فعالة للتوسع. تحتوي البنية على 61 طبقة وبُعد اهتمام يبلغ 7168، مع نافذة سياق تصل إلى 128 ألف رمز (وهو كبير بالنسبة لمعايير الصناعة). ومن الجدير بالذكر أن Kimi K2 قلل من عدد رؤوس الانتباه لتحسين الاستقرار في السياقات الطويلة، وهو تعديل عملي لتجنب التباعد في التدريب في الشبكات العميقة.
تحقيق نموذج بهذا الحجم تطلب التغلب على تحديات تحسين كبيرة. قدمت Moonshot محسّنًا جديدًا يدعى MuonClip، وهو نسخة محسّنة من محسّن Muon من الدرجة الثانية. يستخدم MuonClip تقنية جديدة تسمى QK-clipping التي تقوم بتوسيع مصفوفات الإسقاط الديناميكية للبحث/المفتاح لمنع مشكلة "الاحتمالات المتفجرة" الشهيرة في المحولات. بفضل هذا، تمكنت Kimi K2 من أن يتم تدريبها مسبقًا على 15.5 تريليون رمز مذهل دون أي ارتفاعات في الخسارة - إنجاز يكاد يكون مستحيلًا مع تحسين AdamW التقليدي. بمعنى آخر، تقاربت النموذج بثبات على نطاق يتجاوز بكثير ما حققته نماذج LLM السابقة، مضغوطة بشكل كبير المزيد من بيانات التدريب لتحسين المعرفة والمهارات. استخدام MuonClip وطرق تدريب أخرى (مثل التحديثات ذات الرتبة العالية المتكيفة مع هندسة الخسارة) منحت K2 ميزة كفاءة الرموز، مما يعني أنها تعلمت المزيد من كل رمز مقارنة بالنماذج السابقة. هذا التركيز على استقرار وكفاءة التدريب يعكس بعض المواضيع من أبحاث ماكرون – على سبيل المثال، قامت مختبرات عقل ماكرون باستكشاف محسنات RL البديلة واستراتيجيات التعديل الدقيق لتحسين النماذج الكبيرة جدًا. (راجع مدونة ماكرون التقنية: "توسيع نطاق All-Sync RL باستخدام DAPO و LoRA" لمعرفة كيف managed ماكرون تحسين نموذج يحتوي على 671 مليار معلمة باستخدام 10× أقل من وحدات معالجة الرسوميات بواسطة تحسين مخصص.)
بناء ما قبل التدريب أسس قاعدة قوية لـ Kimi K2، ولكن المميز الحقيقي هو ما جاء بعد التدريب الأولي. خضعت K2 لعملية تدريب لاحقة متعددة المراحل تهدف إلى غرس مهارات التفكير، واستخدام الأدوات، والتوافق. كانت إحدى المراحل الرئيسية خط أنابيب تركيبي للبيانات على نطاق واسع. هنا، قامت الفريق بإنشاء أعداد هائلة من أمثلة المهام متعددة الخطوات: كان على النموذج أن يقوم بتفكيك المشاكل بشكل مستقل، واستدعاء الأدوات، وكتابة وتصحيح التعليمات البرمجية، وتقديم حلول صحيحة مؤكدة. تم استخدام آلاف الأدوات الحقيقية والمحاكاة، وكل مهمة كانت مصحوبة بمعيار يمكن التحقق منه آليًا أو اختبار للتحقق من النجاح. الأهم من ذلك، أن “المدققين” القائمين على نماذج اللغة الكبيرة قاموا بمراجعة أفعال النموذج ومخرجاته، وقاموا بتصفية الإخفاقات. هذه الطريقة - التي يصفها فريق Moonshot كجزء من "اقتصاد المدقق" - ضمنت أن تصبح فقط مسارات التفكير عالية الجودة ردود فعل تدريبية. إنها تشبه إلى حد ما وجود مراجع تعليمات برمجية آلي أو مدقق براهين رياضية بجانب النموذج، على نطاق واسع. من المثير للاهتمام، أن تصميم نظام Macaron الخاص يبرز فكرة مشابهة لـ التفكير القابل للتحقق: على سبيل المثال، يجمع خط أنابيب توليف التعليمات البرمجية المستقل لـ Macaron بين التوليد العصبي والفحوصات والاختبارات الرمزية، وهو نهج هجين يحسن الموثوقية مقارنة بالخروج العصبي الخالص.
بعد تدريب استخدام الأدوات الصناعية، قامت Moonshot بتحسين K2 بشكل أكبر من خلال مرحلة تعزيز التعلم المشترك (RL). خلال تحسين RL، تم السماح لـ Kimi K2 بالتفاعل مع بيئات حقيقية ومحاكاة، وتلقي المكافآت لإنجاز المهام. بشكل فريد، لم تعتمد Moonshot على نماذج المكافآت الثابتة فقط؛ بل قاموا بتدريب نموذج نقدي بجانب K2 لتقييم استجاباته. تم تدريب هذا النقدي أولاً على المهام الموضوعية (حيث يكون النجاح واضحًا، مثل اجتياز اختبارات الوحدة) قبل السماح له بتقييم الجوانب الذاتية (الفائدة، النبرة). من خلال ذلك، قاموا بتخفيف الاختراق في المكافآت وحافظوا على حوافز النموذج متوافقة مع الدقة القابلة للتحقق قبل الأسلوب أو التفضيل. كما تضمنت مرحلة RL تدابير لتثبيت التوليد الطويل: تم تنظيم K2 بعودة قصيرة إلى هدف ما قبل التدريب (لتجنب نسيان المهارات الأساسية)، وتم استخدام تقنيات مثل الحد من المكافآت وتقليل الحرارة لمنع الانجراف والإطالة المفرطة التي يمكن أن تصيب النماذج المضبوطة RL. والنتيجة النهائية لهذا التدريب الدقيق هي أن Kimi K2 أصبح بارعًا للغاية في التفكير متعدد الخطوات واستخدام الأدوات بينما يبقى موثوقًا - في الأساس “وكيل” يمكنه التخطيط والتنفيذ، وليس مجرد محادثة. يمكن اعتبار نظام تدريب Kimi K2 تجسيدًا للعديد من أفضل الممارسات المتقاربة: التعلم الضخم تحت الإشراف، بالإضافة إلى بيانات وكيلة مركزة، بالإضافة إلى تحسين دقيق لـ RL لصقل اتخاذ قرارات النموذج.
إذًا، ماذا تشتري كل هذه الابتكارات من حيث الأداء في العالم الواقعي؟ وفقًا للعديد من المقاييس، حددت Kimi K2 معيارًا جديدًا للنماذج المفتوحة. وفقًا لتقرير Moonshot التقني والتقييمات المستقلة، يقدم K2-Instruct (النسخة المحسنة للتعليمات) نتائج متقدمة بين LLMs مفتوحة المصدر في مهام البرمجة المعقدة والتفكير والمهام متعددة الخطوات. في الواقع، في العديد من المعايير، لا يقود K2 النماذج المفتوحة فحسب، بل يوازي أو يتفوق على بعض النماذج المغلقة الشهيرة. على سبيل المثال، في SWE-Bench (المحقق) - معيار برمجة صعب يقيس إذا ما كان النموذج يمكنه إصلاح الشيفرة بمساعدة الأدوات - يسجل Kimi K2 65.8% دقة، متفوقًا بفارق كبير على GPT-4.1 (54.6%). ويتفوق حتى على Claude 2 من Anthropic (حيث سجل Claude “Sonnet 4” 54.2% في ظل ظروف مشابهة) ويقترب من أفضل نتيجة لـ Claude بميزات التفكير (72.7%). مع بعض الحسابات الإضافية أثناء الاختبار (مثل المحاولات المتعددة بالتوازي)، يمكن لـ K2 أن يعزز نتيجته في هذا المعيار إلى 71.6%، مما يغلق الفجوة بشكل فعلي إلى أداء Claude المتخصص.
يبرز Kimi K2 أيضًا في مهام البرمجة البحتة. على LiveCodeBench، وهو تحدي برمجة شامل، حقق K2 دقة بلغت 53.7%، متفوقًا على GPT-4.1 (44.7%)، وClaude Opus 4 (47.4%)، وDeepSeek-V3 (46.9%) - وهو دليل على قدراته في البرمجة medium.com. هذا يشير إلى أن تدريب K2 على البرمجة وتصحيح الأخطاء (مع جميع أدوات التحقق) أثمر عنه نموذج يمكنه توليد كود صحيح وقابل للتنفيذ بشكل أكثر تكرارًا من النماذج الأخرى. نتيجة أخرى مذهلة تأتي من MATH-500، وهو معيار لمشاكل الرياضيات المتقدمة: حقق Kimi K2 دقة بلغت 97.4%، متفوقًا على GPT-4.1 (الذي سجل 92.4%)medium.com. حل الرياضيات بنسبة نجاح تقارب 97% أمر مذهل، مما يشير إلى قدرات النموذج القوية في التفكير المنطقي الذي يتطلب عادةً التفكير خطوة بخطوة. حصل K2 على درجات مشابهة مثيرة للإعجاب في مهام مثل GPQA-Diamond (حل المشكلات العامة) ومختلف مسابقات البرمجة. سجله البالغ 27.1% على OJBench (مجموعة تحديات برمجة كلاسيكية) هو الأعلى بين النماذج المفتوحة، مما يظهر أنه يمكنه التعامل مع البرمجة الخوارزمية التقليدية إلى درجة medium.com. وعلى معيار متطلب مكثف للمعرفة يسمى Tau2، حقق Kimi K2 نسبة 65.8%، متجاوزًا بسهولة GPT-4.1 (38.6%) وClaude 2 (45.2%)medium.com - هنا، على الأرجح أن قدرة K2 على استخدام الأدوات (مثل التصفح عبر الإنترنت أو الآلات الحاسبة) أعطته ميزة قوية في الإجابة على الاستفسارات المتعلقة بالاتصالات.
من الجدير بالذكر أنه بينما يتفوق Kimi K2 في هذه المجالات، فإنه ليس متفوقًا بصرامة في كل شيء – النظرة غير المتحيزة مهمة. على سبيل المثال، لا يزال لدى Claude 2 تقدم طفيف في أصعب نسخة من معيار SWE-Bench للترميز عند السماح له بـ"التفكير" خطوة بخطوة (72.7% مقابل 65.8% لـ K2). ولا تزال النماذج مثل GPT-4 تتمتع بقدرات يفتقر إليها K2 – وخاصة فهم النصوص المتعددة الوسائط (يمكن لـ GPT-4 رؤية الصور، بينما لا يمكن لـ K2 ذلك حتى الآن) وربما بعض البراعة الحوارية. ركز Moonshot عمداً على توجيه K2 نحو المهام النصية، متخلياً عن أشياء مثل شفافية التفكير المتسلسلة والمدخلات المتعددة الوسائط لصالح السرعة والتخصص. ومع ذلك، فإن الطبيعة المفتوحة المصدر لـ Kimi K2 تمنحه ميزة فريدة: يمكن لأي شخص استخدامه أو ضبطه بدقة، دون الرسوم الباهظة لواجهات برمجة التطبيقات الخاصة. يقدم Moonshot واجهة برمجة تطبيقات لـ K2 بجزء من تكلفة OpenAI (حوالي 2.50 دولار لكل مليون رمز مقابل 8 دولارات لـ GPT-4 لكل مليون). هذا الفعالية من حيث التكلفة، مجتمعة مع الأداء العالي في الترميز والتفكير، يضع K2 كبديل مفتوح جذاب للنماذج من فئة GPT-4. في الواقع، وصف المراقبون Kimi K2 بأنه "أهم إصدار لنموذج ذكاء اصطناعي لهذا العام" في الساحة المفتوحة، مما يمثل استجابة الصين لعمالقة الذكاء الاصطناعي الغربيين. يتبع ذلك نماذج مثل DeepSeek من Alibaba، وفي نواح كثيرة يتجاوز أداء DeepSeek (تفوق K2 على أحدث إصدار من DeepSeek بأكثر من 20 نقطة في معايير الترميز الرئيسية). الخلاصة هي أن Kimi K2 قد حقق مستوى جديدًا من القدرة للنماذج المفتوحة، مما يضاهي أو يتفوق على النماذج القائمة في مجموعة من المهام العملية – وهو تقدم كبير في مشهد LLM سريع الحركة.
ربما يكون التحديث الأكثر إثارة لـ Kimi K2 هو تقديم نموذج K2 “Thinking” المتخصص – وهو نسخة من K2 التي تبطيء وتفكر بعمق. وُصف الإصدار الأصلي K2-Instruct بأنه “بدون تفكير طويل” – حيث تم تعديله لإنتاج إجابات مفيدة بسرعة في لقطة واحدة، وهو أمر رائع لخفض التأخير ولكنه ليس دائمًا مثاليًا لحل المشاكل المعقدة. واعترافًا بذلك، أطلقت Moonshot مؤخرًا Kimi-K2-Thinking، وهو إصدار مصمم صراحةً للتفكير متعدد الخطوات واستخدام الأدوات عبر عدة دورات. في وضع K2-Thinking، يمكن للنموذج التخطيط تلقائيًا لسلسلة من الإجراءات، والانخراط في سلسلة أطول من التفكير الداخلي، واستدعاء الأدوات أو واجهات برمجة التطبيقات الخارجية لجمع المعلومات قبل توفير الإجابات النهائية. تقنيًا، يدعم حتى نافذة سياق تصل إلى 256K رمز (كبيرة للغاية، للاحتفاظ بالحسابات الوسيطة) ويمكنه إخراج حقل reasoning_content خاص يتتبع عملية التفكير الخاصة به. على سبيل المثال، إذا طُلب منه سؤال بحث معقد، فقد يقوم K2-Thinking بتوليد خطة: تقسيم الاستفسار إلى أسئلة فرعية، إجراء بحث على الويب (أحد استدعاءاته للأدوات)، تلخيص النتائج، القيام بالحسابات، ثم تلخيص الإجابة النهائية – كل ذلك أثناء تسجيل هذه الخطوات في reasoning_content. تشير التقارير الأولية إلى أن K2-Thinking يمكنه تفكيك التعليمات ذاتيًا، وتحليل البيانات (مثل ملفات CSV أو JSON عبر الأدوات)، وحتى توليد تقارير منظمة تلقائيًا. هذا يغلق فعليًا الحلقة على قيد K2 الأساسي: عدم وجود دعم لسلسلة التفكير الواضحة. مع K2-Thinking، يقترب نموذج Moonshot من أنظمة مثل نهج “Plan-and-Solve” الخاص بـ GPT-4 أو التفكير الدستوري لـ Claude، حيث يمكن للذكاء الاصطناعي التفكير بصوت عالٍ وتكرار المشكلات الصعبة. إنها خطوة كبيرة لأنها تجمع بين القوة الخام لـ K2 (تلك القاعدة المعرفية الضخمة ومهارة الترميز) مع عملية معرفية شبيهة بالوكيل لمعالجة المهام التي لا يمكن إنجازها في لقطة واحدة.
يتماشى تقديم K2-Thinking مع الأفكار التي استكشفناها في سياق Macaron الخاص. في هندسة التفكير الهجين لـ Macaron، هناك تأكيد على التوازن بين الاستجابات السريعة والتفكير العميق بناءً على المهمة - بشكل أساسي التبديل بين الإدراك "النظام 1" و"النظام 2". يجسد K2 الآن هذا المبدأ في وضعين: وضع الانعكاس الأصلي للإجابات السريعة، ووضع التفكير للمسائل المعقدة. أيضًا، أطر عمل متابعة التعليمات في Macaron أكدت على أهمية تحليل وتفكيك تعليمات المستخدم بشكل صحيح قبل التنفيذ (للسلامة والدقة). يتماشى K2-Thinking بوضوح مع ذلك: من خلال تقسيم المهام صراحةً إلى مهام فرعية واستخدام الأدوات، يكون من غير المحتمل أن يسيء تفسير طلب أو يتخطى خطوة مهمة. علاوة على ذلك، يعكس قدرة K2-Thinking على دمج واجهات برمجة التطبيقات الخارجية فلسفة Macaron بأن الذكاء الاصطناعي الشخصي يجب أن يتفاعل مع العالم (التقاويم، بيانات الويب، التطبيقات) بدلاً من العمل بمعزل عن الآخرين. بمعنى ما، يتطور Kimi K2 من "دماغ" قوي إلى شيء أشبه بوكيل معرفي كامل، وهو بالضبط الاتجاه الذي يعتقد الكثيرون في مجتمع الذكاء الاصطناعي (بما في ذلك Macaron) أنه المستقبل.
مع وجود Kimi K2 (وأسلوب التفكير الجديد) في متناول اليد، كيف تقارن عروض Moonshot مع النماذج المتطورة الأخرى مثل OpenAI GPT-4، Anthropic Claude 2، أو Gemini المشاع من جوجل؟ لقد رأينا بالفعل أن K2 يتفوق على GPT-4.1 وClaude 2 في معايير الترميز والاستدلال - وهو إنجاز مذهل نظرًا لأن تلك النماذج كان لديها ميزة البيانات المغلقة وتطوير أطول. من المهم ملاحظة أن GPT-4 لا يزال لديه نقاط قوة مثل إدخال الرؤية وربما ضبط أكثر دقة للغة الطبيعية. يُعرف Claude 2 (مثل Claude Sonnet 4.5) بردوده المطولة المتوافقة "دستوريًا" واستقلالية طويلة (التعامل مع جلسات طويلة جدًا)، وبالفعل أظهر Claude معدلات نجاح أعلى قليلاً في بعض المهام الوكيلية العميقة عندما سمح له بالتفكير غير المحدود. ومع ذلك، يضيق K2 هذه الفجوة بأسلوب التفكير من خلال اكتساب قدرات مماثلة للأفق الطويل. من حيث المعرفة الخام والرياضيات، قد يكون لدى K2 ميزة (كما يظهر من درجة MATH-500 القريبة من الكمال). Gemini من جوجل، الذي لم يُطلق بعد حتى كتابة هذه السطور، من المتوقع أن يكون نموذجًا متعدد الوسائط ومحسن بشدة قد يتجاوز GPT-4. Kimi K2 ليس لديه تعدد الوسائط بعد (لا فهم للصورة أو الصوت)، لذا قد يكون هذا مجالًا يتأخر فيه عن النماذج الجيل القادم. لكن نهج K2 في استخدام الأدوات المعيارية قد يعوض عن ذلك من خلال السماح له بالاتصال بنماذج الرؤية أو غيرها كأدوات (يمكن تخيل إقران K2 بأداة تسمية الصور لتقليد التفكير المتعدد الوسائط).
يجب أيضًا النظر في النشر والتكلفة. Kimi K2، كونه مفتوح المصدر (بترخيص مرن)، يمكن لأي شخص استضافته ذاتيًا أو تعديله. تصميم MoE يعني أن تشغيله ليس رخيصًا - ستحتاج على الأقل إلى عدة وحدات معالجة الرسوميات A100 أو مشابهة لتقديمه بزمن استجابة منخفض. لقد قدمت Moonshot نسخًا كمية (مثل GGUF quant) التي يمكن تشغيلها على إعدادات أصغر للتجريب، ولكن للاستفادة منه فعليًا في الإنتاج على نطاق 1T الكامل يتطلب أجهزة جادة. هذا هو المقايضة: GPT-4 متاح فقط عبر API (لا يوجد استضافة ذاتية) ولكن العمل الشاق مخفي في السحابة؛ مع K2 تتولى البنية التحتية ولكن تحصل على السيطرة. بالنسبة للمؤسسات التي تهتم بخصوصية البيانات أو التخصيص، يقدم K2 مستوى من الاستقلالية لا توفره النماذج المغلقة. غالبًا ما سلطت مدونات ماكارون الهندسية الضوء على نقاط مماثلة عند دمج النماذج - موازنة قدرة النموذج الخام ضد الاعتبارات العملية مثل زمن الاستجابة، التكلفة، والتحكم. في حالة ماكارون، قاموا بتجارب مع كل من واجهات برمجة التطبيقات المغلقة (مثل Claude) والنماذج المفتوحة (مثل DeepSeek) لتفعيل ميزات مختلفة. هناك اتجاه محتمل يظهر: النشر الهجين حيث يتم استخدام نموذج مفتوح مثل K2 لبعض المهام (مثل الترميز، حيث يتفوق) ونموذج متخصص للآخرين (ربما نموذج حوار أصغر للدردشة العادية، أو نموذج رؤية للصور).
يمثل Kimi K2 من Moonshot (وتحديث K2-Thinking) تقدمًا كبيرًا في نماذج الذكاء الاصطناعي - ليس فقط بسبب الأرقام الأكبر، ولكن لأنها تجمع بين الحجم والقدرات الحقيقية للتفكير في منصة مفتوحة. من الناحية التقنية، يثبت K2 أن هياكل Mixture-of-Experts هي طريق قابل للتطبيق للوصول إلى مستوى تريليون فما فوق، وأن طرق التحسين الجديدة (MuonClip) يمكنها ترويض مثل هذه النماذج دون فشل في التدريب الكارثي. الأداء المتميز للنموذج في معايير التشفير والتفكير هو دليل على أن الحجم الضخم والتدريب الابتكاري قد تُرجما إلى مهارة حقيقية في حل المشكلات. ربما الأهم من ذلك، يعرض Kimi K2 نموذجًا "وكيليًا": حيث تم تدريبه بشكل صريح لاستخدام الأدوات، للتحقق من عمله، وللتحسين عبر التفاعل (RL). هذا يشكل خروجًا عن النماذج التنبؤية الثابتة ذات الطلقة الواحدة في الماضي. إنه يغلق بعض الفجوات مع حل المشكلات بطريقة إنسانية - مثل تقسيم المهام إلى خطوات، واستخدام الموارد الخارجية، ومراجعة النتائج - وكل ذلك ضمن نظام ذكاء اصطناعي واحد. بالنسبة لمجتمع الذكاء الاصطناعي مفتوح المصدر، فإن إطلاق K2 (مع نقاط التحقق الأساسية والمدروسة المتاحة) هو نعمة، مما يمكن الباحثين من البناء على نموذج يمكنه العمل، وليس فقط التحدث. إنه يضع معيارًا جديدًا لما يمكن أن يفعله النموذج المفتوح، مما يضغط على القادة في النماذج المغلقة لتحسين أدائهم أو خفض أسعارهم.
من منظور Macaron، فإن ظهور Kimi K2 يؤكد العديد من الاتجاهات التي نسير فيها في البحث والتطوير الخاص بنا. مناقشات مدونتنا حول الاستدلال الهرمي، وسلاسل الإجراءات القابلة للتحقق، والتعليمات المحسنة تجد مثالًا واقعيًا في تصميم K2. إنه لأمر مشجع أن نرى هذه الأفكار تُطبق على نطاق واسع. بالطبع، هناك دائمًا مجال للتحسين. لا يزال K2 يفتقر إلى التعددية النموذجية وسلسلة التفكير (بينما هي الآن موجودة في نموذج التفكير) هي إضافة جديدة ستتطور بالتأكيد. تظل المواءمة والسلامة تحديات - يمكن أن يُسأل كيف يتصرف النموذج 1T في السيناريوهات العدائية أو المفتوحة التي لا يغطيها نموذج المكافآت الخاص به. هذه هي المجالات التي سيستمر فيها البحث الجاري (بما في ذلك هنا في Macaron). في الواقع، فريق Macaron يستكشف نهجًا جديدًا باستخدام التعلم المعزز بالتوازي مع توليد النصوص المعتمد على الانتشار - بشكل أساسي نموذج انتشار نصي ما بعد التدريب - لتحقيق تحكم أدق في مخرجات الذكاء الاصطناعي. بينما التفاصيل قادمة، نتخيل أن هذا يمكن أن يسمح للذكاء الاصطناعي بـ "التفكير من خلال الانتشار" عبر الاحتمالات بطريقة قابلة للتحكم، مما قد يقلل من المشكلات مثل الهلوسة مع الحفاظ على الإبداع. إنها إشارة دقيقة إلى أين يمكن أن يكون القفزة التالية: الجمع بين قوة نماذج التحويل LLMs (مثل K2) مع تقنيات نماذج الانتشار وضبط التعلم المعزز الدقيق.
باختصار، يعد نموذج K2-Thinking من كيمي K2 بداية لعصر جديد من الذكاء الاصطناعي المفتوح الذي يمكنه التفكير بعمق والعمل بشكل مستقل. إنه يقف كشاهد على التقدم السريع في مجالنا – منذ عام أو عامين فقط، كان مثل هذا الأداء من نموذج مفتوح يبدو وكأنه هدف بعيد المنال (بدون تلاعب بالألفاظ). الآن هو هنا، ويتحدى الجميع للتفكير بشكل أكبر. بينما ندمج هذه التطورات ونجرب أنواعنا الخاصة من الهجائن (سواء كان ذلك من خلال الأكوام الهجينة للتفكير أو هجائن الانتشار-التعلم المعزز)، فإن الخط الفاصل بين ما كان متقدمًا وما هو متاح يستمر في التلاشي. النتيجة للمطورين والمستخدمين مثيرة: أنظمة ذكاء اصطناعي أكثر قوة، شفافية، وقابلية للتحكم تلوح في الأفق، سواء جاءت من Moonshot، OpenAI، أو مختبرات Macaron. وهذا يعني ذكاء اصطناعي لا يفهمنا بشكل أفضل فحسب، بل يمكنه أيضًا العمل جنبًا إلى جنب معنا في المهام المعقدة – مما يجلب حقًا عصر وكلاء الذكاء الاصطناعي والذكاء التعاوني.