
المؤلف: بوكسو لي
في المشهد المتطور للذكاء الاصطناعي، حيث أدى التعليم المسبق على نطاقات هائلة إلى قدرات ثابتة هائلة، تنتقل الحدود الآن من بناء نماذج ثابتة أكبر إلى إنشاء أنظمة وكيلة - وكلاء ذكاء اصطناعي يمكنهم التفكير بعمق، واستخدام الأدوات، والرؤية والتذكر، والتعلم المستمر من التجربة[1].
منصة تينكر في معمل الآلات الذكية، مع إعلانها عن التوفر العام في 12 ديسمبر 2025، تمثل قفزة بنيوية محورية، مما يتيح الوصول الديموقراطي إلى تحسين وضبط النماذج متعددة الوسائط ذات التريليونات من المعلمات. في الوقت نفسه، يوضح معمل العقل - قسم البحث في ماكرون للذكاء الاصطناعي - إطارًا فلسفيًا وتقنيًا لـ"الذكاء التجريبي"، حيث تنتقل النماذج من مستودعات المعرفة المجمدة إلى عمليات ديناميكية تصقل نفسها عبر التغذية الراجعة من العالم الحقيقي. يوفر هذا التقارب فرصًا عميقة لتحسين التصميم المشترك للبحث والمنتج، وإغلاق الحلقة بين الابتكار الخوارزمي والتكيف المستخدم.
الابتكارات الرئيسية في تحديثات تينكر
في هذه المقالة، سنستعرض نموذج الاستدلال Kimi K2 الجديد من Tinker، وواجهة التوافق مع OpenAI، ونماذج الرؤية Qwen3-VL، ثم نستكشف فلسفة Mind Lab الخاصة بالذكاء التجريبي، واختراقاتهم في التعلم المعزز (RL) ذو التريليون معلمة، ونهج نشر الذاكرة، والآثار الاستراتيجية لبناء الجيل القادم من أنظمة الذكاء الاصطناعي.
Tinker هي منصة تدريب للذكاء الاصطناعي مصممة للسماح للباحثين بتحسين النماذج الحديثة ونشرها دون القلق بشأن البنية التحتية [2][3]. في ديسمبر 2025، أعلنت Tinker عن عدة تحديثات رئيسية تعزز من قدرات الاستدلال، واستخدام الأدوات، وفهم الرؤية للنماذج الذكية [4]:
[15] مقارنة بين النموذج المعدل Qwen3-VL-235B (نموذج رؤية-لغة) و DINOv2 (نموذج رؤية فقط) في مهام تصنيف الصور مع أمثلة محدودة البيانات. يحقق Qwen3-VL دقة أعلى، خاصة في بيئات البيانات القليلة (أقصى اليسار)، بفضل فهمه البصري المستند إلى اللغة.
حتى مع وجود مثال واحد فقط لكل فئة، حقق نموذج Qwen3-VL بقدرة 235 مليار دقة معقولة، متفوقًا بشكل كبير على DINOv2 في هذا النظام المتطرف لقلة البيانات[15]. مع زيادة عدد الأمثلة، تحسن كلا النموذجين، ولكن احتفظ Qwen3-VL بتفوقه، مما أظهر قدرة أقوى على التعميم بعدد قليل من الأمثلة[16]. تأتي الأفضلية من المعرفة المدمجة بالنموذج للغة والعالم – على سبيل المثال، لدى Qwen3-VL مفهوم مسبق لما تبدو عليه أو توصف به أشياء مثل "زهرة عباد الشمس" أو "جولدن ريتريفر" بفضل تدريبه المتعدد الوسائط[16]. هذا يعني أنه يمكنه التعرف على الصور الجديدة أو تصنيفها بأقل عدد من الأمثلة الجديدة. بشكل عملي، يمكن لمستخدمي Tinker تحقيق دقة عالية في مهام الرؤية باستخدام مجموعات بيانات صغيرة جدًا من خلال استغلال هذه النماذج الكبيرة للرؤية-اللغة. هذه القدرة على الرؤية الفعالة بالبيانات ضرورية في السيناريوهات الواقعية حيث تكون البيانات المصنفة نادرة. كما يشير إلى قوة الاستدلال المعزز بالأدوات: نموذج "يرى" يمكنه استغلال كل من الإشارات البصرية والسياق اللغوي، مما يجعله عاملًا أكثر تنوعًا (على سبيل المثال، قراءة مخطط وشرحه، أو استخدام صورة كجزء من سلسلة الاستدلال). بشكل عام، يضيف Qwen3-VL إلى Tinker بُعدًا جديدًا، ممتدًا المنصة من النصوص البحتة إلى المجال البصري، مما يتيح عمليات استدلال متعددة الوسائط تحت نفس واجهة برمجة التطبيقات الموحدة.
على صعيد البحث، مختبر العقل – مختبر أبحاث جديد تابع لـ Macaron AI – يتصدى لتحدي جعل وكلاء الذكاء الاصطناعي حقًا تكيفيين وتجريبيين. فلسفة مختبر العقل هي أن "الذكاء الحقيقي يأتي من التجربة الحقيقية، وليس فقط من التدريب المسبق الأكبر". بعبارة أخرى، ببساطة زيادة حجم النماذج على مجموعات بيانات ثابتة ليس كافيًا؛ القفزة القادمة في الذكاء الاصطناعي ستأتي من الأنظمة التي تتعلم باستمرار من التفاعلات، على غرار تراكم البشر للتجارب. يضع مختبر العقل هذه الرؤية باعتبارها الذكاء التجريبي – الانتقال من "عقول" ثابتة إلى "عقول" تكيفية يمكنها تشكيل نماذج عالمية داخلية، وتحديث معرفتها من خلال التغذية الراجعة، ولديها أهداف أو قيم صريحة، وحتى التفكير في أفعالها الخاصة. هذا استجابة مباشرة لقيود النماذج اللغوية الكبيرة الحالية، التي غالبًا ما تكون قوية ولكن مجمدة بعد التدريب المسبق. من خلال تقديم آليات للتكيف الحقيقي – مثل التعلم التعزيزي المستمر والذاكرة الديناميكية – يهدف مختبر العقل إلى إنشاء وكلاء يتطورون مع الاستخدام.
ركيزتان أساسيتان في عمل مختبر العقل هما: (1) تحسين ضبط النماذج الضخمة باستخدام التعلم المعزز الفعال لإضفاء سلوكيات جديدة، و**(2) أنظمة الذاكرة المتقدمة** التي تسمح للوكيل الاحتفاظ بالمعرفة طويلة الأمد واستخدامها. كلاهما يهدف إلى جعل الذكاء الاصطناعي أكثر استقلالية (القدرة على اتخاذ القرارات والتحسين بشكل ذاتي) وربط التقدم في البحث بنشر المنتجات بشكل وثيق.
من أبرز إنجازات مختبر مايند هو إثبات التعلم التعزيزي بمقياس تريليون معلمة - والقيام بذلك بطريقة عملية وفعالة من حيث التكلفة. في ديسمبر 2025، أعلنوا عن أول نظام تعلم تعزيزي شامل على نموذج التفكير Kimi K2 ذو 1.04 تريليون معلمة، وقد تحقق ذلك باستخدام حوالي 10٪ فقط من موارد وحدة معالجة الرسومات التي تتطلبها مثل هذه التدريبات عادةً[19]. كيف كان ذلك ممكنًا؟ قام الفريق ببناء محرك تدريب متخصص يجمع بين التخصيص الفعّال للمعلمات (LoRA) و التوازي الهجين عبر هيكل نموذج مزيج الخبراء[20][21].
بدلاً من ضبط جميع الأوزان التريليونية، يتبع مختبر Mind Lab نهجًا يقوم بحقن مصفوفات التكيف ذات الرتبة المنخفضة في طبقات مختارة من Kimi K2 (في كل من العمود الفقري الكثيف وداخل طبقات الخبراء) ويقوم بتحديث تلك الطبقات فقط أثناء عملية التعلم المعزز. ويساهم ذلك بشكل كبير في تقليل عدد المعاملات القابلة للتدريب (على سبيل المثال، رتبة LoRA التي تكون بضع عشرات أو مئات لكل طبقة، بدلاً من المصفوفات الكاملة) وبالتالي تقليل استخدام الذاكرة والحوسبة بشكل ضخم. في الوقت نفسه، يتطلب تدريب نموذج بهذا الحجم توزيع العبء عبر العديد من وحدات معالجة الرسوميات (GPUs) بكفاءة. وقد اعتمد الفريق استراتيجية موازية هجينة: استخدام منسق للتوازي في التنسورات، والتوازي في الأنابيب، والتوازي في الخبراء (لخبراء MoE)، والتوازي في التسلسل (للتدريب على التسلسل الطويل)، وكلها متوافقة مع تحديثات LoRA المجزأة. عمليًا، هذا يعني الاستفادة من أطر تدريب النماذج الكبيرة الحالية (مثل Megatron من NVIDIA وVolcEngine RL من ByteDance)، تعزيزها للتعامل مع LoRA على MoE، وتحقيق توازن دقيق في الحساب عبر 64 وحدة معالجة رسومية في الكتلة. النتيجة كانت تدريب معزز مستقر داخل السياسة (شبيه بخوارزمية PPO) على النموذج الكامل Kimi K2 مع نموذج مكافأة يوفر ملاحظات حول جودة التفكير - وهو أمر كان يُعتقد سابقًا أنه غير ممكن لمعظم الفرق بسبب التكلفة.
الأهم من ذلك، أنه نجح: حقق النموذج المحسن LoRA لكيمي K2 تحسينات كبيرة في مهام التفكير ذات الأفق الطويل، مع منحنيات تعلم سلسة وبدون انحراف[25]. بشكل حاسم، احتفظ النموذج المعدل بالمهارات العامة للنموذج الأساسي (بفضل تغييرات الوزن البسيطة والمركزة فقط) بينما اكتسب سلوكيات جديدة خاصة بالمهام[26]. هذا يعني أن المعرفة السابقة الضخمة للنموذج الأساسي لم تُستبدل، بل تم تعزيزها - وهو فائدة رئيسية لتحسين LoRA. في الواقع، أكدت تجارب Mind Lab أن النماذج الأكبر توفر أساسًا أقوى للتعلم التعزيزي. تحت ميزانية تدريب ثابتة، تفوق نموذج كبير مع محولات LoRA صغيرة على نموذج أصغر تم تدريبه بالتعديل الكامل، سواء في المهام داخل المجال أو عند الانتقال إلى مهام جديدة[27]. كما يقول الفريق، التعلم التعزيزي هو “محدود بالمعرفة السابقة” - إذا لم يتمكن النموذج الأساسي من توليد مسارات عالية الجودة من البداية، فلن يكون للتعلم التعزيزي إشارة قوية لتعزيزها[27]. يوفر النموذج المسبق القوي مثل كيمي K2 للتعلم التعزيزي مجموعة غنية من السلوكيات لتحسينها، بينما يتعين على تدريب نموذج صغير من الصفر اختراع تلك السلوكيات من جديد. هذه البصيرة تقلب الحكمة التقليدية: قد يكون أكثر كفاءة في الحوسبة القيام بالتعلم التعزيزي على نموذج كبير (مع معرفة سابقة قوية وكفاءة LoRA) من القيام بالتعلم التعزيزي على نموذج أصغر، حتى لو كان النموذج الأصغر أرخص لكل خطوة[28]. مساهمة Mind Lab هنا ليست مجرد خوارزمية، بل استراتيجية بنية تحتية - مخطط لجعل التعلم المستمر ممكنًا على أكبر النماذج. لقد قاموا بنقل طرقهم إلى مشاريع مفتوحة المصدر (Megatron-Bridge, VERL)[29]، بحيث يمكن للمجتمع إعادة إنتاج هذا العمل والبناء عليه، مما يتيح للعديد من المجموعات تحسين عوامل ذات تريليون معلمة على ميزانيات أجهزة متواضعة.

عرض توضيحي مباشر لانتشار الذاكرة
جبهة أخرى تستكشفها شركة Mind Lab هي كيفية تعامل وكيل الذكاء الاصطناعي مع الذكريات طويلة الأمد لتفاعلاته. تعتمد العديد من الأنظمة الحالية على قاعدة بيانات موجهة لاسترجاع مقتطفات من المحادثات السابقة أو استخدام تقنيات التلخيص لضغط التاريخ. تقترح Mind Lab نظام ذاكرة أكثر تكاملاً، يُسمى نشر الذاكرة، مدمج بشكل طبيعي مع النموذج[30]. الفكرة هي معالجة تسلسل الحوار الكامل للوكيل أو مساره كذاكرة قابلة للتحرير داخل سياق النموذج، بدلاً من أن تُخزن خارجيًا. يعمل نشر الذاكرة عن طريق الحفاظ بشكل تكراري على نافذة ذات حجم ثابت للسياق من خلال حلقة قناع–تخصيص–تعبئة[30]. في كل خطوة، يقرر النموذج أي الرموز (قطع من المحادثات السابقة) يحتفظ بها (قناع) وأيها يسقط، ثم يملأ المساحة المحررة بمحتوى جديد وارد – مع احترام ميزانية صارمة للرموز لطول السياق[30]. في الأساس، يتعلم النموذج إدارة سياقه الخاص، وضغط أو نسيان التفاصيل الأقل أهمية والاحتفاظ بالحقائق المهمة مع نمو التفاعل. هذا يشبه النسيان الذكي، حيث لا يكون الهدف هو تذكر كل شيء إلى الأبد (وهو غير ممكن نظرًا لحدود طول السياق)، بل تذكر الأمور بشكل مفيد ضمن قيود حقيقية[30].
من خلال العمل على مستوى تسلسل الرموز، تتجنب تقنية انتشار الذاكرة الحاجة إلى تضمينات خارجية أو البحث عن التشابه؛ حيث تعيش "الذاكرة" في نفس الفضاء التمثيلي كسياق العمل للنموذج. تشير تقارير مختبر العقل إلى أن هذا النهج يحقق أداء ذاكرة طويل الأمد من الطراز الأول، مما يعني أن الوكيل يمكنه الاستمرار في المحادثات أو المهام الممتدة دون فقدان المعلومات المهمة، وكل ذلك من خلال آليات تعلم داخل النموذج. كما يعمل في وقت مستمر بالنسبة لحجم السياق – لا يوجد انفجار في تكلفة الاسترجاع مع نمو التاريخ، حيث يتم تثبيت طول السياق وإدارته عبر عمليات القناع/التعبئة. عمليًا، يمكن لوكيل مع تقنية انتشار الذاكرة المشاركة في محادثة تستمر لآلاف الأدوار، وعلى الرغم من أنه لا يمكنه الاحتفاظ بكل التفاصيل، إلا أنه سيقرر باستمرار ما يجب الاحتفاظ به في الذاكرة. ستبقى تفضيلات المستخدم المهمة أو الأسئلة غير المحلولة، بينما يمكن حذف الدردشة البسيطة من وقت سابق. يتعامل هذا النهج مع الذاكرة كمكون أساسي في إدراك النموذج، متماشيًا مع رؤية مختبر العقل بأن الذاكرة يجب أن تكون جزءًا نشطًا ومتعلماً من النظام بدلاً من كونها مجرد مستودع بيانات سلبي.
اقرأ المزيد في مدونتنا التقنية
تشكل الإمكانات الأساسية لـ Tinker والكفاءات الخوارزمية لمختبر Mind Lab تآزرًا طبيعيًا. يتيح Tinker التطبيق المباشر لـ LoRA RL الهجين الخاص بـ Mind Lab على Kimi K2 و Qwen3-VL، مما يسهل الحلقات العاملة متعددة الوسائط.
في التصميم المشترك للبحث والمنتج - المبدأ الأساسي لمختبر Mind Lab - يظهر هذا كما يلي:
استراتيجياً، يسرع هذا النهج من عملية التكرار: تصبح المنتجات حقول تجريبية، مما ينتج بيانات عالية الدقة تعمل على تحسين فرضيات البحث. على سبيل المثال، يمكن أن تساعد مكاسب التصنيف البصري القليل من Tinker في تحديد أهداف التعلم التعزيزي في الوكلاء البصرية المنشورة، مما يؤدي تدريجياً إلى مواءمة سياسات الإدراك مع تفضيلات المستخدم.
تقليديًا، كانت أبحاث الذكاء الاصطناعي تنتج نموذجًا أو خوارزمية، ثم تقوم فرق المنتجات بشكل منفصل بكيفية نشرها، مع وجود تكرار بطيء نسبيًا بين الاثنين. بدلاً من ذلك، يعمل مختبر مايند على فلسفة التصميم المشترك بين البحث والمنتج: حيث يتم اختبار كل تقنية جديدة بسرعة في بيئة وكيل مباشر، وتولد تفاعلات المستخدمين الحقيقية بيانات لتحسين البحث [32].
“البحث والمنتج لم يعودا مسارين منفصلين. بل هما دائرة مغلقة للتغذية الراجعة: تجربة المستخدم → البيانات → تدريب التعلم المعزز → النشر → تحسين تجربة المستخدم → بيانات أغنى → تتكرر.” [33]. عمليًا، يعني هذا أنه عندما يحسن مختبر مايند خوارزمية التعلم المعزز أو نظام الذاكرة، فإنهم يدمجونه في وكيل يواجه المستخدم الفعلي (على سبيل المثال، مساعد Macaron الشخصي للذكاء الاصطناعي) ويلاحظون كيف يعمل مع المستخدمين الحقيقيين. ثم يتم إعادة تغذية بيانات الاستخدام – مثل الأسئلة التي يطرحها المستخدمون، وأين ينجح الوكيل أو يفشل، والتغذية الراجعة الصريحة – كإشارة تدريب (من خلال الضبط الدقيق بالإشراف أو التعلم المعزز) لتحديث النموذج التالي. هذه الدورة المحكمة تسرع التعلم بشكل كبير: فالمنتج هو التجربة.
إحدى النتائج المترتبة هي استخدام نماذج المكافأة المتدفقة وRLHF عبر الإنترنت (التعلم المعزز من ملاحظات الإنسان). بدلاً من جمع مجموعة بيانات ثابتة من مقارنات تفضيلات الإنسان وتدريب نموذج المكافأة مرة واحدة، فإن إطار عمل Mind Lab يتصور تحديث نموذج المكافأة باستمرار مع وصول ملاحظات جديدة أثناء النشر. على سبيل المثال، إذا كان الوكيل يحل المهام للمستخدمين ويحصل أحيانًا على إشارة عدم إعجاب أو تصحيح، يمكن بث هذه الإشارات إلى نموذج المكافأة لتحسين فهمه للسلوك "الجيد" فورًا. في المرة التالية التي يتم فيها تشغيل التعلم المعزز (والتي قد تحدث بانتظام أو حتى بشكل غير متزامن)، يوجه نموذج المكافأة المحدث السياسة لتتوافق بشكل أفضل مع تفضيلات المستخدم. هذا المفهوم للتعلم المعزز المتدفق يحول النشر إلى امتداد للتدريب - فكلما استمر الوكيل في العمل في العالم الحقيقي، زادت الخبرة التي يجمعها، وأصبح أفضل. الواجهة المتوافقة مع OpenAI التي يوفرها Tinker تكمل في الواقع هذه الاستراتيجية: فهي تسمح بدمج هذه النماذج المتعلمة باستمرار في المنتجات والأدوات الحالية بسهولة، مما يعني أن مختبر البحث يمكنه دفع إصدارات جديدة من النماذج إلى منتج بسرعة ومراقبة النتائج، دون الحاجة لإعادة بناء التكامل في كل مرة.
من جانب Tinker، فإن قدرة المنصة على أخذ عينات من نموذج أثناء التدريب [10] يمكن أن تسهل مثل هذه الحلقات التكرارية من خلال تمكين التقييمات الوسيطة واتخاذ قرارات ضبط دقيقة. من جانب Mind Lab، يضمن حلقة التصميم المشترك أن ابتكاراتهم (مثل RL على مقياس تريليون أو انتشار الذاكرة) يتم اختبارها في حالات استخدام حقيقية. تبرز هذه المقاربة التحديات العملية مبكرًا (مثل كيفية التعامل مع التأخير أو المدخلات غير المتوقعة من المستخدمين) وتغلق الفجوة بين البحوث المتقدمة والمنتجات الذكية التي تواجه المستخدم. المكاسب الاستراتيجية هي أن التحسينات مدفوعة بالاحتياجات الواقعية ومؤكدة مباشرة ضد الاستخدام الواقعي. كما يلاحظ Mind Lab، التقدم الحقيقي يأتي من "التعلم المستمر من تفاعلات المستخدم والمنتج" [33]، والوكيل الذي يمكنه التكيف في الموقع سيقدم في النهاية تجربة مستخدم أفضل بكثير من الذي يظل ثابتًا عند النشر.
مجتمعة، تبرز التطورات من Tinker وMind Lab تحولًا عميقًا في كيفية بناء أنظمة الذكاء الاصطناعي – من النماذج الثابتة إلى الوكلاء المتكيفين المصممين بشكل مشترك مع بيئاتهم. تظهر عدة تداعيات رئيسية:
بينما تستقر قوانين التوسع الثابتة، يمثل الدمج الذي يظهر من خلال تخصيص Tinker القابل للوصول على مستوى التريليونات وتجربة RL الفعالة من Mind Lab عصرًا تحوليًا. من خلال تضمين التكيف في دورة المنتج، نتجاوز العقول الهشة نحو عقول مرنة - أنظمة لا تكتفي فقط بالتفكير والإدراك على مستويات متقدمة بل تنمو بشكل تبادلي مع بيئاتها. يعد هذا المسار التطوري المشترك بذكاء اصطناعي لا يقتصر فقط على القدرات، بل يصبح بشكل مستمر أكثر توافقًا مع احتياجات البشر وتعقيدات العالم الحقيقي.
[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence
https://ar5iv.labs.arxiv.org/html/2507.20534
[2] [3] [8] [9] تانكر - مختبر الآلات المفكرة
https://thinkingmachines.ai/tinker/
[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: التوفر العام والمدخلات البصرية - مختبر Thinking Machines
https://thinkingmachines.ai/blog/tinker-general-availability/
[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] كيف نبني نظام تعزيز التعلم مع تريليون معلمة باستخدام 10٪ من وحدات معالجة الرسومات
[17] [30] [33] ماكارون AI | LinkedIn
https://www.linkedin.com/company/macaronaiofficial
[18] [19] [29] [31] [32] تقديم مختبر العقل — الذراع البحثي لـ Macaron AI