من النماذج الثابتة إلى الوكلاء التكيفيين: الابتكارات في تينكر ومعمل العقل

المؤلف: بوكسو لي

في المشهد المتطور للذكاء الاصطناعي، حيث أدى التعليم المسبق على نطاقات هائلة إلى قدرات ثابتة هائلة، تنتقل الحدود الآن من بناء نماذج ثابتة أكبر إلى إنشاء أنظمة وكيلة - وكلاء ذكاء اصطناعي يمكنهم التفكير بعمق، واستخدام الأدوات، والرؤية والتذكر، والتعلم المستمر من التجربة[1].

منصة تينكر في معمل الآلات الذكية، مع إعلانها عن التوفر العام في 12 ديسمبر 2025، تمثل قفزة بنيوية محورية، مما يتيح الوصول الديموقراطي إلى تحسين وضبط النماذج متعددة الوسائط ذات التريليونات من المعلمات. في الوقت نفسه، يوضح معمل العقل - قسم البحث في ماكرون للذكاء الاصطناعي - إطارًا فلسفيًا وتقنيًا لـ"الذكاء التجريبي"، حيث تنتقل النماذج من مستودعات المعرفة المجمدة إلى عمليات ديناميكية تصقل نفسها عبر التغذية الراجعة من العالم الحقيقي. يوفر هذا التقارب فرصًا عميقة لتحسين التصميم المشترك للبحث والمنتج، وإغلاق الحلقة بين الابتكار الخوارزمي والتكيف المستخدم.

الابتكارات الرئيسية في تحديثات تينكر

  • حقق نظام Tinker من مختبر Thinking Machines Lab توافرًا عامًا، مما يدعم ضبط نموذج Kimi K2 Thinking MoE ذو التريليون معلمة من Moonshot AI، وتوافق الاستدلال مع OpenAI، والمدخلات متعددة الوسائط عبر سلسلة Qwen3-VL من Alibaba.
  • تتيح هذه الإمكانيات تخصيصًا فعالًا لنماذج التفكير والرؤية-اللغة المتقدمة، مع عروض تثبت أداءً متفوقًا في التصنيف الصوري باستخدام عدد قليل من الأمثلة.
  • يتقدم Mind Lab (ذراع البحث لماكرون AI) في استخدام LoRA القابلة للتوسع في التعلم المعزز على نماذج MoE ذات التريليون معلمة، مع التركيز على التكيف التجريبي.

في هذه المقالة، سنستعرض نموذج الاستدلال Kimi K2 الجديد من Tinker، وواجهة التوافق مع OpenAI، ونماذج الرؤية Qwen3-VL، ثم نستكشف فلسفة Mind Lab الخاصة بالذكاء التجريبي، واختراقاتهم في التعلم المعزز (RL) ذو التريليون معلمة، ونهج نشر الذاكرة، والآثار الاستراتيجية لبناء الجيل القادم من أنظمة الذكاء الاصطناعي.

أحدث ابتكارات Tinker: الاستدلال، الأدوات، والرؤية

Tinker هي منصة تدريب للذكاء الاصطناعي مصممة للسماح للباحثين بتحسين النماذج الحديثة ونشرها دون القلق بشأن البنية التحتية [2][3]. في ديسمبر 2025، أعلنت Tinker عن عدة تحديثات رئيسية تعزز من قدرات الاستدلال، واستخدام الأدوات، وفهم الرؤية للنماذج الذكية [4]:

  • Kimi K2 Thinking Model: Users can now fine-tune Kimi K2 Thinking, a colossal 1-trillion-parameter model and the largest in Tinker’s lineup[5]. Kimi K2 is a Mixture-of-Experts (MoE) transformer designed for lengthy chain-of-thought reasoning and agentic tool use[6]. Despite its scale, only a subset (~32B) of its parameters are active at a time, allowing it to achieve state-of-the-art reasoning performance while keeping inference efficient[7]. This open model – described as “open agentic intelligence” – rivals or surpasses many closed models on complex reasoning benchmarks[7]. By supporting Kimi K2 on Tinker, Thinking Machines enables researchers to leverage an advanced reasoning engine for tasks that demand multi-step logic, planning, or external tool calls. Importantly, Tinker fine-tunes such models using LoRA (Low-Rank Adaptation), training small adapter matrices instead of updating all trillion weights[8]. This approach significantly reduces the memory and compute needed for customization. In fact, internal studies found that with the right setup, LoRA can match the learning performance of full fine-tuning while using far less resources[9]. In practice, that means users can adapt a giant model like Kimi K2 to new tasks or domains without prohibitive cost – a crucial step for more efficient reasoning workflows.
  • OpenAI API-Compatible Inference: To accelerate research–product integration, Tinker introduced an inference interface that is compatible with OpenAI’s API for completions[10]. Essentially, one can query a Tinker-hosted model using the same API calls that OpenAI’s platform uses, by specifying a model path with a special tinker:// URI. For example, developers can call the Tinker model’s completion API with an OpenAI-like syntax (model, prompt, max_tokens, etc.) and get results as if they were calling openai.Completion.create[10]. This plug-and-play compatibility means any tooling or application built around the OpenAI API can seamlessly integrate Tinker’s models[10]. It lowers friction for adopting advanced open models in real products: you could fine-tune Kimi K2 on Tinker, then drop it into an existing chain-of-thought agent or chatbot framework with minimal code changes. Moreover, Tinker’s API scaffolding even allows sampling from a model while it’s still training[10] – enabling interactive evaluation or tool-augmented training loops where a model can be tested and used in parallel with its fine-tuning process. This update supports more efficient agent development workflows, letting researchers continuously integrate and test model improvements in realistic settings.
  • Qwen3-VL Vision–Language Models: Another major addition to Tinker is support for multimodal vision-language models. The platform added two vision-enabled models, Qwen3-VL-30B and Qwen3-VL-235B, which can accept image inputs alongside text[11]. These models (30 billion and 235 billion parameters respectively, both MoE architectures) are instruction-tuned to follow prompts that include images, e.g. answering questions about a diagram or interpreting a photo. With simple API calls, users can now feed an image (as an ImageChunk) interleaved with text into the model and get a language response[12]. This unlocks a variety of vision-informed applications – from analyzing screenshots and charts to multimodal assistants that see and talk. Notably, Qwen3-VL models were designed with data-efficient vision capabilities in mind. To illustrate this, Thinking Machines fine-tuned the 235B Qwen3-VL model on a few classic image classification tasks (Caltech101, Oxford Flowers, etc.), using LoRA adapters for efficiency[13]. They compared its performance to a strong vision-only baseline (DINOv2 ViT model with a classifier head), across varying amounts of training data per class[14].

[15] مقارنة بين النموذج المعدل Qwen3-VL-235B (نموذج رؤية-لغة) و DINOv2 (نموذج رؤية فقط) في مهام تصنيف الصور مع أمثلة محدودة البيانات. يحقق Qwen3-VL دقة أعلى، خاصة في بيئات البيانات القليلة (أقصى اليسار)، بفضل فهمه البصري المستند إلى اللغة.

حتى مع وجود مثال واحد فقط لكل فئة، حقق نموذج Qwen3-VL بقدرة 235 مليار دقة معقولة، متفوقًا بشكل كبير على DINOv2 في هذا النظام المتطرف لقلة البيانات[15]. مع زيادة عدد الأمثلة، تحسن كلا النموذجين، ولكن احتفظ Qwen3-VL بتفوقه، مما أظهر قدرة أقوى على التعميم بعدد قليل من الأمثلة[16]. تأتي الأفضلية من المعرفة المدمجة بالنموذج للغة والعالم – على سبيل المثال، لدى Qwen3-VL مفهوم مسبق لما تبدو عليه أو توصف به أشياء مثل "زهرة عباد الشمس" أو "جولدن ريتريفر" بفضل تدريبه المتعدد الوسائط[16]. هذا يعني أنه يمكنه التعرف على الصور الجديدة أو تصنيفها بأقل عدد من الأمثلة الجديدة. بشكل عملي، يمكن لمستخدمي Tinker تحقيق دقة عالية في مهام الرؤية باستخدام مجموعات بيانات صغيرة جدًا من خلال استغلال هذه النماذج الكبيرة للرؤية-اللغة. هذه القدرة على الرؤية الفعالة بالبيانات ضرورية في السيناريوهات الواقعية حيث تكون البيانات المصنفة نادرة. كما يشير إلى قوة الاستدلال المعزز بالأدوات: نموذج "يرى" يمكنه استغلال كل من الإشارات البصرية والسياق اللغوي، مما يجعله عاملًا أكثر تنوعًا (على سبيل المثال، قراءة مخطط وشرحه، أو استخدام صورة كجزء من سلسلة الاستدلال). بشكل عام، يضيف Qwen3-VL إلى Tinker بُعدًا جديدًا، ممتدًا المنصة من النصوص البحتة إلى المجال البصري، مما يتيح عمليات استدلال متعددة الوسائط تحت نفس واجهة برمجة التطبيقات الموحدة.

الأنظمة التكيفية لمختبر العقل: الذكاء التجريبي في العمل

على صعيد البحث، مختبر العقل – مختبر أبحاث جديد تابع لـ Macaron AI – يتصدى لتحدي جعل وكلاء الذكاء الاصطناعي حقًا تكيفيين وتجريبيين. فلسفة مختبر العقل هي أن "الذكاء الحقيقي يأتي من التجربة الحقيقية، وليس فقط من التدريب المسبق الأكبر". بعبارة أخرى، ببساطة زيادة حجم النماذج على مجموعات بيانات ثابتة ليس كافيًا؛ القفزة القادمة في الذكاء الاصطناعي ستأتي من الأنظمة التي تتعلم باستمرار من التفاعلات، على غرار تراكم البشر للتجارب. يضع مختبر العقل هذه الرؤية باعتبارها الذكاء التجريبي – الانتقال من "عقول" ثابتة إلى "عقول" تكيفية يمكنها تشكيل نماذج عالمية داخلية، وتحديث معرفتها من خلال التغذية الراجعة، ولديها أهداف أو قيم صريحة، وحتى التفكير في أفعالها الخاصة. هذا استجابة مباشرة لقيود النماذج اللغوية الكبيرة الحالية، التي غالبًا ما تكون قوية ولكن مجمدة بعد التدريب المسبق. من خلال تقديم آليات للتكيف الحقيقي – مثل التعلم التعزيزي المستمر والذاكرة الديناميكية – يهدف مختبر العقل إلى إنشاء وكلاء يتطورون مع الاستخدام.

ركيزتان أساسيتان في عمل مختبر العقل هما: (1) تحسين ضبط النماذج الضخمة باستخدام التعلم المعزز الفعال لإضفاء سلوكيات جديدة، و**(2) أنظمة الذاكرة المتقدمة** التي تسمح للوكيل الاحتفاظ بالمعرفة طويلة الأمد واستخدامها. كلاهما يهدف إلى جعل الذكاء الاصطناعي أكثر استقلالية (القدرة على اتخاذ القرارات والتحسين بشكل ذاتي) وربط التقدم في البحث بنشر المنتجات بشكل وثيق.

نظام LoRA للتعلم المعزز بمعايير تريليون و10% من وحدات معالجة الرسوميات

كيف حققنا ذلك؟

من أبرز إنجازات مختبر مايند هو إثبات التعلم التعزيزي بمقياس تريليون معلمة - والقيام بذلك بطريقة عملية وفعالة من حيث التكلفة. في ديسمبر 2025، أعلنوا عن أول نظام تعلم تعزيزي شامل على نموذج التفكير Kimi K2 ذو 1.04 تريليون معلمة، وقد تحقق ذلك باستخدام حوالي 10٪ فقط من موارد وحدة معالجة الرسومات التي تتطلبها مثل هذه التدريبات عادةً[19]. كيف كان ذلك ممكنًا؟ قام الفريق ببناء محرك تدريب متخصص يجمع بين التخصيص الفعّال للمعلمات (LoRA) و التوازي الهجين عبر هيكل نموذج مزيج الخبراء[20][21].

بدلاً من ضبط جميع الأوزان التريليونية، يتبع مختبر Mind Lab نهجًا يقوم بحقن مصفوفات التكيف ذات الرتبة المنخفضة في طبقات مختارة من Kimi K2 (في كل من العمود الفقري الكثيف وداخل طبقات الخبراء) ويقوم بتحديث تلك الطبقات فقط أثناء عملية التعلم المعزز. ويساهم ذلك بشكل كبير في تقليل عدد المعاملات القابلة للتدريب (على سبيل المثال، رتبة LoRA التي تكون بضع عشرات أو مئات لكل طبقة، بدلاً من المصفوفات الكاملة) وبالتالي تقليل استخدام الذاكرة والحوسبة بشكل ضخم. في الوقت نفسه، يتطلب تدريب نموذج بهذا الحجم توزيع العبء عبر العديد من وحدات معالجة الرسوميات (GPUs) بكفاءة. وقد اعتمد الفريق استراتيجية موازية هجينة: استخدام منسق للتوازي في التنسورات، والتوازي في الأنابيب، والتوازي في الخبراء (لخبراء MoE)، والتوازي في التسلسل (للتدريب على التسلسل الطويل)، وكلها متوافقة مع تحديثات LoRA المجزأة. عمليًا، هذا يعني الاستفادة من أطر تدريب النماذج الكبيرة الحالية (مثل Megatron من NVIDIA وVolcEngine RL من ByteDance)، تعزيزها للتعامل مع LoRA على MoE، وتحقيق توازن دقيق في الحساب عبر 64 وحدة معالجة رسومية في الكتلة. النتيجة كانت تدريب معزز مستقر داخل السياسة (شبيه بخوارزمية PPO) على النموذج الكامل Kimi K2 مع نموذج مكافأة يوفر ملاحظات حول جودة التفكير - وهو أمر كان يُعتقد سابقًا أنه غير ممكن لمعظم الفرق بسبب التكلفة.

الأهم من ذلك، أنه نجح: حقق النموذج المحسن LoRA لكيمي K2 تحسينات كبيرة في مهام التفكير ذات الأفق الطويل، مع منحنيات تعلم سلسة وبدون انحراف[25]. بشكل حاسم، احتفظ النموذج المعدل بالمهارات العامة للنموذج الأساسي (بفضل تغييرات الوزن البسيطة والمركزة فقط) بينما اكتسب سلوكيات جديدة خاصة بالمهام[26]. هذا يعني أن المعرفة السابقة الضخمة للنموذج الأساسي لم تُستبدل، بل تم تعزيزها - وهو فائدة رئيسية لتحسين LoRA. في الواقع، أكدت تجارب Mind Lab أن النماذج الأكبر توفر أساسًا أقوى للتعلم التعزيزي. تحت ميزانية تدريب ثابتة، تفوق نموذج كبير مع محولات LoRA صغيرة على نموذج أصغر تم تدريبه بالتعديل الكامل، سواء في المهام داخل المجال أو عند الانتقال إلى مهام جديدة[27]. كما يقول الفريق، التعلم التعزيزي هو “محدود بالمعرفة السابقة” - إذا لم يتمكن النموذج الأساسي من توليد مسارات عالية الجودة من البداية، فلن يكون للتعلم التعزيزي إشارة قوية لتعزيزها[27]. يوفر النموذج المسبق القوي مثل كيمي K2 للتعلم التعزيزي مجموعة غنية من السلوكيات لتحسينها، بينما يتعين على تدريب نموذج صغير من الصفر اختراع تلك السلوكيات من جديد. هذه البصيرة تقلب الحكمة التقليدية: قد يكون أكثر كفاءة في الحوسبة القيام بالتعلم التعزيزي على نموذج كبير (مع معرفة سابقة قوية وكفاءة LoRA) من القيام بالتعلم التعزيزي على نموذج أصغر، حتى لو كان النموذج الأصغر أرخص لكل خطوة[28]. مساهمة Mind Lab هنا ليست مجرد خوارزمية، بل استراتيجية بنية تحتية - مخطط لجعل التعلم المستمر ممكنًا على أكبر النماذج. لقد قاموا بنقل طرقهم إلى مشاريع مفتوحة المصدر (Megatron-Bridge, VERL)[29]، بحيث يمكن للمجتمع إعادة إنتاج هذا العمل والبناء عليه، مما يتيح للعديد من المجموعات تحسين عوامل ذات تريليون معلمة على ميزانيات أجهزة متواضعة.

انتشار الذاكرة: إعادة التفكير في ذاكرة الوكيل بما يتجاوز قواعد بيانات المتجهات

عرض توضيحي مباشر لانتشار الذاكرة

جبهة أخرى تستكشفها شركة Mind Lab هي كيفية تعامل وكيل الذكاء الاصطناعي مع الذكريات طويلة الأمد لتفاعلاته. تعتمد العديد من الأنظمة الحالية على قاعدة بيانات موجهة لاسترجاع مقتطفات من المحادثات السابقة أو استخدام تقنيات التلخيص لضغط التاريخ. تقترح Mind Lab نظام ذاكرة أكثر تكاملاً، يُسمى نشر الذاكرة، مدمج بشكل طبيعي مع النموذج[30]. الفكرة هي معالجة تسلسل الحوار الكامل للوكيل أو مساره كذاكرة قابلة للتحرير داخل سياق النموذج، بدلاً من أن تُخزن خارجيًا. يعمل نشر الذاكرة عن طريق الحفاظ بشكل تكراري على نافذة ذات حجم ثابت للسياق من خلال حلقة قناع–تخصيص–تعبئة[30]. في كل خطوة، يقرر النموذج أي الرموز (قطع من المحادثات السابقة) يحتفظ بها (قناع) وأيها يسقط، ثم يملأ المساحة المحررة بمحتوى جديد وارد – مع احترام ميزانية صارمة للرموز لطول السياق[30]. في الأساس، يتعلم النموذج إدارة سياقه الخاص، وضغط أو نسيان التفاصيل الأقل أهمية والاحتفاظ بالحقائق المهمة مع نمو التفاعل. هذا يشبه النسيان الذكي، حيث لا يكون الهدف هو تذكر كل شيء إلى الأبد (وهو غير ممكن نظرًا لحدود طول السياق)، بل تذكر الأمور بشكل مفيد ضمن قيود حقيقية[30].

من خلال العمل على مستوى تسلسل الرموز، تتجنب تقنية انتشار الذاكرة الحاجة إلى تضمينات خارجية أو البحث عن التشابه؛ حيث تعيش "الذاكرة" في نفس الفضاء التمثيلي كسياق العمل للنموذج. تشير تقارير مختبر العقل إلى أن هذا النهج يحقق أداء ذاكرة طويل الأمد من الطراز الأول، مما يعني أن الوكيل يمكنه الاستمرار في المحادثات أو المهام الممتدة دون فقدان المعلومات المهمة، وكل ذلك من خلال آليات تعلم داخل النموذج. كما يعمل في وقت مستمر بالنسبة لحجم السياق – لا يوجد انفجار في تكلفة الاسترجاع مع نمو التاريخ، حيث يتم تثبيت طول السياق وإدارته عبر عمليات القناع/التعبئة. عمليًا، يمكن لوكيل مع تقنية انتشار الذاكرة المشاركة في محادثة تستمر لآلاف الأدوار، وعلى الرغم من أنه لا يمكنه الاحتفاظ بكل التفاصيل، إلا أنه سيقرر باستمرار ما يجب الاحتفاظ به في الذاكرة. ستبقى تفضيلات المستخدم المهمة أو الأسئلة غير المحلولة، بينما يمكن حذف الدردشة البسيطة من وقت سابق. يتعامل هذا النهج مع الذاكرة كمكون أساسي في إدراك النموذج، متماشيًا مع رؤية مختبر العقل بأن الذاكرة يجب أن تكون جزءًا نشطًا ومتعلماً من النظام بدلاً من كونها مجرد مستودع بيانات سلبي.

اقرأ المزيد في مدونتنا التقنية

التصميم المشترك للبحث والمنتج: حلقة تعلم مستمرة

تشكل الإمكانات الأساسية لـ Tinker والكفاءات الخوارزمية لمختبر Mind Lab تآزرًا طبيعيًا. يتيح Tinker التطبيق المباشر لـ LoRA RL الهجين الخاص بـ Mind Lab على Kimi K2 و Qwen3-VL، مما يسهل الحلقات العاملة متعددة الوسائط.

في التصميم المشترك للبحث والمنتج - المبدأ الأساسي لمختبر Mind Lab - يظهر هذا كما يلي:

  1. التجهيز للتغذية الراجعة: تولد الوكلاء المنشورة (مثل النماذج التي يقدمها Tinker) حلقات منظمة من تفاعلات المستخدم، ونتائج الأدوات، والتصحيحات.
  2. خطوط أنابيب التعلم التعزيزي عبر الإنترنت: يدعم التوازي الهجين التحديثات المستمرة للإشارات الحية، وتطوير وظائف القيمة والسياسات دون دفعات خارجية.
  3. التكيف متعدد الوسائط: تسمح المدخلات البصرية بالتعلم التعزيزي في المهام الإدراكية، مما يصقل نماذج العالم للتنقل عبر واجهات المستخدم الرسومية، وفهم الوثائق، أو التفكير البصري.
  4. السلامة والاستقرار: تقلل اللفات المتزامنة من التغير في التوزيع؛ وتمنع المكافآت المتدفقة (كما في مثال الجماليات الخاصة بمختبر Mind Lab) من التلاعب بالمكافآت.

استراتيجياً، يسرع هذا النهج من عملية التكرار: تصبح المنتجات حقول تجريبية، مما ينتج بيانات عالية الدقة تعمل على تحسين فرضيات البحث. على سبيل المثال، يمكن أن تساعد مكاسب التصنيف البصري القليل من Tinker في تحديد أهداف التعلم التعزيزي في الوكلاء البصرية المنشورة، مما يؤدي تدريجياً إلى مواءمة سياسات الإدراك مع تفضيلات المستخدم.

تقليديًا، كانت أبحاث الذكاء الاصطناعي تنتج نموذجًا أو خوارزمية، ثم تقوم فرق المنتجات بشكل منفصل بكيفية نشرها، مع وجود تكرار بطيء نسبيًا بين الاثنين. بدلاً من ذلك، يعمل مختبر مايند على فلسفة التصميم المشترك بين البحث والمنتج: حيث يتم اختبار كل تقنية جديدة بسرعة في بيئة وكيل مباشر، وتولد تفاعلات المستخدمين الحقيقية بيانات لتحسين البحث [32].

“البحث والمنتج لم يعودا مسارين منفصلين. بل هما دائرة مغلقة للتغذية الراجعة: تجربة المستخدم → البيانات → تدريب التعلم المعزز → النشر → تحسين تجربة المستخدم → بيانات أغنى → تتكرر.” [33]. عمليًا، يعني هذا أنه عندما يحسن مختبر مايند خوارزمية التعلم المعزز أو نظام الذاكرة، فإنهم يدمجونه في وكيل يواجه المستخدم الفعلي (على سبيل المثال، مساعد Macaron الشخصي للذكاء الاصطناعي) ويلاحظون كيف يعمل مع المستخدمين الحقيقيين. ثم يتم إعادة تغذية بيانات الاستخدام – مثل الأسئلة التي يطرحها المستخدمون، وأين ينجح الوكيل أو يفشل، والتغذية الراجعة الصريحة – كإشارة تدريب (من خلال الضبط الدقيق بالإشراف أو التعلم المعزز) لتحديث النموذج التالي. هذه الدورة المحكمة تسرع التعلم بشكل كبير: فالمنتج هو التجربة.

إحدى النتائج المترتبة هي استخدام نماذج المكافأة المتدفقة وRLHF عبر الإنترنت (التعلم المعزز من ملاحظات الإنسان). بدلاً من جمع مجموعة بيانات ثابتة من مقارنات تفضيلات الإنسان وتدريب نموذج المكافأة مرة واحدة، فإن إطار عمل Mind Lab يتصور تحديث نموذج المكافأة باستمرار مع وصول ملاحظات جديدة أثناء النشر. على سبيل المثال، إذا كان الوكيل يحل المهام للمستخدمين ويحصل أحيانًا على إشارة عدم إعجاب أو تصحيح، يمكن بث هذه الإشارات إلى نموذج المكافأة لتحسين فهمه للسلوك "الجيد" فورًا. في المرة التالية التي يتم فيها تشغيل التعلم المعزز (والتي قد تحدث بانتظام أو حتى بشكل غير متزامن)، يوجه نموذج المكافأة المحدث السياسة لتتوافق بشكل أفضل مع تفضيلات المستخدم. هذا المفهوم للتعلم المعزز المتدفق يحول النشر إلى امتداد للتدريب - فكلما استمر الوكيل في العمل في العالم الحقيقي، زادت الخبرة التي يجمعها، وأصبح أفضل. الواجهة المتوافقة مع OpenAI التي يوفرها Tinker تكمل في الواقع هذه الاستراتيجية: فهي تسمح بدمج هذه النماذج المتعلمة باستمرار في المنتجات والأدوات الحالية بسهولة، مما يعني أن مختبر البحث يمكنه دفع إصدارات جديدة من النماذج إلى منتج بسرعة ومراقبة النتائج، دون الحاجة لإعادة بناء التكامل في كل مرة.

من جانب Tinker، فإن قدرة المنصة على أخذ عينات من نموذج أثناء التدريب [10] يمكن أن تسهل مثل هذه الحلقات التكرارية من خلال تمكين التقييمات الوسيطة واتخاذ قرارات ضبط دقيقة. من جانب Mind Lab، يضمن حلقة التصميم المشترك أن ابتكاراتهم (مثل RL على مقياس تريليون أو انتشار الذاكرة) يتم اختبارها في حالات استخدام حقيقية. تبرز هذه المقاربة التحديات العملية مبكرًا (مثل كيفية التعامل مع التأخير أو المدخلات غير المتوقعة من المستخدمين) وتغلق الفجوة بين البحوث المتقدمة والمنتجات الذكية التي تواجه المستخدم. المكاسب الاستراتيجية هي أن التحسينات مدفوعة بالاحتياجات الواقعية ومؤكدة مباشرة ضد الاستخدام الواقعي. كما يلاحظ Mind Lab، التقدم الحقيقي يأتي من "التعلم المستمر من تفاعلات المستخدم والمنتج" [33]، والوكيل الذي يمكنه التكيف في الموقع سيقدم في النهاية تجربة مستخدم أفضل بكثير من الذي يظل ثابتًا عند النشر.

تداعيات الذكاء الاصطناعي ذاتي التوجيه والأنظمة المصممة بشكل مشترك في المستقبل

مجتمعة، تبرز التطورات من Tinker وMind Lab تحولًا عميقًا في كيفية بناء أنظمة الذكاء الاصطناعي – من النماذج الثابتة إلى الوكلاء المتكيفين المصممين بشكل مشترك مع بيئاتهم. تظهر عدة تداعيات رئيسية:

  • من النماذج الأساسية إلى وكلاء أساسية: إدخال نماذج وكيلة مثل Kimi K2 (مع استخدام الأدوات والقدرة على التفكير مدمجة) والتقنيات لتحسينها باستمرار يشير إلى أن نماذج اللغة الكبيرة تتطور لتصبح منصات للسلوك، وليس فقط للمعرفة. بدلاً من النماذج المدربة مرة واحدة التي تحاكي النص فقط، نحصل على وكلاء يمكنهم التخطيط، والعمل، وتضمين الردود. هذا يطمس الخط الفاصل بين نموذج الذكاء الاصطناعي ومنتج الذكاء الاصطناعي: النموذج يصبح بشكل متزايد الوكيل الذي تتفاعل معه، ويمكنه تحديث نفسه لخدمتك بشكل أفضل. بناء مثل هؤلاء الوكلاء يتطلب توحيد البحث المركزي على النماذج (الهياكل الجديدة، أساليب التدريب) مع التفكير المركزي على المنتج (تجربة المستخدم، قيود النشر) في دورة تطوير واحدة.
  • التفكير المدعوم بالأدوات كقاعدة: مع واجهة Tinker المتوافقة مع OpenAI والنماذج المبنية خصيصًا لاستخدام الأدوات، يمكننا أن نتوقع أن وكلاء الذكاء الاصطناعي سيقومون بتفعيل الأدوات الخارجية وواجهات برمجة التطبيقات أو قواعد البيانات كجزء من عملية تفكيرهم. تصميم Kimi K2 وتجارب Mind Lab الوكيلة كلاهما يبرز أن حل المهام المعقدة يتطلب في كثير من الأحيان من الذكاء الاصطناعي استشارة الأدوات أو محاكاة البيئات [34][35]. الأنظمة المستقبلية من المحتمل أن تدمج واجهات برمجة التطبيقات للأدوات في قلب تدريب النموذج (كما فعلت Kimi في توليف البيانات الوكيلة على نطاق واسع [36])، مما ينتج قدرات جاهزة لاستخدام الأدوات. استراتيجياً، هذا يعني أن منتجات الذكاء الاصطناعي ستكون أكثر من مجرد نموذج موحد - بل ستكون منصات تنظيم الأدوات، حيث يعمل النموذج كعقل يعرف متى وكيف يدعو الخدمات الأخرى. سهولة دمج نماذج Tinker عبر واجهات برمجة التطبيقات المألوفة تقلل من حاجز المطورين لإنشاء مثل هذه العمليات العملية للذكاء الاصطناعي.
  • التفاعل المستمر والذكاء الاصطناعي الشخصي: الابتكارات في الذكرة مثل Memory Diffusion تشير إلى الذكاء الاصطناعي الذي يمكنه الحفاظ على حالة طويلة الأجل حول التفاعلات. بدلاً من التعامل مع كل جلسة أو استفسار بمعزل، سيحمل الوكلاء المستقبليون ذاكرة للتفاعلات السابقة، والتفضيلات، والسياقات بطريقة منهجية ومحدودة. هذا سيمكن من الحصول على مساعدين ذكاء اصطناعي أكثر شخصية ووعيًا بالسياق - أولئك الذين لا يعيدون التعيين في كل مرة، بل يتعلمون حقًا من يتفاعلون معه وما يحدث. الأهم من ذلك، نهج Mind Lab يظهر أن هذا يمكن أن يتم دون نوافذ سياقية لا نهائية؛ من خلال إدارة الذاكرة المتعلم، يمكن للوكلاء أن يصبحوا أكثر ذكاء بشأن ما يجب تذكره. بالنسبة للمستخدمين، هذا يعني تجربة أكثر سلاسة: ذكاء اصطناعي شخصي يتذكر المحادثات السابقة سيشعر وكأنه حوار مستمر أو مساعد متسق، بدلاً من سلسلة من الاستخدامات غير المتصلة. كما أنه يثير أسئلة تصميم جديدة: كيف نضمن تذكر الأشياء الصحيحة أو نسيانها؟ الجواب ربما يكمن في تقنيات مثل نشر الذاكرة التي تدمج النسيان البشري والتركيز.
  • البنية التحتية الهجينة كميزة تنافسية: الأسس التقنية التي وضعتها هذه المشاريع - مثل التدريب الموازي الهجين، LoRA-on-MoE، RL الموزع - ستكون مغيرة لقواعد اللعبة لفِرَق تطوير الذكاء الاصطناعي. المجموعات التي تعتمد هذه الأساليب يمكنها تحسين أكبر النماذج باستخدام حسابات متواضعة نسبياً، مما قد يتيح بناء وكلاء ذكاء اصطناعي متخصصين وعالي الأداء. بدلاً من أن تكون فقط شركات التكنولوجيا الكبرى قادرة على نشر نماذج ذات تريليون معلمة، يمكن لأي مختبر أو شركة ناشئة أن تستخدم نموذج مفتوح مثل Kimi K2 وتعديله عبر LoRA على مجموعة وحدات معالجة الرسومات الأصغر [37][21]. هذا يساوي أرض الملعب ويشجع أيضًا على التجريب مع النماذج الكبيرة في المجالات المتخصصة (حيث تكون التكلفة أقل مانعاً). قد نشهد انفجارًا من الوكلاء بمقاييس تريليون مخصصة - بعضها يركز على التفكير الطبي، وآخرون على البحث القانوني، وآخرون على التصميم الإبداعي - جميعهم يصبحون ممكنين بفضل أطر التحسين الفعالة. التكاملات المفتوحة المصدر (Megatron، إلخ.) تضمن أيضًا انتشار هذه الابتكارات بسرعة. علاوة على ذلك، النهج الموازي الهجين يعني أنه لأي ميزانية أجهزة معينة، يمكن للمرء أن يستخرج تدريبًا أكثر فعالية من خلال الجدولة الذكية والتوازي، بدلاً من مجرد قبول نموذج أصغر. هذا مهم بينما ندفع النماذج لدمج مزيد من الوسائط والسياقات الأطول، مما سيزيد من الطلبات الحسابية.
  • التعلم المستمر والتفاعل بين الإنسان والذكاء الاصطناعي: أخيرًا، مفهوم نظام التعلم المغلق يحول دور المستخدم في تطور الذكاء الاصطناعي. كل تفاعل للمستخدم يصبح مثال تدريب محتمل، وكل نشر هو تجربة. من الناحية العملية، يمكن أن يؤدي هذا إلى خدمات ذكاء اصطناعي تتحسن بشكل كبير بين عشية وضحاها حيث تعيد التدريب على بيانات اليوم السابق - مثل كيفية طرح تحديثات البرمجيات. قد يبدأ المستخدمون في توقع أنه إذا صححوا الذكاء الاصطناعي اليوم، فلن يكرر الخطأ غدًا. هذا يضع دورة فاضلة: منتجات أفضل تجذب استخدامًا أكبر، مما يولد المزيد من البيانات للتعلم منها، مما يحسن المنتج بدوره. ومع ذلك، يتطلب ذلك أيضًا تصميمًا مشتركًا دقيقًا للتقييم والسلامة - إذا كان الوكيل يتعلم من تفاعلاته الخاصة، نحتاج إلى نماذج مكافأة قوية وقيود لضمان تعلمه الدروس الصحيحة (تجنب تعزيز السلوكيات غير المرغوب فيها). عمل Mind Lab على دمج مكافآت تفضيل الإنسان والنقد الذاتي في RL هو نموذج مبكر لذلك [35]. على المدى الطويل، قد يصبح مثل هذا التصميم المشترك بين البحث والمنتج ممارسة قياسية: بدلاً من أن تنتهي ورقة البحث بـ "قمنا بتحسين نموذج وحققنا X"، سيكون معيار النجاح "قمنا بنشر وكيل تكيفي للمستخدمين وتحسن أداؤه/فائدته بنسبة Y% بمرور الوقت".

نحو عقول متكيفة: رؤية ختامية

بينما تستقر قوانين التوسع الثابتة، يمثل الدمج الذي يظهر من خلال تخصيص Tinker القابل للوصول على مستوى التريليونات وتجربة RL الفعالة من Mind Lab عصرًا تحوليًا. من خلال تضمين التكيف في دورة المنتج، نتجاوز العقول الهشة نحو عقول مرنة - أنظمة لا تكتفي فقط بالتفكير والإدراك على مستويات متقدمة بل تنمو بشكل تبادلي مع بيئاتها. يعد هذا المسار التطوري المشترك بذكاء اصطناعي لا يقتصر فقط على القدرات، بل يصبح بشكل مستمر أكثر توافقًا مع احتياجات البشر وتعقيدات العالم الحقيقي.


[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence

https://ar5iv.labs.arxiv.org/html/2507.20534

[2] [3] [8] [9] تانكر - مختبر الآلات المفكرة

https://thinkingmachines.ai/tinker/

[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: التوفر العام والمدخلات البصرية - مختبر Thinking Machines

https://thinkingmachines.ai/blog/tinker-general-availability/

[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] كيف نبني نظام تعزيز التعلم مع تريليون معلمة باستخدام 10٪ من وحدات معالجة الرسومات

https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus?trk=article-ssr-frontend-pulse_little-text-block

[17] [30] [33] ماكارون AI | LinkedIn

https://www.linkedin.com/company/macaronaiofficial

[18] [19] [29] [31] [32] تقديم مختبر العقل — الذراع البحثي لـ Macaron AI

https://www.linkedin.com/pulse/introducing-mind-lab-macaron-ais-research-arm-macaronaiofficial-tkz2e?trk=organization_guest_main-feed-card_feed-article-content

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends