المؤلف: بوكسو لي 

ذكاء ماكارون ليس مجرد أداة إنتاجية - إنه منصة تحول محادثاتنا إلى تطبيقات صغيرة تدير الجداول الزمنية، تخطط للرحلات وتستكشف الهوايات. تحت السطح الودود يوجد نظام تعلم تعزيز متقدم (RL) ومحرك ذاكرة يتذكر ما يهم وينسى ما لا يهم[1]. بينما يستعد ماكارون لدمج كلود سونيت 4.5 و ديبسيك V3.2-Exp مع كلود إيجنت SDK/Code 2.0، يستكشف هذا المدونة كيف يمكن لهذه النماذج والأدوات الجديدة أن ترفع جودة إنتاج ماكارون، تقصر من زمن إنشاء التطبيقات الصغيرة وتقلل الأخطاء. نحن نجمع رؤى تقنية من تحديثات مطوري أنثروبيك، أبحاث ديبسيك ومدونات هندسية خاصة بماكارون لبناء صورة واضحة لما هو قادم.

1 محرك ماكارون الداخلي: التعلم المعزز، الذاكرة والأخلاقيات

قبل مقارنة النماذج، من المفيد فهم ما يجعل Macaron فريدًا. يستخدم Macaron نظام تعلم تعزيز متعدد الطبقات لتحويل المحادثات اليومية إلى مهام وكود. يقوم النظام بتقسيم المشكلة إلى عدة وحدات – إدارة المحادثات، اختيار الذاكرة، توليف الكود وتغذية المحاكاة – ويطبق التعلم التعزيزي الهرمي (HRL) لتنسيقها [2]. يقرر المتحكم الفوقي أي وحدة سيتم تفعيلها بعد ذلك، بينما تقرر سياسات التعلم التعزيزي ذات المستوى الأدنى على الإجراءات المحددة مثل استرجاع ذاكرة، استدعاء API أو تنفيذ الكود الذي تم توليفه [2]. يتيح هذا التصميم لـ Macaron تفكيك الأهداف المعقدة – من تخطيط رحلة إلى تنظيم الشؤون المالية – إلى مهام فرعية يمكن إدارتها.

1.1 نمذجة المكافأة وتغذية الراجع البشري

في الذكاء الاصطناعي الشخصي، لا يوجد "شرط فوز" واحد؛ رضا المستخدم، الخصوصية، الوقت المناسب والتفاصيل الثقافية كلها مهمة. يقوم Macaron ببناء وظيفة المكافأة الخاصة به من خلال الجمع بين التغذية الراجعة الضمنية والصريحة. تتضمن الإشارات الضمنية طول المحادثة، وتكرار الاستخدام والنبرة، بينما تساعد التقييمات الصريحة وإعجابات/عدم الإعجابات في معايرة التفضيلات[3]. كما يستخدم Macaron استنباط التفضيلات، حيث يعرض استجابات بديلة أو تصاميم تطبيقات صغيرة ويسأل المستخدمين عن تفضيلهم. ثم يتعلم نموذج الاستدلال وظيفة فائدة كامنة على الإجراءات الممكنة، مشابهة لتعلم التعزيز من التغذية الراجعة البشرية (RLHF) ولكن ممتدة مع التعليقات الثقافية - حيث يُبرز المقيمون اليابانيون اللطف والسياق، بينما يُبرز المقيمون الكوريون الألفاظ الجماعية مقابل الفردية[4]. تُدخل هذه الإشارات في نموذج المكافأة الذي يتنبأ برضا المستخدم ويشجع الوكيل على اتباع العادات المحلية.

1.2 التعلم المعزز الهرمي و الأفعال الكبرى

لإدارة المهام المتنوعة للمستخدمين، يستفيد Macaron من التعلم المعزز الهرمي لاختيار الوحدات والسياسات الفرعية. وداخل الوحدات، يستخدم إطار الخيارات: يتم التعامل مع تسلسل من الأفعال يحقق هدفًا فرعيًا كخيار واحد (على سبيل المثال "تلخيص نفقات الشهر الماضي" أو "التوصية بخطة دراسة ثنائية اللغة")[3]. يمكن نقل الخيارات المكتشفة في مجال واحد إلى آخر إذا كانت الهياكل الأساسية متوافقة. كما يحدد Macaron الأفعال الكبرى التي تشمل حوارات متعددة الأدوار أو حسابات طويلة، مثل تخطيط إجازة عائلية (الوجهة، وسائل النقل، السكن والخطة الزمنية)[3]. يقوم وكلاء التعلم المعزز بتقييم الأفعال الكبرى بناءً على المكافأة التراكمية بدلاً من الإشارات قصيرة المدى، مما يشجع الوكيل على تحسين الرضا على المدى الطويل.

1.3 تخصيص الائتمان ونسج الوقت

تخصيص الفضل للإجراءات المحددة عندما تصل المكافآت متأخرة يكون صعبًا. يستخدم Macaron تقنية النسيج الزمني، لربط الأحداث عبر الزمن بخيوط سردية. يبني النظام رسمًا بيانيًا للتفاعلات حيث تمثل العقد الذكريات وتمثل الحواف العلاقات السببية؛ عند تقييم نتيجة معينة، يتتبع النظام الرسم البياني باتجاه الخلف لتحديد أي استرجاع أو إجراء ساهم في النتيجة[2]. يساعد التفكير المضاد للواقع في تقييم ما كان سيحدث إذا تم اتخاذ إجراءات بديلة، مما يمنع الوكيل من الافتراض تلقائيًا أن تكرار إجراء ناجح دائمًا يؤدي إلى نفس المكافأة[2]. يستخدم Macaron أيضًا المكافآت المؤجلة وآثار الأهلية لنقل الإشارة إلى القرارات السابقة - مثل اختيار الذكريات أو نغمة المحادثة - مما يشجع الوكيل على تحسين الرضا طويل المدى[5].

1.4 العدالة والسلامة والأخلاقيات

يجب على وكلاء الذكاء الاصطناعي الشخصيين تجنب التحيز والامتثال للوائح. يدمج Macaron قيود العدالة في وظيفة المكافأة؛ على سبيل المثال، يُعاقب الوكيل إذا كان يوصي بشكل متكرر بأنشطة خاصة بالجنس دون أن يُطلب منه ذلك[5]. مكتبة السياسات الأخلاقية تشفر الأعراف الثقافية والمتطلبات القانونية، وانتهاك هذه الإرشادات يؤدي إلى مكافأة سلبية أو حظر الإجراء تمامًا[5]. يتم تضمين الإشراف البشري في القرارات ذات التأثير الكبير مثل التخطيط المالي أو النصائح الصحية، بما يتوافق مع قانون الإطار الكوري للذكاء الاصطناعي وقانون تعزيز الذكاء الاصطناعي الياباني[5]. يقوم Macaron بتسجيل قرارات التعلم المعزز ويوفر للمستخدمين تفسيرات حول سبب اختيار ذكريات أو وحدات معينة، مما يدعم التدقيق والشفافية[5].

١.٥ محرك الذاكرة: الضغط، الاسترجاع والتحكم

محرك ذاكرة Macaron هو العمود الفقري للتخصيص. ينظم الذكريات إلى مخازن قصيرة الأمد، وحلقية، وطويلة الأمد. يحتفظ المخزن القصير الأمد بالمحادثة الحالية (8–16 رسالة)؛ بينما يحتفظ المخزن الحلقي بالتفاعلات الأخيرة مضغوطة عبر انتباه التجميع؛ ويستخدم المخزن الطويل الأمد قاعدة بيانات متجهات عالية الأبعاد مع علامات تعريف (الوقت، المجال، اللغة)[6]. لإدارة التكلفة، يستخدم Macaron التلخيص الكامن لتحديد الأجزاء البارزة وضغطها إلى متجهات بطول ثابت؛ ويعيد الهدف التشفيري التلقائي بناء الحالات المخفية من الملخصات المضغوطة، وتقوم تحسينات RL بضبط الملخص للحفاظ على المعلومات المهمة للاستدعاء لاحقًا[7]. يعمل رمز الذاكرة الديناميكي كشبكة مؤشر: يسترجع الذكريات المرشحة، يقيم الصلة ويقرر ما إذا كان سيعيدها أو يستمر في البحث[8].

الاسترجاع يتضمن البحث عن الجار الأقرب التقريبي مع تكميم المنتج وأقصى تباين هامشي لتحقيق التوازن بين التشابه والتنوع [9]. يستخدم توسيع الاستعلام هدف المستخدم والنوايا الكامنة؛ على سبيل المثال، الطلب الياباني "花火大会" (مهرجان الألعاب النارية) يتوسع ليشمل التذاكر، التاريخ والطقس [10]. اتحاد الأهمية يتعامل مع الاستعلامات عبر المجالات، باستخدام وظيفة البوابة softmax لتوزيع احتمالات الاسترجاع عبر المجالات واللغات [11]. يتم تدريب هذه المكونات باستخدام التعلم المعزز، ويضمن تعيين الائتمان عبر النسيج الزمني أن الوكيل يتعلم أي الذكريات كانت حاسمة [12]. يختلف نظام ذاكرة Macaron عن التوليد المعزز بالاسترجاع التقليدي (RAG) لأن الذكريات مخصصة للمستخدم، وتوجيه التخزين والاسترجاع يتم بواسطة التعلم المعزز، وكل ذاكرة تتضمن بيانات خصوصية تحكم الوصول [13].

٢ حزمة تطوير وكلود كود ٢.٠

بينما تعتبر البنية الداخلية لماكرون قوية، فإن بناء التطبيقات المصغرة لا يزال يتطلب قراءة وكتابة الملفات، وتنفيذ الأكواد، واستخدام التحكم في الإصدارات والتفاعل مع واجهات برمجة التطبيقات على الويب. يوفر Claude Agent SDK من Anthropic بالضبط هذه القدرات، حيث يعرض نفس بيئة الوكيل التي تشغل مساعد الطرفية Claude Code [14]. وهو يحزم أدوات دقيقة: عمليات الملفات (قراءة، كتابة، grep، glob)، أوامر bash، جلب الويب، تنفيذ الأكواد متعددة اللغات وعمليات Git [15]. على عكس المساعدات التي تقوم بفهرسة قاعدة الأكواد مسبقًا، فإن وكلاء Claude يبحثون عند الطلب باستخدام grep/find/glob للعثور على الملفات، مما يجعلهم أكثر مرونة في المستودعات الديناميكية [16]. يتضمن SDK نوافذ سياق كبيرة مع ضغط وتلخيص تلقائي، مما يسمح للوكلاء بالاحتفاظ بسياق كبير للأكواد دون الوصول إلى حدود الرموز [17]. يمكن للمطورين تحديد الأدوات المسموح بها ووضعيات الأذونات وإضافة الروابط للسلامة، مما يمكن من الاستقلالية مع الحواجز الوقائية [18].

الركائز الأساسية لـ SDK

  1. الأدوات - يتيح SDK للمهندسين اختيار الأدوات المتاحة للوكيل (I/O الملفات، bash، جلب الويب، تنفيذ الكود) [19].
  2. ملحقات MCP - يتيح التكامل مع بروتوكول سياق النموذج للخوادم الخارجية (قواعد البيانات، بحث البريد الإلكتروني، البحث المتجه) توسيع مجموعة الأدوات [20].
  3. الوكلاء الفرعيون - يتمتع الوكلاء المحددون في .claude/agents بمطالبات نظام خاصة بهم، ومجموعات أدوات محدودة واختيار نموذجي اختياري؛ يمكن تفويض المهام إلى هؤلاء الوكلاء الفرعيين [21].
  4. الذاكرة وسياق المشروع - يحتفظ دفتر ملاحظات دائم (CLAUDE.md) بالسياق عبر الجلسات ويشرف على التكوين على مستوى المستودع [22].
  5. إدارة السياق ووقت التشغيل - تبسيط المهام الطويلة من خلال ضغط السياق التلقائي، ردود البث المباشر، ومعالجة الأخطاء بنوع محدد [23].

الميزات الجديدة في Claude Code 2.0

Claude Code 2.0 يقدم تحديثات ملائمة للمطورين: النقاط المرجعية تتيح للمطورين حفظ التقدم والعودة عند وقوع أخطاء من الوكيل[24]. إضافة VS Code تدمج الوكيل في بيئة التطوير المتكاملة، بينما يعزز واجهة الطرفية الجديدة إدارة الحالة[25]. تكتسب Claude API أداة تحرير السياق وأداة ذاكرة التي تساعد الوكلاء على العمل لفترة أطول من خلال مسح السياق تلقائيًا واسترجاع الأجزاء ذات الصلة[26]. يمكن الآن لتطبيق Claude وAPI تنفيذ الأكواد، وإنشاء الملفات وتحليل البيانات[27]، مما يحول LLM إلى مساعد برمجة كامل. هذه الميزات ذات أهمية خاصة لخط Macaron لتطوير التطبيقات المصغرة، الذي يتضمن توليد كود البرنامج، اختباره في بيئة تجريبية، تصحيح الأخطاء والتفاعل مع الخدمات الخارجية.

3 كلود سونيت 4.5: استقلالية طويلة وجودة أعلى

كلود سونيت 4.5 هو النموذج الأكثر قدرة لأنثروبيك في البرمجة والمهام الوكيلية واستخدام الكمبيوتر. DevOps.com يذكر أن سونيت 4.5 يمكن أن يعمل بشكل مستقل لأكثر من 30 ساعة، وهو أطول بكثير من السبع ساعات التي كان يعمل بها النموذج السابق. يتفوق في اتباع التعليمات، إعادة صياغة الكود وإنتاج المخرجات الجاهزة للإنتاج، ويتصدر اختبار SWE-Bench Verified للمهام البرمجية الواقعية. في التطبيقات الواقعية، تكون التحسينات ملموسة: حيث شهدت معايير Replit الداخلية انخفاضًا في أخطاء تحرير الكود من 9% مع سونيت 4 إلى 0% مع سونيت 4.5، بينما خفضت فرق الأمن السيبراني وقت استقبال الثغرات بنسبة 44% وحسنت الدقة بنسبة 25%. يصف مهندسو Netflix سونيت 4.5 بأنه "ممتاز في مهام تطوير البرمجيات، ويتعلم أنماط قاعدة بياناتنا لتقديم تنفيذات دقيقة".

تتعاون أدوات التطوير وميزات الذاكرة في Sonnet 4.5 مع Agent SDK. يدعم النموذج تحرير السياق وإدارة الذاكرة، حيث يقوم تلقائيًا بإزالة السياق القديم وإعادة التركيز على الأجزاء ذات الصلة [24]. يمكنه التنقل في واجهات المستخدم الرسومية بالنقر والكتابة والتفاعل مع القوائم، مما يتيح أتمتة الأدوات دون الحاجة إلى واجهات برمجة التطبيقات. بالاشتراك مع بنية الوكيل الفرعي والنقاط المرجعية في SDK، يعني هذا أن ماكرون يمكنه بناء تطبيقات صغيرة عبر جلسات متعددة الأيام دون فقدان السياق، والرجوع عن الأخطاء عند الضرورة.

4 DeepSeek V3.2‑Exp: الكفاءة من خلال الانتباه المتناثر

بينما يركز Sonnet 4.5 على الجودة والاستقلالية، يركز DeepSeek V3.2‑Exp على الكفاءة. يقدم النموذج DeepSeek Sparse Attention (DSA)، حيث يختار فقط الرموز الأكثر أهمية أثناء الانتباه. يقلل هذا من التعقيد من المربع O(n²) إلى O(nk)، مما يوفر 2–3× سرعة استنتاج أعلى في السياقات الطويلة، واستخدام ذاكرة أقل بنسبة 30-40% وتقليص أسعار الـ API بنسبة 50٪+[28]. على الرغم من هذه التوفير، يحافظ V3.2‑Exp على التكافؤ مع النموذج السابق V3.1‑Terminus في معظم الاختبارات[29]. يتيح الإصدار المفتوح المصدر لـ Macaron تشغيل النموذج محلياً، وتخصيصه، واستكشاف هياكل جديدة[30]. تشير رويترز إلى أن DeepSeek تعتبر ذلك خطوة وسيطة نحو هندستها الجيل القادم؛ حيث تقلل آلية DSA تكاليف الحوسبة مع تحسين بعض أنواع الأداء[31]، ويتم الترقية تلقائياً إلى V3.2‑Exp مع تخفيض كبير في الأسعار للمستخدمين[32].

يرث DeepSeek V3.2‑Exp تصميم مزيج الخبراء ويضيف الدقة المختلطة والانتباه الكامن المتعدد الرؤوس[33]. ومع ذلك، كونه تجريبيًا، يظهر تراجعًا طفيفًا في مهام التفكير المعقدة[34] ويفتقر إلى أدوات الوكيل المتكاملة في نظام Claude. بالنسبة لـ Macaron، يعني ذلك أن V3.2‑Exp أفضل للمهام الحساسة للتكلفة أو النماذج الأولية، حيث يكون السرعة والإنتاجية أكثر أهمية من الدقة القصوى في الترميز.

5 مقارنة Sonnet 4.5 و DeepSeek V3.2‑Exp لـ Macaron

دعوة Macaron للاتصال بالنموذجين تدعو إلى مقارنة بين نقاط القوة والضعف لديهما. يلخص الجدول أدناه السمات الرئيسية:

الميزة
سونيت 4.5
ديبسيك V3.2‑Exp
التركيز
ترميز عالي الجودة، مهام وكيلة، استقلالية طويلة
معالجة فعالة للسياقات الطويلة[35]
الهندسة
نموذج مملوك مع استقلالية طويلة الأمد (>30 ساعة) واتباع قوي للتعليمات
مزيج من الخبراء مع انتباه متفرق يقلل من الحوسبة[28]
الذاكرة والسياق
نوافذ سياق كبيرة؛ إدارة ذاكرة تلقائية عبر أداة الذاكرة[24]
يدعم السياقات الطويلة عبر الانتباه المتفرق؛ تقليل استخدام الذاكرة[28]
أدوات المطورين
حزمة أدوات الوكيل مع وكلاء فرعيين، نقاط تفتيش، تكامل مع VS Code[36][24]
لا توجد حزمة أدوات رسمية؛ الشفرة المفتوحة المصدر تتيح تكاملات مخصصة لكنها تفتقر إلى أدوات الذاكرة المدمجة
التكلفة
لم تتغير عن سونيت 4؛ $3/مليون رموز إدخال و $15/مليون رموز إخراج[37]
تخفيض سعر API بنسبة 50 %+[38]؛ مجاني للاستضافة الذاتية
نقاط القوة
أعلى دقة في الترميز (التحقق من SWE‑Bench 77–82 %)، استقلالية ممتدة، أمان قوي
كفاءة استثنائية؛ استدلال أسرع 2–3 مرات واستخدام أقل للذاكرة[28]؛ مفتوح المصدر
نقاط الضعف
تكاليف رموز أعلى؛ API مملوك؛ قد يتطلب إدارة دقيقة للأوامر
حالة تجريبية؛ تراجعات طفيفة في التفكير المعقد[34]؛ يفتقر إلى أدوات مدمجة

من هذه المقارنة، يمكننا اشتقاق استراتيجية هجينة. يمكن لماكرون استخدام DeepSeek V3.2-Exp للمسودات الأولية، مستفيدًا من انخفاض التأخير والتكلفة، ثم تحسين أو التحقق باستخدام Sonnet 4.5 لضمان الدقة والأمان. بالنسبة للتطبيقات المصغرة المعقدة التي تتطلب تفكيرًا عميقًا، يظل Sonnet 4.5 الخيار الأفضل، بينما يتفوق V3.2-Exp في التكرارات السريعة أو الإنتاج الضخم.

6 كيف ستُحسِّن النماذج الجديدة خط إنتاج التطبيقات المصغرة لماكرون

السؤال الأساسي لماكرون هو ما إذا كان Sonnet 4.5 وDeepSeek V3.2-Exp يمكنهما تحسين الجودة، وتقليل زمن التطوير، وتقليل الأخطاء. نحن نحلل كل عامل في سياق خط إنتاج ماكرون:

6.1 جودة الشيفرة والإنتاج

يوفر Sonnet 4.5 جودة عالية في البرمجة وأخطاء أقل. وفقًا لـ Replit، انخفضت أخطاء تعديل الشيفرة من 9٪ إلى صفر عند الانتقال من Sonnet 4 إلى Sonnet 4.5. هذا يعني أن التطبيقات الصغيرة التي يتم إنشاؤها بواسطة Macaron ستتمكن من التحويل بشكل أكثر موثوقية، مع أخطاء أقل في الصياغة أو نقص في الواردات. تساعد التحسينات في اتباع التعليمات في النموذج Macaron على فهم مواصفات المستخدم بدقة أكبر؛ ويضمن تحسين إعادة الهيكلة البرمجية أن تكون الوحدات المولدة نظيفة ومرنة. في المهام المالية والأمن السيبراني، تحسنت دقة Sonnet 4.5 من 25٪ إلى 44٪، مما يشير إلى تحقيق مكاسب مماثلة في تطبيقات السفر والرفاهية من Macaron. بينما DeepSeek V3.2‑Exp أضعف قليلاً في التفكير المعقد، فإنه لا يزال يحافظ على أداء مشابه لـ V3.1 بكفاءة أفضل؛ وعند ضبطه على مجال Macaron، يمكن أن يقدم دقة كافية للتطبيقات الصغيرة الأبسط.

6.2 سرعة إنشاء التطبيقات المصغرة

يعني قدرة Sonnet 4.5 على العمل بشكل مستقل لأكثر من 30 ساعة أن ماكرون يمكنه توليد تطبيقات صغيرة من البداية إلى النهاية في جلسة واحدة مستمرة دون الحاجة إلى إعادة تعيين يدوية. عند الجمع مع إدارة السياق ونقاط التفتيش في Agent SDK، يقلل هذا من الوقت المستغرق في إعادة تشغيل المهام أو إعادة تحميل السياق. يسمح هيكل الوكيل الفرعي لماكرون بتوازي المهام: يمكن لوكيل واحد التعامل مع توليد واجهة المستخدم بينما يتولى آخر إدارة تكامل API، كل منهم بسياقه وأدواته الخاصة. في الوقت نفسه، تعني سرعة الاستدلال الأسرع بمقدار 2-3 مرات واستخدام الذاكرة الأقل في DeepSeek V3.2‑Exp استجابات أسرع. على سبيل المثال، إذا كان توليد خطة سفر يتطلب 30 ثانية باستخدام Sonnet 4.5، يمكن لـ V3.2‑Exp إنتاج مسودة أولية في 10-15 ثانية؛ ومن ثم يقوم Sonnet 4.5 بتحسينها. النتيجة النهائية هي وقت أقصر للوصول إلى النسخة الأولى القابلة للاستخدام، مما يتيح حلقات سريعة لتغذية راجعة المستخدم.

6.3 عمليات أكثر سلاسة وأخطاء أقل

تقلل الأتمتة من الأخطاء البشرية، ولكن يمكن أن يقدم الاستقلالية أخطاء جديدة إذا لم يتم إدارتها بشكل صحيح. تسمح نقاط التحقق الخاصة بحزمة تطوير البرمجيات (SDK) للمطورين بحفظ واستعادة حالة الوكيل [24]. إذا قام ماكرون بإجراء استدعاء API غير صحيح أو كتابة إلى ملف خاطئ خلال إنشاء التطبيقات المصغرة، يمكن للمطور العودة إلى نقطة تحقق سابقة بدلاً من البدء من جديد. يمنع تحرير السياق استنفاد الرموز ويضمن الاحتفاظ بالسياق ذي الصلة فقط، مما يقلل من الأوهام. بالنسبة لـ DeepSeek، يتيح الإصدار المفتوح المصدر لفريق ماكرون فحص وتعديل النموذج، ودمج فحوصات الأمان المخصصة وتعديل المهام الخاصة بالمجال. بالإضافة إلى ذلك، تستمر آليات التعلم المعزز الخاصة بماكرون - مثل نسج الوقت والتفكير المضاد والقيود على العدالة - في مراقبة رضا المستخدم ومعاقبة السلوك الضار [2][5]، مما يقلل من خطر الأخطاء والانتهاكات الأخلاقية.

6.4 اعتبارات التكلفة

النماذج عالية الجودة تأتي بسعر. تسعير الرموز لـ Sonnet 4.5 يبقى دون تغيير عن Sonnet 4 (3 دولارات/مليون رمز مدخلات، 15 دولارًا/مليون رمز مخرجات)[37]. يقلل DeepSeek V3.2‑Exp من تكلفة استدعاءات API إلى النصف[38] وبما أنه مفتوح المصدر، يمكن استضافته ذاتيًا. لذلك يمكن لـ Macaron تحسين التكاليف باستخدام V3.2‑Exp للمسودات الأولية أو المهام ذات الأهمية القليلة (مثل توليد مكونات UI أو الآلات الحاسبة البسيطة) والاحتفاظ بـ Sonnet 4.5 للمهام ذات الأهمية العالية (مثل التخطيط المالي، النصائح الطبية) حيث تكون الدقة والامتثال ضروريين. التوفير من الاستدلال الأسرع وتقليل استخدام وحدة معالجة الرسومات (المناقش أدناه) يعوض أيضًا تكاليف الحساب.

7 ابتكارات تدريب Macaron في التعلم المعزز: DAPO وLoRA وAll‑Sync RL

تحسين النموذج هو جزء فقط من القصة؛ كفاءة التدريب تؤثر على مدى سرعة ماكارون في التكرار على سياسات التعلم المعزز (RL). تصف MIND LABS نظامًا يجمع بين التحسين بسياسة العينات الديناميكية والفصل المتزامن (DAPO) مع التكيف منخفض الرتبة (LoRA) في بنية التعلم المعزز المتزامن بالكامل لتدريب نموذج DeepSeek بحجم 671 مليار باستخدام 48 وحدة معالجة رسومات H800 فقط - تخفيض بنسبة 10× مقارنة مع 512 وحدة معالجة رسومات مطلوبة للتعلم المعزز التقليدي[39]. يزيل التوازي عبر الخطوط باستخدام Coati و SGLang، بالإضافة إلى دمج وتسريع LoRA وتحليل الكمية، "فقاعات GPU" حيث تجلس وحدات معالجة الرسومات بدون عمل في انتظار الاستنتاج[40]. النتيجة هي تخفيض الوقت الزمني لخطوة تدريب واحدة من 9 ساعات إلى 1.5 ساعة[41]. هذه التطورات تعني أن ماكارون يمكنه إعادة تدريب نماذج المكافأة أو بوابات الذاكرة بشكل أسرع، دمج الملاحظات بشكل أسرع وتنفيذ التحسينات للمستخدمين بشكل أسرع.

الشكل 1 – ينخفض استخدام وحدة معالجة الرسوميات من 512 إلى 48 وحدة H800 GPUs عند استخدام All‑Sync RL مع LoRA، مما يتيح أبحاث RL أكثر سهولة وتجارب أسرع[39].

بخلاف الكفاءة، تقلل تحديثات LoRA ذات التصنيف المنخفض من تكاليف نقل أوزان النموذج، وتعمل العينة الديناميكية على استقرار التدريب عبر تصفية المطالبات وتشكيل المكافآت[42]. بالنسبة لماكرون، تعني هذه التقنيات أن تحديثات الذاكرة والسياسات المستقبلية يمكن تدريبها بسرعة دون تحمل تكاليف حسابية محظورة.

8 سير عمل المطور: دمج Sonnet 4.5 وDeepSeek في ماكرون

يتضمن إنشاء تطبيق صغير مع ماكرون عدة مراحل:

  • فهم النية - يقوم ماكارون بتحليل طلب المستخدم وتحديد المكونات اللازمة (مثل مصادر البيانات، عناصر واجهة المستخدم، واجهات برمجة التطبيقات الخارجية). يساعد تحسين اتباع التعليمات في Sonnet 4.5 على استخراج النية بدقة وتخطيط خطوات التنفيذ، بينما يمكن لـ V3.2‑Exp تقديم نماذج أولية سريعة للنيات المحتملة لاختيار المستخدم.
  • تركيب البرنامج - يستخدم الوكيل Claude Agent SDK لتوليد الكود، البحث في المستودع، قراءة القوالب وكتابة ملفات جديدة. قد يتخصص الوكلاء الفرعيون في الواجهة الأمامية (React) أو الواجهة الخلفية (Python)، وتضمن إدارة السياق توفر الكود الصحيح دون زيادة تحميل الذاكرة. ينتج Sonnet 4.5 برامج أنظف وأكثر قابلية للصيانة بفضل قدراته على السياق الطويل وإعادة صياغة الكود، بينما يسرع V3.2‑Exp المسودة الأولى.
  • تنفيذ في البيئة التجريبية - يتم تنفيذ الكود المولد في بيئة آمنة. يقرأ الوكيل السجلات، يلتقط الأخطاء ويصححها بشكل تكراري. توفر نقاط التفتيش استرجاع آمن، وإشارات المكافآت من التعلم المعزز تعاقب الكود الذي يفشل في الاختبارات. قد يقوم ماكارون أيضًا بإجراء اختبارات تكامل ضد الخدمات الخارجية باستخدام أدوات bash و web fetch في Agent SDK.
  • التفاعل والتكرير - يقدم الوكيل التطبيق المصغر للمستخدم من خلال واجهة المحادثة الخاصة بماكارون. تخزن محرك الذاكرة المحادثات وتستخدم التعلم المعزز لتحديد الذكريات التي يجب استرجاعها في التفاعلات المستقبلية. تحدث ملاحظات المستخدم نموذج المكافآت وتؤثر على الأجيال المستقبلية.

من خلال دمج Sonnet 4.5 وDeepSeek V3.2‑Exp، يمكن لماكارون تخصيص سير العمل هذا. على سبيل المثال، قد تحتوي تطبيقات تخطيط السفر على وكيل مولد واجهة المستخدم يستخدم DeepSeek لاقتراح تصميمات بسرعة، بينما تستخدم منطق الرحلات وتحسين الجداول Sonnet 4.5 لضمان الدقة والتعامل السليم مع التقويمات. قد يعتمد تطبيق الميزانية على DeepSeek للحصول على الجداول والرسوم البيانية الأولية، ولكنه يستخدم Sonnet 4.5 للحسابات المالية المعقدة والامتثال للوائح.

9 تصور التحسينات

لتوضيح الفوائد الملموسة لهذه التقنيات، تلخص الرسوم البيانية التالية المقاييس الرئيسية.

الشكل 2 – عرض مقارن بين Sonnet 4.5 و DeepSeek V3.2‑Exp من حيث دقة الترميز، السرعة النسبية، التكلفة والاستقلالية. تمثل الأعمدة الأعلى قيمًا أفضل للدقة والاستقلالية؛ تشير الأعمدة الأقل إلى أداء أفضل (أسرع أو أرخص) من حيث الكفاءة والتكلفة.

الشكل 3 – تُظهر المعايير الداخلية لـ Replit أن أخطاء تحرير الشيفرة انخفضت من 9٪ مع Sonnet 4 إلى الصفر مع Sonnet 4.5. يؤدي تحسين اتباع التعليمات وإعادة صياغة الشيفرة إلى تطبيقات صغيرة أكثر موثوقية.

الشكل 4 – يجمع بين DAPO وLoRA في خط أنابيب RL المتزامن بالكامل لتقليل الوقت المطلوب لخطوة التدريب من 9 ساعات إلى 1.5 ساعة[41]، مما يتيح تحديثات أسرع لنماذج المكافآت وسياسات الذاكرة.

تؤكد هذه التصورات أن الفوائد ليست نظرية. تقليل متطلبات GPU، تدريب أسرع، دقة أعلى وتكاليف أقل كلها تساهم في خط أنابيب تطبيقات صغيرة أكثر سلاسة وكفاءة.

10 اتجاهات مستقبلية

بالنظر إلى المستقبل، أشارت كل من Anthropic وDeepSeek إلى هندسات أكثر طموحًا. قد يتوسع خليفة Sonnet 4.5 في نوافذ السياق، ويحسن من التفكير متعدد اللغات ويدعم تفاعلات الأدوات الأكثر تعقيدًا. من المتوقع أن تبني هندسة الجيل القادم من DeepSeek على الانتباه المتناثر لتحقيق أداء أعلى بتكلفة أقل[31]. بالنسبة لـ Macaron، فإن البحث المستمر في الذاكرة ذاتية الضغط، التعلم مدى الحياة والتوافق عبر اللغات يمكن أن يعزز التخصيص والخصوصية[43]. يمكن أن يسمح دمج التعلم الفيدرالي للمستخدمين بتدريب نماذج الذاكرة محليًا، ومشاركة تحديثات النموذج فقط، وبالتالي تحسين الأداء الجماعي مع الحفاظ على الخصوصية[43]. من جانب تعلم التعزيز، يمكن لنظام Macaron أن يدمج نظريات معيارية - مثل النفعية، وعلم الأخلاق، وأخلاقيات الفضيلة - لتقديم تفسيرات لأفعاله[44].

باختصار، قرار Macaron بالاتصال بـ Claude Sonnet 4.5 و DeepSeek V3.2‑Exp، المدعوم من Claude Agent SDK، يضعها في مقدمة الذكاء الاصطناعي الشخصي. يوفر Sonnet 4.5 جودة لا مثيل لها، واستقلالية ممتدة، وأدوات تطوير غنية؛ بينما تقدم DeepSeek السرعة والكفاءة ومرونة المصدر المفتوح. مع تقنيات التدريب المبتكرة لـ Macaron ومحرك الذاكرة، ستساعد هذه النماذج Macaron في بناء التطبيقات المصغرة بسرعة وسلاسة وبأخطاء أقل. مع استمرار تطور الذكاء الاصطناعي الشخصي، يُعتبر مزيج Macaron من الاستقلالية والأمان والأخلاقيات والكفاءة بمثابة نموذج للابتكار المسؤول.


[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] داخل محرك الذاكرة في Macaron: الضغط، الاسترجاع والتوجيه الديناميكي - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [العنوان غير معروف]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] بناء الوكلاء باستخدام SDK لرمز Claude

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] أنثروبيك كلود سونيت 4.5: الميزات، التسعير والمقارنة - داتاكونومي

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] الذكاء الاصطناعي على الذكاء الاصطناعي: ديب سيك-3.2-إكسب وDSA - مجلة شامبين

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] تطلق شركة DeepSeek الصينية نموذج ذكاء اصطناعي 'وسيط' في طريقها نحو الجيل القادم | رويترز

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/

[39] [40] [41] [42] مختبرات مايند | توسيع نطاق All-Sync RL مع DAPO وLoRA

https://mindlabs.macaron.im/

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends