المؤلف: بوكسو لي 

مقدمة

أصبح التعلم المعزز (RL) ركيزة أساسية في الذكاء الاصطناعي الحديث، حيث يمكّن الوكلاء من تعلم السياسات المثلى من خلال التجربة والخطأ. ومع ذلك، يواجه RL في سياق الذكاء الاصطناعي الشخصي تحديات فريدة: المكافآت ذاتية، والبيئات غير ثابتة، وهناك اعتبارات أخلاقية عديدة. واجه مصممو Macaron AI هذه التحديات مباشرة، حيث بنوا نظام RL متعدد الطبقات يتحكم في إدارة الذاكرة وتوليف الشفرات وأسلوب المحادثة والمزيد. يفحص هذا المقال كيفية تطبيق Macaron على التعلم المعزز الهرمي ونمذجة المكافآت وتخصيص الائتمان وقيود العدالة لإنشاء وكيل شخصي بحق. كما نناقش كيفية تباين نهج RL في Macaron مع RL في مجالات أخرى واستكشاف الاتجاهات المستقبلية.

1 نمذجة المكافآت: التقاط تفضيلات الإنسان

1.1 إشارات التغذية الراجعة الضمنية والصريحة

على عكس ألعاب الطاولة أو البيئات المحاكاة، تعمل الوكلاء الشخصية في مساحات مفتوحة حيث لا يمكن اشتقاق المكافأة فقط من نجاح المهمة. يجمع Macaron التغذية الراجعة الضمنية (طول المحادثة، تكرار الاستخدام، نبرة استجابات المستخدم) والتغذية الراجعة الصريحة (التقييمات، الإعجاب/عدم الإعجاب) لبناء إشارة مكافأة. على سبيل المثال، إذا انخرط مستخدم ياباني في محادثات أطول بعد استخدام الوكيل للغة مؤدبة، فإن هذا الارتباط الإيجابي يزيد من المكافأة للسلوك المماثل. إذا قام مستخدم كوري بتقييم تطبيق مصغر تم إنشاؤه بشكل ضعيف بسبب تصميم مزدحم، فإن المكافأة لذلك النمط من واجهة المستخدم تتناقص. تدخل هذه الإشارات في نموذج المكافأة الذي يتنبأ برضا المستخدم لحالة وإجراء معينين.

1.2 وظائف المكافأة متعددة الأهداف

يعتمد تعزيز التعلم الخاص بماكرون على أهداف متعددة. بالإضافة إلى رضا المستخدم، يشمل المكافأة شروطًا تتعلق بـالخصوصية والامتثال واستخدام الموارد والأخلاقيات. مشاركة المعلومات الحساسة دون موافقة صحيحة يُعرض لعقوبة، بينما يؤدي ضغط الذاكرة بشكل فعال إلى مكافأة. بالنسبة لتوليد الشفرات، تؤثر الكفاءة وقابلية الصيانة على المكافأة: التعقيد المفرط (مثل توليد 100,000 سطر بلا ضرورة) يؤدي إلى مكافآت سلبية. يتم ضبط أوزان المكافآت لمناطق مختلفة. اليابان تركز على الخصوصية والشفافية مما يزيد العقوبة على الانتهاكات، بينما قد تضع كوريا وزنًا أكبر على السرعة والابتكار. يتطلب تحقيق التوازن بين هذه الأهداف تصميمًا دقيقًا؛ يستخدم ماكرون دالة التحويل التي تحول الأهداف المتعددة إلى مكافأة واحدة من خلال مجموعات موزونة وتدرجات ديناميكية.

1.3 استنباط التفضيلات وإدماج الإنسان في الحلقة

التغذية الراجعة من البشر ضرورية لتحقيق توافق أنظمة الذكاء الاصطناعي مع القيم. يقوم Macaron بتنفيذ استخلاص التفضيلات من خلال تقديم استجابات بديلة أو تصميمات تطبيقات صغيرة وسؤال المستخدمين عن تفضيلهم. يتم تغذية هذه البيانات في نموذج استدلال يتعلم وظيفة منفعة كامنة عبر الإجراءات الممكنة. النهج مشابه لـ RLHF (التعلم المعزز من تغذية راجعة بشرية) المستخدم لتدريب نماذج اللغة الكبيرة، ولكن Macaron يوسعها من خلال دمج التعليقات الثقافية: يعلق المعلقون اليابانيون على اللباقة والسياق، بينما يلاحظ المعلقون الكوريون الفروق بين الصياغات الجماعية والفردية. يعكس نموذج المكافأة الناتج تفضيلات دقيقة عبر الثقافات.

2 التعلم المعزز الهرمي: تفكيك التعقيد

2.1 السياسة على مستوى عالٍ عبر الوحدات

تتراوح مهام Macaron من الدردشة العادية إلى توليد البرامج المعقدة. لإدارة هذا التنوع، يستخدم النظام التعلم التعزيزي الهرمي. في المستوى الأعلى، يختار المتحكم الفوقي بين الوحدات: مدير المحادثة، مدير الذاكرة، محرك التوليف، منظم العواطف، إلخ. كل وحدة يتم التحكم فيها بواسطة سياسة تعلم تعزيزي منفصلة. على سبيل المثال، يستخدم مدير الذاكرة التعلم التعزيزي لتحديد ما يجب تخزينه أو نسيانه، بينما يستخدم محرك التوليف التعلم التعزيزي لاختيار القوالب البرمجية. يتلقى المتحكم الفوقي مكافأة عالية المستوى تجمع بين مكافآت جميع الوحدات ويتعلم متى يفوض المهام. هذا التفكيك يقلل من مساحة البحث ويحسن كفاءة العينات.

2.2 اكتشاف الخيارات والتعلم بالنقل

داخل الوحدات، يستخدم Macaron إطار الخيارات لتمثيل السياسات الفرعية القابلة لإعادة الاستخدام. تتوافق "الخيار" مع تسلسل من الإجراءات لتحقيق هدف فرعي، مثل "تلخيص مصاريف الشهر الماضي" أو "توصية بخطة دراسة ثنائية اللغة". يمكن نقل الخيارات المكتشفة في المجال الياباني إلى المجال الكوري إذا كان الهيكل الأساسي يتماشى. عندما يتعلم Macaron طريقة فعالة للتعامل مع طلب المستخدم في لغة واحدة، يمكنه تطبيق نفس الخيار عندما يظهر المفهوم في لغة أخرى، مما يسرع من التكيف.

2.3 التجريد الزمني والإجراءات الكبرى

تسمح التجريد الزمني لوكلاء التعلم المعزز بالتفكير على مستويات زمنية مختلفة. يحدد Macaron إجراءات ماكرو التي تشمل الحوارات متعددة الأدوار أو الحسابات المطولة. على سبيل المثال، يتضمن تخطيط إجازة عائلية في كوريا إجراء ماكرو يشمل اختيار الوجهة، والنقل، والإقامة وتصميم الجدول الزمني. يقوم وكلاء التعلم المعزز بتقييم إجراء الماكرو بناءً على المكافأة التراكمية بدلاً من الإشارات قصيرة الأجل. هذا يشجع الوكيل على اعتبار الرضا على المدى الطويل، مثل ضمان أن تتماشى الرحلة مع العطلات المدرسية أو تجنب تضارب الجداول الزمنية.

3 تخصيص الائتمان ونسج الوقت

3.1 تتبع السلاسل السببية

يعد تخصيص الائتمان لإجراءات محددة أمرًا صعبًا عندما تصل المكافآت متأخرة. يستخدم Macaron نسج الوقت، حيث يربط الأحداث عبر الزمن بخيوط سردية. يبني الوكيل رسمًا بيانيًا للتفاعلات حيث تمثل العقد الذكريات وتمثل الحواف العلاقات السببية. عند تقييم نتيجة معينة، يقوم النظام بتتبع الرسم البياني للخلف لتحديد أي من الاسترجاعات أو الإجراءات ساهمت فيها. على سبيل المثال، إذا زادت توصية بمهرجان ياباني من سعادة المستخدم بعد أسابيع، ينسب الوكيل جزءًا من المكافأة إلى استرجاع ذاكرة المهرجان وإلى إنشاء تطبيق صغير مناسب. يساعد هذا التحليل السببي الواضح سياسة التعلم المعزز على تعلم استراتيجيات استرجاع فعّالة.

3.2 التفكير المضاد للوقائع

لتحسين توزيع الائتمان، يستخدم Macaron الارتكاز المضاد للواقع. يفكر الوكيل في الإجراءات البديلة التي يمكنه اتخاذها ويقدر الفرق في النتائج. إذا كان عدم تذكير مستخدم كوري بحدث عائلي سيؤدي إلى إحراج، فإن التذكير الفعلي يحصل على مكافأة مضادة للواقع إيجابية. هذا يشجع الوكيل على توقع العواقب الناتجة عن النسيان أو تذكر المعلومات. كما يساعد التفكير المضاد للواقع في تجنب التعميم الزائد: لا يفترض الوكيل تلقائيًا أن تكرار إجراء ناجح سيؤدي دائمًا إلى نفس النتيجة؛ بل يختبر ما إذا كان الإجراء فعلاً يسبب النتيجة.

3.3 المكافآت المؤجلة وتتبع الأهلية

تطبيق RL الخاص بـ Macaron يتضمن آثار الأهلية، وهي آلية تمنح الفضل للحالات والإجراءات التي تسبق المكافآت. عندما يحصل الوكيل على مكافأة مؤجلة (مثل رضا المستخدم بعد استخدام تطبيق صغير لأسابيع)، يساعد الأثر في نشر الإشارة إلى القرارات السابقة مثل اختيار الذاكرة، ونبرة المحادثة واختيارات وحدة الكود. يتم وزن آثار الأهلية بعامل تلاشي؛ حيث تحصل الحالات الأقرب إلى المكافأة على رصيد أعلى. تشجع هذه الآلية الوكيل على تحسين الرضا على المدى الطويل بدلاً من المكاسب قصيرة الأجل.

٤ اعتبارات العدالة والسلامة والأخلاق

٤.١ تجنب التحيز والتمييز

يمكن لتعلم التعزيز أن يتعلم التحيزات عن طريق الخطأ من بيانات التغذية الراجعة. يقوم Macaron بتخفيف هذا من خلال دمج قيود العدالة في دالة المكافأة. على سبيل المثال، يُعاقب الوكيل إذا كان يوصي بشكل مستمر بأنشطة تخص جنسًا معينًا دون طلب. يراقب النظام أنماط التوصيات عبر المجموعات الديموغرافية ويضبط المكافآت لتحقيق تكافؤ الفرص. عند التعامل مع مواضيع حساسة مثل المالية أو الصحة، يستشير الوكيل مكتبة السياسات الأخلاقية التي تشفر المعايير الثقافية والمتطلبات القانونية. يؤدي خرق هذه الإرشادات إلى مكافأة سلبية أو حظر الإجراء تمامًا.

4.2 الإشراف البشري والامتثال التنظيمي

يتطلب قانون إطار عمل الذكاء الاصطناعي في كوريا إشرافًا بشريًا على الأنظمة ذات التأثير الكبير وإشعارات الذكاء الاصطناعي التوليدي. يلتزم Macaron بذلك من خلال تضمين البشر في قرارات رئيسية مثل التخطيط المالي أو النصائح الصحية. عندما يقوم مستخدم كوري بإنشاء تطبيق مصغر ذو أهمية كبيرة، يطلب النظام منه مراجعة الإجراءات والموافقة عليها. يركز قانون تعزيز الذكاء الاصطناعي في اليابان على الشفافية؛ لذلك، يقوم Macaron بتسجيل قرارات التعلم المعزز وتقديم تفسيرات للمستخدمين حول سبب اختيار ذكريات أو وحدات معينة. تساهم هذه التدابير في بناء الثقة وضمان المساءلة.

4.3 تنفيذ سياسة التسمية والتشهير ومسارات التدقيق

قانون الذكاء الاصطناعي في اليابان يطبق آلية التشهير لغير الملتزمين. سجلات التعلم التعزيزي الخاصة بماكارون تتضمن ليس فقط المكافآت بل أيضًا الأسس وراء القرارات. إذا قام المنظمون بالتحقيق، يمكن للشركة أن تثبت أنه تم معالجة التحيزات واحترام قواعد الخصوصية. كما تدعم السجلات عمليات التدقيق من قبل المستخدمين؛ يمكن للأفراد رؤية كيف أثر ملاحظاتهم على سلوك الوكيل. هذه الشفافية تمنع إساءة استخدام التعلم التعزيزي وتشجع الابتكار الأخلاقي.

5 تحليل مقارن: ماكارون مقابل وكلاء آخرين يعتمدون على التعلم التعزيزي

5.1 الألعاب، الروبوتات وأنظمة التوصية

حققت تقنيات التعلم التعزيزي نتائج مذهلة في الألعاب (مثل AlphaGo وDota 2)، والروبوتات وأنظمة التوصيات. ومع ذلك، توفر هذه البيئات أهدافًا واضحة (مثل الفوز في اللعبة، تقليل الخطأ) ومكافآت واضحة. على النقيض من ذلك، يجب على الذكاء الاصطناعي الشخصي استنتاج الأهداف من البيانات المعقدة والاتساق مع القيم الإنسانية. في الألعاب، تكون الاستكشافات غالبًا غير مقيدة؛ قد يضحي الوكيل بقطعة شطرنج لتحقيق ميزة موضعية. في الذكاء الاصطناعي الشخصي، فإن التضحية بثقة المستخدم من أجل تفاعل قصير المدى غير مقبول. نموذج المكافآت في Macaron يعاقب بشكل صريح على الأفعال التي تقلل الثقة، مما يجعل النظام محافظًا عند الضرورة.

5.2 أطر المساعد الشخصي مفتوحة المصدر

بعض المشاريع مفتوحة المصدر تقدم مساعدين شخصيين يعتمدون على التعلم المعزز (RL) لجدولة المهام أو أتمتة سير العمل. غالبًا ما تفترض هذه الأنظمة وجود تغذية راجعة مستمرة من المستخدم وتعامل المهام بشكل مستقل. يختلف Macaron من خلال دمج المهام عبر محرك ذاكرته واستخدام التعلم المعزز الهرمي لإدارة التفاعلات. نموذج التعلم المعزز الخاص به متشابك بعمق مع السياق الثقافي وقواعد الخصوصية وتوليد الأكواد، مما يجعله أكثر تعقيدًا ولكنه أيضًا أكثر قدرة. بينما قد تستخدم وكالات أخرى التعلم المعزز لتوصية الأغاني بناءً على سجل الاستماع، يستخدم Macaron التعلم المعزز ليقرر ما إذا كان يجب تذكيرك بالاتصال بوالدتك قبل تقديم توصية هدية.

5.3 الأبحاث الأكاديمية الناشئة

اقترح الباحثون طرق التعلم المعزز (RL) للتحكم في النماذج اللغوية الكبيرة، مثل التعلم المعزز مع التغذية المرتدة البشرية (RLHF) وتصميم البيئة غير المراقبة. يساهم ماكرون في هذا الأدب من خلال عرض التعلم المعزز في بيئة واقعية، متعددة المجالات، ومتعددة اللغات. كان مشروع FireAct قد أثبت سابقًا أن التعلم المعزز يحسن دقة التفكير بنسبة 77٪ مقارنة بالوكلاء القائمين على التوجيه؛ يوسع ماكرون هذه الفكرة من خلال تدريب سياسات التعلم المعزز ليس فقط على مهام التفكير ولكن أيضًا على إدارة الذاكرة، وتركيب الشفرات، وأسلوب الحوار. يبرز أهمية التصميم الهرمي وتعيين الفضل وقيود العدالة في توسيع نطاق التعلم المعزز إلى الوكلاء الشخصيين.

5.4 الأخلاقيات الميتا والأطر المعيارية

يعزز التعلم المعزز المكافأة، لكن دوال المكافأة تشفر القيم الإنسانية التي تختلف عبر الثقافات. تثار أسئلة أخلاقية شاملة: هل يجب على الوكيل تعظيم السعادة، أو الالتزام بأخلاقيات قائمة على الواجب، أو تحقيق توازن بين العدالة والاستقلالية؟ يعالج ماكرون هذا من خلال تعلم الأولويات المعيارية من البيانات الثقافية. في اليابان، حيث تُقدر الوئام واحترام النظام الاجتماعي، يركز نموذج المكافأة على اللباقة، التوافق والدقة. في كوريا، التي تقدر مرونة المجتمع والابتكار الجريء، يكافئ النموذج المساعدة الاستباقية والشفافية. هذه الأطر المعيارية ليست ثابتة؛ يمكن للمستخدمين ضبط معايير الأخلاق، ويستكشف ماكرون مساحة القيم تحت القيود. اتجاه البحث المستمر هو دمج النظريات الأخلاقية الرسمية - النفعية، الأخلاق القائمة على الواجب، أخلاق الفضيلة - في الوكلاء المعززين بحيث يمكنهم شرح المفاضلات الأخلاقية وراء أفعالهم. هذا مهم بشكل خاص للقرارات ذات التأثير الكبير مثل التخطيط المالي أو التوصيات الصحية.

5.5 الاتجاهات المستقبلية: التعلم التعزيزي الاجتماعي والمكافآت الجماعية

تتوسط الوكلاء الشخصيون بشكل متزايد في التفاعلات داخل الأسر والفرق والمجتمعات. يُعتبر التعلم المعزز الاجتماعي امتدادًا للتعلم المعزز في بيئات متعددة الوكلاء، حيث يجب على الوكلاء مراعاة رفاهية العديد من أصحاب المصلحة. على سبيل المثال، عند جدولة حدث عائلي، يجب على ماكرون تحقيق توازن بين التفضيلات الفردية (الخصوصية، عبء العمل) والرضا الجماعي. يمكن تشكيل المكافآت الجماعية باستخدام كفاءة باريتو—لضمان أن تحسين نتيجة أحد الأعضاء لا يضر بالآخرين—أو مبادئ التقسيم العادل. في السياقات متعددة اللغات، قد يحدث التواصل الجماعي بلغات متعددة؛ يجب على الوكيل توحيد المكافآت عبر الحدود اللغوية مع احترام الأعراف الثقافية. ستستكشف الأبحاث المستقبلية التعلم المعزز العادل حيث تُعطى الأصوات المهمشة وزنًا أكبر، لضمان الشمولية. تتضمن مسارات أخرى اللعب الذاتي لمحاكاة التفاعلات بين الوكلاء، والتعلم الفوقي للتكيف مع الديناميكيات الجديدة للمجموعات، والاستدلال السببي لفصل الترابط عن السببية في التغذية الراجعة الاجتماعية. ستسمح هذه التطورات لماكرون والذكاء الاصطناعي الشخصي المماثل بالانتقال من التفاعلات الفردية إلى تنسيق التجارب الاجتماعية، مما يجعلهم شركاء لا يقدرون بثمن في المجتمعين الياباني والكوري.

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends