لماذا يتصدر التعلم المعزز مركز الصدارة في "النصف الثاني" من الذكاء الاصطناعي

المؤلف: بوكسو لي

من التدريب المسبق إلى "النصف الثاني" من الذكاء الاصطناعي

بعد عقد من الهيمنة على التدريب المسبق واسع النطاق، تدخل مجتمع الذكاء الاصطناعي ما يسميه البعض "النصف الثاني" من تطوير الذكاء الاصطناعي[1][2]. في النصف الأول، كان التقدم مدفوعًا ببُنى النماذج الجديدة وطرق التدريب التي تسعى بلا هوادة إلى تحسين المعايير[3] - من الشبكات التلافيفية وLSTMs إلى المحولات - جميعها محسّنة عبر التعلم المراقب أو التعلم الذاتي على مجموعات بيانات ثابتة. لكن اليوم، نماذج الحدود مثل GPT-4 قد أشبعت العديد من المعايير أساسًا، وتوسيع البيانات والمعلمات ببساطة يؤدي إلى عوائد متناقصة[2]. هذا التحول أشعل إعادة النظر في كيفية تحقيق المزيد من الذكاء والفائدة من الذكاء الاصطناعي.

إحدى التوافقات الناشئة هي أن التعلم بالتعزيز (RL) سيلعب دورًا كبيرًا في هذه المرحلة القادمة. لقد اعتُبر التعلم بالتعزيز منذ فترة طويلة "الهدف النهائي" للذكاء الاصطناعي - وهو إطار قوي بما يكفي للفوز في مهام تعسفية من خلال تحسين المكافآت على المدى الطويل [4]. في الواقع، من الصعب تخيل أنظمة فائقة الذكاء مثل AlphaGo أو AlphaStar بدون وجود التعلم بالتعزيز في جوهرها [4]. الآن، مع النماذج الكبيرة المدربة مسبقًا كأساس، يجادل العديد من الباحثين بأن "التدريب المسبق انتهى" - الإنجازات المستقبلية ستأتي من التدريب اللاحق لهذه النماذج في بيئات تفاعلية عبر التعلم بالتعزيز. كما وضعت إحدى المقالات الحديثة، بمجرد أن نحصل على نماذج مدربة مسبقًا ضخمة ("الأسس") وبيئات مناسبة، "قد يكون خوارزمية التعلم بالتعزيز الجزء الأكثر سهولة" في بناء الوكلاء المتقدمين [5]. بمعنى آخر، لقد أعددنا الكعكة بالتدريب المسبق؛ التعلم بالتعزيز هو المفتاح لتزيينها بالتفكير والوكالة.

شونيو ياو، في النصف الثاني، يعبر عن هذا الروح. يلاحظ أن الذكاء الاصطناعي الحديث يوفر بالفعل “وصفة عمل” – نموذج لغوي كبير للتدريب المسبق + التوسيع + الاستدلال – يمكنه حل العديد من المهام دون الحاجة إلى خوارزميات جديدة[2][6]. وبالتالي، تغيرت اللعبة: ببساطة اختراع بنية أخرى لن يحقق القفزات التي كان يحققها سابقًا. بدلاً من ذلك، يجب أن نركز على التقييم والبيئات – بشكل أساسي، على المهام التي تجبر الذكاء الاصطناعي على التفكير والتصرف، وليس فقط التنبؤ بالرمز التالي[7][8]. وهذا يعني بشكل لا مفر منه استخدام التعلم المعزز. يسمي ياو التعلم المعزز “نهاية اللعبة للذكاء الاصطناعي” ويجادل بأن الآن بعد أن لدينا المكونات الصحيحة (الأوليات القوية من التدريب المسبق، بالإضافة إلى بيئات أغنى مع اللغة والأدوات)، “الوصفة تغير اللعبة بالكامل” في هذا النصف الثاني[1]. يجب أن نتوقع التحول من معايير ثابتة إلى مهام تفاعلية، ومن تقييمات لمرة واحدة إلى التعلم المستمر في البرية. باختصار، التعلم المعزز أصبح محوريًا في كيفية تقدمنا في الذكاء الاصطناعي من الآن فصاعدًا.

التعلم المعزز كمفتاح لفتح القدرات المتقدمة

لماذا التركيز المتجدد على التعلم المعزز؟ ببساطة، يمكن للتعلم المعزز تمكين قدرات لا يمكن للتعلم الخاضع للإشراف وحده تحقيقها بسهولة. نماذج اللغة الكبيرة (LLMs) مثال على ذلك. يتعلم المحول مثل GPT-4، المدرب مسبقًا على نصوص الإنترنت، كمية هائلة من المعرفة والتعرف على الأنماط اللغوية - لكنه بمفرده لا يزال يفتقر إلى الوكالة الحقيقية. يعلم التدريب المسبق "كيفية التحدث"، لكن ليس بالضرورة ما هي القرارات التي يجب اتخاذها في بيئة تفاعلية. بالمقابل، يمكن للتعلم المعزز تعليم الذكاء الاصطناعي ما هي الأهداف التي ينبغي متابعتها وكيفية اتخاذ الإجراءات لتحقيقها، من خلال تعظيم المكافآت التي تعكس هذه الأهداف. هذا التحول من التنبؤ السلبي إلى التجريب النشط وتلقي التغذية الراجعة أمر حاسم لـ الاستدلال، والتخطيط، والتوافق.

تشير الأعمال الحديثة على الوكلاء المعتمدين على النماذج اللغوية الكبيرة إلى كيفية أن التعلم التعزيزي يفتح مستويات جديدة من الأداء. على سبيل المثال، تم ضبط النموذج مفتوح المصدر Kimi K2 نهاية إلى نهاية باستخدام التعلم التعزيزي، مما „يعلم النموذج التخطيط والتفاعل والتصحيح الذاتي من خلال سلاسل طويلة من التفكير بدلاً من الاعتماد فقط على التدريب الخاضع للإشراف“[9]. من خلال التعلم التعزيزي، اكتسب K2 أنماط تفكير ذاتية – يتعلم التحقق من الحقائق، وتكرار الفرضيات، والبقاء حذراً حتى عندما تبدو الأسئلة سهلة[10]. والنتيجة هي نموذج لا يكتفي فقط بإعادة إنتاج بيانات التدريب، بل يكتشف كيفية حل المشكلات الجديدة بنشاط. وبالمثل، يركز مشروع K2 على الموثوقية: يفضل الوكيل التحقق من الإجابات قبل اعتمادها، مما يعكس ميلاً مدرباً بالتعلم التعزيزي لتعظيم الدقة على السرعة[11]. في جوهر الأمر، ضخ التعلم التعزيزي النموذج بحلقة „ذاتية“ داخلية من التخطيط والتفكير، مما يحركه إلى ما هو أبعد من حدود توقع الرمز التالي.

نرى هذا النمط مع أنظمة متقدمة أخرى أيضًا. تحسين ChatGPT الخاص من GPT-3 جاء بشكل كبير عبر التعلم المعزز من التغذية الراجعة البشرية (RLHF). بعد التدريب المسبق للنموذج على النصوص، قامت OpenAI بتعديله باستخدام التغذية الراجعة البشرية ونماذج المكافأة، مما حسّن بشكل كبير من مساعدته والالتزام بالتعليمات. يصف جون شولمان – الباحث الرئيسي في ChatGPT – تلك العملية: قام المختبرون البشريون بتقديم إشارة مكافأة جعلت النموذج أفضل بكثير في إجراء محادثات متماسكة، والالتزام بالمسار، وتجنب المخرجات غير المرغوب فيها[12]. بعبارة أخرى، قام RLHF بمحاذاة النموذج مع تفضيلات البشر ومعايير المحادثة. أصبحت هذه التقنية معيارًا فعليًا لتحويل النماذج اللغوية الكبيرة الخام إلى مساعدات مفيدة. وكما تشير مقالة في WIRED، أصبح التعلم المعزز الآن أسلوبًا “شائعًا بشكل متزايد” لتعديل النماذج من خلال منحها مكافآت قائمة على التغذية الراجعة لتحسين الأداء[13]. سواء كان لجعل روبوت المحادثة يتبع التعليمات أو لإضفاء مهارات حل المشكلات على نموذج كبير، فإن التعلم المعزز هو الأداة المفضلة بمجرد الانتهاء من التدريب المسبق.

تكمن أهمية التعلم المعزز (RL) في أكثر من مجرد تحسين السلوك اللائق؛ إنها تتعلق بتعليم النماذج اتخاذ القرارات. وقد لخصت مدونة تقنية حديثة من مختبرات العقل في ماكارون AI هذا الموضوع: "بينما تتطور النماذج اللغوية الكبيرة (LLMs) من مرحلة ما قبل التدريب نحو التعلم التجريبي، يبرز التعلم المعزز كمفتاح لفتح قدرات التفكير المتقدمة."[14] بدلاً من اعتبار التعلم المعزز مجرد فكرة لاحقة، تعتبر المشاريع المتطورة أنه "ركيزة تصميم أساسية للسلوك الوكيل، وليس مجرد خطوة تجميلية نهائية"[15]. من الناحية العملية، يعني ذلك تدريب أنظمة الذكاء الاصطناعي بوضعها في بيئات محاكاة أو حقيقية حيث يجب عليها التصرف، والحصول على التغذية الراجعة، والتحسن – سواء كان ذلك وكيلًا للبحث في الأدوات أو روبوتًا يتعلم التنقل. التعلم التجريبي من خلال التعلم المعزز هو الطريقة التي ستكتسب بها الذكاء الاصطناعي المهارات التي لا يمكن التقاطها في مجموعات البيانات الثابتة.

من اللافت أن مختبرات الذكاء الاصطناعي الجديدة تتشكل حول هذه الفلسفة. مختبر Thinking Machines، وهو شركة ناشئة أسسها قادة سابقون في OpenAI، انطلق للتو بتقييم بقيمة 2 مليار دولار لإنشاء أدوات لضبط النماذج المتقدمة عبر تقنيات RL وغيرها. يهدف منتجهم الرئيسي "Tinker" إلى أتمتة ضبط النماذج الكبيرة باستخدام التعلم من خلال التعزيز، مع رهانهم على أن تمكين العديد من الأشخاص من "استخراج قدرات جديدة من النماذج الكبيرة عبر الاستفادة من التعلم من خلال التعزيز" سيكون الشيء الكبير التالي في الذكاء الاصطناعي[16][17]. وبالمثل، تقوم شركة Macaron AI (وهي مشروع بحثي جديد) بتصميم محسنات RL مخصصة وبنية تحتية لتوسيع RL إلى نماذج تحتوي على تريليون معلمة[18][19]. تسلط هذه الجهود الضوء على اتجاه أوسع: يرى مجتمع الذكاء الاصطناعي فرصة كبيرة في RL لدفع النماذج إلى آفاق جديدة – سواء كان ذلك لجعلها أكثر استخدامًا للأدوات والتفكير (كما هو الحال مع Kimi K2 ووكالات Macaron) أو أكثر توافقًا وتخصيصًا (كما هو الحال مع ChatGPT وTinker). باختصار، يُنظر الآن إلى RL على أنه تقنية تمكين رئيسية لتحقيق الإمكانات الكاملة للنماذج الأساسية التي تم بناؤها في العقد الماضي.

التأثير الواقعي: من المحاكاة إلى الأقمار الصناعية

ربما يكون السبب الأكثر إقناعًا لزيادة بروز التعلم المعزز هو نجاحه في معالجة المشاكل خارج نطاق مجموعات البيانات الثابتة - غالبًا ما يحقق إنجازات كانت بعيدة المنال لفترة طويلة. كانت الإنجازات في لعب الألعاب هي أول دليل درامي: تمكنت AlphaGo وAlphaZero من DeepMind وOpenAI's Five من التغلب على لعبة Go والشطرنج وحتى ألعاب الفيديو المعقدة من خلال التعلم المعزز العميق. أظهرت هذه الأنظمة أنه، مع وجود مكافأة محددة جيدًا (مثل الفوز في لعبة)، يمكن لوكلاء التعلم المعزز التفوق على أبطال البشر من خلال التدريب المكثف والتحسين[4]. ومن الجدير بالذكر أن فوز OpenAI Five على فريق دوتا-2 بطل العالم في عام 2019 تم تحقيقه من خلال التدريب عبر التعلم المعزز الذاتي على نطاق غير مسبوق - مما يبرز "القوة المفاجئة" لخوارزميات التعلم المعزز الحالية عندما يتم توفير تجربة كافية[20]. أبرز هذا المشروع إمكانيات التعلم المعزز وتحدياته: فقد تطلب محاكاة ضخمة (تعادل مئات السنين من اللعب) وهندسة بارعة لتشغيله، ولكنه عمل بالفعل، مما أنتج فرق واستراتيجيات تتجاوز ما يمكن أن تفعله أي ذكاء اصطناعي قائم على القواعد.

تركيب صندوق ADCS (نظام تحديد وتوجيه الوضعية) في النموذج المؤهل لقمر InnoCube الصناعي.

من المهم أن نتذكر أن التعلم المعزز لم يعد مقتصرًا على الألعاب. في إنجاز بارز عام 2022، استخدمت DeepMind التعلم المعزز العميق للسيطرة على بلازما الاندماج النووي في الوقت الفعلي، وهو أمر كان مستحيلاً سابقًا باستخدام وحدات التحكم اليدوية. من خلال التدريب في محاكي ثم النشر في مفاعل توكاماك، تعلم وكيلهم كيفية التعامل مع الملفات المغناطيسية لاحتواء البلازما، ونجح في تعلم استقرار تفاعل الاندماج بشكل مستقل[21]. وقد أظهر هذا كيف يمكن للتعلم المعزز التعامل مع مشكلات التحكم الديناميكية ذات الأبعاد العالية في الفيزياء – مفتحًا آفاقًا جديدة للبحث العلمي الذي يعتمد على اتخاذ قرارات متسلسلة دقيقة[21].

مجال آخر حيث يثبت التعلم التعزيزي قوته في العالم الحقيقي هو التفاعل متعدد الوكلاء ونظرية الألعاب. مثال بارز على ذلك هو CICERO الخاص بـ Meta، وهو أول ذكاء اصطناعي يحقق أداءً بمستوى بشري في لعبة الدبلوماسية، التي تتطلب التفاوض وبناء التحالفات بين عدة لاعبين. يجمع CICERO بين نموذج لغوي كبير للتواصل ووحدة تخطيط مدربة باستخدام التعلم التعزيزي؛ حيث يجب عليه وضع استراتيجيات، ونمذجة نوايا اللاعبين الآخرين، والتحاور بشكل مقنع. وكانت النتيجة تقدمًا كبيرًا - حيث تمكن CICERO من التعاون والمنافسة بفعالية مع البشر، حتى في وجود الأكاذيب والخداع. وكما لاحظ المراقبون، فهو "أول ذكاء اصطناعي يحقق أداءً بمستوى بشري في لعبة الدبلوماسية، وهي لعبة استراتيجية تتطلب الثقة والتفاوض والتعاون مع عدة لاعبين."[22] هذا يتجاوز تكتيكات ألعاب الطاولة؛ فهو يشير إلى أن وكلاء التعلم التعزيزي يمكنهم التعامل مع الاستراتيجيات الاجتماعية والبيئات الديناميكية لنظرية الألعاب. تعتبر هذه القدرات ضرورية للذكاء الاصطناعي الذي قد يتعامل يومًا ما مع الاقتصاديات أو المفاوضات أو قرارات تنظيمية معقدة.

أخيرًا، وربما بشكل أكثر دراماتيكية، تخطو RL خارج الأرض تمامًا. في العام الماضي، حقق الباحثون ما يمكن وصفه بأنه خيال علمي محقق: أقمار صناعية وروبوتات ذاتية التحكم في المدار يتم التحكم فيها بواسطة التعلم التعزيزي. في تجربة لمختبر الأبحاث البحرية الأمريكي على محطة الفضاء الدولية، تولى خوارزمية تعلم تعزيزي (مدربة في المحاكاة) السيطرة على روبوت Astrobee الطائر بحرية وأجرت بنجاح مناورات ذاتية في بيئة الجاذبية الصغرى[23][24]. وذكر فريق NRL أن هذه هي “أول سيطرة روبوتية ذاتية في الفضاء باستخدام خوارزميات التعلم التعزيزي”، ويبني الثقة في أن التعلم التعزيزي يمكنه التعامل مع الظروف القاسية لعمليات الفضاء[23]. ومؤخرًا، في 30 أكتوبر 2025، حقق فريق من جامعة وورزبورغ عرضًا تجريبيًا لأول مرة في المدار: حيث نفذ القمر الصناعي الصغير InnoCube مناورة محاذاة الموقف بالكامل تحت سيطرة وكيل تعلم تعزيزي على متنه[25][26]. كما قال الباحث الرئيسي، “لقد حققنا أول إثبات عملي في العالم أن متحكم موقف الأقمار الصناعية المدرب باستخدام التعلم التعزيزي العميق يمكنه العمل بنجاح في المدار.”[26] هذه لحظة حاسمة - فقد تخرج التعلم التعزيزي من المحاكاة والمختبرات إلى التحكم في الأنظمة الفعلية في الفضاء. تعلم المتحكم الذكي في محاكاة عالية الدقة وتم تحميله على القمر الصناعي، حيث قام بتنفيذ مهام توجيه دقيقة بدون تدخل بشري[27][28]. وتم استبدال العملية المعتادة التي تستغرق أشهر من ضبط خوارزمية التحكم في الأقمار الصناعية بوكيل تعلم تعزيزي يمكنه التكيف بسرعة[29]. تبرز هذه النجاحات في الروبوتات الفضائية قدرة التعلم التعزيزي على إنتاج سياسات تتكيف وتعمم في ظل عدم اليقين في العالم الحقيقي - وهي خطوة رئيسية نحو المزيد من المركبات والطائرات بدون طيار والروبوتات ذاتية التحكم هنا على الأرض أيضًا.

الاتجاهات المستقبلية والآثار المترتبة

توضح كل هذه الأمثلة نقطة محورية: التعلم التعزيزي يصل إلى مرحلة النضج في الوقت الذي نحتاجه فيه بشدة. مع دخول الذكاء الاصطناعي إلى "النصف الثاني"، حيث يكون التحدي ليس فقط التنبؤ بل الأداء، يوفر التعلم التعزيزي الإطار للتجريب، التكيف، والتحسين طويل الأمد. على عكس التعلم المراقب، الذي يعتمد على البيانات الماضية، فإن التعلم التعزيزي يمكّن الأنظمة من التعلم من تجربتها الخاصة والتحسن من خلال التجربة والخطأ. هذا ضروري لأي ذكاء اصطناعي يجب أن يعمل في مواقف غير منظمة وجديدة - سواء كان مساعدًا يحل استفسارًا جديدًا للمستخدم أو روبوتًا يواجه عقبات غير متوقعة.

هناك أيضًا تداعيات أعمق لكيفية قياس التقدم في الذكاء الاصطناعي. لم يعد بإمكاننا الاعتماد فقط على المعايير الثابتة لقياس ذكاء النماذج. بدلاً من ذلك، يقترح الباحثون إعدادات تقييم جديدة تعكس العالم الحقيقي: المهام المستمرة، والتفاعلات البشرية المتداخلة، والسيناريوهات غير المستقلة. من خلال دمج مثل هذه البيئات الغنية مع التدريب على تعزيز التعلم، نجبر نماذجنا على تطوير سلوكيات أكثر قوة وقابلية للتعميم. بحسب كلمات ياو، النصف الثاني سيكون حول إنشاء وكلاء يخرجون من دائرة المعايير ويقدمون بالفعل فائدة حقيقية للعالم. يعكس الاندفاع للاستثمار في المختبرات المعتمدة على تعزيز التعلم والتبني السريع لتعزيز التعلم مع التغذية الراجعة البشرية في الصناعة الاعتراف بأن الوقت قد حان للقيام بهذه القفزة.

ومع ذلك، فإن تبني التعلم بالتعزيز (RL) لا يأتي بدون تحديات. يمكن أن يكون تدريب التعلم بالتعزيز غير مستقر ويستهلك الكثير من الموارد (تدريب OpenAI Five المكلف هو مثال على ذلك[20]). غالبًا ما يتطلب محاكاة سريعة أو بيئات حيث تكون الأخطاء غير مكلفة - وهو شيء غير متاح دائمًا في المجالات ذات المخاطر العالية. ومع ذلك، يتم إحراز تقدم في هذه الجوانب أيضًا. تعمل الخوارزميات والأطر الجديدة (مثل تحسينات All-Sync RL with DAPO من Macaron) على تحسين كفاءة تدريب التعلم بالتعزيز واسع النطاق بشكل كبير[19][33]. تساعد التقنيات مثل نقل sim2real، ونمذجة المكافآت، واستراتيجيات الاستكشاف الآمنة، أنظمة التعلم بالتعزيز على الانتقال إلى التطبيقات الحقيقية دون فشل كارثي[34][35]. الأهم من ذلك، أن المجتمع يتعلم كيفية دمج التعلم بالتعزيز مع نماذج أخرى - على سبيل المثال، استخدام نماذج اللغة كمنتقدين أو مخططين، واستخدام العروض التوضيحية البشرية لتوجيه التعلم بالتعزيز (نوع من التعلم بالتقليد الهجين)، وأكثر من ذلك. غالبًا ما تحصل هذه النهج الهجينة على الأفضل من كلا العالمين: معرفة التدريب المسبق واتخاذ القرار في التعلم بالتعزيز.

في النهاية، التركيز على التعلم التعزيزي الآن ليس مجرد ضجة من أجل الضجة نفسها – بل هو اعتراف بمكان الاحتياجات والفرص. نحن نقف عند مفترق طرق حيث تتمتع أنظمة الذكاء الاصطناعي لدينا بإمكانيات كامنة هائلة (بفضل التدريب المسبق)، والطريقة لتفعيل تلك الإمكانيات هي من خلال التعلم الموجه نحو الأهداف. سواء كان ذلك في مواءمة سلوك الذكاء الاصطناعي مع القيم الإنسانية، أو منح الروبوتات استقلالية حقيقية، أو دفع الذكاء الاصطناعي لحل مشاكل علمية وهندسية جديدة، يوفر التعلم التعزيزي الأدوات اللازمة لتحسين وتطوير الذكاء الاصطناعي بشكل تدريجي من خلال التغذية الراجعة. نحن نشهد الانتقال من عصر التعلم السلبي إلى عصر التعلم النشط والتنفيذ. كما يقول المثل، "ما أوصلنا إلى هنا لن يوصلنا إلى هناك." قد يكون الجزء الأكبر من التعلم التمثيلي قد تم بواسطة النماذج العملاقة، لكن تحويل تلك النماذج إلى وكلاء مفيدين وقابلين للتكيف وموثوق بهم - هذا هو عمل التعلم التعزيزي. من خلال الاستثمار في أبحاث وتطبيقات التعلم التعزيزي الآن، نحن نواجه بشكل أساسي المشاكل الصعبة بشكل مباشر: صنع ذكاء اصطناعي يمكنه التفكير بخطوات، واستكشاف البدائل، والتعافي من الأخطاء، وفي النهاية إتقان المهام المفتوحة. في المسار العام للذكاء الاصطناعي، هذا التحول ذو أهمية كبيرة مثل ثورة التعلم العميق في العقد الثاني من الألفية الجديدة. النصف الثاني قد بدأ للتو، والتعلم التعزيزي يستعد ليكون القوة الدافعة له.

المراجع:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]

[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] النصف الثاني - شونيو ياو - 姚顺雨

https://ysymyth.github.io/The-Second-Half/

[9] [10] [11] [15] تقديم Kimi K2 Thinking | مدونة

https://kimik2thinking.org/blog/introducing-kimi-k2-thinking

[12] [13] [16] [17] حصريًا: مختبر ميرا موراتي السري للذكاء الاصطناعي يطلق أول منتج له | WIRED

https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/

[14] [19] مختبرات MIND | توسيع نطاق All-Sync RL مع DAPO و LoRA

https://mindlabs.macaron.im/

[18] تحليل Macaron: نموذج كيمي K2 "التفكير": تقدم AI الوكيل المفتوح - Macaron

https://macaron.im/blog/kimi-k2-thinking

[20] OpenAI Five يهزم أبطال العالم في Dota 2 | OpenAI

https://openai.com/index/openai-five-defeats-dota-2-world-champions/

[21] تسريع علوم الاندماج من خلال التحكم في البلازما المتعلم - جوجل ديب مايند

https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/

[22] CICERO: الذكاء الاصطناعي في الدبلوماسية والعلاقات | blog_posts – Weights & Biases

https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5

[23] [24] [34] [35] التعلم المعزز يثير ضجة في الفضاء > مختبر الأبحاث البحرية الأمريكي > أخبار NRL

https://www.nrl.navy.mil/Media/News/Article/4297593/reinforcement-learning-is-making-a-buzz-in-space/

[25] [26] [27] [28] [29] العرض الأول العالمي في الفضاء: الذكاء الاصطناعي في فورتسبورغ يسيطر على الأقمار الصناعية -

https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends