من التوسع إلى الذكاء التجريبي: رؤية إيليا سوتسكيفر ونهج Macaron

المؤلف: Boxu Li

نهاية عصر "التوسع" والعودة إلى البحث

في محادثة حديثة مع دواركيش باتيل، تأمل إيليا سوتسكيفر - المؤسس المشارك لـ OpenAI ورئيس شركة الناشئة الذكاء الفائق الآمن (SSI) - في حالة الذكاء الاصطناعي والاتجاه الذي يسير فيه. يجادل سوتسكيفر بأن صناعة الذكاء الاصطناعي تتجاوز عصر "فقط اجعله أكبر" وتعود إلى عصر الأبحاث الأساسية. خلال الفترة من 2012 إلى 2020، كان التقدم في التعلم العميق مدفوعًا بأفكار جديدة (عصر الأبحاث)، تلاه التركيز في 2020-2025 على توسيع البيانات والمعلمات (عصر التوسع). ولكن الآن، ببساطة زيادة حجم النموذج أو حجم البيانات لا يجلب نفس الفوائد. كما يضعها سوتسكيفر بشكل صريح، "إذا قمت بزيادة الحجم بمقدار 100×، فلن يتم تحويل كل شيء... لقد عدنا إلى عصر الأبحاث مرة أخرى، فقط مع أجهزة حاسوب كبيرة." بعبارة أخرى، ستأتي الاختراقات المستقبلية ليس من زيادة الحجم بالقوة، ولكن من وصفات تدريب جديدة وخوارزميات أكثر ذكاء.

المشكلة الأساسية التي تحفز هذا التحول هي ما يسميه سوتسكيفر فجوة التعميم. النماذج الكبيرة اليوم يمكنها اجتياز المعايير بسهولة ومع ذلك تتعثر في المهام العملية – مفارقة أصبحت واضحة بشكل متزايد. "هذه النماذج بطريقة ما فقط تعمم بشكل أسوأ بكثير من الناس. إنه واضح جداً. يبدو أن هذا شيء أساسي جداً،" يلاحظ سوتسكيفر[4]. النماذج التي تحقق درجات عالية في مسابقات البرمجة أو امتحانات اللغة يمكنها أن ترتكب أخطاء غريبة – مثل تكرار نفس إصلاح الخطأ مراراً وتكراراً، أو الفشل في اتخاذ قرارات بسيطة تعتمد على الفهم السليم – وهذه أخطاء لن يرتكبها أي إنسان مؤهل[4][5]. هذا يبرز هشاشة: الشبكات العصبية لا تفهم أو تتكيف بشكل قوي مثل البشر، رغم مهاراتها الضيقة المبهرة. كما يوضح ملخص حديث سوتسكيفر، رغم أننا بنينا نماذج تؤدي بشكل جيد في التقييمات، فإن موثوقيتها في العالم الحقيقي لا تزال "هشاشة يتضح من … الأداء العالي في التقييمات مقابل الأخطاء في العالم الواقعي."[6]

لماذا تفشل النماذج الحالية في التعميم؟ يقترح سوتسكيفر أن ذلك يعود جزئيًا إلى أسلوب التدريب الذي نتبعه. في عصر التدريب المسبق واسع النطاق، كنا نغذي النموذج بكل شيء (نصوص بحجم الإنترنت) ونأمل أن يؤدي تنوع البيانات إلى قدرات واسعة. وقد فعلت - إلى حد ما. ولكن بعد التدريب المسبق، تقوم الشركات بتعديل النماذج باستخدام التعلم التعزيزي (RL) على معايير محددة أو تعليمات المستخدم. يشك سوتسكيفر في أن هذه المرحلة من التعلم التعزيزي غالبًا ما تجعل النماذج متخصصة بشكل مفرط للقيام بشكل جيد في الاختبارات بدلاً من تحسين فهمها بشكل حقيقي. في محادثته، يقدم تشبيهًا حيًا: "طالب" واحد (يمثل نموذج الذكاء الاصطناعي) يقضي 10,000 ساعة في ممارسة مشاكل البرمجة التنافسية ويصبح عبقريًا في مسابقات البرمجة، بينما يركز طالب آخر على الفهم العام لعلوم الكمبيوتر. قد يفوز الأول في المسابقات لكن الثاني ينتهي به الأمر ليكون مهندسًا أكثر تنوعًا في العالم الحقيقي. النماذج الحالية تشبه المتخصص المفرط - فهي تتفوق في الظروف الضيقة التي تم ضبطها لها، لكنها تفتقر إلى العامل الإنساني الذي يمكن البشر من تكييف المهارات مع المشكلات الجديدة والفوضوية. باختصار، لم تحقق أنظمتنا الذكية حتى الآن التعميم القوي والسلس الذي نكتسبه نحن البشر من خلال خبرة حياتية طويلة.

لماذا يتعلم البشر بشكل أفضل: الكفاءة النموذجية والتعلم المستمر

موضوع رئيسي في مناقشة سوتسكيفر هو كفاءة العينات في التعلم البشري. يحتاج البشر إلى كمية مذهلة من البيانات لتعلم مهام معقدة. على سبيل المثال، أشار يان ليكون إلى أن المراهق يمكنه تعلم قيادة السيارة في حوالي 10 ساعات من التدريب - وهي مجموعة بيانات صغيرة للغاية بمعايير الذكاء الاصطناعي[12]. يتعلم الأطفال الصغار التعرف على السيارات (وآلاف المفاهيم الأخرى) من مجرد التعرض للحياة اليومية[12]. بالمقارنة، تتطلب النماذج الحالية للذكاء الاصطناعي مجموعات تدريب ضخمة ولا تزال لا تستطيع مجاراة مرونة البشر. يشير سوتسكيفر إلى أن التطور يجهزنا بانحياز استقرائي مفيد - مثل ملايين السنين من الرؤية والحركة التي شكلت أدمغتنا - لكن هذا وحده ليس القصة كاملة[13][12]. حتى في المجالات التي لم يصقلها التطور (مثل القراءة، الرياضيات، أو البرمجة)، يتفوق البشر بسرعة على خوارزميات اليوم[14][15]. وهذا يشير إلى أن "أيًا كان ما يجعل الأشخاص جيدين في التعلم" يتجاوز المعرفة المدمجة فقط - لدينا خوارزمية تعلم أكثر كفاءة من الأساس[14][15].

ما الذي قد يكون عليه ذلك الخوارزم؟ أحد الدلائل، كما يجادل سوتسكيفر، هو أن البشر يتعلمون باستمرار وتفاعلياً، وليس في دفعة واحدة عملاقة. نحن لا نستهلك تيرابايتات من النصوص ثم نجمد عقولنا؛ بل نتعلم من التجربة المستمرة، ونحدث معرفتنا باستمرار. يشير إلى أن الإنسان في سن الخامسة عشرة لديه إجمالي أقل بكثير من البيانات مقارنةً بمحتوى نموذج لغوي كبير، ومع ذلك بحلول سن الخامسة عشرة نحقق فهماً أعمق ونرتكب أخطاء أقل وضوحاً[16][17]. الفرق هو أن البشر يستمرون في التعلم طوال الحياة - نحن لا نعتبر أن "مرحلة التدريب" انتهت في المراهقة. "الإنسان ليس AGI... بدلاً من ذلك، نعتمد على التعلم المستمر،" يقول سوتسكيفر، مشيراً إلى أن حتى الذكاء الاصطناعي الفائق قد يحتاج إلى أن يُنشر بشكل أشبه بـ عبقري في الخامسة عشرة وليس كعالم يعرف كل شيء[18][19]. مثل هذا الذكاء الاصطناعي سيكون لديه أساس قوي ولكن "يفتقر إلى كمية ضخمة من المعرفة" في البداية - ثم يتعلم أثناء العمل في أدوار مختلفة، تماماً كما يخرج شاب ذكي إلى العالم ليتدرب كطبيب أو مهندس[19][20]. في الواقع، رؤية سوتسكيفر للذكاء الفائق الآمن هي بشكل صريح ليس نموذجاً ثابتاً "يعرف كيفية القيام بكل وظيفة"، بل نظام يمكنه "أن يتعلم القيام بكل وظيفة واحدة" ويستمر في التحسن[20][21]. بمعنى آخر، قد يعني النجاح الحقيقي في الذكاء الاصطناعي إنشاء أساتذة التعلم، وليس مجرد أساتذة في أي مهمة ثابتة.

جانب آخر من التعلم البشري هو آليات التغذية الراجعة المدمجة لدينا. يمتلك البشر مشاعر وحدسًا يعملان كإشارة مكافأة داخلية، يوجهاننا أثناء تعلمنا لمهارات جديدة. يروي سوتسكييفر حالة لافتة: رجل فقد القدرة على الشعور بالعاطفة (بسبب ضرر في الدماغ) أصبح سيئًا للغاية في اتخاذ القرارات، وكان يواجه صعوبة حتى في اختيار الجوارب التي يرتديها[22][23]. بدون إشارات عاطفية، لم يكن لديه شعور داخلي بما هو مهم. وهذا يشير إلى أن أدمغتنا تستفيد من نوع من دالة القيمة - تقدير مستمر لكيفية سير الأمور - لتعلم بكفاءة واتخاذ القرارات[24][25]. في مصطلحات التعلم المعزز، لا ننتظر حتى نهاية التجربة للحصول على مكافأة؛ نحن نولد مكافآت داخلية في الخطوات الوسيطة (المتعة، الإحباط، الفضول، إلخ)، مما يسرع التعلم بشكل كبير. يجادل سوتسكييفر بأن خوارزميات التعلم المعزز الحالية تفتقر إلى هذا الثراء - فهي غالبًا ما تنتظر النتيجة النهائية وبالتالي تكون غير فعالة للغاية في المهام طويلة الأمد[26][27]. "إذا كنت تفعل شيئًا يستمر لفترة طويلة... لن يتم التعلم على الإطلاق حتى [النهاية]" يشرح عن التعلم المعزز الساذج[28]. الحل هو إعطاء وكلاء الذكاء الاصطناعي إحساسًا أفضل بالتقدم - دالة القيمة لتقصير تأخيرات التغذية الراجعة الطويلة[29][30]. يمكن أن يجعل تضمين مثل هذه التغذية الراجعة الداخلية التدريب أكثر كفاءة بكثير. حتى أن سوتسكييفر يشبهها بوظيفة المشاعر للبشر[31]، واصفًا إياها بأنها اتجاه واعد "لاستخدام قدرتك الحسابية بشكل أكثر إنتاجية" من المحاولة والخطأ العشوائي[30]. باختصار، قد يكون الجمع بين التعلم المستمر والإشراف الذاتي الأكثر ثراءً (إشارات القيمة) هو المفتاح لسد فجوة التعميم.

البصيرة الرئيسية: تحتاج النماذج الحالية للذكاء الاصطناعي إلى بيانات أكثر بكثير من البشر وما زالت غير قادرة على التكيف بنفس الكفاءة. يتعلم البشر بكفاءة من خلال جمع الخبرات بشكل مستمر واستخدام التغذية الراجعة الداخلية (وظيفتنا "العاطفية") لتوجيه التعلم. بناء ذكاء اصطناعي يتعلم بطريقة تفاعلية وتدريجية مماثلة - وقادر على تقييم تقدمه - يمكن أن يحسن بشكل كبير من قدرته على التعميم[32][4].

ما بعد التدريب المسبق: نحو الذكاء التجريبي

هذه الأفكار تتناغم بعمق مع فلسفتنا في Macaron AI. نحن غالبًا ما نلخصها في جملة واحدة: الذكاء الحقيقي يتعلم من التجارب الحقيقية. بدلاً من الاعتماد فقط على نماذج أكبر أو مجموعات بيانات غير متصلة بالشبكة، يركز بحث Macaron على التعلم التجريبي - تدريب الذكاء الاصطناعي من خلال التفاعلات النشطة، ردود الفعل، والذاكرة طويلة الأمد، مثلما يكتسب الإنسان المهارات مع مرور الوقت. هذا النهج، الذي نسميه الذكاء التجريبي، يتعلق بنماذج تنمو قدراتها من جودة وتنوع التجارب التي تتعلم منها، وليس فقط من كمية البيانات التي تستهلكها. إنه تحول واعٍ بعيدًا عن عصر التحجيم الأعمى. كما أكد سوتسكيڤير نفسه، فإن تراكم المزيد من البيانات أو المعلمات يؤدي إلى عوائد متناقصة؛ القفزة التالية للأمام ستأتي من خوارزميات يمكنها التعلم أكثر من الأقل عن طريق استغلال التجارب الصحيحة.

بشكل ملموس، قامت وحدة الأبحاث مختبر العقل في ماكرون بتطوير تقنيات تمكّن التعلم المستمر المدفوع بالتغذية الراجعة في النماذج الكبيرة. نحن لا نتخلى عن نموذج الأساس ونقوم بتدريب واحد جديد من الصفر عند كل ترقية. بدلاً من ذلك، نقوم بتمديد النماذج الأساسية القوية من خلال التدريب اللاحق التكراري: التعلم المعزز على المهام الحقيقية، التغذية الراجعة البشرية في العملية، ودمج الذاكرة طويلة الأمد. على سبيل المثال، أصبحت فرقنا مؤخرًا الأولى في العالم التي تقوم بتشغيل ضبط دقيق عالي الأداء باستخدام التعلم المعزز على نموذج مفتوح المصدر به تريليون معلمة - باستخدام محولات LoRA الفعالة في المعلمات - بينما تستهلك فقط ~10% من الميزانية المعتادة لوحدة معالجة الرسوميات (GPU). كان هذا اختراقًا في جعل التدريب اللاحق واسع النطاق ممكنًا. باختصار، أظهرنا أن منح النموذج الضخم تجارب جديدة (والتعلم منها) يمكن أن يتم بكفاءة أكبر بكثير من الطرق الساذجة. النتيجة؟ بدلاً من مجرد الحصول على مستوى أقل قليلاً من التحير على البيانات الثابتة، قمنا بتعليم النموذج مهارات جديدة من خلال التفاعل - وفعلنا ذلك بطريقة يمكن التعامل معها وفعالة من حيث التكلفة. (جدير بالذكر أننا قمنا بفتح مصدر التقنيات وراء ذلك وقدمنا إسهامات في أطر التدريب الشهيرة مثل Megatron من NVIDIA وVEGA من ByteDance، بحيث يمكن للمجتمع الأوسع البناء عليها.)

الذاكرة: تعلم النسيان بحكمة

واحدة من ركائز نهج Macaron هي الذاكرة – وليس بالمعنى التافه لنافذة تاريخ المحادثة، بل كعنصر متعلم من النموذج يتراكم وينتقي المعرفة بمرور الوقت. البشر لا يعاملون كل مدخل بالتساوي؛ نحن نتذكر الأحداث المهمة وننسى الباقي بسهولة. هذه القدرة على النسيان بحكمة ضرورية للتعامل مع التبعيات طويلة الأمد دون إرهاق. مستوحاة من ذلك، طور باحثونا نظام ذاكرة جديدًا يسمى انتشار الذاكرة. على عكس التخزين المؤقت بالقوة الغاشمة أو الاسترجاع، يعلم انتشار الذاكرة النموذج كيفية تطور المعلومات خلال محادثة طويلة أو تاريخ الاستخدام. يتعلم النموذج "نشر" التفاصيل غير المهمة ويُحسن الحقائق البارزة مع نمو السياق. عمليًا، تفوقت هذه الطريقة على الأساسيات الكلاسيكية للذاكرة (مثل سياق الطول الثابت أو الاسترجاع بالمنهجيات) في الحفاظ على التماسك على المدى الطويل. بشكل أكثر بديهية، تمنح النموذج نوعًا من الذاكرة العاملة التي تُعطي الأولوية لما يهم – تمامًا كما ينسى عقلك بسرعة اللوحات الإعلانية التي مررت بها في طريقك إلى العمل ولكنه يحتفظ بمكان وجهتك ولماذا. من خلال السماح للنموذج بتعلم الإشارات التي يجب الاحتفاظ بها والتي يجب التخلي عنها، ننتهي بنظام يمكنه حمل التعلم المهم من مهمة إلى أخرى، مما يمكن من التعلم المستمر. أصبحت هذه الآلية للذاكرة جزءًا أساسيًا من بنية وكيل Macaron، جنبًا إلى جنب مع تقدمنا في الاستدلال واستخدام الأدوات. إنها مثال آخر على كيف نفضل الذكاء المعماري على التوسع الخام: بدلاً من مجرد توسيع نافذة السياق إلى مليون رمز (وهو غير فعال)، نعطي النموذج طريقة لضغط المعرفة وتذكرها بذكاء من تجربته الخاصة.

حلقات التغذية الراجعة في العالم الواقعي

الأهم من ذلك، أن أبحاث Macaron لا تحدث بمعزل عن منتجنا. نحن نؤمن بعلاقة قوية بين الأبحاث والمنتج: التحسينات في المختبر يتم التحقق منها مباشرة من خلال تجربة المستخدم، وتساهم الرؤى المستخلصة من المنتج في إلهام أبحاث جديدة. على سبيل المثال، يقوم تطبيق الذكاء الاصطناعي الشخصي لـMacaron بتسجيل ملاحظات مجهولة المصدر حول الأماكن التي تكون فيها استجابات الذكاء الاصطناعي قاصرة أو عندما يبدو أن المستخدمين غير راضين. هذه الإشارات تدخل في تدريب التعلم التعزيزي لدينا كإشارة مكافأة إضافية. لقد وجدنا أن التدريب على ملاحظات المستخدمين الحقيقية غالبًا ما يؤدي إلى تحسينات أكبر في القدرات من مجرد إضافة المزيد من النصوص من الإنترنت إلى مرحلة ما قبل التدريب. يتماشى هذا مع ملاحظة سوتسكيفر بأن ما تدرب عليه يمكن أن يكون أكثر أهمية من الكم – كمية قليلة من الخبرة المستهدفة يمكن أن تعلم النموذج شيئًا لا يمكن أن تعلمه مليارات الرموز الثابتة. من خلال إغلاق الحلقة بين النشر والبحث، نضمن أن الذكاء الاصطناعي لدينا يتحسن بالفعل في المهام التي يهتم بها الناس. وفقًا لمصطلحات سوتسكيفر، نحن نقدم لنماذجنا "العامل الجوهري" الذي يأتي من تجربة العالم، وليس مجرد حفظه.

التقارب: نموذج جديد للذكاء الاصطناعي

من المشجع رؤية توافق متزايد بين قادة الذكاء الاصطناعي على أن التعلم المستمر والتجريبي هو الطريق إلى الأمام. رؤية سوتسكيڤر عن الذكاء الفائق الذي يتعلم مثل الإنسان - بشكل مستمر وتكيفي - هو المسار الذي يسعى ماكارون لتحقيقه. لسنا وحدنا في هذا التحول. على سبيل المثال، استراتيجية Pathways الأخيرة لجوجل تدعو أيضًا إلى تدريب نموذج واحد على مهام ووسائط متعددة بحيث يمكنه تعلم مهارات جديدة مع مرور الوقت، متجاوزًا النماذج ذات الأغراض الواحدة. وقد ناقش باحثون مثل جيسون وي وجيف دين الحاجة إلى هياكل يمكنها تراكم المعرفة بشكل تدريجي وفعال، بدلاً من الاعتماد فقط على عمليات التدريب الضخمة لمرة واحدة. هذا يمثل زخمًا أوسع في الصناعة نحو ما يمكن تسميته “الذكاء الاصطناعي المتمحور حول التعلم” (بدلاً من الذكاء الاصطناعي المتمحور حول النموذج اليوم). في هذا النموذج الجديد، يصبح السؤال: مدى سرعة اكتساب الذكاء الاصطناعي لقدرة جديدة أو التكيف مع موقف جديد؟ - بدلاً من كم عدد المعلمات التي يمتلكها أو كم من البيانات تم استخدامها للتدريب المسبق. وبذلك، لا يزال البشر يحتفظون بالصدارة. لكن الفجوة تتضائل.

في ماكرون AI، نراهن على أن الذكاء التجريبي - الذكاء الاصطناعي الذي يتعلم من التجربة الحقيقية - سيفتح الموجة التالية من الأداء والموثوقية. نحن بالفعل نرى نقاط إثبات: نماذجنا المدربة باستخدام التعلم التعزيزي والتغذية الراجعة البشرية لا تؤدي فقط بشكل أفضل في المعايير، ولكن الأهم من ذلك، أنها تشعر بأنها أكثر توافقًا مع احتياجات المستخدم في التطبيق. إنها تقلل من الأخطاء العشوائية وتتعافى من الأخطاء بشكل أكثر سلاسة، لأن تدريبها علمها أن تلاحظ وتصحح الأخطاء (كما يفعل الإنسان). آليات الذاكرة لدينا تمنحهم بشكل مشابه الاستمرارية التي تفتقر إليها المحولات البحتة، مما يسمح للمحادثة أو المهمة بالاستمرار لأشهر دون إعادة التعيين. كل هذه المزايا تنبثق من اعتبار الذكاء كـ عملية، وليس ككيان ثابت. كما قال سوتسكيفر، قد يمر الذكاء الاصطناعي المنتشر بفترة "تعلم التجربة والخطأ" خلال النشر[19][21] - وهذه ميزة، وليست عيبًا، طالما أنها تحت السيطرة ومتوافقة.

التوافق، بالطبع، هو الأهم عندما نتحدث عن تعلم الذكاء الاصطناعي بنفسه. ومن المثير للاهتمام أن سوتسكيفر اقترح أن يكون من الأسهل توجيه ذكاء اصطناعي يتعلم ويفهم بمرور الوقت - وربما يكون واحدًا يقدر الحياة الواعية ويمكنه نمذجة العالم والآخرين بتعاطف - بدلاً من توجيه عبقري خارق ثابت تم تدريبه خلف الأبواب المغلقة. إذا نما الذكاء الاصطناعي وتفاعل مع البشر، هناك فرصة لغرس القيم الإنسانية خلال تطوره (ومراقبة وتصحيح الأخطاء). هذا يعكس وجهة نظرنا بأن الشفافية والنشر التدريجي هما المفتاح لأمان الذكاء الاصطناعي. منصة Macaron، من خلال إشراك المستخدمين مباشرة والتعلم منهم، توفر بيئة طبيعية لهذا النهج التدريجي. نحن نطرح قدرات التعلم الجديدة على مراحل، نراقب السلوك ونجمع التعليقات، بدلاً من إطلاق نموذج صندوق أسود تم تدريبه في فراغ. باختصار، التعلم التجريبي لا يجعل الذكاء الاصطناعي أكثر ذكاءً فحسب - بل يمكن أن يجعله أكثر أمانًا وأكثر توافقًا مع البشر أيضًا.

الخلاصة: تبني الذكاء التجريبي

إن كل من النظرة المستقبلية لإيليا سوتسكيفر ورحلة تطوير Macaron يشيران إلى نفس النتيجة: الاختراق التالي للذكاء الاصطناعي سيكون في التعلم المتقن، وليس فقط في زيادة الحفظ. الذكاء الاصطناعي الذي يمكنه التعلم من التجارب، استيعاب التغذية الراجعة، التذكر والتكيف على المدى الطويل - بمعنى آخر، الذكاء الاصطناعي الذي يمكنه النمو - هو الذي يمكنه التعميم في تعقيدات العالم الحقيقي. هذا يمثل تحولاً عميقاً في التفكير عن السنوات السابقة: الأمر لا يتعلق فقط بكمية المعرفة التي يبدأ بها النموذج، بل بمدى فعاليته في اكتساب المعرفة الجديدة. ويمثل التصور الذي تخيله سوتسكيفر لـ"شاب في الخامسة عشرة من عمره يتمتع بذكاء فائق" هذه الفكرة. في Macaron، نحن نعمل على بناء هذا النوع من الذكاء الاصطناعي الذي يتعلم باستمرار جنبًا إلى جنب مع مجتمع مستخدمينا.

إن تداعيات الذكاء الاصطناعي التعليمي التجريبي والمستمر واسعة النطاق. من الناحية التقنية، يعني ذلك كفاءة عينة أعلى - القيام بالمزيد باستخدام أقل - ونماذج يمكنها التكيف بسرعة مع أي مجال أو توزيع. من الناحية الاقتصادية، يعد ذلك بعمال ذكاء اصطناعي يمكن إعادة تدريبهم بسرعة، مما يسرّع الابتكار والإنتاجية بشكل هائل (يتنبأ سوتسكيفر بنمو سريع محتمل بمجرد انتشار هذا الذكاء الاصطناعي[34][35]). وللمجتمع، يعني ذلك أنظمة ذكاء اصطناعي أكثر فهماً، لأننا سنراها تتعلم ويمكننا تشكيل تطورها، بدلًا من تسليمنا لغز مكتمل التكوين.

إن تحقيق ذلك لن يكون سهلاً. يتطلب ذلك تقدمًا في الخوارزميات والأنظمة وفهمنا النظري للتعلم. ومع ذلك، فإن القطع تتماشى معًا: من وظائف القيمة وRL المتقدمة إلى هياكل الذاكرة المستدامة والتدريب بمشاركة الإنسان. بينما ندمج هذه القطع، نقترب أكثر من الذكاء الاصطناعي الذي يفكر ويتعلم بسرعة. هذا هو الأساس الذي يدفع أبحاث Macaron، ويتماشى بشكل وثيق مع الرؤية التي يعبر عنها قادة مثل Sutskever. علمتنا حقبة التوسع الكثير، ولكن عصر الذكاء التجريبي يشرق الآن. في هذا العصر الجديد، ليست الحدود مجرد نماذج أكبر - إنها متعلمين أذكى وأكثر تكيفًا وأكثر تشبهًا بالبشر. وهذا هو بالضبط ما نسعى لبنائه.

المصادر:

· مقابلة إيليا سوتسكيفر مع دواركش باتيل (نوفمبر 2025) – بودكاست دواركش: “الانتقال من عصر التوسيع إلى عصر البحث.” متوفر الملخص في مدونة دواركش[1][4][18][19].

· ملخص لأهم نقاط سوتسكيفر بواسطة Best of AI digest[36].

· ملاحظة ليكون حول كفاءة القيادة البشرية (تمت الإشارة إليها بواسطة سوتسكيفر)[12].

· مختبر ماكرون للذكاء الاصطناعي – موجزات بحثية داخلية حول الذكاء التجريبي والذاكرة (2025).

· مساهمات ماكرون للذكاء الاصطناعي مفتوحة المصدر في تدريب التعلم المعزز على نطاق واسع (دمج Megatron-Bridge وVEGA، 2025).

إيليا سوتسكيفر - نحن ننتقل من عصر التوسع إلى عصر البحث

https://www.dwarkesh.com/p/ilya-sutskever-2

[6] [31] [33] [36] القوى الدافعة في الذكاء الاصطناعي: التوسع حتى عام 2025 وما بعده (جيسون وي، OpenAI) بواسطة أفضل أوراق الذكاء الاصطناعي المشروحة

https://creators.spotify.com/pod/profile/ehwkang/episodes/Driving-Forces-in-AI-Scaling-to-2025-and-Beyond-Jason-Wei--OpenAI-e30rd59

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends