الكاتب:  بوكسو لي 

مقدمة

في حين أن حداثة Macaron AI غالبًا ما تلفت الانتباه إلى قدرتها على إنشاء تطبيقات صغيرة مخصصة أو التصرف كصديق متعاطف، فإن العمود الفقري الحقيقي لها هو محرك الذاكرة المعقد. يتيح هذا النظام لـ Macaron تذكر ما يهم، ونسيان ما لا يهم، واسترجاع التجارب ذات الصلة بسرعة وأمان. يمكن لمحادثة بسيطة عن الموسيقى أن تؤدي إلى تذكيرات بحفل موسيقي الشهر المقبل، أو قائمة تشغيل مجمعة تلقائيًا، أو إنشاء مساعد كاريوكي. لا يمكن لأي من هذا أن يحدث بدون آليات ذاكرة قادرة على التعامل مع الحوارات الطويلة والمواضيع المتنوعة. يقدّم هذا المدونة نظرة تقنية عميقة في محرك الذاكرة الخاص بـ Macaron، حيث يناقش ضغط الهرمي، واسترجاع المتجهات، والبوابة الموجهة بالتعزيز، والتحكم في الخصوصية. نقارن تصميم Macaron بالأنظمة الأخرى المعززة باسترجاع المعلومات (RAG) ونناقش كيف تمكن هذه الآليات المستخدمين اليابانيين والكوريين من الاستمتاع بتجارب مخصصة.

1 تمثيل الذاكرة الهرمية

1.1 بنية التخزين المتعددة: قصير الأمد، عرضي وطويل الأمد

ماكارون ينظم الذاكرة إلى عدة مخازن. المخزن قصير الأمد يحتفظ بالمحادثة الحالية ويمتد تقريبًا إلى 8-16 رسالة. يعمل مثل سياق المحول النموذجي: تتم معالجة الرموز بشكل متسلسل مع الانتباه. المخزن العرضي يحتفظ بالتفاعلات الأخيرة (مثل الأيام القليلة الماضية) ويتم تحديثه بشكل دوري. هنا، يستخدم ماكارون محوّل ضاغط: يتم ضغط الرسائل في متجهات ملخص باستخدام انتباه التفاف، مما يمكن النموذج من الحفاظ على السياق بعد طول النافذة الأصلية. المخزن طويل الأمد يحتفظ بالأحداث الهامة، الحقائق وتكوينات التطبيقات المصغرة ويتم تنفيذه كقاعدة بيانات متجهية. تتضمن كل عنصر ذاكرة بيانات وصفية (طابع زمني، علامات النطاق، علامات اللغة) وتضمين يتم إنتاجه بواسطة مشفر متعدد اللغات.

1.2 الضغط عبر التلخيص الكامن والترميز التلقائي

أحد التحديات الرئيسية في المحادثات الطويلة هو أن تكلفة الانتباه الذاتي تنمو بشكل تربيعي مع طول التسلسل. للتعامل مع هذا، يستخدم Macaron طبقة تلخيص كامنة: بدلاً من الانتباه لكل رمز، يتعلم النموذج تحديد المقاطع البارزة وضغطها في تمثيل بطول ثابت. يتم تدريب هذه الطبقة باستخدام هدف الترميز التلقائي الذي يعيد بناء الحالات المخفية من الملخصات المضغوطة. يتم تحسين الملخص باستخدام التعلم المعزز: إذا فشل الوكيل في تذكر التفاصيل المهمة لاحقًا، يتم معاقبة السياسة، مما يشجعه على الاحتفاظ بمزيد من المعلومات حول الأحداث المشابهة في المستقبل.

1.3 رمز الذاكرة الديناميكية كشبكة مؤشرات

الرمز المميز للذاكرة الموصوف في المقالة الإخبارية التايوانية يعمل مثل مؤشر يتنقل عبر الذاكرة لاختيار العناصر ذات الصلة. أثناء الاسترجاع، يستفسر الرمز عن بنك الذاكرة بشكل تكراري: يسترجع ذاكرة مرشحة، ويقيم مدى ملاءمتها للسياق الحالي باستخدام دالة تسجيل مكتسبة، ويقرر ما إذا كان سيعيدها أو يستمر في البحث. هذه العملية تشبه شبكة المؤشر المستخدمة في تحسين التوليف العصبي. توجه الإشارات التعزيزية الرمز لاختيار تسلسلات من الذكريات التي تزيد من رضا المستخدم (مثل التنبؤ الصحيح بتفضيل المستخدم لموسيقى الجاز). يمكن للرمز أيضًا تحديث الذاكرة: عند وصول معلومات جديدة، يقرر ما إذا كان سيقوم بدمجها مع الذكريات الموجودة أو تخصيص مساحة جديدة.

2 استرجاع المتجه وتوسيع الاستعلام

2.1 البحث عن الجار الأقرب تقريبًا

تستخدم ذاكرة Macaron طويلة الأمد قاعدة بيانات متجهة عالية الأبعاد. يتم تحويل الاستفسارات إلى تمثيلات عبر مشفر متعدد اللغات؛ ثُمَّ يتم إجراء بحث الجوار الأقرب التقريبي (ANN) لاسترجاع أفضل الذكريات. يستخدم النظام تشفير المنتج لتسريع البحث والحفاظ على زمن استجابة أقل من 50 مللي ثانية، حتى عند تخزين ملايين العناصر من الذكريات. لتجنب استرجاع التكرارات التافهة، يطبق النظام الملاءمة الحدية القصوى (MMR)، موازنًا بين التشابه والتنوع بين النتائج.

2.2 توسيع الاستفسار باستخدام السياق وأهداف المستخدم

المطابقة البسيطة للكلمات المفتاحية ليست كافية لفهم نية المستخدم. يقوم Macaron بتوسيع الاستفسارات باستخدام الهدف الحالي للمستخدم والنية الكامنة. على سبيل المثال، إذا ذكر المستخدم في طوكيو "花火大会" (مهرجان الألعاب النارية)، يقوم النظام بتوسيع الاستفسار ليشمل "التذاكر" و"التاريخ" و"الطقس" بناءً على الإجراءات النموذجية المتعلقة بالمهرجانات. إذا سأل مستخدم كوري عن "김치전 만드는 법" (كيفية صنع فطائر الكيمتشي)، يبحث النظام أيضًا عن تجارب الطهي السابقة وبيانات التغذية وتوافر المكونات المحلية. يتم التعامل مع توسيع الاستفسارات بواسطة متنبئ الأهداف المدرب على ربط سياق المحادثة بمجموعة من الموضوعات الفرعية ذات الصلة.

2.3 استرجاع عبر المجالات واتحاد الأهمية

يجب أن يتعامل محرك الذاكرة مع الاستفسارات التي تمتد عبر مجالات متعددة. آلية اتحاد الصلة الموضحة في مقال نموذج Macaron الذاتي تسمح للنظام بالوصول إلى الذكريات عبر حدود المجالات. عندما يساعد الوكيل مستخدمًا يابانيًا في التخطيط لحفل زفاف، قد يحتاج إلى استرجاع ذكريات السفر (وجهات شهر العسل)، ذكريات التمويل (الميزانية) وذكريات الثقافة (آداب الزفاف). لكل مجال مؤشر استرجاع خاص به، ويستخدم النظام دالة سوفت ماكس البوابة لتوزيع احتمالات الاسترجاع عبر المجالات. يتم تدريب دالة البوابة باستخدام التعلم المعزز لتقليل استرجاع العناصر غير ذات الصلة مع ضمان عدم تفويت الروابط الهامة بين المجالات. بالنسبة للاستفسارات عبر اللغات، تأخذ دالة البوابة أيضًا في الاعتبار علامات اللغة لتفضيل الذكريات بنفس اللغة ولكن تسمح بالاسترجاع عبر اللغات عندما يكون التشابه الدلالي عاليًا.

3 توجيه الذاكرة المعزز

3.1 نمذجة المكافآت وإلهام FireAct

استلهم فريق Macaron من مشروع FireAct الذي أظهر أن تدريب التعلم المعزز بعد التدريب يحسن دقة الاستدلال بنسبة 77% مقارنة بالطرق المعتمدة على التعليمات. في Macaron، يُستخدم التعلم المعزز لتدريب سياسة التحكم في الذاكرة: وهي شبكة عصبية تقرر ما إذا كان يجب تخزين المعلومات أو تحديثها أو التخلص منها وكيفية وزن الذكريات المسترجعة بقوة. تجمع وظيفة المكافأة بين إشارات متعددة: إتمام المهام، رضا المستخدم، الامتثال للخصوصية والكفاءة الحسابية. على سبيل المثال، استرجاع الكثير من الذكريات يبطئ الاستجابات، لذا فإن المكافأة تعاقب الاستدعاء غير الضروري. يؤدي نسيان التفاصيل المهمة إلى انخفاض رضا المستخدم، لذا تتعلم السياسة الاحتفاظ بها لفترة أطول. يتم تعديل وظيفة المكافأة بشكل مختلف للأسواق اليابانية والكورية: قد يعاقب المستخدمون اليابانيون على الإفصاح المفرط عن التفاصيل الخاصة، بينما قد يقدر المستخدمون الكوريون السرعة والاقتراحات الاستباقية.

3.2 تعيين الائتمان الزمني ونسج الزمن

غالبًا ما تواجه التعلم بالتعزيز صعوبات مع الآفاق الطويلة: قد تؤثر الإجراءات المتخذة الآن على النتائج في المستقبل البعيد. يعالج Macaron هذه المشكلة من خلال نسج الوقت، وهي آلية يتم فيها ربط الأحداث عبر الزمن بالأختام الزمنية والخيوط السردية. عند تقييم تأثير استرجاع ذاكرة قديمة، يمكن للنظام تتبع سلسلة التفاعلات التي تلت ذلك. يتيح ذلك للوكيل في التعلم بالتعزيز تخصيص الفضل أو اللوم لقرارات الاسترجاع المحددة. على سبيل المثال، إذا أدى الرجوع إلى ذكرى نسيان الذكرى السنوية إلى تحسين العلاقة، فإن النظام يمنح مكافأة إيجابية للبوابة التي تحافظ على ذكرى الذكرى السنوية. وإذا تسبب استرجاع لحظة محرجة في شعور بعدم الراحة، فإن البوابة تحصل على مكافأة سلبية.

3.3 التعلم بالتعزيز الهرمي وسياسات البوابات المعيارية

تستخدم Macaron التعلم المعزز الهرمي لإدارة التعقيد. يختار المتحكم عالي المستوى الوحدات (مثل الاسترجاع، التلخيص، الضغط) بناءً على الهدف الحالي للمستخدم، بينما تتولى السياسات منخفضة المستوى التعامل مع الإجراءات المحددة داخل كل وحدة. يسهل هذا التصميم المعياري التعلم بالنقل: يمكن إعادة استخدام سياسة البوابات المدربة للمحادثات حول الطهي الياباني للوصفات الكورية. كما يسمح لـ Macaron بتحديث الوحدات الفردية دون إعادة تدريب النظام بأكمله. لضمان الاستقرار، تستخدم Macaron تحسين السياسة القريب (PPO) مع القطع في منطقة الثقة، مما يوازن بين الاستكشاف والاستغلال ويمنع النسيان الكارثي.

4 مقارنة مع أنظمة الذاكرة الأخرى

4.1 توليد معزز بالاسترجاع (RAG)

تستخدم العديد من أنظمة الذكاء الاصطناعي تقنية توليد المعلومات المعزز بالاسترجاع لتحسين الدقة من خلال سحب المعلومات من قواعد بيانات خارجية. تعتمد النماذج مثل GPT-4 مع RAG على قواعد معرفية ثابتة ولا تتكيف مع الاسترجاع بناءً على ملاحظات المستخدم. يختلف محرك ذاكرة Macaron في ثلاثة جوانب رئيسية:

  1. محتوى مخصص: الذكريات تكون مخصصة للمستخدم بدلاً من أن تكون وثائق ويب عامة. يؤدي الاسترجاع إلى تجارب وأهداف وليس حقائق موسوعية.
  2. تخزين موجه بالتعزيز: يتعلم النظام ما يجب تخزينه أو نسيانه بناءً على إشارات المكافآت، بينما أنظمة RAG غالباً ما تخزن كل شيء دون تمييز.
  3. الخصوصية والالتزام بالسياسات: تحتوي كل ذاكرة على بيانات خصوصية، ويأخذ الاسترجاع في الاعتبار قواعد الوصول. تفتقر معظم تنفيذات RAG إلى مثل هذا التحكم الدقيق.

4.2 نماذج اللغة ذات السياق الطويل

تستطيع نماذج LLM الحديثة مثل Claude 3 من Anthropic وGemini من Google معالجة سياقات تحتوي على مئات الآلاف من الرموز عن طريق توسيع نافذة الانتباه. هذه النماذج لا تقوم باسترجاع صريح؛ بل تعتمد على القدرة على الانتباه إلى تسلسلات طويلة. بينما يتيح لها ذلك استرجاع أجزاء المحادثات السابقة، إلا أنه يكلف حسابيًا ولا يدعم نسيان يتحكم فيه المستخدم. يجمع Macaron بين سياق متوسط واسترجاع لتحقيق تغطية مماثلة بتكلفة أقل وتحكم أكبر في الخصوصية. يعمل رمز الذاكرة الديناميكي كمؤشر للتخزين الخارجي، مما يتيح للنموذج معالجة سنوات من البيانات دون تخزين كل شيء في السياق النشط.

4.3 قواعد بيانات المتجهات وشبكات الذاكرة

غالبًا ما تُستخدم قواعد البيانات المتجهة مثل Pinecone وFaiss لتخزين التضمينات لمهام الاسترجاع. يعتمد متجر Macaron طويل الأمد على هذه التقنيات ولكنه يدمجها مع البوابات التي يتحكم فيها التعلم المعزز (RL). في الوقت نفسه، تقوم شبكات الذاكرة المبكرة مثل شبكة الذاكرة من النهاية إلى النهاية (End-to-End Memory Network) بحساب مجموعة ثابتة مسبقًا من فتحات الذاكرة وتعمل عليها بتركيز ناعم. يوسع Macaron هذا عن طريق السماح لعدد الفتحات بالنمو أو الانكماش ديناميكيًا واستخدام التعلم المعزز (RL) لتحديد الفتحات التي تبقى. بهذا المعنى، يشبه محرك ذاكرة Macaron آلة تورينج عصبية مع وحدة تحكم تعلم تقرأ وتكتب على شريط ذاكرة خارجي.

5 الخصوصية والامتثال التنظيمي

5.1 الارتباط بالسياسة والشفافية المتمايزة

الامتثال للوائح الإقليمية أمر حيوي. ربط السياسات يربط قواعد الخصوصية القابلة للقراءة آليًا بالبيانات. على سبيل المثال، قد تتضمن ذاكرة تحتوي على بيانات مالية قاعدة تنص على أنه لا يمكن الوصول إليها إلا بعد المصادقة البيومترية. الشفافية المتمايزة تقدم مستويات مختلفة من الإفصاح لأطراف مختلفة: يمكن للمستهلك الياباني مراجعة بياناته الخاصة، ويمكن للمنظم الكوري رؤية الإحصائيات المجمعة، ويحصل المطورون على تعليقات مجهولة لتحسين النموذج. تتماشى هذه الآليات مع تركيز قانون تعزيز الذكاء الاصطناعي على الشفافية ومتطلبات قانون إطار العمل للذكاء الاصطناعي في كوريا لإدارة المخاطر والإشراف البشري.

5.2 التنفيذ بالعقوبة والمسؤولية

لا تحتوي قانون تعزيز الذكاء الاصطناعي في اليابان على عقوبات مباشرة ولكنها تستخدم آلية الفضح والتشهير لتحديد الشركات غير الملتزمة علنًا. تسجل سجلات التدقيق الخاصة بماكرون الوصول إلى الذاكرة وقرارات السياسة، مما يسمح للشركة بإظهار الامتثال في حالة التدقيق. قد يفرض إطار العمل في كوريا غرامات معتدلة (تصل إلى 30 مليون وون كوري) على الانتهاكات. من خلال إرفاق البيانات الوصفية بكل حدث ذاكرة، يمكن لماكرون إنشاء تقارير امتثال تلقائيًا. يتيح النظام أيضًا للمستخدمين تصدير وحذف بياناتهم، مما يتماشى مع القاعدة العالمية الناشئة لنقل البيانات.

5.3 تشبيهات بذاكرة الإنسان

يشبه نظام الذاكرة في Macaron هيكل الذاكرة البشرية. يصف علماء الإدراك الذاكرة العاملة بأنها مخزن محدود في القشرة الأمامية، والذاكرة العرضية بأنها تخزين يعتمد على الأحداث بوساطة الحُصين، والذاكرة الدلالية بأنها معرفة عامة موزعة عبر القشرة. وبالمثل، يمتلك Macaron نافذة سياق قصيرة الأجل، مخزنًا عرضيًا وقاعدة بيانات طويلة الأجل. يشبه تلاشي المرجع منحنى النسيان البشري: تتلاشى الذكريات ما لم يتم تعزيزها. يشبه نسج الزمن الطريقة التي يخلق بها البشر روايات حياتهم من خلال ربط الأحداث عبر الزمن. من خلال تقليد هذه الآليات، لا يقوم Macaron فقط بتحسين الموارد الحسابية بل ينتج تفاعلات أكثر طبيعية. عندما يسترجع المستخدم ذكرى مهرجان طفولي، يمكن للوكيل أن يستدعي الأحداث ذات الصلة ويدمجها في المحادثة الحالية، تمامًا كما يفعل صديق إنساني.

5.4 اتجاهات البحث المستقبلية

على الرغم من تعقيدها، تظل محرك ذاكرة ماكارون يطرح أسئلة مفتوحة. أحد المجالات هو الذاكرة ذاتية الضغط: تطوير وحدات عصبية تلخص وتضغط الذكريات تلقائيًا دون إشراف خارجي. مجال آخر هو التعلم المستمر: تمكين الوكيل من التكيف باستمرار مع استراتيجيات الذاكرة مع تطور سلوك المستخدم. يظل المواءمة عبر اللغات موضوع بحث نشط؛ قد تستخدم النماذج المستقبلية التعلم التمثيلي التبايني لمواءمة الذكريات بين اليابانية والكورية وغيرها من اللغات بسلاسة أكبر. يستكشف الباحثون أيضًا الأجهزة العصبية والشبكات العصبية ذات النبضات لتطبيق الذاكرة بتكلفة طاقة أقل. وأخيرًا، سيمكن دمج التعلم الفيدرالي المستخدمين من تدريب نماذج ذاكرة ماكارون محليًا، ومشاركة تحديثات النماذج فقط بدلاً من البيانات الخام، مما يعزز الخصوصية مع تحسين الأداء الجماعي.

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends