تعلم القيادة: حل NVIDIA المعتمد على البيانات للتفكير المكاني في الانتشار النصي إلى الصورة

المؤلف: Boxu Li

يمكن لنماذج الانتشار النصي إلى الصورة إنتاج صور مذهلة، لكنها تواجه نقطة عمياء شهيرة: التفكير المكاني. غالبًا ما تضع أفضل النماذج الحالية الأشياء في غير مكانها في المشهد أو تدمجها بطريقة غريبة عند طلب ترتيبات معينة. على سبيل المثال، قد يربك نموذجًا عبارة مثل "كلب على يمين دمية دب" - فقد يضع الكلب على اليسار أو حتى يدمج الكلب والدب معًا. هذه مهام يجدها الطفل الصغير سهلة، ومع ذلك تفشل النماذج الانتشارية فيها بشكل متكرر[1]. تصبح المشكلة أكثر وضوحًا مع التركيبات غير العادية (تخيل زرافة تقف فوق طائرة)[1]. تتضمن الإصلاحات التقليدية إما تحسين النماذج على بيانات خاصة أو إضافة خسائر مكانية مصنوعة يدويًا في وقت التوليد، لكن كلا النهجين لهما عيوب[1]. يتطلب التحسين إعادة تدريب مكلفة ويخاطر بتغيير إبداع النموذج أو أسلوبه. من ناحية أخرى، تشفر الخسائر المصنوعة يدويًا افتراضاتنا غير الكاملة حول العلاقات المكانية، مما يؤدي غالبًا إلى نتائج غير مثالية.

ادخل في Learn-to-Steer، نهج إنفيديا الجديد (سيظهر في WACV 2026) الذي يتعامل مع التفكير المكاني من خلال التعلم مباشرة من النموذج نفسه. بدلاً من كتابة التعليمات البرمجية بشكل صريح لتحديد أين يجب أن تذهب الأشياء، الفكرة هي تعليم النموذج كيفية توجيه نفسه أثناء توليد الصور باستخدام وظائف الخسارة المستندة إلى البيانات. في هذه التدوينة، سنستكشف تحديات التفكير المكاني في نماذج الانتشار وكيفية عمل طريقة إنفيديا Learn-to-Steer من الداخل. سنتعمق في بنيتها – بما في ذلك كيفية استغلالها لخرائط الانتباه المتقاطع وتصنيف متعلم في وقت الاستدلال – ونراجع المكاسب الكمية على المعايير. سنفحص أيضًا بعناية التوازنات بين تحسين في وقت الاستدلال (مثل تكلفة الحوسبة وقابلية التعميم) وننظر في الأثار الأوسع لوفاء الوعد، والتوافق المتعدد الأوضاع، ومستقبل تصميم النماذج التوليدية.

التفكير المكاني: القطعة المفقودة في نماذج الانتشار

النماذج الحديثة للانتشار مثل Stable Diffusion يمكنها رسم مشاهد فوتوغرافية أو خيالية بتفاصيل مدهشة. ومع ذلك، عند طلب ترتيب مكاني بسيط قد تشعر بخيبة أمل. التفكير المكاني - فهم وتوليد المواضع النسبية الصحيحة (يسار/يمين، فوق/تحت، داخل/خارج) - لا يزال يشكل عقبة. الأوامر التي تحدد علاقات الكائنات غالبًا ما تنتج صورًا غير متوافقة مع الطلب. على سبيل المثال، قد ينتج عن أمر "قط فوق رف الكتب" قطة بجانب رف الكتب أو مزيجاً سريالياً من القطة ورف الكتب. لماذا يحدث هذا؟

أحد الأسباب هو أن نماذج الانتشار تتعلم من مجموعات ضخمة من الصور والنصوص حيث تكون العلاقات المكانية الواضحة نادرة أو غامضة. هذه النماذج تتميز بالدقة في الأسلوب والموضوع، ولكن قد لا تفرض بيانات التدريب بشكل قوي مكان ظهور كل كائن بالنسبة للآخرين. ونتيجة لذلك، يكون التمثيل الداخلي للمصطلحات المكانية (مثل "فوق" أو "على اليمين") ضعيفًا. تؤكد المعايير الحديثة أن حتى النماذج المتقدمة لتحويل النص إلى صورة تواجه صعوبات في المهام المكانية التي تتضمن علاقات هندسية بسيطة[2]. تظهر هذه الإخفاقات في ثلاث مشاكل رئيسية: وضع الكائنات بشكل غير صحيح، وفقدان الكائنات التي كانت في الطلب، أو دمج كائنات مشوهة عندما يحاول النموذج دمج شيئين معًا[3]. باختصار، النموذج غالبًا ما يعرف ما طلبته، لكنه لا يعرف أين يضعه.

حاولت الأساليب الحالية معالجة هذه الفجوة. يقوم بعض الباحثين بضبط نماذج الانتشار وفقًا للصور ذات التخطيطات أو العلاقات المعروفة، مما يعيد تدريب النموذج ليكون واعيًا بالمكان. آخرون يستخدمون التدخلات أثناء الاختبار: على سبيل المثال، توجيه التوليد بشروط خسارة إضافية تعاقب التداخل أو تكافئ الترتيب الصحيح للأشياء. ومع ذلك، فإن تصميم مثل هذه وظائف الخسارة يدويًا أمر صعب - يتطلب تخمين كيفية قياس "يسار" أو "فوق" باستخدام بيانات النموذج الداخلية. قد تعمل هذه الخسائر المصممة يدويًا للحالات البسيطة ولكن قد ترمز إلى استراتيجيات فرعية غير مثالية، مما يفشل في المشاهد الأكثر تعقيدًا[4]. يمكن أن يحقق الضبط الدقيق، في الوقت نفسه، دقة مكانية جيدة (مثل طريقة COMPASS التي تعيد تدريب النموذج ببيانات متوافقة مكانيًا[5]) ولكنه يستهلك الموارد بكثافة ويمكن أن يفسد خصائص الصورة الأخرى عن غير قصد (في إحدى الحالات، تدهورت دقة الألوان وعد الأشياء بعد الضبط الدقيق للعلاقات المكانية[6]). هناك حاجة إلى حل يحسن الدقة المكانية دون إعادة تدريب النموذج بأكمله أو الاعتماد على استراتيجيات هشة.

تعلم توجيه الانتشار باستخدام خسائر مدفوعة بالبيانات

https://research.nvidia.com/publication/2025-11_data-driven-loss-functions-inference-time-optimization-text-image

يوفر إطار عمل تعلم القيادة من NVIDIA نهجًا جديدًا: بدلاً من فرض القواعد، تعلمها من إشارات النموذج الخاصة[7]. الفكرة الرئيسية هي أن نماذج الانتشار تنتج بالفعل بيانات داخلية غنية أثناء التوليد – خاصة في شكل خرائط الانتباه المتقاطع – والتي يمكن استخراجها لفهم العلاقات المكانية. تُنشأ خرائط الانتباه المتقاطع في كل خطوة من عملية إزالة الضوضاء الانتشارية وتخبرنا بشكل أساسي أي مناطق في الصورة تركز على كلمة معينة في النص[8]. بمعنى آخر، تشكل جسرًا بين الرموز النصية (مثل "كلب"، "دب محشو"، "إلى اليمين من") ومواقع الصور[8]. لاحظت الأعمال السابقة أن هذه الخرائط يمكن تفسيرها لتحديد مواقع الأشياء، لذا من الطبيعي استخدامها كدليل. غالبًا ما تختار أساليب التحسين أثناء وقت الاختبار خرائط الانتباه المتقاطع كهدف لخسائرها المكانية بسبب هذا التفسير والمواءمة المباشرة بين النص والصورة[9].

تعلم التوجيه (L2S) يبني على هذه الفكرة من خلال تعلم دالة الهدف من البيانات بدلاً من إنشائها يدوياً. يقدم مصنف علاقات خفيف الوزن يتم تدريبه خارجياً للتعرف على العلاقات المكانية من أنماط الانتباه المتبادل لنموذج الانتشار[7]. أثناء الاستدلال، يعمل هذا المصنف كـ دالة خسارة متعلمة: يقوم بتقييم ما إذا كانت الصورة المولدة (حتى الآن) تعكس العلاقة المطلوبة بشكل صحيح، وإذا لم يكن كذلك، يوجه التوليد في الاتجاه الصحيح[7]. بشكل أساسي، علم فريق NVIDIA نموذج الانتشار كيفية انتقاد خرائط الانتباه الخاصة به والتعديل بناءً على ذلك، وكل ذلك أثناء التنفيذ دون تغيير أوزان النموذج.

تبين أن تدريب هذا المصنف العلائقي أكثر تعقيدًا مما يبدو. قد تكون الطريقة المباشرة: أخذ مجموعة من الصور ذات العلاقات المعروفة (مثل الصور التي تم توضيحها أن "الكلب على يسار القطة")، ثم تشغيل عملية انعكاس نموذج الانتشار للحصول على خرائط الانتباه لـ"الكلب" و"القطة"، ثم تدريب المصنف لإخراج "على اليسار" لتلك الخرائط. هذا بالفعل يوفر إشرافًا. ومع ذلك، ظهر خلل غير متوقع - شيء يسميه المؤلفون مشكلة "تسرب العلاقة"[10][11]. بدأ المصنف بالغش عن طريق التقاط آثار لغوية للعلاقة في خرائط الانتباه، بدلاً من فهم الترتيب المكاني بشكل حقيقي. كيف يكون ذلك ممكنًا؟ اتضح أنه عندما تقوم بعكس صورة باستخدام الوصف الصحيح (مثل "كلب على يسار قطة")، قد يتم ترميز تلميحات خفية حول كلمة "يسار" في تفاعلات النموذج الداخلية. ثم يتشبث المصنف بهذه التلميحات (يقرأ الوصف بشكل فعال من خريطة الانتباه) بدلاً من تعلم المفهوم البصري لـ"يسار"[10][12]. والنتيجة: أنه يعمل بشكل جيد على بيانات التدريب ولكنه يفشل أثناء التوليد، لأن العلاقة في الوصف دائماً تتطابق مع الصورة (لا يوجد شيء يميز ما إذا كان الترتيب المكاني صحيحًا أم لا إذا كان المصنف مجرد يكرر الوصف).

لحل هذا، يستخدم Learn-to-Steer استراتيجية تدريب مزدوجة الانعكاس ذكية [13][14]. لكل صورة تدريبية، يتم إنشاء نسختين من خرائط الانتباه: واحدة من تحفيز إيجابي يصف العلاقة المكانية بشكل صحيح (مثل "كلب على يسار قطة") وواحدة من تحفيز سلبي يستخدم العلاقة الخاطئة عمدًا (مثل "كلب فوق قطة")[15][16]. يتم تصنيف كلا المجموعتين من خرائط الانتباه بالعلاقة الصحيحة ("يسار" في هذا المثال)، بناءً على تخطيط الصورة الفعلي. برؤية العلاقة نفسها في الصورة مع وصفات نصية متضاربة، يُجبر المصنف على تجاهل الإشارة اللغوية غير الموثوقة والتركيز على النمط الهندسي الحقيقي في خرائط الانتباه[14]. يضمن هذا أنه يتعلم الثبات: سواء قال التحفيز "يسار" أو "فوق"، يجب على المصنف أن يكتشف أن الكلب بالفعل على يسار القطة بناءً على الدليل المكاني وحده. يحيّد هذا النهج مزدوج الانعكاس مشكلة التسرب، مما يؤدي إلى مصنف يفهم العلاقات المكانية بشكل حقيقي من حيث رؤية النموذج، وليس فقط من التحفيزات النصية[17].

جانب مهم آخر هو بيانات التدريب لهذا المصنف. استمد الفريق من صور حقيقية وصور اصطناعية لتغطية مجموعة واسعة من السيناريوهات. توفر الصور الحقيقية (من مجموعة بيانات تسمى GQA) تعقيدًا طبيعيًا وترتيبات متنوعة للأشياء، على الرغم من أن خرائط الانتباه الخاصة بها يمكن أن تكون مشوشة عندما تكون المشاهد مزدحمة. تقدم الصور الاصطناعية، التي تم إنشاؤها بطريقة مضبوطة (باستخدام طريقة Image-Generation-CoT)، مشاهد أبسط بأنماط انتباه أوضح تشبه أكثر تلك التي تم مواجهتها أثناء توليد الانتشار. من خلال مزج البيانات الحقيقية والاصطناعية، يستفيد المصنف من الواقعية والوضوح. أكدت دراسة بترية أن استخدام كلا المصدرين للبيانات أدى إلى دقة أفضل من استخدام أي منهما بمفرده.

التوجيه أثناء وقت الاستنتاج باستخدام دوال الخسارة المتعلمة

بمجرد تدريب مصنف العلاقات، يقوم Learn-to-Steer بتوصيله بعملية الانتشار لتوجيه الصور أثناء إنشائها. يحدث هذا أثناء الاستنتاج (وقت التوليد) ولا يتطلب أي تغييرات في أوزان نموذج الانتشار. إليك كيفية عمل ذلك:

عند إعطاء نص يحتوي على علاقة مكانية (على سبيل المثال، "كلب على يمين دمية دب")، يقوم النظام أولاً بتحليل النص لتحديد الموضوع، والهدف، والعلاقة (في هذه الحالة، الموضوع: كلب، العلاقة: على يمين، الهدف: دمية دب) [20]. عندما يبدأ نموذج الانتشار بإزالة الضوضاء العشوائية الكامنة إلى صورة، يتدخل نظام Learn-to-Steer في أوقات محددة. عند تردد مختار (مثل كل خطوة أو كل عدة خطوات في النصف الأول من عملية الانتشار)، يقوم باستخراج خرائط الانتباه المتقاطع المرتبطة بالكائنين المعنيين [20]. هذه الخرائط تمثل بشكل أساسي "اعتقاد" النموذج الحالي حول مكان وجود كل كائن في الصورة الناشئة. تُغذى خرائط الانتباه المستخرجة إلى مصنف العلاقات المدرب، الذي ينتج توزيع احتمالات على العلاقات الممكنة (يسار، يمين، فوق، تحت، إلخ) [20][21]. بما أننا نعرف ما هي العلاقة المطلوبة من النص، يمكن للنظام حساب الخسارة – على سبيل المثال، خسارة الانتروبيا المتقاطعة التي تعاقب المصنف إذا لم يكن واثقًا من العلاقة الصحيحة [20][22].

الآن يأتي الجزء الخاص بالتوجيه: يتم إرجاع تدرج هذه الخسارة إلى التمثيل الكامن لنموذج الانتشار (الصورة الضوضائية قيد الإعداد) في تلك الخطوة الزمانية [23]. عملياً، يعني ذلك دفع المتغيرات الكامنة في اتجاه يزيد من احتمال العلاقة الصحيحة وفقًا للمصنف. بشكل بديهي، إذا اعتقد المصنف أن الكلب ليس على اليمين بما فيه الكفاية بالنسبة للدب المحشو في الصورة الجزئية الحالية، فإن التدرج سيقوم بتحريك الكامن بطريقة تنقل ميزات الكلب يمينًا (أو الدب إلى اليسار). ثم تستمر عملية الانتشار مع هذا الكامن والضوضاء المعدلة قليلاً. من خلال تطبيق هذه التحديثات الموجهة بشكل متكرر، يتم "توجيه" التوليد نحو صورة تتوافق مع التعليمات المكانية دون إخبار النموذج صراحةً بمكان رسم كل كائن. الأمر كما لو أن النموذج لديه مدرب يهمس أثناء الرسم: "حرك الكلب قليلاً إلى اليمين."

أحد الجوانب المثيرة في Learn-to-Steer هو أنه يعمل عبر هياكل انتشار مختلفة. أظهر المؤلفون ذلك على كل من Stable Diffusion (نموذج شائع يعتمد على UNet) و Flux (نموذج انتشار يعتمد على MMDiT)، مع تغييرات طفيفة [24]. النهج غير معتمد على الهيكل لأنه يعتمد على إشارات عامة (خرائط الانتباه) ومصنف منفصل. هذا يعني أن النماذج النصية إلى الصورة المستقبلية أو البديلة يمكن أن تُدمج في نفس آلية التوجيه عن طريق تدريب مصنف جديد على مخرجات انتباه ذلك النموذج. بالإضافة إلى ذلك، على الرغم من أن النظام تم تدريبه على علاقات زوج الكائنات المفردة، إلا أنه يمكنه التعامل مع المطالبات التي تربط علاقات متعددة. على سبيل المثال، فكر في طلب: "ضفدع فوق حذاء رياضي تحت إبريق شاي." يحتوي هذا على علاقتين ("ضفدع فوق حذاء رياضي" و"حذاء رياضي تحت إبريق شاي") تتضمن ثلاث كائنات. يتعامل Learn-to-Steer مع مثل هذه الحالات عن طريق تبديل التركيز على التحسين بين العلاقات في نقاط زمنية مختلفة [25][26]. سوف يقوم بتحسين الكامن لعلاقة الضفدع-الحذاء الرياضي في خطوة واحدة، ثم علاقة الحذاء الرياضي-إبريق الشاي في الخطوة التالية، وهكذا في نمط دائري. باستخدام هذه الاستراتيجية، تمكنت الطريقة من فرض قيود مكانية متعددة في صورة واحدة، وهو شيء غالبًا ما يفشل في تحقيقه وظائف الخسارة الثابتة أو التوجيه البسيط. (في الواقع، وجد المؤلفون أن صياغة طلب متعدد العلاقات بطريقة بسيطة ومتسلسلة - مثل "ضفدع فوق حذاء رياضي تحت إبريق شاي" - أعطت نتائج أفضل من جملة أكثر تفصيلاً مع روابط [27].)

المكاسب الكمية على المعايير المكانية

ما مدى تحسين Learn-to-Steer للفهم المكاني في الصور المولدة؟ التقرير يذكر قفزات كبيرة في الدقة على معايير تقييم النص إلى الصورة القياسية للعلاقات المكانية. يتم استخدام معيارين: GenEval (الذي يتحقق مما إذا كانت الصور المولدة تلبي مطلب العلاقة المعطى) و T2I-CompBench (معيار تركيب النص إلى الصورة، اختبار آخر للترتيبات المكانية). قامت الفريق بتقييم أربعة نماذج انتشار مختلفة – نسختان من Flux و Stable Diffusion 2.1 و 1.4 – مقارنة الجيل العادي مقابل طرق متنوعة. النتائج تروي قصة واضحة: أهداف التوجيه المكتسبة تتفوق على النماذج غير الموجهة والطرق السابقة بفارق كبير[28]. بعض النقاط البارزة:

Stable Diffusion 2.1 (SD2.1): الدقة المكانية على GenEval قفزت من 0.07 (7%) إلى 0.54 عندما تم استخدام Learn-to-Steer[29]. بعبارة أخرى، تم تحويل نموذج “لا يكاد يعمل” للمهام المكانية إلى نموذج يصيب الهدف أكثر من نصف الوقت[29]. على مقياس T2I-CompBench، ارتفع SD2.1 من 0.089 إلى 0.365، مما يظهر تحسنًا كبيرًا مشابهًا[29].
Flux 1.0-dev (MMDiT-based): ارتفعت الدقة من 0.20 إلى 0.61 على GenEval (20% إلى 61%) مع Learn-to-Steer، ومقياس ذو صلة من 0.177 إلى 0.392[30]. وهذا فعليًا حول نموذجًا غير موثوق إلى نموذج دقيق بشكل موثوق للمدخلات المكانية.
تفوق على الخسائر اليدوية الصنع: شهدت الطرق المتنافسة التي تعتمد على خسائر مصممة يدويًا درجات أقل بشكل عام. على سبيل المثال، نهج سابق يسمى STORM حقق فقط 0.19 على SD2.1 GenEval، بينما حقق Learn-to-Steer 0.54 على نفس الاختبار[31]. قاعدة أخرى، FOR (Fast Optimizer for Restoration) ونسخته المكانية، وصلت إلى حوالي 0.26–0.35 على SD2.1، لا تزال بعيدة عن أداء L2S[32]. هذه الفجوات توضح أن الخسارة المستندة إلى التعلم أكثر فعالية من الخسائر التخمنية التي يصممها البشر.
مضاهاة النماذج المحسنة بدقة: ربما الأكثر إثارة، أن التوجيه المستند إلى التعلم يكاد يضاهي أو يتفوق على دقة النماذج التي تم تحسينها بوضوح للعلاقات المكانية. الطريقة COMPASS (التي تعيد تدريب نموذج الانتشار ببيانات مدركة مكانيًا وترتيب خاص للرموز) حققت 0.60 على معيار Flux[33]. حقق Learn-to-Steer، دون إعادة تدريب أي نموذج، 0.61 – تقريبًا على قدم المساواة[33]. هذا يظهر أن تحسين وقت الاختبار يمكن أن يصل إلى أفضل دقة في العالم التي كانت تتطلب سابقًا تدريبًا مكثفًا للنماذج. علاوة على ذلك، فعل ذلك مع الحفاظ على القدرات الأخرى للنموذج الأساسي (في المقابل، حسّن COMPASS المهارة المكانية لكنه تسبب في انخفاضات في دقة اللون والعد كنتيجة جانبية[34]).
تعميم العلاقات المتعددة: بالرغم من أن مصنف العلاقات تم تدريبه فقط على علاقات فردية، أظهر Learn-to-Steer قدرة على التعامل مع التعليمات التي تحتوي على علاقات متعددة في نفس الوقت. في اختبار الضغط مع 3–5 كائنات وما يصل إلى ثلاث علاقات في التعليمات، فشل النموذج الأساسي تقريبًا دائمًا (بنسبة نجاح تقارب 0%)[35][36]. مع تفعيل L2S، تمكن النموذج من تحقيق زيادة كبيرة – على سبيل المثال، حوالي 28% دقة في التعليمات مع علاقات بين ثلاثة كائنات، وحوالي 10–12% دقة للحالات المعقدة جدًا لثلاث علاقات بين أربعة أو خمسة كائنات[37][38]. هذه الأرقام ليست عالية من الناحية المطلقة، لكنها أفضل بكثير مقارنة بالصفر تقريبًا للنموذج غير المدعوم، مما يشير إلى أن الطريقة يمكن أن تجمع بين أهداف متعددة متعلمة إلى حد ما. الأهم من ذلك، يتدهور الأداء بسلاسة مع إضافة المزيد من العلاقات، بدلاً من الانهيار – مما يشير إلى أن كل علاقة يمكن التعامل معها بشكل مستقل إلى حد ما بواسطة الطريقة[39]. هذا التعميم التركيبي هو علامة واعدة للتعامل مع أوصاف المشاهد الأكثر تعقيدًا في المستقبل.

من النتائج النوعية البارزة أيضًا. توضح أمثلة الورقة أن الصور المولدة باستخدام Learn-to-Steer تعكس بدقة التعليمات المكانية في الطلب مع الحفاظ على جودة الصورة العالية[40]. في السيناريوهات التي قد تضع فيها طرق الانتشار العادية أو غيرها من الأساليب الأجسام بشكل خاطئ أو تهمل بعض الكيانات، ينتج L2S صورًا حيث يتم ترتيب الأجسام بشكل صحيح وجميعها موجودة. كما يتعامل مع الطلبات غير المعتادة بمهارة - مثل عرض "حافلة تحت فرشاة أسنان" أو "فيل تحت لوح تزلج" بالترتيب المكاني الصحيح ودون الاندماجات الغريبة التي تنتجها الأساليب الأخرى[41]. يشير فريق NVIDIA إلى أن طريقتهم تتغلب على ثلاثة أنماط من الفشل الشائعة: تصحيح وضع الأجسام، منع إهمال الكيانات (كل جسم في الطلب يظهر في الصورة)، وتجنب اندماج الأجسام (لا مزيد من الهجن السريالية الناتجة عن خلط النموذج بين عنصرين)[3]. في المقارنات جنبًا إلى جنب، قد تهمل الأسس الأخرى مزهرية أو حمار وحشي من المشهد أو تتشابك، بينما تتضمن مخرجات Learn-to-Steer جميع القطع الصحيحة في التكوين الصحيح[3]. هذه التحسين في دقة الطلب - الحصول على ما طُلب بالضبط وفي المكان المطلوب - هو خطوة كبيرة إلى الأمام في موثوقية مخرجات الذكاء الاصطناعي التوليدية.

تحسين وقت الاستدلال: التكاليف والمفاضلات

إن نهج Learn-to-Steer في التحسين أثناء الاستدلال يجلب كلاً من المزايا والاعتبارات. من الجانب الإيجابي، يعني التحسين في وقت الاختبار أننا لا نحتاج إلى التلاعب بأوزان النموذج أو القيام بتحسين مكلف للمهام المكانية[42]. يمكن "توجيه" النموذج المدرب مسبقًا بمرونة فقط عند الحاجة - مما يحافظ على تنوعه الأصلي عندما لا تكون هناك حاجة للتحكم المكاني[34]. هذا يتجنب النوع من التنازلات التي تُرى مع النماذج المحسّنة التي قد تتكيف بشكل مفرط مع العلاقات المكانية على حساب مهارات أخرى (مثل دقة الألوان أو العد)[34]. في نهج NVIDIA، إذا لم يُحدد الطلب العلاقات المكانية، يمكن ببساطة تشغيل نموذج الانتشار بشكل طبيعي دون أي عبء إضافي، مما يحافظ على السرعة والخصائص الأصلية للإنتاج. يتم تفعيل التوجيه فقط للطلبات التي تتطلب ذلك[43].

ومع ذلك، الجانب الآخر هو أنه عندما نقوم بتفعيل هذا الفقدان أثناء وقت الاستدلال، يأتي ذلك مع تكلفة حسابية. تتطلب العملية تشغيل المصنف وإعادة انتشار التدرجات عدة مرات أثناء التوليد، مما يمكن أن يبطئ عملية توليد الصور بشكل كبير. قام المؤلفون بقياس مدى البطء: بالنسبة لنموذج Flux 1.0-schnell الأصغر، انتقل الوقت من ~0.5 ثانية لكل صورة إلى ~16.5 ثانية مع Learn-to-Steer – تباطؤ بنحو 33 مرة[44]. أما بالنسبة للنموذج الأكبر Flux 1.0-dev، فقد زادت المدة من 11 ثانية إلى 6 دقائق (~33 مرة أبطأ). تقنية Stable Diffusion 2.1، التي عادة ما تستغرق حوالي 4.5 ثانية لكل صورة على أجهزتهم، ارتفعت إلى ~90 ثانية مع التوجيه (~20 مرة أبطأ)[44]. SD1.4 شهدت قفزة مماثلة (من 4.5 ثانية إلى ~80 ثانية)[44]. هذه تكاليف غير بسيطة. في السيناريوهات التي تكون فيها السرعة وقابلية التوسع حاسمة (مثل توليد الصور بكثافة عالية أو التطبيقات في الوقت الحقيقي)، قد يكون تطبيق التحسين أثناء وقت الاختبار لكل صورة غير عملي.

هناك بعض الطرق للتخفيف من ذلك. إحداها هي تحديد متى وكيف يتم تطبيق التحسين. يتبع نظام Learn-to-Steer التحسين فقط خلال النصف الأول من خطوات الانتشار في تنفيذهم، والذي وجدوا أنه كافٍ لتحديد مسار الصورة. بالإضافة إلى ذلك، كما ذُكر، يمكن استخدامه بشكل انتقائي: يمكن لخدمة الصور الذكية بالذكاء الاصطناعي أن تولد صورة بشكل طبيعي، وفقط إذا بدا أن النتيجة غير متناسقة مكانيًا (أو إذا طلب المستخدم صراحةً ترتيبًا مكانيًا صارمًا) فإنه يتم تشغيل جولة ثانية مع تمكين L2S. زاوية أخرى هي تحسين الكفاءة: نظرًا لأن المصنف العلائقي صغير جدًا ولا يُستخدم سوى عدد قليل من خرائط الانتباه، فإن النفقات الزائدة تأتي بشكل رئيسي من القيام بالانتشار الخلفي عبر نموذج الانتشار الكبير لعدة خطوات. قد يستكشف البحث المستقبلي تسريع ذلك باستخدام محسنات أفضل أو تحديثات جزئية. مع ذلك، في الوقت الحالي، فإن الطريقة الأنسب للحالات التي تكون فيها الدقة أكثر أهمية من السرعة – مثل توليد مخطط دقيق أو مشهد لتصميم، أو التعامل مع دفعات صغيرة نسبيًا من الصور حيث تكون الجودة أكثر أهمية من الكمية.

العمومية والمتانة هما جانب آخر من التوازنات. أثبت إطار العمل Learn-to-Steer أنه عام بشكل مدهش عبر هياكل النماذج (UNet مقابل MMDiT)[24]، مما يشير إلى أنه يمكن تطبيقه على نماذج الانتشار الأخرى أو الأنظمة المستقبلية بتكيف طفيف. المتطلب هو إمكانية استخراج الإشارة المشتركة أو إشارة المحاذاة المماثلة من النموذج. ويظهر أيضًا متانة في التعامل مع العلاقات المتعددة وتراكيب الأشياء غير المسبوقة بفضل كيفية تدريبه (بالتركيز على أنماط الانتباه العامة). ومع ذلك، يجدر ملاحظة بعض القيود. يشير تحليل الورقة إلى أن ما يعتبر "فوق" أو "تحت" يتم الحكم عليه في بعدين – من خلال بكسلات الصورة والانتباه – والذي قد لا يتماشى دائمًا مع الفهم الحقيقي للبعد الثالث[45]. على سبيل المثال، إذا كان هناك كائن أمام آخر في الفضاء الثلاثي الأبعاد، من زاوية كاميرا معينة قد يظهر تحت الآخر في الصورة الثنائية الأبعاد، مما يربك العلاقة الفضائية. لا يقوم Learn-to-Steer بنمذجة العمق أو العلاقات الحجمية الحقيقية صراحةً؛ بل يتعلم فقط من تراكبات الانتباه البصرية. لذا في المشاهد المعقدة مع المنظور، قد يفرض علاقة منطقية في الإسقاط الثنائي الأبعاد ولكنها غير منطقية بشكل حقيقي[45]. علاوة على ذلك، بينما يمكن للطريقة التعامل مع ما يصل إلى ثلاث علاقات، فإن دقتها تنخفض مع ازدياد ازدحام المشاهد[46]. توليد مشهد مثالي يحتوي، على سبيل المثال، على خمسة أشياء، كلها بالنسبة لبعضها البعض لا يزال تحديًا مفتوحًا – أحيانًا تنجح الطريقة، وأحيانًا لا[37]. تبرز هذه القيود أن هناك مجالًا للتحسين، ربما من خلال دمج تفكير أكثر تعقيدًا أو تخطيط متعدد الخطوات للأوامر المعقدة.

الأبعاد الأوسع: دقة الاستجابة وتصميم النماذج المستقبلية

من خلال تحسين الدقة المكانية بشكل كبير، يمثل تعلم التوجيه من NVIDIA خطوة مهمة نحو أنظمة متعددة الوسائط أكثر موثوقية. بالنسبة للمستخدمين - سواء كانوا فنانين أو مصممين أو مطورين في المؤسسات - فإن وجود نموذج تحويل النص إلى صورة يحترم بالفعل التعليمات المكانية يعني تقليل الإحباط والتصحيح اليدوي. إنه يقربنا من "ما تطلبه هو ما تحصل عليه." هذه الدقة ليست فقط حول الصور الجميلة؛ إنها تتعلق بمحاذاة مخرجات الذكاء الاصطناعي مع نية المستخدم بطريقة قابلة للتحكم. بمعنى ما، يعزز التوافق متعدد الوسائط: يتم تمثيل الوسيط النصي (العلاقات الموصوفة في اللغة) بشكل أكثر دقة في الوسيط البصري (الصورة المولدة). قد يؤدي تحسين التوافق في التفكير المكاني أيضًا إلى تأثيرات إيجابية على جوانب أخرى من الإرشادات، نظرًا لأن النهج يظهر أنه من الممكن استهداف أوضاع الفشل المحددة (مثل وضع العناصر) دون التأثير السلبي على جوانب أخرى (مثل اللون، العدد، أو التماسك العام). إنه استعراض لقدرتنا على إدخال "الفطرة السليمة" الخاصة بالمجال في نموذج توليدي كبير بعد انتهاء التدريب، بدلاً من الاعتماد على نموذج واحد ضخم ليحصل على كل شيء بشكل صحيح من البداية.

قد يؤثر النجاح في استخدام خرائط الانتباه المتقاطع كإشارة تعليمية على تصاميم النماذج المستقبلية وأنظمة التدريب. إحدى النتائج المحتملة هي أن النماذج الانتشارية المستقبلية قد تدمج وحدات تراقب أو تفرض قيودًا معينة داخليًا. على سبيل المثال، يمكن أن يتضمن نموذج الجيل القادم خسارة مكتسبة (مثل هذا المصنف) كجزء من التدريب، وليس فقط الاستدلال. سيعمل مثل هذا النموذج بفعالية مع معلم يعاقبه كلما قام بترتيب الأشياء بشكل غير صحيح، مما قد يؤدي إلى استيعاب المنطق المكاني بشكل شامل. يمكن أن يقلل ذلك من الحاجة إلى تحسين الاختبار في المدى البعيد. في الوقت نفسه، توفر مقاربات مثل التعلم للتوجيه مجموعة أدوات متعددة الاستخدامات: يمكن وضعها فوق النماذج الحالية كشكل من أشكال التخصص بعد التدريب. هذا جذاب لحالات الاستخدام المؤسسية حيث يمكن أخذ نموذج مُدرب مسبقًا بشكل عام وتكييفه بأمان ليتماشى مع متطلبات خاصة (مثل اتباع تعليمات التخطيط دائمًا) دون المخاطرة بسلامة النموذج على مهام أخرى.

هناك أيضًا رسالة أوسع حول تصميم الفقدان المدفوع بالبيانات. تصميم دالة فقدان يدويًا هو في الأساس تخمين لكيفية تصرف النموذج، بينما تعلم دالة فقدان يتيح للنموذج أن يخبرنا ما الذي يعمل بشكل جيد. هنا، من خلال اختبار انتباه النموذج الخاص، يتيح الباحثون للبيانات (صور مقلوبة وخرائط الانتباه) أن تكشف الهدف الصحيح. يمكن تطبيق هذا المبدأ على مشاكل محاذاة إبداعية أخرى. قد نرى توجيهًا "متعلمين" مشابهًا لضمان اتساق السمات (على سبيل المثال، أن يظهر "مكعب أحمر" باللون الأحمر)، أو العد (ضمان أن يؤدي طلب خمس تفاحات إلى خمس تفاحات متميزة)، أو حتى اتساق الأسلوب عبر صور متعددة. سيتضمن كل منها تدريب شبكة صغيرة على الأجزاء الداخلية للنموذج لتوجيه جانب محدد من التوليد.

أخيرًا، يمكن أن يصبح هندسة الأوامر أقل فنًا وأكثر علمًا بفضل هذه التقنيات. بدلاً من الالتواء في نصوص الأوامر لإقناع النموذج بفعل ما نعنيه ("ربما إذا قلت 'كلب على اليمين البعيد لدب دمية' سيفهم...")، يمكننا الاعتماد على وحدات تحكم متعلمة لفرض التفسير. هذا يحرر المستخدمين لتحديد ما يريدونه بعبارات بسيطة ويثقون في النظام ليتولى الباقي. في الأوامر متعددة الأجزاء أو المشاهد المعقدة، فإن القدرة على الحفاظ على التحكم في كل علاقة أو تفصيل تعني أنه يمكن استخدام النماذج التوليدية لمهام تركيبية أكثر – مثل رسم لوحة قصصية، أو تصميم تخطيط واجهة مستخدم، أو إنشاء مخططات علمية – حيث تكون الدقة المكانية أمرًا حاسمًا.

باختصار، توضح ورقة NVIDIA الخاصة بـ Learn-to-Steer توازنًا مثيرًا بين التعلم الآلي وحل المشكلات العملي. من خلال الاستفادة من معرفة النموذج الخاصة (عبر الانتباه المتبادل) وإدخال هدف مكتسب في مرحلة الاستنتاج، تصل إلى مستوى جديد من الدقة في الطلبات المكانية. تأتي هذه الطريقة مع مقايضات في تكلفة الحساب، لكنها تفتح الباب لتحسينات مستهدفة للغاية لنماذج التوليد دون إعادة تدريبها من البداية. مع تزايد أهمية النماذج الانتشارية في إنشاء المحتوى بالذكاء الاصطناعي، تضمن حلول مثل هذه أن "التفاصيل البسيطة" مثل مكان وجود الأشياء في الصورة لن يتم تجاهلها بسهولة. إنه مثال مقنع على كيفية توجيه نموذج توليدي ضخم إلى ارتفاعات أكبر من التوافق مع النوايا البشرية باستخدام بعض الذكاء الإضافي - في شكل دالة فقدان مكتسبة. قد يتضمن الطريق الأمامي دمج مثل هذه الآليات مباشرة في تدريب النموذج أو توسيعها لأنواع جديدة من القيود، ولكن الأمر الواضح هو أن السماح للنماذج بتعلم كيفية توجيه نفسها هو فكرة قوية من المحتمل أن نرى المزيد منها في المستقبل.

[1] [4] [7] وظائف فقدان البيانات المستندة إلى البيانات لتحسين وقت الاستدلال في توليد النصوص إلى الصور

https://learn-to-steer-paper.github.io/

[2] [3] [5] [6] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] دوال الخسارة المدفوعة بالبيانات لتحسين وقت الاستنتاج في تحويل النص إلى صورة