लर्न-टू-स्टीयर: NVIDIA का डेटा-चालित समाधान टेक्स्ट-टू-इमेज डिफ्यूजन में स्थानिक तर्क के लिए

लेखक: बॉक्सू ली

टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल शानदार दृश्य उत्पन्न कर सकते हैं, लेकिन उनके पास एक कुख्यात अंधा स्थान है: स्थानिक तर्क। आज के सर्वश्रेष्ठ मॉडल अक्सर किसी दृश्य में वस्तुओं को गलत तरीके से रखते हैं या विशिष्ट लेआउट के लिए पूछे जाने पर उन्हें अजीब तरह से मिला देते हैं। उदाहरण के लिए, "टेड़ी बियर के दाईं ओर एक कुत्ता" जैसी प्रॉम्प्ट से मॉडल भ्रमित हो सकता है - यह कुत्ते को बाईं ओर रख सकता है या यहां तक कि कुत्ते और टेड़ी को एक साथ मिला सकता है। ये ऐसे कार्य हैं जिन्हें एक छोटा बच्चा तुच्छ समझता है, फिर भी डिफ्यूजन मॉडल अक्सर इन पर असफल होते हैं[1]। यह समस्या असामान्य संयोजनों के साथ और भी अधिक स्पष्ट हो जाती है (कल्पना करें कि एक जिराफ एक हवाई जहाज के ऊपर खड़ा है)[1]। पारंपरिक सुधारों में या तो विशेष डेटा पर मॉडल को फाइन-ट्यून करना या जेनरेशन के समय हस्तनिर्मित स्थानिक हानियाँ जोड़ना शामिल है, लेकिन दोनों दृष्टिकोणों में खामियां हैं[1]। फाइन-ट्यूनिंग में महंगा पुनः प्रशिक्षण आवश्यक है और यह मॉडल की रचनात्मकता या शैली को बदलने का जोखिम रखता है। दूसरी ओर, हस्तनिर्मित हानियाँ, स्थानिक संबंधों के बारे में हमारी अपनी अपूर्ण धारणाओं को एन्कोड करती हैं, जो अक्सर उप-इष्टतम परिणाम देती हैं।

एन्टर लर्न-टू-स्टीयर, NVIDIA का नया दृष्टिकोण (जो WACV 2026 में प्रस्तुत किया जाएगा) जो स्थानिक तर्क को मॉडल से सीधे सीखने के द्वारा हल करता है। वस्तुओं को कहाँ जाना चाहिए यह हार्ड-कोड करने के बजाय, विचार यह है कि मॉडल को खुद को कैसे मार्गदर्शन करना सिखाया जाए इमेज जनरेशन के दौरान डेटा-ड्रिवन लॉस फंक्शन्स का उपयोग करके। इस ब्लॉग पोस्ट में, हम प्रसार मॉडल्स में स्थानिक तर्क की चुनौतियों और NVIDIA की लर्न-टू-स्टीयर विधि कैसे काम करती है, इसके बारे में जानेंगे। हम इसकी वास्तुकला में गहराई से जाएंगे – जिसमें यह कैसे क्रॉस-अटेंशन मैप्स और इन्फरेंस के समय सीखी गई क्लासिफायर का उपयोग करता है – और बेंचमार्क पर मात्रात्मक लाभों की समीक्षा करेंगे। हम इन्फरेंस समय पर अनुकूलन के व्यापार-ऑफ्स (जैसे कंप्यूट लागत और सामान्यीकरण) की आलोचनात्मक जांच भी करेंगे और प्रॉम्प्ट फिडेलिटी, मल्टीमॉडल एलाइनमेंट, और जनरेटिव मॉडल डिजाइन के भविष्य के लिए व्यापक प्रभावों पर विचार करेंगे।

स्थानिक तर्क: प्रसार मॉडल्स में गायब टुकड़ा

आधुनिक प्रसार मॉडल जैसे कि स्टेबल डिफ्यूजन प्रभावशाली विस्तार के साथ फोटोरियलिस्टिक या काल्पनिक दृश्यों को चित्रित कर सकते हैं। हालांकि, यदि आप एक साधारण स्थानिक व्यवस्था पूछते हैं, तो आप निराश हो सकते हैं। स्थानिक तर्क – सही सापेक्ष स्थितियों को समझना और उत्पन्न करना (बाएं/दाएं, ऊपर/नीचे, अंदर/बाहर) – एक बाधा बनी हुई है। वस्तु संबंधों को निर्दिष्ट करने वाले संकेत अक्सर ऐसी छवियां उत्पन्न करते हैं जो अनुरोध के साथ मेल नहीं खातीं। उदाहरण के लिए, “किताबों की अलमारी के ऊपर एक बिल्ली” का संकेत एक बिल्ली को किताबों की अलमारी के बगल में या एक अजीब बिल्ली-किताबों की अलमारी के संकर के रूप में उत्पन्न कर सकता है। ऐसा क्यों होता है?

एक कारण यह है कि प्रसार मॉडल विशाल छवि-टेक्स्ट डेटासेट से सीखते हैं, जहां स्पष्ट स्थानिक संबंध दुर्लभ या अस्पष्ट होते हैं। वे शैली और वस्तु निष्ठा में माहिर होते हैं, लेकिन प्रशिक्षण डेटा शायद यह सख्ती से लागू नहीं करता कि प्रत्येक वस्तु अन्य वस्तुओं के सापेक्ष कहाँ दिखाई देनी चाहिए। परिणामस्वरूप, मॉडल के आंतरिक प्रतिनिधित्व में स्थानिक शब्दों का ("ऊपर", "दाईं ओर") कमजोर होता है। हाल के बेंचमार्क पुष्टि करते हैं कि यहां तक कि अत्याधुनिक टेक्स्ट-टू-इमेज मॉडल भी सरल ज्यामितीय संबंधों से संबंधित स्थानिक कार्यों पर संघर्ष करते हैं। ये विफलताएँ तीन मुख्य मुद्दों के रूप में सामने आती हैं: गलत वस्तु प्लेसमेंट, प्रॉम्प्ट में मौजूद वस्तुओं का गायब होना, या जब मॉडल दो चीजों को मिलाने की कोशिश करता है तो मिश्रित, राक्षसी वस्तुएं बन जाती हैं। संक्षेप में, मॉडल अक्सर जानता है कि आपने क्या मांगा है, लेकिन यह नहीं जानता कि कहाँ रखना है।

मौजूदा विधियों ने इस अंतर को संबोधित करने का प्रयास किया है। कुछ शोधकर्ता ज्ञात लेआउट या संबंधों वाली छवियों पर प्रसार मॉडलों को फाइन-ट्यून करते हैं, जिससे मॉडल को स्थानिक रूप से जागरूक बनाया जाता है। अन्य परीक्षण-समय के हस्तक्षेप का उपयोग करते हैं: उदाहरण के लिए, अतिरिक्त हानि शर्तों के साथ पीढ़ी का मार्गदर्शन करना जो ओवरलैप को दंडित करते हैं या वस्तुओं के सही क्रम को पुरस्कृत करते हैं। हालाँकि, ऐसी हानि कार्यों को मैन्युअल रूप से डिज़ाइन करना मुश्किल है - इसके लिए अनुमान लगाने की आवश्यकता होती है कि मॉडल के आंतरिक डेटा का उपयोग करके "के बाईं ओर" या "ऊपर" को कैसे मापा जाए। ये हस्तनिर्मित घाटे सरल मामलों के लिए काम कर सकते हैं लेकिन अधिक जटिल दृश्यों पर असफल हो सकते हैं, सबऑप्टिमल हीयुरिस्टिक्स को एन्कोड करते हुए[4]। इस बीच, फाइन-ट्यूनिंग अच्छी स्थानिक सटीकता प्राप्त कर सकती है (उदाहरण के लिए, COMPASS विधि स्थानिक रूप से संरेखित डेटा के साथ एक मॉडल को पुनः प्रशिक्षित करती है[5]) लेकिन यह संसाधन-गहन है और अनजाने में अन्य छवि गुणों को खराब कर सकता है (एक मामले में, स्थानिक संबंधों के लिए फाइन-ट्यूनिंग के बाद रंग सटीकता और वस्तु गिनती खराब हो गई[6])। एक समाधान की आवश्यकता है जो पूरे मॉडल को पुनः प्रशिक्षित किए बिना या कमजोर हीयुरिस्टिक्स पर निर्भर किए बिना स्थानिक निष्ठा में सुधार करता है।

डेटा-चालित हानियों के साथ प्रसार को नियंत्रित करना सीखना

https://research.nvidia.com/publication/2025-11_data-driven-loss-functions-inference-time-optimization-text-image

NVIDIA का Learn-to-Steer फ्रेमवर्क एक नया दृष्टिकोण प्रस्तुत करता है: नियम थोपने के बजाय, उन्हें मॉडल के अपने संकेतों से सीखें[7]। मुख्य अंतर्दृष्टि यह है कि प्रसार मॉडल पहले से ही उत्पन्न करने के दौरान समृद्ध आंतरिक डेटा उत्पन्न करते हैं – विशेष रूप से क्रॉस-अटेंशन मैप्स के रूप में – जो स्थानिक संबंधों को समझने के लिए खनन किए जा सकते हैं। क्रॉस-अटेंशन मैप्स प्रसार डिनोइसिंग प्रक्रिया के प्रत्येक चरण में उत्पन्न होते हैं और मूल रूप से हमें यह बताते हैं कि किसी दिए गए शब्द को प्रोम्प्ट में कौन से इमेज क्षेत्र ध्यान दे रहे हैं[8]। दूसरे शब्दों में, वे पाठ्य टोकन (जैसे “कुत्ता”, “टेडी बियर”, “के दाईं ओर”) और छवि स्थानों के बीच एक पुल का निर्माण करते हैं[8]। पहले के कार्यों ने देखा कि ये अटेंशन मैप्स वस्तुओं को खोजने के लिए व्याख्या की जा सकती हैं, इसलिए उन्हें एक मार्गदर्शक के रूप में उपयोग करना स्वाभाविक है। परीक्षण-समय अनुकूलन विधियाँ अक्सर अपने स्थानिक नुकसानों के लिए लक्ष्य के रूप में क्रॉस-अटेंशन मैप्स का चयन करती हैं क्योंकि इस व्याख्यात्मकता और प्रत्यक्ष पाठ-छवि संरेखण के कारण[9]।

Learn-to-Steer (L2S) इस विचार पर आधारित है कि डेटा से एक उद्देश्य फ़ंक्शन सीखकर इसे हाथ से तैयार करने की बजाय। यह एक हल्का संबंध वर्गीकरणकर्ता प्रस्तुत करता है जो विसरण मॉडल के क्रॉस-अटेंशन पैटर्न से स्थानिक संबंधों को पहचानने के लिए ऑफ़लाइन प्रशिक्षित होता है[7]। अनुमान के दौरान, यह वर्गीकरणकर्ता एक सीखा हुआ हानि फ़ंक्शन के रूप में कार्य करता है: यह मूल्यांकन करता है कि उत्पन्न छवि (अब तक) संकेत के संबंध को सही ढंग से दर्शाती है या नहीं, और यदि नहीं, तो यह उत्पन्नीकरण को सही दिशा में ले जाता है[7]। मूलतः, NVIDIA की टीम ने विसरण मॉडल को अपने ध्यान मानचित्रों की आलोचना करना और तुरंत समायोजन करना सिखाया, बिना मॉडल के वज़न को बदले।

इस संबंध वर्गीकरण को प्रशिक्षित करना जितना लगता है उससे अधिक जटिल निकला। एक सीधा तरीका हो सकता है: ज्ञात संबंधों वाली छवियों का एक गुच्छा लें (जैसे कि छवियां जिसमें अंकन किया गया है कि "कुत्ता बिल्ली के बाईं ओर है"), प्रसार मॉडल की उलट प्रक्रिया का उपयोग करके "कुत्ता" और "बिल्ली" के लिए ध्यान मानचित्र प्राप्त करें, फिर वर्गीकरण को उन मानचित्रों के लिए "बाईं ओर" आउटपुट करने के लिए प्रशिक्षित करें। यह वास्तव में पर्यवेक्षण प्रदान करता है। हालांकि, एक अनपेक्षित समस्या सामने आई - जिसे लेखकों ने "संबंध रिसाव" समस्या[10][11] कहा। वर्गीकरण ने ध्यान मानचित्रों में संबंध के भाषाई संकेतों को पकड़कर धोखा देना शुरू कर दिया, बिना वास्तव में स्थानिक लेआउट को समझे। यह कैसे संभव है? जब आप सही वर्णनात्मक प्रॉम्प्ट का उपयोग करके एक छवि को उलटते हैं (मान लें "बिल्ली के बाईं ओर एक कुत्ता"), तो शब्द "बाईं" के बारे में सूक्ष्म संकेत मॉडल की आंतरिक सक्रियताओं में एन्कोड हो सकते हैं। वर्गीकरण फिर इन संकेतों पर निर्भर हो जाता है (प्रभावी रूप से ध्यान मानचित्र से प्रॉम्प्ट को पढ़ रहा है) बजाय "बाईं ओर" की दृश्य अवधारणा को सीखने के[10][12]। परिणाम: यह प्रशिक्षण डेटा पर अच्छा प्रदर्शन करता है लेकिन पीढ़ी के दौरान विफल हो जाता है, क्योंकि पीढ़ी में प्रॉम्प्ट का संबंध शब्द हमेशा छवि से मेल खाता है (यह पहचानने के लिए कुछ नहीं होता कि स्थानिक विन्यास सही है या नहीं यदि वर्गीकरण केवल प्रॉम्प्ट को दोहरा रहा है)।

इस समस्या को हल करने के लिए, Learn-to-Steer एक होशियार दोहरा-उलट प्रशिक्षण रणनीति का उपयोग करता है[13][14]। प्रत्येक प्रशिक्षण छवि के लिए, वे ध्यान मानचित्रों के दो संस्करण उत्पन्न करते हैं: एक सकारात्मक संकेत से जो स्थानिक संबंध को सही ढंग से वर्णित करता है (उदाहरण के लिए “एक बिल्ली के बाएं कुत्ता”) और एक नकारात्मक संकेत से जो जानबूझकर गलत संबंध का उपयोग करता है (उदाहरण के लिए “एक बिल्ली के ऊपर कुत्ता”)[15][16]। ध्यान मानचित्रों के दोनों सेट सही संबंध (“बाएं” इस उदाहरण में) के साथ लेबल होते हैं, वास्तविक छवि लेआउट के आधार पर। जब वर्गीकरणकर्ता को एक ही छवि संबंध को परस्पर विरोधी पाठ विवरणों के साथ दिखाया जाता है, तो इसे अविश्वसनीय भाषाई संकेत को नजरअंदाज करने और ध्यान मानचित्रों में वास्तविक ज्यामितीय पैटर्न पर ध्यान केंद्रित करने के लिए मजबूर किया जाता है[14]। यह सुनिश्चित करता है कि यह स्थिरता सीखता है: चाहे संकेत ने “बाएं” कहा हो या “ऊपर,” वर्गीकरणकर्ता को अभी भी स्थानिक साक्ष्य से यह पहचानना चाहिए कि कुत्ता वास्तव में बिल्ली के बाएं है। यह दोहरा-उलट दृष्टिकोण रिसाव समस्या को बेअसर करता है, एक वर्गीकरणकर्ता उत्पन्न करता है जो वास्तव में मॉडल की दृष्टि के अनुसार स्थानिक संबंधों को समझता है, न कि केवल पाठ संकेतों के माध्यम से[17]।

इस श्रेणीकार के लिए प्रशिक्षण डेटा का एक और महत्वपूर्ण पहलू है। टीम ने कई प्रकार के परिदृश्यों को कवर करने के लिए वास्तविक छवियों और सिंथेटिक छवियों दोनों से प्रेरणा ली[18]। वास्तविक छवियाँ (GQA नामक डेटा सेट से) प्राकृतिक जटिलता और विविध वस्तु व्यवस्थाएं प्रदान करती हैं, हालांकि भीड़भाड़ वाले दृश्यों में उनके ध्यान मानचित्र शोरयुक्त हो सकते हैं[18]। सिंथेटिक छवियाँ, एक नियंत्रित तरीके से उत्पन्न की गई (Image-Generation-CoT विधि का उपयोग करके), सरल दृश्यों के साथ स्पष्ट ध्यान पैटर्न प्रदान करती हैं, जो प्रसार जेनरेशन के दौरान देखे गए पैटर्न के समान होते हैं[18]। वास्तविक और सिंथेटिक डेटा के मिश्रण से श्रेणीकार को यथार्थता और स्पष्टता दोनों का लाभ मिलता है। एक अपकर्षण अध्ययन ने पुष्टि की कि दोनों डेटा स्रोतों का उपयोग अकेले किसी एक से बेहतर सटीकता प्रदान करता है[19]।

सीखी गई हानि कार्यों के साथ अनुमान-समय संचालन

एक बार संबंध वर्गीकर्ता प्रशिक्षित हो जाने के बाद, लर्न-टू-स्टीयर इसे प्रसार प्रक्रिया में प्लग करता है ताकि छवियों को उत्पन्न होने के दौरान संचालन किया जा सके। यह अनुमान (उत्पादन समय) के दौरान होता है और इसके लिए प्रसार मॉडल के भारों में कोई परिवर्तन आवश्यक नहीं होता है। यहाँ यह कैसे काम करता है:

जब किसी पाठ संकेत में एक स्थानिक संबंध शामिल होता है (उदाहरण के लिए, "एक टेडी बियर के दाईं ओर एक कुत्ता"), तो प्रणाली सबसे पहले संकेत को पार्स करती है ताकि विषय, वस्तु, और संबंध की पहचान की जा सके (इस मामले में, विषय: कुत्ता, संबंध: दाईं ओर, वस्तु: टेडी बियर)[20]। जैसे ही विसरण मॉडल यादृच्छिक गुप्त शोर को छवि में बदलने लगता है, लर्न-टू-स्टीयर कुछ समय चरणों पर हस्तक्षेप करता है। एक चुनी गई आवृत्ति पर (जैसे प्रत्येक चरण में या विसरण प्रक्रिया के पहले आधे में कुछ चरणों के बाद), यह प्रश्न में दो वस्तुओं के लिए पारस्परिक-ध्यान मानचित्रों को निकालता है[20]। ये अनिवार्य रूप से मॉडल की वर्तमान "मान्यता" हैं कि उभरती छवि में प्रत्येक वस्तु कहाँ हो सकती है। निकाले गए ध्यान मानचित्र प्रशिक्षित संबंध वर्गीकरणकर्ता में डाले जाते हैं, जो संभावित संबंधों (बाएं, दाएं, ऊपर, नीचे, आदि) पर एक संभाव्यता वितरण उत्पन्न करता है[20][21]। चूंकि हमें पता है कि संकेत से वांछित संबंध क्या है, प्रणाली एक हानि की गणना कर सकती है – उदाहरण के लिए, एक क्रॉस-एंट्रोपी हानि जो वर्गीकरणकर्ता को दंडित करती है यदि यह सही संबंध में आश्वस्त नहीं है[20][22]।

अब आता है स्टीयरिंग भाग: इस हानि का ग्रेडिएंट उस समय पर प्रसार मॉडल के लेटेंट प्रतिनिधित्व (शोरयुक्त छवि-प्रगति में) में बैकप्रोपेगेट किया जाता है[23]। व्यावहारिक रूप से, इसका अर्थ है लेटेंट वेरिएबल्स को उस दिशा में धकेलना जो वर्गीकरण के अनुसार सही संबंध की संभावना को बढ़ाना चाहिए। सहज रूप से, अगर वर्गीकरणकर्ता को लगता है कि वर्तमान आंशिक छवि में कुत्ता पर्याप्त रूप से टेडी बियर के दाईं ओर नहीं है, तो ग्रेडिएंट लेटेंट को इस तरह से स्थानांतरित करेगा कि कुत्ते की विशेषताएं दाईं ओर बढ़ें (या टेडी की बाईं ओर)। प्रसार प्रक्रिया फिर इस थोड़े समायोजित लेटेंट और शोर के साथ जारी रहती है। इन निर्देशित अद्यतनों को बार-बार लागू करके, उत्पादन को उस छवि की ओर "स्टीयर" किया जाता है जो स्थानिक निर्देशों के अनुरूप है बिना मॉडल को कभी भी स्पष्ट रूप से यह कहे कि प्रत्येक ऑब्जेक्ट को कहाँ खींचना है। यह ऐसा है जैसे मॉडल के पास एक कोच पेंटिंग के दौरान फुसफुसा रहा हो: “कुत्ते को थोड़ा और दाईं ओर ले जाओ।”

लर्न-टू-स्टीयर का एक रोमांचक पहलू यह है कि यह विभिन्न डिफ्यूजन आर्किटेक्चर पर काम करता है। लेखकों ने इसे स्टेबल डिफ्यूजन (एक लोकप्रिय UNet-आधारित मॉडल) और फ्लक्स (एक MMDiT-आधारित डिफ्यूजन मॉडल) पर न्यूनतम परिवर्तनों के साथ प्रदर्शित किया। यह दृष्टिकोण आर्किटेक्चर-अज्ञेयवादी है क्योंकि यह सामान्य संकेतों (ध्यान मानचित्र) और एक अलग वर्गीकरणकर्ता पर निर्भर करता है। इसका मतलब है कि भविष्य के या वैकल्पिक टेक्स्ट-टू-इमेज मॉडल को संभवतः उसी स्टीयरिंग तंत्र में "प्लग किया जा सकता है" उस मॉडल के ध्यान आउटपुट पर एक नया वर्गीकरणकर्ता प्रशिक्षण देकर। इसके अतिरिक्त, हालांकि प्रणाली को एकल-वस्तु-जोड़ी संबंधों पर प्रशिक्षित किया गया था, यह उन प्रम्प्ट्स को संभाल सकती है जो कई संबंधों को श्रृंखलाबद्ध करते हैं। उदाहरण के लिए, एक प्रम्प्ट पर विचार करें: "एक मेंढक एक जूते के ऊपर, एक चायदानी के नीचे।" इसमें तीन वस्तुओं के साथ दो संबंध होते हैं ("मेंढक जूते के ऊपर" और "जूता चायदानी के नीचे")। लर्न-टू-स्टीयर ऐसे मामलों को विभिन्न समय चरणों पर संबंधों के बीच अनुकूलन ध्यान केंद्रित करके संभालता है। यह एक चरण पर मेंढक-जूता संबंध के लिए लेटेंट को अनुकूलित करेगा, फिर अगले पर जूता-चायदानी संबंध के लिए, और इसी तरह राउंड-रॉबिन तरीके से। इस रणनीति का उपयोग करते हुए, विधि एक ही छवि में कई स्थानिक बाधाओं को लागू करने में सक्षम थी, जो स्थिर हानि कार्यों या सरल प्रम्प्टिंग से अक्सर प्राप्त नहीं होती हैं। (व्यवहार में, लेखकों ने पाया कि सरल श्रृंखलाबद्ध तरीके से एक बहु-संबंध प्रम्प्ट को वाक्यांशित करना - जैसे "एक मेंढक एक जूते के ऊपर, एक चायदानी के नीचे" - संयोजनों के साथ एक अधिक विस्तृत वाक्य की तुलना में बेहतर परिणाम देता है।)

स्थानिक मानकों पर मात्रात्मक लाभ

सीखने-से-संचालन (Learn-to-Steer) उत्पन्न छवियों में स्थानिक समझ को कितना सुधारता है? पेपर स्थानिक संबंधों के लिए मानक टेक्स्ट-टू-इमेज मूल्यांकन मानकों पर सटीकता में महत्वपूर्ण छलांगों की रिपोर्ट करता है। दो मानकों का उपयोग किया गया है: GenEval (जो जाँचता है कि उत्पन्न छवियां दिए गए संबंध संकेत को संतुष्ट करती हैं या नहीं) और T2I-CompBench (टेक्स्ट-टू-इमेज कम्पोजिशन बेंचमार्क, स्थानिक व्यवस्थाओं के लिए एक और परीक्षण)। टीम ने चार अलग-अलग प्रसार मॉडलों का मूल्यांकन किया - दो फ्लक्स वेरिएंट और स्थिर प्रसार 2.1 और 1.4 - साधारण पीढ़ा बनाम विभिन्न विधियों की तुलना की। परिणाम एक स्पष्ट कहानी बताते हैं: सीखे हुए संचालन उद्देश्यों ने बिना मार्गदर्शन वाले मॉडलों और पूर्ववर्ती विधियों दोनों को बड़े अंतर से पीछे छोड़ दिया[28]। कुछ मुख्य बातें:

स्थिर प्रसार 2.1 (SD2.1): GenEval पर स्थानिक सटीकता 0.07 (7%) से बढ़कर 0.54 हो गई जब Learn-to-Steer[29] का उपयोग किया गया। दूसरे शब्दों में, एक मॉडल जिसने स्थानिक कार्यों के लिए "मुश्किल से काम किया" को ऐसा बनाया गया जो आधे से अधिक समय सही हो[29]। T2I-CompBench मेट्रिक पर, SD2.1 0.089 से 0.365 तक गया, जो एक समान बड़ा सुधार दिखा रहा है[29]।
Flux 1.0-dev (MMDiT-आधारित): Learn-to-Steer के साथ GenEval पर सटीकता 0.20 से 0.61 तक बढ़ गई (20% से 61%), और एक संबंधित मेट्रिक 0.177 से 0.392 तक[30]। इससे एक हिट-या-मिस मॉडल को स्थानिक इनपुट के लिए विश्वसनीय रूप से सटीक बना दिया।
हैंडक्राफ़्टेड लॉसेस को मात देना: मैन्युअली डिज़ाइन किए गए लॉसेस पर निर्भर प्रतियोगी परीक्षण-समय विधियों ने सभी क्षेत्रों में कम स्कोर देखे। उदाहरण के लिए, एक पूर्व दृष्टिकोण जिसे STORM कहा जाता है, ने SD2.1 GenEval पर केवल 0.19 प्राप्त किया, जबकि Learn-to-Steer ने उसी परीक्षण पर 0.54 हिट किया[31]। एक अन्य बेसलाइन, FOR (फास्ट ऑप्टिमाइज़र फॉर रिस्टोरेशन) और इसका स्थानिक संस्करण, SD2.1 पर लगभग 0.26–0.35 तक पहुँच गया, फिर भी L2S के प्रदर्शन से काफी पीछे[32] । ये अंतर दिखाते हैं कि डेटा-संचालित सीखा हुआ नुकसान मानवों द्वारा एन्कोड किए गए अनुमानकारी नुकसान से अधिक प्रभावी है।
फ़ाइन-ट्यून किए गए मॉडल से मेल खाना: शायद सबसे प्रभावशाली बात यह है कि सीखा हुआ स्टियरिंग लगभग मेल खाता है या उन मॉडलों की सटीकता को पार कर जाता है जो स्थानिक संबंधों के लिए विशेष रूप से फ़ाइन-ट्यून किए गए थे। COMPASS विधि (जो डिफ्यूजन मॉडल को स्थानिक रूप से जागरूक डेटा और एक विशेष टोकन क्रम के साथ पुन: प्रशिक्षित करती है) Flux की बेंचमार्क पर 0.60 प्राप्त करती है[33]। Learn-to-Steer, बिना किसी मॉडल पुन: प्रशिक्षण के, 0.61 का स्कोर बनाता है – मूल रूप से बराबर[33]। यह दर्शाता है कि परीक्षण-समय अनुकूलन अत्याधुनिक निष्ठा प्राप्त कर सकता है जिससे पहले भारी मॉडल प्रशिक्षण की आवश्यकता होती थी। इसके अलावा, यह ऐसा करते समय आधार मॉडल की अन्य क्षमताओं को बरकरार रखता है (COMPASS, इसके विपरीत, स्थानिक कौशल में सुधार करता है लेकिन एक साइड इफेक्ट के रूप में रंग और गिनती सटीकता में गिरावट का कारण बनता है[34])।
एकाधिक संबंध सामान्यीकरण: भले ही संबंध वर्गीकरणकर्ता को केवल एकल संबंधों पर प्रशिक्षित किया गया था, Learn-to-Steer ने एकाधिक समकालिक संबंधों के साथ संकेतों को संभालने की क्षमता दिखाई। 3-5 वस्तुओं और एक संकेत में तीन संबंधों तक के साथ एक तनाव-परीक्षण में, केवल आधार मॉडल लगभग हमेशा विफल रहा (लगभग 0% सफलता)[35][36]। L2S सक्षम के साथ, मॉडल ने एक महत्वपूर्ण वृद्धि प्राप्त की – उदाहरण के लिए, तीन वस्तुओं के बीच दो संबंधों के साथ संकेतों पर लगभग 28% सटीकता, और चार या पाँच वस्तुओं के बीच तीन संबंधों के बहुत जटिल मामलों के लिए लगभग 10–12% सटीकता[37][38]। ये संख्याएं पूर्ण रूप में उच्च नहीं हैं, लेकिन वे बिना सहायता वाले मॉडल के लगभग शून्य से कई गुना बेहतर हैं, यह दर्शाते हुए कि विधि कुछ हद तक कई सीखे हुए उद्देश्यों को सम्मिलित कर सकती है। महत्वपूर्ण रूप से, प्रदर्शन धीरे-धीरे गिरता है जैसे ही अधिक संबंध जोड़े जाते हैं, बजाय इसके गिरने के – यह संकेत देते हुए कि प्रत्येक संबंध को इस दृष्टिकोण द्वारा कुछ हद तक स्वतंत्र रूप से संभाला जा सकता है[39]। यह संरचनात्मक सामान्यीकरण भविष्य में अधिक विस्तृत दृश्य विवरणों को निपटाने के लिए एक आशाजनक संकेत है।

उतनी ही महत्वपूर्ण हैं गुणात्मक परिणाम। पेपर के उदाहरण दिखाते हैं कि Learn-to-Steer के साथ, उत्पन्न छवियाँ प्रोम्प्ट में स्थानिक निर्देशों को ईमानदारी से प्रतिबिंबित करती हैं जबकि छवि की उच्च गुणवत्ता बनाए रखती हैं[40]। ऐसे परिदृश्यों में जहां वैनिला डिफ्यूजन या अन्य विधियाँ वस्तुओं को गलत तरीके से रखती हैं या कुछ इकाइयों को छोड़ देती हैं, L2S ऐसी छवियाँ उत्पन्न करता है जहां वस्तुएं सही ढंग से व्यवस्थित और सभी मौजूद होती हैं। यह असामान्य अनुरोधों को भी सहजता से संभालता है – जैसे यह "टूथब्रश के नीचे एक बस" या "सर्फ़बोर्ड के नीचे एक हाथी" को सही स्थानिक क्रम में बिना किसी अजीब मर्जिंग के प्रस्तुत कर सकता है जो अन्य विधियाँ उत्पन्न करती हैं[41]। NVIDIA टीम बताती है कि उनकी विधि तीन सामान्य विफलता मोड्स को पार करती है: यह वस्तु के गलत स्थान को ठीक करती है, इकाई उपेक्षा को रोकती है (प्रॉम्प्ट में हर वस्तु छवि में दिखाई देती है), और वस्तु संलयन से बचाती है (मॉडल द्वारा दो वस्तुओं को मिलाने से उत्पन्न होने वाले और कोई अजीब संकर नहीं होते हैं)[3]। साइड-बाय-साइड तुलना में, अन्य बेसलाइन्स एक दृश्य से एक फूलदान या ज़ेबरा को छोड़ सकते हैं या उन्हें उलझा सकते हैं, जबकि Learn-to-Steer के आउटपुट में सभी सही टुकड़े सही कॉन्फ़िगरेशन में शामिल होते हैं[3]। यह प्रोम्प्ट निष्ठा में सुधार – ठीक वही प्राप्त करना जो मांगा गया था, जहां मांगा गया था – जेनरेटिव AI आउटपुट की विश्वसनीयता के लिए एक बड़ा कदम है।

अनुमान-समय अनुकूलन: लागतें और समझौते

लर्न-टू-स्टीयर का दृष्टिकोण, जिसे इन्फरेंस के दौरान ऑप्टिमाइज़ किया जाता है, दोनों फायदे और विचार प्रस्तुत करता है। अच्छी बात यह है कि परीक्षण-समय अनुकूलन का मतलब है कि हमें मॉडल के वज़न के साथ छेड़छाड़ करने या स्थानिक कार्यों के लिए महंगा फाइन-ट्यूनिंग करने की ज़रूरत नहीं है[42]। वही प्रीट्रेन मॉडल केवल आवश्यकता होने पर ही लचीले ढंग से 'स्टीयर' किया जा सकता है - जब स्थानिक नियंत्रण की आवश्यकता नहीं होती है, तो इसकी मौलिक बहुमुखिता बनी रहती है[34]। यह उस प्रकार के समझौते से बचाता है जो फाइन-ट्यून मॉडल के साथ देखा जाता है, जो स्थानिक संबंधों के लिए अत्यधिक अनुकूलित हो सकते हैं, जिससे अन्य कौशल (जैसे रंग सटीकता या गिनती) पर असर पड़ सकता है[34]। NVIDIA के दृष्टिकोण में, यदि कोई प्रॉम्प्ट स्थानिक संबंध निर्दिष्ट नहीं करता है, तो किसी भी अतिरिक्त ओवरहेड के बिना डिफ्यूज़न मॉडल को सामान्य रूप से चलाया जा सकता है, मूल गति और आउटपुट विशेषताओं को बनाए रखते हुए। स्टीयरिंग केवल उन प्रॉम्प्ट के लिए सक्रिय होता है जो इसकी मांग करते हैं[43]।

हालांकि, इसका उल्टा यह है कि जब हम इस अनुमान-समय हानि को लागू करते हैं, तो यह एक गणनात्मक लागत के साथ आता है। इस प्रक्रिया के लिए जनरेशन के दौरान क्लासिफायर को चलाना और ग्रेडिएंट्स को कई बार बैकप्रोपेगेट करना आवश्यक होता है, जो इमेज सिंथेसिस को काफी धीमा कर सकता है। लेखकों ने मापा कि चीजें कितनी धीमी हो जाती हैं: छोटे Flux 1.0-schnell मॉडल के लिए, जनरेशन ~0.5 सेकंड प्रति इमेज से ~16.5 सेकंड के साथ Learn-to-Steer के साथ हो गया – लगभग 33× धीमा [44]। बड़े Flux 1.0-dev के लिए, 11 सेकंड 6 मिनट (~33× धीमा) हो गया। Stable Diffusion 2.1, जो आमतौर पर उनके हार्डवेयर पर प्रति इमेज लगभग 4.5 सेकंड लेता है, स्टियरिंग के साथ ~90 सेकंड तक पहुंच गया (~20× धीमा) [44]। SD1.4 ने भी इसी तरह की वृद्धि देखी (4.5 सेकंड से ~80 सेकंड) [44]। ये गैर-तुच्छ ओवरहेड हैं। ऐसे परिदृश्यों में जहां गति और स्केलेबिलिटी महत्वपूर्ण हैं (जैसे उच्च-थ्रूपुट इमेज जनरेशन या वास्तविक-समय के अनुप्रयोग), प्रत्येक इमेज पर टेस्ट-टाइम ऑप्टिमाइजेशन लागू करना अव्यवहारिक हो सकता है।

इसका समाधान करने के कुछ तरीके हैं। एक यह है कि कब और कैसे अनुकूलन लागू किया जाता है, उसे सीमित करें। उनके कार्यान्वयन में Learn-to-Steer केवल पहले आधे प्रसार चरणों के दौरान अनुकूलन करता है[23], जिसे उन्होंने छवि के लिए मार्ग निर्धारित करने के लिए पर्याप्त पाया। इसके अलावा, जैसा कि उल्लेख किया गया है, इसे चुनिंदा रूप से उपयोग किया जा सकता है: एक AI छवि सेवा सामान्य रूप से एक छवि उत्पन्न कर सकती है, और केवल यदि परिणाम स्थानिक रूप से गलत लगता है (या उपयोगकर्ता स्पष्ट रूप से एक सख्त स्थानिक लेआउट का अनुरोध करता है), तो यह L2S सक्षम के साथ एक दूसरी पास चलाएगा। एक और दृष्टिकोण दक्षता में सुधार करना है: चूंकि संबंध वर्गीकरणकर्ता काफी छोटा है और केवल कुछ ध्यान मानचित्र शामिल हैं, ओवरहेड मुख्य रूप से बड़े प्रसार मॉडल के माध्यम से कई चरणों के लिए बैकप्रोपेगेशन करने से आता है। भविष्य का शोध इसे बेहतर अनुकूलकों या आंशिक अपडेट के साथ तेज करने के तरीकों का पता लगा सकता है। फिर भी, वर्तमान में, यह विधि उन मामलों के लिए सबसे उपयुक्त है जहां गति की तुलना में सटीकता अधिक महत्वपूर्ण है – जैसे कि एक सटीक आरेख या डिजाइन के लिए दृश्य उत्पन्न करना, या छवियों के अपेक्षाकृत छोटे बैचों को संभालना जहां गुणवत्ता मात्रा से अधिक महत्वपूर्ण है।

Generality and robustness are another aspect of trade-offs. The Learn-to-Steer framework proved surprisingly general across model architectures (UNet vs MMDiT)[24], which suggests it could be applicable to other diffusion models or future systems with minimal adaptation. The requirement is that one can extract cross-attention or a similar alignment signal from the model. It also shows robustness in handling multiple relations and never-before-seen object combinations by virtue of how it was trained (focusing on generic attention patterns). However, it’s worth noting some limitations. The paper’s analysis points out that what counts as “above” or “below” is judged in 2D – by the image’s pixels and attention – which might not always align with true 3D spatial understanding[45]. For instance, if an object is in front of another in 3D space, from a certain camera angle it might appear below the other in the 2D image, confusing the spatial relation. Learn-to-Steer doesn’t explicitly model depth or real-world size relationships; it purely learns from visual attention overlays. So in complex scenes with perspective, it might enforce a relation that makes sense in the 2D projection but not in a truly physical sense [45]. Moreover, while the method can handle up to three relations, its accuracy drops as scenes get very crowded[46]. Generating a perfect scene with, say, five objects, all relative to each other is still an open challenge – sometimes the method succeeds, other times not[37]. These limitations highlight that there is room to improve, possibly by incorporating more sophisticated reasoning or multi-step planning for complex prompts.

व्यापक प्रभाव: प्रॉम्प्ट विश्वसनीयता और भविष्य के मॉडल डिज़ाइन

स्पatial fidelity में नाटकीय सुधार करके, NVIDIA का Learn-to-Steer अधिक भरोसेमंद मल्टीमॉडल सिस्टम की दिशा में एक महत्वपूर्ण कदम है। उपयोगकर्ताओं के लिए – चाहे वे कलाकार हों, डिज़ाइनर हों, या एंटरप्राइज़ डेवलपर्स हों – एक ऐसा टेक्स्ट-टू-इमेज मॉडल होना जो वास्तव में स्पatial निर्देशों का सम्मान करता है, कम निराशा और मैनुअल सुधार का मतलब है। यह हमें “जो आप प्रॉम्प्ट करते हैं वही आपको मिलता है” के करीब लाता है। यह fidelity सिर्फ सुंदर चित्रों के बारे में नहीं है; यह उपयोगकर्ता के इरादे के साथ AI के आउटपुट को एक नियंत्रित तरीके से संरेखित करने के बारे में है। एक अर्थ में, यह मल्टीमॉडल संरेखण को बढ़ाता है: पाठ्यात्मक रूप (भाषा में वर्णित संबंध) अधिक ईमानदारी से दृश्य रूप (उत्पन्न चित्र) में परिलक्षित होता है।[3] स्पatial रीजनिंग पर बेहतर संरेखण प्रॉम्प्ट के अन्य पहलुओं पर भी लागू हो सकता है, क्योंकि यह दृष्टिकोण दिखाता है कि यह विशिष्ट विफलता मोड (जैसे ऑब्जेक्ट प्लेसमेंट) को लक्षित करना संभव है बिना अन्य को बर्बाद किए (जैसे रंग, संख्या, या समग्र सुसंगति)।[34] यह एक प्रदर्शन है कि हम एक बड़े जनरेटिव मॉडल में डोमेन-विशिष्ट “कॉमन सेंस” को पोस्ट-हॉक इंजेक्ट कर सकते हैं, बजाय इसके कि हम उम्मीद करें कि एक बड़ा मॉडल बॉक्स से बाहर सब कुछ सही कर ले।

क्रॉस-अटेंशन मैप्स को एक शिक्षण संकेत के रूप में उपयोग करने की सफलता भविष्य के मॉडल डिज़ाइन और प्रशिक्षण व्यवस्थाओं को प्रभावित कर सकती है। एक निहितार्थ यह है कि भविष्य के डिफ्यूजन मॉडल ऐसे मॉड्यूल्स को शामिल कर सकते हैं जो आंतरिक रूप से कुछ बाधाओं की निगरानी या उन्हें लागू करते हैं। उदाहरण के लिए, अगली पीढ़ी का मॉडल एक सीखा हुआ लॉस (जैसे यह क्लासिफायर) अपने प्रशिक्षण का हिस्सा बना सकता है, केवल इन्फरेंस का नहीं। ऐसा मॉडल प्रभावी रूप से एक ट्यूटर के साथ प्रशिक्षित होगा जो इसे तब दंडित करेगा जब वह वस्तुओं को गलत तरीके से व्यवस्थित करता है, संभवतः अंत-से-अंत तक स्थानिक तर्क को आंतरिक कर देगा। इससे लंबी अवधि में परीक्षण-समय अनुकूलन की आवश्यकता कम हो सकती है। इस बीच, लर्न-टू-स्टेयर जैसी दृष्टिकोण एक बहुमुखी टूलकिट प्रदान करते हैं: वे मौजूदा मॉडलों के ऊपर एक पोस्ट-ट्रेनिंग स्पेशलाइजेशन के रूप में स्तरित किए जा सकते हैं। यह उद्यम उपयोग के मामलों के लिए आकर्षक है जहां कोई एक सामान्य पूर्व-प्रशिक्षित मॉडल ले सकता है और इसे एक विशेष आवश्यकता के लिए सुरक्षित रूप से अनुकूलित कर सकता है (जैसे हमेशा लेआउट निर्देशों का पालन करना) बिना अन्य कार्यों पर मॉडल की अखंडता के जोखिम के।

यहां डेटा-चालित लॉस डिज़ाइन के बारे में एक व्यापक संदेश भी है। लॉस फ़ंक्शन को हाथ से तैयार करना मूल रूप से यह अनुमान लगाना है कि मॉडल को कैसे व्यवहार करना चाहिए, जबकि एक लॉस फ़ंक्शन सीखने से मॉडल हमें बताता है कि क्या काम करता है। यहां, मॉडल के अपने ध्यान का परीक्षण करके, शोधकर्ताओं ने डेटा (उलटे चित्र और ध्यान मानचित्र) को सही उद्देश्य प्रकट करने दिया। इस सिद्धांत को अन्य जनरेटिव संरेखण समस्याओं पर लागू किया जा सकता है। हम विशेषता संगति सुनिश्चित करने के लिए समान “सीखे गए स्टीयरिंग” देख सकते हैं (जैसे कि “लाल घन” लाल निकले), गिनती (यह सुनिश्चित करना कि पाँच सेब के लिए एक प्रॉम्प्ट पाँच अलग-अलग सेब उत्पन्न करता है), या यहाँ तक कि कई चित्रों में शैली संगति। प्रत्येक में पीढ़ी के एक विशिष्ट पहलू को निर्देशित करने के लिए मॉडल के आंतरिक भागों पर एक छोटे नेटवर्क को प्रशिक्षित करना शामिल होगा।

अंततः, प्रॉम्प्ट इंजीनियरिंग कला से विज्ञान बनने की ओर अग्रसर हो सकती है, इन तकनीकों के कारण। हमारे पाठ प्रॉम्प्ट को इस तरह मोड़ने के बजाय कि मॉडल हमारी बात माने (“शायद अगर मैं कहूँ ‘टेडी बियर के दाएँ कोने पर एक कुत्ता’ तो यह सुनेगा…”), हम सीखे हुए नियंत्रकों पर निर्भर कर सकते हैं ताकि व्याख्या को लागू किया जा सके। यह उपयोगकर्ताओं को सीधे शब्दों में अपनी इच्छाएँ व्यक्त करने की स्वतंत्रता देता है और बाकी काम प्रणाली पर छोड़ देता है। कई हिस्सों वाले प्रॉम्प्ट या जटिल दृश्यों में, प्रत्येक संबंध या विवरण पर नियंत्रण बनाए रखने की क्षमता का होना मतलब है कि जेनरेटिव मॉडल को अधिक संरचनात्मक कार्यों के लिए प्रयोग किया जा सकता है – जैसे स्टोरीबोर्ड तैयार करना, उपयोगकर्ता इंटरफ़ेस लेआउट डिज़ाइन करना, या वैज्ञानिक आरेख बनाना – जहाँ स्थानिक सटीकता महत्वपूर्ण होती है।

सारांश में, NVIDIA के Learn-to-Steer पेपर ने मशीन लर्निंग और व्यावहारिक समस्या-समाधान का एक सूझबूझ भरा संतुलन प्रस्तुत किया है। एक मॉडल के अपने ज्ञान का उपयोग करते हुए (क्रॉस-अटेंशन के माध्यम से) और अनुमानों में एक सीखा हुआ उद्देश्य डालते हुए, यह स्थानिक अनुरोधों के लिए प्रॉम्प्ट निष्ठा के एक नए स्तर को प्राप्त करता है। यह दृष्टिकोण कंप्यूट लागत में समझौते के साथ आता है, लेकिन यह जनरेटिव मॉडलों के अत्यधिक लक्षित सुधारों के लिए दरवाजा खोलता है, बिना उन्हें शुरुआत से पुनः प्रशिक्षित किए। जैसे-जैसे डिफ्यूजन मॉडल एआई सामग्री निर्माण में अधिक केंद्रीय भूमिका निभा रहे हैं, इस प्रकार के समाधान यह सुनिश्चित करते हैं कि “छोटी-छोटी बातें” जैसे कि छवि में वस्तुएँ कहाँ हैं, इतनी आसानी से नजरअंदाज नहीं की जाएंगी। यह दिखाता है कि कैसे एक अतिरिक्त बुद्धिमत्ता – सीखे हुए लॉस फंक्शन के रूप में – एक विशाल जनरेटिव मॉडल को मानव इरादे के साथ संरेखण की और भी ऊँचाइयों तक ले जा सकता है[3][47]। आगे का रास्ता इन तंत्रों को सीधे मॉडल प्रशिक्षण में एकीकृत करने या उन्हें नए प्रकार के बाधाओं में विस्तार करने में शामिल हो सकता है, लेकिन एक बात स्पष्ट है: मॉडलों को स्वयं को कैसे संचालित करना सीखने देना एक शक्तिशाली विचार है जिसे भविष्य में और अधिक देखने की संभावना है।

[1] [4] [7] टेक्स्ट-टू-इमेज जनरेशन में इनफेरेंस-टाइम ऑप्टिमाइजेशन के लिए डेटा-ड्रिवन लॉस फंक्शंस

https://learn-to-steer-paper.github.io/

डेटा-संचालित हानि कार्य इन्फरेंस-समय अनुकूलन के लिए पाठ-से-छवि पीढ़ी में

https://arxiv.org/html/2509.02295v1