Learn-to-Steer: Solusyon ng NVIDIA na Batay sa Datos para sa Pagsusuri ng Espasyo sa Text-to-Image Diffusion

May-akda: Boxu Li

Ang mga text-to-image diffusion model ay makakalikha ng mga kahanga-hangang biswal, ngunit may kilalang kahinaan: spatial na pag-unawa. Kadalasan, ang mga pinakamahusay na modelo ngayon ay nagkakamali sa paglalagay ng mga bagay sa eksena o pinaghahalo ang mga ito ng kakaiba kapag hinihingi ng mga tiyak na layout. Halimbawa, ang isang prompt na “isang aso sa kanan ng teddy bear” ay maaaring makalito sa isang modelo – maaring ilagay nito ang aso sa kaliwa o kahit pagsamahin ang aso at teddy bear. Ang mga ito ay mga gawain na madali para sa isang batang bata, ngunit madalas na nabibigo ang mga diffusion model dito[1]. Lalo pang lumalala ang problema sa mga hindi pangkaraniwang kombinasyon (imagine isang giraffe na nakatayo sa ibabaw ng eroplano)[1]. Ang tradisyonal na mga solusyon ay kinabibilangan ng fine-tuning ng mga modelo sa espesyal na data o pagdaragdag ng mga handcrafted na spatial losses sa oras ng pagbuo, ngunit parehong may mga kakulangan[1]. Ang fine-tuning ay nangangailangan ng mahal na retraining at pinanganib ang pagbabago sa pagiging malikhain o estilo ng modelo. Ang mga handcrafted losses, sa kabilang banda, ay nag-eencode ng ating sariling di-perpektong mga palagay tungkol sa spatial na relasyon, na madalas nagreresulta sa hindi optimal na mga resulta.

Ipasok ang Learn-to-Steer, ang bagong diskarte ng NVIDIA (na ipapakita sa WACV 2026) na tumutugon sa spatial reasoning sa pamamagitan ng pag-aaral direkta mula sa mismong modelo. Sa halip na i-hard-code kung saan dapat pumunta ang mga bagay, ang ideya ay turuan ang modelo kung paano gabayan ang sarili nito sa panahon ng pagbuo ng imahe gamit ang mga data-driven loss functions. Sa blog post na ito, susuriin natin ang mga hamon ng spatial reasoning sa diffusion models at kung paano gumagana ang Learn-to-Steer method ng NVIDIA sa ilalim ng hood. Tatalakayin natin ang arkitektura nito – kasama kung paano nito ginagamit ang cross-attention maps at isang natutunang classifier sa inference – at susuriin ang mga nakuha sa benchmarks. Magiging kritikal din nating susuriin ang mga trade-offs ng pag-optimize sa oras ng inference (tulad ng compute cost at generalizability) at isasaalang-alang ang mas malawak na implikasyon para sa prompt fidelity, multimodal alignment, at ang hinaharap ng disenyo ng generative model.

Spatial Reasoning: Ang Nawawalang Piraso sa Diffusion Models

Ang mga modernong diffusion models tulad ng Stable Diffusion ay kayang magpinta ng photorealistic o fantastical na mga eksena na may kahanga-hangang detalye. Gayunpaman, kapag humiling ka ng isang simpleng spatial na ayos, maaari kang madismaya. Ang spatial reasoning – ang pag-unawa at paggawa ng tamang relative positions (kaliwa/kanan, itaas/ibaba, loob/labas) – ay nananatiling isang hadlang. Ang mga prompt na nagsasaad ng relasyon ng mga bagay ay madalas na nagreresulta sa mga larawan na hindi naaayon sa hinihiling. Halimbawa, ang prompt na “isang pusa sa ibabaw ng isang bookshelf” ay maaaring magresulta sa isang pusa na katabi ng bookshelf o isang surreal na pusa-bookshelf hybrid. Bakit ito nangyayari?

Isa sa mga dahilan ay ang mga diffusion model ay natututo mula sa napakalalaking image-text dataset kung saan ang mga tiyak na spatial na relasyon ay bihira o malabo. Mahusay sila sa istilo at katapatan sa bagay, ngunit maaaring hindi malakas ang pagsasanay na data sa pagpapatupad ng kung saan dapat lumitaw ang bawat bagay na may kaugnayan sa iba. Bilang resulta, ang internal na representasyon ng model sa mga spatial na termino (“sa itaas ng”, “sa kanan ng”) ay mahina. Kamakailang mga benchmark ay nagkukumpirma na kahit na ang mga pinakabago na text-to-image na modelo ay nahihirapan sa mga gawaing spatial na may kinalaman sa mga simpleng geometric na relasyon. Ang mga pagkabigong ito ay lumilitaw bilang tatlong pangunahing isyu: maling pagkakalagay ng bagay, nawawalang mga bagay na nasa prompt, o pinagsamang, chimeric na mga bagay kapag sinubukan ng modelo na pagsamahin ang dalawang bagay. Sa madaling salita, madalas na alam ng modelo ano ang hiniling mo, ngunit hindi saan ito ilalagay.

Sinubukan ng mga umiiral na pamamaraan na tugunan ang puwang na ito. Ang ilang mga mananaliksik ay nag-aayos ng mga diffusion models sa mga larawan na may kilalang mga layout o ugnayan, na epektibong nire-retrain ang modelo upang maging spatially aware. Ang iba ay gumagamit ng test-time interventions: halimbawa, paggabay sa pagbuo gamit ang mga karagdagang loss terms na nagpaparusa sa overlap o nagrereward ng tamang pagkakasunod-sunod ng mga bagay. Gayunpaman, ang manu-manong pagdidisenyo ng mga ganitong loss functions ay mahirap - nangangailangan ito ng paghula kung paano sukatin ang "kaliwa ng" o "itaas ng" gamit ang panloob na data ng modelo. Ang mga handcrafted losses na ito ay maaaring gumana para sa mga simpleng kaso ngunit maaaring mag-encode ng hindi perpektong heuristics, na nagkakamali sa mas kumplikadong mga eksena. Samantala, ang fine-tuning ay makakamit ng magandang spatial accuracy (halimbawa, ang COMPASS method ay nire-retrain ang isang modelo gamit ang spatially aligned na data) ngunit ito ay nangangailangan ng maraming resources at maaaring hindi sinasadyang makasira sa iba pang kalidad ng larawan (sa isang kaso, ang color accuracy at pagbilang ng bagay ay lumala pagkatapos ng fine-tuning para sa mga spatial relations). May pangangailangan para sa isang solusyon na nagpapabuti ng spatial fidelity nang hindi nire-retrain ang buong modelo o umaasa sa marupok na heuristics.

Pag-aaral sa Pagmamaniobra ng Diffusion gamit ang Data-Driven Losses

https://research.nvidia.com/publication/2025-11_data-driven-loss-functions-inference-time-optimization-text-image

Ang Learn-to-Steer framework ng NVIDIA ay nag-aalok ng bagong pananaw: sa halip na magpataw ng mga tuntunin, matutunan ang mga ito mula sa sariling signal ng modelo[7]. Ang pangunahing pananaw ay ang diffusion models ay naglalabas na ng mayamang internal na data sa panahon ng pagbuo – partikular sa anyo ng cross-attention maps – na maaaring minahin upang maunawaan ang mga spatial na relasyon. Ang cross-attention maps ay nabubuo sa bawat hakbang ng diffusion denoising process at karaniwang nagsasabi sa atin kung aling mga bahagi ng imahe ang nakatuon sa isang partikular na salita sa prompt[8]. Sa ibang salita, sila ay bumubuo ng tulay sa pagitan ng mga tekstwal na token (tulad ng “aso”, “teddy bear”, “sa kanan ng”) at mga lokasyon ng imahe[8]. Ang mga naunang pag-aaral ay napansin na ang mga attention map na ito ay maaaring interpretahin upang mahanap ang mga bagay, kaya't natural na gamitin sila bilang gabay. Ang mga test-time optimization methods ay kadalasang pumipili ng cross-attention maps bilang target para sa kanilang spatial losses dahil sa interpretabilidad at direktang pagkakahanay ng teksto at imahe[9].

Ang Learn-to-Steer (L2S) ay nagtatayo sa ideyang ito sa pamamagitan ng pag-aaral ng isang objective function mula sa datos sa halip na mano-manong lumikha nito. Nagpapakilala ito ng isang magaan na relation classifier na sinasanay offline upang makilala ang mga ugnayang spatial mula sa mga pattern ng cross-attention ng diffusion model[7]. Sa panahon ng inference, ang classifier na ito ay gumaganap bilang isang natutunang loss function: tinatasa nito kung ang nabuo na imahe (sa ngayon) ay tama ang pagpapakita sa ugnayan ng prompt, at kung hindi, ito ay nagtutuwid sa direksyon ng pagbuo[7]. Sa esensya, tinuruan ng koponan ng NVIDIA ang diffusion model na pintasan ang sariling mga attention maps at ayusin ito ng naaayon, lahat habang nagaganap nang hindi binabago ang mga timbang ng modelo.

Ang pagsasanay ng tagaklasipikang ito ng relasyon ay lumabas na mas masalimuot kaysa sa tunog nito. Isang diretso na paraan ay maaaring: kumuha ng isang bungkos ng mga larawan na may kilalang mga relasyon (halimbawa, mga larawan na may anotasyon na “ang aso ay nasa kaliwa ng pusa”), patakbuhin ang proseso ng inversion ng modelo ng diffusion upang makuha ang mga mapa ng atensyon para sa “aso” at “pusa”, pagkatapos ay sanayin ang tagaklasipika na mag-output ng “kaliwa-ng” para sa mga mapang iyon. Ito nga ay nagbibigay ng gabay. Gayunpaman, isang hindi inaasahang hadlang ang lumitaw – isang bagay na tinatawag ng mga may-akda na “problema sa pagtagas ng relasyon”[10][11]. Ang tagaklasipika ay nagsimulang mandaya sa pamamagitan ng pagkuha sa linggwistikong bakas ng relasyon sa mga mapa ng atensyon, sa halip na tunay na maunawaan ang spatial na layout. Paano iyon posible? Lumalabas na kapag in-invert mo ang isang imahe gamit ang tamang deskriptibong prompt (sabihin nating “isang aso sa kaliwa ng isang pusa”), ang mga banayad na pahiwatig tungkol sa salitang “kaliwa” ay maaaring ma-encode sa mga internal na aktibasyon ng modelo. Ang tagaklasipika ay kumakapit sa mga pahiwatig na ito (epektibong binabasa muli ang prompt mula sa mapa ng atensyon) sa halip na matutunan ang visual na konsepto ng “kaliwa ng”[10][12]. Ang resulta: mahusay itong gumaganap sa data ng pagsasanay ngunit pumapalya sa panahon ng pagbuo, dahil sa pagbuo ang salitang relasyon ng prompt ay palaging tumutugma sa larawan (walang anumang makapagsasaad kung tama ang spatial na pag-aayos o hindi kung ang tagaklasipika ay inuulit lang ang prompt).

Upang malutas ito, gumagamit ang Learn-to-Steer ng matalinong dual-inversion training strategy[13][14]. Para sa bawat training image, gumagawa sila ng dalawang bersyon ng mga attention map: isa mula sa isang positibong prompt na tama ang paglalarawan ng spatial na relasyon (hal. “Isang aso sa kaliwa ng pusa”) at isa mula sa negatibong prompt na sadyang gumagamit ng maling relasyon (hal. “Isang aso sa itaas ng pusa”)[15][16]. Ang parehong set ng mga attention map ay nilagyan ng label na may tunay na relasyon (“kaliwa ng” sa halimbawang ito), batay sa aktwal na layout ng larawan. Sa pamamagitan ng pagtitingin sa parehong relasyon ng imahe na may magkasalungat na paglalarawang tekstwal, ang classifier ay napipilitang huwag pansinin ang hindi maasahang pahiwatig na lingguwistiko at magtuon sa tunay na geometric pattern sa mga attention map[14]. Tinitiyak nito na natututo ito ng invariance: kahit sinabi ng prompt na “kaliwa” o “itaas,” dapat pa ring matukoy ng classifier na ang aso ay talagang nasa kaliwa ng pusa mula sa ebidensyang spatial lamang. Ang dual-inversion approach na ito ay nagneutralisa sa problema ng leakage, nagbubunga ng classifier na tunay na nakakaunawa ng mga spatial na relasyon batay sa bisyon ng modelo, hindi lang sa mga text prompts[17].

Isa pang mahalagang aspeto ay ang training data para sa classifier na ito. Ang koponan ay gumamit mula sa parehong tunay na mga imahe at synthetic na mga imahe upang masakop ang malawak na hanay ng mga senaryo[18]. Ang mga tunay na imahe (mula sa dataset na tinatawag na GQA) ay nagbibigay ng natural na kumplikado at iba't ibang pagkakaayos ng mga bagay, bagaman maaaring maging maingay ang kanilang mga mapa ng atensyon kapag masikip ang mga eksena[18]. Ang mga synthetic na imahe, na nalikha sa isang kontroladong paraan (gamit ang Image-Generation-CoT na pamamaraan), ay nag-aalok ng mas simpleng mga eksena na may mas malinaw na mga pattern ng atensyon na mas katulad ng mga nakatagpo sa panahon ng diffusion generation[18]. Sa pamamagitan ng pagsasama ng tunay at synthetic na data, nakikinabang ang classifier mula sa parehong realism at kalinawan. Kinumpirma ng isang ablation study na ang paggamit ng parehong pinagkukunan ng data ay humantong sa mas mahusay na katumpakan kaysa alinman sa nag-iisa[19].

Pagmamaniobra sa Panahon ng Inference gamit ang Natutunang Mga Pagkawala ng Function

Kapag nasanay na ang relation classifier, isinasama ng Learn-to-Steer ito sa proseso ng pagkalat upang imaniobra ang mga larawan habang ito ay nabubuo. Nangyayari ito sa panahon ng inference (oras ng pagbuo) at hindi nangangailangan ng anumang pagbabago sa mga timbang ng modelo ng pagkalat. Narito kung paano ito gumagana:

Kapag binigyan ng isang text prompt na may kasamang spatial na relasyon (halimbawa, “isang aso sa kanan ng teddy bear”), unang ini-parse ng sistema ang prompt upang tukuyin ang paksa, bagay, at relasyon (sa kasong ito, paksa: aso, relasyon: sa kanan ng, bagay: teddy bear)[20]. Habang nagsisimula ang diffusion model na alisin ang random na latent noise sa isang imahe, ang Learn-to-Steer ay nakikialam sa ilang mga timestep. Sa napiling dalas (halimbawa, sa bawat hakbang o bawat ilang hakbang sa unang kalahati ng diffusion process), inu-extract nito ang cross-attention maps na tumutukoy sa dalawang bagay na pinag-uusapan[20]. Ang mga ito ay mahalagang kasalukuyang “paniniwala” ng modelo tungkol sa kung saan maaaring naroon ang bawat bagay sa lumilitaw na imahe. Ang na-extract na attention maps ay ipinapasok sa sinanay na relation classifier, na bumubuo ng isang probability distribution sa mga posibleng relasyon (kaliwa-ng, kanan-ng, ibabaw, ilalim, atbp.)[20][21]. Dahil alam natin kung ano ang nais na relasyon mula sa prompt, maaaring kalkulahin ng sistema ang isang loss – halimbawa, isang cross-entropy loss na nagpaparusa sa classifier kung hindi ito tiwala sa tamang relasyon[20][22].

Ngayon ay dumating na ang bahagi ng pagmamaneho: ang gradient ng pagkalugi na ito ay isinasagawa pabalik sa latent na representasyon ng diffusion model (ang maingay na imahe sa proseso) sa oras na iyon [23]. Sa praktika, ibig sabihin ito ay pag-uudyok sa mga latent na variable sa direksyon na dapat magpataas ng posibilidad ng tamang relasyon ayon sa classifier. Sa madaling salita, kung sa palagay ng classifier ang aso ay hindi sapat na nasa kanan ng teddy bear sa kasalukuyang bahagi ng imahe, babaguhin ng gradient ang latent sa paraang ililipat ang mga katangian ng aso pakakanan (o ang teddy pakaliwa). Pagkatapos ay nagpapatuloy ang proseso ng diffusion sa bahagyang nabagong latent at ingay. Sa pamamagitan ng paulit-ulit na paggamit ng mga pinapatnubayang pag-update na ito, ang paglikha ay “pinapatnubayan” patungo sa isang imahe na sumusunod sa mga tagubilin sa espasyo nang hindi kailanman tahasang sinasabi sa modelo kung saan iguguhit ang bawat bagay. Para bang may coach ang modelo na nagbubulong habang nagpipinta: “ililipat ang aso ng kaunti pa sa kanan.”

Isang kapana-panabik na aspeto ng Learn-to-Steer ay gumagana ito sa iba't ibang diffusion architectures. Ipinakita ito ng mga may-akda sa parehong Stable Diffusion (isang sikat na UNet-based model) at Flux (isang MMDiT-based diffusion model), na may kaunting pagbabago[24]. Ang pamamaraan ay architecture-agnostic dahil umaasa ito sa generic signals (attention maps) at isang hiwalay na classifier. Ibig sabihin, ang mga hinaharap o alternatibong text-to-image models ay posibleng ma-“plug in” sa parehong steering mechanism sa pamamagitan ng pagsasanay ng bagong classifier sa attention outputs ng modelong iyon. Bukod dito, kahit na ang sistema ay sinanay sa mga single-object-pair na relasyon, kaya nitong hawakan ang mga prompt na may mga kadena ng maraming relasyon. Halimbawa, isaalang-alang ang isang prompt: “isang palaka sa itaas ng isang sneaker sa ilalim ng isang teapot.” Ito ay may dalawang relasyon (“palaka sa itaas ng sneaker” at “sneaker sa ilalim ng teapot”) na may kasamang tatlong bagay. Ang Learn-to-Steer ay tinutugunan ang mga ganitong kaso sa pamamagitan ng alternating the optimization focus sa pagitan ng mga relasyon sa iba't ibang timesteps[25][26]. I-o-optimize nito ang latent para sa relasyon ng palaka-sneaker sa isang hakbang, pagkatapos ang relasyon ng sneaker-teapot sa susunod, at iba pa sa isang round-robin na paraan. Sa paggamit ng estratehiyang ito, nagawa ng pamamaraan na ipatupad ang maraming spatial constraints sa isang imahe, isang bagay na madalas na nabibigo makamit ng mga static loss functions o simpleng prompting. (Sa praktika, natuklasan ng mga may-akda na ang pagbuo ng multi-relation prompt sa isang simpleng chained na paraan – halimbawa, “Isang palaka sa itaas ng isang sneaker sa ilalim ng isang teapot” – ay nagbigay ng mas mahusay na resulta kaysa sa mas mahaba at masalimuot na pangungusap na may mga conjunctions[27].)

Mga Dami ng Pag-unlad sa Spatial Benchmarks

Gaano kalaki ang pagpapabuti ng Learn-to-Steer sa spatial na pag-unawa sa mga nalikhang imahe? Ang papel ay nag-uulat ng malaking pag-unlad sa katumpakan sa mga karaniwang text-to-image na pagsusuri para sa mga spatial na relasyon. Dalawang benchmarks ang ginamit: GenEval (na sinusuri kung ang mga nalikhang imahe ay tumutugma sa ibinigay na prompt ng relasyon) at T2I-CompBench (Text-to-Image Composition Benchmark, isa pang pagsusuri para sa mga spatial na kaayusan). Sinuri ng koponan ang apat na iba't ibang diffusion models – dalawang Flux na variant at Stable Diffusion 2.1 at 1.4 – kumpara sa karaniwang paglikha laban sa iba't ibang mga pamamaraan. Ang mga resulta ay nagsasabi ng malinaw na kwento: ang mga natutunang steering objectives ay mas mahusay kaysa sa parehong mga hindi gabay na modelo at mga naunang pamamaraan sa isang malawak na saklaw[28]. Ilang mga tampok:

  • Stable Diffusion 2.1 (SD2.1): Ang spatial na katumpakan sa GenEval ay tumaas mula 0.07 (7%) hanggang 0.54 gamit ang Learn-to-Steer[29]. Sa madaling salita, ang isang modelong “halos hindi gumagana” para sa mga spatial na gawain ay naging isa na tama ang ginagawa nang higit sa kalahati ng oras[29]. Sa T2I-CompBench metric, ang SD2.1 ay umakyat mula 0.089 hanggang 0.365, na nagpapakita ng kaparehong malaking pag-unlad[29].
  • Flux 1.0-dev (MMDiT-based): Ang katumpakan ay tumaas mula 0.20 hanggang 0.61 sa GenEval (20% hanggang 61%) gamit ang Learn-to-Steer, at isang kaugnay na metric mula 0.177 hanggang 0.392[30]. Ito ay epektibong ginawang mula sa hindi tiyak na modelo patungo sa maaasahang tamang modelo para sa spatial inputs.
  • Outperforming Handcrafted Losses: Ang mga kumpetisyong test-time na pamamaraan na umaasa sa manu-manong idinisenyong losses ay nakakita ng mas mababang marka. Halimbawa, isang naunang pamamaraan na tinatawag na STORM ay nakamit lamang 0.19 sa SD2.1 GenEval, samantalang ang Learn-to-Steer ay umabot ng 0.54 sa parehong pagsubok[31]. Isa pang baseline, ang FOR (Fast Optimizer for Restoration) at ang spatial na bersyon nito, ay umabot ng humigit-kumulang 0.26–0.35 sa SD2.1, na malayo pa rin sa pagganap ng L2S[32]. Ang mga puwang na ito ay naglalarawan na ang data-driven learned loss ay mas epektibo kaysa sa mga hulang losses na ginawa ng tao.
  • Matching Fine-Tuned Models: Marahil ang pinaka-kahanga-hanga, ang learned steering ay halos katumbas o lumalampas sa katumpakan ng mga modelong partikular na fine-tuned para sa spatial na relasyon. Ang COMPASS na pamamaraan (na muling nagsasanay ng diffusion model gamit ang spatially aware data at isang espesyal na pagkakasunod-sunod ng token) ay nakamit ang 0.60 sa benchmark ng Flux[33]. Ang Learn-to-Steer, nang walang anumang retraining ng modelo, ay nakakuha ng 0.61 – talagang pantay na antas[33]. Ipinapakita nito na ang test-time optimization ay maaaring makamit ang state-of-the-art fidelity na dati ay nangangailangan ng mabigat na pagsasanay sa modelo. Bukod pa rito, ginawa ito habang pinapanatili ang iba pang kakayahan ng base model (ang COMPASS, sa kabaligtaran, ay nagpaunlad ng spatial na kakayahan ngunit nagdulot ng pagbaba sa katumpakan ng kulay at bilang bilang isang side effect[34]).
  • Multiple Relations Generalization: Kahit na ang relation classifier ay sinanay lamang sa mga solong relasyon, ang Learn-to-Steer ay nagpakita ng kakayahang humawak ng mga prompt na may maramihang sabay-sabay na relasyon. Sa isang stress-test na may 3–5 na bagay at hanggang tatlong relasyon sa isang prompt, ang base model lamang ay halos palaging nabigo (halos 0% na tagumpay)[35][36]. Sa pag-enable ng L2S, ang modelo ay nagawa ang isang mahalagang pagtaas – halimbawa, mga 28% katumpakan sa mga prompt na may dalawang relasyon sa tatlong bagay, at humigit-kumulang 10–12% katumpakan para sa napaka-komplikadong mga kaso ng tatlong relasyon sa apat o limang bagay[37][38]. Ang mga numerong ito ay hindi mataas sa ganap na mga termino, ngunit sila ay orders of magnitude na mas mahusay kaysa sa halos zero ng walang tulong na modelo, na nagpapahiwatig na ang pamamaraan ay maaaring mag-compose ng maramihang natutunang layunin sa ilang antas. Mahalaga, ang pagganap ay bumababa nang maayos habang nadaragdagan ang mga relasyon, sa halip na bumagsak – nagpapahiwatig na ang bawat relasyon ay maaaring hawakan nang medyo independiyente ng pamamaraan[39]. Ang compositional generalization na ito ay isang nakapupukaw na palatandaan para sa pagtugon sa mas masalimuot na mga paglalarawan ng eksena sa hinaharap.

Pantay na kapansin-pansin ang mga kwalitatibong resulta. Ang mga halimbawa ng papel ay nagpapakita na sa Learn-to-Steer, ang mga nabubuong imahe ay tapat na sumasalamin sa mga spatial na tagubilin sa prompt habang pinananatili ang mataas na kalidad ng imahe[40]. Sa mga sitwasyon kung saan ang karaniwang diffusion o iba pang mga paraan ay maglalagay ng mga bagay nang mali o hindi isasama ang ilang mga entidad, ang L2S ay gumagawa ng mga imahe kung saan ang mga bagay ay tamang nakaayos at lahat ay naroroon. Mahusay din itong humahawak ng mga hindi karaniwang kahilingan – halimbawa, maaari nitong i-render ang “isang bus sa ilalim ng toothbrush” o “isang elepante sa ilalim ng surfboard” na may tamang spatial na pagkakaayos at walang kakaibang pagsasanib na ginagawa ng ibang mga paraan[41]. Itinuro ng team ng NVIDIA na ang kanilang paraan ay nalalampasan ang tatlong karaniwang mode ng pagkabigo: inaayos nito ang maling pagkakalagay ng bagay, pinipigilan ang entity neglect (lahat ng bagay sa prompt ay lumalabas sa imahe), at iniiwasan ang object fusion (wala nang surreal hybrids na dulot ng paghalu-halo ng modelo sa dalawang bagay)[3]. Sa mga paghahambing na magkatabi, maaaring hindi isama ng iba pang mga baseline ang isang vase o zebra mula sa isang eksena o paghaluin ang mga ito, samantalang ang mga output ng Learn-to-Steer ay naglalaman ng lahat ng tamang piraso sa tamang ayos[3]. Ang pagtaas na ito sa prompt fidelity – makuha ang eksaktong hiniling, kung saan ito hiniling – ay isang malaking hakbang pasulong para sa pagiging maaasahan ng mga output ng generative AI.

Pag-optimize ng Oras ng Pagdedesisyon: Mga Gastos at Pagsusuri ng Palitan

Ang pamamaraan ng Learn-to-Steer sa pag-optimize habang nasa inference ay nagdadala ng parehong mga bentahe at konsiderasyon. Sa positibong panig, ang test-time optimization ay nangangahulugang hindi natin kailangang pakialaman ang mga timbang ng modelo o magsagawa ng magastos na fine-tuning para sa mga spatial na gawain[42]. Ang parehong pretrained na modelo ay maaaring maging flexible na "steered" lamang kapag kinakailangan – pinapanatili ang orihinal nitong versatility kapag hindi kinakailangan ang spatial control[34]. Iniiwasan nito ang uri ng trade-off na nakikita sa mga fine-tuned na modelo na maaaring mag-overfit sa mga spatial na relasyon sa kapinsalaan ng iba pang mga kakayahan (tulad ng katumpakan ng kulay o pagbibilang)[34]. Sa pamamaraan ng NVIDIA, kung ang isang prompt ay hindi tumutukoy ng mga spatial na relasyon, maaaring patakbuhin ang diffusion model ng normal na walang karagdagang overhead, pinapanatili ang orihinal na bilis at mga katangian ng output. Ang steering ay pumapasok lamang para sa mga prompt na nangangailangan nito[43].

Gayunpaman, ang kabaligtaran nito ay kapag ginagamit natin ang inference-time loss na ito, may kasama itong gastos sa computation. Ang proseso ay nangangailangan ng pagtakbo ng classifier at pag-backpropagate ng mga gradient nang maraming beses sa panahon ng pagbuo, na maaaring makapagpabagal nang malaki sa image synthesis. Sinukat ng mga may-akda kung gaano ito bumabagal: para sa mas maliit na modelo ng Flux 1.0-schnell, ang pagbuo ay mula ~0.5 segundo bawat imahe hanggang ~16.5 segundo gamit ang Learn-to-Steer – humigit-kumulang 33× na pagbagal[44]. Para sa mas malaking Flux 1.0-dev, 11 segundo ay naging 6 minuto (~33× na mas mabagal). Ang Stable Diffusion 2.1, na karaniwang tumatagal ng humigit-kumulang 4.5 segundo bawat imahe sa kanilang hardware, ay umabot sa ~90 segundo sa pamamagitan ng steering (~20× na mas mabagal)[44]. Ang SD1.4 ay nakakita ng katulad na pagtaas (4.5s hanggang ~80s)[44]. Ang mga ito ay hindi maliit na overheads. Sa mga sitwasyon kung saan ang bilis at scalability ay mahalaga (hal. mataas na throughput ng pagbuo ng imahe o mga real-time na aplikasyon), ang paglalapat ng test-time optimization sa bawat solong imahe ay maaaring hindi praktikal.

May ilang paraan upang mabawasan ito. Isa ay ang paglilimita sa kailan at paano ang pag-optimize ay ina-apply. Ang Learn-to-Steer ay nag-o-optimize lamang sa unang kalahati ng diffusion steps sa kanilang implementasyon[23], na natuklasan nilang sapat upang itakda ang direksyon para sa imahe. Bukod pa rito, tulad ng nabanggit, maaari itong gamitin nang pili: ang isang AI image service ay maaaring bumuo ng imahe nang normal, at kung ang resulta ay mukhang spatially off (o ang gumagamit ay hayagang humiling ng mahigpit na spatial layout) ay saka lamang ito magsasagawa ng ikalawang pagdaan na may L2S na nakabukas. Isa pang anggulo ay ang pagpapabuti ng kahusayan: dahil ang relation classifier ay medyo maliit at kakaunting attention maps lamang ang kasangkot, ang overhead ay pangunahing nagmumula sa pag-gawa ng backpropagation sa pamamagitan ng malaking diffusion model para sa maraming hakbang. Ang mga susunod na pananaliksik ay maaaring mag-explore ng pagpapabilis nito sa pamamagitan ng mas mahusay na mga optimizer o partial updates. Gayunpaman, sa kasalukuyan, ang pamamaraan ay pinaka-angkop para sa mga kaso kung saan mas mahalaga ang katumpakan kaysa bilis – halimbawa, sa pagbuo ng isang tumpak na diagram o eksena para sa isang disenyo, o sa paghawak ng mga medyo maliliit na batch ng mga imahe kung saan mas mahalaga ang kalidad kaysa dami.

Ang pangkalahatan at tibay ay isa pang aspeto ng mga trade-off. Ang Learn-to-Steer framework ay napatunayang napaka-pangkalahatan sa iba't ibang modelo ng arkitektura (UNet vs MMDiT)[24], na nagmumungkahi na ito ay maaaring mailapat sa iba pang mga diffusion model o mga hinaharap na sistema na may kaunting pag-aangkop. Ang kinakailangan ay makuha ang cross-attention o katulad na signal ng pagkakahanay mula sa modelo. Ipinapakita rin nito ang tibay sa paghawak ng maramihang relasyon at mga hindi pa nakikitang kumbinasyon ng mga bagay batay sa kung paano ito sinanay (nakatuon sa mga generic na pattern ng atensyon). Gayunpaman, kapansin-pansin ang ilang limitasyon. Ang pagsusuri ng papel ay nagmumungkahi na ang tinutukoy na “sa ibabaw” o “sa ilalim” ay hinuhusgahan sa 2D – sa pamamagitan ng mga pixel ng imahe at atensyon – na maaaring hindi laging umaayon sa tunay na 3D spatial na pag-unawa[45]. Halimbawa, kung ang isang bagay ay nasa harap ng isa pa sa 3D na espasyo, mula sa isang tiyak na anggulo ng kamera maaari itong magmukhang sa ilalim ng isa pa sa 2D na imahe, na naguguluhan sa spatial na relasyon. Ang Learn-to-Steer ay hindi hayagang nagmomodelo ng lalim o tunay na relasyon sa laki ng mundo; ito ay natututo lamang mula sa mga visual na overlay ng atensyon. Kaya sa mga kumplikadong eksena na may perspektibo, maaaring ipilit nito ang isang relasyon na may katuturan sa 2D na projection ngunit hindi sa tunay na pisikal na kahulugan [45]. Bukod dito, habang ang pamamaraan ay kayang hawakan hanggang sa tatlong relasyon, bumababa ang katumpakan nito habang nagiging masikip ang mga eksena[46]. Ang pagbuo ng perpektong eksena na may, halimbawa, limang bagay, na lahat ay may kaugnayan sa isa't isa ay nananatiling isang bukas na hamon – kung minsan ay nagtatagumpay ang pamamaraan, minsan ay hindi[37]. Ang mga limitasyong ito ay nagha-highlight na may puwang para sa pagpapabuti, marahil sa pamamagitan ng pagsasama ng mas sopistikadong pangangatwiran o multi-step na pagpaplano para sa mga kumplikadong prompt.

Mas Malawak na Implikasyon: Katapatan ng Prompt at Disenyo ng Hinaharap na Modelo

Sa pamamagitan ng dramatikong pagpapabuti ng spatial fidelity, ang Learn-to-Steer ng NVIDIA ay nagmamarka ng mahalagang hakbang patungo sa mas mapagkakatiwalaang multimodal systems. Para sa mga gumagamit – kung sila man ay mga artista, designer, o developer ng enterprise – ang pagkakaroon ng text-to-image na modelo na talagang sumusunod sa mga tagubilin sa espasyo ay nangangahulugang mas kaunting pagkabigo at manu-manong pagwawasto. Lalo nitong pinapalapit tayo sa “kung ano ang iyong i-prompt, iyon ang iyong makukuha.” Ang fidelity na ito ay hindi lamang tungkol sa magagandang larawan; ito ay tungkol sa pagkakahanay ng output ng AI sa layunin ng gumagamit sa isang kontroladong paraan. Sa isang kahulugan, pinapahusay nito ang multimodal na pagkakahanay: ang tekstuwal na modalidad (mga ugnayang inilarawan sa wika) ay mas matapat na nasasalamin sa visual na modalidad (ang nabuong imahe)[3]. Ang pinahusay na pagkakahanay sa spatial reasoning ay maaari ring magdala sa iba pang aspeto ng prompt, dahil ipinapakita ng pamamaraan na posible itong i-target ang mga tiyak na failure modes (tulad ng paglalagay ng object) nang hindi sinisira ang iba (tulad ng kulay, bilang, o kabuuang pagkakaugnay-ugnay)[34]. Ito ay isang pagpapakita na maaari tayong mag-inject ng domain-specific na “common sense” sa isang malaking generative na modelo pagkatapos ng katotohanan, sa halip na umasa na ang isang single giant model ay makakakuha ng lahat ng tama sa simula.

Ang tagumpay ng paggamit ng cross-attention maps bilang signal sa pagtuturo ay maaaring makaapekto sa mga disenyo ng modelo sa hinaharap at mga rehimen ng pagsasanay. Isang implikasyon nito ay ang mga susunod na diffusion models ay maaaring mag-integrate ng mga module na nagmomonitor o nagpapatupad ng ilang mga constraint sa loob. Halimbawa, ang isang modelo ng susunod na henerasyon ay maaaring magsama ng natutunang loss (tulad ng classifier na ito) bilang bahagi ng pagsasanay, hindi lang inference. Ang ganitong modelo ay epektibong magsasanay na may tutor na pumaparusa dito kapag mali ang pag-aayos ng mga bagay, na posibleng mag-internalize ng spatial reasoning mula simula hanggang katapusan. Maaaring mabawasan nito ang pangangailangan para sa test-time optimization sa mahabang panahon. Samantala, ang mga diskarte tulad ng Learn-to-Steer ay nag-aalok ng versatile na toolkit: maaari silang i-layer sa ibabaw ng mga umiiral na modelo bilang isang uri ng post-training specialization. Ito ay kaakit-akit para sa mga gamit sa negosyo kung saan maaaring kumuha ng isang pangkalahatang pre-trained model at ligtas na i-angkop ito sa isang tiyak na kinakailangan (tulad ng palaging pagsunod sa mga alituntunin ng layout) nang hindi isinasapanganib ang integridad ng modelo sa iba pang gawain.

Mayroon ding mas malawak na mensahe tungkol sa data-driven loss design. Ang paggawa ng loss function nang manu-mano ay karaniwang nangangahulugan ng paghuhula kung paano dapat kumilos ang modelo, samantalang ang pag-aaral ng loss function ay hinahayaan ang modelo na sabihin sa atin kung ano ang gumagana. Dito, sa pamamagitan ng pagsusuri sa sariling atensyon ng modelo, hinayaan ng mga mananaliksik na ang data (inverted images at attention maps) ang maghayag ng tamang layunin. Ang prinsipyong ito ay maaaring ilapat sa iba pang mga problema sa generative alignment. Maaaring makita natin ang katulad na “learned steering” para matiyak ang attribute consistency (halimbawa, na ang isang “pulang kubo” ay lumalabas na pula), pagbilang (pagtitiyak na ang prompt para sa limang mansanas ay nagreresulta sa limang magkakahiwalay na mansanas), o kahit consistency sa estilo sa iba't ibang mga larawan. Ang bawat isa ay magsasangkot ng pagsasanay ng isang maliit na network sa mga internal ng modelo upang gumabay sa isang tiyak na aspeto ng paglikha.

Sa wakas, ang prompt engineering ay maaaring maging mas siyentipiko at hindi na masyadong artistiko dahil sa mga ganitong teknolohiya. Sa halip na pilitin ang ating mga tekstong prompt para makuha ang nais nating gawin ng modelo ("baka kung sabihin kong ‘isang aso sa kanang bahagi ng teddy bear’ ay makikinig ito…"), maaari tayong umasa sa mga natutunang tagapamahala upang ipatupad ang interpretasyon. Nagbibigay ito ng kalayaan sa mga gumagamit na tukuyin ang kanilang nais sa simpleng paraan at pagkatiwalaan ang sistema na gagawin ang iba pa. Sa mga multi-part na prompt o kumplikadong eksena, ang kakayahang mapanatili ang kontrol sa bawat relasyon o detalye ay nangangahulugang ang mga generative model ay maaaring gamitin para sa mas komposisyunal na mga gawain – tulad ng pag-draft ng storyboard, pagdidisenyo ng layout ng user interface, o pagbuo ng mga siyentipikong diagram – kung saan ang spatial na katumpakan ay mahalaga.

Sa kabuuan, ang Learn-to-Steer na papel ng NVIDIA ay nagpapakita ng isang insightful na balanse ng machine learning at praktikal na paglutas ng problema. Sa pamamagitan ng paggamit ng sariling kaalaman ng isang modelo (sa pamamagitan ng cross-attention) at pag-inject ng natutunang layunin sa inference, nakakamit nito ang isang bagong antas ng prompt fidelity para sa mga kahilingan sa espasyo. Ang pamamaraan ay may kapalit sa gastos sa compute, ngunit nagbubukas ito ng pintuan para sa highly targeted na pagpapabuti ng generative models nang hindi muling sinasanay mula sa simula. Habang ang mga diffusion models ay nagiging mas sentral sa paglikha ng nilalaman ng AI, ang mga solusyon tulad nito ay tinitiyak na ang mga “minor details” tulad ng kung saan ang mga bagay sa imahe ay hindi madaling mapapansin. Ito ay isang nakakahikayat na halimbawa kung paano ang kaunting karagdagang kaalaman – sa anyo ng isang natutunang loss function – ay maaaring magpatnubay sa isang malawak na generative model tungo sa mas mataas na antas ng alignment sa intensyon ng tao[3][47]. Ang landas sa hinaharap ay maaaring magsangkot ng pagsasama ng mga mekanismong ito nang direkta sa pagsasanay ng modelo o pagpapalawak nito sa mga bagong uri ng mga constraint, ngunit isang bagay ang malinaw: ang pagpapahintulot sa mga modelo na matutunan kung paano patnubayan ang kanilang sarili ay isang makapangyarihang ideya na malamang na mas marami pa tayong makikita sa hinaharap.


[1] [4] [7] Mga Pag-andar ng Pagkawala na Batay sa Datos para sa Pag-optimize ng Panahon ng Inference sa Pagbuo ng Teksto-sa-Larawan

https://learn-to-steer-paper.github.io/

[2] [3] [5] [6] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] Mga Pag-andar ng Pagkawala na Batay sa Data para sa Pag-optimize ng Oras ng Hinuha sa Pagbuo ng Larawan mula sa Teksto

https://arxiv.org/html/2509.02295v1

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends