လမ်းညွှန်မှုကို သင်ကြားခြင်း- NVIDIA ၏ သဘောတူညီချက်အရ စာသားမှပုံရိပ်ပြောင်းလဲမှုတွင် အာကာသအတွေးအခေါ်ဖြေရှင်းနည်း

စာရေးသူ： Boxu Li

စာသားမှပုံပြောင်းခြင်းမော်ဒယ်များသည် အံ့ဩဖွယ်အမြင်များကို ဖန်တီးနိုင်သော်လည်း ဒါတွေမှာအထင်ရှားဆုံးအပြစ်တစ်ခု ရှိပါတယ်၊ ၎င်းကတော့ နေရာပိုင်းဆိုင်ရာ အတွေးအခေါ်ဖြစ်ပါတယ်။ ယနေ့အကောင်းဆုံးမော်ဒယ်များက အခန်းအတွင်းရှိ အရာဝတ္ထုများကို often မှားယွင်းစွာထားရှိခြင်း သို့မဟုတ် အထူး layout များကို မေးမြန်းပြီးနောက် မူမမှန်စွာပေါင်းစပ်ခြင်းတို့ကို ပြုလုပ်လေ့ရှိပါတယ်။ ဥပမာအားဖြင့် “တီဒီဘီယာ၏ ညာဘက်တွင် ခွေးတစ်ကောင်” ဟူသော prompt သည် မော်ဒယ်ကို ချော်ယွင်းစေနိုင်သည် - ၎င်းက ခွေးကို ဘယ်ဘက်တွင်ထားနိုင်သလို ဒါမှမဟုတ် ခွေးနှင့် တီဒီကို ပေါင်းစပ်ထားနိုင်ပါသည်။ ဤအရာများသည် ကလေးငယ်တစ်ဦးအတွက် အလွယ်တကူဖြစ်သော်လည်း diffusion မော်ဒယ်များသည် အမြဲတမ်း မအောင်မြင်လေ့ရှိကြသည်[1]။ ဂျီရပ်ဖ်သည် လေယာဉ်အထက်တွင် ရပ်နေသည်ကို စဉ်းစားကြည့်ပါ[1]။ အခြားပြဿနာများသည် ထုံးစံအတိုင်းအစီအစဉ်များဖြစ်ပြီး၊ အထူးဒေတာပေါ်တွင် မော်ဒယ်များကို ပြန်လည်ညှိခြင်း သို့မဟုတ် ဖန်တီးခြင်းအချိန်တွင် လက်ဖြင့်ပြုလုပ်ထားသော နေရာပိုင်းဆိုင်ရာ ဆုံးရှုံးမှုများကို ထည့်သွင်းသည်၊ သို့သော် နှစ်ခုစလုံးတွင် အားနည်းချက်များရှိသည်[1]။ Fine-tuning သည် ဒေါ်လာကြေးကြီး retraining လိုအပ်ပြီး မော်ဒယ်၏ဖန်တီးမှု သို့မဟုတ် စတိုင်ကို ပြောင်းလဲစေနိုင်ပါတယ်။ လက်ဖြင့်ပြုလုပ်ထားသော ဆုံးရှုံးမှုများက မကြာခဏအသက်သာဆုံး ရလဒ်များကို ရရှိစေသော နေရာပိုင်းဆိုင်ရာ ဆက်ဆံရေးများအပေါ်၌ ကျွန်ုပ်တို့၏ မပြည့်စုံသော သဘောထားများကို ဖျော်ဖြေရန် encode လုပ်သည်။

NVIDIA ရဲ့အသစ်ထွက် Learn-to-Steer ကိုဝင်ကြည့်ပါ၊ WACV 2026 မှာတင်ပြမည့်ဒီနည်းလမ်းက အကွာအဝေးကို ယူဆခြင်းကို မော်ဒယ်ကိုယ်တိုင်ကနေတိုက်ရိုက်လေ့လာခြင်းဖြင့်ဖြေရှင်းပါတယ်။ အရာဝတ္ထုတွေကို ဘယ်မှာထားရမလဲဆိုတာကို ခိုင်မာစွာရေးသားထားတာမဟုတ်ဘဲ၊ ပုံရိပ်ထုတ်လွှင့်မှုအတွင်းမှာ မော်ဒယ်ကိုယ်တိုင်ကို ကိုယ်တိုင်လမ်းညွှန်ပေးဖို့ သင်ပေးဖို့ အကြံပြုထားပါတယ်။ ဒီဘလော့ဂ်ပို့စ်မှာတော့ မျက်နှာပြင်အသိပညာရပ်တွေမှာရှိတဲ့ စိန်ခေါ်မှုတွေကိုစူးစမ်းကြမယ်၊ အထူးသဖြင့် NVIDIA ရဲ့ Learn-to-Steer နည်းလမ်းက ဘယ်လိုအလုပ်လုပ်လဲဆိုတာကို ရှင်းပြပါမယ်။ ၎င်းရဲ့ဂိမ်းအတွင်းနောက်ခံကိုစူးစမ်းပြီး cross-attention maps နဲ့ သင်ယူထားတဲ့ classififier ကိုအသုံးပြုခြင်း၊ စမ်းသပ်ချက်တွေမှာရရှိတဲ့ အရေအတွက်တိုးတက်မှုတွေကိုပြန်လည်သုံးသပ်ပါမယ်။ စမ်းသပ်မှုအချိန်မှာ ညှိနှိုင်းမှု (compute cost နဲ့ generalizability ကဲ့သို့သော) ရဲ့လက်လွှတ်ရမှုတွေကိုလည်း ဝေဖန်စိတ်ရှုပါမယ်၊ prompt fidelity, multimodal alignment နဲ့ အနာဂတ်ထုတ်လုပ်မှုမော်ဒယ်ဒီဇိုင်းအတွက် ကျယ်ပြန့်သော အကျိုးသက်ရောက်မှုတွေလည်း စဉ်းစားပါမယ်။

အကွာအဝေးယူဆခြင်း: ပျံ့နှံ့မှုမော်ဒယ်များတွင် ပျောက်နေသော အစိတ်အပိုင်း

တိုးတက်သော အပြန်အလှန် မော်ဒယ်များကဲ့သို့ Stable Diffusion က သဘောကျဖွယ်အသေးစိတ်ဖြင့် ရုပ်ရှင်သို့မဟုတ် စိတ်ကူးယဉ်မြင်ကွင်းများကို ပန်းချီဆွဲနိုင်သည်။ သို့သော် ရိုးရှင်းသော အာကာသစီစဉ်မှုကို မေးလျှင် စိတ်ပျက်စရာ ဖြစ်နိုင်သည်။ အာကာသဖြေရှင်းခြင်း – နားလည်ခြင်းနှင့် ညီမွန်းသော အနေအထားများ (ဘယ်/ညာ၊ အပေါ်/အောက်၊ အတွင်း/အပြင်) ကို ဖန်တီးခြင်းမှာ အခက်အခဲတစ်ခုဖြစ်နေဆဲဖြစ်သည်။ အရာဝတ္ထုဆက်စပ်မှုများကို ဖေါ်ပြသော prompt များသည် မကြာခဏ တောင်းဆိုချက်နှင့် မကိုက်ညီသော ပုံများကို ထုတ်ပေးသည်။ ဥပမာအားဖြင့် “စာအုပ်စင်အပေါ်မှ ကြောင်တစ်ကောင်” ဟု prompt တစ်ခုမှာ စာအုပ်စင်ဘေးတွင် ကြောင်သို့မဟုတ် စိတ်ကူးယဉ်ကြောင်-စာအုပ်စင် ဟိုက်ဘရစ်ကို ထုတ်နိုင်သည်။ ဤဟာဘာကြောင့်ဖြစ်သနည်း။

တစ်ခုတည်းသောအကြောင်းပြချက်မှာ diffusion မော်ဒယ်များသည် ပုံကြီး-စာသားဒေတာအစုများကြီးမားစွာမှ သင်ယူကြောင်းဖြစ်ပြီး သေချာသော အာကာသဆိုင်ရာဆက်စပ်မှုများသည် ရှားပါးသို့မဟုတ် မရေရာနိုင်ပါ။ ၎င်းတို့သည် စတိုင်နှင့် အရာဝတ္ထုသစ္စာစောင့်ထားမှုတွင် ထူးချွန်သည်၊ သို့သော် လေ့ကျင့်သင်ကြားမှုဒေတာများသည် အရာဝတ္ထုတစ်ခုချင်းစီသည် အခြားများနှင့် ဘယ်နေရာတွင် ရှိသင့်ကြောင်းအားကောင်းစွာ မသေချာစေပါ။ အဘယ်ကြောင့်ဆိုသော် မော်ဒယ်၏ အတွင်းပိုင်းကိုယ်စားပြုမှုသည် အာကာသဆိုင်ရာစကားလုံးများ (“အပေါ်တွင်”, “ညာဘက်တွင်”) အားနည်းသည်။ မကြာသေးမီကစမ်းသပ်မှုများက state-of-the-art စာသားမှပုံသို့မော်ဒယ်များသည် ရိုးရှင်းသော ဂျီဩမိတ္တိဆက်စပ်မှုများပါဝင်သော အာကာသဆိုင်ရာအလုပ်များတွင် ခက်ခဲနေကြောင်း အတည်ပြုသည်။ ၎င်းတို့၏ မအောင်မြင်မှုများသည် အဓိကအကြောင်းအရာသုံးခုအဖြစ် လက်တွေ့ကျသည်- အမှားနဲ့ အရာဝတ္ထုတည်နေရာ, စကားပုံထဲရှိခဲ့သော အရာဝတ္ထုများပျောက်ဆုံးခြင်း သို့မဟုတ် မော်ဒယ်သည် အရာနှစ်ခုကို ပေါင်းစပ်ရန် ကြိုးစားသောအခါ တွယ်တွယ်ကပ်ကပ်ဖြစ်သော အရာဝတ္ထုများဖြစ်ခြင်း။ တစ်နည်းအားဖြင့် မော်ဒယ်သည် သင့်အား ဘာကို မေးမြန်းခဲ့သော်လည်း ဘယ်နေရာတွင် ထားရမည်ကို မလွယ်ကူပါ။

ရှိပြီးသားနည်းလမ်းများသည်ဤအချက်ကိုဖြေရှင်းရန်ကြိုးစားခဲ့ကြသည်။ တချို့သောသုတေသနများတွင် မျက်နှာပြင်သိရှိမှုရှိလာစေရန် စီမံကိန်းများကိုပြန်လည်လေ့ကျင့်ခြင်းဖြင့် ဓာတ်ပုံများ၏တည်နေရာများကိုပြန်လည်ပြုပြင်ခြင်းကိုပြုလုပ်ခဲ့သည်။ အခြားနည်းလမ်းများတွင် စမ်းသပ်မှုအချိန်တွင်အထောက်အကူပြုခြင်း ကိုအသုံးပြုကြသည်- ဥပမာ၊ ပုံစံများကိုတင်းကျပ်စွာအုပ်ချုပ်ရန်ထပ်ထည့်သောအရှုံးများကိုအသုံးပြုခြင်းဖြင့်အရာဝတ္ထုများ၏အစီအစဉ်မှန်ကန်မှုကိုထောက်ပံ့ပေးခြင်းစသည်ဖြစ်သည်။ သို့သော်၊ ဤလောက်အကျိုးရှိသော function များကိုကိုယ်တိုင်ရေးဆွဲခြင်းသည်ခက်ခဲပါသည် - ထိုနည်းလမ်း၏အတွင်းပိုင်းဒေတာများကိုအသုံးပြု၍ “ဘယ်ဘက်တွင်” သို့မဟုတ် “အပေါ်တွင်” ကိုတိုင်းတာရုံအတွက်ခန့်မှန်းရပါမည်။ ဤလက်လုပ်အရှုံးများသည်ရိုးရှင်းသောအကြောင်းအရာများအတွက်အလုပ်လုပ်နိုင်သော်လည်း စိန်ခေါ်မှုများသောမြင်ကွင်းများတွင်ဖြည့်စွက်ထားသောခန့်မှန်းချက်များကိုထည့်သွင်းထားသောကြောင့်မအောင်မြင်နိုင်ပါ။ [4] အစီအစဉ်ကိုပြန်လည်လေ့ကျင့်ခြင်းသည် spatially aligned data နှင့်အတူမော်ဒယ်ကိုပြန်လည်လေ့ကျင့်ခြင်းဖြင့် ကောင်းသောတည်နေရာတိကျမှုကိုရရှိနိုင်သည်။ [5] သို့သော်၊ ၎င်းသည်အရင်းအမြစ်များကိုကြီးမားစွာစားသုံးပြီး အခြားသောဓာတ်ပုံအရည်အသွေးများကိုနည်းလမ်းပြောင်းလဲခြင်းဖြင့်မောင်းနှင်ခြင်းသည် spatial relations အတွက်ပြန်လည်လေ့ကျင့်ခြင်းကာလအတွင်းအရောင်တိကျမှုနှင့်အရာဝတ္ထုရေတွက်မှုကျဆင်းခဲ့သည်။ [6] တစ်ခုသောဖြေရှင်းနည်းသည် မော်ဒယ်တစ်ခုလုံးကိုပြန်လည်လေ့ကျင့်ခြင်းမရှိဘဲ သို့မဟုတ် ငြိမ်သက်မှုမရှိသောအထွေထွေသဘောတရားများကိုအခြေခံခြင်းမရှိဘဲ တည်နေရာတိကျမှုကိုတိုးတက်စေသည်။

ဒေတာအခြေပြုဆုံးရှုံးမှုများဖြင့်နှံ့စပ်မှုကိုလမ်းညွှန်သင်ယူခြင်း

https://research.nvidia.com/publication/2025-11_data-driven-loss-functions-inference-time-optimization-text-image

NVIDIA ရဲ့ Learn-to-Steer framework က နည်းလမ်းအသစ်တစ်ခုကို ပေးဆောင်ပါတယ်။ စည်းမျဉ်းများကို ထည့်သွင်းမည်မဟုတ်ဘဲ မော်ဒယ်ရဲ့ ကိုယ်ပိုင် အချက်အလက်များမှ သင်ယူပါ[7]။ အဓိက အမြင်ကတော့ diffusion မော်ဒယ်တွေဟာ ဖန်တီးမှုအတွင်းမှာ အပြည့်အဝ အတွင်းပိုင်း ဒေတာများကို ထုတ်လုပ်ပေးပြီး – အထူးသဖြင့် cross-attention maps အနေနဲ့ – ဒါတွေကို နားလည်နိုင်ဖို့ လေ့လာနိုင်ပါတယ်။ Cross-attention maps က diffusion denoising လုပ်ငန်းစဉ်ရဲ့ မည်သည့်အဆင့်မှာမဆို ဖန်တီးပြီး – ဥပမာ ဘယ်ဧရိယာမှာ ဘယ်စကားလုံးကို ဦးတည်နေတယ်ဆိုတာ ကို ပြောပြပါတယ်[8]။ အခြားသော စကားဆိုရင်တော့၊ စာသားလက္ခဏာများ (ဥပမာ “ခွေး”, “တီဒီဘေး”, “ညာဘက်မှာ”) နဲ့ ပုံရိပ်တည်နေရာများအကြား တစ်စက်တည်းဖြစ်ကြပါတယ်[8]။ ရှေ့က စီမံချက်တွေက ဒီ attention maps တွေကို အရာဝတ္ထုတွေကို ရှာဖွေရန် အလားအလာရှိကြောင်း သိရှိထားပြီး၊ ဒါကို လမ်းညွှန်အဖြစ် အသုံးချဖို့ သဘာဝ ဖြစ်ပါတယ်။ စမ်းသပ်မှု အချိန်အကန့်အသတ်နည်းလမ်းတွေက ဒီ attention maps တွေကို သူတို့ရဲ့ အာကာသ ရှုံးနိမ့်မှုများအတွက် သွားရောက်ရွေးချယ်တာဖြစ်ပြီး ဒီလိုနားလည်မှုနဲ့ တိုက်ရိုက် စာသား-ပုံရိပ် တည်နေရာတူညီမှုကြောင့် ဖြစ်ပါတယ်[9]။

Learn-to-Steer (L2S) သည် အချက်အလက်များမှ ရည်ရွယ်ချက်လုပ်ငန်းဆောင်တာကို လေ့လာခြင်းဖြင့် ဤစိတ်ကူးကို အခြေခံသည်။ ၎င်းသည် diffusion မော်ဒယ်၏ cross-attention ပုံစံများမှ နေရာဖျော်ဖြေရေးဆက်ဆံမှုများကို အသိအမှတ်ပြုရန် အွန်လိုင်းပြင်ပတွင် လေ့ကျင့်ထားသော ပေါ့ပါးသည့် ဆက်ဆံရေး ခွဲခြားသတ်မှတ်သူ ကို မိတ်ဆက်သည်[7]။ သတ်မှတ်ချက်အဖြစ် ဤခွဲခြားသတ်မှတ်သူသည် လေ့လာထားသော ဆုံးရှုံးမှုလုပ်ငန်းဆောင်တာအနေဖြင့် လုပ်ဆောင်ပြီး၊ ဖန်တီးထားသော ပုံရိပ် (ထိုအခါအထိ) သည် ပြသာနာ၏ ဆက်ဆံရေးကိုမှန်ကန်စွာ ဖြည့်ဆည်းထားသည်ဟုတ်မဟုတ်ကို အကဲဖြတ်ပြီး၊ မဟုတ်ပါက ဖန်တီးမှုကို မှန်ကန်သော လမ်းကြောင်းသို့ လမ်းညွှန်သည်[7]။ အဓိကအားဖြင့်၊ NVIDIA အဖွဲ့သည် diffusion မော်ဒယ်ကို ၎င်း၏ကိုယ်ပိုင် အာရုံစိုက်မှု ပြမြေပုံများကို သုံးသပ်၍ လိုအပ်သလို ပြင်ဆင်ရန် သင်ကြားပေးခဲ့ပြီး၊ မော်ဒယ်အလေးချိန်များကို ပြောင်းလဲခြင်းမရှိဘဲ ချက်ချင်းပြင်ဆင်နိုင်သည်။

ဤအပြန်အလှန်တန်းဖျားအမျိုးအစားကို လေ့ကျင့်ရန်မှာ အထင်ရထက်ပို၍ရှုပ်ထွေးနေပါသည်။ ရိုးရှင်းသောနည်းလမ်းတစ်ခုမှာ- ရှိပြီးသားဆက်စပ်မှုများရှိသော ပုံများကိုယူပါ (ဥပမာ- “ခွေးသည် ကြောင်၏ ဘယ်ဘက်တွင် ရှိသည်” ဟုမှတ်သားထားသောပုံများ)၊ diffusion မော်ဒယ်၏ inversion လုပ်ငန်းစဉ်ကို ဖျော်ဖြေရန်ပြေးပါ၊ “ခွေး” နှင့် “ကြောင်” အတွက် အာရုံစူးစိုက်မှုမြေပုံများရယူပါ၊ ထို့နောက် ထိုမြေပုံများအတွက် “ဘယ်ဘက်တွင်” ဟုထုတ်လွှင့်ရန် အမျိုးအစားခွဲခြားကိရိယာကို လေ့ကျင့်ပါ။ ဤနည်းလမ်းသည် အမှန်တကယ် စီမံခန့်ခွဲမှုကို ပံ့ပိုးပေးသည်။ သို့သော် မမျှော်လင့်ခဲ့သော အခက်အခဲတစ်ခု ပေါ်ထွက်လာသည် - စာရေးသူများက "ဆက်စပ်မှု ယိုစိမ့်မှု" ပြဿနာဟုခေါ်ကြသည်။ အမျိုးအစားခွဲခြားကိရိယာသည် အာရုံစူးစိုက်မှုမြေပုံများတွင် ဘာသာစကားလက်ရာများ ကို ဖမ်းယူ၍ အပြန်အလှန်နေရာလက်ရှိကို လေ့လာမည်မဟုတ်ဘဲ ခိုးယူသောနေရာတွင် စတင်လုပ်ဆောင်သည်။ အဲဒါ ဘယ်လိုဖြစ်နိုင်တာလဲ? သင့်အမြင်ပုံကို မှန်ကန်သော ဖျော်ဖြေရန် ဖော်ပြချက်နှင့် ပြန်ထုတ်ပါက (ဥပမာ- “အနာဂတ်မှာ ခွေးသည် ကြောင်၏ ဘယ်ဘက်တွင် ရှိသည်”) “ဘယ်ဘက်” ဟူသော စကားလုံး၏ နူးညံ့သော သဲလွန်စများသည် မော်ဒယ်၏ အတွင်းပိုင်းလှုပ်ရှားမှုများတွင် ကုဒ်ပုံစံဖြင့် ထည့်သွင်းနိုင်သည်။ ထို့နောက် အမျိုးအစားခွဲခြားကိရိယာသည် ထိုသဲလွန်စများကို ငြင်းစားပြီး (အာရုံစူးစိုက်မှုမြေပုံမှ ဖေါ်ပြချက်ကို နောက်ပြန်ဖတ်ခြင်း) “ဘယ်ဘက်တွင်” ဆိုသော ရုပ်ရှင်အထိမ်းအမှတ်ကို လေ့လာမည်မဟုတ်ဘဲ လှုပ်ရှားမှုများကို လေ့လာမည်မဟုတ်ဘဲ လေ့လာသည်။ အကျိုးအဖြစ်- လေ့ကျင့်မှုဒေတာတွင် ကောင်းစွာလုပ်ဆောင်နိုင်သော်လည်း ဖန်တီးမှုတွင် မအောင်မြင်ပါ။ အကြောင်းမှာ ကိရိယာသည် ဖျော်ဖြေရန်တွင် ဖော်ပြချက်၏ ဆက်စပ်စကားလုံးကို အမြဲအမည်ပေးပြီး ပုံနှင့် ကိုက်ညီနေသောကြောင့် (ယေဘူယျအားဖြင့် အမျိုးအစားခွဲခြားကိရိယာသည် ဖျော်ဖြေရန်ဖော်ပြချက်ကို ပြန်လည်ပြောကြားခြင်းကြောင့် အပြန်အလှန်နေရာတွင်မှန်ကန်မှုမရှိပါ)။

ဤကိစ္စကို ဖြေရှင်းရန် Learn-to-Steer သည် ထူးခြားသော နှစ်ချက်လှည့်ပြောင်းသင်ကြားမှုနည်းဗျူဟာ ကိုအသုံးပြုသည်[13][14]။ သင်ကြားမှုဓာတ်ပုံတစ်ခုစီအတွက်၊ ၎င်းတို့သည် အာရုံစူးစိုက်မှုမြေပုံများ၏ နှစ်ခု ကို ထုတ်လုပ်သည်။ တစ်ခုမှာ စိမ်းလန်းသော ဆက်နွယ်မှုကို မှန်ကန်စွာ ဖေါ်ပြသော အပေါင်းအဖျော် ဖြစ်ပြီး (ဥပမာ “ကြောင်၏ ဘယ်ဘက်တွင် ခွေးတစ်ကောင်”) နှင့် တစ်ခုမှာ ဆက်နွယ်မှုကို မှားယွင်းစွာ အသုံးပြုသော အနုတ်အဖျော် ဖြစ်သည် (ဥပမာ “ကြောင်၏ အပေါ်တွင် ခွေးတစ်ကောင်”)[15][16]။ အာရုံစူးစိုက်မှုမြေပုံများနှစ်ခုစလုံးကို ပုံမှန်ဆက်နွယ်မှု (“ဘယ်ဘက်တွင်” ဤဥပမာတွင်) ဖြင့် တကယ်သော ပုံရိပ်ပုံစံအပေါ်မှာ အမှန်တကယ်ကို ဖော်ပြ၍ တံဆိပ်ကပ်သည်။ အခြားသော စာသားဖေါ်ပြချက်များနှင့် ဆန့်ကျင်ဘက်ဖြစ်သောပုံရိပ်ဆက်နွယ်မှုကို မြင်ရခြင်းအားဖြင့်၊ သုံးသပ်သူသည် မယုံကြည်ရသော ဘာသာစကား အကြောင်းအရာကို မျက်မမြင်လုပ်ပြီး အာရုံစူးစိုက်မှုမြေပုံများထဲမှ အမှန်တကယ် ဂျီဩမေတြီပုံစံ ကို အာရုံစိုက်ရမည်ဖြစ်သည်[14]။ ၎င်းသည် ၎င်း၏ ပွငျလငျးခြင်းကို သင်ယူရန် အာမခံသည် - အဖျော်သည် “ဘယ်ဘက်” သို့မဟုတ် “အပေါ်တွင်” ဟုဆိုသည်ဖြစ်စေ၊ သုံးသပ်သူသည် အရင်းအမြစ်ပဲမှ အမှန်တကယ် ကြောင်၏ဘယ်ဘက်တွင် ခွေးကို ရှာဖွေရမည်ဖြစ်သည်။ ဤနှစ်ချက်လှည့်ပြောင်းနည်းသည် ယိုစိမ့်မှု ပြဿနာကို ထိန်းသိမ်းပေးပြီး၊ မော်ဒယ်၏ ရူမြင်မှုအပေါ် အခြေခံ၍ အပြောအဆိုမဟုတ်သော အမှန်တကယ် အာရုံစူးစိုက်မှု ဆက်နွယ်မှုကို နားလည်သော သုံးသပ်သူကို ဖန်တီးပေးသည်[17]။

ဒီခွဲခြားသူအတွက် အရေးကြီးတဲ့အချက်တစ်ခုကတော့ လေ့ကျင့်မှုဒေတာပဲဖြစ်ပါတယ်။ အသင်းက အမှန်တကယ်ပုံရိပ်များနဲ့ သံသယရိပ်များကို အသုံးပြုကာ အမျိုးမျိုးသောအခြေအနေများကို ဖုံးလွှမ်းခဲ့ပါတယ်[18]。 GQA လို့ခေါ်တဲ့ ဒေတာအစုအဝေးထဲက အမှန်တကယ်ပုံရိပ်များက သဘာဝ၏ ရှုပ်ထွေးမှုများနဲ့ အမျိုးမျိုးသော အရာဝတ္ထုစီမံမှုများကို ပေးပြီး၊ မြင်ကွင်းများအခိုက်အတန့်တွင် အာရုံစူးစိုက်မှုမြေပုံများသည် ဆူညံတတ်သည်[18]。 Image-Generation-CoT နည်းလမ်းကို အသုံးပြု၍ ထိန်းချုပ်ထားသော နည်းလမ်းဖြင့် ဖန်တီးထားသော သံသယရိပ်များကတော့ ပိုမိုရှင်းလင်းသော မြင်ကွင်းများကို ပေးပြီး၊ လေပျံမှုဖန်တီးမှုအတွင်း တွေ့ရသော အာရုံစူးစိုက်မှုပုံစံများနှင့် ပိုမိုလျင်မြန်စွာညီညွတ်စေသည်[18]。 အမှန်တကယ်ဒေတာနှင့် သံသယဒေတာတို့ကို ပေါင်းစပ်ခြင်းအားဖြင့် ခွဲခြားသူသည် ရှုခင်း၏ သဘာဝနှင့် ရှင်းလင်းမှုနှစ်ခုစလုံးကို ရရှိနိုင်သည်။ အပိုင်းအစသုတေသနက ထင်ရှားပြသခဲ့သည်မှာ ဒေတာအရင်းအမြစ်နှစ်ခုစလုံးကို အသုံးပြုခြင်းက သီးသန့်အရောင်းထက် ပိုမိုကောင်းမွန်သော တိကျမှုကို ရရှိစေသည်ဟု အတည်ပြုခဲ့သည်[19]။

သင်ယူထားသောဆုံးရှုံးမှုလုပ်ဆောင်ချက်များဖြင့် ကြားဖြတ်အချိန်ညွှန်ကြားခြင်း

ဆက်စပ်မှုခွဲခြားသူကိုလေ့ကျင့်ပြီးပါက Learn-to-Steer သည် ၎င်းကို‌ဖျူးဝေဖြန့်ဖြူးမှုပြင်ပေါ်တွင်ပလပ်လုပ်ခြင်းဖြင့် ရုပ်ပုံများကို ဖန်တီးနေစဉ်တွင်ညွှန်ကြားသည်။ ၎င်းသည်ကြားဖြတ်အချိန် (ဖန်တီးချိန်)တွင်ဖြစ်ပြီး ဖျူးဝေဖြန့်ဖြူးမှုမော်ဒယ်၏အလေးချိန်များကိုအပြောင်းအလဲမလိုအပ်ပါ။ ၎င်းကိုအောက်ပါအတိုင်းလုပ်ဆောင်သည်။

စာသားပေးချေမှုသည် နေရာရေးရာဆက်စပ်မှုကို ထည့်သွင်းပါက (ဥပမာ၊ “အမွှေးပျော့အရုပ်၏ ညာဘက်တွင် ခွေးတစ်ကောင်”) စနစ်သည် ပထမဦးဆုံး အဆိုပါစာသားပေးချေမှုကို ခွဲခြမ်းစိတ်ဖြာ၍ အကြောင်းအရာ၊ ပစ္စည်းနှင့် ဆက်စပ်မှု (ဤကိစ္စတွင် အကြောင်းအရာ: ခွေး၊ ဆက်စပ်မှု: ညာဘက်တွင်၊ ပစ္စည်း: အမွှေးပျော့အရုပ်) ဖြစ်သည်ကို သုံးသပ်သည်။ ကျပန်းဖြန်းမှုမော်ဒယ်သည် အမှောင်ဓာတ်မှန်ကို ပုံအဖြစ်ပြောင်းလဲခြင်းကို စတင်သောအခါ Learn-to-Steer သည် အချိန်အကွာအဝေးအချို့တွင် ဝင်ရောက်စွက်ဖက်သည်။ ရွေးချယ်ထားသောကြိမ်နှုန်းတွင် (ဥပမာ၊ တစ်အဆင့်ခြင်းဖြင့် သို့မဟုတ် ကျပန်းဖြန်းမှုလုပ်ငန်းစဉ်၏ ပထမဝက်တွင် အဆင့်အနည်းငယ်ကြားအတွင်းတွင်) ၎င်းသည် ကိစ္စတွင် ပါဝင်သော ပစ္စည်းနှစ်ခုနှင့် သက်ဆိုင်သော အခြားတစ်ဖက်ကိုမှန်စေသော အာရုံစိုက်မှုပြမြေပုံများကို ထုတ်ယူသည်။ ၎င်းတို့သည် ပေါ်လာသော ပုံ၏ အရာဝတ္ထုတစ်ခုစီတွင် မည်သည့်နေရာတွင်ရှိမည်ကို မော်ဒယ်၏ လက်ရှိ “ယုံကြည်ချက်” ဖြစ်သည်။ ထုတ်ယူထားသော အာရုံစိုက်မှုပြမြေပုံများကို လေ့ကျင့်ထားသော ဆက်စပ်မှုခွဲခြားသူထဲသို့ ထည့်သွင်းပြီး၊ မဖြစ်နိုင်သော ဆက်စပ်မှုများ (ဘယ်ဘက်တွင်၊ ညာဘက်တွင်၊ အထက်တွင်၊ အောက်တွင် စသည်) အပေါ် အလားအလာဖြန့်ဖြူးမှုကို ထုတ်လုပ်သည်။ အကြောင်းကတော့ ကျွန်ုပ်တို့သည် အဆိုပါစာသားပေးချေမှုမှ လိုအပ်သော ဆက်စပ်မှုကို သိထားသောကြောင့် စနစ်သည် အရှုံးကိုတွက်ချက်နိုင်သည် - ဥပမာ၊ အကွာအဝေးပျက်ပြားမှုကို လက်ခံရသော အမှန်မဟုတ်သောဆက်စပ်မှုအပေါ် ခွဲခြားသူကို ကျပန်းပြုခြင်းဖြင့် အပြစ်ပေးခြင်းဖြင့် [20][22]။

ယခုတော့အရေးကြီးတဲ့အပိုင်းဖြစ်တဲ့ ထိန်းချုပ်ခြင်း အပိုင်းရောက်လာပြီ။ ဒီဆုံးရှုံးမှုရဲ့ gradient ကို diffusion မော်ဒယ်ရဲ့ latent ကိုယ်စားပြုချက် (တိုးတက်လာနေသော ဆူညံသံရုပ်ပုံ) ထဲသို့ အချိန်ပြက်တွင် ပြန်လည်မြှားပေးသည် [23]။ လက်တွေ့အနေနဲ့ဆိုရင်၊ အဲဒါက ကလပ်ဆီဖိုင်ယားအရမှန်ကန်တဲ့ဆက်စပ်မှုရဲ့ဖြစ်နိုင်ခြေကိုမြှင့်တင်ဖို့ latent အပြောင်းအလဲများကို အနည်းငယ်ထိန်းညှိခြင်းကိုဆိုလိုသည်။ အဓိပ္ပါယ်ကတော့ ကလပ်ဆီဖိုင်ယားက ခွေးကို teddy bear ရဲ့ညာဘက်မှာမလုံလောက်ဘူးလို့ထင်ရင် gradient က latent ကို ခွေးရဲ့ features ကိုညာဘက် (သို့မဟုတ် teddy ရဲ့ဘယ်ဘက်) သို့ရွေ့သွားအောင်ပြောင်းလဲပေးမည်။ ဒါဆို diffusion ကိုယ်စားပြုချက်ကို အနည်းငယ်ပြောင်းလဲထားသော latent နှင့်ဆူညံသံဖြင့်ဆက်လက်လုပ်ဆောင်သည်။ ဤလိုသရုပ်ပြသွားသောပြင်ဆင်မှုများကိုအကြိမ်ကြိမ်ပြုလုပ်ခြင်းဖြင့် မော်ဒယ်ကို ရုပ်ပုံကိုနေရာအထောက်အထားအတိုင်း "ထိန်းချုပ်" သို့မဟုတ်ကိုးကားပေးခြင်းဖြင့် အနေရာတိုင်းတွင်ရုပ်ပုံကိုရေးဆွဲရန်မဆိုင်းငံ့ဘဲဖြစ်လာစေသည်။ အဲဒါကိုမှိုင်းထိုးသင်ကြားနေသလိုပုံဆွဲရာမှာ "ခွေးကိုနည်းနည်းပိုညာဘက်ရွေ့ပါ" ဟုမော်ဒယ်ကလူကြီးနဲ့တူသည်။

Learn-to-Steer ၏စိတ်လှုပ်ရှားဖွယ်ကောင်းသောအချက်တစ်ခုမှာ မတူညီသော diffusion စက်ပုံများတွင် အလုပ်လုပ်သည်မှာဖြစ်သည်။ အဆိုပါစာရေးသူများက Stable Diffusion (UNet အခြေခံထားသော မော်ဒယ်တစ်ခု) နှင့် Flux (MMDiT အခြေခံထားသော diffusion မော်ဒယ်တစ်ခု) တွင် အနည်းငယ်ပြောင်းလဲမှုများဖြင့် ထောက်ပြခဲ့သည်။ အနည်းငယ်ပြောင်းလဲမှုများဖြင့် အလုပ်လုပ်သည်။ ယခုနည်းလမ်းသည် architecture-agnostic ဖြစ်သည်။ ဒါကြောင့် generic signals (အာရုံခံမြေပုံများ) နှင့် ခွဲခြားထားသော classifie ကို အားထားသည်။ ဒါကြောင့် အနာဂတ် သို့မဟုတ် အခြား text-to-image မော်ဒယ်များသည် ထိုမော်ဒယ်၏ အာရုံခံထုတ်လွှင့်ချက်များပေါ်တွင် classifie အသစ်ကို လေ့ကျင့်ခြင်းဖြင့် ထိုမော်ဒယ်ကို "plug" လုပ်နိုင်သည်။ ထို့အပြင် စနစ်ကို တစ်ခုနှင့်တစ်ခုဆက်စပ်မှုများကို လေ့ကျင့်သော်လည်း၊ အကြောင်းအရာများကို ဆက်စပ်မှုများကို ချိတ်ဆက်သော prompt များကို ကိုင်တွယ်နိုင်သည်။ ဥပမာအားဖြင့် "ဖရောင်တစ်ကောင်သည် sneaker အထက်တွင်ရှိပြီး teapot အောက်တွင်ရှိသည်" ဟု prompt တစ်ခုကို ဖော်ပြပါ။ ထိုကဲ့သို့သော အခြေအနေများကို Learn-to-Steer သည် ကွာခြားသော အချိန်ကာလများတွင် ဆက်စပ်မှုများအကြား အလှည့်ကျအဆင့်မြှင့်တင်ခြင်းဖြင့် ကိုင်တွယ်သည်။ ၎င်းသည် ဖရောင်-sneaker ဆက်စပ်မှုအတွက် latent ကို အဆင့်တစ်ခုတွင် အရင်ဆုံး, ထို့နောက် sneaker-teapot ဆက်စပ်မှုကို နောက်တစ်ခုတွင်, ထို့နောက် အလှည့်ကျစွာ ဖော်ပြသည်။ ဤနည်းဗျူဟာကို အသုံးပြု၍ နည်းလမ်းသည် တစ်ပုံတွင် အများပြားသော ဒေသဆိုင်ရာ ကန့်သတ်ချက်များကို အတည်ပြုနိုင်ခဲ့သည်။ static loss functions သို့မဟုတ် naive prompting များသည် မကြာခဏ မအောင်မြင်ပါ။ (လက်တွေ့အကောင်အထည်ဖော်ရာတွင် စာရေးသူများသည် ဆက်စပ်မှုများစွာပါရှိသော prompt ကို ရိုးရိုးချည်းချင်းစပ်သော စကားဝိုင်းဖြင့် ဖျော်ဖြေရန် - "A frog above a sneaker below a teapot" - သည် conjunctions ပါသော စာကြောင်းထက် ပိုမိုကောင်းမွန်သော အကျိုးအဖြစ်သက်ရောက်မှုများရှိကြောင်း တွေ့ရှိခဲ့သည်။)

အကန့်အသတ်များရှိသော နေရာဒေသဆိုင်ရာ ပုံမှန်များအပေါ် ရရှိနိုင်သော အရေအတွက်ပိုင်းဆိုင်ရာ အကျိုးအမြတ်များ

Learn-to-Steer သည် ဖန်တီးထားသော ပုံများတွင် နေရာဒေသဆိုင်ရာ နားလည်မှုကို ဘယ်လောက်အထိ တိုးတက်စေသနည်း။ ဤစာတမ်းတွင် နေရာဒေသဆိုင်ရာ အဆက်အသွယ်များအတွက် စံသတ်မှတ်ထားသော စာသားမှ ပုံဖန်တီးခြင်း သုံးသပ်မှု ပုံမှန်များတွင် တိကျမှုတွင် အရေးကြီးသော တိုးတက်မှုများ ကို ဖော်ပြထားသည်။ နှစ်ခုသော ပုံမှန်များကို အသုံးပြုထားသည်- GenEval (ပေးထားသည့် အဆက်သွယ် မေးခွန်းကို ဖြည့်ဆည်းနိုင်ရန် ဖန်တီးထားသော ပုံများကို စစ်ဆေးသည်) နှင့် T2I-CompBench (စာသားမှ ပုံဖန်တီးခြင်း ပေါင်းစပ်မှု ပုံမှန်, နေရာချထားမှုများအတွက် ထပ်မံ စစ်ဆေးမှုတစ်ခု)။ အဖွဲ့သည် Flux မျိုးကွဲနှစ်ခုနှင့် Stable Diffusion 2.1 နှင့် 1.4 အပါအဝင် ပျံ့နှံ့မှု မော်ဒယ်လ်လေးခုကို - မူရင်း ဖန်တီးမှုနှင့် မျိုးစုံသော နည်းလမ်းများကို နှိုင်းယှဉ်၍ အကဲဖြတ်ခဲ့သည်။ ရလဒ်များက ရှင်းလင်းသော အကြောင်းပြချက်တစ်ခုကို ပြောပြသည်- သင်ယူထားသော ချုပ်ကိုင်မှု ရည်ရွယ်ချက်များသည် မချုပ်ကိုင်ထားသော မော်ဒယ်လ်များနှင့် ယခင် နည်းလမ်းများကို ကျယ်ကျယ်ပြန့်ပြန့် ကျော်လွန်သည် [28]။ အထူးသဖြင့်:

Stable Diffusion 2.1 (SD2.1): GenEval ပေါ်မှာ Learn-to-Steer[29] သုံးပြီးနောက် Spatial accuracy ကို 0.07 (7%) ကနေ 0.54 အထိ မြှင့်တင်ခဲ့ပါတယ်။ အဲဒါက spatial tasks အတွက် အလုပ်မလုပ်တဲ့ model ကို 50% ကျော် မှန်ကန်အောင် ပြောင်းလဲပေးခဲ့တာဖြစ်ပါတယ်[29]။ T2I-CompBench metric ပေါ်မှာ SD2.1 က 0.089 ကနေ 0.365 အထိ တိုးတက်မှုကြီးကို ပြသခဲ့ပါတယ်[29]။
Flux 1.0-dev (MMDiT-based): Learn-to-Steer သုံးပြီးနောက် GenEval ပေါ်မှာ Accuracy ကို 0.20 ကနေ 0.61 အထိ မြှင့်တင်ခဲ့ပြီး ကိုက်ညီမှုဆိုင်ရာ metric ကို 0.177 ကနေ 0.392 အထိ တိုးတက်ခဲ့ပါတယ်[30]။ ဒီကိစ္စက spatial inputs အတွက် မှန်ကန်မှုမြင့်မားတဲ့ model ကို ပြောင်းလဲပေးခဲ့ပါတယ်။
Handcrafted Losses ထက်ပိုမိုထူးချွန်မှု: Manual losses ကို အားထားတဲ့ test-time methods များမှာ နိမ့်ကျတဲ့ score များကို တွေ့ရပါတယ်။ ဥပမာအားဖြင့် STORM လို့ခေါ်တဲ့ နည်းလမ်းဟောင်းတစ်ခုက SD2.1 GenEval ပေါ်မှာ 0.19 ပဲ ရရှိခဲ့ပြီး Learn-to-Steer က အဲဒီတစ်ခါမှာ 0.54 အထိ ရရှိခဲ့ပါတယ်[31]။ အခြား baseline တစ်ခုဖြစ်တဲ့ FOR (Fast Optimizer for Restoration) နှင့် spatial version က SD2.1 ပေါ်မှာ 0.26–0.35 လောက် ရရှိခဲ့ပြီး L2S ရဲ့ performance ထက် နောက်ကျခဲ့ပါတယ်[32]။ ဒီအကွာအဝေးတွေက လူသားများက encoded လုပ်ထားတဲ့ guesswork losses ထက် data-driven learned loss ကပိုထူးခြားကြောင်း ဖော်ပြပါတယ်။
Fine-Tuned Models နှင့် ညီညွတ်မှု: အထူးသဖြင့် learned steering က spatial relations အတွက် fine-tuned လုပ်ထားတဲ့ model များရဲ့ အတိအကျမှုကို နီးစပ်လို့မဟုတ် အထက်ကောင်းစေပါတယ်။ COMPASS နည်းလမ်း (spatially aware data နဲ့ special token ordering နဲ့ diffusion model ကို retrain လုပ်တဲ့) က Flux ရဲ့ benchmark ပေါ်မှာ 0.60 ရရှိခဲ့ပါတယ်[33]။ Learn-to-Steer က model ကို retrain လုပ်ခြင်းမရှိပဲ 0.61 ရရှိခဲ့ပြီး - အဓိကအားဖြင့်[33]။ ဒီကိစ္စက test-time optimization က model training ကြီးထွားမှု လိုအပ်မှုမရှိဘဲ state-of-the-art fidelity ပေးနိုင်ကြောင်း ဖော်ပြပါတယ်။ ထို့အပြင် COMPASS က spatial skill ကို တိုးတက်စေပြီး color နှင့် counting accuracy တွေမှာ side effect အနေနဲ့ ကျဆင်းမှုတွေ ဖြစ်စေခဲ့သလို base model ရဲ့ အခြားစွမ်းရည်တွေကို ထိန်းသိမ်းထားခဲ့ပါတယ်[34])။
Multiple Relations Generalization: Relation classifier က single relations တွေမှာပဲ trained လုပ်ထားပေမယ့် Learn-to-Steer က multiple simultaneous relations ပါဝင်တဲ့ prompts တွေကို ကိုင်တွယ်နိုင်တဲ့စွမ်းရည်ကို ပြသခဲ့ပါတယ်။ 3-5 objects နှင့် prompt တစ်ခုမှာ relation သုံးခုအထိ ပါဝင်တဲ့ stress-test မှာ base model ပဲ almost always failed (မျှော်လင့်ချက်နီးပါး 0%)[35][36]။ L2S ပါဝင်တဲ့အခါမှာ model က ပိုမိုတိုးတက်မှုများ ရရှိခဲ့ပါတယ် - ဥပမာအားဖြင့်, 28% accuracy on prompts with two relations among three objects, နှင့် အလွန်ရှုပ်ထွေးတဲ့ cases များဖြစ်တဲ့ three relations among four or five objects အတွက် 10–12% accuracy လောက် ရရှိခဲ့ပါတယ်[37][38]။ ဒီနံပါတ်တွေဟာ အစွန်းရောက်မဟုတ်ပေမယ့် unassisted model ရဲ့ လိပ်ပြာနီးပါးထက် orders of magnitude ကပိုကောင်းပါတယ်၊ ဒီနည်းလမ်းက အချို့သော learned objectives များကို some extent အထိ ဖွဲ့စည်းနိုင်ကြောင်း ပြသပါတယ်။ အရေးကြီးတာက relation ပေါင်းများစွာ ထပ်ထည့်သွင်းသည့်အခါ performance က graceful degrade ဖြစ်ပြီး, collapse မဖြစ်ပေါက်ခြင်းကို သတိပြုဖို့ ဖြစ်ပါတယ် - ဒီနည်းလမ်းက relation တစ်ခုစီကို အချို့သော extent အထိ independently ကိုင်တွယ်နိုင်တဲ့ သဘောကို ဖျော်ဖြေရန်ကိစ္စဖြစ်ပါတယ်[39]။ ဒီ compositional generalization ဟာ အနာဂတ်မှာ ပိုမိုရှုပ်ထွေးတဲ့ scene descriptions များကို ချဉ်းကပ်နိုင်ဖို့ အာရုံစိုက်မှုရှိစေပါတယ်။

အလားတူထင်ရသော အရည်အသွေးရလဒ်များလည်းရှိသည်။ Learn-to-Steer ဖြင့် ထုတ်လုပ်သော ပုံများသည် မူရင်းအတိုင်း မြင်ကွင်းညွှန်ကြားချက်များကို သေချာပြန်လည်အကျိုးဖြစ်စေပြီး ပုံရိပ်အရည်အသွေးမြင့်မားစွာ ထိန်းထားနိုင်သည်။ သာမာန် diffusion သို့မဟုတ် အခြားနည်းလမ်းများဖြင့် အရာဝတ္ထုများကို မှားယွင်းစွာထားရှိခြင်း သို့မဟုတ် အချို့အရာဝတ္ထုများကို ချန်ထားခြင်း ဖြစ်နိုင်သည့် အခြေအနေများတွင် L2S သည် အရာဝတ္ထုများကို မှန်ကန်စွာ စီစဉ်ထားပြီး အရာဝတ္ထုအားလုံးကို ထင်ဟပ်ပါသည်။ ၎င်းသည် ထူးခြားသော တောင်းဆိုချက်များကိုလည်း လွယ်ကူစွာ ကိုင်တွယ်နိုင်သည် - ဥပမာ "သွားတိုက်တံအောက်တွင် ဘတ်စ်ကား" သို့မဟုတ် "လှိုဏ်ခေါက်အောက်တွင် ဆက်ကပ်ရှိသော ဆင်" ကို မှန်ကန်သော အနေအထားဖြင့် ရေးဆွဲနိုင်ပြီး အခြားနည်းလမ်းများကြောင့် ဖြစ်သော ထူးဆန်းသော ပေါင်းစပ်မှုများမရှိပါ။ NVIDIA အသင်းက ၎င်းတို့၏ နည်းလမ်းသည် သုံးခုသော ပျက်ကွက်မှုများကို ကျော်လွှားနိုင်ကြောင်း ပြောကြားထားသည် - ၎င်းသည် အရာဝတ္ထုများကို မှားယွင်းစွာထားရှိခြင်းကို ပြုပြင်ပေးပြီး အရာဝတ္ထုအားလုံးကို ပုံရိပ်တွင် ပါဝင်စေခြင်းနှင့် အရာဝတ္ထု ပေါင်းစပ်မှုကို ရှောင်ရှားနိုင်သည်။ နှိုင်းယှဉ်မှုတွင် အခြားအခြေခံနည်းလမ်းများသည် ပန်းခြင်း သို့မဟုတ် ဇီဘရာကို အခန်းမှ ချန်ထားခြင်း သို့မဟုတ် အဆက်မပြတ်ပေါင်းစပ်မှုများဖြစ်နိုင်သော်လည်း Learn-to-Steer ၏ ထွက်လဒ်များသည် အရာဝတ္ထုအားလုံးကို မှန်ကန်သော အနေအထားဖြင့် ထည့်သွင်းထားသည်။ အဆိုပါ ပြောဆိုချက်တိကျမှုမြင့်မားခြင်းသည် စိတ်ကြိုက် AI ထုတ်လုပ်မှုများ၏ ယုံကြည်စိတ်ချရမှုအတွက် ကြီးမားသော လှုပ်ရှားမှုတစ်ခုဖြစ်သည်။

ဆုံးဖြတ်ချက်ချနေစဉ် အထူးပြုပြင်ခြင်း: ကုန်ကျစရိတ်များနှင့် အလဲအလှယ်များ

Learn-to-Steer ရဲ့ inference ကြောင့် အကောင်းဆုံးဖြစ်အောင်လုပ်ဆောင်တဲ့ နည်းလမ်းက အကျိုးကျေးဇူးတွေနဲ့ စဉ်းစားရမယ့်အချက်တွေကို ယူဆောင်လာပါတယ်။ အကောင်းကြောင်းတစ်ခုကတော့ စမ်းသပ်မှုအချိန်မီ အကောင်းဆုံးဖြစ်အောင်လုပ်ဆောင်ခြင်းက မော်ဒယ်ရဲ့ အလေးချိန်တွေနဲ့ လုပ်ဆောင်မှုတွေကို ပြောင်းလဲဖို့မလိုအပ်ဘဲ ဒေသဆိုင်ရာ အလုပ်တွေကို ပြုလုပ်ဖို့ စျေးကြီးတဲ့ တိကျပြည့်စုံမှုလုပ်ဆောင်ခြင်းကို မလိုအပ်ဘဲ လုပ်ဆောင်နိုင်တာပါ[42]။ တူညီတဲ့ pretrained မော်ဒယ်ကို လိုအပ်တဲ့အခါမှာသာ ပြောင်းလဲနိုင်ပြီး – ဒေသဆိုင်ရာထိန်းချုပ်မှုမလိုအပ်တဲ့အခါမှာ မူလကျွမ်းကျင်မှုကို ထိန်းသိမ်းထားနိုင်ပါတယ်[34]။ ဒါကနေ Fine-tuned မော်ဒယ်တွေနဲ့ တွေ့ရတဲ့ စွန့်စားမှုအမျိုးမျိုးကို ရှောင်ရှားနိုင်ပါတယ်၊ ဥပမာ - အရောင်တိကျမှု သို့မဟုတ် ရေတွက်မှုကဲ့သို့သော အခြားကျွမ်းကျင်မှုတွေကို ရှုံးနိမ့်ပြီး ဒေသဆိုင်ရာဆက်ဆံရေးတွေနဲ့ overfit ဖြစ်နိုင်ပါတယ်[34]။ NVIDIA ရဲ့နည်းလမ်းမှာ၊ prompt က ဒေသဆိုင်ရာဆက်ဆံရေးကို သတ်မှတ်မထားပဲဆိုရင် diffusion မော်ဒယ်ကို ပုံမှန်အားဖြင့် run လုပ်နိုင်ပြီး အပိုမရှိတဲ့ ထပ်တိုးမှုအလုပ်တွေကို မလိုအပ်ဘဲ လုပ်ဆောင်နိုင်ပါတယ်၊ ရှေးဦးမြန်နှုန်းနဲ့ ထုတ်ကုန်လက္ခဏာတွေကို ထိန်းသိမ်းထားနိုင်ပါတယ်။ steering က လိုအပ်တဲ့ prompt တွေအတွက်သာ လုပ်ဆောင်ပါတယ်[43]။

ဒါပေမယ့် အခြားဘက်ကတော့ ဤသဘောထားကို စူးစမ်းမှုအချိန်မှာ အသုံးပြုရင် ကွန်ပျူတာဆိုင်ရာကုန်ကျစရိတ်ပါ ပါဝင်တယ်။ ဒီလုပ်ငန်းစဉ်က image စုဆွဲဖန်တီးရာမှာ ချော့မွှေမှုတွေကို နောက်ပြန်ပို့ရင်း ကလစ်ဖိုင်ယာကို ပြေးရင်း လုပ်ဆောင်ရတာကြောင့် image ဖန်တီးမှုကို သိသိသာသာနှေးကွေးစေနိုင်ပါတယ်။ စာရေးသူတွေက ဘယ်လောက်အထိနှေးကျသွားတဲ့အတိုင်းအတာကို တိုင်းတာထားတယ်။ များစွာအသေးစားတဲ့ Flux 1.0-schnell မော်ဒယ်အတွက် ထုတ်လုပ်မှုက ပုံတစ်ပုံကို ~0.5 စက္ကန့်ကနေ Learn-to-Steer နဲ့ 16.5 စက္ကန့်ဖြစ်သွားတယ်–အချို့ 33× နှေးကျသွားတယ်[44]။ ပိုကြီးတဲ့ Flux 1.0-devမှာ 11 စက္ကန့်ကနေ 6 မိနစ်ဖြစ်သွားတယ် (~33× နှေးကျသွားတယ်)။ သူတို့ရဲ့ hardware မှာ စက်မှုရိုးရှင်းတဲ့ Stable Diffusion 2.1 က ပုံတစ်ပုံကို အမြဲတမ်း 4.5 စက္ကန့်ယူပြီး steering နဲ့ 90 စက္ကန့်ဖြစ်သွားတယ် (~20× နှေးကျသွားတယ်)[44]။ SD1.4 ကလည်း အလားတူ မြင့်တက်မှု (4.5s ကနေ ~80s) တွေ့ရတယ်[44]။ ဤအရာများသည် အလေးပေးစရာကုန်ကျစရိတ်များဖြစ်သည်။ အမြင့်နှုန်းဖြင့် image ဖန်တီးခြင်း သို့မဟုတ် အချိန်နှင့်တပြေးညီသော လျှပ်တပြတ်အသုံးပြုမှုလိုအပ်သောအခြေအနေများတွင် အမြန်နှုန်းနှင့် အတိုင်းအတာ ရှိခြင်းသည် အရေးကြီးသည်။

ဤအခြေအနေကိုလျော့နည်းစေရန် နည်းလမ်းများရှိသည်။ တစ်ခုမှာ အချိန်နှင့် အခြေအနေကို ကန့်သတ်၍ အာနိသင်လုပ်ဆောင်မှုကို ထိန်းချုပ်ခြင်းဖြစ်သည်။ Learn-to-Steer သည် ၎င်းတို့၏ အကောင်အထည်ဖော်ခြင်းတွင် ပျံ့နှံ့မှုအဆင့်၏ ပထမဖက်တွင်သာ အာနိသင်လုပ်ဆောင်မှုကို ပြုလုပ်သည်။ ၎င်းတို့အနေဖြင့် ပုံရိပ်အတွက် လမ်းကြောင်းချမှတ်ရန် လုံလောက်သည်ဟု တွေ့ရှိခဲ့သည်။ ထို့အပြင်၊ ဖော်ပြထားတဲ့အတိုင်း၊ ၎င်းကို ရွေးချယ်စွယ်စုံအသုံးပြုနိုင်သည်။ AI ပုံရိပ်ဝန်ဆောင်မှုသည် ပုံရိပ်ကို ပုံမှန်အားဖြင့် ဖန်တီးပြီး ၎င်း၏ ရလဒ်သည် နေရာတည်နေရာအခြေအနေမှားယွင်းနေသည်ဟု ထင်ရပါက (သို့မဟုတ် သုံးစွဲသူက တိကျသောနေရာအပေါ် သတ်မှတ်ရန် မျှော်လင့်နေပါက) အဲဒီအခါမှာ L2S ကိုဖွင့်လှစ်ပြီး ဒုတိယအကြိမ်ပြေးဆွဲမည်ဖြစ်သည်။ နောက်ထပ်နည်းလမ်းမှာ ထိရောက်မှုကို တိုးတက်အောင်လုပ်ခြင်းဖြစ်သည်။ ဆက်သွယ်မှုအမျိုးအစားသတ်မှတ်စက်သည် သေးငယ်ပြီး သတိထားမှုမြေပုံ အနည်းငယ်သာ ပါဝင်သောကြောင့် အဓိကကြိုးပမ်းမှုမှာ ပျံ့နှံ့မှုမော်ဒယ်ကြီးအား နောက်ပြန်လှည့်ပြီး အဆင့်အနည်းငယ်တွင် ပြုလုပ်ခြင်းဖြစ်သည်။ အနာဂတ်သုတေသနများတွင် ပိုမိုကောင်းမွန်သော အာနိသင်လုပ်ဆောင်သူများ သို့မဟုတ် အစိတ်အပိုင်းပြင်ဆင်မှုများဖြင့် အရှိန်မြှင့်တင်ခြင်းကို ရှာဖွေနိုင်ပါသည်။ သို့သော်လည်း လက်ရှိတွင် ၎င်းနည်းလမ်းကို အတိအကျမှန်ကန်မှုသည် အရှိန်ထက် ပိုမိုအရေးကြီးသော အခြေအနေများတွင် အသင့်လျော်ဆုံးဖြစ်သည်။ ဥပမာ၊ အတိအကျသော ဒီဇိုင်း သို့မဟုတ် မြင်ကွင်းကို ဖန်တီးခြင်း၊ အရည်အသွေးသည် အရေအတွက်ထက် ပိုမိုအရေးကြီးသော နည်းနည်းသော ပုံရိပ်အစုအဝေးများကို ကိုင်တွယ်ခြင်းတို့တွင် ဖြစ်ပါသည်။

ယေဘူယျနှင့် ခိုင်မာမှုသည် ပြန်လည်ညှိဖို့ အခြားဖက်တစ်ဖက်ဖြစ်သည်။ Learn-to-Steer စနစ်သည် မော်ဒယ်ဖွဲ့စည်းပုံများ (UNet နှင့် MMDiT) [24] အနှံ့တွင် အံ့သြဖွယ်ယေဘူယျကျသောကြောင့် အခြား diffusion မော်ဒယ်များ သို့မဟုတ် အနာဂတ်စနစ်များတွင် အနည်းငယ်ပြင်ဆင်မှုဖြင့် ဆောင်ရွက်နိုင်သည်ဟု ဖော်ပြသည်။ လိုအပ်ချက်မှာ မော်ဒယ်မှ လက်ဝါးကပ်တိုင်သွားမှု သို့မဟုတ် ဆင်တူညီသောညှိနှိုင်းချက်ကို ထုတ်ယူနိုင်ရမည်ဖြစ်သည်။ ၎င်းသည် များစွာသော ဆက်ဆံရေးများနှင့် မမြင်ဘူးသော အရာများကို ကိုင်တွယ်ရာတွင် ခိုင်မာမှုကိုလည်း ဖော်ပြသည်။ သို့သော်၊ အချို့ ကန့်သတ်ချက်များအား မှတ်သားရန် အထိုက်အမြတ်ရှိသည်။ စာတမ်း၏ ခွဲခြမ်းစိတ်ဖြာမှုတွင် “အထက်” သို့မဟုတ် “အောက်” ဟု သတ်မှတ်ခြင်းကို 2D အနေနှင့် - ပုံရိပ်၏ ပစ်စကယ်များနှင့် အာရုံစူးစိုက်မှုဖြင့် - လေ့လာမှုဟု ဖော်ပြထားသည်။ ၎င်းသည် တစ်ခါတစ်ရံ သုံးသပ်မှုပြုသော 3D အနေအထားနှင့် ကိုက်ညီမှုမရှိနိုင်သည် [45]။ ဥပမာအားဖြင့်၊ 3D လေ့လာမှုတွင် အရာဝတ္ထုတစ်ခုသည် အခြားအရာဝတ္ထုရှေ့တွင် ရှိနေပါက၊ ကင်မရာထောင့်အချို့မှ 2D ပုံရိပ်တွင် အခြားအရာဝတ္ထု အောက် တွင် တွေ့မြင်နိုင်ပြီး၊ အာရုံစူးစိုက်မှုကို ရှုရလျှင် အနေအထားကို ရှုပ်ထွေးစေသည်။ Learn-to-Steer သည် အလင်းအိမ်သင်္ကေတများ သို့မဟုတ် အမှန်တကယ် ကမ္ဘာ့အရွယ်အစား ဆက်စပ်မှုများကို ထူးခြားစွာ မဖျော်ဖြေရန်၊ ရှုမြင်မှု အာရုံစူးစိုက်မှုအရ တိုးတက်မှုကိုသာ လေ့လာထားသည်။ ထို့ကြောင့် ရှုမြင်မှုများဖြင့် ဆက်စပ်မှုကို ထုတ်လုပ်စေသော်လည်း၊ ၎င်းသည် အမှန်တကယ် ရှင်းလင်းမှုမရှိနိုင်သည် [45]။ ထို့အပြင်၊ ၎င်း၏ နည်းလမ်းသည် ဆက်စပ်မှု သုံးခုအထိ ကိုင်တွယ်နိုင်သော်လည်း၊ မြင်ကွင်းများ အရမ်းပြည့်နက်လာသောအခါ ၎င်း၏ တိကျမှုက ဆုတ်ယုတ်သည် [46]။ ဥပမာအားဖြင့်၊ အရာဝတ္ထု ငါးခုကို အပြန်အလှန် ဆက်စပ်မှုဖြင့် ပြည့်စုံသော မြင်ကွင်းကို ထုတ်လုပ်ရန် ဆက်လက်စိန်ခေါ်မှုဖြစ်နေဆဲဖြစ်ပြီး၊ တစ်ခါတစ်ရံ အောင်မြင်သည်၊ တစ်ခါတစ်ရံ မဖြစ်နိုင် [37]။ ဤကန့်သတ်ချက်များကြောင့် ပိုမိုတိုးတက်စေရန် အခွင့်အလမ်းရှိသည်ကို ဖော်ပြသည်၊ ၎င်းသည် အဆင့်မြင့်သိပ္ပံသုံးစွဲမှု သို့မဟုတ် ကြီးမားသော အခက်အခဲများအတွက် စဉ်ဆက်မပြတ် အစီအစဉ်များကို လက်ခံရရှိစေဖြစ်နိုင်သည်။

ကျယ်ပြန့်သော သက်ရောက်မှုများ: Prompt Fidelity နှင့် အနာဂတ် မော်ဒယ်ဒီဇိုင်း

အကယ်၍ နေရာဒေသဆိုင်ရာ သဘာဝကျမှုကို လွန်စွာတိုးတက်လာစေပါက၊ NVIDIA ၏ Learn-to-Steer သည် ယုံကြည်စိတ်ချရသော မဟာမေးတူမော်ဒယ်စနစ်များဆီသို့ အရေးကြီးသောအဆင့် တစ်ခုကို သွားရာလမ်းပြပါသည်။ ပုံပန်းချီဆရာများ၊ ဒီဇိုင်နာများ၊ စီးပွားရေးဆိုင်ရာ ကုဒ်ရေးသူများစသဖြင့် အသုံးပြုသူများအတွက် နေရာဒေသဆိုင်ရာ ညွှန်ကြားချက်များကို တကယ်လေးနက်စွာ လိုက်နာသော စာသားမှ ပုံရိပ်ပြောင်းမော်ဒယ်တစ်ခု ရှိခြင်းသည် စိတ်ရင်းနှင့် လက်စွဲကင်းစွာဖြစ်စေသည်။ ၎င်းသည် “မင်းရိုက်သည်ကို မင်းရယူ” သို့ ပိုမိုနီးကပ်စေသည်။ ဤသဘာဝကျမှုသည် လှပသောပုံရိပ်များအကြောင်းသာမဟုတ်ဘဲ၊ အသုံးပြုသူ၏ ရည်ရွယ်ချက်နှင့် AI ၏ အထွက်ကို ထိန်းချုပ်နိုင်သော နည်းလမ်းဖြင့် ကိုက်ညီစေခြင်းအကြောင်းဖြစ်သည်။ တစ်မျိုးဖြစ်၍ မဟာမေးတူညီမှု ကို မြှင့်တင်ပေးသည်- စာသားဆိုင်ရာအသုံးအနှုန်း (ဘာသာစကားဖြင့် ရှင်းပြထားသော ဆက်စပ်မှုများ) ကို မျက်မြင်အထွက် (ဖန်တီးထားသော ပုံရိပ်) တွင် ပိုမို သဘာဝကျစွာ မျက်နှာဖုံးပြသသည်။ နေရာဒေသဆိုင်ရာ စူးစမ်းမှုအပေါ်တွင် ကောင်းမွန်သည့် ကိုက်ညီမှုသည် ငွေတောင်းခံမှု၏ အခြားအပိုင်းများသို့လည်း ပြောင်းလဲနိုင်သည်၊ ကာယကံရှင်များ၏ ဂဏန်း၊ အရောင်၊ စုစုပေါင်းညီညွတ်မှုတို့ကို ဖျက်ဆီးခြင်းမရှိဘဲ ထူးခြားသော မအောင်မြင်မှုအခြေအနေများ (ပစ္စည်းတည်နေရာ) ကို ပစ်မှတ်ထားနိုင်သည်ကို ကျွန်ုပ်တို့၏ နည်းလမ်းအရ ပြသသည်။ ဤသည်မှာ ကြီးမားသော ဖန်တီးမှုမော်ဒယ်တစ်ခုထဲတွင် အားလုံးကို မှန်ကန်စွာရရှိရန် မျှော်လင့်ခြင်းထက်၊ နယ်ပယ်ပေါ်အခြေခံသော “သဘောထား” ကို ကြီးမားသော ဖန်တီးမှုမော်ဒယ်တစ်ခုထဲသို့ စနစ်တကျ ထည့်သွင်းနိုင်ကြောင်းကို ပြသချက်တစ်ခုဖြစ်သည်။

ဖြတ်သန်းမှုအာရုံစူးစိုက်မှုမြေပုံများကို သင်ကြားမှုအချက်အလက်အဖြစ် အသုံးပြုခြင်း၏ အောင်မြင်မှုသည် အနာဂတ်မော်ဒယ်ဒီဇိုင်းများနှင့် လေ့ကျင့်ရေးအစီအစဉ်များကို ထိရောက်စေနိုင်သည်။ အနာဂတ်ဖြာထွက်မှုမော်ဒယ်များတွင် အတွင်းပိုင်းတွင် အချို့ကန့်သတ်ချက်များကို စောင့်ကြည့်ခြင်း သို့မဟုတ် အတည်ပြုခြင်းများကို ပေါင်းစပ်ထားသော ယူနစ်များကို ပေါင်းစည်းနိုင်သည်ဟု ခန့်မှန်းနိုင်သည်။ ဥပမာအားဖြင့် နောက်ဆုံးမော်ဒယ်သည် လေ့ကျင့်မှု၏ အစိတ်အပိုင်းတစ်ခုအဖြစ် (ဤအတန်းခွဲခြားသူကဲ့သို့) သင်ယူထားသော သတ်မှတ်ချက်တစ်ခုကို အပါအဝင်ဖြစ်နိုင်သည်၊ ခန့်မှန်းခြင်းက မဟုတ်ပါ။ ထိုကဲ့သို့သောမော်ဒယ်သည် အရာဝတ္ထုများကို မှားယွင်းစီစဉ်သည့်အခါ အပြစ်ပေးသော ဆရာတစ်ဦးနှင့် ထိရောက်စွာ လေ့ကျင့်မည်ဖြစ်ပြီး အဆုံးအဖြတ်အဖြစ် အာကာသဆိုင်ရာအကြောင်းအရာကို ထည့်သွင်းသင်ယူနိုင်သည်။ ဒါဟာ ရေရှည်မှာ စမ်းသပ်မှုအချိန်အတွက် အာရုံစိုက်မှုလိုအပ်ချက်ကို လျှော့ချနိုင်ပါတယ်။ အတူတူ Learn-to-Steer ကဲ့သို့သော ခွဲခြားမှုနည်းလမ်းများသည် လက်ရှိမော်ဒယ်များကို အလွယ်တကူနားလည်နိုင်သော နည်းစနစ်တစ်ခုအဖြစ် အလွယ်တကူထပ်စည်းနိုင်သည့် လက်နက်စွမ်းစုံသော အသုံးအဆောင်အထောက်အကူများကို ပံ့ပိုးပေးသည်။ ၎င်းသည် လုပ်ငန်းအသုံးပြုမှုများအတွက် ဆွဲဆောင်မှုရှိပြီး ခန္ဓာကိုယ်တစ်ခုအနေဖြင့် အသုံးပြုရန်ဘေးကင်းသော နိုင်ငံခြားတောင်းဆိုချက်တစ်ခု (အစီအစဉ်ညွှန်ကြားချက်များကို အမြဲလိုက်နာခြင်းကဲ့သို့) သို့ အထူးသဖြင့် လုံခြုံစွာသင့်လျော်အောင်ပြုလုပ်နိုင်သည်။

ဒါ့အပြင် ဒေတာအခြေပြုဆုံးရှုံးမှုဒီဇိုင်းဆိုင်ရာ ပိုမိုကျယ်ပြန့်သော မက်ဆေ့ခ်ျတစ်ခုလည်း ရှိသည်။ ဆုံးရှုံးမှုအလုပ်ဆောင်ချက်ကို လက်ရာဖြင့်ဖန်တီးခြင်းသည် မော်ဒယ်က ဘယ်လိုဆက်ဆံသင့်ကြောင်း ခန့်မှန်းခြင်းဖြစ်သော်လည်း၊ ဆုံးရှုံးမှုအလုပ်ဆောင်ချက်ကို လေ့လာခြင်းဖြင့် မော်ဒယ်က သူ့အလုပ်ကို ဘယ်လိုလုပ်ရမည်ကို ပြောပြနိုင်သည်။ ဤနေရာတွင် မော်ဒယ်၏ကိုယ်ပိုင်အာရုံစိုက်မှုကို စမ်းစစ်ခြင်းဖြင့် သုတေသနပြုသူများက ဒေတာ (ပုံပြောင်းပေးထားသော ပုံများနှင့် အာရုံစိုက်မှုမြေပုံများ)မှ ရည်မှန်းချက်မှန်ကန်ခြင်းကို ဖော်ထုတ်စေသည်။ ဤနိယာမကို အခြားထုတ်လုပ်မှုညှိနှိုင်းမှုပြဿနာများတွင် လည်း လျှောက်ထားနိုင်သည်။ ယေဘုယျအားဖြင့် “လေ့လာခြင်းဖြင့် လမ်းညွှန်ခြင်း”ကို အခြား ထုတ်လုပ်မှုအသွင်အပြင်အညီအမျှ (ဥပမာ- “အနီရောင် ကုဗ”တစ်ခု အနီရောင်ထွက်ရန် သေချာစေရန်)၊ ရေတွက်ခြင်း (သီးငါးလုံးအတွက် ပရော့မ့်တစ်ခုမှ သီးငါးလုံးကွဲပြားစွာ ထွက်ရှိစေရန်) သို့မဟုတ် ပုံများအနှံ့ စတိုင်အညီအမျှ စသည့် အရာများအတွက် မြင်ရနိုင်သည်။ အခုချိန်တွင် မော်ဒယ်၏ အတွင်းပိုင်းကို သေးငယ်သောကွန်ယက်တစ်ခုဖြင့် လေ့ကျင့်ခြင်းဖြင့် ထုတ်လုပ်မှု၏ အထူးအပိုင်းတစ်ခုကို လမ်းညွှန်ခြင်းပါဝင်သည်။

နောက်ဆုံးတွင် prompt engineering သည် အနုပညာထက် သိပ္ပံ ဖြစ်လာနိုင်သည် ဤနည်းလမ်းများ ကြောင့်ဖြစ်သည်။ ကျွန်ုပ်တို့၏ စာသား prompt များကို မော်ဒယ်ကို နားလည်စေဖို့ ငါးကောင်ပြိုက်ပြောရခြင်း မလိုတော့ပါ၊ “တစ်ခါတစ်ရံမှာ ‘တီဒီးဝက်ဝံရဲ့ ဝဲဘက်ထိပ် မှာ ခွေး’ လို့ ပြောရင် နားလည်မယ်…” ဆိုပြီး အကြောင်းပြောရခြင်း မလိုတော့ပါ။ အဓိပ္ပါယ်ကို အကောင်အထည်ဖော်ရန် လေ့လာထားသော controllers များကို ယုံကြည်နိုင်ပြီ ဖြစ်သည်။ ၎င်းသည် အသုံးပြုသူများကို သူတို့လိုချင်သည်များကို ရိုးရှင်းသော ဝါကျဖြင့် သတ်မှတ်နိုင်စေရန် ဆက်စပ်မှုများကို ထိန်းချုပ်နိုင်စေပြီး စနစ်ကို ယုံကြည်စိတ်ချစေသည်။ အပိုင်းအစများစွာပါဝင်သော prompt များ သို့မဟုတ် ရှုပ်ထွေးသော မြင်ကွင်းများတွင် ဆက်စပ်မှု သို့မဟုတ် အသေးစိတ်ကို ထိန်းချုပ်နိုင်ခြင်းသည် စပ်နှံမှု အလုပ်များအတွက် ဖန်တီးနိုင်သော မော်ဒယ်များကို အသုံးပြုနိုင်သည်။ ဥပမာ - ဇာတ်လမ်းတိုင်းပြုစုခြင်း၊ အသုံးပြုသူအင်တာဖေ့စ် အပြင်အဆင်ကို ဒီဇိုင်းဆွဲခြင်း၊ သိပ္ပံ ပုံစံများကို ဖန်တီးခြင်း စသည်ဖြစ်သည်။

အကျဉ်းချုပ်အဖြစ် NVIDIA ၏ Learn-to-Steer စာတမ်းသည် စက်ရုပ်သင်ယူမှုနှင့် လက်တွေ့ပြဿနာဖြေရှင်းမှုတို့အကြား ပညာရပ်လမ်းညွှန်မှုကို ဖော်ပြထားသည်။ မော်ဒယ်၏ကိုယ်ပိုင်အသိပညာကို (cross-attention မှတစ်ဆင့်) အသုံးချခြင်းဖြင့် သင်ယူထားသော ရည်ရွယ်ချက်ကို ထည့်သွင်းခြင်းဖြင့် လမ်းညွှန်ချက်တိကျမှုအဆင့်အသစ်တစ်ခုကို ရရှိစေသည်။ ဒီနည်းလမ်းက တွက်ချက်မှုကုန်ကျစရိတ်တွင် ကန့်သတ်ချက်များရှိသော်လည်း မူလအတိုင်းပြန်လည်လေ့လာစရာမလိုဘဲ အထူးပြုပြင်ယူနိုင်သောနည်းလမ်းများကို ဖန်တီးပေးသည်။ ဖျော်ဖြေရေးမော်ဒယ်များသည် AI အကြောင်းအရာဖန်တီးမှုတွင် အစိတ်အပိုင်းအဖြစ်ဖြစ်လာချိန်တွင် ဓာတ်ပုံရှိရာနေရာများကဲ့သို့သော "အသေးအဖျင်း" များကို မလွယ်တကူလွှာခြင်းမရှိစေရန် ဤလိုလေ့လာသင်ယူမှုနည်းလမ်းများသည် အထောက်အကူပြုသည်။ သင်ယူထားသော ဆုံးရှုံးမှုလုပ်ဆောင်ချက်ကဲ့သို့သော ထိုထက်သာလွန်သော ထိန်းချုပ်မှုနှင့် လူ့ရည်ရွယ်ချက်နှင့် ပိုမိုညီညွတ်ရန် မော်ဒယ်ကြီးများကို လမ်းညွှန်ပေးနိုင်သည်။ လာမည့်နောက်အနာဂတ်တွင် ထိုကဲ့သို့သော နည်းလမ်းများကို မော်ဒယ်လေ့လာသင်ယူမှုတွင် တိုက်ရိုက်ထည့်သွင်းသင်ယူခြင်း သို့မဟုတ် ကန့်သတ်ချက်အသစ်များကို သုံးစွဲခြင်းတို့အတွက် ပိုမိုချဲ့ထွင်သွားနိုင်ပေမယ့် မော်ဒယ်များကို ကိုယ်တိုင်လမ်းညွှန်သင်ယူသည့်စွမ်းရည်ကို ပိုမိုမြင်တွေ့ရနိုင်စေမည်မှာ သေချာသည်။

[1] [4] [7] စာသားမှပုံပွားဖွဲ့စည်းမှုတွင် အချက်အလက်အခြေပြုဆုံးရှုံးမှုလုပ်ဆောင်ချက်များ

https://learn-to-steer-paper.github.io/

[2] [3] [5] [6] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] ဒေတာအခြေပြုဆုံးဖြတ်ချက်ဆုံးရှုံးမှုလုပ်ဆောင်ချက်များကို စာသားမှပုံရိပ်ဖန်တီးမှုတွင် ကိန်းဂဏန်းအတွင်းအချိန်ခန့်မှန်းမှုအတွက် အသုံးချခြင်း

https://arxiv.org/html/2509.02295v1