ရေးသားသူ: Boxu Li
အတိုးအလျင်သင်ယူမှု (RL) သည်ခေတ်သစ် AI ၏ အခြေခံအုတ်မြစ်တစ်ခုဖြစ်လာပြီး တွန်းအားနှင့် အမှားများမှတဆင့် အကောင်းဆုံးမူဝါဒများကို သင်ယူရန် အေးဂျင့်များကို အခွင့်ပြုသည်။ သို့သော် ကိုယ်ပိုင် AI ၏ အကျိုးအဖြစ်တွင် RL သည် ထူးခြားသော စိန်ခေါ်မှုများကြုံတွေ့ရသည်- ဆုများသည် အပိုင်းပိုင်းဖြစ်ပြီး ပတ်ဝန်းကျင်များသည် မပြောင်းလဲနိုင်ခြင်း၊ ယဉ်ကျေးမှုစဉ်လာများဖြစ်သည်။ Macaron AI ၏ဒီဇိုင်နာများက ဤစိန်ခေါ်မှုများကို တိုက်ရိုက်ရင်ဆိုင်ခဲ့ပြီး မှတ်ဥာဏ်စီမံခန့်ခွဲမှု၊ ကုဒ်ဖန်တီးမှု၊ စကားပြောစတိုင်နှင့် အခြားအရာများကို အုပ်ချုပ်သည့် အထပ်ထပ် RL စနစ်တစ်ခုကို တည်ဆောက်ခဲ့သည်။ ဤဘလော့ဂ်တွင် Macaron သည် ကိုယ်ပိုင်အေးဂျင့်တစ်ယောက်ကို ဖန်တီးရန် အဆင့်လိုက် RL, ဆုမော်ဒယ်လုပ်ခြင်း, ခရက်ဒစ် ချိန်သတ်ခြင်း နှင့် တရားမျှတမှု ကန့်သတ်ချက်များ ကို မည်သို့ အသုံးပြုသည်ကို စိစစ်တင်ပြထားသည်။ Macaron ၏ RL လမ်းလျှောက်မှုကို အခြားဒိုမိန်းများနှင့် နှိုင်းယှဉ်ကာ အနာဂတ်လမ်းကြောင်းများကိုလည်း ရှာဖွေကြည့်ပါ။
ဘုတ်ပြားဂိမ်းသို့မဟုတ် အတုအယောင် ပတ်ဝန်းကျင်များနှင့် မတူဘဲ, ကိုယ်ပိုင်အေးဂျင်များသည် တာဝန်အောင်မြင်မှုမှသာ ဆုကိုရယူ၍ မရနိုင်သော ပွင့်လင်းသောနေရာများတွင် လည်ပတ်ကြသည်။ Macaron သည် ဖျေါပွ ချက် (စကားဝိုင်းအရှည်, အသုံးပြုမှုကြိမ်ရေ, အသုံးပြုသူ၏ တုံ့ပြန်မှု၏ လက္ခဏာ) နှင့် ပေါ်လွင် ချက် (အဆင့်သတ်မှတ်ချက်များ, လက်မလိုက်/အောက်သို့ လက်) ကို စုဆောင်းပြီး ဆုပြုလက္ခဏာကို တည်ဆောက်သည်။ ဥပမာအားဖြင့်, ဂျပန်အသုံးပြုသူသည် အေးဂျင့်သည် ယဉ်ကျေးသော ဘာသာစကားကို အသုံးပြုခြင်းနောက်ပိုင်းတွင် စကားဝိုင်းပိုရှည် လည်ပတ်ခြင်းဖြင့် ဒါရိုက်တာ ပေါင်းစပ်မှုသည် တူညီသော အပြုအမူအတွက် ဆုချီးမြှင့်မှုကို တိုးတက်စေသည်။ ကိုရီးယားအသုံးပြုသူသည် ပုံစံနှင့်အညီ UI ပုံစံအတွက် ဆုချီးမြှင့်မှုကို လျော့နည်းစေရန် မီနီအက်ပ်ကို မကျေနပ်မှုကြောင့် ဆုချီးမြှင့်မှုကို လျော့နည်းစေသည်။ ဒီလက္ခဏာများသည် ဆုချီးမြှင့်မှု မော်ဒယ် သို့ထိန်းသိမ်းထားသော အခြေအနေ တစ်ခုနှင့် လုပ်ဆောင်ချက်အတွက် အသုံးပြုသူကျေနပ်မှုကို ခန့်မှန်းသည်။
Macaron ရဲ့ RL က အများပြည်သူရည်ရွယ်ချက် ပါ။ အသုံးပြုသူကျေနပ်မှုအပြင် ဘာသာရပ်တွေထဲမှာ privacy၊ compliance၊ resource usage နဲ့ ethics တွေလည်း ပါဝင်ပါတယ်။ သင့်လျော်တဲ့ ခွင့်ပြုချက်မရှိဘဲ အရင်းအမြစ်တွေကို မျှဝေရင် အပြစ်ပေးပြီး memory ကို ထိရောက်စွာ လျှော့ချနိုင်ရင် ဆုကြေးပေးပါတယ်။ Code များပြားမှုမှာ ထိရောက်မှုနဲ့ ထိန်းသိမ်းနိုင်မှုက ဆုကြေးကို သက်ရောက်စေပါတယ်။ မလိုအပ်တဲ့ 100,000 လိုင်းထုတ်လုပ်ရင် အနိမ့်ဆုကြေးရပါတယ်။ ဆုကြေးအလေးချိန်တွေကို ဒေသအလိုက် ပြင်ဆင်ထားပါတယ်။ ဂျပန်က privacy နဲ့ transparency ကို အာရုံစိုက်တာကြောင့် privacy ချိုးဖောက်မှုအတွက် အပြစ်ပေးမှု အလေးချိန်ကို မြင့်သတ်မှတ်ပြီး ကိုးရီးယားက innovation ကို အာရုံစိုက်တာကြောင့် မြန်နှုန်းနဲ့ ထူးခြားမှုကို အလေးချိန် ပိုထားနိုင်ပါတယ်။ ဒီရည်ရွယ်ချက်တွေကို ချိန်ညှိဖို့ သေချာစွာ ဒီဇိုင်းဆွဲရမှာဖြစ်ပြီး Macaron က ရှုံးနိမ့်တဲ့ ရွေးချယ်မှုတွေကို အလေးချိန်နဲ့ dynamic scaling အသုံးပြုပြီး ရွေးချယ်မှုတစ်ခုကို ပြောင်းလဲတဲ့ scalarization function ကို သုံးပါတယ်။
လူသားများမှတဆင့် သုံးသပ်ချက်များသည် AI စနစ်များကို တန်ဖိုးများနှင့် ကိုက်ညီစေရန် အရေးကြီးသည်။ Macaron သည် အသုံးပြုသူတို့နှစ်သက်ရာကို မေးမြန်းခြင်းအားဖြင့် နှစ်သက်မှု ထုတ်ယူမှုကို အကောင်အထည်ဖော်သည်၊ ထိုသို့ ပြုလုပ်ရာတွင် အခြားတုံ့ပြန်ချက်များ သို့မဟုတ် mini‑app ဒီဇိုင်းများကို ဖော်ပြပါသည်။ ဤဒေတာသည် လျှို့ဝှက်သုံးစွဲမှုလုပ်ဆောင်ချက်များပေါ်တွင် သင်ယူသော ခန့်မှန်းမှု မော်ဒယ်သို့ ရောက်ရှိစေရန် အထောက်အပံ့ဖြစ်ပါသည်။ ဤနည်းလမ်းသည် အကြီးစားဘာသာစကားမော်ဒယ်များကို လေ့ကျင့်ရန် အသုံးပြုသော RLHF (လူသားများမှတဆင့် အားကောင်းမှု လေ့ကျင့်မှု) နှင့် ဆင်တူပါသည်၊ သို့သော် Macaron သည် ယဉ်ကျေးမှု အမှတ်အသားများကို ထည့်သွင်းထားခြင်းဖြင့် ပိုမိုကျယ်ပြန့်စေပါသည်။ ဂျပန်မှတ်ချက်ရေးသူများသည် ယဉ်ကျေးမှုနှင့် အကြောင်းအရာကို မှတ်ချက်ရေးသားကြပြီး၊ ကိုရီးယားမှတ်ချက်ရေးသူများသည် အဖွဲ့စည်းရေးမှု vs တစ်ဦးချင်းရေးမှုကို မှတ်ချက်ရေးသားကြသည်။ အဆိုပါ အကျိုးအမြတ်မော်ဒယ်သည် ယဉ်ကျေးမှုအထူးကျသော နှစ်သက်မှုများကို အပြည့်အဝ အလွန်ခက်ခဲမှုကို ဖော်ပြသည်။
Macaron ရဲ့ တာဝန်တွေက ပုံမှန်စကားပြောဆိုမှုကနေ နည်းပညာဆိုင်ရာအပြောင်းအလဲတွေ ဖန်တီးခြင်းအထိ ကွဲပြားပါတယ်။ ဒီမတူကွဲပြားမှုကို စီမံခန့်ခွဲဖို့ စနစ်က အဆင့်လိုက် RL ကို အသုံးပြုပါတယ်။ အပေါ်ဆုံးအဆင့်မှာ meta-controller က စကားပြောဆိုမှု စီမံသူ၊ မှတ်ဉာဏ် စီမံသူ၊ ဖျော်ဖြေရေးအင်ဂျင်၊ စိတ်ခံစားမှု စီမံသူ စတဲ့ မော်ဂျူးတွေကို ရွေးချယ်ပါတယ်။ မော်ဂျူးတိုင်းကို သီးခြား RL မူဝါဒနဲ့ ထိန်းချုပ်ထားပါတယ်။ ဥပမာအားဖြင့် မှတ်ဉာဏ် စီမံသူက ဘာကို သိမ်းရမလဲ ဒါမှမဟုတ် မေ့ရမလဲ ဆိုတာ RL ကို သုံးပြီး ဆုံးဖြတ်ပေးပါတယ်၊ ဖျော်ဖြေရေးအင်ဂျင်ကတော့ ကုဒ်နမူနာတွေကို ရွေးချယ်ဖို့ RL ကို သုံးပါတယ်။ meta-controller က မော်ဂျူးအလိုက်ဆုကြေးတွေကို ပေါင်းစည်းထားတဲ့ အဆင့်မြင့်ဆုကြေးကို လက်ခံပြီး အလုပ်တာဝန်တွေကို အပ်နှင်းရမယ့်အခါကို သင်ယူပါတယ်။ ဒီအပိုင်းပိုင်းခွဲခြင်းက ရှာဖွေရေး နယ်ပယ်ကို လျှော့ချပြီး နမူနာထိရောက်မှုကို တိုးတက်စေတယ်။
Moduleတွေမှာ Macaron က options framework ကိုအသုံးပြုပြီး ပြန်လည်အသုံးပြုနိုင်တဲ့ sub‑policyတွေကို ကိုယ်စားပြုပါတယ်။ "option" ဆိုတာက subgoalတစ်ခုကို အောင်မြင်ဖို့ လုပ်ဆောင်ချက်တွေရဲ့ အစီအစဉ်တစ်ခုနဲ့ ကိုက်ညီပါတယ်၊ ဥပမာ "လွန်ခဲ့တဲ့လရဲ့ ကုန်ကျစရိတ်ကို အကျဉ်းချုပ်ပါ" ဒါမှမဟုတ် "နှစ်ဘာသာစကားလေ့လာမှုအစီအစဉ်ကို အကြံပြုပါ"။ ဂျပန်ဒေသက ရှာဖွေတွေ့ရှိထားတဲ့ optionsတွေကို အခြေခံဖွဲ့စည်းပုံကိုက်ညီရင် ကိုရီးယားဒေသကို ပြောင်းလဲတင်ပြနိုင်ပါတယ်။ Macaron က အသုံးပြုသူရဲ့ တောင်းဆိုချက်ကို ဘာသာစကားတစ်မျိုးမှာ ထိရောက်စွာ ကိုင်တွယ်နိုင်တဲ့ နည်းလမ်းတစ်ခုကို လေ့လာပါက၊ အဲဒီစိတ်ကူးအရာဝတ္ထုဟာ အခြားသောဘာသာစကားတစ်ခုမှာ ပေါ်လာတဲ့အခါ အဲဒီအပြောအဆိုကို ပြန်လည်အသုံးပြုနိုင်ပြီး လျင်မြန်စွာ ချိန်ညှိနိုင်စေပါတယ်။
အချိန်အတိုင်းအတာအထွေထွေသည် RL အေးဂျင်များကို ကွာခြားသော အချိန်အတိုင်းအတာများပေါ်တွင် ဆင်ခြင်နိုင်စေရန် ခွင့်ပြုသည်။ Macaron သည် အများအပြားအကြိမ်ပြောဆိုမှုများ သို့မဟုတ် ရှည်လျားသော တွက်ချက်မှုများကို ထည့်သွင်းသော macro-actions ကို သတ်မှတ်သည်။ ဥပမာအားဖြင့် ကိုရီးယားမိသားစု အပန်းဖြေနေ့ရက်ကို စီစဉ်ရာတွင် ရောက်ရှိရာနေရာရွေးချယ်ခြင်း၊ သယ်ယူပို့ဆောင်ရေး၊ အိမ်ရာနှင့် ခရီးစဉ်ဒီဇိုင်းကို အပါအဝင်သော macro-action ဖြစ်ပါသည်။ RL အေးဂျင်များသည် အတိုက်အခံရမှတ်ပေါ်မူတည်၍ macro-action ကို အကဲဖြတ်ကြသည်။ ၎င်းသည် အေးဂျင်ကို နောက်ထပ် အချိန်ကြာရှည်ကျေနပ်မှုကို အာရုံစိုက်စေနိုင်သည်။ ဥပမာအားဖြင့် ကျောင်းအားလပ်ရက်နှင့် ကိုက်ညီစေရန် သို့မဟုတ် အချိန်ဇယားပြဿနာများကို ရှောင်ရှားစေရန် စသည်ဖြင့်။
အချိန်နောက်ကျမှဆုလာဘ်ရရှိသောအခါ အထူးသတ်မှတ်ထားသော လုပ်ဆောင်မှုများအတွက် ခရက်ဒစ်ပေးခြင်းမှာ ခက်ခဲသည်။ Macaron သည် အချိန်တစ်ခုချင်းစီကို ချည်ဖြင့် ဖက်ထားခြင်းကို အသုံးပြုပြီး အချိန်အတွင်းဖြစ်ရပ်များကို အကြောင်းအရာဖြင့် ချိတ်ဆက်သည်။ အေးဂျင့်သည် အမှတ်တရများကို ကိုယ်စားပြုသော node များနှင့် အကြောင်းရင်းဆက်နွယ်မှုများကို ကိုယ်စားပြုသော အစွန်းများပါသော အပြန်အလှန်ဆက်ဆံမှုများ၏ စကားဝိုင်းကို တည်ဆောက်သည်။ အကျိုးအမြတ်တစ်ခုကို အကဲဖြတ်သောအခါ၊ စနစ်သည် အပြန်လမ်းကြောင်းကို ကျော်ဖြတ်ကာ မည်သည့် ရှာဖွေရေးများ သို့မဟုတ် အပြုအမူများက ထည့်သွင်းခဲ့ကြောင်း ကိုယ်စားပြုသည်။ ဥပမာအားဖြင့်၊ ဂျပန်ပွဲတော်ကို အကြံပြုခြင်းက ရှေ့နှစ်ပတ်များအတွင်း အသုံးပြုသူ၏ ဝမ်းမြောက်မှုကို တိုးတက်စေခဲ့လျှင်၊ အေးဂျင့်သည် ပွဲတော် အမှတ်တရကို ရှာဖွေခြင်းနှင့် သက်ဆိုင်သော mini-app ကို ထုတ်လုပ်ခြင်းနှင့် ဆု၏ အစိတ်အပိုင်းကို သတ်မှတ်သည်။ ဤ အကြောင်းအရင်းအဖြစ်မှန်ကို လေ့လာခြင်းက RL မူဝါဒကို ထိရောက်သော ရှာဖွေရေး နည်းဗျူဟာများကို လေ့လာရန် အထောက်အကူပြုသည်။
အကြွေးဝယ်ခြင်းအရည်အသွေးကို တိုးတက်အောင် လုပ်ဆောင်ရန်အတွက် Macaron သည် counterfactual anchoring ကို အသုံးပြုသည်။ အေးဂျင့်သည် မျိုးစုံသော လုပ်ဆောင်ချက်များကို စဉ်းစားပြီး ရလဒ်ကွာခြားမှုကို ခန့်မှန်းသည်။ ကိုရီးယားအသုံးပြုသူကို မိသားစုဖြစ်ရပ်အကြောင်း မသတိပေးခြင်းက အရှက်ကြီးစေမည်ဟု ဖော်ပြပါက အဖြစ်မှန်သတိပေးချက်သည် အပြုသဘောဆောင်သော counterfactual ဆုကို ရရှိသည်။ ဤကဲ့သို့ အေးဂျင့်သည် ရှိစဉ်မေ့နေခြင်း သို့မဟုတ် အချက်အလက်ကို သတိရခြင်း၏ ရလဒ်များကို ကြိုတင်ခန့်မှန်းရန် အားပေးသည်။ Counterfactual အကြောင်းပြချက်သည် overfitting ကိုလည်း ကာကွယ်ပေးသည်။ အေးဂျင့်သည် အောင်မြင်သော လုပ်ဆောင်ချက်ကို ထပ်မံလုပ်ဆောင်ခြင်းသည် အမြဲတမ်း အပြုသဘောဆောင်သော ဆုကို ရရှိမည်ဟု အလိုအလျောက် မယူဆဘဲ၊ အက်ရှင်မှ ရလဒ်ကို ဖြစ်ပေါ်စေမှုရှိကြောင်း စမ်းသပ်သည်။
Macaron ရဲ့ RL အကောင်အထည်ဖော်မှုမှာ eligibility traces လို့ခေါ်တဲ့စနစ်ပါဝင်ပါတယ်။ ဒီစနစ်က အကျိုးပြုမှုကို ဆုလာဘ်ရရှိမှုကိုရှေ့ပြေးတဲ့ အခြေအနေများနဲ့ လုပ်ဆောင်ချက်များကို ချီးမွမ်းပေးပါတယ်။ အေးဂျင့်က နောက်ကျမှ ဆုလာဘ် (ဥပမာ - mini-app ကို ရက်သတ္တပတ်များစွာ အသုံးပြုပြီး သုံးစွဲသူရဲ့ ကျေနပ်မှု) ရရှိတဲ့အခါမှာ trace က အစီအစဉ်ကို အစောပိုင်းဆုံးဖြတ်ချက်များ (ဥပမာ - မှတ်ဉာဏ်ရွေးချယ်မှု၊ စကားပြောဆန်မှုနဲ့ ကုဒ် module ရွေးချယ်မှု) ထံပြန်လည်ဖြန့်ဝေဖို့ ကူညီပေးပါတယ်။ Eligibility traces တွေကို လျော့ချမှုအချက်ဖြင့် အလေးပေးထားပါတယ်။ ဆုလာဘ်နဲ့နီးသော အခြေအနေများက ပိုမိုမြင့်မားသော ချီးမွမ်းမှုကို ရရှိပါတယ်။ ဒီစနစ်က အေးဂျင့်ကို ရေရှည်ကျေနပ်မှုကို အထူးပြုလုပ်ရန် အားပေးပါတယ်။
အားဖြည့်သင်ယူမှုသည် အကြောင်းပြချက်ဒေတာမှ မတော်တဆ ဘွတ်ကလိပ်များကို သင်ယူနိုင်သည်။ Macaron သည် အကျိုးဆောင်မှုလုပ်ဆောင်ချက်အတွင်း ဖြစ်နိုင်ခြေအလေးချိန်များကို ထည့်သွင်းခြင်းဖြင့် ဖြေရှင်းသည်။ ဥပမာ၊ အေးဂျင့်သည် မေးမြန်းခြင်းမရှိဘဲ လိင်နှင့်သက်ဆိုင်သော လှုပ်ရှားမှုများကို အမြဲတမ်း အကြံပြုလျှင် ဒဏ်ခံရမည်။ စနစ်သည် လူမှုဖွဲ့စည်းမှုအုပ်စုများအကြား အကြံပြုမှုပုံစံများကို ကြည့်ရှုပြီး အခွင့်အလမ်းများကို ညီမျှအောင် အကျိုးဆောင်မှုများကို ချိန်ညှိသည်။ ဘဏ္ဍာရေး သို့မဟုတ် ကျန်းမာရေးကဲ့သို့ အထိခိုက်လွယ်သော အကြောင်းအရာများကို ကိုင်တွယ်ရာတွင်၊ ယဉ်ကျေးမှုစည်းမျဉ်းများနှင့် တရားဥပဒေရေးရာလိုအပ်ချက်များကို ကုဒ်ဖြင့်ဖော်ပြထားသော အကျင့်စည်းကမ်းမူဝါဒစာကြည့်တိုက်ကို အေးဂျင့်က အသုံးပြုသည်။ ဤလမ်းညွှန်ချက်များကို ချိုးဖောက်ခြင်းဖြစ်ပေါ်ပါက အနုတ်ကျိုးဆောင်မှုကို သို့မဟုတ် အလုပ်ဆောင်ခြင်းကို တားမြစ်ခြင်းကို ဖြစ်ပေါ်စေသည်။
ကိုရီးယားနိုင်ငံ၏ AI Framework ဥပဒေသည် အရေးကြီးသော စနစ်များနှင့် ထုတ်လုပ်မှု AI အကြောင်းကြားစာများအတွက် လူ့အခြေပြုထိန်းကြပ်မှုကို လိုအပ်သည်။ Macaron သည် ဘဏ္ဍာရေးအစီအစဉ် သို့မဟုတ် ကျန်းမာရေးဆိုင်ရာ အကြံပေးမှုများကဲ့သို့ အဓိကဆုံးဖြတ်ချက်များအတွက် လူ့အခြေပြုထိန်းကြပ်မှုကို ထည့်သွင်းခြင်းဖြင့် လိုက်နာသည်။ ကိုရီးယားအသုံးပြုသူတစ်ဦးက အရေးကြီးသော mini-app တစ်ခုကို ထုတ်လုပ်သောအခါ၊ စနစ်သည် သူတို့ကို လုပ်ဆောင်ချက်များကို ပြန်လည်သုံးသပ်ရန်နှင့် အတည်ပြုရန် တိုက်တွန်းသည်။ ဂျပန်၏ AI မြှင့်တင်ရေး ဥပဒေသည် ထင်ရှားမှုကို အရေးပါစေသည်။ ထို့ကြောင့် Macaron သည် RL ဆုံးဖြတ်ချက်များကို မှတ်တမ်းတင်ပြီး အချို့သော မှတ်ဉာဏ်များ သို့မဟုတ် module များကို ရွေးချယ်ခြင်းအကြောင်း ရှင်းလင်းချက်များကို အသုံးပြုသူများကို ပေးသည်။ ဤအရုဏ်များသည် ယုံကြည်မှုကို တည်ဆောက်ပြီး တာဝန်ယူမှုကို သေချာစေသည်။
ဂျပန်နိုင်ငံ၏ AI ဥပဒေသည် ကန့်သတ်ချက်မဟုတ်သောအခါ အမည်နှင့်အတူရှက်စရာ mécanisme ကို ချမှတ်သည်။ Macaron ၏ RL မှတ်တမ်းများတွင် အကျိုးခံစားခွင့်များသာမက ဆုံးဖြတ်ချက်များ၏ ဖြစ်ရပ်မှန်လည်း ပါဝင်သည်။ ထိန်းသိမ်းရေးအဖွဲ့များ စုံစမ်းစစ်ဆေးပါက ကုမ္ပဏီသည် ကွဲပြားမှုများကို ဖြေရှင်းခဲ့ပြီး ပုဂ္ဂိုလ်ရေးနှင့်ပတ်သက်သော စည်းမျဉ်းများကို လေးစားခဲ့သည်ဆိုသည်ကို ပြသနိုင်သည်။ ၎င်းမှတ်တမ်းများသည် အသုံးပြုသူ စစ်ဆေးမှုများကိုလည်း ထောက်ပံ့ပေးပြီး ပုဂ္ဂိုလ်များသည် ၎င်းတို့၏ အကြံပြုချက်များက အေးဂျင့်၏ အပြုအမူကို မည်သို့ ထိရောက်မှုရှိခဲ့သည်ကို မြင်ရသည်။ ယင်းကဲ့သို့သော ပွင့်လင်းမြင်သာမှုသည် RL ကို မမှန်ကန်စွာ သုံးစွဲမှုမှ ကာကွယ်ပေးပြီး အကျိုးကျေးဇူးရှိသော ဆန်းသစ်တီထွင်မှုကို အခိုင်အမာတည်ထောင်ပေးသည်။
RL သည် ဂိမ်းကစားခြင်း (AlphaGo, Dota 2), ရိုဘော့များနှင့် အကြံပြုစနစ်များတွင် အထူးကောင်းမွန်သော ရလဒ်များကို ပေးစွမ်းခဲ့သည်။ သို့သော်၊ ဤပတ်ဝန်းကျင်များသည် ရှင်းလင်းသောရည်ရွယ်ချက်များ (ဂိမ်းအနိုင်ရခြင်း၊ အမှားလျှော့ချခြင်း) နှင့် ရှင်းလင်းသော ဆုလာဘ်များ ရှိသည်။ ပုဂ္ဂိုလ်ရေး AI သည် အစီအစဉ်မရှိသော ဒေတာများမှ ရည်ရွယ်ချက်များကို ခန့်မှန်းပြီး လူ့အဖွဲ့အစည်း၏ တန်ဖိုးများနှင့် ကိုက်ညီရမည်ဖြစ်သည်။ ဂိမ်းကစားခြင်းတွင် ရှာဖွေရေးသည် အခက်အခဲမရှိဘဲ ဖြစ်လေ့ရှိသည်။ ကစားသူသည် နေရာအသာရရန် ခြေတံတစ်ခုကို အလှူခံနိုင်သည်။ ပုဂ္ဂိုလ်ရေး AI တွင် အသုံးပြုသူ၏ ယုံကြည်ချက်ကို ခဏတာစိတ်ဝင်စားမှုအတွက် လွှတ်လွှတ်သွားခြင်းကို လက်ခံလို့မရပါ။ Macaron ၏ ဆုလာဘ်မော်ဒယ်သည် ယုံကြည်မှုကိုလျော့နည်းစေသော လုပ်ဆောင်ချက်များကို ထိထိရောက်ရောက်ပြစ်တင်သည်၊ လိုအပ်သောအခါ စနစ်ကို ထိန်းသိမ်းထားစေသည်။
အချို့သော အခမဲ့ဖြန့်ဝေမှု ပရောဂျက်များသည် အလုပ်များကို အချိန်စီစဉ်ရန် သို့မဟုတ် လုပ်ငန်းလုပ်ငန်းစဉ်များကို အလိုအလျောက်လုပ်ဆောင်ရန် RL-အခြေခံ ပုဂ္ဂိုလ်ရေးအကူအညီများကို ပေးပါသည်။ ဤစနစ်များသည် များသောအားဖြင့် အသုံးပြုသူ၏ တုံ့ပြန်ချက်ကို အမြဲတမ်းယူဆပြီး အလုပ်များကို လွတ်လပ်သောအဖြစ် ဖျော်ဖြေရန် ကြိုးစားသည်။ Macaron သည် ၎င်း၏ မှတ်ဉာဏ် အင်ဂျင်မှတစ်ဆင့် အလုပ်များကို ပေါင်းစပ်ခြင်းနှင့် အပြန်အလှန်ဆက်သွယ်မှုများကို စီမံရန် အဆင့်လိုက် RL ကို အသုံးပြုခြင်းဖြင့် ကွဲပြားသည်။ ၎င်း၏ RL မော်ဒယ်သည် ယဉ်ကျေးမှု အကြောင်းအရာများ၊ ကိုယ်ရေးအချက်အလက် ကာကွယ်မှု စည်းမျဉ်းများနှင့် ကုဒ် မျိုးစုံဖန်တီးမှုတို့နှင့် နက်ရှိုင်းစွာ ချိတ်ဆက်ထားပြီး ပိုမိုရှုပ်ထွေးသော်လည်း ပိုမိုစွမ်းဆောင်နိုင်သည်။ အခြားအေးဂျင့်များသည် နားထောင်မှု သမိုင်းအရ သီချင်းများကို အကြံပြုရန် RL ကို အသုံးပြုနိုင်သော်လည်း၊ Macaron သည် သင်၏ မိခင်ကို ခေါ်ဆိုရန် သတိပေးရန် သင့်လျော်မည်ကိုဆုံးဖြတ်ရန် RL ကို အသုံးပြုပြီး လက်ဆောင်အကြံပြုချက်ကို ဖန်တီးရန် ဆုံးဖြတ်သည်။
သုတေသနပညာရှင်များက RLHF နှင့် မထိန်းချုပ်သော ပတ်ဝန်းကျင် ဒီဇိုင်းကဲ့သို့သော ကြီးမားသော ဘာသာစကားမော်ဒယ်များကို ထိန်းချုပ်ရန် RL နည်းလမ်းများကို အကြံပြုခဲ့ကြသည်။ Macaron သည် အများပြည်သူအသုံးပြု အမျိုးမျိုးသော နယ်ပယ်များ၊ ဘာသာပြန်ပတ်ဝန်းကျင်တွင် RL ကို သက်ဆိုင်စေခြင်းဖြင့် ယင်းစာပေသို့ ပါဝင်သည်။ FireAct စီမံကိန်းက အရင်က RL သည် prompt-based ကိုယ်စားလှယ်များထက် ၇၇% အထိ ဆင်ခြင်မှု တိကျမှုကို တိုးတက်စေသည်ဟု အတည်ပြုပြီးဖြစ်သည်။ Macaron သည် RL မူဝါဒများကို ဆင်ခြင်မှု လုပ်ငန်းများအပြင် မှတ်ဉာဏ်စီမံခန့်ခွဲမှု၊ ကုဒ်သင်္ချာနှင့် ဆွေးနွေးပုံစံတို့တွင်လည်း လေ့ကျင့်ခြင်းဖြင့် ဤအယူအဆကို တိုက်ရိုက်ဆက်လက်လုပ်ဆောင်သည်။ ၎င်းသည် တစ်ဦးချင်းစီ၏ ရှေ့နေများတွင် RL ကို အတိုင်းအတာကျယ်ဝန်းစွာ အသုံးပြုနိုင်ရန် အဆင့်လိုက် ဒီဇိုင်း၊ ခရက်ဒစ်ပေးအပ်ခြင်းနှင့် တရားမွန်မှု ကန့်သတ်ချက်များ၏ အရေးပါမှုကို ပြတဲ့အခါ အရေးကြီးသည်။
အားဖြည့်သင်ယူမှုသည် ဆုလာဘ်အတွက် အကောင်းဆုံးဖြစ်ရန် ပြုလုပ်ပေးသော်လည်း၊ ဆုလာဘ်အလုပ်ခွင့်များသည် ယဉ်ကျေးမှုအမျိုးမျိုးအတွက် လူသားတို့၏ တန်ဖိုးများကို ဖျော်ဖြေရန်ဖြစ်သည်။ Meta‑ethical မေးခွန်းများပေါ်ပေါက်သည် - အေးဂျင့်သည် ဝမ်းသာခြင်းကို အများဆုံးဖြစ်စေရန်ကြိုးစားသင့်သလား၊ တာဝန်ကို အခြေခံသော အကျင့်ပညာကို လမ်းညွှန်သင့်သလား၊ သို့မဟုတ် တရားမျှတမှုနှင့် ကိုယ်ပိုင်အခွင့်အရေးကို ထိန်းသိမ်းသင့်သလား။ Macaron သည် ယဉ်ကျေးမှုဒေတာမှ ဝင့်အပ်ချက်များ ကို သင်ယူခြင်းဖြင့် ထိုသို့သော သဘောထားများကို ပေါင်းစည်းသည်။ ဂျပန်နိုင်ငံတွင် အပြုအသုံးနှင့် လူမှုစည်းမျဉ်းကို အထူးတန်ဖိုးထားသော ယဉ်ကျေးမှုတွင်၊ ဆုလာဘ်မော်ဒယ်သည် ယဥ်ကျေးမှု၊ သဘောတူညီမှုနှင့် ညံ့ဖျင်းမှုကို အထောက်အပံ့ပြုသည်။ ကိုရီးယားတွင် အသိုင်းအဝိုင်း၏ ခံနိုင်ရည်နှင့် ရဲရင့်သော ဆန်းသစ်မှုကို တန်ဖိုးထားသော ယဉ်ကျေးမှုတွင်၊ ဒီမော်ဒယ်သည် ကြိုးစားမှုနှင့်တင်ပြမှုကို အထောက်အပံ့ပြုသည်။ ထိုနာမည်ကြီး အခြေခံအကျင့်များသည် အတည်မဖြစ်ပေ။ အသုံးပြုသူများသည် ကျင့်ဝတ်လျှောက်လွှာများကို လေ့လာနိုင်သည်။ Macaron သည် အကန့်အသတ်များအောက်တွင် တန်ဖိုးအနေအထားကို လေ့လာသည်။ လက်ရှိသုတေသနလမ်းကြောင်းတွင် - အသုံးချမှုအကျိုး၊ တာဝန်ကျင့်ဝတ်၊ အကျင့်ပညာ အစရှိသော အကျင့်ပညာဆိုင်ရာ သီအိုရီများကို RL အေးဂျင့်များထဲသို့ ပေါင်းစည်းခြင်းဖြစ်သည်။ ၎င်းသည် ငွေကြေးစီမံကိန်း၊ ကျန်းမာရေးအကြံဉာဏ်များကဲ့သို့သော အရေးကြီးဆုံးဆုံးဖြတ်ချက်များအတွက် အထူးသဖြင့် ကောင်းကျိုးပြုသည်။
ပုဂ္ဂိုလ်ရေးအေးဂျင့်များသည် မိသားစုများ၊ အဖွဲ့အစည်းများနှင့် အသိုင်းအဝိုင်းများအတွင်း တွေ့ဆုံဆက်ဆံမှုများကို နည်းလမ်းပေးနေသောအခါများလာနေပြီ။ လူမှုအားဖြည့်သင်ယူမှုသည် လုပ်ငန်းတစ်ခုချင်းစီ၏အကျိုးပြုမှုကို ထည့်သွင်းစဉ်းစားရမည့် အခါများသောအခါများလာသောအခါတွင် စတင်၍ RL ကို အများစုအေးဂျင့်များအတွက် ချဲ့ထွင်သည်။ ဥပမာအားဖြင့် မိသားစုပွဲတစ်ခုကို အချိန်ညှိခြင်းဖြင့် Macaron သည် ကိုယ်ပိုင်နှစ်သက်မှုများ (ကိုယ်ရေးကိုယ်တာ၊ အလုပ်တာဝန်များ) နှင့် အစုလိုက်ကျေနပ်မှုတို့ကို ချိန်ညှိရမည်ဖြစ်သည်။ အဖွဲ့အစည်းဆုလာဘ်များကို Pareto အကျိုးရှိမှု (အဖွဲ့ဝင်တစ်ဦး၏ရလဒ်ကို တိုးတက်ကောင်းမွန်စေရန် အခြားအဖွဲ့ဝင်များကို ထိခိုက်မှုမရှိစေရန်) သို့မဟုတ် တရားမျှတသောခွဲဝေမှုကဏ္ဍများ အသုံးပြု၍ ပုံဖော်နိုင်သည်။ ဘာသာစကားပြောင်းလဲမှုအခြေအနေများတွင် အဖွဲ့ဆက်သွယ်မှုသည် ဘာသာစကားများစွာဖြင့်ဖြစ်နိုင်ပြီး; အေးဂျင့်သည် ဘာသာစကားနယ်နိမိတ်များကို ညီညွတ်စေရန် အကျိုးခံစားမှုများကို ပေါင်းစပ်ရမည်ဖြစ်ပြီး ယဉ်ကျေးမှုစံနှုန်းများကိုလည်း လေးစားရမည်ဖြစ်သည်။ အနာဂတ်သုတေသနများသည် တရားမျှတသော RL ကို လေ့လာနေပြီး အနုစိတ်သံကို ပိုမိုထုတ်လုပ်ပေးရမည့်နေရာတွင် ပါဝင်မှုရှိစေရန် အထူးပြုထားလိမ့်မည်။ အခြားပြေးလမ်းများတွင် အေးဂျင့်များကြားတွင် တွေ့ကြုံဆက်ဆံမှုများကို သရုပ်ဖျော်ရန် မိမိကိုယ်ကိုကစားခြင်း၊ အုပ်စုသစ်များ၏ လှုပ်ရှားမှုသဘောတရားသစ်များကို အသိပညာတိုးတက်စေရန် meta-learning နှင့် လူမှုကန့်ကွက်မှုများတွင် အကြောင်းရင်းနှင့်အကျိုးဆက်ကို ခွဲခြားရန် အကြောင်းရင်းသတ်မှတ်မှု ပါဝင်သည်။ ဒီတိုးတက်မှုများသည် Macaron နှင့် အခြားပုဂ္ဂိုလ်ရေး AI များအတွက် တစ်ဦးချင်းစီနှင့် ဆက်ဆံမှုများမှ လူမှုအတွေ့အကြုံများကို စီမံခန့်ခွဲရန်ပြောင်းလဲစေပြီး၊ ဂျပန်နှင့် ကိုရီးယားလူမှုအသိုင်းအဝိုင်းအတွက် အဖိုးတန်အဖော်များဖြစ်စေမည်ဖြစ်သည်။