
စာရေးသူ: Boxu Li
ကြီးမားသောအရွယ်အစားရှိသော ကြိုတင်သင်ကြားမှုများဖြင့် အထိန်းအကြပ်ပြုလုပ်ခဲ့သော ဆယ်စုနှစ်တစ်ခုအပြီးတွင် AI အသိုင်းအဝိုင်းသည် အချို့က "AI ဖွံ့ဖြိုးတိုးတက်မှု၏ ဒုတိယအခန်း" ဟုခေါ်ကြသည့် အခန်းသို့ ဝင်ရောက်လာနေပြီဖြစ်သည်။ ပထမအခန်းတွင် အဆင့်မြင့်မော်ဒယ်ဖွဲ့စည်းမှုပုံစံနှင့် သင်ကြားရေးနည်းလမ်းအသစ်များမှ စံချိန်များကို အပြင်းအထန် တက်ကြွစွာ ကြိုးစားကြသည်။ – convnets နှင့် LSTMs မှ Transformers အထိ – အားလုံးသည် အတည်ပြုသင်ကြားမှု သို့မဟုတ် ကိုယ်တိုင်သင်ကြားမှုဖြင့် စတင်ထားသော ဒေတာများပေါ်တွင် အထူးပြုလုပ်ထားသည်။ သို့သော် ယနေ့တွင် GPT-4 ကဲ့သို့ နယ်စပ်မော်ဒယ်များသည် အများစွာသော စံချိန်များကို အကျုံးဝင်လာပြီး အချက်အလက်နှင့် ပါရာမီတာများကို တိုးလျှင် အကျိုးသက်ရောက်မှု ကန့်သတ်ချက်ရှိလာသည်။ ဤပြောင်းလဲမှုသည် AI မှ ထပ်မံသော ဉာဏ်ပညာနှင့် အသုံးအများကို ရယူရန်ကို ပြန်လည်စဉ်းစားမှုကို ဖြစ်စေခဲ့သည်။
တစ်ခုသော ပေါ်ထွန်းလာသော သဘောတရားမှာ အတုယူသင်ယူမှု (RL) သည် ဒီအဆင့်သစ်တွင် ပိုမိုထင်ရှားသော အခန်းကဏ္ဍကို ထမ်းဆောင်မည်ဖြစ်သည်ဟု ဆိုပါသည်။ RL သည် ရေရှည်ဆုလာဘ်များကို အကောင်းဆုံးဖြစ်အောင် လုပ်ဆောင်ခြင်းဖြင့် မည်သည့် အလုပ်ကိုမဆို နိုင်နိုင်ဖြတ်ဖြတ် ပြီးမြောက်စေသော နိုင်ငံခြားရေးအရာရှိအဖြစ် ရှေးခင်ကတည်းက သတ်မှတ်ထားပြီးသားဖြစ်သည်။ AlphaGo သို့မဟုတ် AlphaStar ကဲ့သို့သော လူ့အထက်စွမ်းဆောင်မှုစနစ်များကို RL မပါဘဲ မှီရာမျှင်မရစရာဖြစ်သည်ဟု ခန့်မှန်းရသည်။ ယခုအခါ၊ ကြီးမားသော ကြိုတင်သင်ကြားထားမှု မော်ဒယ်များကို အခြေခံတည်ဆောက်ရာ၌ အများစုသော သုတေသနဆရာများက “ကြိုတင်သင်ကြားမှုက ပြီးသွားပြီ” ဟု ဆိုကာ – အနာဂတ် လှုပ်ရှားမှုကြီးများသည် ယင်းမော်ဒယ်များကို အပြန်အလှန်ပတ်ဝန်းကျင်များတွင် RL ဖြင့် နောက်ပိုင်းသင်ကြားခြင်း မှာဖြစ်လာမည်ဟု ပြောဆိုကြသည်။ မကြာသေးခင်က ဆောင်းပါးတစ်ခုက ရေးသားထားသည့် အတိုင်း၊ ကြီးမားသော ကြိုတင်သင်ကြားထားမှု မော်ဒယ်များ (အကြိုအနာခံများ) နှင့် သင့်တော်သော ပတ်ဝန်းကျင်များ ရှိနေပြီဆိုရင် “RL အယ်လဂိုရီသမ်က အဆင်ပြေဆုံးသော အပိုင်းဖြစ်နိုင်သည်” ဟု ဆိုသည်။ အခြားသောစကားဖြင့်, ကြိုတင်သင်ကြားမှုဖြင့် ကိတ်မုန့်ကို ပြုလုပ်ပြီးပါပြီ; အတုယူသင်ယူမှုသည် အတွေးအခေါ်နှင့် လုပ်ဆောင်မှု ဖြင့် အလှဆင်ရန် အဓိကသော အချက်ဖြစ်သည်။
Shunyu Yao သည် The Second Half တွင် ဤစည်းမျဉ်းကို ဖျော်ဖြေရန် ရေးသားထားသည်။ သူက ခေတ်သစ် AI တွင် “လုပ်ဆောင်မှုနည်းပညာ” – ကြီးမားသော ဘာသာပြန်မော်ဒယ် ကြိုတင်လေ့ကျင့်ခြင်း + အတိုင်းအတာချိန်ညှိခြင်း + အကြောင်းအရာခြင်း – ကို အသစ်ပြန်လည်ထုတ်လုပ်ခြင်းမရှိဘဲ အများစွာသော လုပ်ငန်းများကို ဖြေရှင်းနိုင်သည်ဟု ရေးသားထားသည်[2][6]။ ထို့ကြောင့် ဂိမ်းသည် ပြောင်းလဲသွားပြီ။ နောက်ထပ် စက်ပုံတစ်ခုကို တီထွင်ခြင်းဖြင့် ယခင်ကရရှိခဲ့သော ခုန်ဆင်းမှုများကို မရနိုင်တော့ဘူး။ အစား၊ အပြန်အလှန်သုံးသပ်ခြင်းနှင့် ပတ်ဝန်းကျင်များ အပေါ် ဂရုပြုရမည်။ အဓိကအားဖြင့် AI ကို တကယ့်ကို တွေးခေါ်၍ လုပ်ဆောင် ရန် မျှော်မှန်းချက်ကို မျှော်လင့်ရမည်[7][8]။ ထိုအရာသည် RL ကို အသုံးပြုရမည် ဆိုသည်ကို မလွဲမှားဖြစ်စေသည်။ Yao သည် RL ကို “AI ၏ အဆုံးအဖြတ်” ဟုခေါ်ဆိုပြီး ကြိုတင်လေ့ကျင့်ခြင်းမှ အင်အားကြီးသော ဦးတည်ချက်များနှင့် ဘာသာစကားနှင့် ကိရိယာများပါဝင်သော ပတ်ဝန်းကျင်များရှိသော အချိန်တွင် အခုနှစ်ဝက်တွင် “နည်းပညာသည် ဂိမ်းကို အပြည့်အဝပြောင်းလဲနေပြီ” ဟုဆိုသည်[1]။ အတည်ပြုချက်များမှ အပြန်အလှန် လုပ်ငန်းများ သို့ ပြောင်းလဲခြင်းကို မျှော်လင့်ရမည်ဖြစ်ပြီး၊ တစ်ကြိမ်ပြန်လည်သုံးသပ်မှုများမှ သဘာဝတွင် အဆက်မပြတ်လေ့လာခြင်းသို့ ပြောင်းရွှေ့ရမည်။ နိဂုံးအားဖြင့်၊ reinforcement learning သည် AI ကို တိုးတက်စေခြင်းတွင် အဓိကဖြစ်လာနေပြီ။
RL ကိုထပ်မံအာရုံစိုက်ရခြင်းအကြောင်းဘာလဲ? ရိုးရှင်းစွာပြောရရင် reinforcement learning က supervised learning တစ်ခုထက်သာလွန်သောစွမ်းရည်များကိုပေးစွမ်းနိုင်သည်။ Large Language Models (LLMs) သည် ဥပမာတစ်ခုဖြစ်သည်။ GPT-4 ကဲ့သို့သော transformer သည် အင်တာနက်စာသားများကို ကြိုတင်လေ့လာသင်ယူပြီး ပုံစံအသိပညာနှင့် ဘာသာစကားကို သင်ယူသော်လည်း တစ်ကိုယ်ရေတွင် အဖွဲ့အစည်းမှန်ကန်မှု မရှိသေးပေ။ ကြိုတင်လေ့လာခြင်းက “ဘယ်လိုပြောရမယ်ဆိုတာ” သင်ပေးပေမယ့် အပြန်အလှန်အကျိုးသက်ရောက်မှုရှိတဲ့အခြေအနေမှာ ဘာဆုံးဖြတ်ချက်လုပ်ရမယ်ဆိုတာ မဟုတ်ပါဘူး။ ဒါနဲ့ပတ်သက်ပြီး RL က AI ကို ဘယ်လိုရည်မှန်းချက်များကိုလိုက်နာရမယ်၊ ဘယ်လိုဆောင်ရွက်ရမယ်ဆိုတာ သင်ပေးနိုင်ပြီး ထိုရည်မှန်းချက်များကို ဖော်ပြသော ဆုလာဘ်များကို အများဆုံးရရှိစေဖို့ဖြစ်ပါတယ်။ အနားကပ်စွာခန့်မှန်းခြင်းမှ စမ်းသပ်ခြင်းနှင့် အပြန်အလှန်တုံ့ပြန်မှုရရှိခြင်းသို့ ပြောင်းလဲခြင်းသည် အကြောင်းပြချက်ပေးခြင်း၊ စီမံဖြေရှင်းခြင်းနှင့် တည့်ညီမှုအတွက်အရေးကြီးသည်။
LLM အခြေခံထားသော အေးဂျင့်များအပေါ် လတ်တလော လုပ်ဆောင်ချက်များက RL သည် စွမ်းဆောင်ရည်အသစ်များကို ဖွင့်လှစ်ပေးသည်ကို ပြသခဲ့သည်။ ဉပမာအားဖြင့် အခမဲ့ အရင်းအမြစ် Kimi K2 မော်ဒယ်ကို reinforcement learning ဖြင့် အဆုံး-to-အဆုံး ပြင်ဆင်မှု ပြုလုပ်ခဲ့ပြီး 「မော်ဒယ်ကို စီမံချက်တစ်ခုချခြင်း၊ တုံ့ပြန်ချက်ပြုခြင်းနှင့် စဉ်းစားမှုကြောင်းရှည်များအတွင်း၌ ကိုယ်တိုင်ပြင်ဆင်ခြင်းကို သင်ကြားပေးသည်」[9]။ RL ဖြင့် K2 သည် ကိုယ်ပိုင် အကြောင်းပြချက် ပုံစံများကို ရရှိခဲ့ပြီး – အချက်အလက်များကို အတည်ပြုချက်ပြုခြင်း၊ သီအိုရီများအား ပြန်လည်ဆန်းစစ်ခြင်းနှင့် မေးခွန်းတစ်ခု အလွယ်တကူဆိုသော်လည်း သတိရှိနေခြင်းတို့ကို သင်ယူသည်[10]။ အကျိုးအဖြစ်မှာ မော်ဒယ်သည် လေ့ကျင့်မှုဒေတာကို မရှိမဖြစ် ပြန်လည်ပြောဆိုခြင်းမပြုဘဲ၊ အပြစ်မဲ့သော ပြဿနာများကို ဘယ်လို ဖြေရှင်းရမည်ကို တက်ကြွစွာ အတွေးအခေါ်ပြုလုပ်သည်။ ထို့နောက် K2 project သည် ယုံကြည်စိတ်ချရမှုကို အလေးပေးသည် – အေးဂျင့်သည် အဖြေနှုန်းများကို အတည်ပြုရန် သဘောတူသည်ကို ပထမဦးဆုံး အလေးပေးပြီး၊ ကောင်းမွန်မှုကို မြန်နှုန်းထက် အများဆုံးဖြစ်စေရန် RL လေ့ကျင့်မှု၏ လမ်းကြောင်းကို ပြသသည်[11]။ အဓိကအားဖြင့် **reinforcement learning သည် စီမံချက်နှင့် စဉ်းစားမှုတို့ကို အတွင်းပိုင်း “agentic” loop ဖြင့် မော်ဒယ်ကို ရည်ရွယ်စေပြီး၊ နောက်ထပ်-token ခန့်မှန်းမှု၏ ကန့်သတ်ချက်များကို ကျော်လွင့်စေသည်။
အခြားသော အဆင့်မြင့်စနစ်များတွင်လည်း ဒီပုံစံကို တွေ့ရသည်။ ChatGPT ၏ အဆင့်မြှင့်တင်မှုသည် GPT-3 ထံမှ လူ့အကြံပြုချက်များမှတဆင့် Reinforcement Learning (RLHF) ဖြင့် အများအားဖြင့် ရရှိခဲ့သည်။ မော်ဒယ်ကို စာသားဖြင့် နောက်ခံလေ့ကျင့်ပြီးနောက် OpenAI သည် လူ့အကြံပြုချက်နှင့် ဆုချီးမြှင့်မော်ဒယ်များဖြင့် ပြန်လည်ညှိနှိုင်းခဲ့ပြီး ၎င်း၏ အကျိုးရှိမှုနှင့် ညွှန်ကြားချက်များကို လွှမ်းမိုးစွာ တိုးတက်စေခဲ့သည်။ John Schulman - ChatGPT အပေါ် လေ့လာမှု ဆောင်ရွက်သူဦးဆောင် - အဆိုပါ လုပ်ငန်းစဉ်ကို ဖော်ပြသည်။ လူ့စမ်းသပ်သူများက မော်ဒယ်အား ပေါင်းစပ်ပြောဆိုမှုများကို ကိုင်တွယ်ရန် ကောင်းမွန်စေပြီး လမ်းပျောက်ခြင်း၊ မလိုလားအပ်သော ထွက်ရောက်မှုများကို ရှောင်ရှားစေရန် အခွင့်အရေးထောက်ခံမှုကို ပေးခဲ့သည်။ [12] ရှင်းပြရစရာမလိုသော RLHF မှ လူ့အကြံပြုချက်များနှင့် စကားပြော အကြောင်းအရာများနှင့် အညီ အလားတူ ဖြစ်လာခဲ့သည်။ အဆိုပါ နည်းလမ်းသည် မူရင်း LLM များကို အကျိုးရှိသော အစိတ်အပိုင်းများအဖြစ် ဖန်တီးရာတွင် de facto standard ဖြစ်လာခဲ့သည်။ WIRED အပိုင်းတစ်ခုက ဖော်ပြသည့်အတိုင်း reinforcement learning သည် မော်ဒယ်များကို ပြန်လည်ညှိရန် အဆင့်မြှင့်ခြင်း အဖြစ် “ပိုမိုလူကြိုက်များသော” နည်းလမ်းဖြစ်လာသည် [13]။ chatbot ကို ညွှန်ကြားချက်များကို လိုက်နာစေရန်ဖြစ်စေ၊ သို့မဟုတ် မော်ဒယ်ကြီးကို ပြဿနာဖြေရှင်းနိုင်စွမ်းဖြင့် အရည်အသွေးမြင့်မားစေရန်ဖြစ်စေ၊ RL သည် နောက်ခံလေ့ကျင့်မှုပြီးဆုံးပြီးပါက ရွေးချယ်ရန် ကိရိယာဖြစ်သည်။
RL ၏အရေးပါမှုသည် ချိုသာမှုအတွက်သာ fine-tuning ပြုလုပ်ခြင်းထက် ပို၍ ကျယ်ပြန့်သည်; ၎င်းသည် မော်ဒယ်များကို ဆုံးဖြတ်ချက်ချရန် သင်ကြားခြင်းအကြောင်း ဖြစ်သည်။ Macaron AI’s Mind Labs မှ မကြာသေးမီက ထုတ်ပြန်သည့် နည်းပညာဆိုင်ရာ ဘလော့ဂ်တွင် ၎င်းကို အကျဉ်းချုံးဖော်ပြထားသည်- “LLM များသည် အကြိုလေ့ကျင့်ခြင်းမှ အတွေ့အကြုံဆိုင်ရာ သင်ယူမှုဆီသို့ ပိုမိုတိုးတက်လာခြင်းဖြင့် Reinforcement Learning သည် ကြိုးစားအားထုတ်မှုတစ်ခုအဖြစ် အဆင့်မြင့် အကြောင်းပြချက်ပေးနိုင်စွမ်းများကို ဖွင့်လှစ်ရန် သော့ချက်အဖြစ် ပေါ်ထွက်လာသည်။”[14] RL ကို အနောက်ဆုံးအဆင့်အဖြစ်သာမက cutting-edge စီမံကိန်းများသည် “agentic အပြုအမူအတွက် ပထမတန်းစား ဒီဇိုင်း အခြေခံအုတ်မြစ်အဖြစ်”[15] အဖြစ် ထည့်သွင်းစဉ်းစားကြသည်။ လက်တွေ့အရ အဲဒါက AI စနစ်များကို သင်ကြားခြင်းမှာ သူတို့ကို မည်သည့်အခိုက်အတန့်တွင်မဆို လုပ်ဆောင်ရမည့် ဆင်တူသည့် သို့မဟုတ် အမှန်တကယ် ပတ်ဝန်းကျင်များတွင် ထည့်သွင်းခြင်းဖြင့် ဖြစ်သည်။ AI သည် အတုယူနိုင်သော ဒေတာစုရင်းများတွင် ဖမ်းမမိနိုင်သော ကျွမ်းကျင်မှုများကို ပိုင်ဆိုင်ရမည်။
ဤအတွေးအခေါ်နှင့်အညီ AI စမ်းသပ်ခန်းအသစ်များဖွဲ့စည်းနေသည်မှာ အလွန်ထင်ရှားသည်။ Thinking Machines Lab သည် OpenAI ခေါင်းဆောင်ဟောင်းများမှ တည်ထောင်ထားသော စတင်လုပ်ငန်းတစ်ခုဖြစ်ပြီး RL နှင့် အခြားနည်းလမ်းများမှတဆင့် နောက်ဆုံးပေါ် မော်ဒယ်များကို ရှင်းလင်းစွာညှိနှိုင်းရန် အရည်အသွေးမြင့်ကိရိယာများ တည်ဆောက်ရန် $2B အစပျိုးတန်ဖိုးဖြင့် မကြာသေးခင်က စတင်ခဲ့သည်။ ၎င်းတို့၏ အဓိကထုတ်ကုန် "Tinker" သည် ကြီးမားသော မော်ဒယ်များကို RL-fine-tuning အလိုအလျောက်လုပ်ဆောင်ရန် ရည်ရွယ်ထားပြီး အများပြည်သူများအား "reinforcement learning ကိုအသုံးပြု၍ ကြီးမားသောမော်ဒယ်များထဲမှ အစွမ်းအသစ်များ ထုတ်ယူရန်" အခွင့်အလမ်းပေးခြင်းဖြင့် AI ရှင်သန်မှုအတွက် နောက်ထပ်အရေးကြီးအရာဖြစ်လာမည်ဟု သတ်မှတ်ထားသည်။ [16][17]။ ထိုနည်းတူ Macaron AI (သုတေသနလုပ်ငန်းအသစ်တစ်ခု) သည် RL ကို ထရီလီယံ-ပါရာမီတာ မော်ဒယ်များအတွက် ပမာဏချဲ့ထွင်ရန် ထုံးစံကျ RL ဂရုစိုက်မှုများနှင့် အခြေခံအဆောက်အအုံများကို ဒီဇိုင်းဆွဲနေသည်[18][19]။ ထိုကဲ့သို့သော ကြိုးပမ်းမှုများသည် ကျယ်ပြန့်သော လမ်းကြောင်းကို ဦးတည်စေသည် - AI လူထုသည် RL တွင် မော်ဒယ်များကို နောက်ဆုံးပေါ်တွင် ရောက်ရှိစေရန် အလွန်ကြီးမားသော အခွင့်အလမ်းကို မြင်ရသည် - ၎င်းသည် ၎င်းတို့ကို ပိုမို ကိရိယာအသုံးပြုခြင်းနှင့် အကြောင်းပြချက်ရှာဖွေခြင်း (Kimi K2 နှင့် Macaron ၏ အေးဂျင့်များအဖြစ်) သို့မဟုတ် ပိုမို ကိုက်ညီမှုရှိခြင်းနှင့် အိတ်ဖွင့်ခြင်း (ChatGPT နှင့် Tinker အဖြစ်) ဖြစ်စေခြင်းဖြစ်သည်။ အကျဉ်းချုပ်အားဖြင့် RL သည် မကြာသေးခင်က ဆောက်လုပ်ခဲ့သော အခြေခံမော်ဒယ်များ၏ အပြည့်အဝ အလားအလာကို အကောင်အထည်ဖော်ရန် အဓိက အားဖြည့်နည်းပညာအဖြစ် လက်ခံရရှိနေပြီ ဖြစ်သည်။

RL ၏နာမည်ကြီးလာပုံရသည့်အဓိကအကြောင်းရင်းမှာ စံပြုဒေတာဆက်အုပ်များ၏သဲသောင်ပြင်အပြင်တွင် ပြဿနာများကိုဖြေရှင်းရာတွင် ၎င်း၏အောင်မြင်မှုများကြောင့် ဖြစ်သည်။ ဂိမ်းကစားခြင်းတွင် ရှေ့ပြေးအောင်မြင်မှုများသည် ပထမဆုံးထိပ်တန်းအထောက်အထားဖြစ်ခဲ့သည်။ DeepMind ၏ AlphaGo၊ AlphaZero နှင့် OpenAI ၏ Five သည် Go၊ chess နှင့် ရှုပ်ထွေးသောဗီဒီယိုဂိမ်းများကို အနက်ရှိုင်းသော reinforcement learning ဖြင့် ရှုံးပေကာ ကျော်လွန်နိုင်ခဲ့သည်။ ဤစနစ်များသည် ကောင်းမွန်စွာသတ်မှတ်ထားသောဆု (ဂိမ်းကိုအနိုင်ရခြင်းကဲ့သို့) ရှိပါက RL အေးဂျင့်များသည် လူသားချန်ပီယံများကို လေ့ကျင့်မှုနှင့် အတွက် optimization ဖြင့် ကျော်လွန်နိုင်ကြောင်းပြသခဲ့သည်[4]။ အထူးသဖြင့် 2019 ခုနှစ်တွင် Dota-2 ကမ္ဘာ့ချန်ပီယံအသင်းကို OpenAI Five ၏အောင်ပွဲသည် များစွာသောအတုယူခြင်းဖြင့်သာ လေ့ကျင့်ခြင်းဖြင့် ရရှိခဲ့သည်- RL ၏ယနေ့နည်းစနစ်များ၏ “အံ့ဖွယ်အင်အား”ကို ပြသခဲ့သည့်အခါတွင် အခွင့်အလမ်းများနှင့် စိန်ခေါ်မှုများကို ဖော်ပြခဲ့သည်[20]။ ၎င်းစီမံကိန်းသည် RL ၏အလားအလာနှင့် ၎င်း၏စိန်ခေါ်မှုများကို အထူးပြုခဲ့သည်- ၎င်းသည် မာစီဖ်ဆင်းကူလေးရှင်း (ဂိမ်းကစားခြင်း၏ရာစုနှစ်များနှင့်တူညီ) နှင့် ဆန်းသစ်သောအင်ဂျင်နီယာလုပ်ငန်းကို လိုအပ်ခဲ့သော်လည်း ၎င်းအလုပ်လုပ်ခဲ့သည်၊ အဆင့်အတန်းမှူးတစ်ဖွဲ့နှင့် မည်သည့် rule-based AI ကောင်းစွာလုပ်နိုင်သည့်အရာများထက် ပို၍ အဆင့်မြင့်သော ရည်ရွယ်ချက်များနှင့် မဟာဗျူဟာများကိုထုတ်လုပ်ခဲ့သည်။
အရေးကြီးတာက RL ဟာ အခုအခါ အခန်းအနားလွတ်တဲ့ ဂိမ်းတွေမှာပဲ မကန့်သတ်တော့ဘူး။ 2022 ခုနှစ်မှာ DeepMind က နျူကလီယား ပလက်စမာကို အချိန်နဲ့ တပြေးညီ ထိန်းချုပ်ဖို့ deep RL ကို အသုံးပြုခဲ့တဲ့ အရေးပါတဲ့ အောင်မြင်မှုကို မြင်တွေ့ခဲ့ရတယ်၊ အဲဒါက မန်နျူရယ် ထိန်းချုပ်မှုတွေနဲ့ မဖြစ်နိုင်ခဲ့တာပါ။ စင်မြူးလိတ်တာမှာ လေ့ကျင့်ပြီးနောက် တိုကမတ် ရေအိုးထဲကို တင်သွင်းခြင်းဖြင့် သူတို့ရဲ့ အေးဂျင့်က မျက်နာခံပုံစံကို ထိန်းချုပ်ဖို့ မက်နက်တစ်ကွိုင်တွေကို လေ့လာပြီး ပလက်စမာကို ထိန်းချုပ်ဖို့ အောင်မြင်ခဲ့တယ်။ ဒီမှာ RL က ရှုပ်ထွေးတဲ့ အတိုင်းအတာများ၊ ဒိုင်နမစ် ထိန်းချုပ်မှု ပြဿနာများကို ရှာဖွေပြီး ပညာရေးသုတေသနအသစ်များ ရှာဖွေဖို့ လမ်းသစ်တွေ ဖွင့်ပေးခဲ့တယ်။
RL သည် အပြည့်အဝ အောင်မြင်မှုကို ထိတွေ့နေသော နောက်ထပ် နယ်ပယ်တစ်ခုမှာ Multi-agent interaction နှင့် game theory ဖြစ်သည်။ ထင်ရှားသော ဥပမာတစ်ခုမှာ Meta ၏ CICERO ဖြစ်သည်၊ ဤ AI သည် Diplomacy ဆိုသော ဂိမ်းတွင် လူ့အဆင့် စွမ်းဆောင်ရည်ကို ရရှိသော ပထမဆုံး AI ဖြစ်သည်။ ဤဂိမ်းသည် ကစားသူများစွာအကြား ညှိနှိုင်းမှုနှင့် မဟာဗျူဟာဆက်ဆံမှုကို လိုအပ်သည်။ CICERO သည် ဘာသာစကားအတွက် LLM ကို RL လေ့ကျင့်ထားသော အစီအစဉ်ရေးစက်နှင့် ပေါင်းစပ်ထားသည်။ ၎င်းသည် မဟာဗျူဟာများကို စီမံခန့်ခွဲရမည်၊ အခြား ကစားသူများ၏ ရည်ရွယ်ချက်များကို မော်ဒယ်ဖျော်ရွှင်ရမည်၊ နှုတ်ကပတ်ဆွေးနွေးမှုကို စွမ်းဆောင်ရမည်။ ရလဒ်မှာ စံချိန်တင်ဆန်းကြယ်ဖြစ်ခဲ့သည် - CICERO သည် လူသားများနှင့် အတူ ပူးပေါင်းနိုင်ခဲ့ပြီး ယှဉ်ပြိုင်နိုင်ခဲ့သည်၊ လိမ်မှုနှင့် bluffing ရှိနေစဉ်တွင်ပါ။ စောပနာများက "Diplomacy သည် ယုံကြည်မှု၊ ညှိနှိုင်းမှုနှင့် ကစားသူများစွာနှင့် ပူးပေါင်းမှုကို လိုအပ်သော မဟာဗျူဟာဂိမ်းဖြစ်သည်၊ ပထမဆုံး AI ဖြစ်သည်" ဟု မှတ်ချက်ပြုသည်။[22] ဤသည်သည် ဘုတ်ပြားဂိမ်းမဟာဗျူဟာများကို ကျော်လွန်ပြီး RL အေးဂျင့်များသည် လူမှုဆက်ဆံမှု မဟာဗျူဟာနှင့် ရှုပ်ထွေးသော game-theoretic environments ကို စီမံခန့်ခွဲနိုင်သည်ကို အထောက်အထားပြသည်။ ဤစွမ်းရည်များသည် AI သည် တစ်နေ့တွင် စီးပွားရေး၊ ညှိနှိုင်းမှုများ သို့မဟုတ် ရှုပ်ထွေးသော အဖွဲ့အစည်းဆုံးဖြတ်ချက်များကို လမ်းကြောင်းညွှန်ရန် အရေးကြီးသည်။
နောက်ဆုံးတွင်၊ အထူးသဖြင့် အလွန်ထူးခြားစွာဖြင့်၊ RL သည် ကမ္ဘာမြေမှ လုံးဝထွက်ခွာသွားနေပြီ ဖြစ်သည်။ ယခုနှစ်အတွင်းတွင်၊ သုတေသနပြုသူများသည် သိပ္ပံစိတ်ကူးယဉ်မှုကို အမှန်တကယ်ဖြစ်လာစေသောအရာကို ရရှိခဲ့ကြသည်။ အာကာသတွင် ရှု့ပ်လုံးကဲ့သို့ လွတ်လပ်သော ငှက်ရုန်းပျံသန်းမှုများကို reinforcement learning ဖြင့် ထိန်းချုပ်ခြင်းဖြစ်သည်။ အမေရိကန်ရေတပ်သုတေသနဌာန၏ အာကာသအတွက် လေ့ကျင့်ခဲ့သော RL algorithm သည် Astrobee လွတ်လပ်စွာပျံသန်းသော ရုပ်စုံကိုထိန်းချုပ်ပြီး မိုက္ခရိုဂရပ်ဆွီအတွင်း အလိုအလျောက်လှုပ်ရှားမှုများကို အောင်မြင်စွာလုပ်ဆောင်သည် [23][24]။ NRL ၏အဖွဲ့သည် ၎င်းသည် “reinforcement learning algorithm များကို အသုံးပြု၍ အာကာသတွင် အလိုအလျောက်ရုပ်ပြခန်းထိန်းချုပ်ခြင်း၏ ပထမဆုံးဖြစ်သည်” ဟု မှတ်သားခဲ့ပြီး RL သည် အာကာသစစ်ဆင်ရေး၏ မဖြေရှင်းနိုင်သောအခြေအနေများကို ကိုင်တွယ်နိုင်ကြောင်း ယုံကြည်မှုကို တည်ဆောက်သည်ဟု ဆိုသည်[23]။ ထို့အပြင် ၂၀၂၅ ခုနှစ် အောက်တိုဘာလ ၃၀ ရက်တွင် Würzburg တက္ကသိုလ်အဖွဲ့သည် အာကာသတွင် ပထမဆုံးအကြိမ် သမိုင်းတင်အခိုက်အတန့် ကို ရရှိခဲ့သည်။ ၎င်းတို့၏ InnoCube အဏုဂြိုဟ်ငယ်သည် အလိုအလျောက် RL agent ကို ထိန်းချုပ်မှုဖြင့် လုံးဝထိန်းချုပ်မှုဖြင့် အနေအထားညှိယူမှုကို အောင်မြင်စွာ ဖျော်ဖြေရန် လုပ်ဆောင်ခဲ့သည်[25][26]။ ရှု့ပ်လုံးဦးဆောင်သုတေသနပြုသူက “ကျွန်ုပ်တို့သည် Deep Reinforcement Learning သင်ကြားထားသော ဂြိုဟ်ငယ်အနေအထားထိန်းချုပ်သူသည် အာကာသတွင် အောင်မြင်စွာ လုပ်ဆောင်နိုင်ကြောင်း၏ ပထမဆုံးအမှန်တရားဖြစ်သည်” ဟု ဆိုသည်[26]။ ၎င်းသည် သိပ္ပံသမိုင်းကျမှာ အရေးကြီးသော အခိုက်အတန့်တစ်ခုဖြစ်ပြီး RL သည် စမ်းသပ်ခန်းနှင့် ဓာတ်ခွဲခန်းများမှ အာကာသတွင် ရုပ်ပိုင်းဆိုင်ရာ စနစ်များကို ထိန်းချုပ်ခြင်း သို့ ရောက်ရှိသွားသည်။ AI ထိန်းချုပ်သူသည် မြင့်မားသောတိကျမှုရှိသော အတုအယောင်တွင် သင်ကြားခဲ့ပြီး ဂြိုဟ်ငယ်သို့ အပ်လုဒ်လုပ်၍ လူ့အင်အားမပါဘဲ အတိအကျအနေအထားလုပ်ဆောင်မှုများကို လုပ်ဆောင်ခဲ့သည်[27][28]။ ဂြိုဟ်ငယ်ထိန်းချုပ်နည်းကို လက်ချောင်းကပ်နှစ်လများကြာကြာလက်နက်မြောက်အောင်လုပ်ဆောင်ရမည့်အစီအစဉ်ကို RL agent ဖြင့် အချိန်နှင့်အမျှ အလိုအလျောက်ထိန်းချုပ်နိုင်သည်[29]။ အာကာသရုပ်ပိုင်းဆိုင်ရာတွင် အောင်မြင်မှုများသည် RL ၏ အစီအမံများသည် အမှန်တကယ်ကမ္ဘာ၏ မသေချာမှုအောက်တွင် လျင်မြန်စွာ ပြောင်းလဲနိုင်ပြီး ရိုးရာစက်ပစ္စည်းများဖြင့် အလိုအလျောက်လှုပ်ရှားမှုများကို ပြန်လည်တည်ဆောက်နိုင်ခြင်း ဖြစ်သည်။
ဤဥပမာများအားလုံးသည် အရေးပါသော အချက်တစ်ခုကို အနက်ထားပြသည် - အခိုင်အမာလေ့လာမှုသည် မိမိတို့အတွက် အလိုအလျောက် သုံးနိုင်စွမ်းရရှိနေသောအခါ ဖြစ်လာသည်။ AI သည် "ဒုတိယဝက်"သို့ ရောက်လာသည့်အခါ အခက်အခဲမှာ ခန့်မှန်းခြင်းသာမက လုပ်ဆောင်ခြင်းဖြစ်သည်။ RL သည် စမ်းသပ်မှု၊ လေ့လာမှုနှင့် ရေရှည် အကောင်းဆုံးအဖြစ်စီမံခန့်ခွဲမှုအတွက် အခြေခံဖွဲ့စည်းမှုကို ပေးသည်။ အတိတ်ဒေတာများနှင့် ပတ်သက်သည့် သင်ကြားမှုဖြစ်သော စူပါဗိုင်ဇ် လေ့လာမှုနှင့် မတူဘဲ၊ RL သည် စနစ်များကို မိမိတို့အတွေ့အကြုံမှ သင်ယူရန်နှင့် စမ်းသပ်မှုမှတစ်ဆင့် တိုးတက်လာရန် ခွင့်ပြုသည်။ ဤသည်သည် မဖြစ်မနေသော AI အတွက် အရေးကြီးသည်။ မည်သည့် AI မဆို မသိမျှသော၊ အသစ်ဖြစ်သော အခြေအနေများတွင် လုပ်ဆောင်နိုင်ရမည်ဖြစ်သည် - အသုံးပြုသူ၏ စုံစမ်းမှုအသစ်ကို ဖြေရှင်းနေသည့် အကူအညီဖြစ်စေ၊ မမျှော်လင့်ထားသော အခက်အခဲများကို ရင်ဆိုင်သော ရုပ်မှန်ဖြစ်စေ။
AI ဖြင့်တိုးတက်မှုကိုတိုင်းတာပုံအပေါ်မှာလည်းနက်ရှိုင်းသောအကျိုးသက်ရောက်မှုများရှိပါတယ်။ မော်ဒယ်တစ်ခု၏နားလည်မှုကိုအတိုင်းအတာချထားရန် တည်ငြိမ်သောစံချိန်များကိုသာ အားကိုး၍မရနိုင်တော့ပါ။ အစား အချက်အလက်များကိုအပြင်းအထန် အစစ်အမှန်ကမ္ဘာနှင့်တူသော အကဲဖြတ်မှု စနစ်အသစ်များကို သုတေသနတွင် အဆိုပြုနေကြသည်- ဆက်လက်လုပ်ဆောင်ရမည့်အလုပ်များ၊ လူ့အဖွဲ့အစည်းဖြင့်ပတ်ဝန်းကျင်အတွင်းတွင်လုပ်ဆောင်မှုများနှင့် မတူညီသော i.i.d. အခြေအနေများဖြစ်သည်။ ထိုမျိုးသောမှီဝဲသော ပတ်ဝန်းကျင်များကို RL သင်ကြားမှုနှင့် တွဲဖက်ခြင်းအားဖြင့် မော်ဒယ်များအား ပိုမိုအားကောင်း၍ လွယ်ကူသော အပြုအမူများ ရရှိရန် တွန်းအားပေးထားပါသည်။ Yao ၏စကားများအရ ဒုတိယပိုင်းသည် စံချိန်မီသောလည်ပတ်မှုမှ ထွက်ပြေး၍ အမှန်တကယ်ကမ္ဘာ့အသုံးပြုမှုကို ပေးနိုင်သော အေးဂျင့်များ ဖန်တီးခြင်းဖြစ်မည်။ RL အခြေခံသော သုတေသနဌာနများတွင် ရင်းနှီးမြှုပ်နှံမှုများနှင့် စက်မှုလုပ်ငန်းတွင် RLHF ၏မြန်ဆန်စွာလက်ခံခြင်းများသည် ယခုချိန်မှာ ဤကျော်လွှားမှုကို လုပ်ရန် အချိန်ဖြစ်ကြောင်း အသိအမှတ်ပြုမှုကို ဖော်ပြသည်။
ဒီလိုပဲ ပြောရရင် RL ကို လက်ခံခြင်းဟာ အခက်အခဲတွေမပါဘဲ မဖြစ်နိုင်ပါဘူး။ RL လေ့ကျင့်မှုဟာ မတည်ငြိမ်နိုင်ပြီး အရင်းအမြစ်များကို စားသုံးနိုင်သည် (OpenAI Five ၏ အလွန်ကြီးမားသော ကုန်ကျစရိတ်ဖြင့် လေ့ကျင့်မှုကို ဥပမာပြနိုင်သည်[20])။ ၎င်းသည် ချိန်ခွင်လျှာမြန်ဆန်သော သို့မဟုတ် အမှားများကို လွယ်ကူစွာ ပြုပြင်နိုင်သော ပတ်ဝန်းကျင်များကို လိုအပ်သည် - အမြင်အာရုံမြင်ရသူများအတွက် အလွန်ကြီးမားသော ရာဇဝင်များတွင် မရနိုင်သော အရာတစ်ခုဖြစ်သည်။ သို့သော်ဤနယ်ပယ်များတွင်လည်း တိုးတက်မှုများ ရှိနေပါသည်။ Macaron ၏ All-Sync RL with DAPO အဆင့်မြှင့်တင်မှုများကဲ့သို့သော အယ်လဂိုရီသမ်အသစ်များနှင့် ပုံစံများသည် အကြီးစား RL လေ့ကျင့်မှု၏ ထိရောက်မှုကို အလွန်ကောင်းစွာ တိုးတတ်လာနေသည်[19][33]။ sim2real transfer၊ အကျိုးဆက်များကို ချိန်ညှိခြင်း၊ အာရုံစူးစိုက်မှုလုံခြုံမှု စသည့် နည်းလမ်းများက RL စနစ်များကို ဆိုးရွားသော အမှားများမဖြစ်ဘဲ အမှန်တကယ် လုပ်ငန်းများတွင် အသုံးပြုနိုင်ရန် ကူညီနေသည်[34][35]။ အရေးကြီးသည်မှာ အသိုင်းအဝိုင်းသည် RL ကို အခြား ဆန်းသစ်မှုများနှင့် ပေါင်းစပ် သင်ယူနေကြသည် - ဥပမာအားဖြင့် ဘာသာစကားမော်ဒယ်များကို အကဲဖြတ်သူ သို့မဟုတ် အစီအစဉ်ရေးဆွဲသူများအဖြစ် အသုံးပြုခြင်း၊ လူ့ကျင့်ဝတ်များကို လမ်းညွှန်ရန် RL ကို အသုံးပြုခြင်း (အမျိုးအစားတစ်ခုဖြစ်သော ချိန်ညှိခြင်း လေ့ကျင့်မှု) စသည်ဖြင့်။ ဤပေါင်းစပ်နည်းလမ်းများသည် အလွန်အားကောင်းသော နည်းလမ်းနှစ်ခုကို ပေါင်းစပ်နိုင်ခြင်းအားဖြင့် အကျိုးရှိစွာ အသုံးချနိုင်သည်။
အဆုံးသတ်အနေနဲ့၊ reinforcement learning ကို အခု အာရုံစိုက်ရခြင်းဟာ အလျောက်အလျှောက် လူကြိုက်များအောင်လုပ်ခြင်းမဟုတ်ပဲ၊ လိုအပ်ချက်နဲ့ အခွင့်အလမ်းတွေကို အသိအမှတ်ပြုခြင်းဖြစ်ပါတယ်။ ကျွန်ုပ်တို့ရဲ့ AI စနစ်တွေဟာ များပြားတဲ့ latent capabilities (pre-training အတွက် ကျေးဇူးတင်ပါတယ်) ရှိတဲ့နေရာမှာ ရပ်တည်နေပြီး၊ အဲ့ဒီ capabilities တွေကို activate လုပ်ဖို့နည်းလမ်းက ရည်မှန်းချက်ရှိတဲ့ သင်ယူမှုတွေအပါဝင်ပါတယ်။ AI အပြုအမူကို လူ့တန်ဖိုးတွေနဲ့ ကိုက်ညီအောင်လုပ်ခြင်း၊ စက်ရုပ်တွေကို အပြည့်အဝ ကိုယ်ပိုင်အာဏာပေးခြင်း၊ သို့မဟုတ် AI ကို သိပ္ပံနဲ့ အင်ဂျင်နီယာပြဿနာသစ်တွေကို ဖြေရှင်းဖို့ တွန်းအားပေးခြင်းမှာ၊ RL က feedback ကို အသုံးပြုပြီး AI ကို နောက်ပြန်ပြုပြင် နဲ့ တိုးတက် ဖို့ ကိရိယာတွေကို ပေးပါတယ်။ ကျွန်ုပ်တို့ဟာ အနက်ရှိုင်းတဲ့ သင်ယူမှုကာလကနေ တက်ကြွတဲ့ သင်ယူခြင်းနဲ့ လုပ်ဆောင်ခြင်း ဖက်သို့ ပြောင်းလဲနေတဲ့ အချိန်ကို မြင်တွေ့နေတာပါ။ “သွားမည့်နေရာကို ရောက်ဖို့ အကြောင်းပြချက်အရ ကျွန်ုပ်တို့ဒီမှာ ရနေရပါတယ်” ဆိုတဲ့စကားပမာကို အားတဲ့အတိုင်း၊ ပြည့်စုံတဲ့ ကိုယ်စားပြုမှုသင်ယူမှုရဲ့ လေးလံသော လုပ်ငန်းကို ကြီးမားတဲ့ မော်ဒယ်တွေက လုပ်ထားပြီဖြစ်ပေမယ့်၊ အဲ့ဒီ မော်ဒယ်တွေကို အသုံးဝင်လို့ရတဲ့၊ လိုက်လျောညီထွေဖြစ်တဲ့ နဲ့ ယုံကြည်ရတဲ့ အေးဂျင့်တွေဖြစ်အောင် ပြောင်းလဲဖို့ ကိရိယာက reinforcement learning ပါ။ RL သုတေသနနဲ့ အပလီကေးရှင်းတွေကို အခုရင်းနှီးမြှုပ်နှံခြင်းဖြင့်၊ ကျွန်ုပ်တို့ဟာ စိန်ခေါ်မှုများကို ရင်ဆိုင်ဖြေရှင်းနေပါတယ်။ AI ကို အဆင့်ဆင့်တွေးခေါ်နိုင်အောင်၊ အခြားရွေးချယ်မှုတွေကို စူးစမ်းနိုင်အောင်၊ အမှားတွေကနေ ပြန်လည်ထူထောင်နိုင်အောင်၊ နောက်ဆုံးမှာ အကန့်အသတ်မဲ့လုပ်ငန်းတွေကို ကျွမ်းကျင်အောင် လုပ်ပါ။ AI ရဲ့ ကြီးမားတဲ့ လမ်းကြောင်းမှာ ဒီပြောင်းလဲမှုဟာ 2010 ခုနှစ်များတွင် အနက်ရှိုင်းတဲ့ သင်ယူမှုတိုးတက်မှုလို အရေးကြီးပါပဲ။ ဒုတိယအပိုင်းက အခုမှ စတင်နေပြီး၊ reinforcement learning ဟာ အဲ့ဒီ့ကို ထိန်းသိမ်းပေးမယ့် အင်အားဖြစ်ပါတယ်။
ကိုးကားချက်များ:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]
[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] ဒုတိယအခန်း - Shunyu Yao - 姚顺雨
https://ysymyth.github.io/The-Second-Half/
[9] [10] [11] [15] Kimi K2 Thinking ကိုမိတ်ဆက်ခြင်း | ဘလော့ဂ်
https://kimik2thinking.org/blog/introducing-kimi-k2-thinking
[12] [13] [16] [17] အထူးသီးသန့်: Mira Murati ရဲ့ Stealth AI Lab အဖွဲ့က ပထမဆုံးထုတ်ကုန်ကို မိတ်ဆက်လိုက်ပြီ | WIRED
https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/
[14] [19] [33] MIND LABS | DAPO နဲ့ LoRA တွေအတွက် All-Sync RL ကို ကျယ်ပြန့်စေခြင်း
[18] Macaron ချဲ့ထွင်မှု: Kimi K2 “အတွေး” မော်ဒယ်: အေးဂျင့် AI ကိုတိုးတက်စေခြင်း - Macaron
https://macaron.im/blog/kimi-k2-thinking
[20] OpenAI Five ဟာ Dota 2 ကမ္ဘာ့ချန်ပီယံတွေကို အနိုင်ရရှိ | OpenAI
https://openai.com/index/openai-five-defeats-dota-2-world-champions/
[21] လေ့လာမှုများမှ ပလာစမာထိန်းချုပ်မှုဖြင့် ဖျူးစည်းမှု သိပ္ပံကို မြန်ဆန်စေခြင်း - Google DeepMind
https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/
[22] CICERO: AI သာသနာရေးနှင့် ဆက်ဆံရေး | blog_posts – Weights & Biases
https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5
[23] [24] [34] [35] အာကာသတွင်အသံထွက်စေသော Reinforcement Learning > အမေရိကန်ရေတပ်သုတေသနဌာန > NRL သတင်းများ
[25] [26] [27] [28] [29] အာကာသတွင်ပထမဆုံးအသံထွက်မှု - ဗူးဇဘတ် AI သည် ဂြိုဟ်တုကိုထိန်းချုပ်သည် -
https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/