Reinforcement Learning သည် AI ၏ "ဒုတိယအချီ" တွင် အဓိကနေရာရလာရသည့်အကြောင်း

စာရေးသူ: Boxu Li

ကြိုတင်လေ့ကျင့်ခြင်းမှ AI ၏ "ဒုတိယအချီ" သို့

ကြီးမားသောအရွယ်အစားရှိသော ကြိုတင်သင်ကြားမှုများဖြင့် အထိန်းအကြပ်ပြုလုပ်ခဲ့သော ဆယ်စုနှစ်တစ်ခုအပြီးတွင် AI အသိုင်းအဝိုင်းသည် အချို့က "AI ဖွံ့ဖြိုးတိုးတက်မှု၏ ဒုတိယအခန်း" ဟုခေါ်ကြသည့် အခန်းသို့ ဝင်ရောက်လာနေပြီဖြစ်သည်။ ပထမအခန်းတွင် အဆင့်မြင့်မော်ဒယ်ဖွဲ့စည်းမှုပုံစံနှင့် သင်ကြားရေးနည်းလမ်းအသစ်များမှ စံချိန်များကို အပြင်းအထန် တက်ကြွစွာ ကြိုးစားကြသည်။ – convnets နှင့် LSTMs မှ Transformers အထိ – အားလုံးသည် အတည်ပြုသင်ကြားမှု သို့မဟုတ် ကိုယ်တိုင်သင်ကြားမှုဖြင့် စတင်ထားသော ဒေတာများပေါ်တွင် အထူးပြုလုပ်ထားသည်။ သို့သော် ယနေ့တွင် GPT-4 ကဲ့သို့ နယ်စပ်မော်ဒယ်များသည် အများစွာသော စံချိန်များကို အကျုံးဝင်လာပြီး အချက်အလက်နှင့် ပါရာမီတာများကို တိုးလျှင် အကျိုးသက်ရောက်မှု ကန့်သတ်ချက်ရှိလာသည်။ ဤပြောင်းလဲမှုသည် AI မှ ထပ်မံသော ဉာဏ်ပညာနှင့် အသုံးအများကို ရယူရန်ကို ပြန်လည်စဉ်းစားမှုကို ဖြစ်စေခဲ့သည်။

တစ်ခုသော ပေါ်ထွန်းလာသော သဘောတရားမှာ အတုယူသင်ယူမှု (RL) သည် ဒီအဆင့်သစ်တွင် ပိုမိုထင်ရှားသော အခန်းကဏ္ဍကို ထမ်းဆောင်မည်ဖြစ်သည်ဟု ဆိုပါသည်။ RL သည် ရေရှည်ဆုလာဘ်များကို အကောင်းဆုံးဖြစ်အောင် လုပ်ဆောင်ခြင်းဖြင့် မည်သည့် အလုပ်ကိုမဆို နိုင်နိုင်ဖြတ်ဖြတ် ပြီးမြောက်စေသော နိုင်ငံခြားရေးအရာရှိအဖြစ် ရှေးခင်ကတည်းက သတ်မှတ်ထားပြီးသားဖြစ်သည်။ AlphaGo သို့မဟုတ် AlphaStar ကဲ့သို့သော လူ့အထက်စွမ်းဆောင်မှုစနစ်များကို RL မပါဘဲ မှီရာမျှင်မရစရာဖြစ်သည်ဟု ခန့်မှန်းရသည်။ ယခုအခါ၊ ကြီးမားသော ကြိုတင်သင်ကြားထားမှု မော်ဒယ်များကို အခြေခံတည်ဆောက်ရာ၌ အများစုသော သုတေသနဆရာများက “ကြိုတင်သင်ကြားမှုက ပြီးသွားပြီ” ဟု ဆိုကာ – အနာဂတ် လှုပ်ရှားမှုကြီးများသည် ယင်းမော်ဒယ်များကို အပြန်အလှန်ပတ်ဝန်းကျင်များတွင် RL ဖြင့် နောက်ပိုင်းသင်ကြားခြင်း မှာဖြစ်လာမည်ဟု ပြောဆိုကြသည်။ မကြာသေးခင်က ဆောင်းပါးတစ်ခုက ရေးသားထားသည့် အတိုင်း၊ ကြီးမားသော ကြိုတင်သင်ကြားထားမှု မော်ဒယ်များ (အကြိုအနာခံများ) နှင့် သင့်တော်သော ပတ်ဝန်းကျင်များ ရှိနေပြီဆိုရင် “RL အယ်လဂိုရီသမ်က အဆင်ပြေဆုံးသော အပိုင်းဖြစ်နိုင်သည်” ဟု ဆိုသည်။ အခြားသောစကားဖြင့်, ကြိုတင်သင်ကြားမှုဖြင့် ကိတ်မုန့်ကို ပြုလုပ်ပြီးပါပြီ; အတုယူသင်ယူမှုသည် အတွေးအခေါ်နှင့် လုပ်ဆောင်မှု ဖြင့် အလှဆင်ရန် အဓိကသော အချက်ဖြစ်သည်။

Shunyu Yao သည် The Second Half တွင် ဤစည်းမျဉ်းကို ဖျော်ဖြေရန် ရေးသားထားသည်။ သူက ခေတ်သစ် AI တွင် “လုပ်ဆောင်မှုနည်းပညာ” – ကြီးမားသော ဘာသာပြန်မော်ဒယ် ကြိုတင်လေ့ကျင့်ခြင်း + အတိုင်းအတာချိန်ညှိခြင်း + အကြောင်းအရာခြင်း – ကို အသစ်ပြန်လည်ထုတ်လုပ်ခြင်းမရှိဘဲ အများစွာသော လုပ်ငန်းများကို ဖြေရှင်းနိုင်သည်ဟု ရေးသားထားသည်[2][6]။ ထို့ကြောင့် ဂိမ်းသည် ပြောင်းလဲသွားပြီ။ နောက်ထပ် စက်ပုံတစ်ခုကို တီထွင်ခြင်းဖြင့် ယခင်ကရရှိခဲ့သော ခုန်ဆင်းမှုများကို မရနိုင်တော့ဘူး။ အစား၊ အပြန်အလှန်သုံးသပ်ခြင်းနှင့် ပတ်ဝန်းကျင်များ အပေါ် ဂရုပြုရမည်။ အဓိကအားဖြင့် AI ကို တကယ့်ကို တွေးခေါ်၍ လုပ်ဆောင် ရန် မျှော်မှန်းချက်ကို မျှော်လင့်ရမည်[7][8]။ ထိုအရာသည် RL ကို အသုံးပြုရမည် ဆိုသည်ကို မလွဲမှားဖြစ်စေသည်။ Yao သည် RL ကို “AI ၏ အဆုံးအဖြတ်” ဟုခေါ်ဆိုပြီး ကြိုတင်လေ့ကျင့်ခြင်းမှ အင်အားကြီးသော ဦးတည်ချက်များနှင့် ဘာသာစကားနှင့် ကိရိယာများပါဝင်သော ပတ်ဝန်းကျင်များရှိသော အချိန်တွင် အခုနှစ်ဝက်တွင် “နည်းပညာသည် ဂိမ်းကို အပြည့်အဝပြောင်းလဲနေပြီ” ဟုဆိုသည်[1]။ အတည်ပြုချက်များမှ အပြန်အလှန် လုပ်ငန်းများ သို့ ပြောင်းလဲခြင်းကို မျှော်လင့်ရမည်ဖြစ်ပြီး၊ တစ်ကြိမ်ပြန်လည်သုံးသပ်မှုများမှ သဘာဝတွင် အဆက်မပြတ်လေ့လာခြင်းသို့ ပြောင်းရွှေ့ရမည်။ နိဂုံးအားဖြင့်၊ reinforcement learning သည် AI ကို တိုးတက်စေခြင်းတွင် အဓိကဖြစ်လာနေပြီ

အဆင့်မြင့်စွမ်းရည်များကိုဖွင့်လှစ်ရန်အတွက် RL အဖြစ်

RL ကိုထပ်မံအာရုံစိုက်ရခြင်းအကြောင်းဘာလဲ? ရိုးရှင်းစွာပြောရရင် reinforcement learning က supervised learning တစ်ခုထက်သာလွန်သောစွမ်းရည်များကိုပေးစွမ်းနိုင်သည်။ Large Language Models (LLMs) သည် ဥပမာတစ်ခုဖြစ်သည်။ GPT-4 ကဲ့သို့သော transformer သည် အင်တာနက်စာသားများကို ကြိုတင်လေ့လာသင်ယူပြီး ပုံစံအသိပညာနှင့် ဘာသာစကားကို သင်ယူသော်လည်း တစ်ကိုယ်ရေတွင် အဖွဲ့အစည်းမှန်ကန်မှု မရှိသေးပေ။ ကြိုတင်လေ့လာခြင်းက “ဘယ်လိုပြောရမယ်ဆိုတာ” သင်ပေးပေမယ့် အပြန်အလှန်အကျိုးသက်ရောက်မှုရှိတဲ့အခြေအနေမှာ ဘာဆုံးဖြတ်ချက်လုပ်ရမယ်ဆိုတာ မဟုတ်ပါဘူး။ ဒါနဲ့ပတ်သက်ပြီး RL က AI ကို ဘယ်လိုရည်မှန်းချက်များကိုလိုက်နာရမယ်၊ ဘယ်လိုဆောင်ရွက်ရမယ်ဆိုတာ သင်ပေးနိုင်ပြီး ထိုရည်မှန်းချက်များကို ဖော်ပြသော ဆုလာဘ်များကို အများဆုံးရရှိစေဖို့ဖြစ်ပါတယ်။ အနားကပ်စွာခန့်မှန်းခြင်းမှ စမ်းသပ်ခြင်းနှင့် အပြန်အလှန်တုံ့ပြန်မှုရရှိခြင်းသို့ ပြောင်းလဲခြင်းသည် အကြောင်းပြချက်ပေးခြင်း၊ စီမံဖြေရှင်းခြင်းနှင့် တည့်ညီမှုအတွက်အရေးကြီးသည်

LLM အခြေခံထားသော အေးဂျင့်များအပေါ် လတ်တလော လုပ်ဆောင်ချက်များက RL သည် စွမ်းဆောင်ရည်အသစ်များကို ဖွင့်လှစ်ပေးသည်ကို ပြသခဲ့သည်။ ဉပမာအားဖြင့် အခမဲ့ အရင်းအမြစ် Kimi K2 မော်ဒယ်ကို reinforcement learning ဖြင့် အဆုံး-to-အဆုံး ပြင်ဆင်မှု ပြုလုပ်ခဲ့ပြီး 「မော်ဒယ်ကို စီမံချက်တစ်ခုချခြင်း၊ တုံ့ပြန်ချက်ပြုခြင်းနှင့် စဉ်းစားမှုကြောင်းရှည်များအတွင်း၌ ကိုယ်တိုင်ပြင်ဆင်ခြင်းကို သင်ကြားပေးသည်」[9]။ RL ဖြင့် K2 သည် ကိုယ်ပိုင် အကြောင်းပြချက် ပုံစံများကို ရရှိခဲ့ပြီး – အချက်အလက်များကို အတည်ပြုချက်ပြုခြင်း၊ သီအိုရီများအား ပြန်လည်ဆန်းစစ်ခြင်းနှင့် မေးခွန်းတစ်ခု အလွယ်တကူဆိုသော်လည်း သတိရှိနေခြင်းတို့ကို သင်ယူသည်[10]။ အကျိုးအဖြစ်မှာ မော်ဒယ်သည် လေ့ကျင့်မှုဒေတာကို မရှိမဖြစ် ပြန်လည်ပြောဆိုခြင်းမပြုဘဲ၊ အပြစ်မဲ့သော ပြဿနာများကို ဘယ်လို ဖြေရှင်းရမည်ကို တက်ကြွစွာ အတွေးအခေါ်ပြုလုပ်သည်။ ထို့နောက် K2 project သည် ယုံကြည်စိတ်ချရမှုကို အလေးပေးသည် – အေးဂျင့်သည် အဖြေနှုန်းများကို အတည်ပြုရန် သဘောတူသည်ကို ပထမဦးဆုံး အလေးပေးပြီး၊ ကောင်းမွန်မှုကို မြန်နှုန်းထက် အများဆုံးဖြစ်စေရန် RL လေ့ကျင့်မှု၏ လမ်းကြောင်းကို ပြသသည်[11]။ အဓိကအားဖြင့် **reinforcement learning သည် စီမံချက်နှင့် စဉ်းစားမှုတို့ကို အတွင်းပိုင်း “agentic” loop ဖြင့် မော်ဒယ်ကို ရည်ရွယ်စေပြီး၊ နောက်ထပ်-token ခန့်မှန်းမှု၏ ကန့်သတ်ချက်များကို ကျော်လွင့်စေသည်။

အခြားသော အဆင့်မြင့်စနစ်များတွင်လည်း ဒီပုံစံကို တွေ့ရသည်။ ChatGPT ၏ အဆင့်မြှင့်တင်မှုသည် GPT-3 ထံမှ လူ့အကြံပြုချက်များမှတဆင့် Reinforcement Learning (RLHF) ဖြင့် အများအားဖြင့် ရရှိခဲ့သည်။ မော်ဒယ်ကို စာသားဖြင့် နောက်ခံလေ့ကျင့်ပြီးနောက် OpenAI သည် လူ့အကြံပြုချက်နှင့် ဆုချီးမြှင့်မော်ဒယ်များဖြင့် ပြန်လည်ညှိနှိုင်းခဲ့ပြီး ၎င်း၏ အကျိုးရှိမှုနှင့် ညွှန်ကြားချက်များကို လွှမ်းမိုးစွာ တိုးတက်စေခဲ့သည်။ John Schulman - ChatGPT အပေါ် လေ့လာမှု ဆောင်ရွက်သူဦးဆောင် - အဆိုပါ လုပ်ငန်းစဉ်ကို ဖော်ပြသည်။ လူ့စမ်းသပ်သူများက မော်ဒယ်အား ပေါင်းစပ်ပြောဆိုမှုများကို ကိုင်တွယ်ရန် ကောင်းမွန်စေပြီး လမ်းပျောက်ခြင်း၊ မလိုလားအပ်သော ထွက်ရောက်မှုများကို ရှောင်ရှားစေရန် အခွင့်အရေးထောက်ခံမှုကို ပေးခဲ့သည်။ [12] ရှင်းပြရစရာမလိုသော RLHF မှ လူ့အကြံပြုချက်များနှင့် စကားပြော အကြောင်းအရာများနှင့် အညီ အလားတူ ဖြစ်လာခဲ့သည်။ အဆိုပါ နည်းလမ်းသည် မူရင်း LLM များကို အကျိုးရှိသော အစိတ်အပိုင်းများအဖြစ် ဖန်တီးရာတွင် de facto standard ဖြစ်လာခဲ့သည်။ WIRED အပိုင်းတစ်ခုက ဖော်ပြသည့်အတိုင်း reinforcement learning သည် မော်ဒယ်များကို ပြန်လည်ညှိရန် အဆင့်မြှင့်ခြင်း အဖြစ် “ပိုမိုလူကြိုက်များသော” နည်းလမ်းဖြစ်လာသည် [13]။ chatbot ကို ညွှန်ကြားချက်များကို လိုက်နာစေရန်ဖြစ်စေ၊ သို့မဟုတ် မော်ဒယ်ကြီးကို ပြဿနာဖြေရှင်းနိုင်စွမ်းဖြင့် အရည်အသွေးမြင့်မားစေရန်ဖြစ်စေ၊ RL သည် နောက်ခံလေ့ကျင့်မှုပြီးဆုံးပြီးပါက ရွေးချယ်ရန် ကိရိယာဖြစ်သည်။

RL ၏အရေးပါမှုသည် ချိုသာမှုအတွက်သာ fine-tuning ပြုလုပ်ခြင်းထက် ပို၍ ကျယ်ပြန့်သည်; ၎င်းသည် မော်ဒယ်များကို ဆုံးဖြတ်ချက်ချရန် သင်ကြားခြင်းအကြောင်း ဖြစ်သည်။ Macaron AI’s Mind Labs မှ မကြာသေးမီက ထုတ်ပြန်သည့် နည်းပညာဆိုင်ရာ ဘလော့ဂ်တွင် ၎င်းကို အကျဉ်းချုံးဖော်ပြထားသည်- “LLM များသည် အကြိုလေ့ကျင့်ခြင်းမှ အတွေ့အကြုံဆိုင်ရာ သင်ယူမှုဆီသို့ ပိုမိုတိုးတက်လာခြင်းဖြင့် Reinforcement Learning သည် ကြိုးစားအားထုတ်မှုတစ်ခုအဖြစ် အဆင့်မြင့် အကြောင်းပြချက်ပေးနိုင်စွမ်းများကို ဖွင့်လှစ်ရန် သော့ချက်အဖြစ် ပေါ်ထွက်လာသည်။”[14] RL ကို အနောက်ဆုံးအဆင့်အဖြစ်သာမက cutting-edge စီမံကိန်းများသည် “agentic အပြုအမူအတွက် ပထမတန်းစား ဒီဇိုင်း အခြေခံအုတ်မြစ်အဖြစ်”[15] အဖြစ် ထည့်သွင်းစဉ်းစားကြသည်။ လက်တွေ့အရ အဲဒါက AI စနစ်များကို သင်ကြားခြင်းမှာ သူတို့ကို မည်သည့်အခိုက်အတန့်တွင်မဆို လုပ်ဆောင်ရမည့် ဆင်တူသည့် သို့မဟုတ် အမှန်တကယ် ပတ်ဝန်းကျင်များတွင် ထည့်သွင်းခြင်းဖြင့် ဖြစ်သည်။ AI သည် အတုယူနိုင်သော ဒေတာစုရင်းများတွင် ဖမ်းမမိနိုင်သော ကျွမ်းကျင်မှုများကို ပိုင်ဆိုင်ရမည်။

ဤအတွေးအခေါ်နှင့်အညီ AI စမ်းသပ်ခန်းအသစ်များဖွဲ့စည်းနေသည်မှာ အလွန်ထင်ရှားသည်။ Thinking Machines Lab သည် OpenAI ခေါင်းဆောင်ဟောင်းများမှ တည်ထောင်ထားသော စတင်လုပ်ငန်းတစ်ခုဖြစ်ပြီး RL နှင့် အခြားနည်းလမ်းများမှတဆင့် နောက်ဆုံးပေါ် မော်ဒယ်များကို ရှင်းလင်းစွာညှိနှိုင်းရန် အရည်အသွေးမြင့်ကိရိယာများ တည်ဆောက်ရန် $2B အစပျိုးတန်ဖိုးဖြင့် မကြာသေးခင်က စတင်ခဲ့သည်။ ၎င်းတို့၏ အဓိကထုတ်ကုန် "Tinker" သည် ကြီးမားသော မော်ဒယ်များကို RL-fine-tuning အလိုအလျောက်လုပ်ဆောင်ရန် ရည်ရွယ်ထားပြီး အများပြည်သူများအား "reinforcement learning ကိုအသုံးပြု၍ ကြီးမားသောမော်ဒယ်များထဲမှ အစွမ်းအသစ်များ ထုတ်ယူရန်" အခွင့်အလမ်းပေးခြင်းဖြင့် AI ရှင်သန်မှုအတွက် နောက်ထပ်အရေးကြီးအရာဖြစ်လာမည်ဟု သတ်မှတ်ထားသည်။ [16][17]။ ထိုနည်းတူ Macaron AI (သုတေသနလုပ်ငန်းအသစ်တစ်ခု) သည် RL ကို ထရီလီယံ-ပါရာမီတာ မော်ဒယ်များအတွက် ပမာဏချဲ့ထွင်ရန် ထုံးစံကျ RL ဂရုစိုက်မှုများနှင့် အခြေခံအဆောက်အအုံများကို ဒီဇိုင်းဆွဲနေသည်[18][19]။ ထိုကဲ့သို့သော ကြိုးပမ်းမှုများသည် ကျယ်ပြန့်သော လမ်းကြောင်းကို ဦးတည်စေသည် - AI လူထုသည် RL တွင် မော်ဒယ်များကို နောက်ဆုံးပေါ်တွင် ရောက်ရှိစေရန် အလွန်ကြီးမားသော အခွင့်အလမ်းကို မြင်ရသည် - ၎င်းသည် ၎င်းတို့ကို ပိုမို ကိရိယာအသုံးပြုခြင်းနှင့် အကြောင်းပြချက်ရှာဖွေခြင်း (Kimi K2 နှင့် Macaron ၏ အေးဂျင့်များအဖြစ်) သို့မဟုတ် ပိုမို ကိုက်ညီမှုရှိခြင်းနှင့် အိတ်ဖွင့်ခြင်း (ChatGPT နှင့် Tinker အဖြစ်) ဖြစ်စေခြင်းဖြစ်သည်။ အကျဉ်းချုပ်အားဖြင့် RL သည် မကြာသေးခင်က ဆောက်လုပ်ခဲ့သော အခြေခံမော်ဒယ်များ၏ အပြည့်အဝ အလားအလာကို အကောင်အထည်ဖော်ရန် အဓိက အားဖြည့်နည်းပညာအဖြစ် လက်ခံရရှိနေပြီ ဖြစ်သည်။

အပြင်လောကအကျိုးသက်ရောက်မှု - စမ်းသပ်မှုများမှ ဂြိုဟ်တုများသို့

RL ၏နာမည်ကြီးလာပုံရသည့်အဓိကအကြောင်းရင်းမှာ စံပြုဒေတာဆက်အုပ်များ၏သဲသောင်ပြင်အပြင်တွင် ပြဿနာများကိုဖြေရှင်းရာတွင် ၎င်း၏အောင်မြင်မှုများကြောင့် ဖြစ်သည်။ ဂိမ်းကစားခြင်းတွင် ရှေ့ပြေးအောင်မြင်မှုများသည် ပထမဆုံးထိပ်တန်းအထောက်အထားဖြစ်ခဲ့သည်။ DeepMind ၏ AlphaGo၊ AlphaZero နှင့် OpenAI ၏ Five သည် Go၊ chess နှင့် ရှုပ်ထွေးသောဗီဒီယိုဂိမ်းများကို အနက်ရှိုင်းသော reinforcement learning ဖြင့် ရှုံးပေကာ ကျော်လွန်နိုင်ခဲ့သည်။ ဤစနစ်များသည် ကောင်းမွန်စွာသတ်မှတ်ထားသောဆု (ဂိမ်းကိုအနိုင်ရခြင်းကဲ့သို့) ရှိပါက RL အေးဂျင့်များသည် လူသားချန်ပီယံများကို လေ့ကျင့်မှုနှင့် အတွက် optimization ဖြင့် ကျော်လွန်နိုင်ကြောင်းပြသခဲ့သည်[4]။ အထူးသဖြင့် 2019 ခုနှစ်တွင် Dota-2 ကမ္ဘာ့ချန်ပီယံအသင်းကို OpenAI Five ၏အောင်ပွဲသည် များစွာသောအတုယူခြင်းဖြင့်သာ လေ့ကျင့်ခြင်းဖြင့် ရရှိခဲ့သည်- RL ၏ယနေ့နည်းစနစ်များ၏ “အံ့ဖွယ်အင်အား”ကို ပြသခဲ့သည့်အခါတွင် အခွင့်အလမ်းများနှင့် စိန်ခေါ်မှုများကို ဖော်ပြခဲ့သည်[20]။ ၎င်းစီမံကိန်းသည် RL ၏အလားအလာနှင့် ၎င်း၏စိန်ခေါ်မှုများကို အထူးပြုခဲ့သည်- ၎င်းသည် မာစီဖ်ဆင်းကူလေးရှင်း (ဂိမ်းကစားခြင်း၏ရာစုနှစ်များနှင့်တူညီ) နှင့် ဆန်းသစ်သောအင်ဂျင်နီယာလုပ်ငန်းကို လိုအပ်ခဲ့သော်လည်း ၎င်းအလုပ်လုပ်ခဲ့သည်၊ အဆင့်အတန်းမှူးတစ်ဖွဲ့နှင့် မည်သည့် rule-based AI ကောင်းစွာလုပ်နိုင်သည့်အရာများထက် ပို၍ အဆင့်မြင့်သော ရည်ရွယ်ချက်များနှင့် မဟာဗျူဟာများကိုထုတ်လုပ်ခဲ့သည်။

InnoCube ဂြိုဟ်တု၏ အရည်အသွေးပုံစံတွင် အ attitudes သတ်မှတ်ခြင်းနှင့် ထိန်းချုပ်ခြင်းစနစ် ADCS box ထည့်သွင်းနေသည်။

အရေးကြီးတာက RL ဟာ အခုအခါ အခန်းအနားလွတ်တဲ့ ဂိမ်းတွေမှာပဲ မကန့်သတ်တော့ဘူး။ 2022 ခုနှစ်မှာ DeepMind က နျူကလီယား ပလက်စမာကို အချိန်နဲ့ တပြေးညီ ထိန်းချုပ်ဖို့ deep RL ကို အသုံးပြုခဲ့တဲ့ အရေးပါတဲ့ အောင်မြင်မှုကို မြင်တွေ့ခဲ့ရတယ်၊ အဲဒါက မန်နျူရယ် ထိန်းချုပ်မှုတွေနဲ့ မဖြစ်နိုင်ခဲ့တာပါ။ စင်မြူးလိတ်တာမှာ လေ့ကျင့်ပြီးနောက် တိုကမတ် ရေအိုးထဲကို တင်သွင်းခြင်းဖြင့် သူတို့ရဲ့ အေးဂျင့်က မျက်နာခံပုံစံကို ထိန်းချုပ်ဖို့ မက်နက်တစ်ကွိုင်တွေကို လေ့လာပြီး ပလက်စမာကို ထိန်းချုပ်ဖို့ အောင်မြင်ခဲ့တယ်။ ဒီမှာ RL က ရှုပ်ထွေးတဲ့ အတိုင်းအတာများ၊ ဒိုင်နမစ် ထိန်းချုပ်မှု ပြဿနာများကို ရှာဖွေပြီး ပညာရေးသုတေသနအသစ်များ ရှာဖွေဖို့ လမ်းသစ်တွေ ဖွင့်ပေးခဲ့တယ်။

RL သည် အပြည့်အဝ အောင်မြင်မှုကို ထိတွေ့နေသော နောက်ထပ် နယ်ပယ်တစ်ခုမှာ Multi-agent interaction နှင့် game theory ဖြစ်သည်။ ထင်ရှားသော ဥပမာတစ်ခုမှာ Meta ၏ CICERO ဖြစ်သည်၊ ဤ AI သည် Diplomacy ဆိုသော ဂိမ်းတွင် လူ့အဆင့် စွမ်းဆောင်ရည်ကို ရရှိသော ပထမဆုံး AI ဖြစ်သည်။ ဤဂိမ်းသည် ကစားသူများစွာအကြား ညှိနှိုင်းမှုနှင့် မဟာဗျူဟာဆက်ဆံမှုကို လိုအပ်သည်။ CICERO သည် ဘာသာစကားအတွက် LLM ကို RL လေ့ကျင့်ထားသော အစီအစဉ်ရေးစက်နှင့် ပေါင်းစပ်ထားသည်။ ၎င်းသည် မဟာဗျူဟာများကို စီမံခန့်ခွဲရမည်၊ အခြား ကစားသူများ၏ ရည်ရွယ်ချက်များကို မော်ဒယ်ဖျော်ရွှင်ရမည်၊ နှုတ်ကပတ်ဆွေးနွေးမှုကို စွမ်းဆောင်ရမည်။ ရလဒ်မှာ စံချိန်တင်ဆန်းကြယ်ဖြစ်ခဲ့သည် - CICERO သည် လူသားများနှင့် အတူ ပူးပေါင်းနိုင်ခဲ့ပြီး ယှဉ်ပြိုင်နိုင်ခဲ့သည်၊ လိမ်မှုနှင့် bluffing ရှိနေစဉ်တွင်ပါ။ စောပနာများက "Diplomacy သည် ယုံကြည်မှု၊ ညှိနှိုင်းမှုနှင့် ကစားသူများစွာနှင့် ပူးပေါင်းမှုကို လိုအပ်သော မဟာဗျူဟာဂိမ်းဖြစ်သည်၊ ပထမဆုံး AI ဖြစ်သည်" ဟု မှတ်ချက်ပြုသည်။[22] ဤသည်သည် ဘုတ်ပြားဂိမ်းမဟာဗျူဟာများကို ကျော်လွန်ပြီး RL အေးဂျင့်များသည် လူမှုဆက်ဆံမှု မဟာဗျူဟာနှင့် ရှုပ်ထွေးသော game-theoretic environments ကို စီမံခန့်ခွဲနိုင်သည်ကို အထောက်အထားပြသည်။ ဤစွမ်းရည်များသည် AI သည် တစ်နေ့တွင် စီးပွားရေး၊ ညှိနှိုင်းမှုများ သို့မဟုတ် ရှုပ်ထွေးသော အဖွဲ့အစည်းဆုံးဖြတ်ချက်များကို လမ်းကြောင်းညွှန်ရန် အရေးကြီးသည်။

နောက်ဆုံးတွင်၊ အထူးသဖြင့် အလွန်ထူးခြားစွာဖြင့်၊ RL သည် ကမ္ဘာမြေမှ လုံးဝထွက်ခွာသွားနေပြီ ဖြစ်သည်။ ယခုနှစ်အတွင်းတွင်၊ သုတေသနပြုသူများသည် သိပ္ပံစိတ်ကူးယဉ်မှုကို အမှန်တကယ်ဖြစ်လာစေသောအရာကို ရရှိခဲ့ကြသည်။ အာကာသတွင် ရှု့ပ်လုံးကဲ့သို့ လွတ်လပ်သော ငှက်ရုန်းပျံသန်းမှုများကို reinforcement learning ဖြင့် ထိန်းချုပ်ခြင်းဖြစ်သည်။ အမေရိကန်ရေတပ်သုတေသနဌာန၏ အာကာသအတွက် လေ့ကျင့်ခဲ့သော RL algorithm သည် Astrobee လွတ်လပ်စွာပျံသန်းသော ရုပ်စုံကိုထိန်းချုပ်ပြီး မိုက္ခရိုဂရပ်ဆွီအတွင်း အလိုအလျောက်လှုပ်ရှားမှုများကို အောင်မြင်စွာလုပ်ဆောင်သည် [23][24]။ NRL ၏အဖွဲ့သည် ၎င်းသည် “reinforcement learning algorithm များကို အသုံးပြု၍ အာကာသတွင် အလိုအလျောက်ရုပ်ပြခန်းထိန်းချုပ်ခြင်း၏ ပထမဆုံးဖြစ်သည်” ဟု မှတ်သားခဲ့ပြီး RL သည် အာကာသစစ်ဆင်ရေး၏ မဖြေရှင်းနိုင်သောအခြေအနေများကို ကိုင်တွယ်နိုင်ကြောင်း ယုံကြည်မှုကို တည်ဆောက်သည်ဟု ဆိုသည်[23]။ ထို့အပြင် ၂၀၂၅ ခုနှစ် အောက်တိုဘာလ ၃၀ ရက်တွင် Würzburg တက္ကသိုလ်အဖွဲ့သည် အာကာသတွင် ပထမဆုံးအကြိမ် သမိုင်းတင်အခိုက်အတန့် ကို ရရှိခဲ့သည်။ ၎င်းတို့၏ InnoCube အဏုဂြိုဟ်ငယ်သည် အလိုအလျောက် RL agent ကို ထိန်းချုပ်မှုဖြင့် လုံးဝထိန်းချုပ်မှုဖြင့် အနေအထားညှိယူမှုကို အောင်မြင်စွာ ဖျော်ဖြေရန် လုပ်ဆောင်ခဲ့သည်[25][26]။ ရှု့ပ်လုံးဦးဆောင်သုတေသနပြုသူက “ကျွန်ုပ်တို့သည် Deep Reinforcement Learning သင်ကြားထားသော ဂြိုဟ်ငယ်အနေအထားထိန်းချုပ်သူသည် အာကာသတွင် အောင်မြင်စွာ လုပ်ဆောင်နိုင်ကြောင်း၏ ပထမဆုံးအမှန်တရားဖြစ်သည်” ဟု ဆိုသည်[26]။ ၎င်းသည် သိပ္ပံသမိုင်းကျမှာ အရေးကြီးသော အခိုက်အတန့်တစ်ခုဖြစ်ပြီး RL သည် စမ်းသပ်ခန်းနှင့် ဓာတ်ခွဲခန်းများမှ အာကာသတွင် ရုပ်ပိုင်းဆိုင်ရာ စနစ်များကို ထိန်းချုပ်ခြင်း သို့ ရောက်ရှိသွားသည်။ AI ထိန်းချုပ်သူသည် မြင့်မားသောတိကျမှုရှိသော အတုအယောင်တွင် သင်ကြားခဲ့ပြီး ဂြိုဟ်ငယ်သို့ အပ်လုဒ်လုပ်၍ လူ့အင်အားမပါဘဲ အတိအကျအနေအထားလုပ်ဆောင်မှုများကို လုပ်ဆောင်ခဲ့သည်[27][28]။ ဂြိုဟ်ငယ်ထိန်းချုပ်နည်းကို လက်ချောင်းကပ်နှစ်လများကြာကြာလက်နက်မြောက်အောင်လုပ်ဆောင်ရမည့်အစီအစဉ်ကို RL agent ဖြင့် အချိန်နှင့်အမျှ အလိုအလျောက်ထိန်းချုပ်နိုင်သည်[29]။ အာကာသရုပ်ပိုင်းဆိုင်ရာတွင် အောင်မြင်မှုများသည် RL ၏ အစီအမံများသည် အမှန်တကယ်ကမ္ဘာ၏ မသေချာမှုအောက်တွင် လျင်မြန်စွာ ပြောင်းလဲနိုင်ပြီး ရိုးရာစက်ပစ္စည်းများဖြင့် အလိုအလျောက်လှုပ်ရှားမှုများကို ပြန်လည်တည်ဆောက်နိုင်ခြင်း ဖြစ်သည်။

သဘာဝနှင့် အနာဂတ် လမ်းကြောင်းများ

ဤဥပမာများအားလုံးသည် အရေးပါသော အချက်တစ်ခုကို အနက်ထားပြသည် - အခိုင်အမာလေ့လာမှုသည် မိမိတို့အတွက် အလိုအလျောက် သုံးနိုင်စွမ်းရရှိနေသောအခါ ဖြစ်လာသည်။ AI သည် "ဒုတိယဝက်"သို့ ရောက်လာသည့်အခါ အခက်အခဲမှာ ခန့်မှန်းခြင်းသာမက လုပ်ဆောင်ခြင်းဖြစ်သည်။ RL သည် စမ်းသပ်မှု၊ လေ့လာမှုနှင့် ရေရှည် အကောင်းဆုံးအဖြစ်စီမံခန့်ခွဲမှုအတွက် အခြေခံဖွဲ့စည်းမှုကို ပေးသည်။ အတိတ်ဒေတာများနှင့် ပတ်သက်သည့် သင်ကြားမှုဖြစ်သော စူပါဗိုင်ဇ် လေ့လာမှုနှင့် မတူဘဲ၊ RL သည် စနစ်များကို မိမိတို့အတွေ့အကြုံမှ သင်ယူရန်နှင့် စမ်းသပ်မှုမှတစ်ဆင့် တိုးတက်လာရန် ခွင့်ပြုသည်။ ဤသည်သည် မဖြစ်မနေသော AI အတွက် အရေးကြီးသည်။ မည်သည့် AI မဆို မသိမျှသော၊ အသစ်ဖြစ်သော အခြေအနေများတွင် လုပ်ဆောင်နိုင်ရမည်ဖြစ်သည် - အသုံးပြုသူ၏ စုံစမ်းမှုအသစ်ကို ဖြေရှင်းနေသည့် အကူအညီဖြစ်စေ၊ မမျှော်လင့်ထားသော အခက်အခဲများကို ရင်ဆိုင်သော ရုပ်မှန်ဖြစ်စေ။

AI ဖြင့်တိုးတက်မှုကိုတိုင်းတာပုံအပေါ်မှာလည်းနက်ရှိုင်းသောအကျိုးသက်ရောက်မှုများရှိပါတယ်။ မော်ဒယ်တစ်ခု၏နားလည်မှုကိုအတိုင်းအတာချထားရန် တည်ငြိမ်သောစံချိန်များကိုသာ အားကိုး၍မရနိုင်တော့ပါ။ အစား အချက်အလက်များကိုအပြင်းအထန် အစစ်အမှန်ကမ္ဘာနှင့်တူသော အကဲဖြတ်မှု စနစ်အသစ်များကို သုတေသနတွင် အဆိုပြုနေကြသည်- ဆက်လက်လုပ်ဆောင်ရမည့်အလုပ်များ၊ လူ့အဖွဲ့အစည်းဖြင့်ပတ်ဝန်းကျင်အတွင်းတွင်လုပ်ဆောင်မှုများနှင့် မတူညီသော i.i.d. အခြေအနေများဖြစ်သည်။ ထိုမျိုးသောမှီဝဲသော ပတ်ဝန်းကျင်များကို RL သင်ကြားမှုနှင့် တွဲဖက်ခြင်းအားဖြင့် မော်ဒယ်များအား ပိုမိုအားကောင်း၍ လွယ်ကူသော အပြုအမူများ ရရှိရန် တွန်းအားပေးထားပါသည်။ Yao ၏စကားများအရ ဒုတိယပိုင်းသည် စံချိန်မီသောလည်ပတ်မှုမှ ထွက်ပြေး၍ အမှန်တကယ်ကမ္ဘာ့အသုံးပြုမှုကို ပေးနိုင်သော အေးဂျင့်များ ဖန်တီးခြင်းဖြစ်မည်။ RL အခြေခံသော သုတေသနဌာနများတွင် ရင်းနှီးမြှုပ်နှံမှုများနှင့် စက်မှုလုပ်ငန်းတွင် RLHF ၏မြန်ဆန်စွာလက်ခံခြင်းများသည် ယခုချိန်မှာ ဤကျော်လွှားမှုကို လုပ်ရန် အချိန်ဖြစ်ကြောင်း အသိအမှတ်ပြုမှုကို ဖော်ပြသည်။

ဒီလိုပဲ ပြောရရင် RL ကို လက်ခံခြင်းဟာ အခက်အခဲတွေမပါဘဲ မဖြစ်နိုင်ပါဘူး။ RL လေ့ကျင့်မှုဟာ မတည်ငြိမ်နိုင်ပြီး အရင်းအမြစ်များကို စားသုံးနိုင်သည် (OpenAI Five ၏ အလွန်ကြီးမားသော ကုန်ကျစရိတ်ဖြင့် လေ့ကျင့်မှုကို ဥပမာပြနိုင်သည်[20])။ ၎င်းသည် ချိန်ခွင်လျှာမြန်ဆန်သော သို့မဟုတ် အမှားများကို လွယ်ကူစွာ ပြုပြင်နိုင်သော ပတ်ဝန်းကျင်များကို လိုအပ်သည် - အမြင်အာရုံမြင်ရသူများအတွက် အလွန်ကြီးမားသော ရာဇဝင်များတွင် မရနိုင်သော အရာတစ်ခုဖြစ်သည်။ သို့သော်ဤနယ်ပယ်များတွင်လည်း တိုးတက်မှုများ ရှိနေပါသည်။ Macaron ၏ All-Sync RL with DAPO အဆင့်မြှင့်တင်မှုများကဲ့သို့သော အယ်လဂိုရီသမ်အသစ်များနှင့် ပုံစံများသည် အကြီးစား RL လေ့ကျင့်မှု၏ ထိရောက်မှုကို အလွန်ကောင်းစွာ တိုးတတ်လာနေသည်[19][33]sim2real transfer၊ အကျိုးဆက်များကို ချိန်ညှိခြင်း၊ အာရုံစူးစိုက်မှုလုံခြုံမှု စသည့် နည်းလမ်းများက RL စနစ်များကို ဆိုးရွားသော အမှားများမဖြစ်ဘဲ အမှန်တကယ် လုပ်ငန်းများတွင် အသုံးပြုနိုင်ရန် ကူညီနေသည်[34][35]။ အရေးကြီးသည်မှာ အသိုင်းအဝိုင်းသည် RL ကို အခြား ဆန်းသစ်မှုများနှင့် ပေါင်းစပ် သင်ယူနေကြသည် - ဥပမာအားဖြင့် ဘာသာစကားမော်ဒယ်များကို အကဲဖြတ်သူ သို့မဟုတ် အစီအစဉ်ရေးဆွဲသူများအဖြစ် အသုံးပြုခြင်း၊ လူ့ကျင့်ဝတ်များကို လမ်းညွှန်ရန် RL ကို အသုံးပြုခြင်း (အမျိုးအစားတစ်ခုဖြစ်သော ချိန်ညှိခြင်း လေ့ကျင့်မှု) စသည်ဖြင့်။ ဤပေါင်းစပ်နည်းလမ်းများသည် အလွန်အားကောင်းသော နည်းလမ်းနှစ်ခုကို ပေါင်းစပ်နိုင်ခြင်းအားဖြင့် အကျိုးရှိစွာ အသုံးချနိုင်သည်။

အဆုံးသတ်အနေနဲ့၊ reinforcement learning ကို အခု အာရုံစိုက်ရခြင်းဟာ အလျောက်အလျှောက် လူကြိုက်များအောင်လုပ်ခြင်းမဟုတ်ပဲ၊ လိုအပ်ချက်နဲ့ အခွင့်အလမ်းတွေကို အသိအမှတ်ပြုခြင်းဖြစ်ပါတယ်။ ကျွန်ုပ်တို့ရဲ့ AI စနစ်တွေဟာ များပြားတဲ့ latent capabilities (pre-training အတွက် ကျေးဇူးတင်ပါတယ်) ရှိတဲ့နေရာမှာ ရပ်တည်နေပြီး၊ အဲ့ဒီ capabilities တွေကို activate လုပ်ဖို့နည်းလမ်းက ရည်မှန်းချက်ရှိတဲ့ သင်ယူမှုတွေအပါဝင်ပါတယ်။ AI အပြုအမူကို လူ့တန်ဖိုးတွေနဲ့ ကိုက်ညီအောင်လုပ်ခြင်း၊ စက်ရုပ်တွေကို အပြည့်အဝ ကိုယ်ပိုင်အာဏာပေးခြင်း၊ သို့မဟုတ် AI ကို သိပ္ပံနဲ့ အင်ဂျင်နီယာပြဿနာသစ်တွေကို ဖြေရှင်းဖို့ တွန်းအားပေးခြင်းမှာ၊ RL က feedback ကို အသုံးပြုပြီး AI ကို နောက်ပြန်ပြုပြင် နဲ့ တိုးတက် ဖို့ ကိရိယာတွေကို ပေးပါတယ်။ ကျွန်ုပ်တို့ဟာ အနက်ရှိုင်းတဲ့ သင်ယူမှုကာလကနေ တက်ကြွတဲ့ သင်ယူခြင်းနဲ့ လုပ်ဆောင်ခြင်း ဖက်သို့ ပြောင်းလဲနေတဲ့ အချိန်ကို မြင်တွေ့နေတာပါ။ “သွားမည့်နေရာကို ရောက်ဖို့ အကြောင်းပြချက်အရ ကျွန်ုပ်တို့ဒီမှာ ရနေရပါတယ်” ဆိုတဲ့စကားပမာကို အားတဲ့အတိုင်း၊ ပြည့်စုံတဲ့ ကိုယ်စားပြုမှုသင်ယူမှုရဲ့ လေးလံသော လုပ်ငန်းကို ကြီးမားတဲ့ မော်ဒယ်တွေက လုပ်ထားပြီဖြစ်ပေမယ့်၊ အဲ့ဒီ မော်ဒယ်တွေကို အသုံးဝင်လို့ရတဲ့၊ လိုက်လျောညီထွေဖြစ်တဲ့ နဲ့ ယုံကြည်ရတဲ့ အေးဂျင့်တွေဖြစ်အောင် ပြောင်းလဲဖို့ ကိရိယာက reinforcement learning ပါ။ RL သုတေသနနဲ့ အပလီကေးရှင်းတွေကို အခုရင်းနှီးမြှုပ်နှံခြင်းဖြင့်၊ ကျွန်ုပ်တို့ဟာ စိန်ခေါ်မှုများကို ရင်ဆိုင်ဖြေရှင်းနေပါတယ်။ AI ကို အဆင့်ဆင့်တွေးခေါ်နိုင်အောင်၊ အခြားရွေးချယ်မှုတွေကို စူးစမ်းနိုင်အောင်၊ အမှားတွေကနေ ပြန်လည်ထူထောင်နိုင်အောင်၊ နောက်ဆုံးမှာ အကန့်အသတ်မဲ့လုပ်ငန်းတွေကို ကျွမ်းကျင်အောင် လုပ်ပါ။ AI ရဲ့ ကြီးမားတဲ့ လမ်းကြောင်းမှာ ဒီပြောင်းလဲမှုဟာ 2010 ခုနှစ်များတွင် အနက်ရှိုင်းတဲ့ သင်ယူမှုတိုးတက်မှုလို အရေးကြီးပါပဲ။ ဒုတိယအပိုင်းက အခုမှ စတင်နေပြီး၊ reinforcement learning ဟာ အဲ့ဒီ့ကို ထိန်းသိမ်းပေးမယ့် အင်အားဖြစ်ပါတယ်။

ကိုးကားချက်များ:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]

[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] ဒုတိယအခန်း - Shunyu Yao - 姚顺雨

https://ysymyth.github.io/The-Second-Half/

[9] [10] [11] [15] Kimi K2 Thinking ကိုမိတ်ဆက်ခြင်း | ဘလော့ဂ်

https://kimik2thinking.org/blog/introducing-kimi-k2-thinking

[12] [13] [16] [17] အထူးသီးသန့်: Mira Murati ရဲ့ Stealth AI Lab အဖွဲ့က ပထမဆုံးထုတ်ကုန်ကို မိတ်ဆက်လိုက်ပြီ | WIRED

https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/

[14] [19] [33] MIND LABS | DAPO နဲ့ LoRA တွေအတွက် All-Sync RL ကို ကျယ်ပြန့်စေခြင်း

https://mindlabs.macaron.im/

[18] Macaron ချဲ့ထွင်မှု: Kimi K2 “အတွေး” မော်ဒယ်: အေးဂျင့် AI ကိုတိုးတက်စေခြင်း - Macaron

https://macaron.im/blog/kimi-k2-thinking

[20] OpenAI Five ဟာ Dota 2 ကမ္ဘာ့ချန်ပီယံတွေကို အနိုင်ရရှိ | OpenAI

https://openai.com/index/openai-five-defeats-dota-2-world-champions/

[21] လေ့လာမှုများမှ ပလာစမာထိန်းချုပ်မှုဖြင့် ဖျူးစည်းမှု သိပ္ပံကို မြန်ဆန်စေခြင်း - Google DeepMind

https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/

[22] CICERO: AI သာသနာရေးနှင့် ဆက်ဆံရေး | blog_posts – Weights & Biases

https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5

[23] [24] [34] [35] အာကာသတွင်အသံထွက်စေသော Reinforcement Learning > အမေရိကန်ရေတပ်သုတေသနဌာန > NRL သတင်းများ

https://www.nrl.navy.mil/Media/News/Article/4297593/reinforcement-learning-is-making-a-buzz-in-space/

[25] [26] [27] [28] [29] အာကာသတွင်ပထမဆုံးအသံထွက်မှု - ဗူးဇဘတ် AI သည် ဂြိုဟ်တုကိုထိန်းချုပ်သည် -

https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/

Nora is the Head of Growth at Macaron. Over the past two years, she has focused on AI product growth, successfully leading multiple products from 0 to 1. She possesses extensive experience in growth strategies.

Apply to become Macaron's first friends