၂၀၂၅ ခုနှစ်တွင် LLM များအတွက် လေ့ကျင့်မှုနောက်ပိုင်းနည်းလမ်းများကို ကျွမ်းကျင်စွာကျင့်သုံးခြင်း: ပုံမှန်မှ အထူးပြုသို့ ကုန်ပစ္စည်းများကို အဆင့်မြှင့်တင်ခြင်း

သဘာဝကျသော ဘာသာစကားများအတွက် လေ့လာမှုကြီးမားသော မော်ဒယ်များသည်၊ ကုဒ်ထုတ်လုပ်မှုမှ စိတ်ကူးယဉ်ဇာတ်လမ်းရေးသားခြင်းအထိ အထောက်အကူပြုသော မရှိမဖြစ်အရည်အချင်းများအဖြစ် ကြီးထွားလာသည်။ သို့သော်၊ ဒေတာရှားပါးမှုနှင့် ကွန်ပျူတာအင်အား၏ တိုးများလာမှုကြောင့် ကြိုတင်လေ့ကျင့်မှုသည် တိုးတက်မှုမရှိဖြစ်နေသည်။ ထို့ကြောင့် လေ့ကျင့်မှုနောက်ပိုင်းနည်းလမ်းများ သို့ အလေးပေးလာကြသည်။ ၎င်းသည် သာမန်ပညာရပ်သိပ္ပံမဟုတ်ပါ—၎င်းသည် မဟာဗျူဟာဆိုင်ရာ အရေးကြီးမှုဖြစ်သည်။ ၂၀၂၅ ခုနှစ် နိုဝင်ဘာလ ၁၁ ရက်နေ့တွင် OpenAI သည် နောက်ထပ် GPT မော်ဒယ်များတွင် လျော့နည်းလာသော လုပ်ဆောင်ချက်တိုးတက်မှုများကို တန်ပြန်ရန် လေ့ကျင့်မှုနောက်ပိုင်းနည်းလမ်းများကို အထူးအာရုံစိုက်ခြင်းဖြစ်ကြောင်း သတင်းများ ပျံ့နှံ့လာသည်။ GPT-4o ကဲ့သို့သော မူလမော်ဒယ်များသည် နဂိုအရွယ်အစား၏ နယ်နိမိတ်ကို အတားအဆီးဖြစ်စေရန် အစီရင်ခံခဲ့ကြပြီးနောက် အစစ်အမှန်အမိုက်စားသည် ယခုပင် ဖွင့်လှစ်နေသည်: အလားအလာများစွာရှိသော ပျော့မျှင်များကို တိကျစွာဖြင့် ညီညွတ်မှုရှိစွာ၊ အလျင်အမြန်ဖြစ်သော စဉ်းစားသူများ အဖြစ် ပြောင်းလဲခြင်း။

လေ့ကျင့်မှုပြီးနောက် - ထိန်းချုပ်မှုစနစ်တူပြန်လည်ပြင်ဆင်ခြင်း (SFT), လူ့တုံ့ပြန်ချက်မှ reinforcement learning (RLHF), parameter-ထိရောက်သောပြင်ဆင်ခြင်း (PEFT), နှင့် ကြိုးစားမှုများကဲ့သို့သော ပေါ်လာသောစံနစ်များတို့မှ လမ်းပြနေသော ကဏ္ဍအထူးပြု အတတ်ပညာကို အစမှ ပြန်လေ့ကျင့်ခြင်း၏ ကုန်ကျစရိတ်များမရှိဘဲ ဖွင့်လှစ်ပေးသည်။ နေသန် လမ်ဘာ့တ်သည် 2025 ခုနှစ် ဇန်နဝါရီလတွင် လေ့လာချက်မှာ "Post-training သည် နောက်ကျရောသည်မဟုတ်တော့ဘဲ နောက်ဆုံး AI စွမ်းရည်များကို မောင်းနှင်သော အင်ဂျင်ဖြစ်သည်" ဟု တိကျစွာ မှတ်ချက်ပြုသည်။ ဤဘလော့ဂ်သည် ဤနည်းလမ်းများကို ပြင်းပြင်းထန်ထန် အနက်သိမြင်တတ်သော OpenAI, Scale AI, Hugging Face, နှင့် Red Hat တို့မှ 2025 ခုနှစ် နောက်ဆုံးရ ပျောက်ကွယ်စွာများကို အသုံးပြု၍ ဆွေးနွေးပါသည်။ လုပ်ငန်းများအတွက် အထူးပြုထားသော စီးပွားရေး ပြန်လည်ထုတ်လုပ်မှုအတွက် အထူးပြုထားသော ထုတ်လုပ်သူဖြစ်စေ, သို့မဟုတ် alignment စိန်ခေါ်မှုကို စူးစမ်းမှု သုတေသန ပြုလုပ်သူဖြစ်စေ, post-training ကို နားလည်ခြင်းသည် LLMs ၏ အပြည့်အဝ အင်အားကို အသုံးချရန် အဓိကဖြစ်သည်။ ကျွန်ုပ်တို့သည် နည်းဗျူဟာများ, ချိန်ညှိချက်များ, စိန်ခေါ်မှုများ, နှင့် အနာဂတ်ကို တွေ့ရအောင် လုပ်ဆောင်နိုင်သော နည်းလမ်းများကို ရှာဖွေမည်ဖြစ်ပြီး၊ သင့် AI လုပ်ငန်းစဉ်များကို အနာဂါတ်သို့ ရှေ့ပြေးလုပ်ဆောင်နိုင်ရန် လက်တွေ့အသုံးချနိုင်သော အမြင်များကို ပံ့ပိုးပေးလိမ့်မည်။

ပျော့ပြောင်းလာသော အကျိုးရလဒ်များထဲတွင် လေ့ကျင့်ပြီးနောက် သင်ကြားမှု၏ အရေးပါမှု

အင်တာနက်မှ ရိတ်သိမ်းထားသော ဒေတာနည်းပြောင်များကို အသုံးပြု၍ LLM များကို ကြိုတင်လေ့ကျင့်ခြင်းသည် 100 ဦးရေ ဘီလီယံကျော်သော ပရိုဂရမ်များတွင် ထွက်လာသော အကြောင်းပြချက်များဖြစ်စေခဲ့ပါသည်။ သို့သော် OpenAI ၏ အတွင်းရေးမှုများက ပြသလိုက်သည့်အတိုင်း အကျိုးရလဒ်များကို နည်းပြောင်စွာ ထုတ်ယူခြင်း၏ ဥပေက္ခာသည် လှုပ်ရှားနေသည်။ နည်းပြောင်နှင့် အဆင့်မြင့်အရည်အသွေးမှ ပြတ်သားသော ဒေတာများကို ချုပ်လျှာနိုင်ခြင်းသည် ထပ်တလဲလဲဖြစ်နေသည်။ ဒါကြောင့် အလေးချိန်များကို ရေခဲသွားသောအခါ အကျိုးရှိရှိ လေ့လာမှုများကို ဦးစားပေး၍ သက်ဆိုင်သောပညာရှင်များဖြစ်စေလှုပ်ရပ်နေသော အချိန်တွင် သွားရောက်သင်ကြားရသည်။ ကြိုတင်လေ့ကျင့်ခြင်း၏ အားတင်းအားဖွင့်လုပ်ငန်းများနှင့်မတူဘဲ၊ လေ့ကျင့်ပြီးနောက် သင်ကြားမှုသည် အထူးပြုစွာ ဆက်စပ်နေသော လုပ်ဆောင်မှုများကို ပြုပြင်ခြင်းဖြစ်သည်။ အထူးသဖြင့် အထောက်အပံ့များ၊ အန္တရာယ်ကင်းမဲ့မှုများနှင့် အမှန်တရားများကို ဦးစားပေးရန် လုပ်ဆောင်ခြင်းဖြစ်သည်။ AI လုံခြုံရေး၏ "သုံး H" ဖြစ်သည်။

2025 မှာ အခုပြောင်းလဲမှုကို စက်မှုဇုန်ကြီးတွေက အထင်ကြီးစေတယ်။ OpenAI ရဲ့ အသစ်ဖွဲ့စည်းထားတဲ့ "foundations" အဖွဲ့ကို နိုဝင်ဘာအစောပိုင်းမှာ ကြေညာခဲ့ပြီး အစိုင်အခဲအချက်အလက်ထုတ်လုပ်ခြင်းနဲ့ ထပ်မံပြင်ဆင်ခြင်းကို ဦးစားပေးထားကာ နောက်ထပ်လေ့လာမှုကနေ ရှိပြီးသား အခြေခံဖွဲ့စည်းမှုတွေကနေ ၂-၅ ဆပိုမိုသော အဖိုးတန်မှုကို ထုတ်ယူနိုင်တယ်ဆိုတဲ့ အထွေထွေ စက်မှုဇုန် သဘောထားကို သဘောတူကြောင်း အထောက်အထားပြတယ်။ Scale AI ရဲ့ နိုဝင်ဘာ ၈ ရက်နေ့က ဆက်လက်လေ့လာမှုနဲ့ ပတ်သက်တဲ့ သုတေသနက အထောက်အထားပြပြီး မော်ဒယ်တွေက အသစ်သိရှိမှုတွေကို ပျက်စီးတတ်တဲ့ မေ့လျော့ခြင်းမဖြစ်ဘဲ စွမ်းရည်နိမ့်ကျတာကို ၂၀-၃၀% လျှော့ချတတ်တဲ့ အခြေခံပြုပြင်ခြင်းနဲ့ ထပ်မံရောထွေးမှုမရှိဘဲ ချိတ်ဆက်လေ့လာနိုင်ကြောင်းပြသတယ်။ အဲဒီအချိန်မှာ Hugging Face ရဲ့ Smol Training Playbook — အောက်တိုဘာလကုန်ပိုင်းမှာ ထုတ်ဝေခဲ့တဲ့ စာမျက်နှာ ၂၀၀ ကျော်ပါဝင်တဲ့ စာအုပ်ကြီးက အထောက်အထားတွေကို နွေဦးဖျော်ဖြေရန် အကျိုးသက်ရောက်မှုကို လွှမ်းခြုံဖို့ လမ်းညွှန်ချက်တွေကို ချပြထားပြီး SmolLM ကို ကြိုတင်လေ့လာမှုကနေ SFT နဲ့ DPO နည်းလမ်းတွေအရ နောက်ဆုံးလေ့လာမှုအထိ သူတို့ရဲ့ ခရီးစဉ်ကို မှတ်တမ်းတင်ထားတယ်။

ဒါကဘာလို့SEOအခြေပြုအကြောင်းအရာဖန်တီးသူများ၊ စီးပွားရေးလက်ရာများရေးဆွဲသူများ သို့မဟုတ် လွတ်လပ်သောဖွံ့ဖြိုးတိုးတက်ရေးလုပ်သားများအတွက် အရေးကြီးသလဲ။ Red Hat၏ နိုဝင်ဘာ ၄ ရက်နေ့ အကျဉ်းချုပ်အရ နောက်ပိုင်းလေ့ကျင့်ထားသော LLMများသည် ထုတ်လုပ်မှုအဆင့် အက်ပ်လီကေးရှင်းများ၏ ၈၀ ရာခိုင်နှုန်းကို အားဖြည့်ပေးပြီး၊ ပုဂ္ဂိုလ်ရေးချတ်ဘော့များမှ ကုဒ်အကူအညီများအထိ ဖြစ်သည်။ ၎င်းတို့သည် အမှားအယွင်းများကို ၄၀ ရာခိုင်နှုန်းအထိ လျှော့ချရန် RLHF ဖြင့် အမှားများကို လျှော့ချပြီး၊ ဥပဒေရေးရာစာရွက်စာတမ်းဗျူဟာသုံးသပ်ခြင်း သို့မဟုတ် ဆေးဘက်ဆိုင်ရာရောဂါရှာဖွေရေးကဲ့သို့ ဒေါင်လိုက်အထူးပြုလုပ်ဆောင်နိုင်စွမ်းများကို ပေးစွမ်းသည်။ မော်ဒယ်များကဲ့သို့သော Llama 3.1 နှင့် Mistral Large open-source ထိပ်တန်းစာရင်းများတွင် ထားရှိနေတဲ့အခါ၌ နောက်ပိုင်းလေ့ကျင့်ခြင်းသည် ရွေးချယ်စရာမဟုတ်ဘဲ ကွဲပြားမှုဖြစ်သည်ကို ချဉ်းကပ်နည်းများကို ပေါ်ထွက်လာစဉ်တွင် စဉ်းစားပါ။

နောက်ပိုင်းလေ့ကျင့်ခြင်းနည်းလမ်းများ၏ အခြေခံတိုက်ရိုက်နည်းလမ်းများ

နောက်ပိုင်းလေ့ကျင့်ခြင်းနည်းလမ်းများသည် အလေးချိန်နည်းသောသိပ္ပံဆိုင်ရာပြောင်းလဲမှုများမှ အကြီးအကျယ်ညှိနှိုင်းမှုများအထိ မျိုးစုံဖြစ်သည်။ ၎င်း၏အခြေပြုအဆင့်တွင် အခြေခံမော်ဒယ်တစ်ခုဖြင့်စတင်ပြီး၊ ကိစ္စအထူးပြုအချက်ပြများကို စနစ်တကျစုဆောင်းထားသောဒေတာများနှင့် အထူးကောင်းမွန်စွာပြုပြင်မွမ်းမံထားသော လှည့်ခွေများမှတစ်ဆင့် ထည့်သွင်းသည်။ အခြေခံအုတ်မြစ်များကို ခွဲခြမ်းစိတ်ဖြာကြပါစို့။

ကြီးကြပ်သင်ကြားရေး ပြုပြင်ခြင်း (SFT): အပြုအမူ အထွင်အထူးပြုပြင်ခြင်း၏ အခြေခံကျောက်စေ့

SFT သည် ပို့စ်-လေ့ကျင့်သင်ကြားမှု၏ အရက်သောက်ခန်းဖြစ်သည်။ မော်ဒယ်ကို အရည်အသွေးမြင့် အညွှန်း-တုံ့ပြန်မှု အစုံအလင်များနှင့် ရင်ဆိုင်စေခြင်းဖြင့် ရည်မှန်းထားသော အပြုအမူများကို နားလည်စေသည်။ ၎င်းကို လက်လှမ်းမှီသော အရာဟု ထင်ရသည်—LLM ကို မှတ်စုမှ လက်တွေ့ကျသော အကျိုးသက်ရောက်မှုသို့ ဦးတည်စေခြင်း။ Red Hat ၏ နိုဝင်ဘာလ ၄ ရက်နေ့ လမ်းညွှန်ချက်အပြည့်အစုံသည် နယ်ပယ်သင့်လျော်မှုတွင် SFT ၏ အခန်းကဏ္ဍကို အစွမ်းသုံးခြင်းဖြစ်ပြီး မော်ဒယ်များသည် ၁၀,၀၀၀-၁၀၀,၀၀၀ ဥပမာများကို စားသုံးခြင်းဖြင့် အလုပ်တစ်ခုအတိုင်းအတာအနေနှင့် ၁၅-၂၅% တိုးတက်မှုကို မြှင့်တင်ပေးသည်။

Open Supervised Fine-Tuning (OSFT) ကဲ့သို့သော မျိုးကွဲများသည် အသိုင်းအဝိုင်းနှင့် ပူးပေါင်းပြီး ကုန်ကျစရိတ်နည်းသော ဒေတာများကို အသုံးပြုခြင်းဖြင့် ပုဂ္ဂလိကဒေတာ အားကိုးမှုကို လျှော့ချသည်။ Hugging Face ၏ စာအုပ်မှတ်တမ်းများမှ ချိန်ညှိချက်များအရ SFT သည် SmolLM ၏ အညွှန်းကို MT-Bench တွင် ၄၅% မှ ၇၂% ရောက်အောင် မြှင့်တင်ပေးပြီး ကွန်ပျူတာစွမ်းအားနည်းပါး (၁,၀၀၀ A100-နာရီ အောက်တွင်) ဖြင့် ပြီးစီးသည်။ သို့သော် SFT သည် အလွန်အကျွံ လေ့ကျင့်မှုလွဲမှားမှုရှိနိုင်သည်; ပြုပြင်နည်းများတွင် သင်ရိုးသားစွာ အဆင့်ဖြစ်စေခြင်း၊ ပြီးပြည့်စုံမှုကို တဖြည်းဖြည်းတိုးမြှင့်ခြင်း ပါဝင်သည်။

နည်းလမ်း
ဖော်ပြချက်
တွက်ချက်မှုကုန်ကျစရိတ်
အားသာချက်များ
ကန့်သတ်ချက်များ
အသုံးပြုမှု နမူနာ
SFT
အဝင်-အထွက် စုံတွဲများကို အသိပေးလေ့ကျင့်ခြင်း
အနိမ့် (10-100 GPU-နာရီ)
မြန်ဆန်သောညှိနှိုင်းမှု; အခြေခံအသိပညာကို ထိန်းသိမ်း
အခြေအနေတစ်ခုသို့ လွယ်ကူစွာ ကျရောက်နိုင်မှု; ဒေတာအလွန်လိုအပ်ခြင်း
ညွှန်ကြားချက်များကို လိုက်နာသော စကားဝိုင်းဘော့များ
OSFT
အသိုင်းအဝိုင်းမှ ရင်းမြစ်ထားသော SFT ဒေတာစုများ
အလွန်နိမ့်
အခွင့်အလမ်း ပေးခြင်း; မျိုးစုံသော နမူနာများ
အရည်အသွေး ပိုင်းပြားခြင်း
ဖွင့်လှစ်မော်ဒယ် တိုးတက်မြှင့်တင်ခြင်း (ဥပမာ၊ Llama 2)

ပါရာမီတာ-ထိရောက်သော လေ့ကျင့်မှု (PEFT): အဆင့်မြင့်ခြင်းကို လူတိုင်းရရှိနိုင်အောင်လုပ်ခြင်း

အရင်းအမြစ်ကန့်သတ်ထားသော အသင်းများအတွက် PEFT သည် LoRA (Low-Rank Adaptation) ကဲ့သို့သော adapter များမှတဆင့် parameter များ၏ 1% ခန့်သာ ပြုပြင်မွမ်းမံခြင်းဖြင့် ထင်ပေါ်လှသည်။ 2021 ခုနှစ်တွင် မိတ်ဆက်ခဲ့ပြီး 2025 ခုနှစ်တွင် အထူးပြုပြင်ထားသော LoRA သည် attention layers များထဲသို့ low-rank matrices များကို ထည့်သွင်းကာ အခြေခံမော်ဒယ်ကို ချုံ့ထားသည်။ Scale AI ၏ ဆက်လက်လေ့လာခြင်းဆိုင်ရာ သုတေသနသည် PEFT ကို စုဆောင်းထားသောအချက်အလက်များနှင့် မှီဝဲကာ မော်ဒယ်များကို အစဉ်လိုက်လေ့လာခြင်းအပြင် ယခင်တာဝန်များကို မမေ့ပဲ လေ့လာနိုင်အောင်လုပ်ဆောင်သည်၊ multi-domain အသိပညာရရှိမှုအပြီး GLUE benchmarks တွင် 90% retention ကို ရရှိစေသည်။

QLoRA သည် 4-bit quantization သို့ ချဲ့ထွင်ထားပြီး VRAM တောင်းဆိုချက်များကို 75% လျှော့ချပေးသော်လည်း ပြည့်စုံသောပြုပြင်မွမ်းမံမှု၏ perplexity ကို လိုက်နာထားသည်။ Varun Godbole ၏ Prompt Tuning Playbook (2025 ခုနှစ် နိုဝင်ဘာလ 9 ရက်တွင် အပ်ဒိတ်လုပ်ထားသည်) အဆိုအရ လက်တွေ့ကျကျ PEFT သည် "သင်ခန်းစာတွဲများ" ကဲ့သို့သော စိတ်ပိုင်းဆိုင်ရာမော်ဒယ်များနှင့် တွဲဖက်ကာ ဆန်းစစ်ရသည့်စွမ်းရည်များကို မြှင့်တင်ရန် GSM8K သင်္ချာတာဝန်များတွင် 18% အမြတ်အစွန်းများကို ရရှိစေသည်။

PEFT Variant
Parameter Update Ratio
Memory Savings
Benchmark Gains (e.g., on AlpacaEval)
Best For
LoRA
0.1-1%
3x
0.12
အထွေထွေသင့်လျော်မှု
QLoRA
0.01-0.1%
75%
0.1
နားကပ်ပစ္စည်းများ၊ အရင်းအမြစ်နည်းသော အသေးစိတ်ညှိခြင်း
AdaLoRA
ဒိုင်နမစ်အဆင့်သတ်မှတ်မှု
2-4x
0.15
သင့်လျော်မှု၊ အလုပ်အမျိုးမျိုး အတူတကွလေ့လာခြင်း

လူ့တုံ့ပြန်မှုမှအားကောင်းခြင်းလေ့လာခြင်း (RLHF) နှင့်အထက်: အလျော်အစားရည်မှန်းချက်

RLHF သည် SFT ကို လူ (သို့မဟုတ် AI) ၏ ကုသိုလ်အလိုက် ရမှတ်ပေးသော မော်ဒယ်ကို လေ့ကျင့်ခြင်းဖြင့် မြှင့်တင်ပေးပြီး Proximal Policy Optimization (PPO) ကို အသုံးပြု၍ အထူးသဖြင့် ဖွံ့ဖြိုးတိုးတက်စေသည်။ သို့သော် PPO ၏ မတည်ငြိမ်မှုကြောင့် 2025 မှာ DPO နှင့် GRPO (Generalized Reward Preference Optimization) ကဲ့သို့သော ဆန်းသစ်မှုများကို တီထွင်ခဲ့ပြီး၊ ရမှတ်ပေးခြင်းကို မလိုအပ်ဘဲ တိုက်ရိုက် စိတ်ကြိုက်မှုကို သင်ယူခြင်းဖြင့် 50% ကွန်ဖျူတာကို လျှော့ချ၍ 95% ထိ အထိရောက်ဆုံး ဖြစ်စေသည်။

OpenAI ၏ မဟာဗျူဟာကို အိပ်ထားသော GPT ၏ အရှိန်နှေးကွေးမှုကြားတွင် DPO ကို စက်ရုပ်၏ စိတ်ကြိုက်မှုများအပေါ် အခြေခံပြီး ဖွံ့ဖြိုးစေခြင်းဖြင့် "သဘောတူညီမှု AI" တစ်ခုကို ဖန်တီးရန် ကြိုးပမ်းနေသည်။ Red Hat ၏ RL အကျဉ်းကို အထူးပြောကြားထားပြီး SFT-RL ကို ပထဝီအဖြစ် အစောပိုင်း SFT ဖြင့် "အေးစက်စေ"ပြီး Qwen 2.5 တွင် Arena-Hard တွင် 22% သဘောထားမြှင့်တင်မှုများ ရရှိစေသည်။ မကြာမီ Multi-Agent Evolve သည် မိမိကိုယ်ကို တိုးတက်အောင်လုပ်သည့် RL စနစ်ဖြစ်ပြီး LLM များကို တင်ပြသူ-ဖြေရှင်းသူ-အမှုထမ်းအဖြစ် ပူးတွဲဖွံ့ဖြိုးစေပြီး 3B မော်ဒယ်များကို အပြင်ပန်းဒေတာမလိုအပ်ဘဲ 3-5% မြှင့်တင်စေသည်။

RL နည်းလမ်း
အပျော်အပါးချိန်ညှိနည်း
အညှိနှိုင်းမှု ထိရောက်မှု
ကွန်ပျူတာ အလျားအလတ်
2025 ဆန်းသစ်မှု
RLHF/PPO
Reward မော်ဒယ် + မူဝါဒ gradient
မြင့်မားမှု (90%+ အကြိုက်နှုန်း)
အလွန်မြင့် (10x SFT)
Llama Guard တွင် Bias စစ်ဆေးမှု
DPO
တိုက်ရိုက်အကြိုက်နှုန်းဆုံးရှုံးမှု
အလွန်မြင့် (95%)
အနိမ့် (2x SFT)
အစမ်းအရည်အတွက် အချက်အလက် (OpenAI)
GRPO
အထွေထွေ ဆုကြေးများ
အလယ်-အမြင့်
အလယ်
SFT နှင့် ပေါင်းစပ် (Red Hat)

ဆက်တိုက်နှင့် အထုပ်ပေါက်လေ့လာမှု: မေ့ပျောက်ခြင်းမရှိတော့ပါ

Catastrophic forgetting—အသစ်သော သင်ယူမှုများက အဟောင်းကို ဖျက်သိမ်းသွားသော အခြေအနေ—သည် လေ့ကျင့်မှုပြီးဆုံးပြီးနောက်ကာလအတွင်း အမြဲတမ်း မျက်နှာမူခဲ့ရသည်။ Scale AI ၏ နိုဝင်ဘာ ၈ ရက်နေ့ အလုပ်သည် ပြန်လည်ကစားမှုဖြင့် တိုးတက်လာသော ဆက်လက်သင်ယူမှုကို မိတ်ဆက်ပေးပြီး ၁၀-၃၀% သမိုင်းဝင် ဒေတာများကို ရောစပ်ကာ အများဘာသာစကားကျွမ်းကျင်မှုကို ထိန်းသိမ်းထားဖို့ အကဲဖြတ်မှုများအရ mT5 တွင် ပြုလုပ်ခဲ့သည်။ Google's Nested Learning (နိုဝင်ဘာ ၇) သည် ႐ုရှားရုပ်တုများကဲ့သို့ အားကစားပြိုင်ပွဲများကို အဆင့်ဆင့်ထည့်သွင်းကာ အနှောင့်အယှက်မရှိဘဲ အရည်အချင်းများကို အဆုံးမရှိအောင် စုဆောင်းနိုင်စေပြီး ဆက်လက်သင်ယူမှု အဆင့်ပြိုင်ပွဲများတွင် transformers ထက် ၁၁% ပိုမိုထူးချွန်စွာ လုပ်ဆောင်နိုင်သည်။ Alignment အတွင်း Value drifts သည် နိုဝင်ဘာ ၄ ရက်နေ့ UBC-Mila ၏ လေ့လာမှုတွင် အကြောင်းပြချက်များဟာ ဓလေ့များကို နည်းနည်းပြောင်းလဲစေတတ်သောကြောင့် Verbalized Sampling ကဲ့သို့သော ပစ္စည်းများကို သတိပြု၍ ကာကွယ်မှုများ ပြန်လည်ထည့်သွင်းရန် လိုအပ်စေသည်။

ဒီတိုးတက်မှုများသည် Hugging Face ၏ playbook ကို ထပ်တူရိုးစွဲမှုက နှစ်သက်သည်။ လေ့ကျင့်မှုပြီးဆုံးပြီးနောက်ကာလသည် တစ်လျှောက်မဟုတ်ဘဲ အပျော့အပြောင်းဖြစ်ပြီး (ဥပမာ SLERP) ကို နှောင့်နှေးစွာမျိုးစုံရောစပ်မှုများအတွက် စည်းမျဉ်းများဖြစ်သည်။

Prompt Tuning ကို ထည့်သွင်းခြင်း: တိကျမှန်ကန်သော အင်ဂျင်နီယာလုပ်ငန်းများအတွက် စိတ်ဓာတ်ပုံခံပုံများ

Prompt tuning ကို မကြာခဏ post-training နဲ့ ရောထွေးလေ့ ရှိပါတယ်၊ ဒါကတော့ အလေးချိန်တွေထက် မျက်နှာဖုံးတွေကို (လေ့လာနိုင်တဲ့ embedding တွေ) တိုးမြှင့်ဖို့ အလေးပေးတဲ့ အလင်းအလင်းပါ။ Godbole ရဲ့ LLM Prompt Tuning Playbook (နိုဝင်ဘာ ၉၊ X မှာ 611+ မှုကြိုက်မှု ရရှိ) က mental models—"zero-shot priming" ဒါမှမဟုတ် "few-shot exemplars" လို concept scaffolds တွေကို သုံးပြီး latent capabilities တွေကို ထုတ်ဖော်ဖို့ စီစဉ်ပေးတယ်။ လက်တွေ့မှာတော့ prefix-tuning (tunable vectors တွေကို ထည့်ပေါင်းခြင်း) က GLUE ပေါ်မှာ အပြည့်အဝ SFT နဲ့ ယှဉ်ပြိုင်နိုင်ပြီး ကုန်ကျစရိတ် ၁/၁၀၀ နဲ့ ဖြစ်ပါတယ်။

post-training နဲ့ တွဲဖက်ခြင်း - SFT ကို ကျယ်ကျယ်ပြန့်ပြန့် လိုက်နာမှုအတွက် အသုံးပြုပြီး၊ prompt tuning ကို micro-adjustments အတွက် အသုံးပြုပါ။ ၂၀၂၅ ODSC East မှာ Maxime Labonne ရဲ့ ဆွေးနွေးချက်က mental models တွေက hallucinations ကို လျော့ချပေးပြီး၊ RLHF rewards နဲ့ dynamic prompts တွေကို တွဲဖက်ခြင်းမှ ၂၅% ပိုမိုလုံခြုံသော ထွက်ရလဒ်များအတွက် အသုံးပြုပုံကို ဖျော်ဖြေရန် ရှင်းပြပါတယ်။ SEO ပရော်ဖက်ရှင်နယ်များအတွက်ဆိုရင် LLM သွားတဲ့ အကြောင်းအရာ ဖန်တီးမှု စနစ်များကို retraining မလိုဘဲ စုံစမ်းမှု ရည်ရွယ်ချက်နှင့် လိုက်ဖက်အောင် ပြုလုပ်ဖို့ ဆိုလိုပါတယ်။

လေ့ကျင့်မှုပြီးနောက်ရှိ စိန်ခေါ်မှုများ - အထင်မှားမှုများကို ဖြတ်ကျော်ခြင်း

အောင်မြင်မှုများရှိသော်လည်း လေ့ကျင့်မှုပြီးနောက်တွင် အဆိပ်များရှိသည်။ RLHF ၏ "အထွေထွေမှားယွင်းမှု" မှ အလိုမကျဖြစ်သော အထင်မှားများသည် အထွေထွေထွက်ရှိမှုကို ကျဆင်းစေပြီး၊ Stanford NLP ၏ နိုဝင်ဘာ ၆ ရက်နေ့ ဆွေးနွေးပွဲက သတိပေးသည်အတိုင်း ၁၅-၂၀% အထိ ဖန်တီးမှုဆိုင်ရာ အလုပ်များကို ပျက်စီးစေသည်။ မတူညီသော ဘာသာစကားများ၏ အရည်အသွေးကျဆင်းမှုသည် SFT ကို အနှောင့်အယှက်ဖြစ်စေပြီး၊ ပြန်လည်ဆောင်ရွက်မည်မဟုတ်ပါက မအင်္ဂလိပ် အလုပ်များကို ၁၀-၁၅% ကျဆင်းစေသည်။ ကိုင်တွယ်မှု အဆင့်မတူညီမှုသည် ရှိပြီးသားများအား အားဖြည့်ပေးသော်လည်း၊ PEFT သည် အသိပညာသည့် တင်သွင်းမှုများကို လိုအပ်သည်။

Red Hat ၏ အကောင်းဆုံး လမ်းညွှန်ချက်များမှာ- (၁) အမျိုးအစားစပ် ပိုက်လိုင်းများ - SFT သည် RL ကို အစပြုသည်; (၂) အကဲဖြတ်မှု တင်းကျပ်မှု - မီးခိုးရောင်မှတ်ချက်များအပြင်၊ HE LM ကို လုံးဝအကဲဖြတ်မှုများအတွက် အသုံးပြုပါ; (၃) အကျိုးသက်ရောက်မှု စစ်ဆေးခြင်း - ထုတ်ပြန်မီ တန်ဖိုးလွှဲမှားမှုများကို စစ်ဆေးပါ။ Tunix (JAX-native) ကဲ့သို့သော ကိရိယာများသည် အဖြူရောင်ဘော့စ်ညှိနှိုင်းမှုကို လွယ်ကူစေပြီး၊ SFT/RLHF ကို ကျယ်ပြန့်စွာ ပံ့ပိုးပေးသည်။

အခက်အခဲ
သက်ရောက်မှု
ကာကွယ်နည်း
ကိရိယာ/ဥပမာ
အလွန်အဆိုးရောက်သော မေ့လျော့မှု
20-30% စွမ်းရည်ဆုံးရှုံးမှု
ပြန်လည်သိမ်းဆည်းမှုဗွဖာများ + အဆက်မပြတ် လေ့လာခြင်း
Scale AI ရဲ့ ဖွဲ့စည်းမှု
အခြေအနေ တိက်မှု
မတူကွဲပြားမှု လျော့နည်း
မျှဝေမှု နမူနာ
Stanford NLP
အတိုင်းအတာဖြစ်နိုင်စွမ်း
မြင့်မားသော GPU လိုအပ်ချက်များ
PEFT + မီးခိုးရောင်ပြောင်းလဲခြင်း
Hugging Face မှ QLoRA
ဘက်လိုက်ခြင်း တိုးမြှင့်ခြင်း
စည်းကမ်းထိခိုက်မှုအန္တရာယ်များ
မျက်မှောက်နှစ်ခြင်း စမ်းသပ်ခြင်း
သဘာဝကျဆန့်ကျင်မှု ပါဝင်သော DPO

2025 အလားအလာ: AGI အဖွဲ့စည်းမှုအဖြစ်သင့်ပြင်ခြင်း

ကြည့်ရှုရှေ့တိုးမည့်အခါ၊ လေ့ကျင့်မှုပြီးဆုံးခြင်းသည် ကိုယ်ပိုင်စနစ်များနှင့် ပေါင်းစည်းမည်—RL သုံး ကိုယ်တိုင်တိုးတက်မှုလည်ပတ်မှုများဖြစ်သည့် Multi-Agent Evolve နမူနာများက ကိုယ်ပိုင်တိုးတက်မှုကို ကြိုဆိုသည်။ Meta ၏ GEM (နိုဝင်ဘာ 10 စာရွက်) သည် အသိပညာကို ဖျော်ဖြေရန်ဖြင့် သိမ်းဆည်းထားသော သဘောတရားကို ဉပမာပြုသည်၊ ad-specific LLMs ကို 10 ဆ ထိထိရောက်ရောက်ဖြစ်စေရန် ဖြည့်စွက်ပေးသည်။ ဖွံ့ဖြိုးသူများအတွက် Red Hat ၏ Training Hub ကဲ့သို့သော ပွင့်လင်းသော စီးပွားရေးစနစ်များသည် RL ကို plug-and-play ပြုလုပ်ရန် ကတိကဝတ်ပြုသည်၊ OpenAI ၏ စိတ်ကူးယဉ်စွမ်းရည်ကို commoditize superalignment ဖြစ်စေသည်။

အတိုချုပ်အားဖြင့်၊ လေ့ကျင့်မှုပြီးဆုံးခြင်းသည် အဆုံးမဟုတ်ပေ၊ တိုးတက်မှုဖြစ်သည်။ OpenAI ၏ ပြောင်းလဲမှုသည် အထက်ကဲ့သို့သာဖြစ်သည်၊ သည့် နေရာတွင် အထွေထွေ ဖြစ်ခြင်းသည် ထူးချွန်မှုကို ယူဆောင်သည်။ ရဲရင့်စွာ စမ်းသပ်ပါ။ သင်၏ ဒေတာသိုလှောင်မှုပေါ်တွင် Llama မျိုးကွဲကို အလေးထားပြုပြင်ခြင်း၊ တိကျသော အကဲဖြတ်မှုများနှင့် တိုင်းတာခြင်းနှင့် ထပ်မံပြုပြင်ပါ။ ထူးခြားသော LLMs ၏ ခေတ်သည် ရောက်ရှိလျက်ရှိသည်—ဤအခွင့်အလမ်းကို လက်လွှတ်မခံပါနှင့်။

https://macaron.im/

https://mindlabs.macaron.im/

https://macaron.im/blog

Nora is the Head of Growth at Macaron. Over the past two years, she has focused on AI product growth, successfully leading multiple products from 0 to 1. She possesses extensive experience in growth strategies.

Apply to become Macaron's first friends