၂၀၂၅ ခုနှစ်တွင် LLM များအတွက် လေ့ကျင့်မှုနောက်ပိုင်းနည်းလမ်းများကို ကျွမ်းကျင်စွာကျင့်သုံးခြင်း: ပုံမှန်မှ အထူးပြုသို့ ကုန်ပစ္စည်းများကို အဆင့်မြှင့်တင်ခြင်း

သဘာဝကျသော ဘာသာစကားများအတွက် လေ့လာမှုကြီးမားသော မော်ဒယ်များသည်၊ ကုဒ်ထုတ်လုပ်မှုမှ စိတ်ကူးယဉ်ဇာတ်လမ်းရေးသားခြင်းအထိ အထောက်အကူပြုသော မရှိမဖြစ်အရည်အချင်းများအဖြစ် ကြီးထွားလာသည်။ သို့သော်၊ ဒေတာရှားပါးမှုနှင့် ကွန်ပျူတာအင်အား၏ တိုးများလာမှုကြောင့် ကြိုတင်လေ့ကျင့်မှုသည် တိုးတက်မှုမရှိဖြစ်နေသည်။ ထို့ကြောင့် လေ့ကျင့်မှုနောက်ပိုင်းနည်းလမ်းများ သို့ အလေးပေးလာကြသည်။ ၎င်းသည် သာမန်ပညာရပ်သိပ္ပံမဟုတ်ပါ—၎င်းသည် မဟာဗျူဟာဆိုင်ရာ အရေးကြီးမှုဖြစ်သည်။ ၂၀၂၅ ခုနှစ် နိုဝင်ဘာလ ၁၁ ရက်နေ့တွင် OpenAI သည် နောက်ထပ် GPT မော်ဒယ်များတွင် လျော့နည်းလာသော လုပ်ဆောင်ချက်တိုးတက်မှုများကို တန်ပြန်ရန် လေ့ကျင့်မှုနောက်ပိုင်းနည်းလမ်းများကို အထူးအာရုံစိုက်ခြင်းဖြစ်ကြောင်း သတင်းများ ပျံ့နှံ့လာသည်။ GPT-4o ကဲ့သို့သော မူလမော်ဒယ်များသည် နဂိုအရွယ်အစား၏ နယ်နိမိတ်ကို အတားအဆီးဖြစ်စေရန် အစီရင်ခံခဲ့ကြပြီးနောက် အစစ်အမှန်အမိုက်စားသည် ယခုပင် ဖွင့်လှစ်နေသည်: အလားအလာများစွာရှိသော ပျော့မျှင်များကို တိကျစွာဖြင့် ညီညွတ်မှုရှိစွာ၊ အလျင်အမြန်ဖြစ်သော စဉ်းစားသူများ အဖြစ် ပြောင်းလဲခြင်း။

လေ့ကျင့်မှုပြီးနောက် - ထိန်းချုပ်မှုစနစ်တူပြန်လည်ပြင်ဆင်ခြင်း (SFT), လူ့တုံ့ပြန်ချက်မှ reinforcement learning (RLHF), parameter-ထိရောက်သောပြင်ဆင်ခြင်း (PEFT), နှင့် ကြိုးစားမှုများကဲ့သို့သော ပေါ်လာသောစံနစ်များတို့မှ လမ်းပြနေသော ကဏ္ဍအထူးပြု အတတ်ပညာကို အစမှ ပြန်လေ့ကျင့်ခြင်း၏ ကုန်ကျစရိတ်များမရှိဘဲ ဖွင့်လှစ်ပေးသည်။ နေသန် လမ်ဘာ့တ်သည် 2025 ခုနှစ် ဇန်နဝါရီလတွင် လေ့လာချက်မှာ "Post-training သည် နောက်ကျရောသည်မဟုတ်တော့ဘဲ နောက်ဆုံး AI စွမ်းရည်များကို မောင်းနှင်သော အင်ဂျင်ဖြစ်သည်" ဟု တိကျစွာ မှတ်ချက်ပြုသည်။ ဤဘလော့ဂ်သည် ဤနည်းလမ်းများကို ပြင်းပြင်းထန်ထန် အနက်သိမြင်တတ်သော OpenAI, Scale AI, Hugging Face, နှင့် Red Hat တို့မှ 2025 ခုနှစ် နောက်ဆုံးရ ပျောက်ကွယ်စွာများကို အသုံးပြု၍ ဆွေးနွေးပါသည်။ လုပ်ငန်းများအတွက် အထူးပြုထားသော စီးပွားရေး ပြန်လည်ထုတ်လုပ်မှုအတွက် အထူးပြုထားသော ထုတ်လုပ်သူဖြစ်စေ, သို့မဟုတ် alignment စိန်ခေါ်မှုကို စူးစမ်းမှု သုတေသန ပြုလုပ်သူဖြစ်စေ, post-training ကို နားလည်ခြင်းသည် LLMs ၏ အပြည့်အဝ အင်အားကို အသုံးချရန် အဓိကဖြစ်သည်။ ကျွန်ုပ်တို့သည် နည်းဗျူဟာများ, ချိန်ညှိချက်များ, စိန်ခေါ်မှုများ, နှင့် အနာဂတ်ကို တွေ့ရအောင် လုပ်ဆောင်နိုင်သော နည်းလမ်းများကို ရှာဖွေမည်ဖြစ်ပြီး၊ သင့် AI လုပ်ငန်းစဉ်များကို အနာဂါတ်သို့ ရှေ့ပြေးလုပ်ဆောင်နိုင်ရန် လက်တွေ့အသုံးချနိုင်သော အမြင်များကို ပံ့ပိုးပေးလိမ့်မည်။

ပျော့ပြောင်းလာသော အကျိုးရလဒ်များထဲတွင် လေ့ကျင့်ပြီးနောက် သင်ကြားမှု၏ အရေးပါမှု

အင်တာနက်မှ ရိတ်သိမ်းထားသော ဒေတာနည်းပြောင်များကို အသုံးပြု၍ LLM များကို ကြိုတင်လေ့ကျင့်ခြင်းသည် 100 ဦးရေ ဘီလီယံကျော်သော ပရိုဂရမ်များတွင် ထွက်လာသော အကြောင်းပြချက်များဖြစ်စေခဲ့ပါသည်။ သို့သော် OpenAI ၏ အတွင်းရေးမှုများက ပြသလိုက်သည့်အတိုင်း အကျိုးရလဒ်များကို နည်းပြောင်စွာ ထုတ်ယူခြင်း၏ ဥပေက္ခာသည် လှုပ်ရှားနေသည်။ နည်းပြောင်နှင့် အဆင့်မြင့်အရည်အသွေးမှ ပြတ်သားသော ဒေတာများကို ချုပ်လျှာနိုင်ခြင်းသည် ထပ်တလဲလဲဖြစ်နေသည်။ ဒါကြောင့် အလေးချိန်များကို ရေခဲသွားသောအခါ အကျိုးရှိရှိ လေ့လာမှုများကို ဦးစားပေး၍ သက်ဆိုင်သောပညာရှင်များဖြစ်စေလှုပ်ရပ်နေသော အချိန်တွင် သွားရောက်သင်ကြားရသည်။ ကြိုတင်လေ့ကျင့်ခြင်း၏ အားတင်းအားဖွင့်လုပ်ငန်းများနှင့်မတူဘဲ၊ လေ့ကျင့်ပြီးနောက် သင်ကြားမှုသည် အထူးပြုစွာ ဆက်စပ်နေသော လုပ်ဆောင်မှုများကို ပြုပြင်ခြင်းဖြစ်သည်။ အထူးသဖြင့် အထောက်အပံ့များ၊ အန္တရာယ်ကင်းမဲ့မှုများနှင့် အမှန်တရားများကို ဦးစားပေးရန် လုပ်ဆောင်ခြင်းဖြစ်သည်။ AI လုံခြုံရေး၏ "သုံး H" ဖြစ်သည်။

2025 မှာ အခုပြောင်းလဲမှုကို စက်မှုဇုန်ကြီးတွေက အထင်ကြီးစေတယ်။ OpenAI ရဲ့ အသစ်ဖွဲ့စည်းထားတဲ့ "foundations" အဖွဲ့ကို နိုဝင်ဘာအစောပိုင်းမှာ ကြေညာခဲ့ပြီး အစိုင်အခဲအချက်အလက်ထုတ်လုပ်ခြင်းနဲ့ ထပ်မံပြင်ဆင်ခြင်းကို ဦးစားပေးထားကာ နောက်ထပ်လေ့လာမှုကနေ ရှိပြီးသား အခြေခံဖွဲ့စည်းမှုတွေကနေ ၂-၅ ဆပိုမိုသော အဖိုးတန်မှုကို ထုတ်ယူနိုင်တယ်ဆိုတဲ့ အထွေထွေ စက်မှုဇုန် သဘောထားကို သဘောတူကြောင်း အထောက်အထားပြတယ်။ Scale AI ရဲ့ နိုဝင်ဘာ ၈ ရက်နေ့က ဆက်လက်လေ့လာမှုနဲ့ ပတ်သက်တဲ့ သုတေသနက အထောက်အထားပြပြီး မော်ဒယ်တွေက အသစ်သိရှိမှုတွေကို ပျက်စီးတတ်တဲ့ မေ့လျော့ခြင်းမဖြစ်ဘဲ စွမ်းရည်နိမ့်ကျတာကို ၂၀-၃၀% လျှော့ချတတ်တဲ့ အခြေခံပြုပြင်ခြင်းနဲ့ ထပ်မံရောထွေးမှုမရှိဘဲ ချိတ်ဆက်လေ့လာနိုင်ကြောင်းပြသတယ်။ အဲဒီအချိန်မှာ Hugging Face ရဲ့ Smol Training Playbook — အောက်တိုဘာလကုန်ပိုင်းမှာ ထုတ်ဝေခဲ့တဲ့ စာမျက်နှာ ၂၀၀ ကျော်ပါဝင်တဲ့ စာအုပ်ကြီးက အထောက်အထားတွေကို နွေဦးဖျော်ဖြေရန် အကျိုးသက်ရောက်မှုကို လွှမ်းခြုံဖို့ လမ်းညွှန်ချက်တွေကို ချပြထားပြီး SmolLM ကို ကြိုတင်လေ့လာမှုကနေ SFT နဲ့ DPO နည်းလမ်းတွေအရ နောက်ဆုံးလေ့လာမှုအထိ သူတို့ရဲ့ ခရီးစဉ်ကို မှတ်တမ်းတင်ထားတယ်။

ဒါကဘာလို့SEOအခြေပြုအကြောင်းအရာဖန်တီးသူများ၊ စီးပွားရေးလက်ရာများရေးဆွဲသူများ သို့မဟုတ် လွတ်လပ်သောဖွံ့ဖြိုးတိုးတက်ရေးလုပ်သားများအတွက် အရေးကြီးသလဲ။ Red Hat၏ နိုဝင်ဘာ ၄ ရက်နေ့ အကျဉ်းချုပ်အရ နောက်ပိုင်းလေ့ကျင့်ထားသော LLMများသည် ထုတ်လုပ်မှုအဆင့် အက်ပ်လီကေးရှင်းများ၏ ၈၀ ရာခိုင်နှုန်းကို အားဖြည့်ပေးပြီး၊ ပုဂ္ဂိုလ်ရေးချတ်ဘော့များမှ ကုဒ်အကူအညီများအထိ ဖြစ်သည်။ ၎င်းတို့သည် အမှားအယွင်းများကို ၄၀ ရာခိုင်နှုန်းအထိ လျှော့ချရန် RLHF ဖြင့် အမှားများကို လျှော့ချပြီး၊ ဥပဒေရေးရာစာရွက်စာတမ်းဗျူဟာသုံးသပ်ခြင်း သို့မဟုတ် ဆေးဘက်ဆိုင်ရာရောဂါရှာဖွေရေးကဲ့သို့ ဒေါင်လိုက်အထူးပြုလုပ်ဆောင်နိုင်စွမ်းများကို ပေးစွမ်းသည်။ မော်ဒယ်များကဲ့သို့သော Llama 3.1 နှင့် Mistral Large open-source ထိပ်တန်းစာရင်းများတွင် ထားရှိနေတဲ့အခါ၌ နောက်ပိုင်းလေ့ကျင့်ခြင်းသည် ရွေးချယ်စရာမဟုတ်ဘဲ ကွဲပြားမှုဖြစ်သည်ကို ချဉ်းကပ်နည်းများကို ပေါ်ထွက်လာစဉ်တွင် စဉ်းစားပါ။

နောက်ပိုင်းလေ့ကျင့်ခြင်းနည်းလမ်းများ၏ အခြေခံတိုက်ရိုက်နည်းလမ်းများ

နောက်ပိုင်းလေ့ကျင့်ခြင်းနည်းလမ်းများသည် အလေးချိန်နည်းသောသိပ္ပံဆိုင်ရာပြောင်းလဲမှုများမှ အကြီးအကျယ်ညှိနှိုင်းမှုများအထိ မျိုးစုံဖြစ်သည်။ ၎င်း၏အခြေပြုအဆင့်တွင် အခြေခံမော်ဒယ်တစ်ခုဖြင့်စတင်ပြီး၊ ကိစ္စအထူးပြုအချက်ပြများကို စနစ်တကျစုဆောင်းထားသောဒေတာများနှင့် အထူးကောင်းမွန်စွာပြုပြင်မွမ်းမံထားသော လှည့်ခွေများမှတစ်ဆင့် ထည့်သွင်းသည်။ အခြေခံအုတ်မြစ်များကို ခွဲခြမ်းစိတ်ဖြာကြပါစို့။

ကြီးကြပ်သင်ကြားရေး ပြုပြင်ခြင်း (SFT): အပြုအမူ အထွင်အထူးပြုပြင်ခြင်း၏ အခြေခံကျောက်စေ့

SFT သည် ပို့စ်-လေ့ကျင့်သင်ကြားမှု၏ အရက်သောက်ခန်းဖြစ်သည်။ မော်ဒယ်ကို အရည်အသွေးမြင့် အညွှန်း-တုံ့ပြန်မှု အစုံအလင်များနှင့် ရင်ဆိုင်စေခြင်းဖြင့် ရည်မှန်းထားသော အပြုအမူများကို နားလည်စေသည်။ ၎င်းကို လက်လှမ်းမှီသော အရာဟု ထင်ရသည်—LLM ကို မှတ်စုမှ လက်တွေ့ကျသော အကျိုးသက်ရောက်မှုသို့ ဦးတည်စေခြင်း။ Red Hat ၏ နိုဝင်ဘာလ ၄ ရက်နေ့ လမ်းညွှန်ချက်အပြည့်အစုံသည် နယ်ပယ်သင့်လျော်မှုတွင် SFT ၏ အခန်းကဏ္ဍကို အစွမ်းသုံးခြင်းဖြစ်ပြီး မော်ဒယ်များသည် ၁၀,၀၀၀-၁၀၀,၀၀၀ ဥပမာများကို စားသုံးခြင်းဖြင့် အလုပ်တစ်ခုအတိုင်းအတာအနေနှင့် ၁၅-၂၅% တိုးတက်မှုကို မြှင့်တင်ပေးသည်။

Open Supervised Fine-Tuning (OSFT) ကဲ့သို့သော မျိုးကွဲများသည် အသိုင်းအဝိုင်းနှင့် ပူးပေါင်းပြီး ကုန်ကျစရိတ်နည်းသော ဒေတာများကို အသုံးပြုခြင်းဖြင့် ပုဂ္ဂလိကဒေတာ အားကိုးမှုကို လျှော့ချသည်။ Hugging Face ၏ စာအုပ်မှတ်တမ်းများမှ ချိန်ညှိချက်များအရ SFT သည် SmolLM ၏ အညွှန်းကို MT-Bench တွင် ၄၅% မှ ၇၂% ရောက်အောင် မြှင့်တင်ပေးပြီး ကွန်ပျူတာစွမ်းအားနည်းပါး (၁,၀၀၀ A100-နာရီ အောက်တွင်) ဖြင့် ပြီးစီးသည်။ သို့သော် SFT သည် အလွန်အကျွံ လေ့ကျင့်မှုလွဲမှားမှုရှိနိုင်သည်; ပြုပြင်နည်းများတွင် သင်ရိုးသားစွာ အဆင့်ဖြစ်စေခြင်း၊ ပြီးပြည့်စုံမှုကို တဖြည်းဖြည်းတိုးမြှင့်ခြင်း ပါဝင်သည်။

နည်းလမ်း

ဖော်ပြချက်

တွက်ချက်မှုကုန်ကျစရိတ်

အားသာချက်များ

ကန့်သတ်ချက်များ

အသုံးပြုမှု နမူနာ

SFT

အဝင်-အထွက် စုံတွဲများကို အသိပေးလေ့ကျင့်ခြင်း

အနိမ့် (10-100 GPU-နာရီ)

မြန်ဆန်သောညှိနှိုင်းမှု; အခြေခံအသိပညာကို ထိန်းသိမ်း

အခြေအနေတစ်ခုသို့ လွယ်ကူစွာ ကျရောက်နိုင်မှု; ဒေတာအလွန်လိုအပ်ခြင်း

ညွှန်ကြားချက်များကို လိုက်နာသော စကားဝိုင်းဘော့များ

OSFT

အသိုင်းအဝိုင်းမှ ရင်းမြစ်ထားသော SFT ဒေတာစုများ

အလွန်နိမ့်

အခွင့်အလမ်း ပေးခြင်း; မျိုးစုံသော နမူနာများ

အရည်အသွေး ပိုင်းပြားခြင်း

ဖွင့်လှစ်မော်ဒယ် တိုးတက်မြှင့်တင်ခြင်း (ဥပမာ၊ Llama 2)

ပါရာမီတာ-ထိရောက်သော လေ့ကျင့်မှု (PEFT): အဆင့်မြင့်ခြင်းကို လူတိုင်းရရှိနိုင်အောင်လုပ်ခြင်း

အရင်းအမြစ်ကန့်သတ်ထားသော အသင်းများအတွက် PEFT သည် LoRA (Low-Rank Adaptation) ကဲ့သို့သော adapter များမှတဆင့် parameter များ၏ 1% ခန့်သာ ပြုပြင်မွမ်းမံခြင်းဖြင့် ထင်ပေါ်လှသည်။ 2021 ခုနှစ်တွင် မိတ်ဆက်ခဲ့ပြီး 2025 ခုနှစ်တွင် အထူးပြုပြင်ထားသော LoRA သည် attention layers များထဲသို့ low-rank matrices များကို ထည့်သွင်းကာ အခြေခံမော်ဒယ်ကို ချုံ့ထားသည်။ Scale AI ၏ ဆက်လက်လေ့လာခြင်းဆိုင်ရာ သုတေသနသည် PEFT ကို စုဆောင်းထားသောအချက်အလက်များနှင့် မှီဝဲကာ မော်ဒယ်များကို အစဉ်လိုက်လေ့လာခြင်းအပြင် ယခင်တာဝန်များကို မမေ့ပဲ လေ့လာနိုင်အောင်လုပ်ဆောင်သည်၊ multi-domain အသိပညာရရှိမှုအပြီး GLUE benchmarks တွင် 90% retention ကို ရရှိစေသည်။

QLoRA သည် 4-bit quantization သို့ ချဲ့ထွင်ထားပြီး VRAM တောင်းဆိုချက်များကို 75% လျှော့ချပေးသော်လည်း ပြည့်စုံသောပြုပြင်မွမ်းမံမှု၏ perplexity ကို လိုက်နာထားသည်။ Varun Godbole ၏ Prompt Tuning Playbook (2025 ခုနှစ် နိုဝင်ဘာလ 9 ရက်တွင် အပ်ဒိတ်လုပ်ထားသည်) အဆိုအရ လက်တွေ့ကျကျ PEFT သည် "သင်ခန်းစာတွဲများ" ကဲ့သို့သော စိတ်ပိုင်းဆိုင်ရာမော်ဒယ်များနှင့် တွဲဖက်ကာ ဆန်းစစ်ရသည့်စွမ်းရည်များကို မြှင့်တင်ရန် GSM8K သင်္ချာတာဝန်များတွင် 18% အမြတ်အစွန်းများကို ရရှိစေသည်။

PEFT Variant

Parameter Update Ratio

Memory Savings

Benchmark Gains (e.g., on AlpacaEval)

Best For

LoRA

0.1-1%

0.12

အထွေထွေသင့်လျော်မှု

QLoRA

0.01-0.1%

75%

0.1

နားကပ်ပစ္စည်းများ၊ အရင်းအမြစ်နည်းသော အသေးစိတ်ညှိခြင်း

AdaLoRA

ဒိုင်နမစ်အဆင့်သတ်မှတ်မှု

2-4x

0.15

သင့်လျော်မှု၊ အလုပ်အမျိုးမျိုး အတူတကွလေ့လာခြင်း

လူ့တုံ့ပြန်မှုမှအားကောင်းခြင်းလေ့လာခြင်း (RLHF) နှင့်အထက်: အလျော်အစားရည်မှန်းချက်

RLHF သည် SFT ကို လူ (သို့မဟုတ် AI) ၏ ကုသိုလ်အလိုက် ရမှတ်ပေးသော မော်ဒယ်ကို လေ့ကျင့်ခြင်းဖြင့် မြှင့်တင်ပေးပြီး Proximal Policy Optimization (PPO) ကို အသုံးပြု၍ အထူးသဖြင့် ဖွံ့ဖြိုးတိုးတက်စေသည်။ သို့သော် PPO ၏ မတည်ငြိမ်မှုကြောင့် 2025 မှာ DPO နှင့် GRPO (Generalized Reward Preference Optimization) ကဲ့သို့သော ဆန်းသစ်မှုများကို တီထွင်ခဲ့ပြီး၊ ရမှတ်ပေးခြင်းကို မလိုအပ်ဘဲ တိုက်ရိုက် စိတ်ကြိုက်မှုကို သင်ယူခြင်းဖြင့် 50% ကွန်ဖျူတာကို လျှော့ချ၍ 95% ထိ အထိရောက်ဆုံး ဖြစ်စေသည်။

OpenAI ၏ မဟာဗျူဟာကို အိပ်ထားသော GPT ၏ အရှိန်နှေးကွေးမှုကြားတွင် DPO ကို စက်ရုပ်၏ စိတ်ကြိုက်မှုများအပေါ် အခြေခံပြီး ဖွံ့ဖြိုးစေခြင်းဖြင့် "သဘောတူညီမှု AI" တစ်ခုကို ဖန်တီးရန် ကြိုးပမ်းနေသည်။ Red Hat ၏ RL အကျဉ်းကို အထူးပြောကြားထားပြီး SFT-RL ကို ပထဝီအဖြစ် အစောပိုင်း SFT ဖြင့် "အေးစက်စေ"ပြီး Qwen 2.5 တွင် Arena-Hard တွင် 22% သဘောထားမြှင့်တင်မှုများ ရရှိစေသည်။ မကြာမီ Multi-Agent Evolve သည် မိမိကိုယ်ကို တိုးတက်အောင်လုပ်သည့် RL စနစ်ဖြစ်ပြီး LLM များကို တင်ပြသူ-ဖြေရှင်းသူ-အမှုထမ်းအဖြစ် ပူးတွဲဖွံ့ဖြိုးစေပြီး 3B မော်ဒယ်များကို အပြင်ပန်းဒေတာမလိုအပ်ဘဲ 3-5% မြှင့်တင်စေသည်။

RL နည်းလမ်း

အပျော်အပါးချိန်ညှိနည်း

အညှိနှိုင်းမှု ထိရောက်မှု

ကွန်ပျူတာ အလျားအလတ်

2025 ဆန်းသစ်မှု

RLHF/PPO

Reward မော်ဒယ် + မူဝါဒ gradient

မြင့်မားမှု (90%+ အကြိုက်နှုန်း)

အလွန်မြင့် (10x SFT)

Llama Guard တွင် Bias စစ်ဆေးမှု

DPO

တိုက်ရိုက်အကြိုက်နှုန်းဆုံးရှုံးမှု

အလွန်မြင့် (95%)

အနိမ့် (2x SFT)

အစမ်းအရည်အတွက် အချက်အလက် (OpenAI)

GRPO

အထွေထွေ ဆုကြေးများ

အလယ်-အမြင့်

အလယ်

SFT နှင့် ပေါင်းစပ် (Red Hat)

ဆက်တိုက်နှင့် အထုပ်ပေါက်လေ့လာမှု: မေ့ပျောက်ခြင်းမရှိတော့ပါ

Catastrophic forgetting—အသစ်သော သင်ယူမှုများက အဟောင်းကို ဖျက်သိမ်းသွားသော အခြေအနေ—သည် လေ့ကျင့်မှုပြီးဆုံးပြီးနောက်ကာလအတွင်း အမြဲတမ်း မျက်နှာမူခဲ့ရသည်။ Scale AI ၏ နိုဝင်ဘာ ၈ ရက်နေ့ အလုပ်သည် ပြန်လည်ကစားမှုဖြင့် တိုးတက်လာသော ဆက်လက်သင်ယူမှုကို မိတ်ဆက်ပေးပြီး ၁၀-၃၀% သမိုင်းဝင် ဒေတာများကို ရောစပ်ကာ အများဘာသာစကားကျွမ်းကျင်မှုကို ထိန်းသိမ်းထားဖို့ အကဲဖြတ်မှုများအရ mT5 တွင် ပြုလုပ်ခဲ့သည်။ Google's Nested Learning (နိုဝင်ဘာ ၇) သည် ႐ုရှားရုပ်တုများကဲ့သို့ အားကစားပြိုင်ပွဲများကို အဆင့်ဆင့်ထည့်သွင်းကာ အနှောင့်အယှက်မရှိဘဲ အရည်အချင်းများကို အဆုံးမရှိအောင် စုဆောင်းနိုင်စေပြီး ဆက်လက်သင်ယူမှု အဆင့်ပြိုင်ပွဲများတွင် transformers ထက် ၁၁% ပိုမိုထူးချွန်စွာ လုပ်ဆောင်နိုင်သည်။ Alignment အတွင်း Value drifts သည် နိုဝင်ဘာ ၄ ရက်နေ့ UBC-Mila ၏ လေ့လာမှုတွင် အကြောင်းပြချက်များဟာ ဓလေ့များကို နည်းနည်းပြောင်းလဲစေတတ်သောကြောင့် Verbalized Sampling ကဲ့သို့သော ပစ္စည်းများကို သတိပြု၍ ကာကွယ်မှုများ ပြန်လည်ထည့်သွင်းရန် လိုအပ်စေသည်။

ဒီတိုးတက်မှုများသည် Hugging Face ၏ playbook ကို ထပ်တူရိုးစွဲမှုက နှစ်သက်သည်။ လေ့ကျင့်မှုပြီးဆုံးပြီးနောက်ကာလသည် တစ်လျှောက်မဟုတ်ဘဲ အပျော့အပြောင်းဖြစ်ပြီး (ဥပမာ SLERP) ကို နှောင့်နှေးစွာမျိုးစုံရောစပ်မှုများအတွက် စည်းမျဉ်းများဖြစ်သည်။

Prompt Tuning ကို ထည့်သွင်းခြင်း: တိကျမှန်ကန်သော အင်ဂျင်နီယာလုပ်ငန်းများအတွက် စိတ်ဓာတ်ပုံခံပုံများ

Prompt tuning ကို မကြာခဏ post-training နဲ့ ရောထွေးလေ့ ရှိပါတယ်၊ ဒါကတော့ အလေးချိန်တွေထက် မျက်နှာဖုံးတွေကို (လေ့လာနိုင်တဲ့ embedding တွေ) တိုးမြှင့်ဖို့ အလေးပေးတဲ့ အလင်းအလင်းပါ။ Godbole ရဲ့ LLM Prompt Tuning Playbook (နိုဝင်ဘာ ၉၊ X မှာ 611+ မှုကြိုက်မှု ရရှိ) က mental models—"zero-shot priming" ဒါမှမဟုတ် "few-shot exemplars" လို concept scaffolds တွေကို သုံးပြီး latent capabilities တွေကို ထုတ်ဖော်ဖို့ စီစဉ်ပေးတယ်။ လက်တွေ့မှာတော့ prefix-tuning (tunable vectors တွေကို ထည့်ပေါင်းခြင်း) က GLUE ပေါ်မှာ အပြည့်အဝ SFT နဲ့ ယှဉ်ပြိုင်နိုင်ပြီး ကုန်ကျစရိတ် ၁/၁၀၀ နဲ့ ဖြစ်ပါတယ်။

post-training နဲ့ တွဲဖက်ခြင်း - SFT ကို ကျယ်ကျယ်ပြန့်ပြန့် လိုက်နာမှုအတွက် အသုံးပြုပြီး၊ prompt tuning ကို micro-adjustments အတွက် အသုံးပြုပါ။ ၂၀၂၅ ODSC East မှာ Maxime Labonne ရဲ့ ဆွေးနွေးချက်က mental models တွေက hallucinations ကို လျော့ချပေးပြီး၊ RLHF rewards နဲ့ dynamic prompts တွေကို တွဲဖက်ခြင်းမှ ၂၅% ပိုမိုလုံခြုံသော ထွက်ရလဒ်များအတွက် အသုံးပြုပုံကို ဖျော်ဖြေရန် ရှင်းပြပါတယ်။ SEO ပရော်ဖက်ရှင်နယ်များအတွက်ဆိုရင် LLM သွားတဲ့ အကြောင်းအရာ ဖန်တီးမှု စနစ်များကို retraining မလိုဘဲ စုံစမ်းမှု ရည်ရွယ်ချက်နှင့် လိုက်ဖက်အောင် ပြုလုပ်ဖို့ ဆိုလိုပါတယ်။

လေ့ကျင့်မှုပြီးနောက်ရှိ စိန်ခေါ်မှုများ - အထင်မှားမှုများကို ဖြတ်ကျော်ခြင်း

အောင်မြင်မှုများရှိသော်လည်း လေ့ကျင့်မှုပြီးနောက်တွင် အဆိပ်များရှိသည်။ RLHF ၏ "အထွေထွေမှားယွင်းမှု" မှ အလိုမကျဖြစ်သော အထင်မှားများသည် အထွေထွေထွက်ရှိမှုကို ကျဆင်းစေပြီး၊ Stanford NLP ၏ နိုဝင်ဘာ ၆ ရက်နေ့ ဆွေးနွေးပွဲက သတိပေးသည်အတိုင်း ၁၅-၂၀% အထိ ဖန်တီးမှုဆိုင်ရာ အလုပ်များကို ပျက်စီးစေသည်။ မတူညီသော ဘာသာစကားများ၏ အရည်အသွေးကျဆင်းမှုသည် SFT ကို အနှောင့်အယှက်ဖြစ်စေပြီး၊ ပြန်လည်ဆောင်ရွက်မည်မဟုတ်ပါက မအင်္ဂလိပ် အလုပ်များကို ၁၀-၁၅% ကျဆင်းစေသည်။ ကိုင်တွယ်မှု အဆင့်မတူညီမှုသည် ရှိပြီးသားများအား အားဖြည့်ပေးသော်လည်း၊ PEFT သည် အသိပညာသည့် တင်သွင်းမှုများကို လိုအပ်သည်။

Red Hat ၏ အကောင်းဆုံး လမ်းညွှန်ချက်များမှာ- (၁) အမျိုးအစားစပ် ပိုက်လိုင်းများ - SFT သည် RL ကို အစပြုသည်; (၂) အကဲဖြတ်မှု တင်းကျပ်မှု - မီးခိုးရောင်မှတ်ချက်များအပြင်၊ HE LM ကို လုံးဝအကဲဖြတ်မှုများအတွက် အသုံးပြုပါ; (၃) အကျိုးသက်ရောက်မှု စစ်ဆေးခြင်း - ထုတ်ပြန်မီ တန်ဖိုးလွှဲမှားမှုများကို စစ်ဆေးပါ။ Tunix (JAX-native) ကဲ့သို့သော ကိရိယာများသည် အဖြူရောင်ဘော့စ်ညှိနှိုင်းမှုကို လွယ်ကူစေပြီး၊ SFT/RLHF ကို ကျယ်ပြန့်စွာ ပံ့ပိုးပေးသည်။

အခက်အခဲ

သက်ရောက်မှု

ကာကွယ်နည်း

ကိရိယာ/ဥပမာ

အလွန်အဆိုးရောက်သော မေ့လျော့မှု

20-30% စွမ်းရည်ဆုံးရှုံးမှု

ပြန်လည်သိမ်းဆည်းမှုဗွဖာများ + အဆက်မပြတ် လေ့လာခြင်း

Scale AI ရဲ့ ဖွဲ့စည်းမှု

အခြေအနေ တိက်မှု

မတူကွဲပြားမှု လျော့နည်း

မျှဝေမှု နမူနာ

Stanford NLP

အတိုင်းအတာဖြစ်နိုင်စွမ်း

မြင့်မားသော GPU လိုအပ်ချက်များ

PEFT + မီးခိုးရောင်ပြောင်းလဲခြင်း

Hugging Face မှ QLoRA

ဘက်လိုက်ခြင်း တိုးမြှင့်ခြင်း

စည်းကမ်းထိခိုက်မှုအန္တရာယ်များ

မျက်မှောက်နှစ်ခြင်း စမ်းသပ်ခြင်း

သဘာဝကျဆန့်ကျင်မှု ပါဝင်သော DPO

2025 အလားအလာ: AGI အဖွဲ့စည်းမှုအဖြစ်သင့်ပြင်ခြင်း

ကြည့်ရှုရှေ့တိုးမည့်အခါ၊ လေ့ကျင့်မှုပြီးဆုံးခြင်းသည် ကိုယ်ပိုင်စနစ်များနှင့် ပေါင်းစည်းမည်—RL သုံး ကိုယ်တိုင်တိုးတက်မှုလည်ပတ်မှုများဖြစ်သည့် Multi-Agent Evolve နမူနာများက ကိုယ်ပိုင်တိုးတက်မှုကို ကြိုဆိုသည်။ Meta ၏ GEM (နိုဝင်ဘာ 10 စာရွက်) သည် အသိပညာကို ဖျော်ဖြေရန်ဖြင့် သိမ်းဆည်းထားသော သဘောတရားကို ဉပမာပြုသည်၊ ad-specific LLMs ကို 10 ဆ ထိထိရောက်ရောက်ဖြစ်စေရန် ဖြည့်စွက်ပေးသည်။ ဖွံ့ဖြိုးသူများအတွက် Red Hat ၏ Training Hub ကဲ့သို့သော ပွင့်လင်းသော စီးပွားရေးစနစ်များသည် RL ကို plug-and-play ပြုလုပ်ရန် ကတိကဝတ်ပြုသည်၊ OpenAI ၏ စိတ်ကူးယဉ်စွမ်းရည်ကို commoditize superalignment ဖြစ်စေသည်။

အတိုချုပ်အားဖြင့်၊ လေ့ကျင့်မှုပြီးဆုံးခြင်းသည် အဆုံးမဟုတ်ပေ၊ တိုးတက်မှုဖြစ်သည်။ OpenAI ၏ ပြောင်းလဲမှုသည် အထက်ကဲ့သို့သာဖြစ်သည်၊ သည့် နေရာတွင် အထွေထွေ ဖြစ်ခြင်းသည် ထူးချွန်မှုကို ယူဆောင်သည်။ ရဲရင့်စွာ စမ်းသပ်ပါ။ သင်၏ ဒေတာသိုလှောင်မှုပေါ်တွင် Llama မျိုးကွဲကို အလေးထားပြုပြင်ခြင်း၊ တိကျသော အကဲဖြတ်မှုများနှင့် တိုင်းတာခြင်းနှင့် ထပ်မံပြုပြင်ပါ။ ထူးခြားသော LLMs ၏ ခေတ်သည် ရောက်ရှိလျက်ရှိသည်—ဤအခွင့်အလမ်းကို လက်လွှတ်မခံပါနှင့်။

https://macaron.im/

https://mindlabs.macaron.im/

https://macaron.im/blog