Blog imageစာရေးသူ: Boxu Li 

Macaron AI က ထုံးစံထုတ်လုပ်မှုကိရိယာတစ်ခုသာမကပဲ မိမိတို့စကားပြောဆိုမှုများကို ပြေးလမ်းအကွက်သေးသေးလေးများအဖြစ်ပြောင်းလဲပေးသော ပလက်ဖောင်းတစ်ခုဖြစ်သည်။ ၎င်းသည် ပြက္ခဒိန်များကိုစီမံခန့်ခွဲခြင်း၊ ခရီးစဉ်များကိုစီစဉ်ခြင်းနှင့် ဝါသနာများကိုလေ့လာခြင်းတို့ကို လုပ်ဆောင်ပေးသည်။ ရင်းနှီးသောမျက်နှာပြင်အောက်တွင် အထူးပြု reinforcement learning (RL) စနစ်နှင့် သတိရစွမ်းရည်ရှိသော memory engine တစ်ခုရှိပြီး အရေးကြီးသောအရာများကို သတိရပြီး အရေးမကြီးသောအရာများကို မျောက်မနေစေပါ။ Macaron သည် Claude Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp ကို Claude Agent SDK/Code 2.0 နှင့်အတူ ပေါင်းစပ်ရန် ပြင်ဆင်နေစဉ်၊ ဤဘလော့ဂ်သည် ဤမော်ဒယ်အသစ်များနှင့် ကိရိယာများက Macaron ၏ ထုတ်ကုန်အရည်အသွေးကို မြှင့်တင်ပေးခြင်း၊ အကွက်သေးသေးလေးများဖန်တီးခြင်းကို လျှော့ချပေးခြင်းနှင့် အမှားများကို လျှော့ချပေးခြင်းတို့ကို မည်သို့ ပြုလုပ်နိုင်သည်ကို လေ့လာပါသည်။ Anthropic ၏ ဖွံ့ဖြိုးရေးအပ်ဒိတ်များ၊ DeepSeek သုတေသနများနှင့် Macaron ၏ ကိုယ်ပိုင် အင်ဂျင်နီယာဘလော့ဂ်များမှ နည်းပညာဆိုင်ရာ အမြင်များကို ပေါင်းစပ်၍ အနာဂတ်မှာ ဘာတွေဖြစ်နိုင်မလဲဆိုတာကို ရှင်းလင်းသော ပုံရိပ်တစ်ခု ဆွဲဆောင်ပါသည်။

1 Macaron ၏ အတွင်းအင်ဂျင်: RL၊ သတိနှင့် စည်းမျဉ်းများ

မော်ဒယ်များကိုနှိုင်းယှဉ်မီ Macaron ၏ထူးခြားချက်ကိုနားလည်ရန် အထောက်အကူဖြစ်သည်။ Macaron သည် အဆင့်များစွာပါဝင်သည့် RL စနစ် ကိုအသုံးပြု၍ အပျော်တမ်းစကားပြောဆိုမှုများကို လုပ်ဆောင်ရန်နှင့် ကုဒ်သို့ပြောင်းလဲသည်။ ယင်းစနစ်သည် ပြဿနာကို စကားပြောစီမံခန့်ခွဲမှု၊ မှတ်ဉာဏ်ရွေးချယ်မှု၊ ကုဒ်ပေါင်းစပ်ခြင်းနှင့် မျက်မြင်တုံ့ပြန်မှု အစိတ်အပိုင်းများအဖြစ် ခွဲခြားပြီး အဆင့်လိုက်ရောထွေးမှုအတိုးတက်မှုလေ့လာမှု (HRL) ကို အသုံးပြု၍ ထိန်းချုပ်သည်[2]။ အဆင့်မြင့် meta-controller သည် ဘယ်နှစ်ခု module ကို နောက်တစ်ခုအဖြစ် အကောင်အထည်ဖော်ရမည်ကို ဆုံးဖြတ်ပေးပြီး အဆင့်နိမ့် RL မူဝါဒများသည် မှတ်ဉာဏ်တစ်ခုကို ပြန်လည်ယူခြင်း၊ API ကို ခေါ်ခြင်း သို့မဟုတ် ဖန်တီးထားသော ကုဒ်ကို အကောင်အထည်ဖော်ခြင်း စသည်တို့ကို ဆုံးဖြတ်ပေးသည်[2]။ ဒီဒီဇိုင်းက Macaron ကို ခရီးစီမံခန့်ခွဲခြင်းမှ စီးပွားရေးစီမံခန့်ခွဲခြင်းအထိ တိုးတက်သော ရည်မှန်းချက်များကို စီစဉ်နိုင်စေရန် အခွင့်အလမ်းပေးသည်။

1.1 Reward modelling and human feedback

ပုဂ္ဂိုလ်ရေး AI တွင် တစ်ခုထဲသော “အောင်မြင်မှု အခြေအနေ” မရှိပါ။ အသုံးပြုသူကျေနပ်မှု၊ ကိုယ်ရေးကိုယ်တာအချက်အလက် ကာကွယ်မှု၊ အချိန်နှင့်ယှဉ်တွဲမှုနှင့် ယဉ်ကျေးမှုဆိုင်ရာ အနုမြူများ အားလုံးက အရေးကြီးသည်။ Macaron သည် အမြင်တစ်ခုနှင့် အလှည့်ကျပြန်ကြားမှု ကိုပေါင်းစည်းခြင်းဖြင့် ၎င်း၏ အကျိုးအမြတ် လုပ်ဆောင်ချက်ကို တည်ဆောက်သည်။ အမြင်သင်္ကေတများတွင် စကားပြောချိန်အရှည်၊ အသုံးပြုမှုအကြိမ်ရေနှင့် အသံထွက်ကို ရှာဖွေခြင်းပါဝင်သည်။ သို့သော် အထက်တန်းသတ်မှတ်ချက်များနှင့် လက်မထပ်နှိပ်ချက်များသည် ကြိုက်နှစ်သက်မှုများကို ချိန်ညှိရန် အကူအညီဖြစ်သည်[3]။ Macaron သည် ကြိုက်နှစ်သက်မှု အတည်ပြုခြင်း ကိုလည်း အသုံးပြုပြီး အခြားတုံ့ပြန်မှုများ သို့မဟုတ် အက်ပ်ဒီဇိုင်းများကို ပြသပြီး အသုံးပြုသူများထံမှ ဘယ်အရာကို ကြိုက်နှစ်သက်ကြောင်း မေးမြန်းသည်။ ထိုအခါ အတုယူရန် မော်ဒယ်တစ်ခုသည် အလားအလာရှိသော လုပ်ဆောင်ချက်များအပေါ်တွင် လျှို့ဝှက် အကျိုးသက်ရောက်မှု လုပ်ဆောင်ချက်ကို လေ့လာနိုင်ပြီး လူမှ ပြန်ကြားလာသော အကျိုးသက်ရောက်မှု (RLHF) ကဲ့သို့သော် ယဉ်ကျေးမှု အညွှန်းများဖြင့် တိုးချဲ့ထားသည်။ ဥပမာအားဖြင့် ဂျပန် အဆင့်သတ်မှတ်သူများသည် ယဉ်ကျေးမှုနှင့် အကြောင်းအရာကို အလေးထားပြီး ကိုရီးယား အဆင့်သတ်မှတ်သူများသည် လူစုလူဝေးနှင့် တစ်ကိုယ်ရည် ဖွဲ့စည်းချက်များကို အထူးပြုသည်[4]။ ဤသင်္ကေတများသည် အသုံးပြုသူကျေနပ်မှုကို ခန့်မှန်းနိုင်သည့် အကျိုးအမြတ် မော်ဒယ်အတွင်း ထည့်သွင်းပြီး ဒေသတွင်း စံနှုန်းများကို လိုက်နာရန် ကိုယ်စားလှယ်အား လှုံ့ဆော်သည်။

1.2 Hierarchical RL နှင့် မာခရို-လုပ်ဆောင်ချက်များ

အသုံးပြုသူအလုပ်များကို စီမံရန်အတွက် Macaron သည် HRL ကို အသုံးပြုပြီး module များနှင့် sub-policy များကို ရွေးချယ်သည်။ module များအတွင်းတွင် options framework ကို အသုံးပြုသည်။ အလုပ်တစ်ခု၏ sub-goal ကို ရှာဖွေရန် လုပ်ဆောင်ချက်များ စဉ်လိုက်ပြုလုပ်ခြင်းကို ရွေးချယ်ချက်တစ်ခုအဖြစ် ဆင်ခြင်သည် (ဥပမာ - “ပြီးခဲ့သည့်လ၏ စရိတ်များကို ခန့်မှန်းသည်” သို့မဟုတ် “နှစ်မျိုးဘာသာ သင်ယူမှုအစီအစဉ် တိုက်တွန်းသည်”) [3]။ တစ်ခုသောနယ်ပယ်တွင် ရှာဖွေတွေ့ရှိသော ရွေးချယ်ချက်များကို အခြားနယ်ပယ်များသို့ အခြေခံဖွဲ့စည်းမှုများကို လိုက်ဖက်မူရှိလျှင် လွှဲပြောင်းနိုင်သည်။ Macaron သည် macro-actions ကိုလည်း သတ်မှတ်ပြီး အချိန်ကြာမြင့်သော စကားဝိုင်းများ သို့မဟုတ် ကြာမြင့်သောတွက်ချက်မှုများကို ပါဝင်သည်၊ ဥပမာ - မိသားစုအပန်းဖြေရေးစီစဉ်ခြင်း (သွားရောက်ရမည့်နေရာ၊ သယ်ယူပို့ဆောင်မှု၊ တည်းခိုရန်နေရာနှင့် အစီအစဉ်)[3]။ RL အေးဂျင့်များသည် macro-actions ကို ရာထူးဆက်စပ်ဆုကြေးစားအရည်အချင်းအပေါ် အခြေခံပြီး ကြာမြင့်သော စိတ်ကျေနပ်မှုကို အထူးပြုလုပ်ရန် အေးဂျင့်ကို လှုံ့ဆော်ပေးသည်။

1.3 ခရက်ဒစ် သတ်မှတ်ခြင်းနှင့် အချိန်ကြိုးပမ်းခြင်း

ဆုလာတဲ့အခါမှာ အရည်အချင်းကို အထူးသဖြင့် လုပ်ဆောင်ချက်တွေအပေါ်မှာ ချမှတ်တာ ပြုလုပ်ရခက်တယ်။ Macaron က အချိန်ချည်နှောင်မှု ကို အသုံးပြုပြီး အချိန်တစ်လျှောက်မှာ ဖြစ်ရပ်တွေကို နောက်ခံဇာတ်ကြောင်းတွေနဲ့ ချိတ်ဆက်ပေးတယ်။ ဒီစနစ်က မှတ်ဉာဏ်တွေကို ကိုယ်စားပြုတဲ့ အမှတ်အသားတွေနဲ့ ဖြစ်ရပ်တွေဆီက causal relationships တွေကို ကိုယ်စားပြုတဲ့ သံသရာတွေကို ဖန်တီးပေးတယ်။ အကျိုးဆက်တစ်ခုကို သုံးသပ်တဲ့အခါမှာ ဒီသံသရာကို နောက်ပြန်လိုက်ပြီး ဘယ် retrievals သို့မဟုတ် လုပ်ဆောင်ချက်တွေက အားပေးခဲ့သလဲဆိုတာ ရှာဖွေနိုင်တယ်[2]။ Counterfactual reasoning က အခြားလုပ်ဆောင်ချက်တွေကို လုပ်ခဲ့ရင် ဘယ်လိုဖြစ်နိုင်မလဲဆိုတာ သုံးသပ်ပေးပြီး အောင်မြင်မှုရှိတဲ့ လုပ်ဆောင်ချက်ကို ထပ်လုပ်ရင် အမြဲတမ်း အဲဒီလိုဆုရမှာ မဟုတ်ကြောင်းကို တားဆီးပေးတယ်[2]။ Macaron က နောက်ကျတဲ့ဆုတွေကို အသုံးပြုပြီး eligibility traces တွေကို ယူပြီး အစောပိုင်းဆုံးဖြတ်ချက်တွေ – မှတ်ဉာဏ်ရွေးချယ်မှု သို့မဟုတ် ဆွေးနွေးမှုအသံ – ဆီမှာပြန်ဖြန့်ပြီး အေးချမ်းမှုအရှည်ရှည်ရှိအောင် agent ကို အားပေးတယ်[5]

1.4 တရားမျှတမှု၊ လုံခြုံရေးနှင့် သဗ္ဗမင်္ဂလ

ကိုယ်ပိုင် AI ကိုယ်စားလှယ်များသည် ဘက်လိုက်ခြင်းကိုရှောင်ရှားရမည်ဖြစ်ပြီး စည်းမျဉ်းများနှင့် ကိုက်ညီရမည်။ Macaron သည် တရားမျှတမှုကန့်သတ်ချက်များကို ဆုချအလုပ်ထဲတွင် ထည့်သွင်းထားသည်။ ဥပမာအားဖြင့် ကိုယ်စားလှယ်သည် မေးမြန်းခြင်းမရှိဘဲ လိင်အခြေပြု လှုပ်ရှားမှုများကို ဆက်လက်အကြံပြုပါက ဒဏ်ငွေကျခံရမည်[5]သဗ္ဗမင်္ဂလမူဝါဒစာကြည့်တိုက်သည် ယဉ်ကျေးမှုစံနှုန်းများနှင့် တရားဥပဒေလိုအပ်ချက်များကို ကူးယူထားပြီး ဤလမ်းညွှန်ချက်များကို ချိုးဖျက်ပါက အနုတ်ဖြစ်သော ဆုချမှတ်အဖြစ် သတ်မှတ်ထားခြင်း သို့မဟုတ် လုပ်ဆောင်ချက်ကို အပြည့်အဝပိတ်ပင်ထားပါသည်[5]။ လူ့အကြီးအကဲသည် ဘဏ္ဍာရေးအစီအစဉ်ရေးဆွဲခြင်း သို့မဟုတ် ကျန်းမာရေးစောင့်ရှောက်မှုအကြံဥာဏ်စသည့် အကြီးစားဆုံးဖြတ်ချက်များတွင် ပါဝင်ပြီး ကိုရီးယား AI စနစ်ဆိုင်ရာဥပဒေနှင့် ဂျပန်၏ AI မြှင့်တင်ရေးဥပဒေနှစ်ခုလုံးကို ပြည့်မီစေပါသည်[5]။ Macaron သည် RL ဆုံးဖြတ်ချက်များကို မှတ်တမ်းတင်ပြီး သုံးစွဲသူများကို အချို့သော မှတ်ဉာဏ်များ သို့မဟုတ် မော်ဂျူးများကို ရွေးချယ်ခဲ့သော အကြောင်းရင်းများကို ရှင်းပြပေး၍ စစ်ဆေးမှုများနှင့် ထင်ရှားမှုများကို ပံ့ပိုးပေးပါသည်[5]

1.5 မှတ်ဉာဏ်အင်ဂျင်: ဖိသိပ်မှု၊ ပြန်လည်ရယူမှုနှင့် သတ်မှတ်ခြင်း

Macaron ၏ မှတ်စုအင်ဂျင်သည် ပုဂ္ဂိုလ်ရေးဖျော်ဖြေရေး၏ အခြေခံရုတ်တရက်ဖြစ်သည်။ ၎င်းသည် မှတ်ဉာဏ်များကို တိုတောင်းသည့်၊ အပိုင်းပိုင်းနှင့် ရေရှည်သိုလှောင်မှုများ အဖြစ် စီမံသည်။ တိုတောင်းသည့် သိုလှောင်မှုသည် လက်ရှိ ဆွေးနွေးမှု (8–16 မက်ဆေ့ခ်ျများ) ကို ထိန်းသိမ်းသည်; အပိုင်းပိုင်းသိုလှောင်မှုသည် နောက်ဆုံး ပြုလုပ်ခဲ့သော လုပ်ဆောင်မှုများကို ချုံ့ထားသော ဂရုတစိုက်မှုဖြင့် ထိန်းသိမ်းသည်; ရေရှည်သိုလှောင်မှုသည် metadata အမှတ်အသားများ (အချိန်, နယ်ပယ်, ဘာသာစကား) ဖြင့် အမြင့်အတိုင်းအတာ ဗက်တာဒေတာဘေ့စ်ကို အသုံးပြုသည်[6]။ ကုန်ကျစရိတ်ကို စီမံရန်၊ Macaron သည် latent summarisation ကို အသုံးပြု၍ အရေးပါသော အပိုင်းများကို သတ်မှတ်ပြီး တိကျသည့် အရှည်ရှိ ဗက်တာများအဖြစ် ချုံ့ထားသည်; autoencoding ရည်ရွယ်ချက်သည် ချုံ့ထားသော အကျဉ်းချုပ်များမှ ဖုံးကွယ်ထားသော အခြေအနေများကို ပြန်လည်တည်ဆောက်ပြီး RL သည် နောက်ပိုင်းမှတ်မိမှုအတွက် အရေးပါသော အချက်အလက်များကို ထိန်းသိမ်းရန် အကျဉ်းချုပ်ရေးသူကို ပြုပြင်သည်[7]dynamic memory token သည် pointer network အဖြစ် လုပ်ဆောင်သည်: ၎င်းသည် ဝင်ရောက်လာသော မှတ်ဉာဏ်များကို ရှာဖွေ၍ သက်ဆိုင်မှုကို ဖျော်ဖြေရန် သုံးသပ်ပြီး ပြန်လည်ပေးပို့ရန် သို့မဟုတ် ဆက်လက် ရှာဖွေရန် ဆုံးဖြတ်သည်[8]

အမှန်တကယ်နီးစပ်သောအနီးဆုံးအကျိုးရှိမှုကိုထုတ်ယူခြင်းသည် ထုတ်ကုန်အရည်အသွေးဖြင့်အနီးကပ်စီစဉ်ခြင်းနှင့် အများဆုံးနားလည်မှုစွမ်းရည်ကိုအသုံးပြုခြင်းဖြင့် တူညီမှုနှင့် ပြောင်းလဲမှုကိုချိန်ညှိသည်။ [9] မေးခွန်းတိုးချဲ့ခြင်းသည် အသုံးပြုသူ၏ရည်မှန်းချက်နှင့် ဖြစ်တည်သောရည်ရွယ်ချက်ကို အသုံးပြုသည်။ ဥပမာ၊ ဂျပန်အတွက် "花火大会" (မီးရှူးပွဲ) ကိုပွဲလက်မှတ်၊ ရက်စွဲနှင့် မိုးလေဝသကိုအပါအဝင်တိုးချဲ့ပါသည်။ [10] သက်ဆိုင်မှုပေါင်းစည်းခြင်းသည် ချိတ်ဆက်ထားသောမေးခွန်းများကို ကိုင်တွယ်ပါသည်။ ဒိုမိန်းများနှင့် ဘာသာစကားများအနှံ့ ပြန်လည်ယူခြင်းဖြစ်နိုင်ချေရရှိမှုကို ဖြန့်ဝေရန် softmax သော့ခတ်လုပ်ဆောင်ချက်ကိုအသုံးပြုသည်။ [11] ဤအစိတ်အပိုင်းများကို RL ဖြင့်လေ့ကျင့်ပြီး အချိန်လည်ပတ်မှုမှတဆင့် အကျိုးရှိသောမှတ်ဉာဏ်များကို အေးဂျင့်သိရှိအောင် သင်ယူရန် ချီးမြှင့်ချက်ပေးခြင်းကို လုပ်ဆောင်သည်။ [12] Macaron ၏ မှတ်ဉာဏ်စနစ်သည် ရိုးရိုးပြန်လည်ယူဆောင်မှုဖြင့်ထုတ်လုပ်ခြင်း (RAG) နှင့် ကွာခြားပါသည်။ အမှတ်များသည် အသုံးပြုသူအထူးဖြစ်ပြီး သိမ်းဆည်းခြင်းနှင့်ပြန်လည်ယူဆောင်ခြင်းကို RL ဖြင့် လမ်းညွှန်သည်။ အမှတ်တစ်ခုစီတွင် သီးသန့်သုံးနိုင်မှုကို စီမံခန့်ခွဲသော ကိုယ်ရေးမှတ်တမ်းများပါဝင်သည်။ [13].

၂ Claude Agent SDK နှင့် Claude Code 2.0

Macaron ၏အတွင်းဖွဲ့စည်းမှုသည် ခိုင်ခံ့သော်လည်း mini‑apps တည်ဆောက်ရန်အတွက် ဖိုင်များကို ဖတ်ခြင်းနှင့် ရေးခြင်း၊ ကုဒ်ကို အကောင်အထည်ဖော်ခြင်း၊ ဗားရှင်းထိန်းချုပ်ခြင်းနှင့် ဝဘ် API များနှင့် လက်တွေ့ပြုလုပ်ခြင်းကို လိုအပ်ပါသည်။ Anthropic ၏ Claude Agent SDK သည် အတိအကျသောစွမ်းရည်များကို ပေးစွမ်းပြီး Claude Code ၏ terminal assistant ကို အားဖြည့်ပေးသော agent harness ကိုဖော်ထုတ်ပါသည်[14]။ ၎င်းသည် ဖိုင်လုပ်ဆောင်မှုများ (ဖတ်ခြင်း၊ ရေးခြင်း၊ grep၊ glob)၊ bash အမိန့်များ၊ ဝဘ် fetch၊ ဘာသာစကားများစွာ၏ ကုဒ်အကောင်အထည်ဖော်ခြင်း၊ Git လုပ်ဆောင်မှုများ စသဖြင့် စနစ်တကျထုတ်ပေးပါသည်[15]။ ကုဒ်အခြေခံကို ကြိုတင်အညွှန်းပြုလုပ်သော အကူအညီများနှင့် မတူဘဲ၊ Claude agents များသည် grep/find/glob ကို အသုံးပြု၍ ဖိုင်များကို ရှာဖွေရာတွင် လိုအပ်သည့်အချိန်တွင် ရှာဖွေကြပြီး dynamic repos များတွင် ပိုမိုထိရောက်သော နည်းလမ်းများဖြစ်စေသည်[16]။ SDK သည် အကြီးစားအကြောင်းအရာဝင်းဒိုးများနှင့် အလိုအလျောက်ချုံ့ခြင်းနှင့် အနှစ်ချုပ်ရေးခြင်း ပါဝင်ပြီး agent များကို စကားလုံးကန့်သတ်ချက်များမရှိဘဲ အရေးကြီးသော ကုဒ်အကြောင်းအရာများကို ထိန်းသိမ်းရန် ခွင့်ပြုသည်[17]။ Developer များသည် ခွင့်ပြုထားသော ကိရိယာများနှင့် ခွင့်ပြုချက် mode များကို သတ်မှတ်နိုင်ပြီး လုံခြုံရေးအတွက် hooks များကို ထည့်သွင်းနိုင်ပြီး guardrails များဖြင့် အလွတ်တန်းဖြစ်စေသည်[18]

SDK ၏ အခြေခံအဆောက်အအုံများ

  1. Tools - SDK သည် အင်ဂျင်နီယာများကို အေးဂျင့်အတွက် ရနိုင်သော ကိရိယာများ (file I/O, bash, web fetch, code execution) ကို ရွေးချယ်ခွင့်ပြုသည်[19]
  2. MCP extensions - Model Context Protocol နှင့် ပေါင်းစည်းခြင်းသည် အပြင်ပန်းဆာဗာများ (databases, email search, vector search) ကို ကိရိယာများကို မြှင့်တင်ရန် ခွင့်ပြုသည်[20]
  3. Sub‑agents - .claude/agents တွင် သတ်မှတ်ထားသော အေးဂျင့်များတွင် သူတို့၏ ကိုယ်ပိုင် စနစ် အစီရင်ခံချက်များ၊ ကန့်သတ်ထားသော ကိရိယာများနှင့် ရွေးချယ်နိုင်သော မော်ဒယ် ရွေးချယ်မှု ရှိသည်။ အလုပ်များကို အဆိုပါ sub‑agents များထံ ပေးအပ်နိုင်သည်[21]
  4. Memory & project context - အမြဲတမ်းရှိနေသော scratchpad (CLAUDE.md) သည် အစည်းအဝေးများအထိ အခြေအနေကို ထိန်းသိမ်းထားပြီး repo‑level configuration ကို လေးလေးနက်နက် ထိန်းသိမ်းသည်[22]
  5. Context management & runtime - အလိုအလျောက် အခြေအနေကို လျှော့ချပေးခြင်း၊ streaming ဖြေကြားမှုများနှင့် typed error handling သည် အချိန်ကြာရှည်သော အလုပ်များကို လွယ်ကူစွာ လုပ်ဆောင်နိုင်ရန် ကူညီသည်[23]

Claude Code 2.0 တွင် ထည့်သွင်းထားသော အင်္ဂါရပ်အသစ်များ

Claude Code 2.0 သည် developer များအတွက် အသုံးပြုရလွယ်ကူသော အပ်ဒိတ်များကို ပြန်လည်အသစ်ပြုလုပ်ထားပါသည်။ checkpoints သည် developer များအတွက် အောင်မြင်ခဲ့သော အဆင့်ဆင့်ကို သိမ်းဆည်းရန်နှင့် agent မှ အမှားအယွင်းပြုလုပ်သောအခါ ပြန်သွားရန် ခွင့်ပြုပါသည်[24]VS Code extension သည် agent ကို IDE ထဲသို့ ထည့်သွင်းထားပြီး အသစ်ပြန်လည်ပြင်ဆင်ထားသော terminal interface သည် state management ကို တိုးတက်စေပါသည်[25]။ Claude API သည် context editing နှင့် memory tool ကို ထည့်သွင်းထားပြီး agent များကို အချိန်ပိုကြာအောင် လည်ပတ်နိုင်စေရန် ချက်ချင်း context ကို ဖျက်၍ သက်ဆိုင်ရာ အပိုင်းအစများကို ပြန်လည်ယူဆောင်ပေးပါသည်[26]။ Claude ၏ app နှင့် API သည် ယခုအခါ code ကို ထုတ်လုပ်နိုင်ပြီး၊ ဖိုင်များကို ဖန်တီးနိုင်ကာ ဒေတာများကို လေ့လာနိုင်ပါသည်[27]၊ LLM ကို အပြည့်အဝ coding assistant အဖြစ် ပုံဖျက်ပြောင်းလဲနိုင်သည်။ ဒီအင်္ဂါရပ်များသည် Macaron ၏ mini-app pipeline အတွက် အထူးအရေးပါပြီး၊ အစီအစဉ် code ဖန်တီးခြင်း၊ sandbox တွင် စမ်းသပ်ခြင်း၊ အမှားပြင်ခြင်းနှင့် ပြင်ပဝန်ဆောင်မှုများနှင့် ပြန်လည်ဆက်သွယ်ခြင်းတို့ ပါဝင်သည်။

3 Claude Sonnet 4.5: အချိန်ကြာရှည်မှုမြင့်မားခြင်းနှင့် အရည်အသွေးမြင့်မားခြင်း

Claude Sonnet 4.5 သည် Anthropic ၏ coding၊ လုပ်ငန်းဆောင်တာများနှင့် ကွန်ပျူတာသုံးစွဲမှုအတွက် အပြည့်အဝ နိုင်စွမ်းရှိသော မော်ဒယ်ဖြစ်သည်။ DevOps.com တွင် Sonnet 4.5 သည် ယခင်မော်ဒယ်၏ ခုနစ်နာရီထက် ကြာရှည်သော ၃၀ နာရီကျော် ကို ကိုယ်ပိုင်အလုပ်လုပ်စွမ်းရည်ရှိသည်ဟု ဖော်ပြထားသည်။ ၎င်းသည် ညွှန်ကြားချက်များကို လိုက်နာခြင်း၊ ကုဒ်ပြုပြင်ခြင်းနှင့် ထုတ်လုပ်မှုအဆင်သင့် အထွက်များတွင် အထူးပြောင်မြောက်ပြီး လက်တွေ့ coding အလုပ်များတွင် SWE-Bench အတည်ပြုပြိုင်ဆိုင်မှုကို ဦးဆောင်သည်။ လက်တွေ့အသုံးပြုမှုတွင် အဆင့်မြှင့်တင်မှုများသည် သိသာဖြစ်သည်။ Replit ၏ ပြိုင်ဆိုင်မှုတွင် Sonnet 4 မှ Sonnet 4.5 သို့ ကုဒ်ပြုပြင်မှုမှားယွင်းမှု ၉% မှ ၀% အထိ လျှော့ချနိုင်ခဲ့သည်။ လုံခြုံရေးအသင်းများသည် အခွင့်အလမ်းလျှော့ချရန် အချိန်ကို ၄၄% ဖြတ်တောက်ပြီး တိကျမှန်ကန်မှုကို ၂၅% တိုးမြှင့်နိုင်ခဲ့သည်။ Netflix အင်ဂျင်နီယာများက Sonnet 4.5 ကို "ဆော့ဖ်ဝဲဖွံ့ဖြိုးရေးလုပ်ငန်းများတွင် ထူးချွန်ပြီး ငါတို့၏ ကုဒ်အခြေခံပုံစံများကို သင်ယူကာ တိကျသော အကောင်အထည်ဖော်မှုများ ဆောင်ရွက်ပေးနိုင်သည်" ဟု ဖေါ်ပြသည်။

Sonnet 4.5 ၏ developer tooling နှင့် မှတ်ဉာဏ် အင်္ဂါရပ်များသည် Agent SDK နှင့် ပေါင်းစပ်သည်။ မော်ဒယ်သည် အခြေအနေတည်းဖြတ်ခြင်းနှင့် မှတ်ဉာဏ် စီမံခန့်ခွဲမှု ကို ပံ့ပိုးပေးပြီး၊ အဟောင်း အခြေအနေများကို အလိုအလျောက် ရှင်းလင်းပေးပြီး သက်ဆိုင်ရာ အပိုင်းများကို ပြန်လည် ဦးတည်စေသည်[24]။ ယင်းသည် GUI များကို နှိပ်ခြင်း၊ ရိုက်ထည့်ခြင်း၊ မီနူးများနှင့် အပြန်အလှန် ဆက်ဆံခြင်းဖြင့် လမ်းကြောင်း ချမှတ်နိုင်ပြီး၊ API မရှိဘဲ ကိရိယာများကို အော်တိုလုပ်ဆောင်နိုင်စေသည်။ SDK ၏ sub‑agent architecture နှင့် checkpoints တို့နှင့် ပေါင်းစပ်၍ ယင်းသည် Macaron ကို နေ့များစွာ အတွင်း mini‑apps များကို context မရှုံးဘဲ ဖန်တီးနိုင်စေပြီး၊ လိုအပ်ပါက အမှားများကို ပြန်လည် ပြင်ဆင်နိုင်သည်။

4 DeepSeek V3.2‑Exp: စစ်မှန်သော သက်သာမှုမှတဆင့် ထိရောက်မှု

Sonnet 4.5 သည် အရည်အသွေးနှင့် ကိုယ်ပိုင်လွတ်လပ်မှုကို အာရုံစိုက်နေသော်လည်း DeepSeek V3.2‑Exp သည် ထိရောက်မှုကို အရှိန်မြှင့်သည်။ ဤမော်ဒယ်သည် DeepSeek Sparse Attention (DSA) ကို မိတ်ဆက်ပေးပြီး အာရုံစိုက်ရာတွင် အရေးကြီးဆုံးသောအချက်အချာများကိုသာ ရွေးချယ်ပါသည်။ ၎င်းသည် စုပေါင်းရှုပ်ထွေးမှုကို ² O(n²) မှ O(nk) သို့ လျှော့နည်းပေးပြီး အကြာကြီး ကြည့်ရှုရာတွင် 2–3× အမြန်ဆုံး ခန့်မှန်းနိုင်စွမ်း, မှတ်ဉာဏ်အသုံးပြုမှု 30–40 % လျှော့နည်းခြင်းနှင့် API စျေးနှုန်း 50 %+ လျှော့နည်းခြင်းကို ပေးစွမ်းပါသည်[28]။ ဤကုန်ကျစရိတ်လျှော့နည်းမှုများရှိသော်လည်း၊ V3.2‑Exp သည် ယခင် V3.1‑Terminus မော်ဒယ်နှင့် အများစုသော စံချိန်များတွင် အလားတူဖြစ်နေပါသည်[29]။ အဖွင့်အရင်းအမြစ် ထုတ်ပြန်ခြင်းကြောင့် Macaron သည် မော်ဒယ်ကို ဒေသခံအဆင့်တွင် အသုံးပြုနိုင်ခြင်း၊ ဖြည့်စွက်ပြုပြင်နိုင်ခြင်းနှင့် လမ်းကြောင်းအသစ်များကို ရှာဖွေနိုင်ခြင်းကို ခွင့်ပြုသည်[30]။ Reuters သတင်းအရ DeepSeek သည် ၎င်းကို နောက်မျိုးဆက် စနစ်သို့ ရောက်ရှိရန် အလယ်အလတ်အဆင့်အဖြစ် ကြည့်ရှုကြောင်း ဖော်ပြခဲ့ပြီး၊ DSA စနစ်သည် စရိတ်ကုန်ကျမှုကို လျှော့နည်းစေပြီး အချို့သော စွမ်းဆောင်ရည်များကို မြှင့်တင်ပေးသည်[31]၊ ၎င်း၏ ဝန်ဆောင်မှုသည် အလိုအလျောက် V3.2‑Exp သို့ အဆင့်မြှင့်ပြီး အသုံးပြုသူများအတွက် စျေးနှုန်းအကြီးအကျယ်လျှော့နည်းပေးသည်[32]

DeepSeek V3.2‑Exp သည် mixture‑of‑experts ဒီဇိုင်းကိုဆက်ခံပြီး mixed precision နှင့် multi‑head latent attention ကိုထည့်သွင်းသည်[33]။ ဒါပေမယ့် စမ်းသပ်မှုအနေအထားဖြစ်သောကြောင့် ခက်ခဲသော အကြောင်းအရင်းဆန်းစစ်မှုလုပ်ငန်းများတွင် အနည်းငယ်နောက်ပြန်လှည့်မှုများကို ပြသပြီး[34] Claude ecosystem ၏ တွဲဖက်အေးဂျင့် ကိရိယာများမပါရှိပါ။ Macaron အတွက်ဆိုရင် V3.2‑Exp သည် အလျင်အမြန်နှင့် throughput ကို အရေးကြီးစွာထားသော cost‑sensitive လုပ်ငန်းများ သို့မဟုတ် prototyping အတွက် ပိုမိုသင့်လျော်သည်။

5 Macaron အတွက် Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp နှိုင်းယှဉ်ခြင်း

Macaron သည် နှစ်မျိုးစလုံးကို ချိတ်ဆက်ရန်ဆုံးဖြတ်မှုသည် ၎င်းတို့၏အားသာချက်များနှင့်အားနည်းချက်များကို နှိုင်းယှဉ်ရန် ဖိတ်ခေါ်သည်။ အောက်ပါဇယားသည် အဓိက အင်္ဂါရပ်များကို အကျဉ်းချုပ်ထားသည်။

အင်္ဂါရပ်
Sonnet 4.5
DeepSeek V3.2‑Exp
အာရုံစူးစိုက်မှု
အရည်အသွေးမြင့် coding၊ ကြိုးပမ်းအားထုတ်မှုများ၊ ကြာရှည်စွမ်းဆောင်ရည်
အကျိုးရှိသော ကြာရှည်အကြောင်းအရာ ဖြစ်စဉ်[35]
ဖွဲ့စည်းပုံ
ကြာရှည်စွမ်းဆောင်ရည် (>30 နာရီ) နှင့် ခိုင်မာသော အညွှန်းလိုက်နာမှုရှိသော ပိုင်ဆိုင်မှုမော်ဒယ်
ကြိုးစားမှုကို လျှော့ပျော့စေသည့် အာရုံစူးစိုက်မှုနည်းပါးသော ကျွမ်းကျင်မှုများ[28]
မှတ်ဥာဏ်နှင့် အကြောင်းအရာ
ကြီးမားသော အကြောင်းအရာ ပြတင်းပေါက်များ; မှတ်ဥာဏ်ကိရိယာမှ အလိုအလျောက် မှတ်ဥာဏ်စီမံခန့်ခွဲမှု[24]
အာရုံစူးစိုက်မှုနည်းပါးခြင်းမှ ကြာရှည်အကြောင်းအရာများကို ပံ့ပိုးပေးသည်; မှတ်ဥာဏ်အသုံးပြုမှု လျှော့ချထားသည်[28]
ဖွံ့ဖြိုးတိုးတက်ရေးကိရိယာများ
အေးဂျင့် SDK သို့မဟုတ် အခြားအေးဂျင့်များ၊ စစ်ဆေးမှုများ၊ VS Code အနှောင့်အယှက်များ[36][24]
တရားဝင် SDK မရှိပါ; အခြားဖွဲ့စည်းမှုများကို ပုံစံပြင်ဆင်နိုင်သော ဖွင့်လှစ်အရင်းအမြစ်ကုဒ်၊ သို့သော် အတွင်းမှတ်ဥာဏ်ကိရိယာမပါရှိပါ
ကုန်ကျစရိတ်
Sonnet 4 နှင့် မပြောင်းလဲပဲ; $3/M input tokens နှင့် $15/M output tokens[37]
API ဈေးနှုန်း 50 %+ လျှော့ချ[38]; ကိုယ်ပိုင်ကိုယ်စီ-ပြုလုပ်သုံးနိုင်သည်
အားသာချက်များ
အမြင့်ဆုံး coding တိကျမှု (SWE‑Bench Verified 77–82 %), ကြာရှည်စွမ်းဆောင်ရည်, လုံခြုံရေးခိုင်မာမှု
ထူးခြားသော အကျိုးရှိမှု; 2–3× အမြန်ဆုံး သတ်မှတ်ချက်များနှင့် အားနည်းသော မှတ်ဥာဏ်အသုံးပြုမှု[28]; ဖွင့်လှစ်အရင်းအမြစ်
အားနည်းချက်များ
token ကုန်ကျစရိတ်များ မြင့်မားသည်; ပိုင်ဆိုင် API; သဘောတူညီမှုစီမံခန့်ခွဲမှု အထူးပြုလို့ လိုအပ်နိုင်သည်
စမ်းသပ်မှုအခြေအနေ; စိတ်ပါဝင်စားမှု ချို့ယွင်းမှု ရှိနိုင်ပါသည်[34]; အတွင်းတွင် ပေါင်းစပ်ကိရိယာများ မပါရှိပါ

ဒီနှိုင်းယှဉ်မှုမှ၊ ကျွန်ုပ်တို့သည် hybrid မဟာဗျူဟာ တစ်ခုကို ဆွဲထုတ်နိုင်သည်။ Macaron သည် အစောပိုင်း မူကြမ်းများအတွက် DeepSeek V3.2‑Exp ကို အသုံးပြု၍ နည်းငယ်သော နောက်ကျမှုနှင့် ကုန်ကျစရိတ်မှ အကျိုးကျေးဇူးရယူနိုင်ပြီး၊ ပြီးမှ Sonnet 4.5 ဖြင့် ပြန်လည်မွမ်းမံခြင်း သို့မဟုတ် အမှန်တကယ်ဖြစ်ခြင်းနှင့် လုံခြုံမှုကို အတည်ပြုနိုင်သည်။ အနက်ရှိုင်းသော ဆင်ခြင်မှု လိုအပ်သော ဆန်းသစ်သော mini‑apps များအတွက် Sonnet 4.5 သည် အကောင်းဆုံးရွေးချယ်မှုဖြစ်ပြီး၊ V3.2‑Exp သည် အမြန် iteration များ သို့မဟုတ် အစုလိုက်အပြုံလိုက် ထုတ်လုပ်မှုတွင် ထူးချွန်သည်။

6 Macaron ၏ mini‑app စနစ်ကို မော်ဒယ်အသစ်များ ဘယ်လိုတိုးတက်လာမလဲ

Macaron အတွက် အဓိကမေးခွန်းမှာ Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp သည် အရည်အသွေးကိုတိုးတက်စေခြင်းဖွံ့ဖြိုးတိုးတက်မှုအချိန်ကိုဖျော့ဖျောင်းစေခြင်း နှင့် အမှားများကိုလျှော့ချခြင်း တို့ကို တိုးတက်စေနိုင်ပါသလားဆိုတာဖြစ်ပါတယ်။ Macaron ၏ စနစ်အတွင်းက အချက်အလက်များကို ကျွန်ုပ်တို့ လေ့လာကြည့်ပါမည်။

6.1 ကုဒ်နှင့် အထွက်၏အရည်အသွေး

Sonnet 4.5 သည် ကုဒ်အရည်အသွေးမြင့်မားခြင်းနှင့် အမှားအနည်းငယ်ဖြစ်ခြင်းကို ပေးစွမ်းသည်။ Replit အဆိုအရ၊ Sonnet 4 မှ Sonnet 4.5 သို့ ကူးပြောင်းသည့်အခါ ကုဒ်တည်းဖြတ်အမှားများသည် 9 ရာခိုင်နှုန်းမှ အနုတ်သုညသို့ကျဆင်းခဲ့သည်။ ဒါက Macaron ကနေ ဖန်တီးတဲ့ မီနီအက်ပ်တွေကို စနစ်တကျ ပြုစုနိုင်ပြီး၊ သဒ္ဒါအမှားနည်းပြီး သွင်းယူမှု ပျက်ကွက်မှုနည်းစေမှာဖြစ်တယ်။ ဒီမော်ဒယ်ရဲ့ လမ်းညွှန်ချက်တွေကို လိုက်နာမှုတိုးတက်လာတာဟာ Macaron ကို အသုံးပြုသူရဲ့ ဖော်ပြချက်တွေကို ပိုမိုမှန်ကန်စွာ နားလည်စေပြီး၊ ကုဒ်ပြန်ဖွဲ့စည်းမှုတိုးတက်လာတာက ဖန်တီးထုတ်လုပ်တဲ့ မော်ဂျူးတွေကို သန့်ရှင်းပြီး မော်ဂျူးလိုက်ဖွဲ့စည်းထားမှုရှိစေတယ်။ ရေးငွေရေးကြေးနှင့် ဆိုင်ဘာလုံခြုံရေးအလုပ်တွေမှာ Sonnet 4.5 သည် တိကျမှန်ကန်မှုကို 25 ရာခိုင်နှုန်းမှ 44 ရာခိုင်နှုန်းအထိ တိုးတက်စေပြီး၊ Macaron ရဲ့ ခရီးသွားနှင့် ကျန်းမာရေးအက်ပ်တွေမှာလည်း အလားတူ အကျိုးအမြတ်တွေ ရရှိမယ်ဆိုတာကို ဖော်ပြနေသည်။ DeepSeek V3.2‑Exp သည် ရှုပ်ထွေးသော အကြောင်းပြချက်များတွင် အနည်းငယ်အားနည်းသော်လည်း၊ V3.1 နှင့် တူညီသော ထိရောက်မှုနဲ့ ဆက်လက်လုပ်ဆောင်နိုင်ပြီး [29] ပိုမိုထိရောက်မှုမြင့်မားလာသည်။ Macaron ရဲ့ ဒိုမိန်းမှာ သုံးစွဲနိုင်ဖို့ ပြုပြင်ပြောင်းလဲမှုများ ပြုလုပ်ခဲ့ပြီး နည်းနည်းလေးသော မီနီအက်ပ်များအတွက် လုံလောက်စွာ တိကျမှန်ကန်မှုကို ထောက်ပံ့နိုင်မယ်။

6.2 မီနီအက်ပ်ဖန်တီးခြင်း၏မြန်နှုန်း

Sonnet 4.5 ၏ အလိုအလျောက်လည်ပတ်နိုင်စွမ်းသည် 30 နာရီကျော်ကြာသည်မှာ Macaron သည် အဆုံးမှအစ စတင်ပြီး မနုတ်လက်လုပ်ဆောင်ပေးသော mini‑apps များကို တစ်ကြိမ်တည်း ဆက်တိုက်ထုတ်လုပ်နိုင်စေသည်။ Agent SDK ၏ အကြောင်းအရာစီမံခန့်ခွဲမှုနှင့် စစ်ဆေးမှုအချက်များဖြင့် ပေါင်းစပ်ပြီး လုပ်ငန်းများကို ပြန်စပြီးနောက် context ကို ပြန်လည်တင်ခြင်းအတွက် ကုန်သက်သာစေသည်။ Sub‑agent အဆောက်အအုံက Macaron ကို လုပ်ငန်းများကို ထပ်တူလုပ်ဆောင်ရန် ခွင့်ပြုသည် - အေးဂျင့်တစ်ခုသည် UI ထုတ်လုပ်မှုကို ကိုင်တွယ်နိုင်ပြီး အခြားတစ်ခုသည် API ပေါင်းစည်းမှုကို စီမံနိုင်သည်။ တစ်ခုချင်းစီသည် ကိုယ်ပိုင် context နှင့် ကိရိယာများဖြင့် အလုပ်လုပ်သည်။ အထိန်းသိမ်းမှုတွင် DeepSeek V3.2‑Exp ၏ 2–3× လျင်မြန်သော အချက်အလက်သိမ်းခြင်း နှင့် အမှတ်စဉ်သိမ်းဆည်းမှု လျော့နည်းခြင်းကြောင့် လျင်မြန်သော တုံ့ပြန်ချက်များကို ရရှိစေနိုင်သည်။ ဥပမာအားဖြင့် ခရီးသွားအစီအစဉ်တစ်ခုကို Sonnet 4.5 ဖြင့် 30 စက္ကန့်တွင် ထုတ်လုပ်ရန်လိုအပ်ပါက V3.2‑Exp က 10–15 စက္ကန့်အတွင်း အrough ဖျော်ဖြေရေးကို ထုတ်နိုင်သည် - ထို့နောက် Sonnet 4.5 က ထပ်မံပြုပြင်ခြင်းကို ဆောင်ရွက်မည်ဖြစ်သည်။ အကျိုးသက်ရောက်မှုက အရင်အသုံးပြုနိုင်သော ဗားရှင်းတစ်ခုကို ပိုမိုမြန်ဆန်စေရန်နှင့် အသုံးပြုသူ၏ အကြံပြုချက်များကို လျင်မြန်စွာ ပြန်လည်သုံးသပ်နိုင်စေသည်။

6.3 လုပ်ငန်းစဉ်များနဲ့ အခက်အခဲများ လျော့နည်းစေခြင်း

အလိုအလျောက်လုပ်ငန်းစဉ်များသည် လူ့အမှားများကို လျော့နည်းစေသော်လည်း ကိုယ်ပိုင်အုပ်ချုပ်မှုသည် မှန်ကန်စွာ စီမံခန့်ခွဲခြင်းမရှိပါက အမှားအသစ်များကို စတင်နိုင်ပါသည်။ Agent SDK ၏ စစ်ဆေးမှုအချက်အလက်များ က တီထွင်သူများအား အေးဂျင့်၏ အခြေအနေကို သိမ်းဆည်းပြီး ပြန်လည်ပြုပြင်ရန် ခွင့်ပြုသည် [24]။ Macaron သည် mini‑app ဖန်တီးခြင်းအတွင်း အမှားသုံး API ခေါ်ဆိုမှုတစ်ခုပြုလုပ်ပါက သို့မဟုတ် မှားယွင်းသော ဖိုင်သို့ ရေးသားပါက အတိတ်မှတ်တိုင်သို့ ပြန်လည်ပြုပြင်နိုင်ပြီး အစမှပြန်စရန် မလိုအပ်ပါ။ အကြောင်းအရာတည်းဖြတ်ခြင်း သည် token စွန့်ပစ်မှုကို တားဆီးပြီး ပတ်သက်သည့် အကြောင်းအရာများသာ ထိန်းသိမ်းထားသည့်အတွက် မှားယွင်းခြင်းများကို လျှော့ချပေးသည်။ DeepSeek အတွက်ဖွင့်လှစ်များသော ပြန်လည်ထုတ်ပြန်မှုက Macaron ၏ အဖွဲ့အား မော်ဒယ်ကို စစ်ဆေးခြင်းနှင့် ပြုပြင်ပြောင်းလဲခြင်း၊ စိတ်ကြိုက်လုံခြုံရေးစစ်ဆေးမှုများကို ပေါင်းစပ်ခြင်းနှင့် လုပ်ငန်းခွင်အထူးပြု အလုပ်များအတွက် ပြုပြင်မှန်ကန်မှုများကို လုပ်ဆောင်နိုင်စေပါသည်။ ထို့အပြင် Macaron ၏ ကိုယ်ပိုင် RL အစီအစဉ်များ – အချိန်လိပ်ပြာ၊ အပြန်အလှန်အကဲဖြတ်ခြင်းနှင့် တရားမျှတမှုကန့်သတ်ချက်များသည် အသုံးပြုသူကျေနပ်မှုကို ဆက်လက်စောင့်ကြည့်ပြီး အန္တရာယ်ရှိသော အပြုအမူများကို ပြစ်ဒဏ်ပေးခြင်း [2][5]၊ အမှားများနှင့် သက်ဆိုင်ရာ ကျင့်ဝတ်ချိုးဖောက်မှုများကို လျော့နည်းစေပါသည်။

6.4 ကုန်ကျစရိတ်စဉ်းစားရာ

အရည်အသွေးမြင့်မော်ဒယ်များမှာ တန်ဖိုးရှိပါတယ်။ Sonnet 4.5 ၏ token စျေးနှုန်းမှာ Sonnet 4 ($3/M input tokens, $15/M output tokens) [37] နှင့်မပြောင်းလဲပါ။ DeepSeek V3.2‑Exp သည် API ခေါ်ဆိုမှုများ၏ကုန်ကျစရိတ်ကိုထပ်ခဲပြီးဖြတ်တောက်သည် [38] အပြင်၊ open‑source ဖြစ်သောကြောင့် ကိုယ်တိုင်ဆောင်ရွက်နိုင်ပါသည်။ ထို့ကြောင့် Macaron သည် V3.2‑Exp ကို အစပိုင်းမူကြမ်းများသို့မဟုတ် အရေးမကြီးသည့်အလုပ်များ (ဥပမာ၊ UI အစိတ်အပိုင်းများ ဖန်တီးခြင်း သို့မဟုတ် ရိုးရှင်းသော တွက်ချက်ချက်များ) အတွက် အသုံးပြုခြင်းဖြင့် ကုန်ကျစရိတ်များကို ထိရောက်စွာလျှော့ချနိုင်ပြီး Sonnet 4.5 ကို အရေးကြီးသော အလုပ်များ (ဥပမာ၊ ငွေကြေးစီမံကိန်းရေးဆွဲခြင်း၊ ဆေးဘက်ဆိုင်ရာ အကြံပေးခြင်း) အတွက် အသုံးပြုပါသည်၊ ထိရောက်မှုနှင့် လိုက်နာမှုမှာ အရေးကြီးသော နေရာများတွင် အသုံးပြုပါသည်။ အမြန်ဆုံး ရလဒ်များနှင့် GPU သုံးစွဲမှု လျော့နည်းမှုမှ အားသာချက်များသည် လည်းကောင်း ကွန်ပျူတာကုန်ကျစရိတ်များကိုလည်း လျော့ချပေးသည်။

7 Macaron ရဲ့ RL လေ့ကျင့်မှု革新များ: DAPO, LoRA နှင့် All‑Sync RL

မော်ဒယ်ကိုတိုးတက်စေရန်သည် ကာတွန်းရဲ့အပေါ်ယံပိုင်းသာဖြစ်သည်; လေ့ကျင့်မှုထိရောက်မှုသည် Macaron သည် RL မူဝါဒများကို အမြန်ဆုံးထပ်ခါတလဲလဲပြုလုပ်နိုင်သည့်နည်းလမ်းကို ထိခိုက်စေသည်။ MIND LABS သည် Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) ကို Low‑Rank Adaptation (LoRA) နှင့်ပေါင်းစပ်ထားသော All‑Sync RL ဖွဲ့စည်းပုံကိုဖော်ပြသည်။ 512 GPUs လိုအပ်သော စံ RL နှင့်နှိုင်းယှဉ်ပါက 671B DeepSeek မော်ဒယ်ကို 48 H800 GPUs ဖြင့်လေ့ကျင့်ရန် 10× လျော့ချခြင်း ဖြစ်သည်[39]။ Coati နှင့် SGLang ကိုအသုံးပြုသော ပိုက်လိုင်းကိုမျဉ်းရိုးလိုက်သည့်နည်းဖြင့်၊ မြန်ဆန်သော LoRA ပေါင်းစပ်ခြင်းနှင့်အရည်အသွေးတိုးမြှင့်ခြင်းသည် GPUs များသည် သတ်မှတ်ချက်ကိုစောင့်နေစဉ် အလုပ်မလုပ်သည့် “GPU အမြွှာများ” ကိုဖယ်ရှားပစ်သည်[40]။ ရလဒ်မှာ တစ်ကြိမ်သင်ကြားမှုအဆင့်အတွက် နာရီ ၉ မှ နာရီ ၁.၅ အထိ နံရံ-နာရီအချိန်ကို လျှော့ချခြင်းဖြစ်သည်[41]။ ဤတိုးတက်မှုများကြောင့် Macaron သည် ၎င်း၏ဆုချီးမြှင့်မော်ဒယ်များ သို့မဟုတ် မှတ်မိမှုတံခါးများကိုပိုမြန်စွာပြန်လည်လေ့ကျင့်နိုင်ပြီး သုံးစွဲသူများထံသို့တိုးတက်မှုများကိုပိုမြန်စွာပေးပို့နိုင်သည်။

ပုံ ၁ – All‑Sync RL ကို LoRA နှင့် အသုံးပြုသောအခါ GPU အသုံးပြုမှု 512 မှ 48 H800 GPU များအထိ ကျဆင်းပြီး RL သုတေသနပြုခြင်းကို ပိုမိုရရှိနိုင်စေရန်နှင့် အမြန်လေ့လာနိုင်စေရန် အထောက်အပံ့ ပေးသည်[39]

ထိရောက်မှုကို ကျော်လွန်၍ LoRA ၏ အဆင့်နိမ့်အပ်ဒိတ်များက မော်ဒယ်အလေးချိန် ဆက်သွယ်မှုကုန်ကျစရိတ်များကို လျှော့ချပြီး ဒိုင်နမစ်နမူနာယူခြင်းက လေ့ကျင့်မှုကို တည်ငြိမ်စေရန် ဦးစားပေးချက်များကို စစ်ထုတ်ခြင်းနှင့် ဆုလာဘ်များကို ပုံသဏ္ဍာန်ဖျော်ဖြေရန် ကူညီသည်[42]။ Macaron အတွက် ဤနည်းစနစ်များသည် နောင်တစ်ချိန်တွင် မှတ်ဉာဏ်နှင့် မူဝါဒ အပ်ဒိတ်များကို ကွန်ပြူတာကုန်ကျစရိတ်များ များပြားစွာ မပေးရဘဲ အမြန်လေ့ကျင့်နိုင်သည်ကို ဆိုလိုသည်။

၈ အဖွဲ့သားများအတွက် လုပ်ငန်းစဉ်: Sonnet 4.5 နှင့် DeepSeek ကို Macaron ထဲသို့ ပေါင်းစပ်ခြင်း

Macaron ဖြင့် မီနီအက်ပ် တစ်ခု ဖန်တီးရန် လုပ်ငန်းစဉ်အဆင့်များမှာ:

  • ရည်ရွယ်ချက်နားလည်ခြင်း - Macaron က အသုံးပြုသူရဲ့ တောင်းဆိုချက်ကို ချိန်ညှိပြီး လိုအပ်သော အစိတ်အပိုင်းများကို (ဥပမာ၊ ဒေတာအရင်းအမြစ်များ၊ UI အစိတ်အပိုင်းများ၊ ပြင်ပ API များ) အသိအမှတ်ပြုသည်။ Sonnet 4.5 ၏ ညွှန်ကြားချက်အကောင်းဆုံးလိုက်နာမှုက တိကျသော ရည်ရွယ်ချက်ကို ထုတ်ယူပြီး အဆင့်ဆင့် အကောင်အထည်ဖော်ရေးဆွဲရာတွင် အထောက်အကူပြုသည်။ V3.2‑Exp က အသုံးပြုသူရွေးချယ်စရာအတွက် အလျင်မြန်ဆုံး ရည်ရွယ်ချက်များကို ပုံတူဆွဲနိုင်သည်။
  • ပရိုဂရမ်းထုတ်လုပ်ခြင်း - ကိုယ်စားလှယ်သည် Claude Agent SDK ကိုအသုံးပြု၍ ကုဒ်များထုတ်ပေးခြင်း၊ စရင်းကိုရှာဖွေနိုင်ခြင်း၊ ဖိုင်တမ်းများကို ဖတ်ခြင်းနှင့် ဖိုင်အသစ်များရေးခြင်းတို့ကို ပြုလုပ်သည်။ အဖွဲ့ဝင်များသည် ရှေ့ဖျက် (React) သို့မဟုတ် နောက်ခံ (Python) တွင် အထူးပြုနိုင်ပြီး အကြောင်းအရာစီမံခန့်ခွဲမှုက မှတ်ဉာဏ်ကို မလွန်ကျူးဘဲ မှန်ကန်သောကုဒ်ကို ရရှိစေသည်။ Sonnet 4.5 ၏ အကြာမြင့်အကြောင်းအရာနှင့် ကုဒ်ပြန်လည်ပြုပြင်နိုင်စွမ်းက ပိုမိုသန့်ရှင်းသော၊ ထိန်းသိမ်းရလွယ်သော ပရိုဂရမ်းများကို ထုတ်လုပ်စေပြီး၊ V3.2‑Exp က ပထမဆုံးမူကြမ်းကို အလျင်မြန်ဆုံး ပြုလုပ်နိုင်သည်။
  • သုံးစွဲမှုကန့်သတ်ခြင်း - ထုတ်ထားသော ကုဒ်ကို လုံခြုံသော ပတ်ဝန်းကျင်တွင် ပြုလုပ်သည်။ ကိုယ်စားလှယ်သည် အမှတ်တရများကို ဖတ်၍ အမှားများကို ဖမ်းယူကာ အဆင့်ဆင့်ပြုပြင်သည်။ သက်သေပြချက်များက လုံခြုံသော ရှောင်လွှဲမှုများကို ပံ့ပိုးပေးပြီး၊ RL ဆုချမှတ်များက စမ်းသပ်မှုများအောင်မပြေသော ကုဒ်ကို ဒဏ်ရာဖြစ်စေသည်။ Macaron သည် Agent SDK ၏ bash နှင့် web fetch ကိရိယာများကို အသုံးပြု၍ ပြင်ပဝန်ဆောင်မှုများကို ပေါင်းစပ်စမ်းသပ်မှုများကိုလည်း ပြုလုပ်နိုင်သည်။
  • အပြန်အလှန်နှင့် ပြုပြင်ခြင်း - ကိုယ်စားလှယ်သည် Macaron ၏ ဆွေးနွေးမှုမျက်နှာပြင်မှတစ်ဆင့် မီနီအက်ပ်ကို အသုံးပြုသူအား တင်ပြသည်။ မှတ်ဉာဏ်အင်ဂျင်သည် ဆွေးနွေးမှုကို သိမ်းဆည်းပြီး နောင်တွင် အကြောင်းအရာကို စိစစ်ရန် RL ကို အသုံးပြုသည်။ အသုံးပြုသူ၏ အကြံပြုချက်များသည် ဆုချမှတ်ကို အပ်ဒိတ်လုပ်ပြီး နောင်တွင် ထုတ်လုပ်မှုများကို သက်ရောက်စေသည်။

Sonnet 4.5 နဲ့ DeepSeek V3.2-Exp ကို ပေါင်းစပ်ခြင်းဖြင့် Macaron ကဒီလုပ်ငန်းစဉ်ကို ကိုယ်ရေးကိုယ်တာဖန်တီးနိုင်ပါတယ်။ ဥပမာ၊ ခရီးထွက်စီစဉ်တဲ့အက်ပ်မှာ UI ဖန်တီးသူ ကိုယ်စားလှယ်က DeepSeek ကိုသုံးပြီး အပြင်အဆင်တွေကို မြန်မြန်ဆန်ဆန် တင်ပြနိုင်ပြီး၊ စီစဉ်မှု လိုဂစ်နဲ့ အချိန်ဇယား ကောင်းမွန်မှုကို Sonnet 4.5 အသုံးပြုကာ ပြောဆိုမှုတိကျမှုနဲ့ ပြဿနာကောင်းမွန်စွာ ကိုင်တွယ်နိုင်ပါတယ်။ ဘဏ္ဍာရေးခန့်မှန်း အက်ပ်က DeepSeek ကို ပထမဆုံး ဇယားတွေ နဲ့ အချိန်ဇယားတွေ ရေးဆွဲဖို့ အားထားသော်လည်း Sonnet 4.5 ကို အသုံးပြုပြီး ဘဏ္ဍာရေးတွက်ချက်မှုများကို စိစစ်ခြင်း နှင့် စည်းမျဉ်းများနှင့် ကိုက်ညီမှုကို သေချာစေရန် အသုံးပြုသည်။

တိုးတက်မှုများ၏ ရုပ်ပုံဖော်ပြချက်

ဒီနည်းပညာတွေက ပေးတဲ့ အကျိုးကျေးဇူးတွေကို ဖျော်ဖြေရန် အောက်ပါဇယားတွေက အဓိကပြည့်စုံမှုများကို အကျဉ်းချုပ်ထားပါတယ်။Blog image

ပုံ ၂ – Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp တို့၏ ကုဒ်ရေးသားမှုတိကျမှု၊ အ-relative အမြန်နှုန်း၊ ကုန်ကျစရိတ်နှင့် ကိုယ်ပိုင်လွတ်လပ်မှုတို့ကို နှိုင်းယှဉ်ကြည့်ခြင်း။ အမြင့်ဆုံးဘားများသည် တိကျမှုနှင့် ကိုယ်ပိုင်လွတ်လပ်မှုအတွက် ပိုမိုကောင်းမွန်သောတန်ဖိုးများကို ကိုယ်စားပြုသည်။ နိမ့်သောဘားများသည် ထိရောက်မှုနှင့် ကုန်ကျစရိတ်အတွက် ပိုမိုကောင်းမွန်သော (မြန်ဆန်သော်လည်း သက်သာသော) စွမ်းဆောင်ရည်ကို ဖော်ပြသည်။Blog image

ပုံ ၃ – Replit ၏ ပြည်တွင်းစံချိန်များအရ Sonnet 4 တွင် ၉% ရှိသည့် ကုဒ်တည်းဖြတ်မှုအမှားများသည် Sonnet 4.5 တွင် သုညသို့ ကျဆင်းသွားခြင်းကို ပြသသည်။ အညွှန်းအတိုင်း လိုက်နာမှုအား မြှင့်တင်ခြင်းနှင့် ကုဒ်ပြန်ဖွဲ့စည်းမှုနှင့်အတူ ပိုမိုယုံကြည်ရသော မီနီအက်ပ်များဖြစ်လာသည်။Blog image

ပုံ ၄ – DAPO နှင့် LoRA ကို All‑Sync RL ပိုက်လိုင်းတွင် ပေါင်းစပ်သုံးခြင်းသည် လေ့ကျင့်မှုအဆင့်တစ်ခု၏ နာရီကို ၉ နာရီမှ ၁.၅ နာရီအထိ လျော့ချပေးပြီး[၄၁]* ဆုဖြစ်စေရေး မော်ဒယ်နှင့် မှတ်ဉာဏ်မူဝါဒများကို မြန်မြန်စွာ အပ်ဒိတ်လုပ်ရန် အခွင့်အလမ်းပေးသည်။*

ဤရုပ်ပုံများသည် အကျိုးကျေးဇူးများသည် သီအိုရီအဖြစ်မဟုတ်ကြောင်း အထောက်အထားပေးသည်။ GPU လိုအပ်ချက်များလျော့နည်းခြင်း၊ လေ့ကျင့်မှုမြန်ဆန်ခြင်း၊ တိကျမှုမြင့်မားခြင်းနှင့် ကုန်ကျစရိတ်နည်းခြင်းတို့သည် မီနီအက်ပ်ပိုက်လိုင်းကို ပိုမိုချောမွေ့စေရန်နှင့် ထိရောက်မှုမြင့်စေရန် အားပေးပြုလုပ်သည်။

အနာဂတ် လမ်းကြောင်း ၁၀ ခု

လာမည့်အချိန်တွင် Anthropic နှင့် DeepSeek နှစ်ခုလုံးမှာ ပိုမိုမြင့်မားသော အဆောက်အအုံများကို ရှုမြင်နေကြောင်း အစအနများပြထားကြသည်။ Sonnet 4.5 ၏ ဆက်ခံအဆက်သည် ပိုမိုကျယ်ပြန့်သော အကြောင်းအရာပြကြားမှုများ၊ ဘာသာစကားများအတွက် အကြောင်းအရာကို တိုးချဲ့ခြင်းနှင့် ပိုမိုစတင်နှောင့်ယှက်မှုများကို ပံ့ပိုးနိုင်သည်။ DeepSeek ၏ နောက်မျိုးဆက် အဆောက်အအုံသည် ကြည်လင်သော အာရုံစိုက်မှုကို အခြေခံ၍ ပိုမိုမြင့်မားသော လုပ်ဆောင်ချက်များကို နည်းဆုံးကုန်ကျစရိတ်ဖြင့် ရရှိစေရန် မျှော်လင့်ထားသည်[31]။ Macaron အတွက်၊ ကိုယ်တိုင်စိုက်ထူမှတ်ဉာဏ်သက်တမ်းရှည်လေ့လာမှု နှင့် ဘာသာစကားဖြတ်ကျော်ညှိနှိုင်းခြင်းတို့ကို ပိုမိုကောင်းမွန်စေရန်ဆန်းစစ်ချက်များ ဆောင်ရွက်နိုင်သည်[43]ဖက်ဒရယ်လေ့လာမှုကို ပေါင်းစပ်ခြင်းက အသုံးပြုသူများကို အမှတ်ဉာဏ်မော်ဒယ်များကို ဒေသတွင်းတွင် လေ့ကျင့်ခွင့်ပြုပြီး မော်ဒယ်အဆင့်မြှင့်တင်မှုများကိုသာ မျှဝေခြင်းဖြင့် ပိုင်ဆိုင်မှုကို ထိန်းသိမ်းရင်း ပေါင်းစပ်လုပ်ဆောင်ချက်များကို တိုးတက်စေရန် အထောက်အကူဖြစ်စေသည်[43]။ RL ဘက်တွင်၊ Macaron ၏ လုပ်ဆောင်မှုသည် အကြောင်းပြချက်များကို ပေးရန် နာမည်ကြီးသီအိုရီများ – ပရဟိတဝါဒ၊ တရားဥပဒေကျင့်သုံးမှု၊ သင်္ကေတကျင့်ဝတ်တို့ကို ပေါင်းစပ်အသုံးပြုနိုင်သည်[44]

အနှစ်ချုပ်, Macaron သည် Claude Sonnet 4.5 နှင့် DeepSeek V3.2-Exp ကို Claude Agent SDK ဖြင့် ချိတ်ဆက်ရန် ဆုံးဖြတ်မှုကြောင့် ကိုယ်ပိုင် AI ၏ နောက်ဆုံးထိပ်သီးတွင် ရပ်တည်ထားသည်။ Sonnet 4.5 သည် အနန္တအရည်အသွေး၊ တိုးတက်သော ကိုယ်ပိုင်အုပ်ချုပ်မှုနှင့် သုံးစွဲသူအတွက် အထူးကိရိယာများကို ပေးစွမ်းသည်။ DeepSeek သည် အမြန်နှုန်း၊ ထိရောက်မှုနှင့် ဖွင့်လှစ်ရင်းမြစ်အလွယ်တကူပြုပြင်နိုင်မှုကို ပေးသည်။ Macaron ၏ လှည့်ကြိုးသင်ကြားမှုနည်းစနစ်များနှင့် မှတ်ဉာဏ်အင်ဂျင်ကို အတူတကွပေါင်းစပ်ထား၍ မီနီအက်ပ်များကို ပိုမိုလျင်မြန်စွာ၊ ချောမွေ့စွာ တည်ဆောက်ရန်နှင့် အမှားများ လျော့နည်းစေရန် ကူညီပေးမည်ဖြစ်သည်။ ကိုယ်ပိုင် AI က ဆက်လက်တိုးတက်နေသည့်အခါ Macaron ၏ ကိုယ်ပိုင်အုပ်ချုပ်မှု၊ လုံခြုံမှု၊ သီလနှင့် ထိရောက်မှုတို့၏ ပေါင်းစပ်မှုသည် တာဝန်ရှိသော ဖန်တီးမှုအတွက် နမူနာ ဖြစ်သည်။


[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Macaronရဲ့မှတ်ဉာဏ်အင်ဂျင်အတွင်း၊ဖိသိပ်ခြင်း၊ယူဆောင်ခြင်းနှင့်ဒိုင်းနမစ်ဂိတ်တံခါးများ - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [ခေါင်းစဉ် မသိရသေးပါ]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Claude Code ရဲ့ SDK နဲ့ အေးဂျင့်တွေ တည်ဆောက်ခြင်း

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: လက္ခဏာများ၊ စျေးနှုန်းနှင့် နှိုင်းယှဉ်ခြင်း - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] AI နဲ့ AI: DeepSeek-3.2-Exp နဲ့ DSA – Champaign မဂ္ဂဇင်း

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] China's DeepSeek သည် နောက်မျိုးဆက်သို့ ဦးတည်သည့် 'အလယ်အလတ်' AI မော်ဒယ်ကို ထုတ်ပြန်သည် | Reuters

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/

[39] [40] [41] [42] MIND LABS | DAPO နှင့် LoRA နှင့်အတူ All-Sync RL ကို တိုးချဲ့ခြင်း

https://mindlabs.macaron.im/

Nora is the Head of Growth at Macaron. Over the past two years, she has focused on AI product growth, successfully leading multiple products from 0 to 1. She possesses extensive experience in growth strategies.

Apply to become Macaron's first friends