စာရေးသူ: Boxu Li 

Macaron AI က ထုံးစံထုတ်လုပ်မှုကိရိယာတစ်ခုသာမကပဲ မိမိတို့စကားပြောဆိုမှုများကို ပြေးလမ်းအကွက်သေးသေးလေးများအဖြစ်ပြောင်းလဲပေးသော ပလက်ဖောင်းတစ်ခုဖြစ်သည်။ ၎င်းသည် ပြက္ခဒိန်များကိုစီမံခန့်ခွဲခြင်း၊ ခရီးစဉ်များကိုစီစဉ်ခြင်းနှင့် ဝါသနာများကိုလေ့လာခြင်းတို့ကို လုပ်ဆောင်ပေးသည်။ ရင်းနှီးသောမျက်နှာပြင်အောက်တွင် အထူးပြု reinforcement learning (RL) စနစ်နှင့် သတိရစွမ်းရည်ရှိသော memory engine တစ်ခုရှိပြီး အရေးကြီးသောအရာများကို သတိရပြီး အရေးမကြီးသောအရာများကို မျောက်မနေစေပါ။ Macaron သည် Claude Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp ကို Claude Agent SDK/Code 2.0 နှင့်အတူ ပေါင်းစပ်ရန် ပြင်ဆင်နေစဉ်၊ ဤဘလော့ဂ်သည် ဤမော်ဒယ်အသစ်များနှင့် ကိရိယာများက Macaron ၏ ထုတ်ကုန်အရည်အသွေးကို မြှင့်တင်ပေးခြင်း၊ အကွက်သေးသေးလေးများဖန်တီးခြင်းကို လျှော့ချပေးခြင်းနှင့် အမှားများကို လျှော့ချပေးခြင်းတို့ကို မည်သို့ ပြုလုပ်နိုင်သည်ကို လေ့လာပါသည်။ Anthropic ၏ ဖွံ့ဖြိုးရေးအပ်ဒိတ်များ၊ DeepSeek သုတေသနများနှင့် Macaron ၏ ကိုယ်ပိုင် အင်ဂျင်နီယာဘလော့ဂ်များမှ နည်းပညာဆိုင်ရာ အမြင်များကို ပေါင်းစပ်၍ အနာဂတ်မှာ ဘာတွေဖြစ်နိုင်မလဲဆိုတာကို ရှင်းလင်းသော ပုံရိပ်တစ်ခု ဆွဲဆောင်ပါသည်။

1 Macaron ၏ အတွင်းအင်ဂျင်: RL၊ သတိနှင့် စည်းမျဉ်းများ

မော်ဒယ်များကိုနှိုင်းယှဉ်မီ Macaron ၏ထူးခြားချက်ကိုနားလည်ရန် အထောက်အကူဖြစ်သည်။ Macaron သည် အဆင့်များစွာပါဝင်သည့် RL စနစ် ကိုအသုံးပြု၍ အပျော်တမ်းစကားပြောဆိုမှုများကို လုပ်ဆောင်ရန်နှင့် ကုဒ်သို့ပြောင်းလဲသည်။ ယင်းစနစ်သည် ပြဿနာကို စကားပြောစီမံခန့်ခွဲမှု၊ မှတ်ဉာဏ်ရွေးချယ်မှု၊ ကုဒ်ပေါင်းစပ်ခြင်းနှင့် မျက်မြင်တုံ့ပြန်မှု အစိတ်အပိုင်းများအဖြစ် ခွဲခြားပြီး အဆင့်လိုက်ရောထွေးမှုအတိုးတက်မှုလေ့လာမှု (HRL) ကို အသုံးပြု၍ ထိန်းချုပ်သည်[2]။ အဆင့်မြင့် meta-controller သည် ဘယ်နှစ်ခု module ကို နောက်တစ်ခုအဖြစ် အကောင်အထည်ဖော်ရမည်ကို ဆုံးဖြတ်ပေးပြီး အဆင့်နိမ့် RL မူဝါဒများသည် မှတ်ဉာဏ်တစ်ခုကို ပြန်လည်ယူခြင်း၊ API ကို ခေါ်ခြင်း သို့မဟုတ် ဖန်တီးထားသော ကုဒ်ကို အကောင်အထည်ဖော်ခြင်း စသည်တို့ကို ဆုံးဖြတ်ပေးသည်[2]။ ဒီဒီဇိုင်းက Macaron ကို ခရီးစီမံခန့်ခွဲခြင်းမှ စီးပွားရေးစီမံခန့်ခွဲခြင်းအထိ တိုးတက်သော ရည်မှန်းချက်များကို စီစဉ်နိုင်စေရန် အခွင့်အလမ်းပေးသည်။

1.1 Reward modelling and human feedback

ပုဂ္ဂိုလ်ရေး AI တွင် တစ်ခုထဲသော “အောင်မြင်မှု အခြေအနေ” မရှိပါ။ အသုံးပြုသူကျေနပ်မှု၊ ကိုယ်ရေးကိုယ်တာအချက်အလက် ကာကွယ်မှု၊ အချိန်နှင့်ယှဉ်တွဲမှုနှင့် ယဉ်ကျေးမှုဆိုင်ရာ အနုမြူများ အားလုံးက အရေးကြီးသည်။ Macaron သည် အမြင်တစ်ခုနှင့် အလှည့်ကျပြန်ကြားမှု ကိုပေါင်းစည်းခြင်းဖြင့် ၎င်း၏ အကျိုးအမြတ် လုပ်ဆောင်ချက်ကို တည်ဆောက်သည်။ အမြင်သင်္ကေတများတွင် စကားပြောချိန်အရှည်၊ အသုံးပြုမှုအကြိမ်ရေနှင့် အသံထွက်ကို ရှာဖွေခြင်းပါဝင်သည်။ သို့သော် အထက်တန်းသတ်မှတ်ချက်များနှင့် လက်မထပ်နှိပ်ချက်များသည် ကြိုက်နှစ်သက်မှုများကို ချိန်ညှိရန် အကူအညီဖြစ်သည်[3]။ Macaron သည် ကြိုက်နှစ်သက်မှု အတည်ပြုခြင်း ကိုလည်း အသုံးပြုပြီး အခြားတုံ့ပြန်မှုများ သို့မဟုတ် အက်ပ်ဒီဇိုင်းများကို ပြသပြီး အသုံးပြုသူများထံမှ ဘယ်အရာကို ကြိုက်နှစ်သက်ကြောင်း မေးမြန်းသည်။ ထိုအခါ အတုယူရန် မော်ဒယ်တစ်ခုသည် အလားအလာရှိသော လုပ်ဆောင်ချက်များအပေါ်တွင် လျှို့ဝှက် အကျိုးသက်ရောက်မှု လုပ်ဆောင်ချက်ကို လေ့လာနိုင်ပြီး လူမှ ပြန်ကြားလာသော အကျိုးသက်ရောက်မှု (RLHF) ကဲ့သို့သော် ယဉ်ကျေးမှု အညွှန်းများဖြင့် တိုးချဲ့ထားသည်။ ဥပမာအားဖြင့် ဂျပန် အဆင့်သတ်မှတ်သူများသည် ယဉ်ကျေးမှုနှင့် အကြောင်းအရာကို အလေးထားပြီး ကိုရီးယား အဆင့်သတ်မှတ်သူများသည် လူစုလူဝေးနှင့် တစ်ကိုယ်ရည် ဖွဲ့စည်းချက်များကို အထူးပြုသည်[4]။ ဤသင်္ကေတများသည် အသုံးပြုသူကျေနပ်မှုကို ခန့်မှန်းနိုင်သည့် အကျိုးအမြတ် မော်ဒယ်အတွင်း ထည့်သွင်းပြီး ဒေသတွင်း စံနှုန်းများကို လိုက်နာရန် ကိုယ်စားလှယ်အား လှုံ့ဆော်သည်။

1.2 Hierarchical RL နှင့် မာခရို-လုပ်ဆောင်ချက်များ

အသုံးပြုသူအလုပ်များကို စီမံရန်အတွက် Macaron သည် HRL ကို အသုံးပြုပြီး module များနှင့် sub-policy များကို ရွေးချယ်သည်။ module များအတွင်းတွင် options framework ကို အသုံးပြုသည်။ အလုပ်တစ်ခု၏ sub-goal ကို ရှာဖွေရန် လုပ်ဆောင်ချက်များ စဉ်လိုက်ပြုလုပ်ခြင်းကို ရွေးချယ်ချက်တစ်ခုအဖြစ် ဆင်ခြင်သည် (ဥပမာ - “ပြီးခဲ့သည့်လ၏ စရိတ်များကို ခန့်မှန်းသည်” သို့မဟုတ် “နှစ်မျိုးဘာသာ သင်ယူမှုအစီအစဉ် တိုက်တွန်းသည်”) [3]။ တစ်ခုသောနယ်ပယ်တွင် ရှာဖွေတွေ့ရှိသော ရွေးချယ်ချက်များကို အခြားနယ်ပယ်များသို့ အခြေခံဖွဲ့စည်းမှုများကို လိုက်ဖက်မူရှိလျှင် လွှဲပြောင်းနိုင်သည်။ Macaron သည် macro-actions ကိုလည်း သတ်မှတ်ပြီး အချိန်ကြာမြင့်သော စကားဝိုင်းများ သို့မဟုတ် ကြာမြင့်သောတွက်ချက်မှုများကို ပါဝင်သည်၊ ဥပမာ - မိသားစုအပန်းဖြေရေးစီစဉ်ခြင်း (သွားရောက်ရမည့်နေရာ၊ သယ်ယူပို့ဆောင်မှု၊ တည်းခိုရန်နေရာနှင့် အစီအစဉ်)[3]။ RL အေးဂျင့်များသည် macro-actions ကို ရာထူးဆက်စပ်ဆုကြေးစားအရည်အချင်းအပေါ် အခြေခံပြီး ကြာမြင့်သော စိတ်ကျေနပ်မှုကို အထူးပြုလုပ်ရန် အေးဂျင့်ကို လှုံ့ဆော်ပေးသည်။

1.3 ခရက်ဒစ် သတ်မှတ်ခြင်းနှင့် အချိန်ကြိုးပမ်းခြင်း

ဆုလာတဲ့အခါမှာ အရည်အချင်းကို အထူးသဖြင့် လုပ်ဆောင်ချက်တွေအပေါ်မှာ ချမှတ်တာ ပြုလုပ်ရခက်တယ်။ Macaron က အချိန်ချည်နှောင်မှု ကို အသုံးပြုပြီး အချိန်တစ်လျှောက်မှာ ဖြစ်ရပ်တွေကို နောက်ခံဇာတ်ကြောင်းတွေနဲ့ ချိတ်ဆက်ပေးတယ်။ ဒီစနစ်က မှတ်ဉာဏ်တွေကို ကိုယ်စားပြုတဲ့ အမှတ်အသားတွေနဲ့ ဖြစ်ရပ်တွေဆီက causal relationships တွေကို ကိုယ်စားပြုတဲ့ သံသရာတွေကို ဖန်တီးပေးတယ်။ အကျိုးဆက်တစ်ခုကို သုံးသပ်တဲ့အခါမှာ ဒီသံသရာကို နောက်ပြန်လိုက်ပြီး ဘယ် retrievals သို့မဟုတ် လုပ်ဆောင်ချက်တွေက အားပေးခဲ့သလဲဆိုတာ ရှာဖွေနိုင်တယ်[2]။ Counterfactual reasoning က အခြားလုပ်ဆောင်ချက်တွေကို လုပ်ခဲ့ရင် ဘယ်လိုဖြစ်နိုင်မလဲဆိုတာ သုံးသပ်ပေးပြီး အောင်မြင်မှုရှိတဲ့ လုပ်ဆောင်ချက်ကို ထပ်လုပ်ရင် အမြဲတမ်း အဲဒီလိုဆုရမှာ မဟုတ်ကြောင်းကို တားဆီးပေးတယ်[2]။ Macaron က နောက်ကျတဲ့ဆုတွေကို အသုံးပြုပြီး eligibility traces တွေကို ယူပြီး အစောပိုင်းဆုံးဖြတ်ချက်တွေ – မှတ်ဉာဏ်ရွေးချယ်မှု သို့မဟုတ် ဆွေးနွေးမှုအသံ – ဆီမှာပြန်ဖြန့်ပြီး အေးချမ်းမှုအရှည်ရှည်ရှိအောင် agent ကို အားပေးတယ်[5]

1.4 တရားမျှတမှု၊ လုံခြုံရေးနှင့် သဗ္ဗမင်္ဂလ

ကိုယ်ပိုင် AI ကိုယ်စားလှယ်များသည် ဘက်လိုက်ခြင်းကိုရှောင်ရှားရမည်ဖြစ်ပြီး စည်းမျဉ်းများနှင့် ကိုက်ညီရမည်။ Macaron သည် တရားမျှတမှုကန့်သတ်ချက်များကို ဆုချအလုပ်ထဲတွင် ထည့်သွင်းထားသည်။ ဥပမာအားဖြင့် ကိုယ်စားလှယ်သည် မေးမြန်းခြင်းမရှိဘဲ လိင်အခြေပြု လှုပ်ရှားမှုများကို ဆက်လက်အကြံပြုပါက ဒဏ်ငွေကျခံရမည်[5]သဗ္ဗမင်္ဂလမူဝါဒစာကြည့်တိုက်သည် ယဉ်ကျေးမှုစံနှုန်းများနှင့် တရားဥပဒေလိုအပ်ချက်များကို ကူးယူထားပြီး ဤလမ်းညွှန်ချက်များကို ချိုးဖျက်ပါက အနုတ်ဖြစ်သော ဆုချမှတ်အဖြစ် သတ်မှတ်ထားခြင်း သို့မဟုတ် လုပ်ဆောင်ချက်ကို အပြည့်အဝပိတ်ပင်ထားပါသည်[5]။ လူ့အကြီးအကဲသည် ဘဏ္ဍာရေးအစီအစဉ်ရေးဆွဲခြင်း သို့မဟုတ် ကျန်းမာရေးစောင့်ရှောက်မှုအကြံဥာဏ်စသည့် အကြီးစားဆုံးဖြတ်ချက်များတွင် ပါဝင်ပြီး ကိုရီးယား AI စနစ်ဆိုင်ရာဥပဒေနှင့် ဂျပန်၏ AI မြှင့်တင်ရေးဥပဒေနှစ်ခုလုံးကို ပြည့်မီစေပါသည်[5]။ Macaron သည် RL ဆုံးဖြတ်ချက်များကို မှတ်တမ်းတင်ပြီး သုံးစွဲသူများကို အချို့သော မှတ်ဉာဏ်များ သို့မဟုတ် မော်ဂျူးများကို ရွေးချယ်ခဲ့သော အကြောင်းရင်းများကို ရှင်းပြပေး၍ စစ်ဆေးမှုများနှင့် ထင်ရှားမှုများကို ပံ့ပိုးပေးပါသည်[5]

1.5 မှတ်ဉာဏ်အင်ဂျင်: ဖိသိပ်မှု၊ ပြန်လည်ရယူမှုနှင့် သတ်မှတ်ခြင်း

Macaron ၏ မှတ်စုအင်ဂျင်သည် ပုဂ္ဂိုလ်ရေးဖျော်ဖြေရေး၏ အခြေခံရုတ်တရက်ဖြစ်သည်။ ၎င်းသည် မှတ်ဉာဏ်များကို တိုတောင်းသည့်၊ အပိုင်းပိုင်းနှင့် ရေရှည်သိုလှောင်မှုများ အဖြစ် စီမံသည်။ တိုတောင်းသည့် သိုလှောင်မှုသည် လက်ရှိ ဆွေးနွေးမှု (8–16 မက်ဆေ့ခ်ျများ) ကို ထိန်းသိမ်းသည်; အပိုင်းပိုင်းသိုလှောင်မှုသည် နောက်ဆုံး ပြုလုပ်ခဲ့သော လုပ်ဆောင်မှုများကို ချုံ့ထားသော ဂရုတစိုက်မှုဖြင့် ထိန်းသိမ်းသည်; ရေရှည်သိုလှောင်မှုသည် metadata အမှတ်အသားများ (အချိန်, နယ်ပယ်, ဘာသာစကား) ဖြင့် အမြင့်အတိုင်းအတာ ဗက်တာဒေတာဘေ့စ်ကို အသုံးပြုသည်[6]။ ကုန်ကျစရိတ်ကို စီမံရန်၊ Macaron သည် latent summarisation ကို အသုံးပြု၍ အရေးပါသော အပိုင်းများကို သတ်မှတ်ပြီး တိကျသည့် အရှည်ရှိ ဗက်တာများအဖြစ် ချုံ့ထားသည်; autoencoding ရည်ရွယ်ချက်သည် ချုံ့ထားသော အကျဉ်းချုပ်များမှ ဖုံးကွယ်ထားသော အခြေအနေများကို ပြန်လည်တည်ဆောက်ပြီး RL သည် နောက်ပိုင်းမှတ်မိမှုအတွက် အရေးပါသော အချက်အလက်များကို ထိန်းသိမ်းရန် အကျဉ်းချုပ်ရေးသူကို ပြုပြင်သည်[7]dynamic memory token သည် pointer network အဖြစ် လုပ်ဆောင်သည်: ၎င်းသည် ဝင်ရောက်လာသော မှတ်ဉာဏ်များကို ရှာဖွေ၍ သက်ဆိုင်မှုကို ဖျော်ဖြေရန် သုံးသပ်ပြီး ပြန်လည်ပေးပို့ရန် သို့မဟုတ် ဆက်လက် ရှာဖွေရန် ဆုံးဖြတ်သည်[8]

အမှန်တကယ်နီးစပ်သောအနီးဆုံးအကျိုးရှိမှုကိုထုတ်ယူခြင်းသည် ထုတ်ကုန်အရည်အသွေးဖြင့်အနီးကပ်စီစဉ်ခြင်းနှင့် အများဆုံးနားလည်မှုစွမ်းရည်ကိုအသုံးပြုခြင်းဖြင့် တူညီမှုနှင့် ပြောင်းလဲမှုကိုချိန်ညှိသည်။ [9] မေးခွန်းတိုးချဲ့ခြင်းသည် အသုံးပြုသူ၏ရည်မှန်းချက်နှင့် ဖြစ်တည်သောရည်ရွယ်ချက်ကို အသုံးပြုသည်။ ဥပမာ၊ ဂျပန်အတွက် "花火大会" (မီးရှူးပွဲ) ကိုပွဲလက်မှတ်၊ ရက်စွဲနှင့် မိုးလေဝသကိုအပါအဝင်တိုးချဲ့ပါသည်။ [10] သက်ဆိုင်မှုပေါင်းစည်းခြင်းသည် ချိတ်ဆက်ထားသောမေးခွန်းများကို ကိုင်တွယ်ပါသည်။ ဒိုမိန်းများနှင့် ဘာသာစကားများအနှံ့ ပြန်လည်ယူခြင်းဖြစ်နိုင်ချေရရှိမှုကို ဖြန့်ဝေရန် softmax သော့ခတ်လုပ်ဆောင်ချက်ကိုအသုံးပြုသည်။ [11] ဤအစိတ်အပိုင်းများကို RL ဖြင့်လေ့ကျင့်ပြီး အချိန်လည်ပတ်မှုမှတဆင့် အကျိုးရှိသောမှတ်ဉာဏ်များကို အေးဂျင့်သိရှိအောင် သင်ယူရန် ချီးမြှင့်ချက်ပေးခြင်းကို လုပ်ဆောင်သည်။ [12] Macaron ၏ မှတ်ဉာဏ်စနစ်သည် ရိုးရိုးပြန်လည်ယူဆောင်မှုဖြင့်ထုတ်လုပ်ခြင်း (RAG) နှင့် ကွာခြားပါသည်။ အမှတ်များသည် အသုံးပြုသူအထူးဖြစ်ပြီး သိမ်းဆည်းခြင်းနှင့်ပြန်လည်ယူဆောင်ခြင်းကို RL ဖြင့် လမ်းညွှန်သည်။ အမှတ်တစ်ခုစီတွင် သီးသန့်သုံးနိုင်မှုကို စီမံခန့်ခွဲသော ကိုယ်ရေးမှတ်တမ်းများပါဝင်သည်။ [13].

၂ Claude Agent SDK နှင့် Claude Code 2.0

Macaron ၏အတွင်းဖွဲ့စည်းမှုသည် ခိုင်ခံ့သော်လည်း mini‑apps တည်ဆောက်ရန်အတွက် ဖိုင်များကို ဖတ်ခြင်းနှင့် ရေးခြင်း၊ ကုဒ်ကို အကောင်အထည်ဖော်ခြင်း၊ ဗားရှင်းထိန်းချုပ်ခြင်းနှင့် ဝဘ် API များနှင့် လက်တွေ့ပြုလုပ်ခြင်းကို လိုအပ်ပါသည်။ Anthropic ၏ Claude Agent SDK သည် အတိအကျသောစွမ်းရည်များကို ပေးစွမ်းပြီး Claude Code ၏ terminal assistant ကို အားဖြည့်ပေးသော agent harness ကိုဖော်ထုတ်ပါသည်[14]။ ၎င်းသည် ဖိုင်လုပ်ဆောင်မှုများ (ဖတ်ခြင်း၊ ရေးခြင်း၊ grep၊ glob)၊ bash အမိန့်များ၊ ဝဘ် fetch၊ ဘာသာစကားများစွာ၏ ကုဒ်အကောင်အထည်ဖော်ခြင်း၊ Git လုပ်ဆောင်မှုများ စသဖြင့် စနစ်တကျထုတ်ပေးပါသည်[15]။ ကုဒ်အခြေခံကို ကြိုတင်အညွှန်းပြုလုပ်သော အကူအညီများနှင့် မတူဘဲ၊ Claude agents များသည် grep/find/glob ကို အသုံးပြု၍ ဖိုင်များကို ရှာဖွေရာတွင် လိုအပ်သည့်အချိန်တွင် ရှာဖွေကြပြီး dynamic repos များတွင် ပိုမိုထိရောက်သော နည်းလမ်းများဖြစ်စေသည်[16]။ SDK သည် အကြီးစားအကြောင်းအရာဝင်းဒိုးများနှင့် အလိုအလျောက်ချုံ့ခြင်းနှင့် အနှစ်ချုပ်ရေးခြင်း ပါဝင်ပြီး agent များကို စကားလုံးကန့်သတ်ချက်များမရှိဘဲ အရေးကြီးသော ကုဒ်အကြောင်းအရာများကို ထိန်းသိမ်းရန် ခွင့်ပြုသည်[17]။ Developer များသည် ခွင့်ပြုထားသော ကိရိယာများနှင့် ခွင့်ပြုချက် mode များကို သတ်မှတ်နိုင်ပြီး လုံခြုံရေးအတွက် hooks များကို ထည့်သွင်းနိုင်ပြီး guardrails များဖြင့် အလွတ်တန်းဖြစ်စေသည်[18]

SDK ၏ အခြေခံအဆောက်အအုံများ

  1. Tools - SDK သည် အင်ဂျင်နီယာများကို အေးဂျင့်အတွက် ရနိုင်သော ကိရိယာများ (file I/O, bash, web fetch, code execution) ကို ရွေးချယ်ခွင့်ပြုသည်[19]
  2. MCP extensions - Model Context Protocol နှင့် ပေါင်းစည်းခြင်းသည် အပြင်ပန်းဆာဗာများ (databases, email search, vector search) ကို ကိရိယာများကို မြှင့်တင်ရန် ခွင့်ပြုသည်[20]
  3. Sub‑agents - .claude/agents တွင် သတ်မှတ်ထားသော အေးဂျင့်များတွင် သူတို့၏ ကိုယ်ပိုင် စနစ် အစီရင်ခံချက်များ၊ ကန့်သတ်ထားသော ကိရိယာများနှင့် ရွေးချယ်နိုင်သော မော်ဒယ် ရွေးချယ်မှု ရှိသည်။ အလုပ်များကို အဆိုပါ sub‑agents များထံ ပေးအပ်နိုင်သည်[21]
  4. Memory & project context - အမြဲတမ်းရှိနေသော scratchpad (CLAUDE.md) သည် အစည်းအဝေးများအထိ အခြေအနေကို ထိန်းသိမ်းထားပြီး repo‑level configuration ကို လေးလေးနက်နက် ထိန်းသိမ်းသည်[22]
  5. Context management & runtime - အလိုအလျောက် အခြေအနေကို လျှော့ချပေးခြင်း၊ streaming ဖြေကြားမှုများနှင့် typed error handling သည် အချိန်ကြာရှည်သော အလုပ်များကို လွယ်ကူစွာ လုပ်ဆောင်နိုင်ရန် ကူညီသည်[23]

Claude Code 2.0 တွင် ထည့်သွင်းထားသော အင်္ဂါရပ်အသစ်များ

Claude Code 2.0 သည် developer များအတွက် အသုံးပြုရလွယ်ကူသော အပ်ဒိတ်များကို ပြန်လည်အသစ်ပြုလုပ်ထားပါသည်။ checkpoints သည် developer များအတွက် အောင်မြင်ခဲ့သော အဆင့်ဆင့်ကို သိမ်းဆည်းရန်နှင့် agent မှ အမှားအယွင်းပြုလုပ်သောအခါ ပြန်သွားရန် ခွင့်ပြုပါသည်[24]VS Code extension သည် agent ကို IDE ထဲသို့ ထည့်သွင်းထားပြီး အသစ်ပြန်လည်ပြင်ဆင်ထားသော terminal interface သည် state management ကို တိုးတက်စေပါသည်[25]။ Claude API သည် context editing နှင့် memory tool ကို ထည့်သွင်းထားပြီး agent များကို အချိန်ပိုကြာအောင် လည်ပတ်နိုင်စေရန် ချက်ချင်း context ကို ဖျက်၍ သက်ဆိုင်ရာ အပိုင်းအစများကို ပြန်လည်ယူဆောင်ပေးပါသည်[26]။ Claude ၏ app နှင့် API သည် ယခုအခါ code ကို ထုတ်လုပ်နိုင်ပြီး၊ ဖိုင်များကို ဖန်တီးနိုင်ကာ ဒေတာများကို လေ့လာနိုင်ပါသည်[27]၊ LLM ကို အပြည့်အဝ coding assistant အဖြစ် ပုံဖျက်ပြောင်းလဲနိုင်သည်။ ဒီအင်္ဂါရပ်များသည် Macaron ၏ mini-app pipeline အတွက် အထူးအရေးပါပြီး၊ အစီအစဉ် code ဖန်တီးခြင်း၊ sandbox တွင် စမ်းသပ်ခြင်း၊ အမှားပြင်ခြင်းနှင့် ပြင်ပဝန်ဆောင်မှုများနှင့် ပြန်လည်ဆက်သွယ်ခြင်းတို့ ပါဝင်သည်။

3 Claude Sonnet 4.5: အချိန်ကြာရှည်မှုမြင့်မားခြင်းနှင့် အရည်အသွေးမြင့်မားခြင်း

Claude Sonnet 4.5 သည် Anthropic ၏ coding၊ လုပ်ငန်းဆောင်တာများနှင့် ကွန်ပျူတာသုံးစွဲမှုအတွက် အပြည့်အဝ နိုင်စွမ်းရှိသော မော်ဒယ်ဖြစ်သည်။ DevOps.com တွင် Sonnet 4.5 သည် ယခင်မော်ဒယ်၏ ခုနစ်နာရီထက် ကြာရှည်သော ၃၀ နာရီကျော် ကို ကိုယ်ပိုင်အလုပ်လုပ်စွမ်းရည်ရှိသည်ဟု ဖော်ပြထားသည်။ ၎င်းသည် ညွှန်ကြားချက်များကို လိုက်နာခြင်း၊ ကုဒ်ပြုပြင်ခြင်းနှင့် ထုတ်လုပ်မှုအဆင်သင့် အထွက်များတွင် အထူးပြောင်မြောက်ပြီး လက်တွေ့ coding အလုပ်များတွင် SWE-Bench အတည်ပြုပြိုင်ဆိုင်မှုကို ဦးဆောင်သည်။ လက်တွေ့အသုံးပြုမှုတွင် အဆင့်မြှင့်တင်မှုများသည် သိသာဖြစ်သည်။ Replit ၏ ပြိုင်ဆိုင်မှုတွင် Sonnet 4 မှ Sonnet 4.5 သို့ ကုဒ်ပြုပြင်မှုမှားယွင်းမှု ၉% မှ ၀% အထိ လျှော့ချနိုင်ခဲ့သည်။ လုံခြုံရေးအသင်းများသည် အခွင့်အလမ်းလျှော့ချရန် အချိန်ကို ၄၄% ဖြတ်တောက်ပြီး တိကျမှန်ကန်မှုကို ၂၅% တိုးမြှင့်နိုင်ခဲ့သည်။ Netflix အင်ဂျင်နီယာများက Sonnet 4.5 ကို "ဆော့ဖ်ဝဲဖွံ့ဖြိုးရေးလုပ်ငန်းများတွင် ထူးချွန်ပြီး ငါတို့၏ ကုဒ်အခြေခံပုံစံများကို သင်ယူကာ တိကျသော အကောင်အထည်ဖော်မှုများ ဆောင်ရွက်ပေးနိုင်သည်" ဟု ဖေါ်ပြသည်။

Sonnet 4.5 ၏ developer tooling နှင့် မှတ်ဉာဏ် အင်္ဂါရပ်များသည် Agent SDK နှင့် ပေါင်းစပ်သည်။ မော်ဒယ်သည် အခြေအနေတည်းဖြတ်ခြင်းနှင့် မှတ်ဉာဏ် စီမံခန့်ခွဲမှု ကို ပံ့ပိုးပေးပြီး၊ အဟောင်း အခြေအနေများကို အလိုအလျောက် ရှင်းလင်းပေးပြီး သက်ဆိုင်ရာ အပိုင်းများကို ပြန်လည် ဦးတည်စေသည်[24]။ ယင်းသည် GUI များကို နှိပ်ခြင်း၊ ရိုက်ထည့်ခြင်း၊ မီနူးများနှင့် အပြန်အလှန် ဆက်ဆံခြင်းဖြင့် လမ်းကြောင်း ချမှတ်နိုင်ပြီး၊ API မရှိဘဲ ကိရိယာများကို အော်တိုလုပ်ဆောင်နိုင်စေသည်။ SDK ၏ sub‑agent architecture နှင့် checkpoints တို့နှင့် ပေါင်းစပ်၍ ယင်းသည် Macaron ကို နေ့များစွာ အတွင်း mini‑apps များကို context မရှုံးဘဲ ဖန်တီးနိုင်စေပြီး၊ လိုအပ်ပါက အမှားများကို ပြန်လည် ပြင်ဆင်နိုင်သည်။

4 DeepSeek V3.2‑Exp: စစ်မှန်သော သက်သာမှုမှတဆင့် ထိရောက်မှု

Sonnet 4.5 သည် အရည်အသွေးနှင့် ကိုယ်ပိုင်လွတ်လပ်မှုကို အာရုံစိုက်နေသော်လည်း DeepSeek V3.2‑Exp သည် ထိရောက်မှုကို အရှိန်မြှင့်သည်။ ဤမော်ဒယ်သည် DeepSeek Sparse Attention (DSA) ကို မိတ်ဆက်ပေးပြီး အာရုံစိုက်ရာတွင် အရေးကြီးဆုံးသောအချက်အချာများကိုသာ ရွေးချယ်ပါသည်။ ၎င်းသည် စုပေါင်းရှုပ်ထွေးမှုကို ² O(n²) မှ O(nk) သို့ လျှော့နည်းပေးပြီး အကြာကြီး ကြည့်ရှုရာတွင် 2–3× အမြန်ဆုံး ခန့်မှန်းနိုင်စွမ်း, မှတ်ဉာဏ်အသုံးပြုမှု 30–40 % လျှော့နည်းခြင်းနှင့် API စျေးနှုန်း 50 %+ လျှော့နည်းခြင်းကို ပေးစွမ်းပါသည်[28]။ ဤကုန်ကျစရိတ်လျှော့နည်းမှုများရှိသော်လည်း၊ V3.2‑Exp သည် ယခင် V3.1‑Terminus မော်ဒယ်နှင့် အများစုသော စံချိန်များတွင် အလားတူဖြစ်နေပါသည်[29]။ အဖွင့်အရင်းအမြစ် ထုတ်ပြန်ခြင်းကြောင့် Macaron သည် မော်ဒယ်ကို ဒေသခံအဆင့်တွင် အသုံးပြုနိုင်ခြင်း၊ ဖြည့်စွက်ပြုပြင်နိုင်ခြင်းနှင့် လမ်းကြောင်းအသစ်များကို ရှာဖွေနိုင်ခြင်းကို ခွင့်ပြုသည်[30]။ Reuters သတင်းအရ DeepSeek သည် ၎င်းကို နောက်မျိုးဆက် စနစ်သို့ ရောက်ရှိရန် အလယ်အလတ်အဆင့်အဖြစ် ကြည့်ရှုကြောင်း ဖော်ပြခဲ့ပြီး၊ DSA စနစ်သည် စရိတ်ကုန်ကျမှုကို လျှော့နည်းစေပြီး အချို့သော စွမ်းဆောင်ရည်များကို မြှင့်တင်ပေးသည်[31]၊ ၎င်း၏ ဝန်ဆောင်မှုသည် အလိုအလျောက် V3.2‑Exp သို့ အဆင့်မြှင့်ပြီး အသုံးပြုသူများအတွက် စျေးနှုန်းအကြီးအကျယ်လျှော့နည်းပေးသည်[32]

DeepSeek V3.2‑Exp သည် mixture‑of‑experts ဒီဇိုင်းကိုဆက်ခံပြီး mixed precision နှင့် multi‑head latent attention ကိုထည့်သွင်းသည်[33]။ ဒါပေမယ့် စမ်းသပ်မှုအနေအထားဖြစ်သောကြောင့် ခက်ခဲသော အကြောင်းအရင်းဆန်းစစ်မှုလုပ်ငန်းများတွင် အနည်းငယ်နောက်ပြန်လှည့်မှုများကို ပြသပြီး[34] Claude ecosystem ၏ တွဲဖက်အေးဂျင့် ကိရိယာများမပါရှိပါ။ Macaron အတွက်ဆိုရင် V3.2‑Exp သည် အလျင်အမြန်နှင့် throughput ကို အရေးကြီးစွာထားသော cost‑sensitive လုပ်ငန်းများ သို့မဟုတ် prototyping အတွက် ပိုမိုသင့်လျော်သည်။

5 Macaron အတွက် Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp နှိုင်းယှဉ်ခြင်း

Macaron သည် နှစ်မျိုးစလုံးကို ချိတ်ဆက်ရန်ဆုံးဖြတ်မှုသည် ၎င်းတို့၏အားသာချက်များနှင့်အားနည်းချက်များကို နှိုင်းယှဉ်ရန် ဖိတ်ခေါ်သည်။ အောက်ပါဇယားသည် အဓိက အင်္ဂါရပ်များကို အကျဉ်းချုပ်ထားသည်။

အင်္ဂါရပ်
Sonnet 4.5
DeepSeek V3.2‑Exp
အာရုံစူးစိုက်မှု
အရည်အသွေးမြင့် coding၊ ကြိုးပမ်းအားထုတ်မှုများ၊ ကြာရှည်စွမ်းဆောင်ရည်
အကျိုးရှိသော ကြာရှည်အကြောင်းအရာ ဖြစ်စဉ်[35]
ဖွဲ့စည်းပုံ
ကြာရှည်စွမ်းဆောင်ရည် (>30 နာရီ) နှင့် ခိုင်မာသော အညွှန်းလိုက်နာမှုရှိသော ပိုင်ဆိုင်မှုမော်ဒယ်
ကြိုးစားမှုကို လျှော့ပျော့စေသည့် အာရုံစူးစိုက်မှုနည်းပါးသော ကျွမ်းကျင်မှုများ[28]
မှတ်ဥာဏ်နှင့် အကြောင်းအရာ
ကြီးမားသော အကြောင်းအရာ ပြတင်းပေါက်များ; မှတ်ဥာဏ်ကိရိယာမှ အလိုအလျောက် မှတ်ဥာဏ်စီမံခန့်ခွဲမှု[24]
အာရုံစူးစိုက်မှုနည်းပါးခြင်းမှ ကြာရှည်အကြောင်းအရာများကို ပံ့ပိုးပေးသည်; မှတ်ဥာဏ်အသုံးပြုမှု လျှော့ချထားသည်[28]
ဖွံ့ဖြိုးတိုးတက်ရေးကိရိယာများ
အေးဂျင့် SDK သို့မဟုတ် အခြားအေးဂျင့်များ၊ စစ်ဆေးမှုများ၊ VS Code အနှောင့်အယှက်များ[36][24]
တရားဝင် SDK မရှိပါ; အခြားဖွဲ့စည်းမှုများကို ပုံစံပြင်ဆင်နိုင်သော ဖွင့်လှစ်အရင်းအမြစ်ကုဒ်၊ သို့သော် အတွင်းမှတ်ဥာဏ်ကိရိယာမပါရှိပါ
ကုန်ကျစရိတ်
Sonnet 4 နှင့် မပြောင်းလဲပဲ; $3/M input tokens နှင့် $15/M output tokens[37]
API ဈေးနှုန်း 50 %+ လျှော့ချ[38]; ကိုယ်ပိုင်ကိုယ်စီ-ပြုလုပ်သုံးနိုင်သည်
အားသာချက်များ
အမြင့်ဆုံး coding တိကျမှု (SWE‑Bench Verified 77–82 %), ကြာရှည်စွမ်းဆောင်ရည်, လုံခြုံရေးခိုင်မာမှု
ထူးခြားသော အကျိုးရှိမှု; 2–3× အမြန်ဆုံး သတ်မှတ်ချက်များနှင့် အားနည်းသော မှတ်ဥာဏ်အသုံးပြုမှု[28]; ဖွင့်လှစ်အရင်းအမြစ်
အားနည်းချက်များ
token ကုန်ကျစရိတ်များ မြင့်မားသည်; ပိုင်ဆိုင် API; သဘောတူညီမှုစီမံခန့်ခွဲမှု အထူးပြုလို့ လိုအပ်နိုင်သည်
စမ်းသပ်မှုအခြေအနေ; စိတ်ပါဝင်စားမှု ချို့ယွင်းမှု ရှိနိုင်ပါသည်[34]; အတွင်းတွင် ပေါင်းစပ်ကိရိယာများ မပါရှိပါ

ဒီနှိုင်းယှဉ်မှုမှ၊ ကျွန်ုပ်တို့သည် hybrid မဟာဗျူဟာ တစ်ခုကို ဆွဲထုတ်နိုင်သည်။ Macaron သည် အစောပိုင်း မူကြမ်းများအတွက် DeepSeek V3.2‑Exp ကို အသုံးပြု၍ နည်းငယ်သော နောက်ကျမှုနှင့် ကုန်ကျစရိတ်မှ အကျိုးကျေးဇူးရယူနိုင်ပြီး၊ ပြီးမှ Sonnet 4.5 ဖြင့် ပြန်လည်မွမ်းမံခြင်း သို့မဟုတ် အမှန်တကယ်ဖြစ်ခြင်းနှင့် လုံခြုံမှုကို အတည်ပြုနိုင်သည်။ အနက်ရှိုင်းသော ဆင်ခြင်မှု လိုအပ်သော ဆန်းသစ်သော mini‑apps များအတွက် Sonnet 4.5 သည် အကောင်းဆုံးရွေးချယ်မှုဖြစ်ပြီး၊ V3.2‑Exp သည် အမြန် iteration များ သို့မဟုတ် အစုလိုက်အပြုံလိုက် ထုတ်လုပ်မှုတွင် ထူးချွန်သည်။

6 Macaron ၏ mini‑app စနစ်ကို မော်ဒယ်အသစ်များ ဘယ်လိုတိုးတက်လာမလဲ

Macaron အတွက် အဓိကမေးခွန်းမှာ Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp သည် အရည်အသွေးကိုတိုးတက်စေခြင်းဖွံ့ဖြိုးတိုးတက်မှုအချိန်ကိုဖျော့ဖျောင်းစေခြင်း နှင့် အမှားများကိုလျှော့ချခြင်း တို့ကို တိုးတက်စေနိုင်ပါသလားဆိုတာဖြစ်ပါတယ်။ Macaron ၏ စနစ်အတွင်းက အချက်အလက်များကို ကျွန်ုပ်တို့ လေ့လာကြည့်ပါမည်။

6.1 ကုဒ်နှင့် အထွက်၏အရည်အသွေး

Sonnet 4.5 သည် ကုဒ်အရည်အသွေးမြင့်မားခြင်းနှင့် အမှားအနည်းငယ်ဖြစ်ခြင်းကို ပေးစွမ်းသည်။ Replit အဆိုအရ၊ Sonnet 4 မှ Sonnet 4.5 သို့ ကူးပြောင်းသည့်အခါ ကုဒ်တည်းဖြတ်အမှားများသည် 9 ရာခိုင်နှုန်းမှ အနုတ်သုညသို့ကျဆင်းခဲ့သည်။ ဒါက Macaron ကနေ ဖန်တီးတဲ့ မီနီအက်ပ်တွေကို စနစ်တကျ ပြုစုနိုင်ပြီး၊ သဒ္ဒါအမှားနည်းပြီး သွင်းယူမှု ပျက်ကွက်မှုနည်းစေမှာဖြစ်တယ်။ ဒီမော်ဒယ်ရဲ့ လမ်းညွှန်ချက်တွေကို လိုက်နာမှုတိုးတက်လာတာဟာ Macaron ကို အသုံးပြုသူရဲ့ ဖော်ပြချက်တွေကို ပိုမိုမှန်ကန်စွာ နားလည်စေပြီး၊ ကုဒ်ပြန်ဖွဲ့စည်းမှုတိုးတက်လာတာက ဖန်တီးထုတ်လုပ်တဲ့ မော်ဂျူးတွေကို သန့်ရှင်းပြီး မော်ဂျူးလိုက်ဖွဲ့စည်းထားမှုရှိစေတယ်။ ရေးငွေရေးကြေးနှင့် ဆိုင်ဘာလုံခြုံရေးအလုပ်တွေမှာ Sonnet 4.5 သည် တိကျမှန်ကန်မှုကို 25 ရာခိုင်နှုန်းမှ 44 ရာခိုင်နှုန်းအထိ တိုးတက်စေပြီး၊ Macaron ရဲ့ ခရီးသွားနှင့် ကျန်းမာရေးအက်ပ်တွေမှာလည်း အလားတူ အကျိုးအမြတ်တွေ ရရှိမယ်ဆိုတာကို ဖော်ပြနေသည်။ DeepSeek V3.2‑Exp သည် ရှုပ်ထွေးသော အကြောင်းပြချက်များတွင် အနည်းငယ်အားနည်းသော်လည်း၊ V3.1 နှင့် တူညီသော ထိရောက်မှုနဲ့ ဆက်လက်လုပ်ဆောင်နိုင်ပြီး [29] ပိုမိုထိရောက်မှုမြင့်မားလာသည်။ Macaron ရဲ့ ဒိုမိန်းမှာ သုံးစွဲနိုင်ဖို့ ပြုပြင်ပြောင်းလဲမှုများ ပြုလုပ်ခဲ့ပြီး နည်းနည်းလေးသော မီနီအက်ပ်များအတွက် လုံလောက်စွာ တိကျမှန်ကန်မှုကို ထောက်ပံ့နိုင်မယ်။

6.2 မီနီအက်ပ်ဖန်တီးခြင်း၏မြန်နှုန်း

Sonnet 4.5 ၏ အလိုအလျောက်လည်ပတ်နိုင်စွမ်းသည် 30 နာရီကျော်ကြာသည်မှာ Macaron သည် အဆုံးမှအစ စတင်ပြီး မနုတ်လက်လုပ်ဆောင်ပေးသော mini‑apps များကို တစ်ကြိမ်တည်း ဆက်တိုက်ထုတ်လုပ်နိုင်စေသည်။ Agent SDK ၏ အကြောင်းအရာစီမံခန့်ခွဲမှုနှင့် စစ်ဆေးမှုအချက်များဖြင့် ပေါင်းစပ်ပြီး လုပ်ငန်းများကို ပြန်စပြီးနောက် context ကို ပြန်လည်တင်ခြင်းအတွက် ကုန်သက်သာစေသည်။ Sub‑agent အဆောက်အအုံက Macaron ကို လုပ်ငန်းများကို ထပ်တူလုပ်ဆောင်ရန် ခွင့်ပြုသည် - အေးဂျင့်တစ်ခုသည် UI ထုတ်လုပ်မှုကို ကိုင်တွယ်နိုင်ပြီး အခြားတစ်ခုသည် API ပေါင်းစည်းမှုကို စီမံနိုင်သည်။ တစ်ခုချင်းစီသည် ကိုယ်ပိုင် context နှင့် ကိရိယာများဖြင့် အလုပ်လုပ်သည်။ အထိန်းသိမ်းမှုတွင် DeepSeek V3.2‑Exp ၏ 2–3× လျင်မြန်သော အချက်အလက်သိမ်းခြင်း နှင့် အမှတ်စဉ်သိမ်းဆည်းမှု လျော့နည်းခြင်းကြောင့် လျင်မြန်သော တုံ့ပြန်ချက်များကို ရရှိစေနိုင်သည်။ ဥပမာအားဖြင့် ခရီးသွားအစီအစဉ်တစ်ခုကို Sonnet 4.5 ဖြင့် 30 စက္ကန့်တွင် ထုတ်လုပ်ရန်လိုအပ်ပါက V3.2‑Exp က 10–15 စက္ကန့်အတွင်း အrough ဖျော်ဖြေရေးကို ထုတ်နိုင်သည် - ထို့နောက် Sonnet 4.5 က ထပ်မံပြုပြင်ခြင်းကို ဆောင်ရွက်မည်ဖြစ်သည်။ အကျိုးသက်ရောက်မှုက အရင်အသုံးပြုနိုင်သော ဗားရှင်းတစ်ခုကို ပိုမိုမြန်ဆန်စေရန်နှင့် အသုံးပြုသူ၏ အကြံပြုချက်များကို လျင်မြန်စွာ ပြန်လည်သုံးသပ်နိုင်စေသည်။

6.3 လုပ်ငန်းစဉ်များနဲ့ အခက်အခဲများ လျော့နည်းစေခြင်း

အလိုအလျောက်လုပ်ငန်းစဉ်များသည် လူ့အမှားများကို လျော့နည်းစေသော်လည်း ကိုယ်ပိုင်အုပ်ချုပ်မှုသည် မှန်ကန်စွာ စီမံခန့်ခွဲခြင်းမရှိပါက အမှားအသစ်များကို စတင်နိုင်ပါသည်။ Agent SDK ၏ စစ်ဆေးမှုအချက်အလက်များ က တီထွင်သူများအား အေးဂျင့်၏ အခြေအနေကို သိမ်းဆည်းပြီး ပြန်လည်ပြုပြင်ရန် ခွင့်ပြုသည် [24]။ Macaron သည် mini‑app ဖန်တီးခြင်းအတွင်း အမှားသုံး API ခေါ်ဆိုမှုတစ်ခုပြုလုပ်ပါက သို့မဟုတ် မှားယွင်းသော ဖိုင်သို့ ရေးသားပါက အတိတ်မှတ်တိုင်သို့ ပြန်လည်ပြုပြင်နိုင်ပြီး အစမှပြန်စရန် မလိုအပ်ပါ။ အကြောင်းအရာတည်းဖြတ်ခြင်း သည် token စွန့်ပစ်မှုကို တားဆီးပြီး ပတ်သက်သည့် အကြောင်းအရာများသာ ထိန်းသိမ်းထားသည့်အတွက် မှားယွင်းခြင်းများကို လျှော့ချပေးသည်။ DeepSeek အတွက်ဖွင့်လှစ်များသော ပြန်လည်ထုတ်ပြန်မှုက Macaron ၏ အဖွဲ့အား မော်ဒယ်ကို စစ်ဆေးခြင်းနှင့် ပြုပြင်ပြောင်းလဲခြင်း၊ စိတ်ကြိုက်လုံခြုံရေးစစ်ဆေးမှုများကို ပေါင်းစပ်ခြင်းနှင့် လုပ်ငန်းခွင်အထူးပြု အလုပ်များအတွက် ပြုပြင်မှန်ကန်မှုများကို လုပ်ဆောင်နိုင်စေပါသည်။ ထို့အပြင် Macaron ၏ ကိုယ်ပိုင် RL အစီအစဉ်များ – အချိန်လိပ်ပြာ၊ အပြန်အလှန်အကဲဖြတ်ခြင်းနှင့် တရားမျှတမှုကန့်သတ်ချက်များသည် အသုံးပြုသူကျေနပ်မှုကို ဆက်လက်စောင့်ကြည့်ပြီး အန္တရာယ်ရှိသော အပြုအမူများကို ပြစ်ဒဏ်ပေးခြင်း [2][5]၊ အမှားများနှင့် သက်ဆိုင်ရာ ကျင့်ဝတ်ချိုးဖောက်မှုများကို လျော့နည်းစေပါသည်။

6.4 ကုန်ကျစရိတ်စဉ်းစားရာ

အရည်အသွေးမြင့်မော်ဒယ်များမှာ တန်ဖိုးရှိပါတယ်။ Sonnet 4.5 ၏ token စျေးနှုန်းမှာ Sonnet 4 ($3/M input tokens, $15/M output tokens) [37] နှင့်မပြောင်းလဲပါ။ DeepSeek V3.2‑Exp သည် API ခေါ်ဆိုမှုများ၏ကုန်ကျစရိတ်ကိုထပ်ခဲပြီးဖြတ်တောက်သည် [38] အပြင်၊ open‑source ဖြစ်သောကြောင့် ကိုယ်တိုင်ဆောင်ရွက်နိုင်ပါသည်။ ထို့ကြောင့် Macaron သည် V3.2‑Exp ကို အစပိုင်းမူကြမ်းများသို့မဟုတ် အရေးမကြီးသည့်အလုပ်များ (ဥပမာ၊ UI အစိတ်အပိုင်းများ ဖန်တီးခြင်း သို့မဟုတ် ရိုးရှင်းသော တွက်ချက်ချက်များ) အတွက် အသုံးပြုခြင်းဖြင့် ကုန်ကျစရိတ်များကို ထိရောက်စွာလျှော့ချနိုင်ပြီး Sonnet 4.5 ကို အရေးကြီးသော အလုပ်များ (ဥပမာ၊ ငွေကြေးစီမံကိန်းရေးဆွဲခြင်း၊ ဆေးဘက်ဆိုင်ရာ အကြံပေးခြင်း) အတွက် အသုံးပြုပါသည်၊ ထိရောက်မှုနှင့် လိုက်နာမှုမှာ အရေးကြီးသော နေရာများတွင် အသုံးပြုပါသည်။ အမြန်ဆုံး ရလဒ်များနှင့် GPU သုံးစွဲမှု လျော့နည်းမှုမှ အားသာချက်များသည် လည်းကောင်း ကွန်ပျူတာကုန်ကျစရိတ်များကိုလည်း လျော့ချပေးသည်။

7 Macaron ရဲ့ RL လေ့ကျင့်မှု革新များ: DAPO, LoRA နှင့် All‑Sync RL

မော်ဒယ်ကိုတိုးတက်စေရန်သည် ကာတွန်းရဲ့အပေါ်ယံပိုင်းသာဖြစ်သည်; လေ့ကျင့်မှုထိရောက်မှုသည် Macaron သည် RL မူဝါဒများကို အမြန်ဆုံးထပ်ခါတလဲလဲပြုလုပ်နိုင်သည့်နည်းလမ်းကို ထိခိုက်စေသည်။ MIND LABS သည် Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) ကို Low‑Rank Adaptation (LoRA) နှင့်ပေါင်းစပ်ထားသော All‑Sync RL ဖွဲ့စည်းပုံကိုဖော်ပြသည်။ 512 GPUs လိုအပ်သော စံ RL နှင့်နှိုင်းယှဉ်ပါက 671B DeepSeek မော်ဒယ်ကို 48 H800 GPUs ဖြင့်လေ့ကျင့်ရန် 10× လျော့ချခြင်း ဖြစ်သည်[39]။ Coati နှင့် SGLang ကိုအသုံးပြုသော ပိုက်လိုင်းကိုမျဉ်းရိုးလိုက်သည့်နည်းဖြင့်၊ မြန်ဆန်သော LoRA ပေါင်းစပ်ခြင်းနှင့်အရည်အသွေးတိုးမြှင့်ခြင်းသည် GPUs များသည် သတ်မှတ်ချက်ကိုစောင့်နေစဉ် အလုပ်မလုပ်သည့် “GPU အမြွှာများ” ကိုဖယ်ရှားပစ်သည်[40]။ ရလဒ်မှာ တစ်ကြိမ်သင်ကြားမှုအဆင့်အတွက် နာရီ ၉ မှ နာရီ ၁.၅ အထိ နံရံ-နာရီအချိန်ကို လျှော့ချခြင်းဖြစ်သည်[41]။ ဤတိုးတက်မှုများကြောင့် Macaron သည် ၎င်း၏ဆုချီးမြှင့်မော်ဒယ်များ သို့မဟုတ် မှတ်မိမှုတံခါးများကိုပိုမြန်စွာပြန်လည်လေ့ကျင့်နိုင်ပြီး သုံးစွဲသူများထံသို့တိုးတက်မှုများကိုပိုမြန်စွာပေးပို့နိုင်သည်။

ပုံ ၁ – All‑Sync RL ကို LoRA နှင့် အသုံးပြုသောအခါ GPU အသုံးပြုမှု 512 မှ 48 H800 GPU များအထိ ကျဆင်းပြီး RL သုတေသနပြုခြင်းကို ပိုမိုရရှိနိုင်စေရန်နှင့် အမြန်လေ့လာနိုင်စေရန် အထောက်အပံ့ ပေးသည်[39]

ထိရောက်မှုကို ကျော်လွန်၍ LoRA ၏ အဆင့်နိမ့်အပ်ဒိတ်များက မော်ဒယ်အလေးချိန် ဆက်သွယ်မှုကုန်ကျစရိတ်များကို လျှော့ချပြီး ဒိုင်နမစ်နမူနာယူခြင်းက လေ့ကျင့်မှုကို တည်ငြိမ်စေရန် ဦးစားပေးချက်များကို စစ်ထုတ်ခြင်းနှင့် ဆုလာဘ်များကို ပုံသဏ္ဍာန်ဖျော်ဖြေရန် ကူညီသည်[42]။ Macaron အတွက် ဤနည်းစနစ်များသည် နောင်တစ်ချိန်တွင် မှတ်ဉာဏ်နှင့် မူဝါဒ အပ်ဒိတ်များကို ကွန်ပြူတာကုန်ကျစရိတ်များ များပြားစွာ မပေးရဘဲ အမြန်လေ့ကျင့်နိုင်သည်ကို ဆိုလိုသည်။

၈ အဖွဲ့သားများအတွက် လုပ်ငန်းစဉ်: Sonnet 4.5 နှင့် DeepSeek ကို Macaron ထဲသို့ ပေါင်းစပ်ခြင်း

Macaron ဖြင့် မီနီအက်ပ် တစ်ခု ဖန်တီးရန် လုပ်ငန်းစဉ်အဆင့်များမှာ:

  • ရည်ရွယ်ချက်နားလည်ခြင်း - Macaron က အသုံးပြုသူရဲ့ တောင်းဆိုချက်ကို ချိန်ညှိပြီး လိုအပ်သော အစိတ်အပိုင်းများကို (ဥပမာ၊ ဒေတာအရင်းအမြစ်များ၊ UI အစိတ်အပိုင်းများ၊ ပြင်ပ API များ) အသိအမှတ်ပြုသည်။ Sonnet 4.5 ၏ ညွှန်ကြားချက်အကောင်းဆုံးလိုက်နာမှုက တိကျသော ရည်ရွယ်ချက်ကို ထုတ်ယူပြီး အဆင့်ဆင့် အကောင်အထည်ဖော်ရေးဆွဲရာတွင် အထောက်အကူပြုသည်။ V3.2‑Exp က အသုံးပြုသူရွေးချယ်စရာအတွက် အလျင်မြန်ဆုံး ရည်ရွယ်ချက်များကို ပုံတူဆွဲနိုင်သည်။
  • ပရိုဂရမ်းထုတ်လုပ်ခြင်း - ကိုယ်စားလှယ်သည် Claude Agent SDK ကိုအသုံးပြု၍ ကုဒ်များထုတ်ပေးခြင်း၊ စရင်းကိုရှာဖွေနိုင်ခြင်း၊ ဖိုင်တမ်းများကို ဖတ်ခြင်းနှင့် ဖိုင်အသစ်များရေးခြင်းတို့ကို ပြုလုပ်သည်။ အဖွဲ့ဝင်များသည် ရှေ့ဖျက် (React) သို့မဟုတ် နောက်ခံ (Python) တွင် အထူးပြုနိုင်ပြီး အကြောင်းအရာစီမံခန့်ခွဲမှုက မှတ်ဉာဏ်ကို မလွန်ကျူးဘဲ မှန်ကန်သောကုဒ်ကို ရရှိစေသည်။ Sonnet 4.5 ၏ အကြာမြင့်အကြောင်းအရာနှင့် ကုဒ်ပြန်လည်ပြုပြင်နိုင်စွမ်းက ပိုမိုသန့်ရှင်းသော၊ ထိန်းသိမ်းရလွယ်သော ပရိုဂရမ်းများကို ထုတ်လုပ်စေပြီး၊ V3.2‑Exp က ပထမဆုံးမူကြမ်းကို အလျင်မြန်ဆုံး ပြုလုပ်နိုင်သည်။
  • သုံးစွဲမှုကန့်သတ်ခြင်း - ထုတ်ထားသော ကုဒ်ကို လုံခြုံသော ပတ်ဝန်းကျင်တွင် ပြုလုပ်သည်။ ကိုယ်စားလှယ်သည် အမှတ်တရများကို ဖတ်၍ အမှားများကို ဖမ်းယူကာ အဆင့်ဆင့်ပြုပြင်သည်။ သက်သေပြချက်များက လုံခြုံသော ရှောင်လွှဲမှုများကို ပံ့ပိုးပေးပြီး၊ RL ဆုချမှတ်များက စမ်းသပ်မှုများအောင်မပြေသော ကုဒ်ကို ဒဏ်ရာဖြစ်စေသည်။ Macaron သည် Agent SDK ၏ bash နှင့် web fetch ကိရိယာများကို အသုံးပြု၍ ပြင်ပဝန်ဆောင်မှုများကို ပေါင်းစပ်စမ်းသပ်မှုများကိုလည်း ပြုလုပ်နိုင်သည်။
  • အပြန်အလှန်နှင့် ပြုပြင်ခြင်း - ကိုယ်စားလှယ်သည် Macaron ၏ ဆွေးနွေးမှုမျက်နှာပြင်မှတစ်ဆင့် မီနီအက်ပ်ကို အသုံးပြုသူအား တင်ပြသည်။ မှတ်ဉာဏ်အင်ဂျင်သည် ဆွေးနွေးမှုကို သိမ်းဆည်းပြီး နောင်တွင် အကြောင်းအရာကို စိစစ်ရန် RL ကို အသုံးပြုသည်။ အသုံးပြုသူ၏ အကြံပြုချက်များသည် ဆုချမှတ်ကို အပ်ဒိတ်လုပ်ပြီး နောင်တွင် ထုတ်လုပ်မှုများကို သက်ရောက်စေသည်။

Sonnet 4.5 နဲ့ DeepSeek V3.2-Exp ကို ပေါင်းစပ်ခြင်းဖြင့် Macaron ကဒီလုပ်ငန်းစဉ်ကို ကိုယ်ရေးကိုယ်တာဖန်တီးနိုင်ပါတယ်။ ဥပမာ၊ ခရီးထွက်စီစဉ်တဲ့အက်ပ်မှာ UI ဖန်တီးသူ ကိုယ်စားလှယ်က DeepSeek ကိုသုံးပြီး အပြင်အဆင်တွေကို မြန်မြန်ဆန်ဆန် တင်ပြနိုင်ပြီး၊ စီစဉ်မှု လိုဂစ်နဲ့ အချိန်ဇယား ကောင်းမွန်မှုကို Sonnet 4.5 အသုံးပြုကာ ပြောဆိုမှုတိကျမှုနဲ့ ပြဿနာကောင်းမွန်စွာ ကိုင်တွယ်နိုင်ပါတယ်။ ဘဏ္ဍာရေးခန့်မှန်း အက်ပ်က DeepSeek ကို ပထမဆုံး ဇယားတွေ နဲ့ အချိန်ဇယားတွေ ရေးဆွဲဖို့ အားထားသော်လည်း Sonnet 4.5 ကို အသုံးပြုပြီး ဘဏ္ဍာရေးတွက်ချက်မှုများကို စိစစ်ခြင်း နှင့် စည်းမျဉ်းများနှင့် ကိုက်ညီမှုကို သေချာစေရန် အသုံးပြုသည်။

တိုးတက်မှုများ၏ ရုပ်ပုံဖော်ပြချက်

ဒီနည်းပညာတွေက ပေးတဲ့ အကျိုးကျေးဇူးတွေကို ဖျော်ဖြေရန် အောက်ပါဇယားတွေက အဓိကပြည့်စုံမှုများကို အကျဉ်းချုပ်ထားပါတယ်။

ပုံ ၂ – Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp တို့၏ ကုဒ်ရေးသားမှုတိကျမှု၊ အ-relative အမြန်နှုန်း၊ ကုန်ကျစရိတ်နှင့် ကိုယ်ပိုင်လွတ်လပ်မှုတို့ကို နှိုင်းယှဉ်ကြည့်ခြင်း။ အမြင့်ဆုံးဘားများသည် တိကျမှုနှင့် ကိုယ်ပိုင်လွတ်လပ်မှုအတွက် ပိုမိုကောင်းမွန်သောတန်ဖိုးများကို ကိုယ်စားပြုသည်။ နိမ့်သောဘားများသည် ထိရောက်မှုနှင့် ကုန်ကျစရိတ်အတွက် ပိုမိုကောင်းမွန်သော (မြန်ဆန်သော်လည်း သက်သာသော) စွမ်းဆောင်ရည်ကို ဖော်ပြသည်။

ပုံ ၃ – Replit ၏ ပြည်တွင်းစံချိန်များအရ Sonnet 4 တွင် ၉% ရှိသည့် ကုဒ်တည်းဖြတ်မှုအမှားများသည် Sonnet 4.5 တွင် သုညသို့ ကျဆင်းသွားခြင်းကို ပြသသည်။ အညွှန်းအတိုင်း လိုက်နာမှုအား မြှင့်တင်ခြင်းနှင့် ကုဒ်ပြန်ဖွဲ့စည်းမှုနှင့်အတူ ပိုမိုယုံကြည်ရသော မီနီအက်ပ်များဖြစ်လာသည်။

ပုံ ၄ – DAPO နှင့် LoRA ကို All‑Sync RL ပိုက်လိုင်းတွင် ပေါင်းစပ်သုံးခြင်းသည် လေ့ကျင့်မှုအဆင့်တစ်ခု၏ နာရီကို ၉ နာရီမှ ၁.၅ နာရီအထိ လျော့ချပေးပြီး[၄၁]* ဆုဖြစ်စေရေး မော်ဒယ်နှင့် မှတ်ဉာဏ်မူဝါဒများကို မြန်မြန်စွာ အပ်ဒိတ်လုပ်ရန် အခွင့်အလမ်းပေးသည်။*

ဤရုပ်ပုံများသည် အကျိုးကျေးဇူးများသည် သီအိုရီအဖြစ်မဟုတ်ကြောင်း အထောက်အထားပေးသည်။ GPU လိုအပ်ချက်များလျော့နည်းခြင်း၊ လေ့ကျင့်မှုမြန်ဆန်ခြင်း၊ တိကျမှုမြင့်မားခြင်းနှင့် ကုန်ကျစရိတ်နည်းခြင်းတို့သည် မီနီအက်ပ်ပိုက်လိုင်းကို ပိုမိုချောမွေ့စေရန်နှင့် ထိရောက်မှုမြင့်စေရန် အားပေးပြုလုပ်သည်။

အနာဂတ် လမ်းကြောင်း ၁၀ ခု

လာမည့်အချိန်တွင် Anthropic နှင့် DeepSeek နှစ်ခုလုံးမှာ ပိုမိုမြင့်မားသော အဆောက်အအုံများကို ရှုမြင်နေကြောင်း အစအနများပြထားကြသည်။ Sonnet 4.5 ၏ ဆက်ခံအဆက်သည် ပိုမိုကျယ်ပြန့်သော အကြောင်းအရာပြကြားမှုများ၊ ဘာသာစကားများအတွက် အကြောင်းအရာကို တိုးချဲ့ခြင်းနှင့် ပိုမိုစတင်နှောင့်ယှက်မှုများကို ပံ့ပိုးနိုင်သည်။ DeepSeek ၏ နောက်မျိုးဆက် အဆောက်အအုံသည် ကြည်လင်သော အာရုံစိုက်မှုကို အခြေခံ၍ ပိုမိုမြင့်မားသော လုပ်ဆောင်ချက်များကို နည်းဆုံးကုန်ကျစရိတ်ဖြင့် ရရှိစေရန် မျှော်လင့်ထားသည်[31]။ Macaron အတွက်၊ ကိုယ်တိုင်စိုက်ထူမှတ်ဉာဏ်သက်တမ်းရှည်လေ့လာမှု နှင့် ဘာသာစကားဖြတ်ကျော်ညှိနှိုင်းခြင်းတို့ကို ပိုမိုကောင်းမွန်စေရန်ဆန်းစစ်ချက်များ ဆောင်ရွက်နိုင်သည်[43]ဖက်ဒရယ်လေ့လာမှုကို ပေါင်းစပ်ခြင်းက အသုံးပြုသူများကို အမှတ်ဉာဏ်မော်ဒယ်များကို ဒေသတွင်းတွင် လေ့ကျင့်ခွင့်ပြုပြီး မော်ဒယ်အဆင့်မြှင့်တင်မှုများကိုသာ မျှဝေခြင်းဖြင့် ပိုင်ဆိုင်မှုကို ထိန်းသိမ်းရင်း ပေါင်းစပ်လုပ်ဆောင်ချက်များကို တိုးတက်စေရန် အထောက်အကူဖြစ်စေသည်[43]။ RL ဘက်တွင်၊ Macaron ၏ လုပ်ဆောင်မှုသည် အကြောင်းပြချက်များကို ပေးရန် နာမည်ကြီးသီအိုရီများ – ပရဟိတဝါဒ၊ တရားဥပဒေကျင့်သုံးမှု၊ သင်္ကေတကျင့်ဝတ်တို့ကို ပေါင်းစပ်အသုံးပြုနိုင်သည်[44]

အနှစ်ချုပ်, Macaron သည် Claude Sonnet 4.5 နှင့် DeepSeek V3.2-Exp ကို Claude Agent SDK ဖြင့် ချိတ်ဆက်ရန် ဆုံးဖြတ်မှုကြောင့် ကိုယ်ပိုင် AI ၏ နောက်ဆုံးထိပ်သီးတွင် ရပ်တည်ထားသည်။ Sonnet 4.5 သည် အနန္တအရည်အသွေး၊ တိုးတက်သော ကိုယ်ပိုင်အုပ်ချုပ်မှုနှင့် သုံးစွဲသူအတွက် အထူးကိရိယာများကို ပေးစွမ်းသည်။ DeepSeek သည် အမြန်နှုန်း၊ ထိရောက်မှုနှင့် ဖွင့်လှစ်ရင်းမြစ်အလွယ်တကူပြုပြင်နိုင်မှုကို ပေးသည်။ Macaron ၏ လှည့်ကြိုးသင်ကြားမှုနည်းစနစ်များနှင့် မှတ်ဉာဏ်အင်ဂျင်ကို အတူတကွပေါင်းစပ်ထား၍ မီနီအက်ပ်များကို ပိုမိုလျင်မြန်စွာ၊ ချောမွေ့စွာ တည်ဆောက်ရန်နှင့် အမှားများ လျော့နည်းစေရန် ကူညီပေးမည်ဖြစ်သည်။ ကိုယ်ပိုင် AI က ဆက်လက်တိုးတက်နေသည့်အခါ Macaron ၏ ကိုယ်ပိုင်အုပ်ချုပ်မှု၊ လုံခြုံမှု၊ သီလနှင့် ထိရောက်မှုတို့၏ ပေါင်းစပ်မှုသည် တာဝန်ရှိသော ဖန်တီးမှုအတွက် နမူနာ ဖြစ်သည်။


[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Macaronရဲ့မှတ်ဉာဏ်အင်ဂျင်အတွင်း၊ဖိသိပ်ခြင်း၊ယူဆောင်ခြင်းနှင့်ဒိုင်းနမစ်ဂိတ်တံခါးများ - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [ခေါင်းစဉ် မသိရသေးပါ]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Claude Code ရဲ့ SDK နဲ့ အေးဂျင့်တွေ တည်ဆောက်ခြင်း

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: လက္ခဏာများ၊ စျေးနှုန်းနှင့် နှိုင်းယှဉ်ခြင်း - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] AI နဲ့ AI: DeepSeek-3.2-Exp နဲ့ DSA – Champaign မဂ္ဂဇင်း

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] China's DeepSeek သည် နောက်မျိုးဆက်သို့ ဦးတည်သည့် 'အလယ်အလတ်' AI မော်ဒယ်ကို ထုတ်ပြန်သည် | Reuters

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/

[39] [40] [41] [42] MIND LABS | DAPO နှင့် LoRA နှင့်အတူ All-Sync RL ကို တိုးချဲ့ခြင်း

https://mindlabs.macaron.im/

Nora is the Head of Growth at Macaron. Over the past two years, she has focused on AI product growth, successfully leading multiple products from 0 to 1. She possesses extensive experience in growth strategies.

Apply to become Macaron's first friends