စာရေးသူ: Boxu Li
Macaron AI က ထုံးစံထုတ်လုပ်မှုကိရိယာတစ်ခုသာမကပဲ မိမိတို့စကားပြောဆိုမှုများကို ပြေးလမ်းအကွက်သေးသေးလေးများအဖြစ်ပြောင်းလဲပေးသော ပလက်ဖောင်းတစ်ခုဖြစ်သည်။ ၎င်းသည် ပြက္ခဒိန်များကိုစီမံခန့်ခွဲခြင်း၊ ခရီးစဉ်များကိုစီစဉ်ခြင်းနှင့် ဝါသနာများကိုလေ့လာခြင်းတို့ကို လုပ်ဆောင်ပေးသည်။ ရင်းနှီးသောမျက်နှာပြင်အောက်တွင် အထူးပြု reinforcement learning (RL) စနစ်နှင့် သတိရစွမ်းရည်ရှိသော memory engine တစ်ခုရှိပြီး အရေးကြီးသောအရာများကို သတိရပြီး အရေးမကြီးသောအရာများကို မျောက်မနေစေပါ။ Macaron သည် Claude Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp ကို Claude Agent SDK/Code 2.0 နှင့်အတူ ပေါင်းစပ်ရန် ပြင်ဆင်နေစဉ်၊ ဤဘလော့ဂ်သည် ဤမော်ဒယ်အသစ်များနှင့် ကိရိယာများက Macaron ၏ ထုတ်ကုန်အရည်အသွေးကို မြှင့်တင်ပေးခြင်း၊ အကွက်သေးသေးလေးများဖန်တီးခြင်းကို လျှော့ချပေးခြင်းနှင့် အမှားများကို လျှော့ချပေးခြင်းတို့ကို မည်သို့ ပြုလုပ်နိုင်သည်ကို လေ့လာပါသည်။ Anthropic ၏ ဖွံ့ဖြိုးရေးအပ်ဒိတ်များ၊ DeepSeek သုတေသနများနှင့် Macaron ၏ ကိုယ်ပိုင် အင်ဂျင်နီယာဘလော့ဂ်များမှ နည်းပညာဆိုင်ရာ အမြင်များကို ပေါင်းစပ်၍ အနာဂတ်မှာ ဘာတွေဖြစ်နိုင်မလဲဆိုတာကို ရှင်းလင်းသော ပုံရိပ်တစ်ခု ဆွဲဆောင်ပါသည်။
မော်ဒယ်များကိုနှိုင်းယှဉ်မီ Macaron ၏ထူးခြားချက်ကိုနားလည်ရန် အထောက်အကူဖြစ်သည်။ Macaron သည် အဆင့်များစွာပါဝင်သည့် RL စနစ် ကိုအသုံးပြု၍ အပျော်တမ်းစကားပြောဆိုမှုများကို လုပ်ဆောင်ရန်နှင့် ကုဒ်သို့ပြောင်းလဲသည်။ ယင်းစနစ်သည် ပြဿနာကို စကားပြောစီမံခန့်ခွဲမှု၊ မှတ်ဉာဏ်ရွေးချယ်မှု၊ ကုဒ်ပေါင်းစပ်ခြင်းနှင့် မျက်မြင်တုံ့ပြန်မှု အစိတ်အပိုင်းများအဖြစ် ခွဲခြားပြီး အဆင့်လိုက်ရောထွေးမှုအတိုးတက်မှုလေ့လာမှု (HRL) ကို အသုံးပြု၍ ထိန်းချုပ်သည်[2]။ အဆင့်မြင့် meta-controller သည် ဘယ်နှစ်ခု module ကို နောက်တစ်ခုအဖြစ် အကောင်အထည်ဖော်ရမည်ကို ဆုံးဖြတ်ပေးပြီး အဆင့်နိမ့် RL မူဝါဒများသည် မှတ်ဉာဏ်တစ်ခုကို ပြန်လည်ယူခြင်း၊ API ကို ခေါ်ခြင်း သို့မဟုတ် ဖန်တီးထားသော ကုဒ်ကို အကောင်အထည်ဖော်ခြင်း စသည်တို့ကို ဆုံးဖြတ်ပေးသည်[2]။ ဒီဒီဇိုင်းက Macaron ကို ခရီးစီမံခန့်ခွဲခြင်းမှ စီးပွားရေးစီမံခန့်ခွဲခြင်းအထိ တိုးတက်သော ရည်မှန်းချက်များကို စီစဉ်နိုင်စေရန် အခွင့်အလမ်းပေးသည်။
ပုဂ္ဂိုလ်ရေး AI တွင် တစ်ခုထဲသော “အောင်မြင်မှု အခြေအနေ” မရှိပါ။ အသုံးပြုသူကျေနပ်မှု၊ ကိုယ်ရေးကိုယ်တာအချက်အလက် ကာကွယ်မှု၊ အချိန်နှင့်ယှဉ်တွဲမှုနှင့် ယဉ်ကျေးမှုဆိုင်ရာ အနုမြူများ အားလုံးက အရေးကြီးသည်။ Macaron သည် အမြင်တစ်ခုနှင့် အလှည့်ကျပြန်ကြားမှု ကိုပေါင်းစည်းခြင်းဖြင့် ၎င်း၏ အကျိုးအမြတ် လုပ်ဆောင်ချက်ကို တည်ဆောက်သည်။ အမြင်သင်္ကေတများတွင် စကားပြောချိန်အရှည်၊ အသုံးပြုမှုအကြိမ်ရေနှင့် အသံထွက်ကို ရှာဖွေခြင်းပါဝင်သည်။ သို့သော် အထက်တန်းသတ်မှတ်ချက်များနှင့် လက်မထပ်နှိပ်ချက်များသည် ကြိုက်နှစ်သက်မှုများကို ချိန်ညှိရန် အကူအညီဖြစ်သည်[3]။ Macaron သည် ကြိုက်နှစ်သက်မှု အတည်ပြုခြင်း ကိုလည်း အသုံးပြုပြီး အခြားတုံ့ပြန်မှုများ သို့မဟုတ် အက်ပ်ဒီဇိုင်းများကို ပြသပြီး အသုံးပြုသူများထံမှ ဘယ်အရာကို ကြိုက်နှစ်သက်ကြောင်း မေးမြန်းသည်။ ထိုအခါ အတုယူရန် မော်ဒယ်တစ်ခုသည် အလားအလာရှိသော လုပ်ဆောင်ချက်များအပေါ်တွင် လျှို့ဝှက် အကျိုးသက်ရောက်မှု လုပ်ဆောင်ချက်ကို လေ့လာနိုင်ပြီး လူမှ ပြန်ကြားလာသော အကျိုးသက်ရောက်မှု (RLHF) ကဲ့သို့သော် ယဉ်ကျေးမှု အညွှန်းများဖြင့် တိုးချဲ့ထားသည်။ ဥပမာအားဖြင့် ဂျပန် အဆင့်သတ်မှတ်သူများသည် ယဉ်ကျေးမှုနှင့် အကြောင်းအရာကို အလေးထားပြီး ကိုရီးယား အဆင့်သတ်မှတ်သူများသည် လူစုလူဝေးနှင့် တစ်ကိုယ်ရည် ဖွဲ့စည်းချက်များကို အထူးပြုသည်[4]။ ဤသင်္ကေတများသည် အသုံးပြုသူကျေနပ်မှုကို ခန့်မှန်းနိုင်သည့် အကျိုးအမြတ် မော်ဒယ်အတွင်း ထည့်သွင်းပြီး ဒေသတွင်း စံနှုန်းများကို လိုက်နာရန် ကိုယ်စားလှယ်အား လှုံ့ဆော်သည်။
အသုံးပြုသူအလုပ်များကို စီမံရန်အတွက် Macaron သည် HRL ကို အသုံးပြုပြီး module များနှင့် sub-policy များကို ရွေးချယ်သည်။ module များအတွင်းတွင် options framework ကို အသုံးပြုသည်။ အလုပ်တစ်ခု၏ sub-goal ကို ရှာဖွေရန် လုပ်ဆောင်ချက်များ စဉ်လိုက်ပြုလုပ်ခြင်းကို ရွေးချယ်ချက်တစ်ခုအဖြစ် ဆင်ခြင်သည် (ဥပမာ - “ပြီးခဲ့သည့်လ၏ စရိတ်များကို ခန့်မှန်းသည်” သို့မဟုတ် “နှစ်မျိုးဘာသာ သင်ယူမှုအစီအစဉ် တိုက်တွန်းသည်”) [3]။ တစ်ခုသောနယ်ပယ်တွင် ရှာဖွေတွေ့ရှိသော ရွေးချယ်ချက်များကို အခြားနယ်ပယ်များသို့ အခြေခံဖွဲ့စည်းမှုများကို လိုက်ဖက်မူရှိလျှင် လွှဲပြောင်းနိုင်သည်။ Macaron သည် macro-actions ကိုလည်း သတ်မှတ်ပြီး အချိန်ကြာမြင့်သော စကားဝိုင်းများ သို့မဟုတ် ကြာမြင့်သောတွက်ချက်မှုများကို ပါဝင်သည်၊ ဥပမာ - မိသားစုအပန်းဖြေရေးစီစဉ်ခြင်း (သွားရောက်ရမည့်နေရာ၊ သယ်ယူပို့ဆောင်မှု၊ တည်းခိုရန်နေရာနှင့် အစီအစဉ်)[3]။ RL အေးဂျင့်များသည် macro-actions ကို ရာထူးဆက်စပ်ဆုကြေးစားအရည်အချင်းအပေါ် အခြေခံပြီး ကြာမြင့်သော စိတ်ကျေနပ်မှုကို အထူးပြုလုပ်ရန် အေးဂျင့်ကို လှုံ့ဆော်ပေးသည်။
ဆုလာတဲ့အခါမှာ အရည်အချင်းကို အထူးသဖြင့် လုပ်ဆောင်ချက်တွေအပေါ်မှာ ချမှတ်တာ ပြုလုပ်ရခက်တယ်။ Macaron က အချိန်ချည်နှောင်မှု ကို အသုံးပြုပြီး အချိန်တစ်လျှောက်မှာ ဖြစ်ရပ်တွေကို နောက်ခံဇာတ်ကြောင်းတွေနဲ့ ချိတ်ဆက်ပေးတယ်။ ဒီစနစ်က မှတ်ဉာဏ်တွေကို ကိုယ်စားပြုတဲ့ အမှတ်အသားတွေနဲ့ ဖြစ်ရပ်တွေဆီက causal relationships တွေကို ကိုယ်စားပြုတဲ့ သံသရာတွေကို ဖန်တီးပေးတယ်။ အကျိုးဆက်တစ်ခုကို သုံးသပ်တဲ့အခါမှာ ဒီသံသရာကို နောက်ပြန်လိုက်ပြီး ဘယ် retrievals သို့မဟုတ် လုပ်ဆောင်ချက်တွေက အားပေးခဲ့သလဲဆိုတာ ရှာဖွေနိုင်တယ်[2]။ Counterfactual reasoning က အခြားလုပ်ဆောင်ချက်တွေကို လုပ်ခဲ့ရင် ဘယ်လိုဖြစ်နိုင်မလဲဆိုတာ သုံးသပ်ပေးပြီး အောင်မြင်မှုရှိတဲ့ လုပ်ဆောင်ချက်ကို ထပ်လုပ်ရင် အမြဲတမ်း အဲဒီလိုဆုရမှာ မဟုတ်ကြောင်းကို တားဆီးပေးတယ်[2]။ Macaron က နောက်ကျတဲ့ဆုတွေကို အသုံးပြုပြီး eligibility traces တွေကို ယူပြီး အစောပိုင်းဆုံးဖြတ်ချက်တွေ – မှတ်ဉာဏ်ရွေးချယ်မှု သို့မဟုတ် ဆွေးနွေးမှုအသံ – ဆီမှာပြန်ဖြန့်ပြီး အေးချမ်းမှုအရှည်ရှည်ရှိအောင် agent ကို အားပေးတယ်[5]။
ကိုယ်ပိုင် AI ကိုယ်စားလှယ်များသည် ဘက်လိုက်ခြင်းကိုရှောင်ရှားရမည်ဖြစ်ပြီး စည်းမျဉ်းများနှင့် ကိုက်ညီရမည်။ Macaron သည် တရားမျှတမှုကန့်သတ်ချက်များကို ဆုချအလုပ်ထဲတွင် ထည့်သွင်းထားသည်။ ဥပမာအားဖြင့် ကိုယ်စားလှယ်သည် မေးမြန်းခြင်းမရှိဘဲ လိင်အခြေပြု လှုပ်ရှားမှုများကို ဆက်လက်အကြံပြုပါက ဒဏ်ငွေကျခံရမည်[5]။ သဗ္ဗမင်္ဂလမူဝါဒစာကြည့်တိုက်သည် ယဉ်ကျေးမှုစံနှုန်းများနှင့် တရားဥပဒေလိုအပ်ချက်များကို ကူးယူထားပြီး ဤလမ်းညွှန်ချက်များကို ချိုးဖျက်ပါက အနုတ်ဖြစ်သော ဆုချမှတ်အဖြစ် သတ်မှတ်ထားခြင်း သို့မဟုတ် လုပ်ဆောင်ချက်ကို အပြည့်အဝပိတ်ပင်ထားပါသည်[5]။ လူ့အကြီးအကဲသည် ဘဏ္ဍာရေးအစီအစဉ်ရေးဆွဲခြင်း သို့မဟုတ် ကျန်းမာရေးစောင့်ရှောက်မှုအကြံဥာဏ်စသည့် အကြီးစားဆုံးဖြတ်ချက်များတွင် ပါဝင်ပြီး ကိုရီးယား AI စနစ်ဆိုင်ရာဥပဒေနှင့် ဂျပန်၏ AI မြှင့်တင်ရေးဥပဒေနှစ်ခုလုံးကို ပြည့်မီစေပါသည်[5]။ Macaron သည် RL ဆုံးဖြတ်ချက်များကို မှတ်တမ်းတင်ပြီး သုံးစွဲသူများကို အချို့သော မှတ်ဉာဏ်များ သို့မဟုတ် မော်ဂျူးများကို ရွေးချယ်ခဲ့သော အကြောင်းရင်းများကို ရှင်းပြပေး၍ စစ်ဆေးမှုများနှင့် ထင်ရှားမှုများကို ပံ့ပိုးပေးပါသည်[5]။
Macaron ၏ မှတ်စုအင်ဂျင်သည် ပုဂ္ဂိုလ်ရေးဖျော်ဖြေရေး၏ အခြေခံရုတ်တရက်ဖြစ်သည်။ ၎င်းသည် မှတ်ဉာဏ်များကို တိုတောင်းသည့်၊ အပိုင်းပိုင်းနှင့် ရေရှည်သိုလှောင်မှုများ အဖြစ် စီမံသည်။ တိုတောင်းသည့် သိုလှောင်မှုသည် လက်ရှိ ဆွေးနွေးမှု (8–16 မက်ဆေ့ခ်ျများ) ကို ထိန်းသိမ်းသည်; အပိုင်းပိုင်းသိုလှောင်မှုသည် နောက်ဆုံး ပြုလုပ်ခဲ့သော လုပ်ဆောင်မှုများကို ချုံ့ထားသော ဂရုတစိုက်မှုဖြင့် ထိန်းသိမ်းသည်; ရေရှည်သိုလှောင်မှုသည် metadata အမှတ်အသားများ (အချိန်, နယ်ပယ်, ဘာသာစကား) ဖြင့် အမြင့်အတိုင်းအတာ ဗက်တာဒေတာဘေ့စ်ကို အသုံးပြုသည်[6]။ ကုန်ကျစရိတ်ကို စီမံရန်၊ Macaron သည် latent summarisation ကို အသုံးပြု၍ အရေးပါသော အပိုင်းများကို သတ်မှတ်ပြီး တိကျသည့် အရှည်ရှိ ဗက်တာများအဖြစ် ချုံ့ထားသည်; autoencoding ရည်ရွယ်ချက်သည် ချုံ့ထားသော အကျဉ်းချုပ်များမှ ဖုံးကွယ်ထားသော အခြေအနေများကို ပြန်လည်တည်ဆောက်ပြီး RL သည် နောက်ပိုင်းမှတ်မိမှုအတွက် အရေးပါသော အချက်အလက်များကို ထိန်းသိမ်းရန် အကျဉ်းချုပ်ရေးသူကို ပြုပြင်သည်[7]။ dynamic memory token သည် pointer network အဖြစ် လုပ်ဆောင်သည်: ၎င်းသည် ဝင်ရောက်လာသော မှတ်ဉာဏ်များကို ရှာဖွေ၍ သက်ဆိုင်မှုကို ဖျော်ဖြေရန် သုံးသပ်ပြီး ပြန်လည်ပေးပို့ရန် သို့မဟုတ် ဆက်လက် ရှာဖွေရန် ဆုံးဖြတ်သည်[8]။
အမှန်တကယ်နီးစပ်သောအနီးဆုံးအကျိုးရှိမှုကိုထုတ်ယူခြင်းသည် ထုတ်ကုန်အရည်အသွေးဖြင့်အနီးကပ်စီစဉ်ခြင်းနှင့် အများဆုံးနားလည်မှုစွမ်းရည်ကိုအသုံးပြုခြင်းဖြင့် တူညီမှုနှင့် ပြောင်းလဲမှုကိုချိန်ညှိသည်။ [9] မေးခွန်းတိုးချဲ့ခြင်းသည် အသုံးပြုသူ၏ရည်မှန်းချက်နှင့် ဖြစ်တည်သောရည်ရွယ်ချက်ကို အသုံးပြုသည်။ ဥပမာ၊ ဂျပန်အတွက် "花火大会" (မီးရှူးပွဲ) ကိုပွဲလက်မှတ်၊ ရက်စွဲနှင့် မိုးလေဝသကိုအပါအဝင်တိုးချဲ့ပါသည်။ [10] သက်ဆိုင်မှုပေါင်းစည်းခြင်းသည် ချိတ်ဆက်ထားသောမေးခွန်းများကို ကိုင်တွယ်ပါသည်။ ဒိုမိန်းများနှင့် ဘာသာစကားများအနှံ့ ပြန်လည်ယူခြင်းဖြစ်နိုင်ချေရရှိမှုကို ဖြန့်ဝေရန် softmax သော့ခတ်လုပ်ဆောင်ချက်ကိုအသုံးပြုသည်။ [11] ဤအစိတ်အပိုင်းများကို RL ဖြင့်လေ့ကျင့်ပြီး အချိန်လည်ပတ်မှုမှတဆင့် အကျိုးရှိသောမှတ်ဉာဏ်များကို အေးဂျင့်သိရှိအောင် သင်ယူရန် ချီးမြှင့်ချက်ပေးခြင်းကို လုပ်ဆောင်သည်။ [12] Macaron ၏ မှတ်ဉာဏ်စနစ်သည် ရိုးရိုးပြန်လည်ယူဆောင်မှုဖြင့်ထုတ်လုပ်ခြင်း (RAG) နှင့် ကွာခြားပါသည်။ အမှတ်များသည် အသုံးပြုသူအထူးဖြစ်ပြီး သိမ်းဆည်းခြင်းနှင့်ပြန်လည်ယူဆောင်ခြင်းကို RL ဖြင့် လမ်းညွှန်သည်။ အမှတ်တစ်ခုစီတွင် သီးသန့်သုံးနိုင်မှုကို စီမံခန့်ခွဲသော ကိုယ်ရေးမှတ်တမ်းများပါဝင်သည်။ [13].
Macaron ၏အတွင်းဖွဲ့စည်းမှုသည် ခိုင်ခံ့သော်လည်း mini‑apps တည်ဆောက်ရန်အတွက် ဖိုင်များကို ဖတ်ခြင်းနှင့် ရေးခြင်း၊ ကုဒ်ကို အကောင်အထည်ဖော်ခြင်း၊ ဗားရှင်းထိန်းချုပ်ခြင်းနှင့် ဝဘ် API များနှင့် လက်တွေ့ပြုလုပ်ခြင်းကို လိုအပ်ပါသည်။ Anthropic ၏ Claude Agent SDK သည် အတိအကျသောစွမ်းရည်များကို ပေးစွမ်းပြီး Claude Code ၏ terminal assistant ကို အားဖြည့်ပေးသော agent harness ကိုဖော်ထုတ်ပါသည်[14]။ ၎င်းသည် ဖိုင်လုပ်ဆောင်မှုများ (ဖတ်ခြင်း၊ ရေးခြင်း၊ grep၊ glob)၊ bash အမိန့်များ၊ ဝဘ် fetch၊ ဘာသာစကားများစွာ၏ ကုဒ်အကောင်အထည်ဖော်ခြင်း၊ Git လုပ်ဆောင်မှုများ စသဖြင့် စနစ်တကျထုတ်ပေးပါသည်[15]။ ကုဒ်အခြေခံကို ကြိုတင်အညွှန်းပြုလုပ်သော အကူအညီများနှင့် မတူဘဲ၊ Claude agents များသည် grep/find/glob ကို အသုံးပြု၍ ဖိုင်များကို ရှာဖွေရာတွင် လိုအပ်သည့်အချိန်တွင် ရှာဖွေကြပြီး dynamic repos များတွင် ပိုမိုထိရောက်သော နည်းလမ်းများဖြစ်စေသည်[16]။ SDK သည် အကြီးစားအကြောင်းအရာဝင်းဒိုးများနှင့် အလိုအလျောက်ချုံ့ခြင်းနှင့် အနှစ်ချုပ်ရေးခြင်း ပါဝင်ပြီး agent များကို စကားလုံးကန့်သတ်ချက်များမရှိဘဲ အရေးကြီးသော ကုဒ်အကြောင်းအရာများကို ထိန်းသိမ်းရန် ခွင့်ပြုသည်[17]။ Developer များသည် ခွင့်ပြုထားသော ကိရိယာများနှင့် ခွင့်ပြုချက် mode များကို သတ်မှတ်နိုင်ပြီး လုံခြုံရေးအတွက် hooks များကို ထည့်သွင်းနိုင်ပြီး guardrails များဖြင့် အလွတ်တန်းဖြစ်စေသည်[18]။
Claude Code 2.0 သည် developer များအတွက် အသုံးပြုရလွယ်ကူသော အပ်ဒိတ်များကို ပြန်လည်အသစ်ပြုလုပ်ထားပါသည်။ checkpoints သည် developer များအတွက် အောင်မြင်ခဲ့သော အဆင့်ဆင့်ကို သိမ်းဆည်းရန်နှင့် agent မှ အမှားအယွင်းပြုလုပ်သောအခါ ပြန်သွားရန် ခွင့်ပြုပါသည်[24]။ VS Code extension သည် agent ကို IDE ထဲသို့ ထည့်သွင်းထားပြီး အသစ်ပြန်လည်ပြင်ဆင်ထားသော terminal interface သည် state management ကို တိုးတက်စေပါသည်[25]။ Claude API သည် context editing နှင့် memory tool ကို ထည့်သွင်းထားပြီး agent များကို အချိန်ပိုကြာအောင် လည်ပတ်နိုင်စေရန် ချက်ချင်း context ကို ဖျက်၍ သက်ဆိုင်ရာ အပိုင်းအစများကို ပြန်လည်ယူဆောင်ပေးပါသည်[26]။ Claude ၏ app နှင့် API သည် ယခုအခါ code ကို ထုတ်လုပ်နိုင်ပြီး၊ ဖိုင်များကို ဖန်တီးနိုင်ကာ ဒေတာများကို လေ့လာနိုင်ပါသည်[27]၊ LLM ကို အပြည့်အဝ coding assistant အဖြစ် ပုံဖျက်ပြောင်းလဲနိုင်သည်။ ဒီအင်္ဂါရပ်များသည် Macaron ၏ mini-app pipeline အတွက် အထူးအရေးပါပြီး၊ အစီအစဉ် code ဖန်တီးခြင်း၊ sandbox တွင် စမ်းသပ်ခြင်း၊ အမှားပြင်ခြင်းနှင့် ပြင်ပဝန်ဆောင်မှုများနှင့် ပြန်လည်ဆက်သွယ်ခြင်းတို့ ပါဝင်သည်။
Claude Sonnet 4.5 သည် Anthropic ၏ coding၊ လုပ်ငန်းဆောင်တာများနှင့် ကွန်ပျူတာသုံးစွဲမှုအတွက် အပြည့်အဝ နိုင်စွမ်းရှိသော မော်ဒယ်ဖြစ်သည်။ DevOps.com တွင် Sonnet 4.5 သည် ယခင်မော်ဒယ်၏ ခုနစ်နာရီထက် ကြာရှည်သော ၃၀ နာရီကျော် ကို ကိုယ်ပိုင်အလုပ်လုပ်စွမ်းရည်ရှိသည်ဟု ဖော်ပြထားသည်။ ၎င်းသည် ညွှန်ကြားချက်များကို လိုက်နာခြင်း၊ ကုဒ်ပြုပြင်ခြင်းနှင့် ထုတ်လုပ်မှုအဆင်သင့် အထွက်များတွင် အထူးပြောင်မြောက်ပြီး လက်တွေ့ coding အလုပ်များတွင် SWE-Bench အတည်ပြုပြိုင်ဆိုင်မှုကို ဦးဆောင်သည်။ လက်တွေ့အသုံးပြုမှုတွင် အဆင့်မြှင့်တင်မှုများသည် သိသာဖြစ်သည်။ Replit ၏ ပြိုင်ဆိုင်မှုတွင် Sonnet 4 မှ Sonnet 4.5 သို့ ကုဒ်ပြုပြင်မှုမှားယွင်းမှု ၉% မှ ၀% အထိ လျှော့ချနိုင်ခဲ့သည်။ လုံခြုံရေးအသင်းများသည် အခွင့်အလမ်းလျှော့ချရန် အချိန်ကို ၄၄% ဖြတ်တောက်ပြီး တိကျမှန်ကန်မှုကို ၂၅% တိုးမြှင့်နိုင်ခဲ့သည်။ Netflix အင်ဂျင်နီယာများက Sonnet 4.5 ကို "ဆော့ဖ်ဝဲဖွံ့ဖြိုးရေးလုပ်ငန်းများတွင် ထူးချွန်ပြီး ငါတို့၏ ကုဒ်အခြေခံပုံစံများကို သင်ယူကာ တိကျသော အကောင်အထည်ဖော်မှုများ ဆောင်ရွက်ပေးနိုင်သည်" ဟု ဖေါ်ပြသည်။
Sonnet 4.5 ၏ developer tooling နှင့် မှတ်ဉာဏ် အင်္ဂါရပ်များသည် Agent SDK နှင့် ပေါင်းစပ်သည်။ မော်ဒယ်သည် အခြေအနေတည်းဖြတ်ခြင်းနှင့် မှတ်ဉာဏ် စီမံခန့်ခွဲမှု ကို ပံ့ပိုးပေးပြီး၊ အဟောင်း အခြေအနေများကို အလိုအလျောက် ရှင်းလင်းပေးပြီး သက်ဆိုင်ရာ အပိုင်းများကို ပြန်လည် ဦးတည်စေသည်[24]။ ယင်းသည် GUI များကို နှိပ်ခြင်း၊ ရိုက်ထည့်ခြင်း၊ မီနူးများနှင့် အပြန်အလှန် ဆက်ဆံခြင်းဖြင့် လမ်းကြောင်း ချမှတ်နိုင်ပြီး၊ API မရှိဘဲ ကိရိယာများကို အော်တိုလုပ်ဆောင်နိုင်စေသည်။ SDK ၏ sub‑agent architecture နှင့် checkpoints တို့နှင့် ပေါင်းစပ်၍ ယင်းသည် Macaron ကို နေ့များစွာ အတွင်း mini‑apps များကို context မရှုံးဘဲ ဖန်တီးနိုင်စေပြီး၊ လိုအပ်ပါက အမှားများကို ပြန်လည် ပြင်ဆင်နိုင်သည်။
Sonnet 4.5 သည် အရည်အသွေးနှင့် ကိုယ်ပိုင်လွတ်လပ်မှုကို အာရုံစိုက်နေသော်လည်း DeepSeek V3.2‑Exp သည် ထိရောက်မှုကို အရှိန်မြှင့်သည်။ ဤမော်ဒယ်သည် DeepSeek Sparse Attention (DSA) ကို မိတ်ဆက်ပေးပြီး အာရုံစိုက်ရာတွင် အရေးကြီးဆုံးသောအချက်အချာများကိုသာ ရွေးချယ်ပါသည်။ ၎င်းသည် စုပေါင်းရှုပ်ထွေးမှုကို ² O(n²) မှ O(nk) သို့ လျှော့နည်းပေးပြီး အကြာကြီး ကြည့်ရှုရာတွင် 2–3× အမြန်ဆုံး ခန့်မှန်းနိုင်စွမ်း, မှတ်ဉာဏ်အသုံးပြုမှု 30–40 % လျှော့နည်းခြင်းနှင့် API စျေးနှုန်း 50 %+ လျှော့နည်းခြင်းကို ပေးစွမ်းပါသည်[28]။ ဤကုန်ကျစရိတ်လျှော့နည်းမှုများရှိသော်လည်း၊ V3.2‑Exp သည် ယခင် V3.1‑Terminus မော်ဒယ်နှင့် အများစုသော စံချိန်များတွင် အလားတူဖြစ်နေပါသည်[29]။ အဖွင့်အရင်းအမြစ် ထုတ်ပြန်ခြင်းကြောင့် Macaron သည် မော်ဒယ်ကို ဒေသခံအဆင့်တွင် အသုံးပြုနိုင်ခြင်း၊ ဖြည့်စွက်ပြုပြင်နိုင်ခြင်းနှင့် လမ်းကြောင်းအသစ်များကို ရှာဖွေနိုင်ခြင်းကို ခွင့်ပြုသည်[30]။ Reuters သတင်းအရ DeepSeek သည် ၎င်းကို နောက်မျိုးဆက် စနစ်သို့ ရောက်ရှိရန် အလယ်အလတ်အဆင့်အဖြစ် ကြည့်ရှုကြောင်း ဖော်ပြခဲ့ပြီး၊ DSA စနစ်သည် စရိတ်ကုန်ကျမှုကို လျှော့နည်းစေပြီး အချို့သော စွမ်းဆောင်ရည်များကို မြှင့်တင်ပေးသည်[31]၊ ၎င်း၏ ဝန်ဆောင်မှုသည် အလိုအလျောက် V3.2‑Exp သို့ အဆင့်မြှင့်ပြီး အသုံးပြုသူများအတွက် စျေးနှုန်းအကြီးအကျယ်လျှော့နည်းပေးသည်[32]။
DeepSeek V3.2‑Exp သည် mixture‑of‑experts ဒီဇိုင်းကိုဆက်ခံပြီး mixed precision နှင့် multi‑head latent attention ကိုထည့်သွင်းသည်[33]။ ဒါပေမယ့် စမ်းသပ်မှုအနေအထားဖြစ်သောကြောင့် ခက်ခဲသော အကြောင်းအရင်းဆန်းစစ်မှုလုပ်ငန်းများတွင် အနည်းငယ်နောက်ပြန်လှည့်မှုများကို ပြသပြီး[34] Claude ecosystem ၏ တွဲဖက်အေးဂျင့် ကိရိယာများမပါရှိပါ။ Macaron အတွက်ဆိုရင် V3.2‑Exp သည် အလျင်အမြန်နှင့် throughput ကို အရေးကြီးစွာထားသော cost‑sensitive လုပ်ငန်းများ သို့မဟုတ် prototyping အတွက် ပိုမိုသင့်လျော်သည်။
Macaron သည် နှစ်မျိုးစလုံးကို ချိတ်ဆက်ရန်ဆုံးဖြတ်မှုသည် ၎င်းတို့၏အားသာချက်များနှင့်အားနည်းချက်များကို နှိုင်းယှဉ်ရန် ဖိတ်ခေါ်သည်။ အောက်ပါဇယားသည် အဓိက အင်္ဂါရပ်များကို အကျဉ်းချုပ်ထားသည်။
ဒီနှိုင်းယှဉ်မှုမှ၊ ကျွန်ုပ်တို့သည် hybrid မဟာဗျူဟာ တစ်ခုကို ဆွဲထုတ်နိုင်သည်။ Macaron သည် အစောပိုင်း မူကြမ်းများအတွက် DeepSeek V3.2‑Exp ကို အသုံးပြု၍ နည်းငယ်သော နောက်ကျမှုနှင့် ကုန်ကျစရိတ်မှ အကျိုးကျေးဇူးရယူနိုင်ပြီး၊ ပြီးမှ Sonnet 4.5 ဖြင့် ပြန်လည်မွမ်းမံခြင်း သို့မဟုတ် အမှန်တကယ်ဖြစ်ခြင်းနှင့် လုံခြုံမှုကို အတည်ပြုနိုင်သည်။ အနက်ရှိုင်းသော ဆင်ခြင်မှု လိုအပ်သော ဆန်းသစ်သော mini‑apps များအတွက် Sonnet 4.5 သည် အကောင်းဆုံးရွေးချယ်မှုဖြစ်ပြီး၊ V3.2‑Exp သည် အမြန် iteration များ သို့မဟုတ် အစုလိုက်အပြုံလိုက် ထုတ်လုပ်မှုတွင် ထူးချွန်သည်။
Macaron အတွက် အဓိကမေးခွန်းမှာ Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp သည် အရည်အသွေးကိုတိုးတက်စေခြင်း၊ ဖွံ့ဖြိုးတိုးတက်မှုအချိန်ကိုဖျော့ဖျောင်းစေခြင်း နှင့် အမှားများကိုလျှော့ချခြင်း တို့ကို တိုးတက်စေနိုင်ပါသလားဆိုတာဖြစ်ပါတယ်။ Macaron ၏ စနစ်အတွင်းက အချက်အလက်များကို ကျွန်ုပ်တို့ လေ့လာကြည့်ပါမည်။
Sonnet 4.5 သည် ကုဒ်အရည်အသွေးမြင့်မားခြင်းနှင့် အမှားအနည်းငယ်ဖြစ်ခြင်းကို ပေးစွမ်းသည်။ Replit အဆိုအရ၊ Sonnet 4 မှ Sonnet 4.5 သို့ ကူးပြောင်းသည့်အခါ ကုဒ်တည်းဖြတ်အမှားများသည် 9 ရာခိုင်နှုန်းမှ အနုတ်သုညသို့ကျဆင်းခဲ့သည်။ ဒါက Macaron ကနေ ဖန်တီးတဲ့ မီနီအက်ပ်တွေကို စနစ်တကျ ပြုစုနိုင်ပြီး၊ သဒ္ဒါအမှားနည်းပြီး သွင်းယူမှု ပျက်ကွက်မှုနည်းစေမှာဖြစ်တယ်။ ဒီမော်ဒယ်ရဲ့ လမ်းညွှန်ချက်တွေကို လိုက်နာမှုတိုးတက်လာတာဟာ Macaron ကို အသုံးပြုသူရဲ့ ဖော်ပြချက်တွေကို ပိုမိုမှန်ကန်စွာ နားလည်စေပြီး၊ ကုဒ်ပြန်ဖွဲ့စည်းမှုတိုးတက်လာတာက ဖန်တီးထုတ်လုပ်တဲ့ မော်ဂျူးတွေကို သန့်ရှင်းပြီး မော်ဂျူးလိုက်ဖွဲ့စည်းထားမှုရှိစေတယ်။ ရေးငွေရေးကြေးနှင့် ဆိုင်ဘာလုံခြုံရေးအလုပ်တွေမှာ Sonnet 4.5 သည် တိကျမှန်ကန်မှုကို 25 ရာခိုင်နှုန်းမှ 44 ရာခိုင်နှုန်းအထိ တိုးတက်စေပြီး၊ Macaron ရဲ့ ခရီးသွားနှင့် ကျန်းမာရေးအက်ပ်တွေမှာလည်း အလားတူ အကျိုးအမြတ်တွေ ရရှိမယ်ဆိုတာကို ဖော်ပြနေသည်။ DeepSeek V3.2‑Exp သည် ရှုပ်ထွေးသော အကြောင်းပြချက်များတွင် အနည်းငယ်အားနည်းသော်လည်း၊ V3.1 နှင့် တူညီသော ထိရောက်မှုနဲ့ ဆက်လက်လုပ်ဆောင်နိုင်ပြီး [29] ပိုမိုထိရောက်မှုမြင့်မားလာသည်။ Macaron ရဲ့ ဒိုမိန်းမှာ သုံးစွဲနိုင်ဖို့ ပြုပြင်ပြောင်းလဲမှုများ ပြုလုပ်ခဲ့ပြီး နည်းနည်းလေးသော မီနီအက်ပ်များအတွက် လုံလောက်စွာ တိကျမှန်ကန်မှုကို ထောက်ပံ့နိုင်မယ်။
Sonnet 4.5 ၏ အလိုအလျောက်လည်ပတ်နိုင်စွမ်းသည် 30 နာရီကျော်ကြာသည်မှာ Macaron သည် အဆုံးမှအစ စတင်ပြီး မနုတ်လက်လုပ်ဆောင်ပေးသော mini‑apps များကို တစ်ကြိမ်တည်း ဆက်တိုက်ထုတ်လုပ်နိုင်စေသည်။ Agent SDK ၏ အကြောင်းအရာစီမံခန့်ခွဲမှုနှင့် စစ်ဆေးမှုအချက်များဖြင့် ပေါင်းစပ်ပြီး လုပ်ငန်းများကို ပြန်စပြီးနောက် context ကို ပြန်လည်တင်ခြင်းအတွက် ကုန်သက်သာစေသည်။ Sub‑agent အဆောက်အအုံက Macaron ကို လုပ်ငန်းများကို ထပ်တူလုပ်ဆောင်ရန် ခွင့်ပြုသည် - အေးဂျင့်တစ်ခုသည် UI ထုတ်လုပ်မှုကို ကိုင်တွယ်နိုင်ပြီး အခြားတစ်ခုသည် API ပေါင်းစည်းမှုကို စီမံနိုင်သည်။ တစ်ခုချင်းစီသည် ကိုယ်ပိုင် context နှင့် ကိရိယာများဖြင့် အလုပ်လုပ်သည်။ အထိန်းသိမ်းမှုတွင် DeepSeek V3.2‑Exp ၏ 2–3× လျင်မြန်သော အချက်အလက်သိမ်းခြင်း နှင့် အမှတ်စဉ်သိမ်းဆည်းမှု လျော့နည်းခြင်းကြောင့် လျင်မြန်သော တုံ့ပြန်ချက်များကို ရရှိစေနိုင်သည်။ ဥပမာအားဖြင့် ခရီးသွားအစီအစဉ်တစ်ခုကို Sonnet 4.5 ဖြင့် 30 စက္ကန့်တွင် ထုတ်လုပ်ရန်လိုအပ်ပါက V3.2‑Exp က 10–15 စက္ကန့်အတွင်း အrough ဖျော်ဖြေရေးကို ထုတ်နိုင်သည် - ထို့နောက် Sonnet 4.5 က ထပ်မံပြုပြင်ခြင်းကို ဆောင်ရွက်မည်ဖြစ်သည်။ အကျိုးသက်ရောက်မှုက အရင်အသုံးပြုနိုင်သော ဗားရှင်းတစ်ခုကို ပိုမိုမြန်ဆန်စေရန်နှင့် အသုံးပြုသူ၏ အကြံပြုချက်များကို လျင်မြန်စွာ ပြန်လည်သုံးသပ်နိုင်စေသည်။
အလိုအလျောက်လုပ်ငန်းစဉ်များသည် လူ့အမှားများကို လျော့နည်းစေသော်လည်း ကိုယ်ပိုင်အုပ်ချုပ်မှုသည် မှန်ကန်စွာ စီမံခန့်ခွဲခြင်းမရှိပါက အမှားအသစ်များကို စတင်နိုင်ပါသည်။ Agent SDK ၏ စစ်ဆေးမှုအချက်အလက်များ က တီထွင်သူများအား အေးဂျင့်၏ အခြေအနေကို သိမ်းဆည်းပြီး ပြန်လည်ပြုပြင်ရန် ခွင့်ပြုသည် [24]။ Macaron သည် mini‑app ဖန်တီးခြင်းအတွင်း အမှားသုံး API ခေါ်ဆိုမှုတစ်ခုပြုလုပ်ပါက သို့မဟုတ် မှားယွင်းသော ဖိုင်သို့ ရေးသားပါက အတိတ်မှတ်တိုင်သို့ ပြန်လည်ပြုပြင်နိုင်ပြီး အစမှပြန်စရန် မလိုအပ်ပါ။ အကြောင်းအရာတည်းဖြတ်ခြင်း သည် token စွန့်ပစ်မှုကို တားဆီးပြီး ပတ်သက်သည့် အကြောင်းအရာများသာ ထိန်းသိမ်းထားသည့်အတွက် မှားယွင်းခြင်းများကို လျှော့ချပေးသည်။ DeepSeek အတွက်ဖွင့်လှစ်များသော ပြန်လည်ထုတ်ပြန်မှုက Macaron ၏ အဖွဲ့အား မော်ဒယ်ကို စစ်ဆေးခြင်းနှင့် ပြုပြင်ပြောင်းလဲခြင်း၊ စိတ်ကြိုက်လုံခြုံရေးစစ်ဆေးမှုများကို ပေါင်းစပ်ခြင်းနှင့် လုပ်ငန်းခွင်အထူးပြု အလုပ်များအတွက် ပြုပြင်မှန်ကန်မှုများကို လုပ်ဆောင်နိုင်စေပါသည်။ ထို့အပြင် Macaron ၏ ကိုယ်ပိုင် RL အစီအစဉ်များ – အချိန်လိပ်ပြာ၊ အပြန်အလှန်အကဲဖြတ်ခြင်းနှင့် တရားမျှတမှုကန့်သတ်ချက်များသည် အသုံးပြုသူကျေနပ်မှုကို ဆက်လက်စောင့်ကြည့်ပြီး အန္တရာယ်ရှိသော အပြုအမူများကို ပြစ်ဒဏ်ပေးခြင်း [2][5]၊ အမှားများနှင့် သက်ဆိုင်ရာ ကျင့်ဝတ်ချိုးဖောက်မှုများကို လျော့နည်းစေပါသည်။
အရည်အသွေးမြင့်မော်ဒယ်များမှာ တန်ဖိုးရှိပါတယ်။ Sonnet 4.5 ၏ token စျေးနှုန်းမှာ Sonnet 4 ($3/M input tokens, $15/M output tokens) [37] နှင့်မပြောင်းလဲပါ။ DeepSeek V3.2‑Exp သည် API ခေါ်ဆိုမှုများ၏ကုန်ကျစရိတ်ကိုထပ်ခဲပြီးဖြတ်တောက်သည် [38] အပြင်၊ open‑source ဖြစ်သောကြောင့် ကိုယ်တိုင်ဆောင်ရွက်နိုင်ပါသည်။ ထို့ကြောင့် Macaron သည် V3.2‑Exp ကို အစပိုင်းမူကြမ်းများသို့မဟုတ် အရေးမကြီးသည့်အလုပ်များ (ဥပမာ၊ UI အစိတ်အပိုင်းများ ဖန်တီးခြင်း သို့မဟုတ် ရိုးရှင်းသော တွက်ချက်ချက်များ) အတွက် အသုံးပြုခြင်းဖြင့် ကုန်ကျစရိတ်များကို ထိရောက်စွာလျှော့ချနိုင်ပြီး Sonnet 4.5 ကို အရေးကြီးသော အလုပ်များ (ဥပမာ၊ ငွေကြေးစီမံကိန်းရေးဆွဲခြင်း၊ ဆေးဘက်ဆိုင်ရာ အကြံပေးခြင်း) အတွက် အသုံးပြုပါသည်၊ ထိရောက်မှုနှင့် လိုက်နာမှုမှာ အရေးကြီးသော နေရာများတွင် အသုံးပြုပါသည်။ အမြန်ဆုံး ရလဒ်များနှင့် GPU သုံးစွဲမှု လျော့နည်းမှုမှ အားသာချက်များသည် လည်းကောင်း ကွန်ပျူတာကုန်ကျစရိတ်များကိုလည်း လျော့ချပေးသည်။
မော်ဒယ်ကိုတိုးတက်စေရန်သည် ကာတွန်းရဲ့အပေါ်ယံပိုင်းသာဖြစ်သည်; လေ့ကျင့်မှုထိရောက်မှုသည် Macaron သည် RL မူဝါဒများကို အမြန်ဆုံးထပ်ခါတလဲလဲပြုလုပ်နိုင်သည့်နည်းလမ်းကို ထိခိုက်စေသည်။ MIND LABS သည် Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) ကို Low‑Rank Adaptation (LoRA) နှင့်ပေါင်းစပ်ထားသော All‑Sync RL ဖွဲ့စည်းပုံကိုဖော်ပြသည်။ 512 GPUs လိုအပ်သော စံ RL နှင့်နှိုင်းယှဉ်ပါက 671B DeepSeek မော်ဒယ်ကို 48 H800 GPUs ဖြင့်လေ့ကျင့်ရန် 10× လျော့ချခြင်း ဖြစ်သည်[39]။ Coati နှင့် SGLang ကိုအသုံးပြုသော ပိုက်လိုင်းကိုမျဉ်းရိုးလိုက်သည့်နည်းဖြင့်၊ မြန်ဆန်သော LoRA ပေါင်းစပ်ခြင်းနှင့်အရည်အသွေးတိုးမြှင့်ခြင်းသည် GPUs များသည် သတ်မှတ်ချက်ကိုစောင့်နေစဉ် အလုပ်မလုပ်သည့် “GPU အမြွှာများ” ကိုဖယ်ရှားပစ်သည်[40]။ ရလဒ်မှာ တစ်ကြိမ်သင်ကြားမှုအဆင့်အတွက် နာရီ ၉ မှ နာရီ ၁.၅ အထိ နံရံ-နာရီအချိန်ကို လျှော့ချခြင်းဖြစ်သည်[41]။ ဤတိုးတက်မှုများကြောင့် Macaron သည် ၎င်း၏ဆုချီးမြှင့်မော်ဒယ်များ သို့မဟုတ် မှတ်မိမှုတံခါးများကိုပိုမြန်စွာပြန်လည်လေ့ကျင့်နိုင်ပြီး သုံးစွဲသူများထံသို့တိုးတက်မှုများကိုပိုမြန်စွာပေးပို့နိုင်သည်။
ပုံ ၁ – All‑Sync RL ကို LoRA နှင့် အသုံးပြုသောအခါ GPU အသုံးပြုမှု 512 မှ 48 H800 GPU များအထိ ကျဆင်းပြီး RL သုတေသနပြုခြင်းကို ပိုမိုရရှိနိုင်စေရန်နှင့် အမြန်လေ့လာနိုင်စေရန် အထောက်အပံ့ ပေးသည်[39]။
ထိရောက်မှုကို ကျော်လွန်၍ LoRA ၏ အဆင့်နိမ့်အပ်ဒိတ်များက မော်ဒယ်အလေးချိန် ဆက်သွယ်မှုကုန်ကျစရိတ်များကို လျှော့ချပြီး ဒိုင်နမစ်နမူနာယူခြင်းက လေ့ကျင့်မှုကို တည်ငြိမ်စေရန် ဦးစားပေးချက်များကို စစ်ထုတ်ခြင်းနှင့် ဆုလာဘ်များကို ပုံသဏ္ဍာန်ဖျော်ဖြေရန် ကူညီသည်[42]။ Macaron အတွက် ဤနည်းစနစ်များသည် နောင်တစ်ချိန်တွင် မှတ်ဉာဏ်နှင့် မူဝါဒ အပ်ဒိတ်များကို ကွန်ပြူတာကုန်ကျစရိတ်များ များပြားစွာ မပေးရဘဲ အမြန်လေ့ကျင့်နိုင်သည်ကို ဆိုလိုသည်။
Macaron ဖြင့် မီနီအက်ပ် တစ်ခု ဖန်တီးရန် လုပ်ငန်းစဉ်အဆင့်များမှာ:
Sonnet 4.5 နဲ့ DeepSeek V3.2-Exp ကို ပေါင်းစပ်ခြင်းဖြင့် Macaron ကဒီလုပ်ငန်းစဉ်ကို ကိုယ်ရေးကိုယ်တာဖန်တီးနိုင်ပါတယ်။ ဥပမာ၊ ခရီးထွက်စီစဉ်တဲ့အက်ပ်မှာ UI ဖန်တီးသူ ကိုယ်စားလှယ်က DeepSeek ကိုသုံးပြီး အပြင်အဆင်တွေကို မြန်မြန်ဆန်ဆန် တင်ပြနိုင်ပြီး၊ စီစဉ်မှု လိုဂစ်နဲ့ အချိန်ဇယား ကောင်းမွန်မှုကို Sonnet 4.5 အသုံးပြုကာ ပြောဆိုမှုတိကျမှုနဲ့ ပြဿနာကောင်းမွန်စွာ ကိုင်တွယ်နိုင်ပါတယ်။ ဘဏ္ဍာရေးခန့်မှန်း အက်ပ်က DeepSeek ကို ပထမဆုံး ဇယားတွေ နဲ့ အချိန်ဇယားတွေ ရေးဆွဲဖို့ အားထားသော်လည်း Sonnet 4.5 ကို အသုံးပြုပြီး ဘဏ္ဍာရေးတွက်ချက်မှုများကို စိစစ်ခြင်း နှင့် စည်းမျဉ်းများနှင့် ကိုက်ညီမှုကို သေချာစေရန် အသုံးပြုသည်။
ဒီနည်းပညာတွေက ပေးတဲ့ အကျိုးကျေးဇူးတွေကို ဖျော်ဖြေရန် အောက်ပါဇယားတွေက အဓိကပြည့်စုံမှုများကို အကျဉ်းချုပ်ထားပါတယ်။
ပုံ ၂ – Sonnet 4.5 နှင့် DeepSeek V3.2‑Exp တို့၏ ကုဒ်ရေးသားမှုတိကျမှု၊ အ-relative အမြန်နှုန်း၊ ကုန်ကျစရိတ်နှင့် ကိုယ်ပိုင်လွတ်လပ်မှုတို့ကို နှိုင်းယှဉ်ကြည့်ခြင်း။ အမြင့်ဆုံးဘားများသည် တိကျမှုနှင့် ကိုယ်ပိုင်လွတ်လပ်မှုအတွက် ပိုမိုကောင်းမွန်သောတန်ဖိုးများကို ကိုယ်စားပြုသည်။ နိမ့်သောဘားများသည် ထိရောက်မှုနှင့် ကုန်ကျစရိတ်အတွက် ပိုမိုကောင်းမွန်သော (မြန်ဆန်သော်လည်း သက်သာသော) စွမ်းဆောင်ရည်ကို ဖော်ပြသည်။
ပုံ ၃ – Replit ၏ ပြည်တွင်းစံချိန်များအရ Sonnet 4 တွင် ၉% ရှိသည့် ကုဒ်တည်းဖြတ်မှုအမှားများသည် Sonnet 4.5 တွင် သုညသို့ ကျဆင်းသွားခြင်းကို ပြသသည်။ အညွှန်းအတိုင်း လိုက်နာမှုအား မြှင့်တင်ခြင်းနှင့် ကုဒ်ပြန်ဖွဲ့စည်းမှုနှင့်အတူ ပိုမိုယုံကြည်ရသော မီနီအက်ပ်များဖြစ်လာသည်။
ပုံ ၄ – DAPO နှင့် LoRA ကို All‑Sync RL ပိုက်လိုင်းတွင် ပေါင်းစပ်သုံးခြင်းသည် လေ့ကျင့်မှုအဆင့်တစ်ခု၏ နာရီကို ၉ နာရီမှ ၁.၅ နာရီအထိ လျော့ချပေးပြီး[၄၁]* ဆုဖြစ်စေရေး မော်ဒယ်နှင့် မှတ်ဉာဏ်မူဝါဒများကို မြန်မြန်စွာ အပ်ဒိတ်လုပ်ရန် အခွင့်အလမ်းပေးသည်။*
ဤရုပ်ပုံများသည် အကျိုးကျေးဇူးများသည် သီအိုရီအဖြစ်မဟုတ်ကြောင်း အထောက်အထားပေးသည်။ GPU လိုအပ်ချက်များလျော့နည်းခြင်း၊ လေ့ကျင့်မှုမြန်ဆန်ခြင်း၊ တိကျမှုမြင့်မားခြင်းနှင့် ကုန်ကျစရိတ်နည်းခြင်းတို့သည် မီနီအက်ပ်ပိုက်လိုင်းကို ပိုမိုချောမွေ့စေရန်နှင့် ထိရောက်မှုမြင့်စေရန် အားပေးပြုလုပ်သည်။
လာမည့်အချိန်တွင် Anthropic နှင့် DeepSeek နှစ်ခုလုံးမှာ ပိုမိုမြင့်မားသော အဆောက်အအုံများကို ရှုမြင်နေကြောင်း အစအနများပြထားကြသည်။ Sonnet 4.5 ၏ ဆက်ခံအဆက်သည် ပိုမိုကျယ်ပြန့်သော အကြောင်းအရာပြကြားမှုများ၊ ဘာသာစကားများအတွက် အကြောင်းအရာကို တိုးချဲ့ခြင်းနှင့် ပိုမိုစတင်နှောင့်ယှက်မှုများကို ပံ့ပိုးနိုင်သည်။ DeepSeek ၏ နောက်မျိုးဆက် အဆောက်အအုံသည် ကြည်လင်သော အာရုံစိုက်မှုကို အခြေခံ၍ ပိုမိုမြင့်မားသော လုပ်ဆောင်ချက်များကို နည်းဆုံးကုန်ကျစရိတ်ဖြင့် ရရှိစေရန် မျှော်လင့်ထားသည်[31]။ Macaron အတွက်၊ ကိုယ်တိုင်စိုက်ထူမှတ်ဉာဏ်၊ သက်တမ်းရှည်လေ့လာမှု နှင့် ဘာသာစကားဖြတ်ကျော်ညှိနှိုင်းခြင်းတို့ကို ပိုမိုကောင်းမွန်စေရန်ဆန်းစစ်ချက်များ ဆောင်ရွက်နိုင်သည်[43]။ ဖက်ဒရယ်လေ့လာမှုကို ပေါင်းစပ်ခြင်းက အသုံးပြုသူများကို အမှတ်ဉာဏ်မော်ဒယ်များကို ဒေသတွင်းတွင် လေ့ကျင့်ခွင့်ပြုပြီး မော်ဒယ်အဆင့်မြှင့်တင်မှုများကိုသာ မျှဝေခြင်းဖြင့် ပိုင်ဆိုင်မှုကို ထိန်းသိမ်းရင်း ပေါင်းစပ်လုပ်ဆောင်ချက်များကို တိုးတက်စေရန် အထောက်အကူဖြစ်စေသည်[43]။ RL ဘက်တွင်၊ Macaron ၏ လုပ်ဆောင်မှုသည် အကြောင်းပြချက်များကို ပေးရန် နာမည်ကြီးသီအိုရီများ – ပရဟိတဝါဒ၊ တရားဥပဒေကျင့်သုံးမှု၊ သင်္ကေတကျင့်ဝတ်တို့ကို ပေါင်းစပ်အသုံးပြုနိုင်သည်[44]။
အနှစ်ချုပ်, Macaron သည် Claude Sonnet 4.5 နှင့် DeepSeek V3.2-Exp ကို Claude Agent SDK ဖြင့် ချိတ်ဆက်ရန် ဆုံးဖြတ်မှုကြောင့် ကိုယ်ပိုင် AI ၏ နောက်ဆုံးထိပ်သီးတွင် ရပ်တည်ထားသည်။ Sonnet 4.5 သည် အနန္တအရည်အသွေး၊ တိုးတက်သော ကိုယ်ပိုင်အုပ်ချုပ်မှုနှင့် သုံးစွဲသူအတွက် အထူးကိရိယာများကို ပေးစွမ်းသည်။ DeepSeek သည် အမြန်နှုန်း၊ ထိရောက်မှုနှင့် ဖွင့်လှစ်ရင်းမြစ်အလွယ်တကူပြုပြင်နိုင်မှုကို ပေးသည်။ Macaron ၏ လှည့်ကြိုးသင်ကြားမှုနည်းစနစ်များနှင့် မှတ်ဉာဏ်အင်ဂျင်ကို အတူတကွပေါင်းစပ်ထား၍ မီနီအက်ပ်များကို ပိုမိုလျင်မြန်စွာ၊ ချောမွေ့စွာ တည်ဆောက်ရန်နှင့် အမှားများ လျော့နည်းစေရန် ကူညီပေးမည်ဖြစ်သည်။ ကိုယ်ပိုင် AI က ဆက်လက်တိုးတက်နေသည့်အခါ Macaron ၏ ကိုယ်ပိုင်အုပ်ချုပ်မှု၊ လုံခြုံမှု၊ သီလနှင့် ထိရောက်မှုတို့၏ ပေါင်းစပ်မှုသည် တာဝန်ရှိသော ဖန်တီးမှုအတွက် နမူနာ ဖြစ်သည်။
[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Macaronရဲ့မှတ်ဉာဏ်အင်ဂျင်အတွင်း၊ဖိသိပ်ခြင်း၊ယူဆောင်ခြင်းနှင့်ဒိုင်းနမစ်ဂိတ်တံခါးများ - Macaron
https://macaron.im/memory-engine
[2] [3] [4] [5] [44] [ခေါင်းစဉ် မသိရသေးပါ]
https://macaron.im/reinforcement-learning
[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Claude Code ရဲ့ SDK နဲ့ အေးဂျင့်တွေ တည်ဆောက်ခြင်း
https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/
[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: လက္ခဏာများ၊ စျေးနှုန်းနှင့် နှိုင်းယှဉ်ခြင်း - Dataconomy
https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/
[28] [29] [30] [32] [33] [34] [35] AI နဲ့ AI: DeepSeek-3.2-Exp နဲ့ DSA – Champaign မဂ္ဂဇင်း
https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/
[31] [38] China's DeepSeek သည် နောက်မျိုးဆက်သို့ ဦးတည်သည့် 'အလယ်အလတ်' AI မော်ဒယ်ကို ထုတ်ပြန်သည် | Reuters
[39] [40] [41] [42] MIND LABS | DAPO နှင့် LoRA နှင့်အတူ All-Sync RL ကို တိုးချဲ့ခြင်း