Pagpapalakas ng Kakayahan ng Macaron sa pamamagitan ng mga Update ng Claude at DeepSeek

May-akda: Boxu Li

Ang Macaron AI ay hindi lamang isang productivity tool – ito ay isang plataporma na nagiging mga mini-aplikasyon ang ating mga pag-uusap na nagmamanage ng mga kalendaryo, nagpaplano ng mga biyahe, at nagsasaliksik ng mga libangan. Sa ilalim ng magiliw na anyo, mayroong isang sopistikadong reinforcement learning (RL) system at isang memory engine na natatandaan ang mahalaga at kinakalimutan ang hindi[1]. Habang naghahanda ang Macaron na i-integrate ang Claude Sonnet 4.5 at DeepSeek V3.2‑Exp, kasama ang Claude Agent SDK/Code 2.0, tatalakayin ng blog na ito kung paano mapapabuti ng mga bagong modelong ito at mga kasangkapan ang kalidad ng output ng Macaron, paikliin ang paggawa ng mini-app at bawasan ang mga bug. Pinagsasama namin ang mga teknikal na pananaw mula sa mga update ng developer ng Anthropic, pananaliksik ng DeepSeek, at sariling engineering blogs ng Macaron upang makabuo ng malinaw na larawan ng hinaharap.

1 Ang internal engine ng Macaron: RL, memorya at etika

Bago ihambing ang mga modelo, makatutulong na maunawaan kung ano ang nagpapabukod-tangi sa Macaron. Ang Macaron ay gumagamit ng isang multi-layered RL system upang i-convert ang pang-araw-araw na pag-uusap sa mga gawain at code. Ang sistema ay naghahati sa problema sa ilang mga module – pamamahala ng pag-uusap, pagpili ng memorya, pagbuo ng code, at feedback ng simulator – at inilalapat ang hierarchical reinforcement learning (HRL) upang i-coordinate ang mga ito[2]. Isang high-level na meta-controller ang nagpapasya kung aling module ang susunod na ia-activate, habang ang mga mababang antas ng RL policies ay nagpapasya sa tiyak na mga aksyon tulad ng pagkuha ng memorya, pagtawag sa isang API o pag-execute ng nabuong code[2]. Ang disenyo na ito ay nagbibigay-daan sa Macaron na hatiin ang kumplikadong mga layunin – mula sa pagpaplano ng biyahe hanggang sa pag-oorganisa ng pananalapi – sa mga kayang pamahalaang sub-tasks.

1.1 Reward modelling and human feedback

Sa personal na AI, walang nag-iisang “panalong kondisyon”; mahalaga ang kasiyahan ng gumagamit, pagkapribado, pagiging napapanahon at kultural na detalye. Binubuo ng Macaron ang gantimpalang function nito sa pamamagitan ng pagsasama ng implicit at explicit na feedback. Ang mga implicit na senyales ay kinabibilangan ng haba ng pag-uusap, dalas ng paggamit at tono, habang ang mga explicit na rating at thumbs-up/down ay tumutulong sa pagkakalibrate ng mga kagustuhan[3]. Gumagamit din ang Macaron ng preference elicitation, na nagpapakita ng mga alternatibong tugon o disenyo ng mini-app at nagtatanong sa mga gumagamit kung alin ang kanilang mas gusto. Ang isang inference model ay pagkatapos natututo ng latent utility function sa mga posibleng aksyon, katulad ng reinforcement learning mula sa human feedback (RLHF) ngunit pinalawig sa mga kultural na anotasyon – binibigyang diin ng mga Japanese rater ang paggalang at konteksto, habang itinatampok ng mga Korean rater ang komunyal kumpara sa indibidwalistikong parirala[4]. Ang mga senyas na ito ay pumapasok sa isang reward model na hinuhulaan ang kasiyahan ng gumagamit at hinihikayat ang ahente na sundin ang mga lokal na kaugalian.

1.2 Hierarchical RL at mga macro-action

Upang pamahalaan ang iba't ibang gawain ng user, ginagamit ng Macaron ang HRL upang pumili ng mga module at sub-policy. Sa loob ng mga module, ginagamit nito ang framework ng mga opsyon: isang sunod-sunod na mga aksyon na nakakamit ng isang sub-goal ay itinuturing na isang solong opsyon (halimbawa "i-summarize ang gastusin noong nakaraang buwan" o "irekomenda ang isang bilingual na plano sa pag-aaral")[3]. Ang mga opsyon na natuklasan sa isang domain ay maaaring ilipat sa iba pa kung ang mga istruktura sa ilalim nito ay nag-aalign. Ang Macaron ay nagtatakda rin ng mga macro-action na sumasaklaw sa mga multi-turn na dialogo o pinalawig na mga pagkalkula, tulad ng pagpaplano ng isang bakasyon ng pamilya (patutunguhan, transportasyon, akomodasyon at itineraryo)[3]. Ang mga RL agent ay nag-evaluate ng mga macro-action batay sa kabuuang gantimpala kaysa sa mga panandaliang signal, hinihikayat ang agent na i-optimize ang pangmatagalang kasiyahan.

1.3 Credit assignment at time weaving

Mahirap tukuyin ang kredito sa mga partikular na aksyon kapag huli dumating ang mga gantimpala. Gumagamit ang Macaron ng time weaving, na nag-uugnay ng mga kaganapan sa iba't ibang panahon gamit ang mga salaysay na hibla. Ang sistema ay bumubuo ng grap ng mga interaksyon kung saan ang mga node ay kumakatawan sa mga alaala at ang mga gilid ay kumakatawan sa mga sanhi ng relasyon; kapag sinusuri ang isang kinalabasan, sinusundan nito ang grap pabalik upang tukuyin kung aling mga retrieval o aksyon ang nag-ambag[2]. Ang counterfactual reasoning ay tumutulong upang masuri kung ano ang mangyayari kung ang mga alternatibong aksyon ay kinuha, na pumipigil sa ahente na awtomatikong ipalagay na ang pag-uulit ng matagumpay na aksyon ay palaging nagbubunga ng parehong gantimpala[2]. Gumagamit din ang Macaron ng mga naantalang gantimpala at eligibility traces upang ibalik ang signal sa mga naunang desisyon – tulad ng pagpili ng alaala o tono ng pag-uusap – na hinihikayat ang ahente na i-optimize ang pangmatagalang kasiyahan[5].

1.4 Katarungan, kaligtasan, at etika

Dapat iwasan ng mga personal na AI agent ang pagkiling at sumunod sa mga regulasyon. Isinasama ng Macaron ang mga hadlang sa katarungan sa reward function; halimbawa, pinaparusahan ang agent kung palagi nitong nirekomenda ang mga aktibidad na tiyak sa kasarian nang hindi hiniling[5]. Ang isang aklatan ng etikal na patakaran ay nag-eencode ng mga pamantayang kultural at legal na kinakailangan, at ang paglabag sa mga gabay na ito ay nagreresulta sa negatibong gantimpala o ganap na pagharang ng aksyon[5]. Kasama ang pangangasiwa ng tao sa mga desisyong may mataas na epekto tulad ng pagpaplano ng pananalapi o payo sa kalusugan, na sumusunod sa Korean AI Framework Act at Japan’s AI Promotion Act[5]. Ina-log ng Macaron ang mga desisyon sa RL at nagbibigay ng paliwanag sa mga user kung bakit napili ang ilang alaala o module, na sumusuporta sa mga audit at transparency[5].

1.5 Ang memory engine: compression, retrieval at gating

Ang memory engine ng Macaron ay ang gulugod ng personalisasyon. Inaayos nito ang mga alaala sa pansamantalang, episodiko at pangmatagalang mga imbakan. Ang pansamantalang imbakan ay naglalaman ng kasalukuyang pag-uusap (8–16 mensahe); ang episodikong imbakan ay naglalaman ng mga kamakailang pakikipag-ugnayan na pinipiga gamit ang convolutional attention; at ang pangmatagalang imbakan ay gumagamit ng isang high-dimensional vector database na may mga metadata tag (oras, domain, wika)[6]. Upang pamahalaan ang gastos, ang Macaron ay gumagamit ng latent summarisation upang tukuyin ang mga kapansin-pansing segment at i-compress ang mga ito sa mga fixed-length na vector; isang autoencoding objective ang muling bumubuo ng mga nakatagong estado mula sa mga compressed na buod, at ang RL ay pinapino ang summariser upang mapanatili ang impormasyon na mahalaga para sa susunod na pag-alaala[7]. Ang isang dynamic memory token ay kumikilos bilang isang pointer network: ito ay kumukuha ng mga kandidatong alaala, sinusuri ang kaugnayan at nagpapasya kung ibabalik ang mga ito o magpapatuloy sa paghahanap[8].

Ang pagkuha ay kinabibilangan ng approximate nearest neighbour search gamit ang product quantisation at maximal marginal relevance upang balansehin ang pagkakatulad at pagkakaiba-iba [9]. Ang pagpapalawak ng query ay gumagamit ng layunin ng user at latent intent; halimbawa, ang isang kahilingan sa Hapon para sa "花火大会" (pagdiriwang ng paputok) ay lumalawak upang isama ang mga tiket, petsa, at panahon [10]. Ang relevance federation ay humahawak sa mga cross-domain na query, gamit ang isang softmax gating function upang ipamahagi ang mga retrieval probabilities sa iba't ibang mga domain at wika [11]. Ang mga bahaging ito ay sinasanay gamit ang RL, at ang credit assignment sa pamamagitan ng time weaving ay tinitiyak na natutunan ng agent kung aling mga alaala ang mahalaga [12]. Ang memory system ng Macaron ay naiiba sa tradisyonal na retrieval-augmented generation (RAG) sapagkat ang mga alaala ay tiyak sa user, ang storage at retrieval ay ginagabayan ng RL, at ang bawat alaala ay may kasamang metadata ng privacy na namamahala sa pag-access [13].

2 Ang Claude Agent SDK at Claude Code 2.0

Bagamat matibay ang internal architecture ng Macaron, ang paggawa ng mini-apps ay nangangailangan pa rin ng pagbabasa at pagsulat ng mga file, pag-execute ng code, paggamit ng version control, at pakikipag-ugnayan sa web APIs. Ang Claude Agent SDK ng Anthropic ay nagbibigay ng eksaktong mga kakayahang ito, na naglalantad ng parehong agent harness na nagpapatakbo sa terminal assistant ng Claude Code[14]. Ito ay naglalaman ng mga detalyadong tools: file operations (read, write, grep, glob), bash commands, web fetch, multi-language code execution at Git operations[15]. Hindi tulad ng mga assistant na pre-index ang codebase, ang mga Claude agents ay nagsasaliksik on demand gamit ang grep/find/glob para hanapin ang mga file, na ginagawa silang mas flexible sa dynamic na repos[16]. Ang SDK ay kasama ang malalaking context windows na may awtomatikong compaction at summarisation, na nagpapahintulot sa mga agent na maghawak ng malawak na code context nang hindi naaabot ang token limits[17]. Ang mga developer ay maaaring tukuyin ang mga pinapayagang tools at permission modes at magdagdag ng hooks para sa kaligtasan, na nagbibigay-daan sa autonomy na may mga guardrails[18].

Pangunahing bahagi ng SDK

Mga Kasangkapan – Pinapayagan ng SDK ang mga inhinyero na pumili kung aling mga kasangkapan (file I/O, bash, web fetch, pagsasagawa ng code) ang magagamit ng isang ahente[19].
MCP na mga extension – Ang integrasyon sa Model Context Protocol ay nagbibigay-daan sa mga panlabas na server (mga database, email search, vector search) na palawakin ang hanay ng mga kasangkapan[20].
Mga Sub-agent – Ang mga ahenteng tinukoy sa .claude/agents ay may sariling mga sistema ng prompt, limitadong hanay ng mga kasangkapan at opsyonal na pagpili ng modelo; ang mga gawain ay maaaring i-delegate sa mga sub-agent na ito[21].
Memorya at konteksto ng proyekto – Isang matibay na scratchpad (CLAUDE.md) ang nagpapanatili ng konteksto sa mga sesyon at iginagalang ang repo-level na configuration[22].
Pamamahala ng konteksto at runtime – Ang awtomatikong pag-compress ng konteksto, streaming ng mga tugon at uri ng paghawak sa mga error ay nagpapadali sa mga mahabang takbuhan na gawain[23].

Mga bagong tampok sa Claude Code 2.0

Ang Claude Code 2.0 ay nagdadala ng mga pag-update na friendly para sa developer: ang mga checkpoints ay nagpapahintulot sa mga developer na i-save ang progreso at bumalik kapag nagkamali ang agent[24]. Ang isang VS Code extension ay nagsasama ng agent sa IDE, habang ang isang na-refresh na terminal interface ay nagpapabuti sa pamamahala ng estado[25]. Ang Claude API ay nagkakaroon ng context editing at isang memory tool na tumutulong sa mga agent na patakbuhin nang mas matagal sa pamamagitan ng awtomatikong pag-clear ng konteksto at pagkuha ng mga kaugnay na bahagi[26]. Ang app at API ng Claude ay maaari nang magpatupad ng code, lumikha ng mga file at magsuri ng data[27], na ginagawang isang buong coding assistant ang LLM. Ang mga tampok na ito ay partikular na mahalaga para sa mini-app pipeline ng Macaron, na kinabibilangan ng pagbuo ng program code, pagsubok nito sa isang sandbox, pagwawasto ng mga error at pakikipag-ugnayan sa mga panlabas na serbisyo.

3 Claude Sonnet 4.5: mahabang awtonomiya at mas mataas na kalidad

Ang Claude Sonnet 4.5 ay ang pinaka-kapable na modelo ng Anthropic para sa pag-coding, mga gawaing agentic, at paggamit ng computer. Iniulat ng DevOps.com na ang Sonnet 4.5 ay maaaring mag-operate nang awtonomo sa loob ng mahigit 30 oras, mas mahaba kaysa sa pitong oras ng nauna nito. Mahusay ito sa pagsunod sa mga instruksyon, pag-refactor ng code, at paggawa ng production-ready na output, at nangunguna sa SWE-Bench Verified benchmark sa mga makatotohanang gawain sa pag-coding. Sa mga tunay na deployment, ang mga pagpapabuti ay kapansin-pansin: ang panloob na benchmark ng Replit ay nakakita ng pagbaba ng mga pagkakamali sa pag-edit ng code mula 9% sa Sonnet 4 hanggang 0% sa Sonnet 4.5, habang ang mga cybersecurity team ay nabawasan ang oras ng pagpasok ng kahinaan ng 44% at pinahusay ang katumpakan ng 25%. Inilarawan ng mga inhinyero ng Netflix ang Sonnet 4.5 bilang “napakahusay sa mga gawain sa pag-develop ng software, natutunan ang mga pattern ng aming codebase upang maghatid ng tiyak na mga implementasyon”.

Ang mga developer tooling at memory features ng Sonnet 4.5 ay nagtutulungan sa Agent SDK. Sinusuportahan ng model ang context editing at memory management, na awtomatikong naglilinis ng lumang konteksto at nagdadala ng mga kaugnay na piraso pabalik sa pokus[24]. Maaari itong mag-navigate sa mga GUI sa pamamagitan ng pag-click, pag-type, at pakikipag-ugnayan sa mga menu, na nagpapahintulot sa automation ng mga tool nang walang APIs. Sa pagsasama ng sub-agent architecture at checkpoints ng SDK, nangangahulugan ito na maaaring gumawa ang Macaron ng mga mini-app sa loob ng mga sesyon na tumatagal ng ilang araw nang hindi nawawala ang konteksto, at mai-rollback ang mga pagkakamali kung kinakailangan.

4 DeepSeek V3.2-Exp: kahusayan sa pamamagitan ng sparse attention

Habang ang Sonnet 4.5 ay nakatuon sa kalidad at awtonomiya, binibigyang-diin ng DeepSeek V3.2-Exp ang kahusayan. Ang modelo ay nagpapakilala ng DeepSeek Sparse Attention (DSA), na pumipili lamang ng pinakamahalagang mga token sa panahon ng atensyon. Binabawasan nito ang kumplikado mula sa quadratic O(n²) patungo sa O(nk), na nagbibigay ng 2–3× mas mabilis na inference sa mahabang konteksto, 30–40 % na mas mababang paggamit ng memorya at isang 50 %+ pagbawas sa presyo ng API[28]. Sa kabila ng mga pagtitipid na ito, pinapanatili ng V3.2-Exp ang pagkakapareho sa nakaraang V3.1-Terminus na modelo sa karamihan ng mga benchmark[29]. Ang open-source na bersyon ay nagpapahintulot sa Macaron na patakbuhin ang modelo nang lokal, i-fine-tune ito at tuklasin ang mga bagong arkitektura[30]. Iniuulat ng Reuters na ang DeepSeek ay nakikita ito bilang isang intermediate na hakbang patungo sa susunod na henerasyon ng arkitektura; ang mekanismo ng DSA ay nagbabawas ng gastos sa pag-compute habang pinapataas ang ilang uri ng pagganap[31], at ang serbisyo ay awtomatikong nag-a-upgrade sa V3.2-Exp na may malaking pagbawas sa presyo para sa mga gumagamit[32].

Ang DeepSeek V3.2‑Exp ay nagmana ng mixture‑of‑experts na disenyo at nagdagdag ng mixed precision at multi‑head latent attention[33]. Gayunpaman, bilang isang eksperimento, ito ay nagpapakita ng bahagyang pagbagsak sa mga masalimuot na gawain sa pangangatwiran[34] at kulang sa integrated agent tooling ng Claude ecosystem. Para sa Macaron, nangangahulugan ito na ang V3.2‑Exp ay mas angkop para sa mga gawain na sensitibo sa gastos o prototyping, kung saan ang bilis at throughput ay mas mahalaga kaysa sa pinakamataas na katumpakan ng pag-coding.

5 Paghahambing ng Sonnet 4.5 at DeepSeek V3.2‑Exp para sa Macaron

Ang desisyon ng Macaron na kumonekta sa parehong mga modelo ay nag-aanyaya ng paghahambing ng kanilang mga kalakasan at kahinaan. Ang talahanayan sa ibaba ay nagbubuod ng mga pangunahing katangian:

Feature

Sonnet 4.5

DeepSeek V3.2‑Exp

Focus

Mataas na kalidad ng coding, ahenteng gawain, mahabang awtonomiya

Mahusay na pagproseso ng mahabang konteksto[35]

Architecture

Pribadong modelo na may mahabang awtonomiya (>30 oras) at mahusay na pagsunod sa utos

Pagsasama ng mga eksperto na may kakaunting atensyon na nagpapababa ng compute[28]

Memory & context

Malalaking bintana ng konteksto; awtomatikong pamamahala ng memorya gamit ang memory tool[24]

Sumusuporta sa mahabang konteksto sa pamamagitan ng kakaunting atensyon; nabawasan ang paggamit ng memorya[28]

Developer tooling

Agent SDK na may sub-agents, checkpoints, integrasyon sa VS Code[36][24]

Walang opisyal na SDK; ang open-source na code ay nagpapahintulot ng mga pasadyang integrasyon ngunit kulang sa built-in na memory tooling

Cost

Walang pagbabago mula sa Sonnet 4; $3/M input tokens at $15/M output tokens[37]

50 %+ pagbawas sa presyo ng API[38]; libre para sa sariling pagho-host

Strengths

Pinakamataas na katumpakan sa coding (SWE-Bench Verified 77–82 %), pinalawig na awtonomiya, matibay na kaligtasan

Natatanging kahusayan; 2–3× mas mabilis na inference at mas mababang paggamit ng memorya[28]; open-source

Weaknesses

Mas mataas na token costs; pribadong API; maaaring mangailangan ng maingat na pamamahala ng prompt

Katayuang eksperimento; menor de edad na mga regresyon sa kumplikadong pangangatwiran[34]; kulang sa integrated na tooling

Mula sa paghahambing na ito, makakabuo tayo ng isang hybrid na diskarte. Maaaring gamitin ni Macaron ang DeepSeek V3.2‑Exp para sa mga unang draft, na makikinabang sa mababang latency at gastos, at pagkatapos ay pinuhin o i-validate gamit ang Sonnet 4.5 upang matiyak ang tamang resulta at seguridad. Para sa mga kumplikadong mini-app na nangangailangan ng malalim na pangangatwiran, nananatiling pinakamahusay na pagpipilian ang Sonnet 4.5, habang ang V3.2‑Exp ay mahusay sa mabilisang pag-ulit o malakihang batch na pagbuo.

6 Paano magpapabuti ang mga bagong modelo sa pipeline ng mini-app ng Macaron

Ang pangunahing tanong para kay Macaron ay kung ang Sonnet 4.5 at DeepSeek V3.2‑Exp ay makapagpapabuti ng kalidad, makapagpapaikli ng oras ng pag-develop, at makapagbabawas ng mga bug. Sinusuri namin ang bawat salik sa konteksto ng pipeline ng Macaron:

6.1 Kalidad ng code at output

Ang Sonnet 4.5 ay naghahatid ng mas mataas na kalidad ng code at mas kaunting mga error. Ayon sa Replit, ang mga error sa pag-edit ng code ay bumaba mula 9 % hanggang zero noong lumipat mula sa Sonnet 4 papuntang Sonnet 4.5. Nangangahulugan ito na ang mga mini-app na ginawa ng Macaron ay mas maaasahang magko-compile, na may mas kaunting syntax na pagkakamali o nawawalang imports. Ang pinahusay na pagsunod sa mga tagubilin ng modelo ay tumutulong sa Macaron na mas tumpak na maunawaan ang mga pagtutukoy ng user; ang pinahusay na pagre-refactor ng code nito ay tinitiyak na ang mga nabuong module ay malinis at modular. Sa mga gawain sa pananalapi at cybersecurity, ang Sonnet 4.5 ay nagtaas ng katumpakan ng 25 % hanggang 44 %, na nagpapahiwatig ng katulad na mga pagtaas para sa mga travel at wellness apps ng Macaron. Ang DeepSeek V3.2‑Exp, bagaman bahagyang mas mahina sa kumplikadong pangangatwiran, ay nagpapanatili pa rin ng pagganap na maihahambing sa V3.1 na may mas mahusay na kahusayan; kapag na-fine-tune sa domain ng Macaron, maaari itong maghatid ng sapat na mataas na katumpakan para sa mas simpleng mini-apps.

6.2 Bilis ng paggawa ng mini-app

Ang kakayahan ng Sonnet 4.5 na tumakbo ng higit sa 30 oras nang autonomously ay nangangahulugan na ang Macaron ay makakagawa ng end-to-end mini-apps sa isang tuloy-tuloy na sesyon nang hindi kinakailangang mag-reset nang manu-mano. Pinagsama sa pamamahala ng konteksto at checkpoints ng Agent SDK, nababawasan nito ang oras na ginugol sa muling pagsisimula ng mga gawain o pag-reload ng konteksto. Ang arkitektura ng Sub-agent ay nagpapahintulot sa Macaron na mag-parallelize ng mga gawain: isang ahente ang nag-aasikaso ng UI generation habang ang isa ay nagmamaneho ng API integration, bawat isa ay may sariling konteksto at tools. Samantala, ang 2–3× mas mabilis na inference at mas mababang paggamit ng memorya ng DeepSeek V3.2-Exp ay nagreresulta sa mas mabilis na mga tugon. Halimbawa, kung ang pagbuo ng travel itinerary ay nangangailangan ng 30 segundo gamit ang Sonnet 4.5, ang V3.2-Exp ay maaaring makagawa ng draft sa 10–15 segundo; ang Sonnet 4.5 naman ang magpapino nito. Ang netong epekto ay mas maikli ang oras sa unang magagamit na bersyon, na nagpapahintulot sa mabilis na feedback loops ng user.

6.3 Mas maayos na proseso at mas kaunting bugs

Ang awtomasyon ay nakakabawas ng mga pagkakamali ng tao, ngunit ang awtonomiya ay maaaring magdulot ng bagong mga bug kung hindi wastong na-manage. Ang mga checkpoints ng Agent SDK ay nagpapahintulot sa mga developer na i-save at i-rollback ang estado ng ahente[24]. Kung ang Macaron ay gumawa ng maling API call o nagsulat sa maling file sa panahon ng pagbuo ng mini-app, ang developer ay maaaring bumalik sa nakaraang checkpoint sa halip na magsimula muli. Ang pag-edit ng konteksto ay pumipigil sa pagkaubos ng token at tinitiyak na tanging ang may kinalaman na konteksto lamang ang itinatago, na nagbabawas ng mga maling interpretasyon. Para sa DeepSeek, ang open-source na paglabas ay nagpapahintulot sa koponan ng Macaron na siyasatin at baguhin ang modelo, isama ang mga pasadyang safety check at i-fine-tune para sa mga tiyak na gawain sa domain. Bukod dito, ang sariling mga mekanismo ng RL ng Macaron – time weaving, counterfactual reasoning, at fairness constraints – ay patuloy na nagmo-monitor sa kasiyahan ng gumagamit at nagpaparusa sa mapaminsalang pag-uugali[2][5], na nagpapababa ng panganib ng mga bug at etikal na paglabag.

6.4 Mga konsiderasyon sa gastos

Ang mga de-kalidad na modelo ay may presyo. Ang presyo ng token ng Sonnet 4.5 ay nananatiling hindi nagbabago mula sa Sonnet 4 ($3/M input tokens, $15/M output tokens)[37]. Ang DeepSeek V3.2‑Exp ay kalahati ang gastos ng API calls[38] at, dahil ito ay open‑source, maaaring i-self-host. Samakatuwid, maaring i-optimize ng Macaron ang mga gastos sa pamamagitan ng paggamit ng V3.2‑Exp para sa mga paunang draft o mababang-panganib na gawain (hal. pagbuo ng mga UI component o simpleng kalkulador) at ilaan ang Sonnet 4.5 para sa mga mataas na-panganib na gawain (hal. pagpaplano ng pananalapi, payo medikal) kung saan ang katumpakan at pagsunod ay mahalaga. Ang pagtitipid mula sa mas mabilis na inference at nabawasang paggamit ng GPU (tinalakay sa ibaba) ay nakakatulong din sa pag-offset ng gastos sa compute.

7 Mga Inobasyon sa Pagsasanay ng RL ng Macaron: DAPO, LoRA at All‑Sync RL

Ang pagpapabuti ng modelo ay bahagi lamang ng kuwento; ang kahusayan sa pagsasanay ay nakakaapekto sa bilis ng pag-ulit ng Macaron sa mga RL policies. Inilalarawan ng MIND LABS ang isang sistema na pinagsasama ang Decoupled Clip at Dynamic Sampling Policy Optimization (DAPO) kasama ang Low‑Rank Adaptation (LoRA) sa isang All‑Sync RL arkitektura upang sanayin ang isang 671B DeepSeek model gamit lamang ang 48 H800 GPUs – isang 10× na pagbabawas kumpara sa 512 GPUs na kinakailangan para sa karaniwang RL[39]. Ang parallelism ng pipeline gamit ang Coati at SGLang, kasama ang pinabilis na pagsasama at quantisation ng LoRA, ay nag-aalis ng “GPU bubbles” kung saan ang mga GPU ay nakatigil na naghihintay para sa inference[40]. Ang resulta ay isang pagbawas ng wall‑clock time para sa isang solong hakbang ng pagsasanay mula sa 9 na oras hanggang 1.5 oras[41]. Ang mga pagsulong na ito ay nangangahulugan na ang Macaron ay maaaring muling sanayin ang mga reward models o memory gates nang mas mabilis, maisama ang feedback nang mas mabilis at ilabas ang mga pagpapabuti sa mga gumagamit nang mas maaga.

Larawan 1 – Ang paggamit ng GPU ay bumababa mula sa 512 patungong 48 H800 GPUs kapag gumagamit ng All‑Sync RL na may LoRA, na nagbibigay-daan para sa mas madaling pag-aaral ng RL at mas mabilis na eksperimento[39].

Bukod sa kahusayan, binabawasan ng mga low-rank update ng LoRA ang gastos sa komunikasyon ng model weight, at ang dynamic sampling ay nagpapatatag ng pagsasanay sa pamamagitan ng pagsala ng mga prompt at paghubog ng mga gantimpala[42]. Para sa Macaron, nangangahulugan ang mga teknik na ito na ang mga darating na update sa memorya at polisiya ay maaaring masanay nang mabilis nang hindi nagkakaroon ng labis na gastos sa pag-compute.

8 Daloy ng trabaho ng developer: pag-integrate ng Sonnet 4.5 at DeepSeek sa Macaron

Ang paggawa ng mini-app gamit ang Macaron ay may ilang yugto:

Pag-unawa sa intensyon - Binibigyang-kahulugan ng Macaron ang kahilingan ng gumagamit at kinikilala ang mga kinakailangang bahagi (hal., mga pinagmumulan ng datos, mga elemento ng UI, panlabas na API). Ang Sonnet 4.5 ay may pinahusay na pagsunod sa mga instruksyon na tumutulong sa pagkuha ng tumpak na intensyon at pagpaplano ng mga hakbang sa pagpapatupad, habang ang V3.2‑Exp ay mabilis na nagpo-prototype ng mga potensyal na intensyon para sa pagpili ng gumagamit.
Pagsasama ng programa - Ginagamit ng ahente ang Claude Agent SDK para bumuo ng code, maghanap sa repository, magbasa ng mga template at magsulat ng mga bagong file. Maaaring magpakadalubhasa ang mga sub-ahente sa front-end (React) o back-end (Python), at tinitiyak ng pamamahala ng konteksto na ang tamang code ay magagamit nang hindi sumosobra sa memorya. Ang mahabang konteksto at kakayahan sa pag-refactor ng code ng Sonnet 4.5 ay nagbubunga ng mas malinis at mas madaling mapanatiling mga programa, habang ang V3.2‑Exp ay nagpapabilis ng unang draft.
Pagpapatupad ng sandbox - Ang nabuo na code ay isinasagawa sa isang ligtas na kapaligiran. Binabasa ng ahente ang mga log, kinukuha ang mga error at paulit-ulit na inaayos ang mga bug. Ang mga checkpoint ay nagbibigay ng ligtas na fallback, at ang mga RL reward signal ay nagpaparusa sa code na bumagsak sa mga pagsubok. Maaaring magsagawa rin ang Macaron ng mga integration test laban sa mga panlabas na serbisyo gamit ang bash at web fetch tools ng Agent SDK.
Pakikipag-ugnayan at pagpipino - Inilalahad ng ahente ang mini-app sa gumagamit sa pamamagitan ng conversational interface ng Macaron. Iniimbak ng memory engine ang pag-uusap at gumagamit ng RL upang magpasya kung aling mga alaala ang dapat alalahanin sa mga hinaharap na pakikipag-ugnayan. Ina-update ng feedback mula sa gumagamit ang reward model at nakakaimpluwensya sa mga susunod na henerasyon.

Sa pamamagitan ng pagsasama ng Sonnet 4.5 at DeepSeek V3.2‑Exp, maiaangkop ng Macaron ang workflow na ito. Halimbawa, ang isang travel planning app ay maaaring magkaroon ng UI generator agent na gumagamit ng DeepSeek upang mabilis na magmungkahi ng mga layout, habang ang itinerary logic at pag-optimize ng iskedyul ay gumagamit ng Sonnet 4.5 upang matiyak ang katumpakan at tamang pangangasiwa ng mga kalendaryo. Ang isang budgeting app ay maaaring umasa sa DeepSeek para sa mga paunang charts at talahanayan ngunit gamitin ang Sonnet 4.5 para sa masalimuot na kalkulasyon ng pananalapi at pagsunod sa mga regulasyon.

9 Visualisasyon ng mga pagpapabuti

Upang ilarawan ang nasasalat na benepisyo ng mga teknolohiyang ito, ang sumusunod na mga chart ay nagbubuod ng mga pangunahing sukatan.

Larawan 2 – Isang paghahambing sa Sonnet 4.5 at DeepSeek V3.2‑Exp sa coding accuracy, bilis, gastos at awtonomiya. Mas mataas na bar ang nagpapakita ng mas mahusay na halaga para sa katumpakan at awtonomiya; mas mababang bar ang nagpapahiwatig ng mas mahusay (mas mabilis o mas mura) na pagganap sa kahusayan at gastos.

Larawan 3 – Ipinapakita ng mga panloob na benchmark ng Replit na ang mga pagkakamali sa pag-edit ng code ay bumaba mula 9% gamit ang Sonnet 4 hanggang zero sa Sonnet 4.5. Ang pinahusay na pagsunod sa mga tagubilin at pag-refactor ng code ay nagresulta sa mas maaasahan na mini-apps.

Larawan 4 – Ang pagsasama ng DAPO at LoRA sa isang All‑Sync RL pipeline ay nagpapababa ng oras ng pagsasanay mula 9 na oras hanggang 1.5 na oras[41], na nagpapabilis ng mga update sa mga reward model at mga patakaran sa memorya.

Ang mga visualisasyong ito ay nagpapatunay na ang mga benepisyo ay hindi lamang teorya. Mas kaunting pangangailangan sa GPU, mas mabilis na pagsasanay, mas mataas na katumpakan at mas mababang gastos ang lahat ay nag-aambag sa isang mas maayos at mas epektibong mini‑app pipeline.

10 Mga Direksyon sa Hinaharap

Tinitingnan ang hinaharap, parehong nagbigay ng pahiwatig ang Anthropic at DeepSeek ng mas ambisyosong mga arkitektura. Ang kahalili ng Sonnet 4.5 ay maaaring palawakin ang mga context window, pagbutihin ang multilingual reasoning at suportahan ang mas kumplikadong interaksyon ng mga tool. Ang susunod na henerasyon ng arkitektura ng DeepSeek ay inaasahang magtatayo sa sparse attention upang makamit ang mas mataas na pagganap sa mas mababang gastos[31]. Para sa Macaron, ang karagdagang pananaliksik sa self‑compressing memory, lifelong learning at cross‑lingual alignment ay maaaring mapahusay ang personalisasyon at privacy[43]. Ang pagsasama ng federated learning ay magbibigay-daan sa mga gumagamit na sanayin ang mga memory model nang lokal, ibinabahagi lamang ang mga update ng modelo, sa gayon ay pinapabuti ang kolektibong pagganap habang pinapanatili ang privacy[43]. Sa panig ng RL, ang diskarte ng Macaron ay maaaring isama ang mga normative theories – utilitarianism, deontology, virtue ethics – upang magbigay ng mga paliwanag para sa mga aksyon nito[44].

Sa kabuuan, ang desisyon ng Macaron na kumonekta sa Claude Sonnet 4.5 at DeepSeek V3.2‑Exp, na pinapagana ng Claude Agent SDK, ay naglalagay sa kanya sa unahan ng personal na AI. Nag-aalok ang Sonnet 4.5 ng walang kapantay na kalidad, pinalawak na awtonomiya at mayamang kasangkapan para sa mga developer; ang DeepSeek naman ay nagbibigay ng bilis, kahusayan at bukas na flexibility ng mapagkukunan. Pinagsama sa makabago at kakaibang RL training techniques at memory engine ng Macaron, ang mga modelong ito ay tutulong sa Macaron na makabuo ng mini-apps nang mas mabilis, mas maayos at may mas kaunting mga bug. Habang patuloy na umuunlad ang personal na AI, ang kombinasyon ng Macaron ng awtonomiya, kaligtasan, etika at kahusayan ay nagsisilbing blueprint para sa responsableng inobasyon.

[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Sa Loob ng Memory Engine ng Macaron: Pag-compress, Pagkuha at Dynamic na Pag-gate - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [pamagat hindi alam]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Pagbuo ng Mga Ahente gamit ang SDK ng Claude Code

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: Mga Tampok, Pagpepresyo At Paghahambing - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] AI sa AI: DeepSeek-3.2-Exp at DSA – Champaign Magazine

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] Inilabas ng DeepSeek ng Tsina ang 'panggitnang' modelo ng AI patungo sa susunod na henerasyon | Reuters

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/