Sa Loob ng Memory Engine ng Macaron: Compression, Retrieval at Dynamic Gating

Panimula

Habang madalas na nakukuha ng Macaron AI ang atensyon dahil sa kakayahan nitong lumikha ng custom na mini-apps o umakto bilang isang empathetic na kaibigan, ang tunay na gulugod nito ay isang detalyadong memory engine. Ang sistemang ito ay nagpapahintulot sa Macaron na maalala ang mahalaga, kalimutan ang hindi, at mabilis at ligtas na makuha ang mga kaugnay na karanasan. Ang isang simpleng pag-uusap tungkol sa musika ay maaaring humantong sa mga paalala tungkol sa isang konsiyerto sa susunod na buwan, isang awtomatikong naipon na playlist, o ang pagbuo ng isang karaoke assistant. Wala sa mga ito ang posible kung wala ang mga memory mechanisms na may kakayahang humawak ng mahabang pag-uusap at iba't ibang paksa. Ang blog na ito ay nagbibigay ng malalim na teknikal na pagsilip sa memory engine ng Macaron, tinatalakay ang hierarchical compression, vector retrieval, reinforcement-guided gating, at privacy control. Kinukumpara namin ang disenyo ng Macaron sa iba pang retrieval-augmented generation (RAG) systems at tinatalakay kung paano pinapahintulutan ng mga mekanismong ito ang mga gumagamit sa Japan at Korea na mag-enjoy ng personalized na mga karanasan.

1 Hierarchical Memory Representation

1.1 Multi‑store architecture: short‑term, episodic and long‑term

Inaayos ni Macaron ang memorya sa maraming imbakan. Ang short‑term store ay naglalaman ng kasalukuyang pag-uusap at umaabot sa humigit-kumulang 8–16 mensahe. Gumagana ito tulad ng isang karaniwang transformer context: ang mga token ay pinoproseso ng sunud-sunod na may atensyon. Ang episodic store ay nag-iimbak ng mga kamakailang interaksyon (hal., ang nakaraang ilang araw) at ito ay regular na ina-update. Dito, gumagamit ang Macaron ng isang compressive transformer: ang mga mensahe ay kinokompress sa mga summary vector gamit ang convolutional attention, na nagpapahintulot sa modelo na mapanatili ang konteksto lampas sa likas na haba ng window. Ang long‑term store ay nagtatabi ng mahahalagang pangyayari, katotohanan, at mga mini-app configuration at ito ay ipinatupad bilang isang vector database. Ang bawat memory item ay naglalaman ng metadata (timestamp, domain tags, language tags) at isang embedding na ginawa ng isang multilingual encoder.

1.2 Compression via latent summarization and autoencoding

Isa sa mga pangunahing hamon sa mahabang pag-uusap ay ang pagtaas ng gastos ng self-attention na lumalaki nang quadratic sa haba ng sequence. Upang pamahalaan ito, gumagamit ang Macaron ng isang latent summarization layer: sa halip na mag-attend sa bawat token, natututo ang modelo na tukuyin ang mahahalagang bahagi at i-compress ang mga ito sa isang fixed-length na representasyon. Ang layer na ito ay sinasanay gamit ang isang autoencoding na layunin na muling bumubuo ng mga nakatagong estado mula sa compressed na mga buod. Ang reinforcement learning ay pinong-tinutono ang summarizer: kung ang agent ay nabigo na alalahanin ang mahahalagang detalye sa kalaunan, ang patakaran ay pinarurusahan, hinihikayat itong panatilihin ang mas maraming impormasyon tungkol sa mga katulad na kaganapan sa hinaharap.

1.3 Dynamic memory token bilang isang pointer network

Ang memory token na inilarawan sa artikulo ng balita sa Taiwan ay gumagana tulad ng isang pointer na naglalakbay sa memorya upang pumili ng mga kaugnay na item. Sa panahon ng recall, ang token ay paulit-ulit na nagtatanong sa memory bank: kinukuha nito ang isang kandidato na memorya, sinusuri ang kaugnayan nito sa kasalukuyang konteksto gamit ang isang natutunang scoring function, at nagpapasya kung ibabalik ito o magpapatuloy sa paghahanap. Ang prosesong ito ay katulad ng isang pointer network na ginagamit sa neural combinatorial optimization. Ang mga reinforcement signal ay gumagabay sa token na pumili ng mga pagkakasunud-sunod ng mga alaala na nagdadala ng pinakamataas na kasiyahan ng gumagamit (hal., tamang hulaan ang kagustuhan ng isang gumagamit para sa jazz). Ang token ay maaari ring mag-update ng memorya: kapag may bagong impormasyon, ito ay nagpasya kung pagsasamahin ito sa umiiral na mga alaala o maglaan ng bagong puwang.

2 Pagkuha ng Vector at Pagpapalawak ng Query

2.1 Paghahanap ng approximate na pinakamalapit na kapitbahay

Gumagamit ang long-term memory ng Macaron ng high-dimensional vector database. Ang mga query ay kino-convert sa embeddings sa pamamagitan ng isang multilingual encoder; pagkatapos ay isang approximate nearest neighbour (ANN) na paghahanap ang nagbabalik ng top-k na mga alaala. Ang sistema ay gumagamit ng product quantization upang pabilisin ang paghahanap at mapanatili ang latency sa ibaba ng 50 ms, kahit na nag-iimbak ng milyun-milyong memory items. Upang maiwasan ang pagkuha ng mga trivial duplicates, ang sistema ay nag-aaplay ng maximal marginal relevance (MMR), na nagbabalanse ng pagkakatulad at pagkakaiba-iba sa mga resulta.

2.2 Pagpapalawak ng query gamit ang konteksto at mga layunin ng gumagamit

Hindi sapat ang simpleng pagtutugma ng keyword upang makuha ang layunin ng gumagamit. Pinalalawak ng Macaron ang mga query gamit ang kasalukuyang layunin ng gumagamit at nakatagong layunin. Halimbawa, kung ang gumagamit sa Tokyo ay nabanggit ang "花火大会" (pista ng paputok), pinalalawak ng sistema ang query upang isama ang "mga tiket", "petsa" at "panahon" batay sa karaniwang mga aksyon na nauugnay sa mga pista. Kung ang isang gumagamit na Koreano ay magtanong tungkol sa "김치전 만드는 법" (kung paano gumawa ng kimchi pancakes), hinahanap din ng sistema ang mga nakaraang karanasan sa pagluluto, datos ng nutrisyon, at lokal na pagkakaroon ng sangkap. Ang pagpapalawak ng query ay pinangangasiwaan ng isang goal predictor na sinanay upang imapa ang konteksto ng pag-uusap sa isang hanay ng mga kaugnay na subtopics.

2.3 Cross-domain retrieval at relevance federation

Dapat kayang hawakan ng memory engine ang mga query na sumasaklaw sa maraming domain. Ang mekanismong relevance federation na inilarawan sa artikulo ng self-model ng Macaron ay nagpapahintulot sa sistema na ma-access ang mga alaala sa iba't ibang hangganan ng domain. Kapag ang ahente ay tumutulong sa isang Japanese na gumagamit na magplano ng kasal, maaaring kailanganin nitong makuha ang mga alaala sa paglalakbay (mga destinasyon ng honeymoon), mga alaala sa pananalapi (budget), at mga alaala sa kultura (etiquette sa kasal). Ang bawat domain ay may sariling retrieval index, at gumagamit ang sistema ng isang softmax gating function upang ipamahagi ang retrieval probabilities sa iba't ibang domain. Ang gating function ay sinasanay gamit ang RL upang mabawasan ang retrieval ng hindi kaugnay na mga item habang tinitiyak na hindi mapapalampas ang mahalagang koneksyon sa pagitan ng mga domain. Para sa mga cross-lingual na query, isinasama rin ng gating function ang mga language tag upang mas paboran ang mga alaala sa parehong wika ngunit pinapayagan ang cross-language retrieval kapag mataas ang semantic similarity.

3 Reinforcement-Guided Memory Gating

3.1 Reward modelling at inspirasyon mula sa FireAct

Ang koponan ng Macaron ay inspirasyon mula sa proyekto ng FireAct, na nagpakita na ang RL post-training ay nagpapabuti ng katumpakan ng pangangatwiran ng 77% kumpara sa mga pamamaraang batay sa prompt. Sa Macaron, ginagamit ang RL upang sanayin ang memory gating policy: isang neural network na nagdedesisyon kung itatago, ia-update, o itatapon ang impormasyon at kung gaano kalakas ang timbang ng mga narekober na alaala. Ang reward function ay pinagsasama ang iba't ibang signal: pagkumpleto ng gawain, kasiyahan ng gumagamit, pagsunod sa privacy, at kahusayan sa computational. Halimbawa, ang pagkuha ng napakaraming alaala ay nagpapabagal sa mga tugon, kaya ang reward ay nagpaparusa sa hindi kinakailangang pag-alala. Ang pagkalimot sa mahahalagang detalye ay nagreresulta sa mas mababang kasiyahan ng gumagamit, kaya natututo ang patakaran na panatilihin ito nang mas matagal. Ang reward function ay naiakma ng iba para sa merkado ng Hapon at Koreano: maaaring parusahan ng mga gumagamit ng Hapon ang labis na pagbabahagi ng mga pribadong detalye, habang maaaring pahalagahan ng mga gumagamit ng Koreano ang bilis at mga proaktibong mungkahi.

3.2 Temporal credit assignment and time weaving

Madalas na nahihirapan ang reinforcement learning sa mahahabang panahon: ang mga aksyon na ginagawa ngayon ay maaaring makaapekto sa mga resulta sa hinaharap. Tinutugunan ito ng Macaron sa pamamagitan ng time weaving, isang mekanismo kung saan ang mga kaganapan sa iba't ibang panahon ay konektado ng mga timestamp at mga narrative thread. Kapag sinusuri ang epekto ng paggunita ng lumang alaala, maaaring sundan ng sistema ang kadena ng mga interaksiyon na sumunod. Ito ay nagbibigay-daan sa RL agent na magtalaga ng kredito o sisi sa mga partikular na desisyon ng pag-alala. Halimbawa, kung ang pag-refer sa isang nakalimutang anibersaryo ay nagpaunlad ng relasyon, ang sistema ay nagtatalaga ng positibong gantimpala sa memory gate na nagpapanatili ng anibersaryo. Kung ang muling paglitaw ng nakakahiya na sandali ay nagdulot ng pagkadismaya, ang gate ay tatanggap ng negatibong gantimpala.

3.3 Hierarchical RL at modular gating policies

Gumagamit ang Macaron ng hierarchical reinforcement learning para pamahalaan ang kumplikado. Isang high-level na controller ang pumipili ng modules (hal., retrieval, summarization, compression) batay sa kasalukuyang layunin ng gumagamit, habang ang mga low-level na patakaran ay humahawak ng mga partikular na aksyon sa bawat module. Ang disenyo na ito ay nagpapadali ng transfer learning: ang isang gating policy na sinanay para sa mga pag-uusap sa pagluluto ng Hapon ay maaaring magamit muli para sa mga resipe ng Koreano. Pinapayagan din nito ang Macaron na i-update ang mga indibidwal na module nang hindi muling sinasanay ang buong sistema. Upang matiyak ang katatagan, gumagamit ang Macaron ng proximal policy optimization (PPO) na may trust region clipping, binabalanse ang exploration at exploitation at pinipigilan ang catastrophic forgetting.

4 Paghahambing sa Ibang Memory Systems

4.1 Retrieval-augmented generation (RAG)

Maraming mga sistema ng AI ang gumagamit ng retrieval‑augmented generation upang mapabuti ang katumpakan ng mga impormasyon sa pamamagitan ng pagkuha ng impormasyon mula sa mga panlabas na database. Ang mga modelo tulad ng GPT‑4 na may RAG ay umaasa sa mga static na base ng kaalaman at hindi inaangkop ang retrieval batay sa feedback ng gumagamit. Ang memory engine ni Macaron ay naiiba sa tatlong pangunahing paraan:

Personalized na nilalaman: ang mga alaala ay espesipiko sa gumagamit sa halip na generic na mga dokumento ng web. Ang retrieval ay naglalaman ng mga karanasan at layunin, hindi mga enciklopedyang katotohanan.
Reinforcement‑guided na imbakan: ang sistema ay natututo kung ano ang dapat itago o kalimutan batay sa mga reward signal, samantalang ang mga sistema ng RAG ay madalas na nag-iimbak ng lahat nang walang pinipili.
Privacy at patakaran na nakatali: bawat alaala ay may kasamang metadata ng privacy, at ang retrieval ay nirerespeto ang mga panuntunan sa pag-access. Karamihan sa mga implementasyon ng RAG ay kulang ng ganitong uri ng pinong kontrol.

4.2 Mga modelong wika na may mahabang konteksto

Ang mga kamakailang LLM tulad ng Claude 3 ng Anthropic at Gemini ng Google ay kayang hawakan ang mga konteksto ng daan-daang libong mga token sa pamamagitan ng pagpapalawak ng attention window. Ang mga modelong ito ay hindi gumagawa ng tahasang pagkuha; sa halip, umaasa sila sa kakayahang mag-focus sa mahahabang pagkakasunod-sunod. Habang pinapayagan nito silang maalala ang mga nakaraang bahagi ng pag-uusap, ito ay magastos sa kompyutasyon at hindi sumusuporta sa user-controlled forgetting. Pinagsasama ng Macaron ang medium context at retrieval upang makamit ang katulad na coverage sa mas mababang gastos at may mas mahusay na kontrol sa privacy. Ang dynamic memory token ay kumikilos bilang isang pointer sa panlabas na imbakan, na nagbibigay-daan sa modelo na hawakan ang mga taon ng data nang hindi iniimbak ang lahat sa aktibong konteksto.

4.3 Mga vector database at memory network

Madalas gamitin ang mga vector database tulad ng Pinecone at Faiss para mag-imbak ng mga embedding para sa mga retrieval task. Ang pangmatagalang imbakan ng Macaron ay nakabatay sa mga teknolohiyang ito ngunit isinasama ito sa RL-controlled gating. Samantala, ang mga unang memory network tulad ng End-to-End Memory Network ay nagprecompute ng isang nakatakdang set ng mga memory slot at pumili ng mga ito gamit ang soft attention. Pinalalawak ito ng Macaron sa pamamagitan ng pagpapahintulot na ang bilang ng mga slot ay lumago o lumiit nang dynamic at sa pamamagitan ng paggamit ng RL para magdesisyon kung aling mga slot ang mananatili. Sa ganitong paraan, ang memory engine ng Macaron ay mas katulad sa isang neural Turing machine na may natutunang controller na nagbabasa at nagsusulat sa isang panlabas na memory tape.

5 Pagkapribado at Pagkakahanay sa Regulasyon

5.1 Pag-uugnay ng patakaran at pagkakaiba-iba ng transparency

Ang pagsunod sa mga regulasyon ng rehiyon ay mahalaga. Ang Policy binding ay naglalakip ng machine-readable na mga patakaran sa privacy sa data. Halimbawa, ang isang memorya na naglalaman ng data ng pananalapi ay maaaring maglaman ng isang patakaran na maaari lamang itong ma-access pagkatapos ng biometric authentication. Ang Differentiated transparency ay nag-aalok ng iba't ibang antas ng pagbubunyag sa iba't ibang stakeholder: ang isang mamimili sa Japan ay maaaring tingnan ang kanilang sariling data, ang isang regulator sa Korea ay makakakita ng pinagsama-samang istatistika, at ang mga developer ay makakakuha ng hindi nagpapakilalang feedback para sa pagpapabuti ng modelo. Ang mga mekanismong ito ay naaayon sa diin ng AI Promotion Act sa transparency at mga kinakailangan ng AI Framework Act ng Korea para sa pamamahala ng panganib at pangangasiwa ng tao.

5.2 Pagpapangalan at kahihiyan na pagpapatupad at pananagutan

Ang Batas ng Pagpapalaganap ng AI sa Japan ay walang direktang parusa ngunit gumagamit ng mekanismong name‑and‑shame upang pampublikong makilala ang mga kumpanyang hindi sumusunod. Ang mga audit logs ng Macaron ay nagtatala ng pag-access sa memorya at mga desisyon sa patakaran, na nagpapahintulot sa kumpanya na ipakita ang pagsunod kung na-audit. Ang balangkas ng Korea ay maaaring magpataw ng katamtamang multa (hanggang KRW 30 milyon) para sa mga paglabag. Sa pamamagitan ng pag-attach ng metadata sa bawat kaganapan sa memorya, ang Macaron ay makakabuo ng mga ulat sa pagsunod nang awtomatiko. Pinapayagan din ng sistema ang mga gumagamit na i-export at tanggalin ang kanilang data, na naaayon sa umuusbong na pandaigdigang pamantayan ng data portability.

5.3 Mga Pagtutulad sa memorya ng tao

Ang memory system ng Macaron ay tumutulad sa arkitektura ng memorya ng tao. Isinasaad ng mga siyentipiko sa kognisyon ang working memory bilang isang limitadong buffer sa prefrontal cortex, ang episodic memory bilang imbakan ng mga pangyayari na pinamamagitanan ng hippocampus, at ang semantic memory bilang pangkalahatang kaalaman na nakakalat sa cortex. Katulad nito, ang Macaron ay may short-term context window, isang episodic store, at isang long-term vector database. Ang reference decay ay kahalintulad ng human forgetting curve: ang mga alaala ay nawawala maliban kung pinatatag. Ang time weaving ay kahalintulad ng paraan ng paglikha ng mga tao ng mga kwento ng buhay sa pamamagitan ng pag-uugnay ng mga pangyayari sa paglipas ng panahon. Sa pamamagitan ng pagtulad sa mga mekanismong ito, hindi lamang pinapahusay ng Macaron ang mga computational resources kundi nagbubunga rin ng mas natural na interaksyon. Kapag ang isang gumagamit ay naaalala ang isang piyesta noong kabataan, maaalala ng ahente ang mga kaugnay na pangyayari at isasama ito sa kasalukuyang pag-uusap, katulad ng isang kaibigang tao.

5.4 Mga direksyon ng pananaliksik sa hinaharap

Sa kabila ng pagiging sopistikado nito, ang memory engine ng Macaron ay may mga tanong na bukas. Isa sa mga aspeto ay ang self‑compressing memory: ang pagbuo ng mga neural modules na awtomatikong nagbubuod at nagko-compress ng mga alaala nang walang panlabas na pangangasiwa. Isa pa ay ang lifelong learning: pinapagana ang agent na patuloy na iakma ang mga memory strategy habang nagbabago ang ugali ng gumagamit. Ang cross‑lingual alignment ay nananatiling aktibong paksa ng pananaliksik; ang mga hinaharap na modelo ay maaaring gumamit ng contrastive representation learning upang mas maayos na i-align ang mga alaala sa Japanese, Korean, at iba pang wika. Ang mga mananaliksik ay nag-eeksplora rin ng neuromorphic hardware at spiking neural networks upang ipatupad ang memory sa mas mababang gastos sa enerhiya. Sa wakas, ang pagsasama ng federated learning ay magpapahintulot sa mga gumagamit na sanayin ang memory models ng Macaron nang lokal, na nagbabahagi lamang ng mga update sa modelo sa halip na raw na data, kaya pinapahusay ang privacy habang pinabubuti ang kolektibong pagganap.