May-akda: Boxu Li 

Panimula

Ang reinforcement learning (RL) ay naging pundasyon ng makabagong AI, na nagbibigay-daan sa mga ahente na matutunan ang pinakamainam na patakaran sa pamamagitan ng pagsubok at pagkakamali. Sa konteksto ng personal na AI, gayunpaman, ang RL ay nahaharap sa natatanging mga hamon: ang mga gantimpala ay subjective, ang mga kapaligiran ay hindi palagian, at maraming etikal na konsiderasyon. Hinarap ng mga tagadisenyo ng Macaron AI ang mga hamong ito nang direkta, sa pamamagitan ng pagbuo ng isang multi-layered na RL system na namamahala sa pamamahala ng memorya, pagbuo ng code, istilo ng pakikipag-usap at higit pa. Sinusuri ng blog na ito kung paano ginagamit ng Macaron ang hierarchical RLreward modellingcredit assignment at fairness constraints upang makagawa ng tunay na personalized na ahente. Ikukumpara rin namin ang RL na diskarte ng Macaron sa RL sa ibang mga larangan at susuriin ang mga direksyon sa hinaharap.

1 Pagmomodelo ng Gantimpala: Paghuli sa mga Kagustuhan ng Tao

1.1 Mga implicit at explicit na senyales ng feedback

Hindi tulad ng mga board game o simulated na kapaligiran, ang mga personal na ahente ay gumagana sa mga open-ended na espasyo kung saan ang gantimpala ay hindi maaring makuha mula lamang sa tagumpay ng gawain. Kinukuha ng Macaron ang implicit na feedback (haba ng usapan, dalas ng paggamit, tono ng tugon ng user) at explicit na feedback (ratings, thumbs up/down) upang makabuo ng signal ng gantimpala. Halimbawa, kung ang isang Japanese na user ay nakikipag-usap ng mas matagal pagkatapos gumamit ang ahente ng magalang na wika, ang positibong ugnayang ito ay nagpapataas ng gantimpala para sa katulad na pag-uugali. Kung ang isang Korean na user ay nag-rate ng mababa sa isang generated na mini-app dahil sa magulong disenyo, ang gantimpala para sa pattern ng UI na iyon ay nababawasan. Ang mga signal na ito ay pumapasok sa isang modelo ng gantimpala na nagtataya ng kasiyahan ng user para sa isang ibinigay na estado at aksyon.

1.2 Multi-objective na mga gantimpalang function

Ang RL ng Macaron ay multi‑objective. Bukod sa kasiyahan ng user, kasama sa gantimpala ang mga termino para sa privacy, compliance, paggamit ng resources, at ethics. Ang pagbabahagi ng sensitibong impormasyon nang walang wastong pahintulot ay nagdudulot ng parusa, habang ang epektibong pag-compress ng memorya ay nagbibigay ng bonus. Sa pagbuo ng code, ang kahusayan at kakayahang mapanatili ang impluwensya sa gantimpala: ang labis na pagiging kumplikado (hal., pagbuo ng 100,000 linya nang hindi kinakailangan) ay nagreresulta sa negatibong gantimpala. Ang mga timbang ng gantimpala ay tinutukoy para sa iba't ibang rehiyon. Ang diin ng Japan sa privacy at transparency ay nagpapataas ng parusa para sa mga paglabag sa privacy, habang ang pokus ng Korea sa inobasyon ay maaaring maglagay ng mas mataas na timbang sa bilis at kabaguhan. Ang pagbabalanse ng mga layuning ito ay nangangailangan ng maingat na disenyo; gumagamit ang Macaron ng isang scalarization function na nagko-convert ng maramihang layunin sa isang gantimpala sa pamamagitan ng mga weighted sums at dynamic scaling.

1.3 Pagkuha ng mga kagustuhan at human‑in‑the‑loop

Mahalaga ang feedback ng tao para i-align ang mga AI system sa mga halaga. Ipinapatupad ng Macaron ang preference elicitation sa pamamagitan ng pagpresenta ng mga alternatibong sagot o disenyo ng mini-app at pagtatanong sa mga user kung alin ang mas gusto nila. Ang datos na ito ay nagpapakain sa isang inference model na natututo ng isang latent utility function sa mga posibleng aksyon. Ang pamamaraan ay katulad ng RLHF (Reinforcement Learning from Human Feedback) na ginagamit sa pag-train ng malalaking language model, ngunit pinalalawak ito ng Macaron sa pamamagitan ng pagsasama ng cultural annotations: Ang mga Japanese na tagapag-annotate ay nagkokomento sa pagiging magalang at sa konteksto, habang ang mga Korean na tagapag-annotate ay nagtatala ng phrasing na communal vs individualistic. Ang resulting reward model ay nagsasalamin ng masusing mga kagustuhan sa iba't ibang kultura.

2 Hirarkikal na RL: Pag-decompose ng Komplikasyon

2.1 High-level na patakaran sa mga module

Ang mga gawain ng Macaron ay mula sa kaswal na chat hanggang sa pagbuo ng kumplikadong software. Upang pamahalaan ang pagkakaibang ito, ang sistema ay gumagamit ng hierarchical RL. Sa pinakamataas na antas, ang isang meta-controller ay pumipili mula sa mga module: manager ng pag-uusap, manager ng memorya, synthesis engine, regulator ng emosyon, at iba pa. Ang bawat module ay kontrolado mismo ng hiwalay na RL policy. Halimbawa, ginagamit ng manager ng memorya ang RL upang magpasya kung ano ang itatago o kakalimutan, habang ang synthesis engine ay gumagamit ng RL upang pumili ng mga code template. Ang meta-controller ay tumatanggap ng mataas na antas ng gantimpala na pinagsasama ang lahat ng module na gantimpala at natututo kung kailan magtalaga ng mga gawain. Ang pag-decompose na ito ay nagpapababa ng search space at nagpapabuti ng sample efficiency.

2.2 Option discovery and transfer learning

Sa loob ng mga module, ginagamit ng Macaron ang options framework para kumatawan sa mga reusable na sub-policy. Ang "option" ay tumutukoy sa isang sunod-sunod na mga aksyon na nakakamit ng isang subgoal, tulad ng "isaayos ang gastusin noong nakaraang buwan" o "irekomenda ang isang bilingual na study plan." Ang mga option na nadiskubre sa Japanese domain ay maaaring ilipat sa Korean domain kung ang ilalim na istruktura ay magkatugma. Kapag natutunan ng Macaron ang isang epektibong paraan upang tugunan ang kahilingan ng user sa isang wika, maaari itong gamitin ang parehong option kapag lumitaw ang konsepto sa ibang wika, pinabilis ang pag-angkop.

2.3 Temporal abstraction and macro‑actions

Ang temporal na abstraksyon ay nagbibigay-daan sa mga RL agent na mag-isip sa iba't ibang antas ng oras. Ang Macaron ay nagtatakda ng mga macro-action na naglalaman ng multi-turn na mga diyalogo o matagal na mga pagkalkula. Halimbawa, ang pagpaplano ng isang bakasyong pampamilya sa Korea ay nangangailangan ng isang macro-action na sumasaklaw sa pagpili ng destinasyon, transportasyon, akomodasyon, at disenyo ng itineraryo. Tinatasa ng mga RL agent ang macro-action batay sa kabuuang gantimpala sa halip na sa mga panandaliang signal. Ito ay naghihikayat sa ahente na isaalang-alang ang pangmatagalang kasiyahan, tulad ng pagtiyak na ang bakasyon ay nakahanay sa mga bakasyon sa paaralan o pag-iwas sa mga pagkakaibang iskedyul.

3 Pag-aasayn ng Kredito at Paghabol sa Oras

3.1 Pagsubaybay sa mga sanhi

Ang pagtatalaga ng kredito sa mga partikular na aksyon ay mahirap kapag ang mga gantimpala ay dumating nang huli. Gumagamit ang Macaron ng paghibla ng oras, na nag-uugnay ng mga kaganapan sa paglipas ng panahon gamit ang mga kwentong thread. Ang ahente ay bumubuo ng isang grap ng mga interaksyon kung saan ang mga node ay kumakatawan sa mga alaala at ang mga gilid ay kumakatawan sa mga sanhi ng relasyon. Kapag sinusuri ang isang kinalabasan, ang sistema ay naglalakbay sa grap pabalik upang tukuyin kung aling mga retrievals o aksyon ang nag-ambag. Halimbawa, kung ang pagrekomenda ng isang Japanese festival ay nagpaligaya sa gumagamit makalipas ang ilang linggo, ang ahente ay nag-uugnay ng bahagi ng gantimpala sa pagkuha ng alaala ng festival at sa pagbuo ng kaukulang mini-app. Ang tahasang pagsusuri sa sanhi na ito ay tumutulong sa RL policy na matutunan ang mga epektibong estratehiya sa pagkuha.

3.2 Counterfactual reasoning

Upang mapabuti ang paglalaan ng kredito, gumagamit ang Macaron ng counterfactual anchoring. Isinasaalang-alang ng ahente ang mga alternatibong aksyon na maaari nitong gawin at tinatantiya ang pagkakaiba ng kinalabasan. Kung ang hindi pagpaalala sa isang Koreanong gumagamit tungkol sa isang kaganapan ng pamilya ay magreresulta sa kahihiyan, ang aktwal na paalala ay tumatanggap ng positibong gantimpala sa counterfactual. Ito ay nag-uudyok sa ahente na asahan ang mga kahihinatnan ng pagkalimot o pag-alala ng impormasyon. Ang counterfactual reasoning ay nakakatulong din na maiwasan ang overfitting: hindi awtomatikong ipinapalagay ng ahente na ang pag-uulit ng isang matagumpay na aksyon ay palaging magbubunga ng parehong gantimpala; sa halip, sinusubukan nito kung talagang sanhi ng aksyon ang kinalabasan.

3.3 Naantalang gantimpala at eligibility traces

Ang RL implementation ng Macaron ay nagsasama ng eligibility traces, isang mekanismo na nag-aalok ng kredito sa mga estado at aksyon na nauuna sa mga gantimpala. Kapag ang ahente ay tumatanggap ng naantalang gantimpala (halimbawa, ang kasiyahan ng gumagamit pagkatapos gamitin ang mini-app sa loob ng ilang linggo), ang trace ay tumutulong magpalaganap ng signal pabalik sa mas naunang mga desisyon tulad ng pagpili ng memorya, tono ng pag-uusap at pagpili ng mga code module. Ang mga eligibility trace ay tinutimbang ng isang decay factor; ang mga estadong mas malapit sa gantimpala ay tumatanggap ng mas mataas na kredito. Ang mekanismong ito ay naghihikayat sa ahente na i-optimize ang pangmatagalang kasiyahan sa halip na panandaliang kita.

4 Pagkapantay-pantay, Kaligtasan at Etikal na Pagsasaalang-alang

4.1 Pag-iwas sa pagkiling at diskriminasyon

Maaaring hindi sinasadyang matutunan ng reinforcement learning ang mga pagkiling mula sa feedback data. Pinapagaan ito ng Macaron sa pamamagitan ng pagsasama ng mga limitasyon ng katarungan sa reward function. Halimbawa, pinaparusahan ang agent kung palagi itong nagrerekomenda ng mga aktibidad na tiyak sa kasarian nang hindi tinatanong. Sinusubaybayan ng sistema ang mga pattern ng rekomendasyon sa iba't ibang grupo ng demograpiko at inaayos ang mga gantimpala upang mapantay ang mga pagkakataon. Kapag humaharap sa mga sensitibong paksa tulad ng pananalapi o kalusugan, kumukunsulta ang agent sa isang ethical policy library na naglalaman ng mga pamantayang kultural at mga legal na kinakailangan. Ang paglabag sa mga alituntuning ito ay nag-uudyok ng negatibong gantimpala o ganap na hinaharangan ang aksyon.

4.2 Pangangasiwa ng tao at pagsunod sa regulasyon

Ang AI Framework Act ng Korea ay nangangailangan ng human oversight para sa mga high-impact na sistema at mga generative AI notification. Sumusunod ang Macaron sa pamamagitan ng paglalagay ng human-in-the-loop para sa mahahalagang desisyon tulad ng financial planning o payo sa kalusugan. Kapag ang isang Koreanong gumagamit ay lumilikha ng isang high-stakes na mini-app, hinihikayat ng sistema na suriin at aprubahan nila ang mga aksyon. Ang AI Promotion Act ng Japan ay nagbibigay-diin sa transparency; kaya't naglolog ang Macaron ng RL decisions at nagbibigay ng mga paliwanag sa mga gumagamit kung bakit pinili ang ilang alaala o module. Ang mga hakbang na ito ay nagpapalakas ng tiwala at tinitiyak ang pananagutan.

4.3 Pagpapatupad ng pangalan-at-pahiya at audit trails

Ang batas ng AI sa Japan ay nagpapatupad ng mekanismo ng pangalan-at-kahihiyan para sa hindi pagsunod. Kasama sa mga RL logs ng Macaron hindi lang ang mga gantimpala kundi pati na rin ang rasyonal sa likod ng mga desisyon. Kung magsagawa ng imbestigasyon ang mga regulator, maipapakita ng kumpanya na natugunan ang mga pagkiling at nirerespeto ang mga panuntunan sa privacy. Sinusuportahan din ng mga logs ang mga audit ng gumagamit; maaaring makita ng mga indibidwal kung paano nakaimpluwensya ang kanilang feedback sa asal ng ahente. Ang ganitong transparency ay pumipigil sa maling paggamit ng RL at nagtataguyod ng etikal na inobasyon.

5 Paghahambing na Pagsusuri: Macaron vs Iba Pang Mga Ahente na Pinapatakbo ng RL

5.1 Paglalaro, robotics at mga sistema ng rekomendasyon

Ang RL ay naghatid ng mga kahanga-hangang resulta sa gaming (AlphaGo, Dota 2), robotics, at mga sistema ng rekomendasyon. Gayunpaman, ang mga kapaligirang ito ay nag-aalok ng malinaw na mga layunin (pagpanalo sa laro, pag-minimize ng error) at malinaw na gantimpala. Ang personal na AI, sa kabilang banda, ay kailangang maghinuha ng mga layunin mula sa magulong datos at umayon sa mga halaga ng tao. Sa gaming, kadalasang hindi pinipigilan ang eksplorasyon; maaaring isakripisyo ng isang ahente ang isang pawn upang makakuha ng positional advantage. Sa personal na AI, ang pagsasakripisyo ng tiwala ng gumagamit para sa panandaliang pakikipag-ugnayan ay hindi katanggap-tanggap. Ang reward model ng Macaron ay hayagang nagpaparusa sa mga aksyon na nagpapababa ng tiwala, ginagawa ang sistema na konserbatibo kapag kinakailangan.

5.2 Open-source personal assistant frameworks

May ilang mga proyekto na open-source na nag-aalok ng mga personal na assistant na pinapagana ng RL na nag-iiskedyul ng mga gawain o nag-a-automate ng mga workflow. Madalas na nagpapalagay ang mga sistemang ito ng tuloy-tuloy na feedback mula sa user at itinuturing na magkakahiwalay ang mga gawain. Naiiba ang Macaron sa pamamagitan ng integrasyon ng mga gawain sa pamamagitan ng memory engine nito at paggamit ng hierarchical RL para pamahalaan ang mga interaksyon. Ang modelo ng RL nito ay malalim na nakaugnay sa konteksto ng kultura, mga patakaran sa privacy, at pagbuo ng kodigo, na ginagawang mas kumplikado ngunit mas may kakayahan. Habang ang ibang mga ahente ay maaaring gumamit ng RL para magrekomenda ng mga kanta batay sa kasaysayan ng pakikinig, ginagamit ng Macaron ang RL para magdesisyon kung ipapaalala sa iyo na tawagan ang iyong ina bago bumuo ng rekomendasyon ng regalo.

5.3 Umuusbong na akademikong pananaliksik

Iminungkahi ng mga mananaliksik ang mga RL na pamamaraan para sa pagkontrol ng malalaking mga modelo ng wika, tulad ng RLHF at unsupervised na disenyo ng kapaligiran. Nag-aambag ang Macaron sa literatura na ito sa pamamagitan ng pagpapakita ng RL sa isang tunay na mundo, multi-domain, cross-lingual na kapaligiran. Itinatag ng proyektong FireAct na ang RL ay nagpapabuti ng katumpakan ng pangangatwiran ng 77% kumpara sa mga prompt-based na ahente; pinapalawak ng Macaron ang ideyang ito sa pamamagitan ng pagsasanay ng mga patakaran ng RL hindi lamang sa mga gawain ng pangangatwiran kundi pati na rin sa pamamahala ng memorya, synthesis ng code, at estilo ng diyalogo. Binibigyang-diin nito ang kahalagahan ng hierarchical na disenyo, paglalaan ng kredito, at mga limitasyon ng katarungan sa pag-scale ng RL sa mga personal na ahente.

5.4 Meta-ethics at mga pamantayang balangkas

Ina-optimize ng reinforcement learning ang gantimpala, ngunit ang mga reward function ay nag-e-encode ng mga halagang pantao na nagkakaiba-iba sa iba't ibang kultura. Lumilitaw ang mga tanong na Meta-ethical: Dapat bang i-maximize ng ahente ang kaligayahan, sumunod sa mga etika na batay sa tungkulin, o balansehin ang katarungan sa awtonomiya? Tinutugunan ito ng Macaron sa pamamagitan ng pag-aaral ng mga normative priors mula sa datos ng kultura. Sa Japan, kung saan pinahahalagahan ang pagkakaisa at paggalang sa kaayusang panlipunan, binibigyang-diin ng reward model ang pagiging magalang, pagkakasundo, at kasanayan. Sa Korea, na pinahahalagahan ang tibay ng komunidad at matapang na inobasyon, ginagantimpalaan ng modelo ang maagap na pagtulong at pagiging bukas. Ang mga normative framework na ito ay hindi static; maaaring i-adjust ng mga gumagamit ang mga ethical slider, at sinusuri ng Macaron ang halaga ng espasyo sa ilalim ng mga limitasyon. Isang patuloy na direksyon ng pananaliksik ay ang pagsasama ng mga pormal na teoryang etikal—utilitarianism, deontology, virtue ethics—sa mga RL agent upang maipaliwanag nila ang mga trade-off na moral sa likod ng kanilang mga aksyon. Ito ay lalong mahalaga para sa mga desisyong may mataas na epekto tulad ng pagpaplano ng pananalapi o mga rekomendasyon sa pangangalagang pangkalusugan.

5.5 Mga Direksyon sa Hinaharap: Panlipunang RL at Mga Gantimpala ng Grupo

Ang mga personal na ahente ay lalong namamagitan sa mga pakikipag-ugnayan sa loob ng mga pamilya, koponan, at komunidad. Ang Social reinforcement learning ay nagpapalawak ng RL sa mga setting na multi-agent, kung saan ang mga ahente ay dapat isaalang-alang ang kapakanan ng maraming stakeholder. Halimbawa, kapag nag-iiskedyul ng kaganapan ng pamilya, kailangang i-balanse ng Macaron ang mga indibidwal na kagustuhan (privacy, workload) sa kolektibong kasiyahan. Ang mga gantimpala ng grupo ay maaaring hubugin gamit ang Pareto efficiency—tinitiyak na ang pagpapabuti ng kinalabasan ng isang miyembro ay hindi nakakasama sa iba—o mga prinsipyo ng pantay na paghahati. Sa mga kontekstong cross-lingual, ang komunikasyon ng grupo ay maaaring mangyari sa maraming wika; kailangang pag-isahin ng ahente ang mga gantimpala sa pagitan ng mga hangganan ng wika habang iginagalang ang mga kultural na pamantayan. Ang hinaharap na pananaliksik ay mag-eexplore ng equitable RL kung saan ang mga marginalized na boses ay binibigyang timbang nang mas mabigat, tinitiyak ang pagiging inklusibo. Ang iba pang mga paraan ay kinabibilangan ng self-play upang gayahin ang mga pakikipag-ugnayan sa pagitan ng mga ahente, meta-learning upang umangkop sa mga bagong dinamika ng grupo, at causal inference upang paghiwalayin ang korelasyon mula sa sanhi sa social feedback. Ang mga pagsulong na ito ay magbibigay-daan sa Macaron at mga katulad na personal na AI na lumipat mula sa isa-isang pakikipag-ugnayan patungo sa pag-oorganisa ng mga karanasan sa lipunan, na ginagawa silang mahahalagang kasosyo sa parehong lipunan ng Hapon at Koreano.

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends