Bakit Nagiging Sentro ang Reinforcement Learning sa “Ikalawang Yugto” ng AI

May-akda: Boxu Li

Mula Pre-Training patungo sa “Ikalawang Yugto” ng AI

Pagkatapos ng isang dekadang pinangungunahan ng malakihang pre-training, pumapasok na ang komunidad ng AI sa tinatawag ng ilan na “ikakalawang kalahati” ng pag-unlad ng AI[1][2]. Sa unang kalahati, ang pag-unlad ay pinamunuan ng mga bagong arkitektura ng modelo at mga pamamaraan ng pagsasanay na walang tigil na nag-akyat ng mga benchmark[3] – mula sa convnets at LSTMs hanggang sa Transformers – lahat ay na-optimize sa pamamagitan ng supervised o self-supervised na pag-aaral sa mga static dataset. Ngunit ngayon, ang mga frontier model tulad ng GPT-4 ay halos nagsawa na sa maraming benchmark, at simpleng pag-scale ng data at mga parameter ay nagbibigay ng bumababang pagbalik[2]. Ang pagbabagong ito ay nagpasimula ng muling pagsusuri kung paano natin makakamit ang karagdagang katalinuhan at gamit mula sa AI.

Isang kasunduan na lumalabas ay ang Reinforcement Learning (RL) ay magkakaroon ng malaking papel sa susunod na yugto. Ang RL ay matagal nang itinuturing na “end game” ng AI – isang balangkas na sapat na makapangyarihan upang sa huli ay manalo sa anumang gawain sa pamamagitan ng pag-optimize ng pangmatagalang gantimpala[4]. Sa katunayan, mahirap isipin ang mga superhuman systems tulad ng AlphaGo o AlphaStar nang wala ang RL sa kanilang core[4]. Ngayon, gamit ang malalaking pre-trained models bilang pundasyon, maraming mananaliksik ang nagsasabi na “tapos na ang pre-training” – ang mga susunod na pambihirang tagumpay ay magmumula sa post-training ng mga modelong ito sa mga interactive na kapaligiran sa pamamagitan ng RL. Tulad ng sinabi ng isang kamakailang sanaysay, kapag mayroon na tayong malalaking pre-trained models (ang “priors”) at angkop na mga kapaligiran, “ang RL algorithm ay maaaring ang pinaka-trivial na bahagi” ng pagbuo ng mga advanced na ahente[5]. Sa ibang salita, nailuto na natin ang cake sa pamamagitan ng pre-training; ang reinforcement learning ang susi sa pag-frost nito ng reasoning at agency.

Si Shunyu Yao, sa The Second Half, ay nagpapahayag ng etos na ito. Binanggit niya na ang modernong AI ay nagbibigay na ng “working recipe” – malawak na pag-pre-training ng language model + scaling + reasoning – na makakalutas ng maraming gawain nang walang bagong algorithms[2][6]. Kaya't nagbago ang laro: ang simpleng paglikha ng ibang arkitektura ay hindi na magdadala ng mga pag-unlad na dati nitong ginagawa. Sa halip, kailangan nating magpokus sa pagsusuri at mga kapaligiran – sa esensya, sa mga gawain na pumipilit sa AI na tunay na mag-isip at kumilos, hindi lang hulaan ang susunod na token[7][8]. At tiyak na nangangahulugan ito ng paggamit ng RL. Tinawag ni Yao ang RL na “ang endgame ng AI” at sinasabi na ngayong mayroon tayo ng tamang mga sangkap (makapangyarihang priors mula sa pre-training, kasama ang mas mayamang mga kapaligiran na may wika at mga tool), “ang recipe ay lubusang binabago ang laro” sa ikalawang kalahating ito[1]. Dapat nating asahan ang paglipat mula sa static benchmarks patungo sa interactive tasks, at mula sa isang-beses na mga pagsusuri patungo sa tuloy-tuloy na pag-aaral sa ligaw. Sa madaling salita, ang reinforcement learning ay nagiging sentro sa kung paano natin isusulong ang AI mula ngayon.

Ang RL bilang Susi sa Pagbubukas ng Mga Advanced na Kakayahan

Bakit ang muling pagtuon sa RL? Sa madaling salita, ang reinforcement learning ay nagpapagana ng mga kakayahang hindi madaling makamit ng supervised learning lamang. Ang mga Large Language Models (LLMs) ay isang halimbawa. Ang isang transformer tulad ng GPT-4, na pre-trained sa mga teksto sa internet, ay natututo ng napakaraming kaalaman at pagkilala sa mga pattern ng wika – ngunit sa kanyang sarili, kulang pa rin ito ng totoong kapangyarihan. Ang pre-training ay nagtuturo ng “kung paano magsalita,” ngunit hindi kinakailangang kung anong mga desisyon ang gagawin sa isang interactive na setting. Sa kabilang banda, ang RL ay maaaring magturo sa isang AI kung anong mga layunin ang dapat itaguyod at kung paano kumilos upang makamit ang mga ito, sa pamamagitan ng pag-maximize ng mga gantimpala na sumasalamin sa mga layuning iyon. Ang paglipat na ito mula sa pasibong paghula patungo sa aktibong eksperimentasyon at pagtanggap ng feedback ay mahalaga para sa pagpapasiya, pagpaplano, at pagkakahanay.

Ang kamakailang trabaho sa mga ahente na batay sa LLM ay nagpapakita kung paano nagbubukas ang RL ng mga bagong antas ng pagganap. Halimbawa, ang open-source na modelo na Kimi K2 ay fine-tuned mula simula hanggang wakas gamit ang reinforcement learning, na “nagtuturo sa modelo na magplano, tumugon, at magwasto sa sarili sa pamamagitan ng mahahabang tanikala ng pangangatwiran sa halip na umasa lamang sa pinangangasiwaang post-training”[9]. Sa pamamagitan ng RL, natamo ni K2 ang mga autonomous na pattern ng pangangatwiran – natututo ito na suriin ang mga katotohanan, ulitin ang mga hipotesis, at manatiling maingat kahit na mukhang madali ang isang tanong[10]. Ang resulta ay isang modelo na hindi lamang nag-uulit ng data ng pagsasanay, kundi aktibong inaalam kung paano lutasin ang mga bagong problema. Gayundin, binibigyang-diin ng proyekto ng K2 ang pagiging maaasahan: mas pinipili ng ahente na beripikahin ang mga sagot bago tapusin ang mga ito, na nagpapakita ng pagkahilig na sinanay ng RL na i-maximize ang pagiging tama kaysa sa bilis[11]. Sa esensya, pinagkalooban ng reinforcement learning ang modelo ng isang internal na “agentic” loop ng pagpaplano at pagninilay, na inilipat ito sa kabila ng mga limitasyon ng susunod na token na prediksyon.

Nakikita rin natin ang pattern na ito sa ibang advanced na sistema. Ang sariling pagpapabuti ng ChatGPT mula sa GPT-3 ay higit na nagmula sa Reinforcement Learning mula sa Human Feedback (RLHF). Matapos ang pre-training ng modelo sa teksto, mas pinino ito ng OpenAI gamit ang feedback ng tao at mga reward model, na lubos na nagpabuti sa pagiging kapaki-pakinabang nito at pagsunod sa mga tagubilin. Inilalarawan ni John Schulman – isang nangungunang mananaliksik sa ChatGPT – ang prosesong ito: ang mga human tester ay nagbigay ng isang reward signal na nagpagaling sa modelo sa pagpapanatili ng magkakaugnay na pag-uusap, pananatili sa tamang landas, at pag-iwas sa hindi kanais-nais na mga output[12]. Sa ibang salita, ang RLHF ay nag-align sa modelo sa mga kagustuhan ng tao at mga normang pang-pag-uusap. Ang teknolohiyang ito ay naging isang de facto standard para gawing kapaki-pakinabang na mga assistant ang mga raw LLMs. Tulad ng nabanggit sa isang artikulo ng WIRED, ang reinforcement learning ay ngayon isang “dumaraming popular” na metodo para sa fine-tuning ng mga modelo sa pamamagitan ng pagbibigay sa kanila ng mga reward na batay sa feedback upang i-optimize[13]. Kung ito man ay upang gawing sumusunod ang isang chatbot sa mga instruksyon o bigyan ang isang malaking modelo ng kakayahan sa paglutas ng problema, ang RL ang tool na pinipili kapag nagawa na ng pre-training ang lahat ng kaya nito.

Ang kahalagahan ng RL ay lampas sa simpleng pag-aaral para sa pagiging magalang; ito ay tungkol sa pagtuturo sa mga modelo na gumawa ng desisyon. Isang kamakailang teknikal na blog mula sa Macaron AI’s Mind Labs ang nagbubuod nito: “Habang ang mga LLMs ay nag-e-evolve mula sa pre-training patungo sa experiential learning, ang Reinforcement Learning ang lumitaw bilang susi sa pagbubukas ng advanced reasoning capabilities.”[14] Sa halip na ituring ang RL bilang isang huling pag-iisip, itinuturing ito ng mga makabagong proyekto bilang isang “unang-klaseng disenyo na haligi para sa agentic behavior, hindi lamang isang panghuling polish na hakbang”[15]. Sa praktikal na mga termino, nangangahulugan ito ng pagsasanay sa mga sistema ng AI sa pamamagitan ng paglalagay sa kanila sa mga simulated o totoong kapaligiran kung saan kailangan nilang kumilos, tumanggap ng feedback, at mag-improve – maging ito man ay isang LLM agent na nagba-browse ng mga tools o isang robot na natututo mag-navigate. Ang experiential learning sa pamamagitan ng RL ang paraan kung paano makakakuha ng mga kasanayan ang AI na hindi makukuha sa mga static na datasets.

Kapansin-pansin na ang mga bagong AI labs ay umuusbong sa pilosopiyang ito. Ang Thinking Machines Lab, isang startup na itinatag ng mga dating lider ng OpenAI, ay kakalunsad lang na may napakalaking $2B seed valuation upang bumuo ng mga tool para sa fine-tuning ng frontier models gamit ang RL at iba pang teknolohiya. Ang kanilang pangunahing produkto na "Tinker" ay naglalayong i-automate ang RL-fine-tuning ng malalaking modelo, nagtataya na ang pagbibigay-kakayahan sa maraming tao na “maglabas ng mga bagong kakayahan mula sa malalaking modelo sa pamamagitan ng paggamit ng reinforcement learning” ay magiging susunod na malaking bagay sa AI[16][17]. Gayundin, ang Macaron AI (isang bagong research venture) ay nagdidisenyo ng mga custom RL optimizers at infrastructure upang i-scale ang RL sa trillion-parameter models[18][19]. Ang mga pagsisikap na ito ay nagpapakita ng mas malawak na trend: ang AI community ay nakakakita ng malaking oportunidad sa RL upang itulak ang mga modelo sa bagong hangganan – kung ito man ay gawing mas nagtutulungan at may kakayahang mag-isip (tulad ng sa Kimi K2 at mga ahente ng Macaron) o mas naaayon at iniayon (tulad ng sa ChatGPT at Tinker). Sa kabuuan, ang RL ay ngayon ay tinitingnan bilang susi na teknolohiya upang mapagtanto ang buong potensyal ng mga foundation models na binuo sa nakalipas na dekada.

Epekto sa Tunay na Buhay: Mula sa mga Simulation hanggang sa mga Satellite

Marahil ang pinaka-kapana-panabik na dahilan para sa tumataas na katanyagan ng RL ay ang tagumpay nito sa pagharap sa mga problema na lampas sa sandbox ng mga static na dataset – madalas na nakamit ang mga gawaing dati'y hindi maabot. Ang mga milestone sa paglalaro ng laro ang unang dramatikong patunay: Ang AlphaGo, AlphaZero ng DeepMind, at OpenAI’s Five ay lumupig sa Go, chess, at maging sa mga komplikadong video game sa pamamagitan ng malalim na reinforcement learning. Ang mga sistemang ito ay nagpakita na, kapag may malinaw na gantimpala (tulad ng panalo sa laro), ang mga RL agent ay maaaring lumampas sa mga human champion sa pamamagitan ng masinsinang pagsasanay at pag-optimize. Kapansin-pansin, ang tagumpay ng OpenAI Five laban sa world champion Dota-2 team noong 2019 ay nakamit sa pamamagitan ng pagsasanay gamit lamang ang self-play RL sa walang kapantay na sukat – na ipinapakita ang "nakakagulat na kapangyarihan" ng mga RL algorithm ngayon kapag may sapat na karanasan na ibinigay. Ang proyektong iyon ay nagpakita ng parehong potensyal at mga hamon ng RL: ito ay nangangailangan ng malawakang simulasyon (katumbas ng daan-daang taon ng gameplay) at mapanlikhang inhenyeriya upang magtagumpay, ngunit ito ay nagtagumpay, lumilikha ng pagtutulungan at mga estratehiya na lampas sa kung ano ang kayang gawin ng anumang batay-sa-patakaran na AI.

Naka-install ang ADCS box (Attitude Determination and Control System) sa qualification model ng InnoCube satellite.

Mahalaga, hindi na limitado sa mga laro ang RL. Isang mahalagang tagumpay noong 2022 ay nakita ang DeepMind na gumamit ng deep RL upang kontrolin ang isang nuclear fusion plasma sa real-time, isang bagay na dati'y imposible gamit ang manwal na mga kontrol. Sa pamamagitan ng pagsasanay sa isang simulator at pagkatapos ay pag-deploy sa isang tokamak reactor, natutunan ng kanilang ahente na manipulahin ang mga magnetic coil upang pigilan ang plasma, matagumpay na natutunan ang pag-stabilize ng isang fusion reaction ng kusa[21]. Ipinakita nito kung paano mahawakan ng RL ang mga high-dimensional, dynamic na problema sa pisika – nagbubukas ng mga bagong daan para sa pananaliksik na siyentipiko na umaasa sa tumpak na sunud-sunod na desisyon[21].

Isa pang larangan kung saan pinatutunayan ng RL ang kakayahan nito sa totoong mundo ay ang multi-agent interaction at game theory. Isang kapansin-pansing halimbawa ay ang Meta's CICERO, ang unang AI na nakamit ang human-level na pagganap sa laro ng Diplomacy, na nangangailangan ng negosasyon at pagbuo ng alyansa sa gitna ng maraming manlalaro. Pinagsasama ng CICERO ang isang LLM para sa wika sa isang RL-trained na planning module; kailangan nitong bumuo ng mga estratehiya, imodelo ang intensyon ng ibang manlalaro, at makipag-usap nang mabisa. Ang resulta ay isang tagumpay – nagawa ng CICERO na makipagtulungan at makipagkumpitensya nang epektibo sa mga tao, kahit na may kasinungalingan at panlilinlang. Ayon sa mga tagamasid, ito ang “unang AI na nakamit ang human-level na pagganap sa Diplomacy, isang larong estratehiya na nangangailangan ng tiwala, negosasyon at kooperasyon sa maraming manlalaro.”[22] Lumalampas ito sa mga taktika ng board game; nagpapahiwatig ito na kayang tugunan ng mga RL agent ang social strategy at dynamic na game-theoretic environments. Ang ganitong kakayahan ay mahalaga para sa AI na maaari balang araw ay makakikilos sa mga ekonomiya, negosasyon, o mga kumplikadong desisyon ng organisasyon.

Sa wakas, at marahil ang pinaka-dramatiko, ang RL ay naglalakbay na palayo sa Earth. Nitong nakaraang taon, ang mga mananaliksik ay nakamit ang maituturing na science fiction na naging tunay: mga autonomous na satellite at robot sa orbit na kontrolado ng reinforcement learning. Sa isang eksperimento ng U.S. Naval Research Lab sa International Space Station, isang RL algorithm (na sinanay sa simulation) ang pumalit sa kontrol ng isang Astrobee free-flying robot at matagumpay na nagsagawa ng autonomous na galaw sa microgravity[23][24]. Napansin ng team ng NRL na ito ang “unang autonomous na kontrol ng robot sa kalawakan gamit ang reinforcement learning algorithms”, at ito ay nagtataguyod ng kumpiyansa na ang RL ay kayang hawakan ang mahihirap na kondisyon ng operasyon sa kalawakan[23]. Kamakailan lamang, noong Oktubre 30, 2025, isang team mula sa University of Würzburg ang nakamit ang unang world-first in-orbit demo: ang kanilang maliit na InnoCube satellite ay nagsagawa ng attitude alignment maneuver na ganap na kontrolado ng isang onboard RL agent[25][26]. Sa mga salita ng pangunahing mananaliksik, “nakamit namin ang unang praktikal na ebidensya na ang isang satellite attitude controller na sinanay gamit ang Deep Reinforcement Learning ay maaaring mag-operate ng matagumpay sa orbit.”[26] Ito ay isang watershed moment – ang RL ay nakapagtapos mula sa simulations at mga laboratoryo patungo sa pagkontrol ng pisikal na mga sistema sa kalawakan. Ang AI controller ay natuto sa isang high-fidelity simulator at na-upload sa satellite, kung saan ito ay nagsagawa ng mga tiyak na orientation tasks nang walang tao sa loop[27][28]. Ang karaniwang buwanang proseso ng pag-tune sa control algorithm ng satellite ay pinalitan ng isang RL agent na kayang mag-adapt agad-agad[29]. Ang mga tagumpay na ito sa space robotics ay nagpapakita ng kakayahan ng RL na makabuo ng mga polisiyang nag-aadapt at nag-generalize sa ilalim ng kawalang-katiyakan sa totoong mundo – isang mahalagang hakbang patungo sa mas autonomous na mga sasakyan, drones, at robot dito sa Earth din.

Mga Implikasyon at Hinaharap na Direksyon

Lahat ng mga halimbawang ito ay naglalarawan ng isang mahalagang punto: Ang reinforcement learning ay umuunlad sa tamang panahon na kailangan natin ito. Habang ang AI ay pumapasok sa “ikalawang kalahati,” kung saan ang hamon ay hindi lamang pagpapahayag kundi paggawa, ang RL ay nagbibigay ng balangkas para sa eksperimentasyon, pag-angkop, at pangmatagalang pag-optimize. Hindi tulad ng supervised learning, na nakatali sa nakaraang data, ang RL ay nagbibigay kakayahan sa mga sistema na matuto mula sa kanilang sariling karanasan at mag-improve sa pamamagitan ng pagsubok at pagkakamali. Ito ay mahalaga para sa anumang AI na dapat gumana sa hindi istrakturadong, bagong mga sitwasyon – maging ito man ay isang assistant na sumasagot sa bagong tanong ng user o isang robot na humaharap sa hindi inaasahang mga hadlang.

Mayroon ding mas malalim na implikasyon sa kung paano natin sinusukat ang progreso sa AI. Hindi na natin maaasahan ang mga static na benchmark lamang upang sukatin ang katalinuhan ng isang modelo. Sa halip, nagmumungkahi ang mga mananaliksik ng mga bagong paraan ng pagsusuri na salamin ng totoong mundo: tuluy-tuloy na gawain, interaksyon kasama ang tao, at mga non-i.i.d. na sitwasyon[8][30]. Sa pamamagitan ng pagsasama ng ganitong mayamang kapaligiran sa RL na pagsasanay, pinipilit natin ang ating mga modelo na bumuo ng mas matibay, pangkalahatang naaangkop na mga asal. Sa mga salita ni Yao, ang ikalawang kalahati ay magiging tungkol sa paglikha ng mga ahente na lumabas mula sa benchmark loop at talagang maghatid ng totoong mundo na gamit[31][32]. Ang dagsa ng pamumuhunan sa mga RL-centric na lab at ang mabilis na pagtanggap ng RLHF sa industriya ay nagpapakita ng pagkilala na ngayon na ang oras para gawin ang hakbang na ito.

Gayunpaman, ang pagtanggap sa RL ay may mga hamon din. Ang pagsasanay sa RL ay maaaring maging hindi matatag at nangangailangan ng maraming mapagkukunan (isang halimbawa nito ay ang mahal na pagsasanay ng OpenAI Five[20]). Kadalasang nangangailangan ito ng mabilis na simulation o mga kapaligiran kung saan mura ang pagkakamali – isang bagay na hindi palaging makukuha sa mga high-stakes na larangan. Gayunpaman, may ginagawa na ring progreso sa mga aspetong ito. Ang mga bagong algorithm at mga balangkas (tulad ng mga optimizations ng All-Sync RL with DAPO ng Macaron) ay lubos na nagpapabuti sa kahusayan ng malawakang pagsasanay sa RL[19][33]. Ang mga teknolohiya tulad ng sim2real transfer, pagmomodelo ng gantimpala, at mas ligtas na estratehiya ng paggalugad ay tumutulong sa mga sistema ng RL na makalipat sa totoong deployment nang hindi nagkakaroon ng mapaminsalang pagkabigo[34][35]. Mahalaga, natututo ang komunidad kung paano ihalo ang RL sa iba pang mga paradigma – halimbawa, paggamit ng mga modelo ng wika bilang mga kritiko o tagaplano, paggamit ng mga demonstrasyon ng tao upang gabayan ang RL (isang uri ng hybrid na pag-aaral sa pamamagitan ng panggagaya), at higit pa. Ang mga hybrid na pamamaraang ito ay madalas na nakakakuha ng pinakamahusay sa parehong mundo: ang kaalaman ng pre-training at ang paggawa ng desisyon ng reinforcement learning.

Sa pagtatapos, ang pagtutok sa reinforcement learning ngayon ay hindi isang usapin ng hype para sa sarili nitong kapakanan – ito ay pagkilala kung saan nakasalalay ang mga pangangailangan at oportunidad. Nasa isang yugto tayo kung saan ang ating mga sistema ng AI ay may malawak na latent capabilities (salamat sa pre-training), at ang paraan upang buhayin ang mga kakayahang iyon ay sa pamamagitan ng goal-directed learning. Kung ito man ay upang iayon ang ugali ng AI sa mga halaga ng tao, bigyan ng tunay na awtonomiya ang mga robot, o itulak ang AI na lutasin ang mga bagong problema sa siyensiya at inhinyeriya, ang RL ay nagbibigay ng mga kasangkapan upang muling pinuhin at pagbutihin ang AI sa pamamagitan ng feedback. Saksi tayo sa paglipat mula sa isang panahon ng passive learning patungo sa isa ng aktibong pag-aaral at paggawa. Tulad ng sinasabi, “hindi tayo makarating doon sa parehong paraan na nagdala sa atin dito.” Ang mabibigat na gawain ng representation learning ay maaaring natapos na ng mga higanteng modelo, ngunit ang gawing kapaki-pakinabang, adaptive, at mapagkakatiwalaang mga ahente ang mga modelong iyon – iyon ang gawain ng reinforcement learning. Sa pamamagitan ng pamumuhunan sa RL research at applications ngayon, talagang hinaharap natin ang mahihirap na problema nang direkta: paggawa ng AI na kayang mag-isip nang paunti-unti, mag-explore ng mga alternatibo, bumangon mula sa mga pagkakamali, at sa huli ay magtagumpay sa mga bukas na gawain. Sa grandeng takbo ng AI, ang pagbabagong ito ay kasinghalaga ng deep learning revolution noong 2010s. Ang ikalawang bahagi ay nagsisimula pa lamang, at ang reinforcement learning ang nakatakdang maging puwersang tagapagpatakbo nito.

Mga Sanggunian:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]

[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] Ang Ikalawang Kalahati – Shunyu Yao – 姚顺雨

https://ysymyth.github.io/The-Second-Half/

[9] [10] [11] [15] Pagpapakilala sa Kimi K2 Thinking | Blog

https://kimik2thinking.org/blog/introducing-kimi-k2-thinking

[12] [13] [16] [17] Eksklusibo: Ang Lihim na AI Lab ni Mira Murati ay Naglunsad ng Unang Produkto | WIRED

https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/

[14] [19] MIND LABS | Pagpapalawak ng All-Sync RL gamit ang DAPO at LoRA

https://mindlabs.macaron.im/

[18] Isang Pagsusuri ng Macaron: Kimi K2 “Thinking” Model: Pagsulong ng Open Agentic AI - Macaron

https://macaron.im/blog/kimi-k2-thinking

[20] OpenAI Five tinalo ang mga kampeon ng mundo sa Dota 2 | OpenAI

https://openai.com/index/openai-five-defeats-dota-2-world-champions/

[21] Pabilisin ang agham ng pagsasanib sa pamamagitan ng natutunang kontrol sa plasma - Google DeepMind

https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/

[22] CICERO: AI Sa Diplomasiya at Relasyon | blog_posts – Weights & Biases

https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5

[23] [24] [34] [35] Ang Reinforcement Learning ay Nagdudulot ng Ingay sa Kalawakan > U.S. Naval Research Laboratory > NRL News

https://www.nrl.navy.mil/Media/News/Article/4297593/reinforcement-learning-is-making-a-buzz-in-space/

[25] [26] [27] [28] [29] Unang Pagpapalabas sa Kalawakan: Würzburg AI Nagkokontrol ng Satellite -

https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends