Mula sa Pag-scale hanggang sa Experiential Intelligence: Ang Bisyon ni Ilya Sutskever at Ang Pamamaraan ng Macaron

May-akda: Boxu Li

Ang Wakas ng “Scaling” na Panahon at Pagbabalik sa Pananaliksik

Sa isang kamakailang pag-uusap kay Dwarkesh Patel, nagmuni-muni si Ilya Sutskever – co-founder ng OpenAI at kasalukuyang pinuno ng startup na Safe Superintelligence (SSI) – ukol sa kalagayan ng AI at kung saan ito patungo. Ayon kay Sutskever, ang industriya ng AI ay lumalampas na sa panahon ng "palakihin na lang ito" at bumabalik sa isang panahon ng pangunahing pananaliksik. Mula humigit-kumulang 2012–2020, ang pag-unlad ng deep learning ay pinamunuan ng mga bagong ideya (ang “panahon ng pananaliksik”), na sinundan ng 2020–2025 na pokus sa pagpapalawak ng data at mga parameter (ang “panahon ng pagpapalawak”). Ngunit ngayon, ang simpleng pagtaas ng laki ng modelo o dataset ay nagiging hindi na gaanong epektibo. Gaya ng tahasang sabi ni Sutskever, "kung 100× mo lang ang scale, [hindi] lahat ay mababago... bumabalik na ito sa panahon ng pananaliksik muli, ngunit may malalaking computer." Sa madaling salita, ang mga susunod na tagumpay ay hindi manggagaling sa pwersang pagpapalawak, kundi sa mga bagong pamamaraan ng pagsasanay at mas matatalinong algorithm.

Isang pangunahing problema na nag-uudyok sa pagbabagong ito ay ang tinatawag ni Sutskever na generalization gap. Ang malalaking modelo ngayon ay kayang pumasa sa mga benchmark ngunit nadadapa pa rin sa mga praktikal na gawain – isang kabalintunaan na nagiging mas maliwanag. “Ang mga modelong ito ay sa paanuman mas mahina sa pangkalahatang pag-uugnay kaysa sa mga tao. Napaka-obvious nito. Mukhang ito ay isang napakahalagang bagay,” pansin ni Sutskever[4]. Ang mga modelo na nakakakuha ng pinakamataas na marka sa mga kumpetisyon sa coding o mga pagsusulit sa wika ay maaari pa ring magkamali – inuulit-ulit ang parehong pag-aayos ng bug, o nabibigo sa mga simpleng desisyon na may karaniwang kahulugan – na hindi gagawin ng sinumang may kakayahang tao[4][5]. Ipinapakita nito ang isang kahinaan: ang mga neural networks ay hindi talaga nakakaintindi o nakakaangkop nang kasing tibay ng mga tao, sa kabila ng kanilang kahanga-hangang makitid na kasanayan. Tulad ng isang buod ng talumpati ni Sutskever na nagpapaliwanag, kahit na nakagawa tayo ng mga modelo na mahusay sa mga pagsusuri, ang kanilang pagiging maaasahan sa totoong mundo ay nananatiling “isang kahinaan na ipinapakita ng … mataas na pagganap sa mga pagsusuri kumpara sa mga pagkakamali sa totoong mundo.”[6]

Bakit kulang ang kasalukuyang mga modelo sa pagpapalawak ng pangkalahatang kaalaman? Sinasabi ni Sutskever na ito'y bahagi ng epekto ng ating kasalukuyang sistema ng pagsasanay. Sa panahon ng malakihang pre-training, pinakain natin ng lahat (tekstong saklaw ang internet) ang modelo at umasa na ang dami ng data ay magbibigay ng malawak na kakayahan. Nagawa nito – hanggang sa isang punto. Ngunit pagkatapos ng pre-training, pinupulido ng mga kumpanya ang mga modelo gamit ang reinforcement learning (RL) sa mga tiyak na benchmark o user instructions. Hinala ni Sutskever na ang RL stage na ito ay kadalasang nagdudulot ng sobrang pagdadalubhasa ng mga modelo para magtagumpay sa mga pagsusulit kaysa sa tunay na pagpapabuti ng kanilang pag-unawa[7]. Sa kanyang pag-uusap, nagbibigay siya ng maliwanag na paghahambing: isang "estudyante" (katulad ng isang AI model) ang gumugugol ng 10,000 oras sa pag-eensayo ng mga problema sa competitive programming at nagiging bihasa sa coding contests, samantalang ang isa pang estudyante ay nag-eensayo nang mas katamtaman at nakatuon sa malawakang intuwisyon sa computer science[8][9]. Ang una ay maaaring magtagumpay sa mga kompetisyon pero ang pangalawa ay nagiging mas versatile na inhinyero sa totoong mundo. Ang mga modelo ngayon ay tulad ng sobrang handang espesyalista – mahusay sila sa makitid na kondisyong para sa kanila, ngunit kulang sila sa “it factor” na taglay ng mga tao para maiangkop ang mga kasanayan sa mga bagong, magulong problema[10][11]. Sa madaling salita, ang ating mga AI ay hindi pa nakakamit ang matibay, fluid na pagpapalawak ng kaalaman na natatamo natin sa pamamagitan ng isang lifetime ng karanasan.

Bakit Mas Mabisa ang Pagkatuto ng mga Tao: Halimbawa ng Kahusayan at Patuloy na Pagkatuto

Isang pangunahing tema sa talakayan ni Sutskever ay ang kahusayan sa halimbawa ng pagkatuto ng tao. Ang mga tao ay nangangailangan ng nakakagulat na kaunting data upang matutunan ang mga kumplikadong gawain. Halimbawa, Yann LeCun ay nagturo na ang isang kabataan ay maaaring matutong magmaneho ng kotse sa loob ng maaring 10 oras na pagsasanay – isang napakaliit na dataset ayon sa pamantayan ng AI[12]. Natututo ang mga batang bata na makilala ang mga kotse (at libu-libong iba pang konsepto) mula sa simpleng pagkakalantad sa pang-araw-araw na buhay[12]. Sa kabaligtaran, ang mga kasalukuyang modelo ng AI ay madalas na nangangailangan ng napakalaki na mga training set at hindi pa rin kayang pantayan ang kakayahang umangkop ng tao. Binanggit ni Sutskever na ang ebolusyon ay naglo-load sa atin ng ilang kapaki-pakinabang na mga bias sa pag-iisip – halimbawa, ang milyun-milyong taon ng bisyon at pagkilos ay humubog sa ating mga utak – ngunit hindi iyon ang buong kuwento[13][12]. Kahit sa mga domain na hindi pinino ng ebolusyon (tulad ng pagbabasa, matematika, o programming), ang mga tao ay mabilis na mas natututo kaysa sa mga algorithm ngayon[14][15]. Ipinapahiwatig nito na ang “anumang bagay na nagpapahusay sa tao sa pagkatuto” ay lampas sa built-in na kaalaman – mayroong tayong pangunahing mas mahusay na algorithm sa pagkatuto[14][15].

Ano kaya ang algorithm na iyon? Isang pahiwatig, ayon kay Sutskever, ay ang mga tao ay patuloy at interaktibong natututo, hindi sa isang malaking batch lamang. Hindi natin nilalagok ang terabytes ng teksto at pagkatapos ay pinapako ang ating mga utak; sa halip, natututo tayo mula sa patuloy na karanasan, palaging ina-update ang ating kaalaman. Binanggit niya na ang isang tao sa edad na 15 ay may mas kaunting kabuuang pag-inom ng datos kaysa sa korpus ng isang malaking modelong pangwika, subalit sa edad na 15 ay nakakamit natin ang mas malalim na pag-unawa at mas kaunting halatang pagkakamali[16][17]. Ang pagkakaiba ay patuloy na natututo ang mga tao habang-buhay – hindi natin itinuturing na tapos na ang ating “training phase” sa pagdadalaga o pagbibinata. “Ang isang tao ay hindi isang AGI... sa halip, umaasa tayo sa patuloy na pagkatuto,” sabi ni Sutskever, na binibigyang-diin na kahit ang isang sobrang talinong AI ay maaaring kailanganing i-deploy na parang isang 15-taong gulang na henyo kaysa isang all-knowing oracle[18][19]. Ang ganitong AI ay magkakaroon ng matibay na pundasyon ngunit “kulang ng malaking dami ng kaalaman” sa simula – pagkatapos ay matututo habang nagtatrabaho sa iba't ibang mga tungkulin, katulad ng isang batang matalino na lumalabas sa mundo upang maging isang doktor o inhinyero[19][20]. Sa katunayan, ang pananaw ni Sutskever sa isang ligtas na superintelligence ay malinaw na hindi isang static na modelo na “alam kung paano gawin ang bawat trabaho,” kundi isang sistema na “maaaring matutong gawin ang bawat solong trabaho” at patuloy na gumagaling[20][21]. Sa madaling salita, ang tunay na tagumpay ng AI ay maaaring mangahulugang paglikha ng mga maestro ng pagkatuto, hindi lamang mga maestro ng anumang nakatakdang gawain.

Ang isa pang aspeto ng pagkatuto ng tao ay ang ating likas na mekanismo ng feedback. May mga emosyon at intuwisyon ang mga tao na kumikilos bilang panloob na signal ng gantimpala, ginagabayan tayo habang natututo ng mga bagong kasanayan. Ikinuwento ni Sutskever ang isang kapansin-pansing kaso: isang lalaki na nawalan ng kakayahang makaramdam ng emosyon (dahil sa pinsala sa utak) ay naging sukdulang hirap sa paggawa ng desisyon, nahihirapan kahit na pumili ng medyas na isusuot[22][23]. Nang walang mga emosyonal na pahiwatig, wala siyang panloob na pakiramdam kung ano ang mahalaga. Iminumungkahi nito na ang ating mga utak ay gumagamit ng isang uri ng function ng halaga – isang patuloy na pagtatantya kung gaano kahusay ang mga bagay – upang matutong mahusay at makagawa ng mga desisyon[24][25]. Sa mga tuntunin ng reinforcement learning, hindi tayo naghihintay hanggang sa dulo ng isang karanasan para makakuha ng gantimpala; bumubuo tayo ng mga intrinsic na gantimpala sa mga intermediate na hakbang (kasiyahan, pagkabigo, pagkamausisa, atbp.), na lubhang nagpapabilis sa pagkatuto. Ipinapahayag ni Sutskever na ang mga algorithm ng RL ngayon ay kulang sa ganitong kayamanan – madalas silang naghihintay ng panghuling iskor at sa gayon ay napaka-inepisyente sa mga gawain na may mahabang saklaw[26][27]. “Kung ikaw ay gumagawa ng isang bagay na tumatagal ng mahabang panahon… wala itong matutunan hanggang sa [wakas],” ipinaliwanag niya tungkol sa naive RL[28]. Ang solusyon ay bigyan ang mga AI agents ng mas mahusay na pakiramdam ng progreso – isang function ng halaga upang paikliin ang mga mahabang pagkaantala ng feedback[29][30]. Ang pagsasama ng ganitong panloob na feedback ay maaaring gawing mas mahusay ang pagsasanay. Inihalintulad pa ni Sutskever ito sa kung paano gumagana ang mga emosyon para sa mga tao[31], tinatawag itong isang promising na direksyon upang “gamitin ang iyong compute nang mas produktibo” kaysa sa brute-force na pagsubok at pagkakamali[30]. Sa kabuuan, ang kombinasyon ng patuloy na pagkatuto at mas mayamang self-supervision (mga signal ng halaga) ay maaaring maging susi sa pagsara ng agwat sa generalization.

Pangunahing pananaw: Ang kasalukuyang mga modelo ng AI ay nangangailangan ng higit na maraming data kaysa sa mga tao at hindi pa rin kasing adaptable. Ang mga tao ay natututo nang mahusay sa pamamagitan ng patuloy na pagtitipon ng karanasan at paggamit ng panloob na feedback (ang ating "emosyonal" na value function) upang gabayan ang pagkatuto. Ang pagbuo ng AI na natututo sa katulad na interactive at incremental na paraan—at kayang suriin ang sariling progreso—ay maaaring magdulot ng dramatikong pagbuti sa pag-generalize.

Lampas sa Pre-Training: Patungo sa Experiential Intelligence

Ang mga insight na ito ay malalim na umaayon sa aming pilosopiya sa Macaron AI. Madalas naming pinapahayag ito sa isang linya: Tunay na talino ay natututo mula sa tunay na karanasan. Sa halip na umasa lamang sa mas malalaking modelo o mas malalaking offline datasets, nakatuon ang pananaliksik ng Macaron sa experiential learning – pagsasanay ng AI sa pamamagitan ng aktibong interaksyon, feedback, at long-horizon memory, tulad ng tao na unti-unting nagiging bihasa sa paglipas ng panahon. Ang pamamaraang ito, na tinatawag naming Experiential Intelligence, ay tungkol sa mga modelong lumalawak ang kakayahan mula sa kalidad at pagkakaiba-iba ng mga karanasan na kanilang natutunan mula sa, hindi lamang sa dami ng data na kanilang tinutunaw. Ito ay isang maingat na pag-alis mula sa panahon ng bulag na pag-scale. Tulad ng binigyang-diin ni Sutskever mismo, ang simpleng pagdagdag ng data o mga parameter ay nagdudulot ng unti-unting bumababang balik[2]; ang susunod na hakbang pasulong ay magmumula sa mga algorithm na maaaring matuto ng higit mula sa kaunti sa pamamagitan ng paggamit ng tamang karanasan.

Konkretong, ang Mind Lab ng Macaron na dibisyon ng pananaliksik ay nangunguna sa mga teknika upang paganahin ang patuloy at feedback-driven na pagkatuto sa malalaking modelo. Hindi namin itinatapon ang aming modelong pundasyon at pre-train ng bago mula sa simula para sa bawat pag-upgrade. Sa halip, pinalalawak namin ang malalakas na base models gamit ang iterative post-training: reinforcement learning sa mga tunay na gawain, feedback ng tao sa loop, at integrasyon ng pangmatagalang alaala. Halimbawa, kamakailan ay naging una ang aming koponan sa buong mundo na magpatakbo ng high-performance RL fine-tuning sa isang 1-trilyong-parameter na open-source na modelo – gamit ang parameter-efficient LoRA adapters – habang kumokonsumo lamang ng ~10% ng karaniwang GPU budget. Ito ay isang tagumpay sa paggawa ng malakihang post-training na posible. Sa kakanyahan, ipinakita namin na ang pagbibigay sa isang napakalaking modelo ng bagong karanasan (at pagkatuto mula rito) ay maaaring gawin nang mas epektibo kaysa sa mga simpleng pamamaraan. Ang resulta? Sa halip na pigain ang bahagyang mas mababang perplexity sa static na data, tinuruan namin ang modelo ng mga bagong kasanayan sa pamamagitan ng pakikipag-ugnayan – at ginawa ito sa isang praktikal at cost-effective na paraan. (Kapansin-pansin, binuksan namin ang mga teknika sa likod nito at naiambag sa mga popular na training frameworks tulad ng NVIDIA’s Megatron at ByteDance’s VEGA, upang magamit ito ng mas malawak na komunidad.)

Memory: Matutong Kalimutan ng Matalino

Isa pang haligi ng pamamaraan ng Macaron ay ang memorya - hindi sa simpleng kahulugan ng isang chat history window, kundi bilang isang natutunang bahagi ng modelo na nag-iipon at nag-uuri ng kaalaman sa paglipas ng panahon. Hindi tinatrato ng mga tao ang bawat piraso ng input ng pantay; naaalala natin ang mahahalagang pangyayari at madaling nakakalimutan ang iba. Ang kakayahang ito na matalinong makalimot ay mahalaga upang mahawakan ang pangmatagalang dependencies nang hindi labis na nabibigatan. Mula sa inspirasyong ito, nakabuo ang aming mga mananaliksik ng isang natatanging sistema ng memorya na tinatawag na Memory Diffusion. Di tulad ng brute-force caching o retrieval, tinuturuan ng Memory Diffusion ang modelo kung paano dapat mag-evolve ang impormasyon sa isang mahabang pag-uusap o kasaysayan ng paggamit. Natututo ang modelo na "i-diffuse" ang mga di-kailangang detalye at patalasin ang mahahalagang impormasyon habang lumalaki ang konteksto. Empirikal, ang pamamaraang ito ay nakapagbigay ng mas mahusay na resulta kumpara sa mga klasikong baseline ng memorya (tulad ng fixed-length context o heuristic retrieval) sa pagpapanatili ng long-horizon coherence. Mas madali itong maunawaan, binibigyan nito ang modelo ng uri ng working memory na inuuna ang mahalaga - katulad ng mabilis na paglimot ng iyong utak sa mga billboards na nadaanan mo sa pag-commute pero natatandaan kung saan ka papunta at bakit. Sa pamamagitan ng pagpapahintulot sa modelo na matutunan kung aling mga signal ang dapat panatilihin at alin ang dapat pakawalan, nagkakaroon tayo ng sistema na maaaring magdala ng mahahalagang natutunan mula sa isang gawain tungo sa susunod, na nagbibigay-daan sa mas patuloy na pagkatuto. Ang mekanismong ito ng memorya ay naging mahalagang bahagi ng arkitektura ng agent ng Macaron, kasama ang aming mga pagsulong sa pangangatwiran at paggamit ng mga kasangkapan. Isa pa itong halimbawa kung paano namin pinapaboran ang talinong arkitektura kaysa sa hilaw na sukat: sa halip na palawakin lang ang context window sa 1 milyong token (na hindi mabisa), binibigyan namin ang modelo ng paraan upang matalino nitong i-compress at alalahanin ang kaalaman mula sa sarili nitong karanasan.

Mga Real-World na Feedback Loop

Mahalaga, ang pananaliksik ng Macaron ay hindi nagaganap nang hiwalay mula sa aming produkto. Naniniwala kami sa mahigpit na research↔product loop: ang mga pagpapabuti sa lab ay direktang nasusubok sa karanasan ng gumagamit, at ang mga pananaw mula sa produkto ay nagbibigay kaalaman sa bagong pananaliksik. Halimbawa, ang personal na AI app ng Macaron ay aktibong nagtatala ng hindi kilalang feedback kung saan nagkukulang ang mga tugon ng AI o kapag tila hindi nasiyahan ang mga gumagamit. Ang mga signal na ito ay pumapasok sa aming reinforcement learning training bilang karagdagang reward signal. Natuklasan namin na ang pagsasanay sa tunay na feedback ng gumagamit ay madalas na nagdudulot ng mas malalaking pag-unlad sa kakayahan kaysa sa simpleng pagdaragdag ng mas maraming internet text sa pre-training. Ito ay umaayon sa obserbasyon ni Sutskever na kung ano ang iyong sinasanay ay maaaring mas mahalaga kaysa sa kung gaano karami – ang maliit na dami ng target na karanasan ay maaaring makapagturo sa isang modelo ng isang bagay na hindi kaya ng bilyun-bilyong static na token[7]. Sa pamamagitan ng pagsasara ng loop sa pagitan ng deployment at pananaliksik, sinisiguro naming ang aming AI ay talagang bumubuti sa mga gawain na mahalaga sa mga tao. Sa mga termino ni Sutskever, binibigyan namin ang aming mga modelo ng “it factor” na nagmumula sa pagdanas sa mundo, hindi lamang sa pagmememorize nito.

Pagsasanib: Isang Bagong Paradigma para sa AI

Nakakatuwang makita ang lumalaking pagkakaisa sa mga pinuno ng AI na ang patuloy at karanasang pagkatuto ang tamang landas pasulong. Ang pananaw ni Sutskever ng isang sobrang talino na natututo na parang tao – palaging nababagay at nag-aangkop – ay eksaktong landas na tinatahak ng Macaron. Hindi kami nag-iisa sa pagbabagong ito. Ang kamakailang Pathways na estratehiya ng Google, halimbawa, ay nagtataguyod rin ng pagsasanay ng isang modelo sa maraming gawain at modalidad upang matuto ito ng mga bagong kasanayan paglipas ng panahon, lumalampas sa mga modelong may iisang layunin. At ang mga mananaliksik tulad nina Jason Wei at Jeff Dean ay tinalakay ang pangangailangan para sa mga arkitekturang makakolekta ng kaalaman ng paunti-unti at mahusay, kaysa umasa lamang sa napakalaking one-shot na mga pagsasanay. Ito ay kumakatawan sa mas malawak na momentum ng industriya patungo sa kung ano ang maaaring tawaging “learning-centric AI” (kumpara sa model-centric AI ngayon). Sa bagong paradigm na ito, ang tanong ay nagiging: Gaano kabilis makakakuha ang isang AI ng bagong kakayahan o makakapag-angkop sa bagong sitwasyon? – sa halip na ilan ang mga parameter nito o gaano karaming datos ang ginamit para sa pre-training nito. Sa sukatan na iyon, hawak pa rin ng tao ang korona. Ngunit ang agwat ay kumikitid.

Sa Macaron AI, ang aming taya ay ang Experiential Intelligence – AI na natututo mula sa tunay na karanasan – ang magbubukas ng susunod na alon ng performance at pagiging maaasahan. Nakikita na namin ang mga patunay: ang aming mga modelo na sinanay gamit ang reinforcement learning at feedback mula sa tao ay hindi lamang mas mahusay sa mga benchmark, kundi mas mahalaga, mas nararamdaman nilang naka-align sa mga pangangailangan ng gumagamit sa praktika. Mas kaunti ang kanilang mga pagkakamali at mas maayos silang nakakabawi mula sa mga pagkakamali, dahil natutunan ng kanilang pagsasanay na mapansin at itama ang mga pagkakamali (tulad ng isang tao). Ang aming mga memory mechanism ay nagbibigay din sa kanila ng continuity na wala sa purong mga transformer, na nagpapahintulot sa isang pag-uusap o gawain na magpatuloy sa loob ng ilang buwan nang hindi nagre-reset. Lahat ng mga kalamangan na ito ay nagmumula sa pagtrato sa talino bilang isang proseso, hindi isang static na artifact. Tulad ng sinabi ni Sutskever, ang isang deployed na AI ay maaaring dumaan sa isang “panahon ng pagkatuto at pagkakamali” sa panahon ng deployment – at ito ay isang tampok, hindi isang bug, hangga't ito ay kontrolado at naka-align.

Ang pagkakahanay, siyempre, ay napakahalaga kapag pinag-uusapan natin ang tungkol sa AI na natututo nang mag-isa. Nakakatuwa, iminungkahi ni Sutskever na maaaring mas madali pang ihanay ang isang AI na talagang natututo at nakakaintindi sa paglipas ng panahon – potensyal na isa na nagpapahalaga sa damdamin ng buhay at kayang imodelo ang mundo at iba nang may empatiya – kaysa ihanay ang isang static na super-genius na sinanay sa likod ng saradong pintuan. Kung ang isang AI ay lumaki na nakikipag-ugnayan sa mga tao, may pagkakataong maitanim ang mga halaga ng tao sa buong pag-unlad nito (at upang obserbahan at ituwid ang mga pagkakamali). Inieecho nito ang aming pananaw na ang transparency at unti-unting pag-deploy ay susi sa ligtas na AI. Ang platform ng Macaron, sa pamamagitan ng direktang pakikisalamuha sa mga user at pagkatuto mula sa kanila, ay nagbibigay ng natural na sandbox para sa ganitong incremental na pamamaraan. Sinasadya naming i-roll out ang mga bagong kakayahan sa pag-aaral nang paunti-unti, sinusubaybayan ang pag-uugali at kinokolekta ang feedback, sa halip na pakawalan ang isang black-box na modelo na sinanay sa isang vacuum. Sa madaling salita, ang experiential learning ay hindi lamang nagpapatalino ng AI – maaari rin nitong gawing mas ligtas at mas nakaayon sa tao ang AI.

Konklusyon: Pagyakap sa Karunungang Eksperyensyal

Pareho sa pananaw ni Ilya Sutskever na nakatuon sa hinaharap at sa pag-unlad ng Macaron, nagmumungkahi ito ng parehong konklusyon: ang susunod na tagumpay sa AI ay magiging isang master na mag-aaral, hindi lamang isang mas malaking tagapag-imbak. Isang AI na kayang matuto mula sa karanasan, internalisahin ang feedback, tandaan at umangkop sa mahabang panahon - sa madaling salita, isang AI na kayang lumago - ay isang AI na kayang mag-generalize sa kalituhan ng totoong mundo. Ito ay kumakatawan sa isang malalim na pagbabago sa pananaw mula sa mga nakaraang taon: hindi lamang ito tungkol sa kung gaano karaming kaalaman ang modelo ay nagsisimula, kundi kung gaano ito kaepektibong makakakuha ng bagong kaalaman. Ang imahinasyon ni Sutskever ng isang "superintelligent 15-year-old" ay sumasalamin sa ideyang ito[18][19]. Sa Macaron, kami ay nagtatrabaho upang bumuo ng ganitong uri ng patuloy na natututo na AI kasama ng aming komunidad ng mga gumagamit.

Ang mga implikasyon ng experiential, continual learning AI ay malawak. Sa teknikal na aspeto, ito ay nangangahulugan ng mas mataas na sample efficiency – paggawa ng higit sa mas kaunti – at mga modelo na mabilis na makakaangkop sa anumang domain o distribusyon. Sa ekonomiya, nangangako ito ng AI workers na maaaring sanayin muli kaagad, na labis na nagpapabilis sa inobasyon at produktibidad (sinabi ni Sutskever na posibleng magkaroon ng mabilis na paglago kapag lumaganap ang ganitong AI[34][35]). At para sa lipunan, nangangahulugan ito ng mga AI system na mas maiintindihan, dahil makikita natin silang matuto at maaari nating hubugin ang kanilang pag-unlad, sa halip na ibigay ang isang ganap na nabuo na enigma.

Hindi magiging madali ang makamit ito. Nangangailangan ito ng mga pag-unlad sa mga algorithm, mga sistema, at ang ating teoretikal na pag-unawa sa pagkatuto. Ngunit unti-unti nang nabubuo ang mga piraso: mula sa mga value function at advanced na RL hanggang sa mga arkitektura ng panghabangbuhay na memorya at human-in-the-loop na pagsasanay. Habang isinama natin ang mga piraso na ito, lumalapit tayo sa AI na tunay na nag-iisip at natututo nang mabilis. Ito ang ethos na nagtutulak sa pananaliksik ng Macaron, at ito ay malapit na umaayon sa bisyon na binigyang-diin ng mga lider tulad ni Sutskever. Marami tayong natutunan sa panahon ng scaling, ngunit ang panahon ng Experiential Intelligence ay sumisilang na ngayon. Sa bagong panahong ito, ang hangganan ay hindi lang mas malalaking modelo – ito ay mas matalino, mas mapag-angkop, mas katulad ng tao na mga mag-aaral. At iyon mismo ang aming pinagsisikapang buuin.

Mga Pinagmulan:

· Panayam ni Ilya Sutskever kay Dwarkesh Patel (Nob 2025) – Dwarkesh Podcast: “Paglipat mula sa Panahon ng Pagsusukat patungo sa Panahon ng Pananaliksik.” Mga highlight ay makukuha sa blog ni Dwarkesh[1][4][18][19].

· Buod ng mga pangunahing punto ni Sutskever ng Best of AI digest[36].

· Obserbasyon ni LeCun sa kahusayan ng pagmamaneho ng tao (tinukoy ni Sutskever)[12].

· Macaron AI Mind Lab – Mga internal na ulat sa pananaliksik tungkol sa Experiential Intelligence at Memory (2025).

· Mga kontribusyon ng Macaron AI sa open-source hinggil sa malakihang RL training (pagsasama ng Megatron-Bridge at VEGA, 2025).


Ilya Sutskever – Lumilipat tayo mula sa panahon ng pagpapalawak patungo sa panahon ng pananaliksik

https://www.dwarkesh.com/p/ilya-sutskever-2

[6] [31] [33] [36] Mga Nag-uudyok na Puwersa sa AI: Pagpapalawak hanggang 2025 at Higit Pa (Jason Wei, OpenAI) sa pamamagitan ng Paliwanag ng Pinakamahusay na AI na mga papel

https://creators.spotify.com/pod/profile/ehwkang/episodes/Driving-Forces-in-AI-Scaling-to-2025-and-Beyond-Jason-Wei--OpenAI-e30rd59

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends