
May-akda: Boxu LI
Sa nagbabagong tanawin ng artificial intelligence, kung saan ang pretraining sa napakalalaking sukat ay naghatid ng matinding static na kakayahan, ang hangganan ngayon ay lumilipat mula sa pagbuo ng mas malalaking static na modelo patungo sa paglikha ng agentic systems – mga AI agent na kayang mag-isip nang malalim, gumamit ng mga tool, makakita at makaalala, at patuloy na matuto mula sa karanasan[1].
Ang Tinker platform ng Thinking Machines Lab, sa anunsyo ng kanilang pangkalahatang pagkakaroon noong Disyembre 12, 2025, ay kumakatawan sa isang mahalagang hakbang sa imprastraktura, nagbibigay ng pagkakataon para sa fine-tuning at multimodal na ekstensyon ng trillion-parameter na mga modelo. Kasabay nito, ang Mind Lab—ang research division ng Macaron AI—ay nagpapahayag ng isang pilosopikal at teknikal na balangkas para sa "experiential intelligence," kung saan ang mga modelo ay lumilipat mula sa mga nakapirming repository ng kaalaman patungo sa mga dinamikong proseso na nagpapabuti sa kanilang sarili sa pamamagitan ng real-world na feedback. Ang pagsasanib na ito ay nag-aalok ng malalim na mga pagkakataon para sa pagpapabuti ng co-design ng pananaliksik at produkto, isinasara ang agwat sa pagitan ng inobasyong algorithmic at inilapat na adaptasyon.
Pangunahing Mga Inobasyon sa Mga Update ng Tinker
Sa post na ito, susuriin natin ang bagong Kimi K2 reasoning model ng Tinker, OpenAI-compatible interface, at Qwen3-VL vision models, pagkatapos ay tuklasin ang pilosopiya ng Mind Lab hinggil sa experiential intelligence, ang kanilang mga tagumpay sa trillion-parameter reinforcement learning (RL), memory diffusion approach, at mga estratehikong implikasyon para sa pagbuo ng susunod na henerasyon ng AI systems.
Tinker ay isang plataporma ng pagsasanay ng AI na idinisenyo para pahintulutan ang mga mananaliksik na i-fine-tune at i-deploy ang mga makabagong modelo nang hindi nag-aalala tungkol sa imprastraktura[2][3]. Noong Disyembre 2025, inanunsyo ng Tinker ang ilang mahahalagang update na nagpapalakas sa kakayanan sa pangangatwiran, paggamit ng mga kasangkapan, at pag-unawa sa bisyon ng mga modelo ng AI[4]:
[15] Paghahambing ng fine-tuned Qwen3-VL-235B (modelo ng vision-language) kumpara sa DINOv2 (vision-only baseline) sa mga gawain ng pag-uuri ng imahe na may limitadong may label na mga halimbawa. Ang Qwen3-VL ay nakakamit ng mas mataas na katumpakan, lalo na sa low-data na rehimen (kaliwang bahagi), salamat sa language-informed na pag-unawa sa biswal.
Kahit na may isang halimbawa lamang bawat klase, nakamit ng modelong 235B Qwen3-VL ang makatwirang katumpakan, na mas nangunguna kumpara sa DINOv2 sa matinding sitwasyon na may mababang datos[15]. Habang nadaragdagan ang bilang ng mga halimbawa, parehong bumuti ang mga modelo, ngunit nanatili ang kalamangan ng Qwen3-VL, na nagpapakita ng mas malakas na pangkalahatang kasanayan sa ilang halimbawa[16]. Ang kalamangan ay nagmumula sa built-in na kaalaman ng modelo sa wika at mundo – halimbawa, mayroon nang konsepto ang Qwen3-VL kung ano ang hitsura o paano ilarawan ang isang “sunflower” o “golden retriever”, dahil sa kanyang multimodal na pretraining[16]. Ibig sabihin nito, kaya nitong makilala o uriin ang mga bagong larawan gamit ang kaunting bagong halimbawa. Sa praktikal na termino, makakamit ng mga gumagamit ng Tinker ang mataas na katumpakan sa mga gawain sa bisyon gamit ang napakaliit na mga set ng datos sa pamamagitan ng paggamit ng mga malalaking vision-language na modelong ito. Ang kakayahang ito ng data-efficient vision ay mahalaga para sa mga tunay na senaryo kung saan kakaunti ang label na datos. Nagpapahiwatig din ito ng kapangyarihan ng tool-augmented reasoning: isang modelong “nakakakita” ay maaaring gumamit ng parehong visual na senyales at kontekstong lingguwistiko, ginagawa itong mas maraming gamit na ahente (halimbawa, pagbabasa ng diagram at pagpapaliwanag nito, o paggamit ng larawan bilang bahagi ng isang reasoning chain). Sa kabuuan, ang pagdaragdag ng Qwen3-VL sa Tinker ay nagpapalawak ng abot ng plataporma mula sa purong teksto patungo sa visual na domain, na nagbibigay-daan sa multi-modal reasoning workflows sa ilalim ng parehong pinagsamang training API.
Sa larangan ng pananaliksik, ang Mind Lab – isang bagong frontier research lab na konektado sa Macaron AI – ay humaharap sa hamon ng paggawa ng mga AI agents na tunay na adaptive at experiential. Ang prinsipyo ng Mind Lab ay na “ang tunay na katalinuhan ay nagmumula sa tunay na karanasan, hindi lamang sa mas malalaking pre-training”[17]. Sa madaling salita, hindi sapat ang simpleng pagpapalawak ng mga modelo sa mga static na dataset; ang susunod na hakbang sa AI ay magmumula sa mga sistemang patuloy na natututo mula sa mga interaksyon, tulad ng mga tao na nangangalap ng karanasan. Inilalarawan ng Mind Lab ang pananaw na ito bilang Experiential Intelligence – mula sa mga static na “brains” patungo sa mga adaptive na “minds” na maaaring bumuo ng mga internal na world models, i-update ang kanilang kaalaman sa pamamagitan ng feedback, magkaroon ng malinaw na layunin o halaga, at magmuni-muni sa kanilang sariling mga aksyon[18]. Ito ay direktang tugon sa mga limitasyon ng kasalukuyang LLMs, na madalas makapangyarihan ngunit frozen pagkatapos ng pre-training[18]. Sa pamamagitan ng pagpapakilala ng mga mekanismo para sa tunay na adaptasyon – tulad ng patuloy na reinforcement learning at dynamic memory – layunin ng Mind Lab na lumikha ng mga agents na umuunlad sa paggamit.
Dalawang pangunahing haligi ng gawain ng Mind Lab ay: (1) Mahusay na RL fine-tuning ng malalaking modelo upang magtanim ng mga bagong pag-uugali, at (2) Mga advanced na sistema ng memorya na nagpapahintulot sa mga ahente na mapanatili at magamit ang pangmatagalang kaalaman. Pareho ay nakatuon sa paggawa ng AI na mas agentic (autonomously na nagpapasya at nagpapabuti) at mahigpit na pinagsasama ang mga pagsulong sa pananaliksik sa pag-deploy ng produkto.
Isa sa mga pangunahing nagawa ng Mind Lab ay ang pagpapakita ng reinforcement learning sa trillion-parameter scale – at nagawa ito sa isang praktikal at cost-effective na paraan. Noong Disyembre 2025, inihayag nila ang unang end-to-end RL pipeline sa 1.04T-parameter Kimi K2 reasoning model, na nakamit sa paggamit lamang ng ~10% ng GPU resources na karaniwang kinakailangan para sa ganitong uri ng pagsasanay[19]. Paano ito naging posible? Ang koponan ay bumuo ng isang espesyal na training engine na pinagsasama ang parameter-efficient finetuning (LoRA) sa hybrid parallelism sa Mixture-of-Experts structure ng modelo[20][21].
Sa halip na i-tune ang lahat ng trillion weights, ang pamamaraan ng Mind Lab ay naglalagay ng low-rank adaptation matrices sa mga piling layer ng Kimi K2 (parehong sa dense backbone at sa loob ng expert layers) at ina-update lamang ang mga iyon sa panahon ng RL[22]. Ito ay lubos na nagpapababa ng bilang ng trainable parameters (halimbawa, isang LoRA rank ng ilang dose o daan-daan kada layer, sa halip na buong matrices) at sa gayon ay nababawasan ang paggamit ng memorya at compute ng isang order ng magnitude. Kasabay nito, ang pag-train ng modelong ganito kalaki ay nangangailangan ng mahusay na pamamahagi ng trabaho sa maraming GPU. Ang koponan ay gumamit ng isang hybrid-parallel strategy: isang koordinadong paggamit ng tensor parallelism, pipeline parallelism, expert parallelism (para sa MoE experts), at sequence parallelism (para sa long sequence training), lahat ay ginawa na compatible sa sharded LoRA updates[23]. Sa praktika, ito ay nangangahulugan ng paggamit ng mga umiiral na malalaking-model training frameworks (NVIDIA’s Megatron at ByteDance’s VolcEngine RL), pag-augment sa mga ito upang hawakan ang LoRA sa MoE, at maingat na pagbabalansi ng computation sa 64 GPUs sa isang cluster[24]. Ang resulta ay matatag na on-policy RL training (katulad ng PPO-style algorithm) sa buong Kimi K2 model na may reward model na nagbibigay ng feedback sa kalidad ng reasoning[22] – isang bagay na dating itinuring na hindi posible para sa karamihan ng mga koponan dahil sa gastos.
Pantay na mahalaga, ito ay nagtrabaho: ang LoRA-finetuned Kimi K2 ay nakamit ang makabuluhang pagpapabuti sa mga gawain ng long-horizon reasoning, na may maganda at tuloy-tuloy na learning curves at walang divergence[25]. Mahalaga, ang inangkop na modelo ay napanatili ang mga pangkalahatang kasanayan ng base model (dahil sa minimal at nakatuon na pag-aayos ng timbang) habang nakakakuha ng mga bagong pag-uugali na tiyak sa gawain[26]. Ibig sabihin, ang malaking kaalaman ng base model ay hindi nabura, bagkus ay pinalawak lamang – isang pangunahing benepisyo ng LoRA finetuning. Sa katunayan, kinumpirma ng mga eksperimento ng Mind Lab na ang mas malalaking modelo ay nagbibigay ng mas matibay na pundasyon para sa RL. Sa ilalim ng isang nakapirming badyet sa pagsasanay, ang malaking modelo kasama ang maliliit na LoRA adapters ay mas mahusay kumpara sa mas maliit na modelong sinanay ng buong tuning, parehong sa mga in-domain na gawain at sa paglilipat sa mga bago[27]. Tulad ng sabi ng koponan, ang RL ay “prior-limited” – kung ang base model ay hindi makabuo ng de-kalidad na mga trajectory sa simula, ang RL ay walang gaanong senyales na palakasin[27]. Ang isang makapangyarihang pretrained prior tulad ng Kimi K2 ay nagbibigay sa RL ng mayamang hanay ng mga pag-uugali na pagtuunan, samantalang ang pagsasanay ng isang maliit na modelo mula sa simula ay kailangang lumikha ng mga pag-uugaling iyon muli. Ang pananaw na ito ay binabago ang tradisyonal na pananaw: maaaring mas compute-efficient na gawin ang RL sa malaking modelo (na may malakas na prior at LoRA efficiency) kaysa gawin ito sa mas maliit na modelo, kahit na ang mas maliit na modelo ay mas mura kada hakbang[28]. Ang kontribusyon ng Mind Lab dito ay hindi lamang isang algorithm, kundi isang istratehiya sa imprastraktura – isang plano para gawing posible ang patuloy na pagkatuto sa pinakamalalaking modelo. In-upstream nila ang kanilang mga pamamaraan sa mga open-source na proyekto (Megatron-Bridge, VERL)[29], upang ang komunidad ay makapagparami at makabuo sa gawaing ito, potensyal na nagpapahintulot sa maraming grupo na mag-fine-tune ng trillion-parameter agents sa mas mababang hardware budgets.

Isa pang hangganan na sinusuri ng Mind Lab ay kung paano makakayanan ng isang AI agent ang mga pangmatagalang alaala ng mga interaksyon nito. Maraming kasalukuyang sistema ang nagdaragdag ng vector database para makuha ang mga nakaraang piraso ng pag-uusap o gumagamit ng mga teknik ng buod para i-compress ang kasaysayan. Iminumungkahi ng Mind Lab ang isang mas pinagsamang, “model-native” memory system na tinatawag na Memory Diffusion[30]. Ang ideya ay ituring ang buong sekwensya ng diyalogo o landas ng isang ahente bilang editable memory sa loob ng konteksto ng modelo, sa halip na isang bagay na naka-imbak sa labas. Gumagana ang Memory Diffusion sa pamamagitan ng paulit-ulit na pag-maintain ng fixed-size window ng konteksto sa pamamagitan ng isang mask–allocate–refill loop[30]. Sa bawat hakbang, nagdedesisyon ang modelo kung aling mga token (mga bahagi ng nakaraang pag-uusap) ang itatago (mask) at alin ang idadrop, pagkatapos ay pinupunan ang libreng espasyo ng bagong darating na nilalaman – lahat habang iginagalang ang isang mahigpit na token budget para sa haba ng konteksto[30]. Sa esensya, ang modelo ay natututo upang pamahalaan ang sarili nitong konteksto, nagko-compress o nakakalimot ng hindi gaanong mahalagang detalye at nagpapanatili ng mahahalagang katotohanan habang lumalaki ang interaksyon. Ito ay katulad ng intelligent forgetting, kung saan ang layunin ay hindi maalala ang lahat ng walang hanggan (na hindi praktikal dahil sa mga limitasyon ng haba ng konteksto), kundi maalala ng makabuluhan sa ilalim ng tunay na mga limitasyon[30].
Sa pamamagitan ng pagpapatakbo sa antas ng sunod-sunod na token, iniiwasan ng Memory Diffusion ang pangangailangan para sa panlabas na embeddings o paghahanap ng pagkakatulad; ang “memory” ay nananatili sa parehong representational space bilang konteksto ng modelong ginagamit. Iniulat ng Mind Lab na ang pamamaraang ito ay nakamit ang pinakabagong pagganap sa long-horizon memory, nangangahulugang ang ahente ay maaaring magpatuloy sa mahabang pag-uusap o gawain nang hindi nawawala ang mahalagang impormasyon, lahat sa pamamagitan ng natutunang in-model na mekanismo[31]. Ito rin ay tumatakbo sa constant time na may kaugnayan sa laki ng konteksto – walang pagsabog ng retrieval cost habang lumalaki ang history, sapagkat ang haba ng konteksto ay fix at pinamamahalaan sa pamamagitan ng mask/refill operations[31]. Sa praktikal na mga termino, ang isang ahente na may Memory Diffusion ay maaaring makipag-usap ng libu-libong beses, at habang hindi nito maitatago ang bawat detalye, patuloy nitong pagpapasyahan kung ano ang dapat tandaan. Ang mahalagang mga kagustuhan ng gumagamit o hindi pa nalutas na mga tanong ay mananatili, habang ang mga walang-kabuluhang chit-chat mula sa mas naunang bahagi ay maaaring alisin. Ang pamamaraang ito ay itinuturing ang memory bilang isang unang-klaseng bahagi ng kognisyon ng modelo, na umaayon sa pananaw ng Mind Lab na ang memory ay dapat maging aktibo, natututo na bahagi ng sistema sa halip na isang pasibong datastore[30].
Magbasa pa sa aming teknikal na blog
Ang mga istruktural na kakayahan ng Tinker at algorithmic efficiencies ng Mind Lab ay bumubuo ng isang likas na simbiosis. Pinapagana ng Tinker ang direktang aplikasyon ng hybrid LoRA RL ng Mind Lab sa Kimi K2 at Qwen3-VL, na nagpapadali sa multimodal agentic loops.
Sa pananaliksik-produkto na co-design—pangunahing prinsipyo ng Mind Lab—ito ay nagpapakita bilang:
Strategically, pinapabilis ng paradigm na ito ang pag-ikot: ang mga produkto ay nagiging mga experimental testbeds, na nagbubunga ng mataas na kalidad na data na nagpapabuti sa mga hypothesis ng pananaliksik. Halimbawa, ang few-shot na klasipikasyon ng bisyon mula sa Tinker ay maaaring magsimula ng mga RL objectives sa mga deployed visual agents, unti-unting inaangkop ang mga perceptual policies sa mga kagustuhan ng user.
Tradisyonal na, ang pananaliksik sa AI ay nagbubunga ng isang modelo o algorithm, at pagkatapos ay hiwalay na figure ng isang koponan ng produkto kung paano ito i-deploy, na may medyo mabagal na pag-ulit sa pagitan ng dalawa. Ang Mind Lab ay gumagana sa isang pilosopiya ng research–product co-design: bawat bagong teknolohiya ay mabilis na nasusubukan sa isang live na setting ng ahente, at ang totoong mga pakikipag-ugnayan ng gumagamit ang bumubuo ng datos upang pinuhin ang pananaliksik[32].
“Ang pananaliksik at produkto ay hindi na magkahiwalay na landas. Sila ay isang saradong feedback loop: karanasan ng gumagamit → datos → pagsasanay sa RL → pag-deploy → mas mahusay na UX → mas mayamang datos → ulitin.”[33]. Sa praktika, ito ay nangangahulugan na kapag pinapabuti ng Mind Lab ang kanilang RL algorithm o sistema ng memorya, isinasama nila ito sa isang aktwal na ahente na nakaharap sa gumagamit (halimbawa, ang personal na AI assistant ng Macaron) at inoobserbahan kung paano ito gumaganap sa totoong mga gumagamit. Ang datos ng paggamit – anong mga tanong ang tinatanong ng mga gumagamit, saan nagtatagumpay o nabibigo ang ahente, tasalitang feedback – ay pagkatapos ay ibinabalik bilang signal ng pagsasanay (sa pamamagitan ng supervised fine-tuning o reinforcement learning) para sa susunod na pag-update ng modelo. Ang masikip na loop na ito ay lubos na nagpapabilis ng pagkatuto: ang produkto ay ang eksperimento.
Isang implikasyon ay ang paggamit ng streaming reward models at online RLHF (Reinforcement Learning mula sa Human Feedback). Sa halip na mangolekta ng isang static dataset ng mga paghahambing ng kagustuhan ng tao at sanayin ang isang reward model nang isang beses, ang balangkas ng Mind Lab ay nagbubuo ng patuloy na pag-update ng reward model habang may bagong feedback na dumarating sa panahon ng deployment. Halimbawa, kung ang isang ahente ay nagsosolusyon ng mga gawain para sa mga gumagamit at paminsan-minsan ay nakakatanggap ng thumbs-down o koreksyon, ang mga signal na iyon ay maaaring i-stream sa reward model upang i-refine ang konsepto nito ng “mabuting” pag-uugali agad-agad. Sa susunod na patakbuhin ang RL (na maaaring sa isang naka-schedule na pagkakataon o kahit asynchronously), ang na-update na reward model ay gumagabay sa patakaran upang mas mag-align sa mga kagustuhan ng gumagamit. Ang streaming RL paradigm na ito ay nagiging bahagi ng pagsasanay ang deployment – mas matagal na tumatakbo ang ahente sa tunay na mundo, mas marami itong karanasan na natutunan, at mas nagiging mahusay ito. Ang OpenAI-compatible na interface na ibinibigay ng Tinker ay talagang nagpapadagdag sa estratehiyang ito: pinapayagan nito ang mga patuloy na natutunang modelo na madaling mai-plug in sa umiiral na mga produkto at kasangkapan, na nangangahulugang ang isang research lab ay maaaring mabilis na maglunsad ng mga bagong bersyon ng modelo sa isang produkto at obserbahan ang mga resulta, nang hindi kinakailangang muling buuin ang integrasyon bawat oras.
Mula sa panig ng Tinker, ang kakayahan ng platform na mag-sample mula sa isang modelo habang nasa kalagitnaan ng pagsasanay[10] ay maaaring magpadali ng naturang mga iterative loop sa pamamagitan ng pagpapagana ng panggitnang pagsusuri at pinong-tuning na mga desisyon. Sa panig ng Mind Lab, tinitiyak ng co-design loop na ang kanilang mga inobasyon (tulad ng trillion-scale RL o memory diffusion) ay nasusubok sa mga totoong kaso ng paggamit. Ang ganitong pamamaraan ay naglalabas ng mga praktikal na hamon nang maaga (hal., kung paano haharapin ang latency o hindi inaasahang mga input ng user) at nagsasara ng agwat sa pagitan ng pinakabagong pananaliksik at mga produktong AI na nakatuon sa user. Ang estratehikong benepisyo ay ang mga pagpapabuti ay hinihimok ng mga tunay na pangangailangan ng mundo at direktang napatunayan laban sa tunay na paggamit. Ayon sa Mind Lab, ang tunay na pag-unlad ay nagmula sa “patuloy na pag-aaral mula sa interaksiyon ng user–produkto”[33], at ang isang ahente na maaaring umangkop sa lugar ay sa huli'y maghahatid ng isang mas mahusay na karanasan ng user kaysa sa isa na naayos sa pag-deploy.
Sa kabuuan, ang mga pagsulong mula sa Tinker at Mind Lab ay nagha-highlight ng isang malalim na pagbabago sa kung paano tayo bumubuo ng mga sistema ng AI – mula sa static na mga modelo patungo sa mga adaptive na ahente na co-designed sa kanilang mga kapaligiran. Ilang mahahalagang implikasyon ang lumitaw:
Habang ang mga static scaling laws ay umabot na sa rurok, ang pagsasama na ipinakita ng abot-kayang trillion-scale na pagpapasadya ni Tinker at ang epektibong experiential RL ng Mind Lab ay nagbabadya ng isang makabagong panahon. Sa pamamagitan ng pag-embed ng adaptasyon sa product loop, lumalampas tayo sa mga marupok na kaisipan patungo sa matatag na mga isipan—mga sistema na hindi lamang nangangatuwiran at nakakaintindi sa mga hangganan na antas kundi lumalago ng magkasama sa kanilang mga kapaligiran. Ang co-evolutionary na trajektoryang ito ay nangangako ng AI na hindi lamang may kakayahan, kundi patuloy na nagiging mas naaayon sa mga pangangailangan ng tao at sa mga komplikasyon ng tunay na mundo.
[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence
https://ar5iv.labs.arxiv.org/html/2507.20534
[2] [3] [8] [9] Tinker - Thinking Machines Lab
https://thinkingmachines.ai/tinker/
[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: Pangkalahatang Pagiging Magagamit at Input ng Paningin - Thinking Machines Lab
https://thinkingmachines.ai/blog/tinker-general-availability/
[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] Paano Namin Binubuo ang Trillion Parameter Reasoning RL gamit ang 10% GPUs
[17] [30] [33] Macaron AI | LinkedIn
https://www.linkedin.com/company/macaronaiofficial
[18] [19] [29] [31] [32] Introducing Mind Lab — Ang Research Arm ng Macaron AI