Mula sa Mga Static na Modelo patungo sa Adaptive na Mga Ahente: Mga Inobasyon sa Tinker at Mind Lab

May-akda: Boxu LI

Sa nagbabagong tanawin ng artificial intelligence, kung saan ang pretraining sa napakalalaking sukat ay naghatid ng matinding static na kakayahan, ang hangganan ngayon ay lumilipat mula sa pagbuo ng mas malalaking static na modelo patungo sa paglikha ng agentic systems – mga AI agent na kayang mag-isip nang malalim, gumamit ng mga tool, makakita at makaalala, at patuloy na matuto mula sa karanasan[1].

Ang Tinker platform ng Thinking Machines Lab, sa anunsyo ng kanilang pangkalahatang pagkakaroon noong Disyembre 12, 2025, ay kumakatawan sa isang mahalagang hakbang sa imprastraktura, nagbibigay ng pagkakataon para sa fine-tuning at multimodal na ekstensyon ng trillion-parameter na mga modelo. Kasabay nito, ang Mind Lab—ang research division ng Macaron AI—ay nagpapahayag ng isang pilosopikal at teknikal na balangkas para sa "experiential intelligence," kung saan ang mga modelo ay lumilipat mula sa mga nakapirming repository ng kaalaman patungo sa mga dinamikong proseso na nagpapabuti sa kanilang sarili sa pamamagitan ng real-world na feedback. Ang pagsasanib na ito ay nag-aalok ng malalim na mga pagkakataon para sa pagpapabuti ng co-design ng pananaliksik at produkto, isinasara ang agwat sa pagitan ng inobasyong algorithmic at inilapat na adaptasyon.

Pangunahing Mga Inobasyon sa Mga Update ng Tinker

Nakamit ng Tinker platform ng Thinking Machines Lab ang pangkalahatang pagkakaroon, na sumusuporta sa fine-tuning ng trillion-parameter Kimi K2 Thinking MoE model ng Moonshot AI, OpenAI-compatible inference, at multimodal na inputs gamit ang Qwen3-VL series ng Alibaba.
Nagbibigay-daan ang mga ito sa mas epektibong pagpapasadya ng mga frontier reasoning at vision-language models, na may mga demonstrasyon na nagpapakita ng mas mahusay na performance sa iilang sample sa image classification.
Pinapalakas ng Mind Lab (research arm ng Macaron AI) ang scalable na LoRA-based RL sa katulad na trillion-scale MoE models, na binibigyang-diin ang experiential adaptation.

Sa post na ito, susuriin natin ang bagong Kimi K2 reasoning model ng Tinker, OpenAI-compatible interface, at Qwen3-VL vision models, pagkatapos ay tuklasin ang pilosopiya ng Mind Lab hinggil sa experiential intelligence, ang kanilang mga tagumpay sa trillion-parameter reinforcement learning (RL), memory diffusion approach, at mga estratehikong implikasyon para sa pagbuo ng susunod na henerasyon ng AI systems.

Pinakabagong Mga Inobasyon ng Tinker: Pangangatwiran, Mga Tool, at Pananaw

Tinker ay isang plataporma ng pagsasanay ng AI na idinisenyo para pahintulutan ang mga mananaliksik na i-fine-tune at i-deploy ang mga makabagong modelo nang hindi nag-aalala tungkol sa imprastraktura[2][3]. Noong Disyembre 2025, inanunsyo ng Tinker ang ilang mahahalagang update na nagpapalakas sa kakayanan sa pangangatwiran, paggamit ng mga kasangkapan, at pag-unawa sa bisyon ng mga modelo ng AI[4]:

Kimi K2 Thinking Model: Maaaring i-fine-tune ng mga user ang Kimi K2 Thinking, isang napakalaking 1-trilyon-parameter na modelo at pinakamalaki sa lineup ng Tinker[5]. Ang Kimi K2 ay isang Mixture-of-Experts (MoE) transformer na dinisenyo para sa mahahabang chain-of-thought na pangangatwiran at paggamit ng tool sa ahente[6]. Sa kabila ng laki nito, tanging isang subset (~32B) ng mga parameter nito ang aktibo sa isang pagkakataon, na nagbibigay-daan dito upang makamit ang state-of-the-art na pagganap sa pangangatwiran habang pinapanatili ang pagiging epektibo ng inference[7]. Ang bukas na modelong ito—na inilarawan bilang “bukas na agentic intelligence”—ay pumapantay o humihigit pa sa maraming nakasarang mga modelo sa kumplikadong mga benchmark ng pangangatwiran[7]. Sa pamamagitan ng pagsuporta sa Kimi K2 sa Tinker, pinapagana ng Thinking Machines ang mga mananaliksik na magamit ang isang advanced reasoning engine para sa mga gawain na nangangailangan ng multi-step na lohika, pagpaplano, o mga panlabas na tawag sa tool. Mahalaga, ang Tinker ay nag-fine-tune ng mga modelong ito gamit ang LoRA (Low-Rank Adaptation), na nagsasanay ng maliliit na adapter matrices sa halip na i-update ang lahat ng trilyong bigat[8]. Ang pamamaraang ito ay makabuluhang nagpapababa ng memorya at pagkalkula na kinakailangan para sa pagpapasadya. Sa katunayan, natuklasan ng mga panloob na pag-aaral na sa tamang setup, ang LoRA ay maaaring tutumbasan ang pagganap ng pag-aaral ng full fine-tuning habang gumagamit ng mas kaunting mapagkukunan[9]. Sa praktikal, nangangahulugan ito na ang mga user ay maaaring iakma ang isang higanteng modelo tulad ng Kimi K2 sa mga bagong gawain o domain nang hindi mataas ang gastos—isang mahalagang hakbang para sa mas mahusay na reasoning workflows.
OpenAI API-Compatible Inference: Upang pabilisin ang pagsasama ng pananaliksik sa produkto, ipinakilala ng Tinker ang isang inference interface na katugma sa API ng OpenAI para sa mga completions[10]. Sa esensya, maaaring mag-query ang isa sa isang Tinker-hosted na modelo gamit ang parehong mga tawag sa API na ginagamit ng platform ng OpenAI, sa pamamagitan ng pagtukoy ng isang model path na may espesyal na tinker:// URI. Halimbawa, maaaring tawagan ng mga developer ang completion API ng Tinker model gamit ang isang OpenAI-like syntax (modelo, prompt, max_tokens, atbp.) at makakuha ng mga resulta na parang tinatawag nila ang openai.Completion.create[10]. Ang plug-and-play compatibility na ito ay nangangahulugan na anumang tooling o aplikasyon na binuo sa paligid ng OpenAI API ay maaaring walang kahirap-hirap na isama ang mga modelo ng Tinker[10]. Binabawasan nito ang alitan para sa pag-aampon ng mga advanced na bukas na modelo sa tunay na mga produkto: maaari mong i-fine-tune ang Kimi K2 sa Tinker, pagkatapos ay isama ito sa isang umiiral na chain-of-thought agent o chatbot framework na may kaunting pagbabago sa code. Bukod dito, kahit na ang API scaffolding ng Tinker ay nagpapahintulot sa sampling mula sa isang modelo habang ito ay nasa proseso ng pagsasanay[10] – na nagpapahintulot sa interactive na pagsusuri o tool-augmented training loops kung saan ang isang modelo ay maaaring masubukan at magamit kasabay ng proseso ng kanyang fine-tuning. Sinusuportahan ng update na ito ang mas mahusay na agent development workflows, na nagpapahintulot sa mga mananaliksik na patuloy na isama at subukan ang mga pagpapabuti ng modelo sa makatotohanang mga setting.
Qwen3-VL Vision–Language Models: Isa pang pangunahing karagdagan sa Tinker ay ang suporta para sa multimodal vision-language models. Ang platform ay nagdagdag ng dalawang vision-enabled na mga modelo, ang Qwen3-VL-30B at Qwen3-VL-235B, na maaaring tumanggap ng mga input ng imahe kasabay ng teksto[11]. Ang mga modelong ito (30 bilyon at 235 bilyong parameter ayon sa pagkakabanggit, parehong MoE architectures) ay instruction-tuned upang sundin ang mga prompt na may kasamang mga imahe, halimbawa, pagsagot ng mga tanong tungkol sa isang diagram o interpretasyon ng isang larawan. Sa pamamagitan ng simpleng mga tawag sa API, maaari na ngayong magpakain ng isang imahe (bilang isang ImageChunk) na pinagsama-sama ng teksto sa modelo at makakuha ng tugon sa wika[12]. Binubuksan nito ang iba't ibang vision-informed applications – mula sa pagsusuri ng mga screenshot at chart hanggang sa mga multimodal assistants na nakakakita at nakakapagsalita. Kapansin-pansin, ang mga modelo ng Qwen3-VL ay idinisenyo na may data-efficient vision capabilities sa isip. Upang ilarawan ito, ang Thinking Machines ay nag-fine-tune ng 235B Qwen3-VL na modelo sa ilang mga klasikong gawain sa pag-uuri ng imahe (Caltech101, Oxford Flowers, atbp.), gamit ang LoRA adapters para sa kahusayan[13]. Kinumpara nila ang pagganap nito sa isang malakas na vision-only baseline (DINOv2 ViT model na may classifier head), sa iba't ibang dami ng data ng pagsasanay bawat klase[14].

[15] Paghahambing ng fine-tuned Qwen3-VL-235B (modelo ng vision-language) kumpara sa DINOv2 (vision-only baseline) sa mga gawain ng pag-uuri ng imahe na may limitadong may label na mga halimbawa. Ang Qwen3-VL ay nakakamit ng mas mataas na katumpakan, lalo na sa low-data na rehimen (kaliwang bahagi), salamat sa language-informed na pag-unawa sa biswal.

Kahit na may isang halimbawa lamang bawat klase, nakamit ng modelong 235B Qwen3-VL ang makatwirang katumpakan, na mas nangunguna kumpara sa DINOv2 sa matinding sitwasyon na may mababang datos[15]. Habang nadaragdagan ang bilang ng mga halimbawa, parehong bumuti ang mga modelo, ngunit nanatili ang kalamangan ng Qwen3-VL, na nagpapakita ng mas malakas na pangkalahatang kasanayan sa ilang halimbawa[16]. Ang kalamangan ay nagmumula sa built-in na kaalaman ng modelo sa wika at mundo – halimbawa, mayroon nang konsepto ang Qwen3-VL kung ano ang hitsura o paano ilarawan ang isang “sunflower” o “golden retriever”, dahil sa kanyang multimodal na pretraining[16]. Ibig sabihin nito, kaya nitong makilala o uriin ang mga bagong larawan gamit ang kaunting bagong halimbawa. Sa praktikal na termino, makakamit ng mga gumagamit ng Tinker ang mataas na katumpakan sa mga gawain sa bisyon gamit ang napakaliit na mga set ng datos sa pamamagitan ng paggamit ng mga malalaking vision-language na modelong ito. Ang kakayahang ito ng data-efficient vision ay mahalaga para sa mga tunay na senaryo kung saan kakaunti ang label na datos. Nagpapahiwatig din ito ng kapangyarihan ng tool-augmented reasoning: isang modelong “nakakakita” ay maaaring gumamit ng parehong visual na senyales at kontekstong lingguwistiko, ginagawa itong mas maraming gamit na ahente (halimbawa, pagbabasa ng diagram at pagpapaliwanag nito, o paggamit ng larawan bilang bahagi ng isang reasoning chain). Sa kabuuan, ang pagdaragdag ng Qwen3-VL sa Tinker ay nagpapalawak ng abot ng plataporma mula sa purong teksto patungo sa visual na domain, na nagbibigay-daan sa multi-modal reasoning workflows sa ilalim ng parehong pinagsamang training API.

Mga Adaptive System ng Mind Lab: Karanasang Intelihensiya sa Aksyon

Sa larangan ng pananaliksik, ang Mind Lab – isang bagong frontier research lab na konektado sa Macaron AI – ay humaharap sa hamon ng paggawa ng mga AI agents na tunay na adaptive at experiential. Ang prinsipyo ng Mind Lab ay na “ang tunay na katalinuhan ay nagmumula sa tunay na karanasan, hindi lamang sa mas malalaking pre-training”[17]. Sa madaling salita, hindi sapat ang simpleng pagpapalawak ng mga modelo sa mga static na dataset; ang susunod na hakbang sa AI ay magmumula sa mga sistemang patuloy na natututo mula sa mga interaksyon, tulad ng mga tao na nangangalap ng karanasan. Inilalarawan ng Mind Lab ang pananaw na ito bilang Experiential Intelligence – mula sa mga static na “brains” patungo sa mga adaptive na “minds” na maaaring bumuo ng mga internal na world models, i-update ang kanilang kaalaman sa pamamagitan ng feedback, magkaroon ng malinaw na layunin o halaga, at magmuni-muni sa kanilang sariling mga aksyon[18]. Ito ay direktang tugon sa mga limitasyon ng kasalukuyang LLMs, na madalas makapangyarihan ngunit frozen pagkatapos ng pre-training[18]. Sa pamamagitan ng pagpapakilala ng mga mekanismo para sa tunay na adaptasyon – tulad ng patuloy na reinforcement learning at dynamic memory – layunin ng Mind Lab na lumikha ng mga agents na umuunlad sa paggamit.

Dalawang pangunahing haligi ng gawain ng Mind Lab ay: (1) Mahusay na RL fine-tuning ng malalaking modelo upang magtanim ng mga bagong pag-uugali, at (2) Mga advanced na sistema ng memorya na nagpapahintulot sa mga ahente na mapanatili at magamit ang pangmatagalang kaalaman. Pareho ay nakatuon sa paggawa ng AI na mas agentic (autonomously na nagpapasya at nagpapabuti) at mahigpit na pinagsasama ang mga pagsulong sa pananaliksik sa pag-deploy ng produkto.

LoRA-Based Trillion-Parameter RL na may 10% GPUs

Paano namin ito Nakamit?

Isa sa mga pangunahing nagawa ng Mind Lab ay ang pagpapakita ng reinforcement learning sa trillion-parameter scale – at nagawa ito sa isang praktikal at cost-effective na paraan. Noong Disyembre 2025, inihayag nila ang unang end-to-end RL pipeline sa 1.04T-parameter Kimi K2 reasoning model, na nakamit sa paggamit lamang ng ~10% ng GPU resources na karaniwang kinakailangan para sa ganitong uri ng pagsasanay[19]. Paano ito naging posible? Ang koponan ay bumuo ng isang espesyal na training engine na pinagsasama ang parameter-efficient finetuning (LoRA) sa hybrid parallelism sa Mixture-of-Experts structure ng modelo[20][21].

Sa halip na i-tune ang lahat ng trillion weights, ang pamamaraan ng Mind Lab ay naglalagay ng low-rank adaptation matrices sa mga piling layer ng Kimi K2 (parehong sa dense backbone at sa loob ng expert layers) at ina-update lamang ang mga iyon sa panahon ng RL[22]. Ito ay lubos na nagpapababa ng bilang ng trainable parameters (halimbawa, isang LoRA rank ng ilang dose o daan-daan kada layer, sa halip na buong matrices) at sa gayon ay nababawasan ang paggamit ng memorya at compute ng isang order ng magnitude. Kasabay nito, ang pag-train ng modelong ganito kalaki ay nangangailangan ng mahusay na pamamahagi ng trabaho sa maraming GPU. Ang koponan ay gumamit ng isang hybrid-parallel strategy: isang koordinadong paggamit ng tensor parallelism, pipeline parallelism, expert parallelism (para sa MoE experts), at sequence parallelism (para sa long sequence training), lahat ay ginawa na compatible sa sharded LoRA updates[23]. Sa praktika, ito ay nangangahulugan ng paggamit ng mga umiiral na malalaking-model training frameworks (NVIDIA’s Megatron at ByteDance’s VolcEngine RL), pag-augment sa mga ito upang hawakan ang LoRA sa MoE, at maingat na pagbabalansi ng computation sa 64 GPUs sa isang cluster[24]. Ang resulta ay matatag na on-policy RL training (katulad ng PPO-style algorithm) sa buong Kimi K2 model na may reward model na nagbibigay ng feedback sa kalidad ng reasoning[22] – isang bagay na dating itinuring na hindi posible para sa karamihan ng mga koponan dahil sa gastos.

Pantay na mahalaga, ito ay nagtrabaho: ang LoRA-finetuned Kimi K2 ay nakamit ang makabuluhang pagpapabuti sa mga gawain ng long-horizon reasoning, na may maganda at tuloy-tuloy na learning curves at walang divergence[25]. Mahalaga, ang inangkop na modelo ay napanatili ang mga pangkalahatang kasanayan ng base model (dahil sa minimal at nakatuon na pag-aayos ng timbang) habang nakakakuha ng mga bagong pag-uugali na tiyak sa gawain[26]. Ibig sabihin, ang malaking kaalaman ng base model ay hindi nabura, bagkus ay pinalawak lamang – isang pangunahing benepisyo ng LoRA finetuning. Sa katunayan, kinumpirma ng mga eksperimento ng Mind Lab na ang mas malalaking modelo ay nagbibigay ng mas matibay na pundasyon para sa RL. Sa ilalim ng isang nakapirming badyet sa pagsasanay, ang malaking modelo kasama ang maliliit na LoRA adapters ay mas mahusay kumpara sa mas maliit na modelong sinanay ng buong tuning, parehong sa mga in-domain na gawain at sa paglilipat sa mga bago[27]. Tulad ng sabi ng koponan, ang RL ay “prior-limited” – kung ang base model ay hindi makabuo ng de-kalidad na mga trajectory sa simula, ang RL ay walang gaanong senyales na palakasin[27]. Ang isang makapangyarihang pretrained prior tulad ng Kimi K2 ay nagbibigay sa RL ng mayamang hanay ng mga pag-uugali na pagtuunan, samantalang ang pagsasanay ng isang maliit na modelo mula sa simula ay kailangang lumikha ng mga pag-uugaling iyon muli. Ang pananaw na ito ay binabago ang tradisyonal na pananaw: maaaring mas compute-efficient na gawin ang RL sa malaking modelo (na may malakas na prior at LoRA efficiency) kaysa gawin ito sa mas maliit na modelo, kahit na ang mas maliit na modelo ay mas mura kada hakbang[28]. Ang kontribusyon ng Mind Lab dito ay hindi lamang isang algorithm, kundi isang istratehiya sa imprastraktura – isang plano para gawing posible ang patuloy na pagkatuto sa pinakamalalaking modelo. In-upstream nila ang kanilang mga pamamaraan sa mga open-source na proyekto (Megatron-Bridge, VERL)[29], upang ang komunidad ay makapagparami at makabuo sa gawaing ito, potensyal na nagpapahintulot sa maraming grupo na mag-fine-tune ng trillion-parameter agents sa mas mababang hardware budgets.

Memory Diffusion: Pag-isipang Muli ang Memorya ng Ahente Lampas sa Vector DBs

Memory Diffusion live demo

Isa pang hangganan na sinusuri ng Mind Lab ay kung paano makakayanan ng isang AI agent ang mga pangmatagalang alaala ng mga interaksyon nito. Maraming kasalukuyang sistema ang nagdaragdag ng vector database para makuha ang mga nakaraang piraso ng pag-uusap o gumagamit ng mga teknik ng buod para i-compress ang kasaysayan. Iminumungkahi ng Mind Lab ang isang mas pinagsamang, “model-native” memory system na tinatawag na Memory Diffusion[30]. Ang ideya ay ituring ang buong sekwensya ng diyalogo o landas ng isang ahente bilang editable memory sa loob ng konteksto ng modelo, sa halip na isang bagay na naka-imbak sa labas. Gumagana ang Memory Diffusion sa pamamagitan ng paulit-ulit na pag-maintain ng fixed-size window ng konteksto sa pamamagitan ng isang mask–allocate–refill loop[30]. Sa bawat hakbang, nagdedesisyon ang modelo kung aling mga token (mga bahagi ng nakaraang pag-uusap) ang itatago (mask) at alin ang idadrop, pagkatapos ay pinupunan ang libreng espasyo ng bagong darating na nilalaman – lahat habang iginagalang ang isang mahigpit na token budget para sa haba ng konteksto[30]. Sa esensya, ang modelo ay natututo upang pamahalaan ang sarili nitong konteksto, nagko-compress o nakakalimot ng hindi gaanong mahalagang detalye at nagpapanatili ng mahahalagang katotohanan habang lumalaki ang interaksyon. Ito ay katulad ng intelligent forgetting, kung saan ang layunin ay hindi maalala ang lahat ng walang hanggan (na hindi praktikal dahil sa mga limitasyon ng haba ng konteksto), kundi maalala ng makabuluhan sa ilalim ng tunay na mga limitasyon[30].

Sa pamamagitan ng pagpapatakbo sa antas ng sunod-sunod na token, iniiwasan ng Memory Diffusion ang pangangailangan para sa panlabas na embeddings o paghahanap ng pagkakatulad; ang “memory” ay nananatili sa parehong representational space bilang konteksto ng modelong ginagamit. Iniulat ng Mind Lab na ang pamamaraang ito ay nakamit ang pinakabagong pagganap sa long-horizon memory, nangangahulugang ang ahente ay maaaring magpatuloy sa mahabang pag-uusap o gawain nang hindi nawawala ang mahalagang impormasyon, lahat sa pamamagitan ng natutunang in-model na mekanismo[31]. Ito rin ay tumatakbo sa constant time na may kaugnayan sa laki ng konteksto – walang pagsabog ng retrieval cost habang lumalaki ang history, sapagkat ang haba ng konteksto ay fix at pinamamahalaan sa pamamagitan ng mask/refill operations[31]. Sa praktikal na mga termino, ang isang ahente na may Memory Diffusion ay maaaring makipag-usap ng libu-libong beses, at habang hindi nito maitatago ang bawat detalye, patuloy nitong pagpapasyahan kung ano ang dapat tandaan. Ang mahalagang mga kagustuhan ng gumagamit o hindi pa nalutas na mga tanong ay mananatili, habang ang mga walang-kabuluhang chit-chat mula sa mas naunang bahagi ay maaaring alisin. Ang pamamaraang ito ay itinuturing ang memory bilang isang unang-klaseng bahagi ng kognisyon ng modelo, na umaayon sa pananaw ng Mind Lab na ang memory ay dapat maging aktibo, natututo na bahagi ng sistema sa halip na isang pasibong datastore[30].

Magbasa pa sa aming teknikal na blog

Research–Product Co-Design: Isang Patuloy na Loop ng Pagkatuto

Ang mga istruktural na kakayahan ng Tinker at algorithmic efficiencies ng Mind Lab ay bumubuo ng isang likas na simbiosis. Pinapagana ng Tinker ang direktang aplikasyon ng hybrid LoRA RL ng Mind Lab sa Kimi K2 at Qwen3-VL, na nagpapadali sa multimodal agentic loops.

Sa pananaliksik-produkto na co-design—pangunahing prinsipyo ng Mind Lab—ito ay nagpapakita bilang:

Instrumentasyon para sa Feedback: Ang mga deployed agents (hal., sa pamamagitan ng mga modelong pinaglilingkuran ng Tinker) ay bumubuo ng naka-istrukturang episodes mula sa interaksyon ng user, mga resulta ng tool, at mga pagwawasto.
Online RL Pipelines: Ang hybrid parallelism ay sumusuporta sa tuloy-tuloy na pag-update sa mga live na signal, umuunlad na value functions at mga patakaran nang walang offline batches.
Multimodal Adaptation: Ang mga input ng bisyon ay nagpapahintulot sa RL sa mga gawain ng perceptual, pinapabuti ang mga modelo ng mundo para sa GUI navigation, pag-unawa sa dokumento, o visual reasoning.
Kaligtasan at Katatagan: Ang mga colocalized na rollouts ay nagpapababa ng distribution shift; ang streaming rewards (tulad ng halimbawa ng HTML aesthetics ng Mind Lab) ay pumipigil sa reward hacking.

Strategically, pinapabilis ng paradigm na ito ang pag-ikot: ang mga produkto ay nagiging mga experimental testbeds, na nagbubunga ng mataas na kalidad na data na nagpapabuti sa mga hypothesis ng pananaliksik. Halimbawa, ang few-shot na klasipikasyon ng bisyon mula sa Tinker ay maaaring magsimula ng mga RL objectives sa mga deployed visual agents, unti-unting inaangkop ang mga perceptual policies sa mga kagustuhan ng user.

Tradisyonal na, ang pananaliksik sa AI ay nagbubunga ng isang modelo o algorithm, at pagkatapos ay hiwalay na figure ng isang koponan ng produkto kung paano ito i-deploy, na may medyo mabagal na pag-ulit sa pagitan ng dalawa. Ang Mind Lab ay gumagana sa isang pilosopiya ng research–product co-design: bawat bagong teknolohiya ay mabilis na nasusubukan sa isang live na setting ng ahente, at ang totoong mga pakikipag-ugnayan ng gumagamit ang bumubuo ng datos upang pinuhin ang pananaliksik[32].

“Ang pananaliksik at produkto ay hindi na magkahiwalay na landas. Sila ay isang saradong feedback loop: karanasan ng gumagamit → datos → pagsasanay sa RL → pag-deploy → mas mahusay na UX → mas mayamang datos → ulitin.”[33]. Sa praktika, ito ay nangangahulugan na kapag pinapabuti ng Mind Lab ang kanilang RL algorithm o sistema ng memorya, isinasama nila ito sa isang aktwal na ahente na nakaharap sa gumagamit (halimbawa, ang personal na AI assistant ng Macaron) at inoobserbahan kung paano ito gumaganap sa totoong mga gumagamit. Ang datos ng paggamit – anong mga tanong ang tinatanong ng mga gumagamit, saan nagtatagumpay o nabibigo ang ahente, tasalitang feedback – ay pagkatapos ay ibinabalik bilang signal ng pagsasanay (sa pamamagitan ng supervised fine-tuning o reinforcement learning) para sa susunod na pag-update ng modelo. Ang masikip na loop na ito ay lubos na nagpapabilis ng pagkatuto: ang produkto ay ang eksperimento.

Isang implikasyon ay ang paggamit ng streaming reward models at online RLHF (Reinforcement Learning mula sa Human Feedback). Sa halip na mangolekta ng isang static dataset ng mga paghahambing ng kagustuhan ng tao at sanayin ang isang reward model nang isang beses, ang balangkas ng Mind Lab ay nagbubuo ng patuloy na pag-update ng reward model habang may bagong feedback na dumarating sa panahon ng deployment. Halimbawa, kung ang isang ahente ay nagsosolusyon ng mga gawain para sa mga gumagamit at paminsan-minsan ay nakakatanggap ng thumbs-down o koreksyon, ang mga signal na iyon ay maaaring i-stream sa reward model upang i-refine ang konsepto nito ng “mabuting” pag-uugali agad-agad. Sa susunod na patakbuhin ang RL (na maaaring sa isang naka-schedule na pagkakataon o kahit asynchronously), ang na-update na reward model ay gumagabay sa patakaran upang mas mag-align sa mga kagustuhan ng gumagamit. Ang streaming RL paradigm na ito ay nagiging bahagi ng pagsasanay ang deployment – mas matagal na tumatakbo ang ahente sa tunay na mundo, mas marami itong karanasan na natutunan, at mas nagiging mahusay ito. Ang OpenAI-compatible na interface na ibinibigay ng Tinker ay talagang nagpapadagdag sa estratehiyang ito: pinapayagan nito ang mga patuloy na natutunang modelo na madaling mai-plug in sa umiiral na mga produkto at kasangkapan, na nangangahulugang ang isang research lab ay maaaring mabilis na maglunsad ng mga bagong bersyon ng modelo sa isang produkto at obserbahan ang mga resulta, nang hindi kinakailangang muling buuin ang integrasyon bawat oras.

Mula sa panig ng Tinker, ang kakayahan ng platform na mag-sample mula sa isang modelo habang nasa kalagitnaan ng pagsasanay[10] ay maaaring magpadali ng naturang mga iterative loop sa pamamagitan ng pagpapagana ng panggitnang pagsusuri at pinong-tuning na mga desisyon. Sa panig ng Mind Lab, tinitiyak ng co-design loop na ang kanilang mga inobasyon (tulad ng trillion-scale RL o memory diffusion) ay nasusubok sa mga totoong kaso ng paggamit. Ang ganitong pamamaraan ay naglalabas ng mga praktikal na hamon nang maaga (hal., kung paano haharapin ang latency o hindi inaasahang mga input ng user) at nagsasara ng agwat sa pagitan ng pinakabagong pananaliksik at mga produktong AI na nakatuon sa user. Ang estratehikong benepisyo ay ang mga pagpapabuti ay hinihimok ng mga tunay na pangangailangan ng mundo at direktang napatunayan laban sa tunay na paggamit. Ayon sa Mind Lab, ang tunay na pag-unlad ay nagmula sa “patuloy na pag-aaral mula sa interaksiyon ng user–produkto”[33], at ang isang ahente na maaaring umangkop sa lugar ay sa huli'y maghahatid ng isang mas mahusay na karanasan ng user kaysa sa isa na naayos sa pag-deploy.

Mga Implikasyon para sa Agentic AI at Mga Hinaharap na Co-Designed na Sistema

Sa kabuuan, ang mga pagsulong mula sa Tinker at Mind Lab ay nagha-highlight ng isang malalim na pagbabago sa kung paano tayo bumubuo ng mga sistema ng AI – mula sa static na mga modelo patungo sa mga adaptive na ahente na co-designed sa kanilang mga kapaligiran. Ilang mahahalagang implikasyon ang lumitaw:

Mula sa Foundation Models patungo sa Foundation Agents: Ang pagpapakilala ng mga agentic models tulad ng Kimi K2 (na may kasamang paggamit ng tool at pangangatwiran) at mga teknik para sa patuloy na pag-fine-tune sa kanila ay nagpapahiwatig na ang malalaking language models ay umuunlad bilang mga plataporma para sa pag-uugali, hindi lamang kaalaman. Sa halip na mga modelong sinanay ng isang beses na ginagaya lamang ang teksto, nagkakaroon tayo ng mga ahente na maaaring magplano, kumilos, at mag-incorporate ng feedback. Ito'y nagpapalabo sa linya sa pagitan ng isang AI model at isang AI product: ang modelo ay nagiging ahente na nakikipag-ugnayan ka, at maaari itong mag-update ng sarili upang mas mahusay kang mapaglingkuran. Ang pagbuo ng ganitong mga ahente ay nangangailangan ng pagsasama ng model-centric na pananaliksik (bagong arkitektura, mga pamamaraan ng pagsasanay) sa product-centric na pag-iisip (karanasan ng gumagamit, mga limitasyon sa deployment) sa isang siklo ng pag-unlad.
Tool-Augmented Reasoning bilang Pamantayan: Sa interface ng Tinker na katugma sa OpenAI at mga modelong partikular na binuo para sa paggamit ng tool, maaari nating asahan na ang mga AI agents ay walang kahirap-hirap na magpaandar ng mga panlabas na tool, API, o database bilang bahagi ng kanilang proseso ng pangangatwiran. Ang disenyo ng Kimi K2 at mga eksperimento ng Mind Lab sa mga agentic na modelo ay parehong binibigyang-diin na ang paglutas ng mga kumplikadong gawain ay madalas na nangangailangan ng AI na kumunsulta sa mga tool o magsimula ng mga simulation ng kapaligiran[34][35]. Ang mga sistema sa hinaharap ay malamang na isasama ang mga tool API sa pinakaloob ng pagsasanay ng modelo (tulad ng ginawa ng malakihang agentic data synthesis ng Kimi[36]), na nagbubunga ng mga kakayahan sa paggamit ng tool na handa na agad. Sa estratehiya, nangangahulugan ito na ang mga AI products ay higit pa sa isang monolitikong modelo – sila'y magiging platforma ng orchestration ng tool, kung saan ang modelo ay nagsisilbing utak na alam kung kailan at paano tatawagin ang ibang serbisyo. Ang pagiging madali ng pag-integrate ng mga Tinker model sa pamamagitan ng mga pamilyar na API ay nagpapababa ng hadlang para sa mga developer na lumikha ng mga ganitong AI workflows na gumagamit ng tool sa praktika.
Stateful Interaction at Personalized AI: Ang mga inobasyon sa memorya tulad ng Memory Diffusion ay nagpapahiwatig ng AI na maaaring magpanatili ng pangalawang estado tungkol sa mga interaksyon. Sa halip na ituring ang bawat sesyon o query na hiwalay, ang mga hinaharap na ahente ay magdadala ng alaala ng nakaraang mga interaksyon, kagustuhan, at konteksto sa isang principled, bounded na paraan. Ito'y magpapahintulot ng mas personalized at context-aware na AI assistants – mga hindi nagre-reset sa bawat oras, ngunit tunay na natututo kung sino ang kanilang kinakausap at ano ang nangyayari. Importante, ipinapakita ng approach ng Mind Lab na magagawa ito nang walang walang katapusang bintana ng konteksto; sa pamamagitan ng natutunang pamamahala ng memorya, ang mga ahente ay maaaring maging mas matalino tungkol sa kung ano ang dapat tandaan. Para sa mga gumagamit, nangangahulugan ito ng mas maayos na karanasan: isang personal na AI na naaalala ang mga nakaraang pag-uusap ay magiging mas katulad ng isang tuloy-tuloy na diyalogo o isang pare-parehong katulong, sa halip na isang serye ng mga hiwalay na paggamit. Ito rin ay nagbubukas ng mga bagong tanong sa disenyo: paano natin masisiguro na ang tamang mga bagay ay naaalala o nalilimutan? Ang sagot ay malamang na nakasalalay sa mga teknik tulad ng memory diffusion na nag-incorporate ng human-like forgetting at emphasis.
Hybrid Infrastructure bilang Competitive Advantage: Ang teknikal na pundasyon na inilatag ng mga proyektong ito – hal. hybrid parallel training, LoRA-on-MoE, distributed RL – ay magiging isang game-changer para sa mga team ng AI development. Ang mga grupong gumagamit ng mga pamamaraang ito ay maaaring mag-fine-tune ng pinakamalalaking modelo gamit ang medyo katamtamang compute, na maaaring magdemokratize ng kakayahang bumuo ng specialized high-performance AI agents. Sa halip na ang mga malalaking tech company lang ang makapag-deploy ng trillion-parameter models, anumang lab o startup ay maaaring gumamit ng isang open model tulad ng Kimi K2 at i-adapt ito sa pamamagitan ng LoRA sa isang mas maliit na GPU cluster[37][21]. Ito ay nagpapantay sa larangan ng paglalaro at hinihikayat din ang eksperimento sa malalaking modelo sa mga niche domain (dahil ang gastos ay hindi gaanong hadlang). Maaari nating makita ang isang pagsabog ng mga tailored trillion-scale agents – ang ilan ay nakatuon sa medical reasoning, ang iba sa legal research, ang iba pa sa creative design – lahat ay ginawang posible ng mga efficient fine-tuning frameworks. Ang mga open-source na integrasyon (Megatron, atbp.) ay karagdagang nagtitiyak na ang mga inobasyong ito ay mabilis na kumalat. Bukod dito, ang hybrid parallel approach ay nangangahulugan na para sa anumang ibinigay na hardware budget, maaaring makamit ang mas epektibong pagsasanay sa pamamagitan ng matalinong pag-iiskedyul at pag-parallelize, sa halip na tanggapin lamang ang mas maliit na modelo. Ito ay kritikal habang itinutulak natin ang mga modelo na mag-incorporate ng mas maraming modalities at mas mahabang mga konteksto, na higit pang magtataas ng computational demands.
Continuous Learning and Human–AI Interaction: Sa wakas, ang konsepto ng isang closed-loop learning system ay binabago ang papel ng gumagamit sa ebolusyon ng AI. Ang bawat interaksyon ng gumagamit ay nagiging potensyal na halimbawa sa pagsasanay, at ang bawat pag-deploy ay isang eksperimento. Sa praktikal na mga termino, ito ay maaaring humantong sa mga AI services na dramatikong bumubuti magdamag habang nire-retrain nila ang data ng nakaraang araw – katulad ng kung paano nagro-roll out ang mga update ng software. Maaaring simulan ng mga gumagamit na asahan na kung itatama nila ang isang AI ngayon, hindi ito mauulit sa susunod na araw. Ito ay nagtatakda ng isang mabuting siklo: mas magagandang produkto ang nag-aakit ng mas maraming paggamit, na nagbubunga ng mas maraming data upang pag-aralan, na sa huli ay nagpapabuti sa produkto. Gayunpaman, nangangailangan din ito ng maingat na co-design ng pagsusuri at kaligtasan – kung ang isang ahente ay natututo mula sa sarili nitong mga interaksyon, kailangan natin ng matibay na reward models at mga guardrails upang masiguro na natututo ito ng tamang mga aral (iwasan ang pag-reinforce ng hindi kanais-nais na mga pag-uugali). Ang gawain ng Mind Lab sa pag-incorporate ng human preference rewards at self-critique sa RL ay isang maagang template para dito[35]. Sa mahabang panahon, ang ganitong pananaliksik–produkto na co-design ay maaaring maging karaniwang praktis: sa halip na ang isang pananaliksik na papel ay magtatapos sa “na-fine-tune namin ang isang modelo at nakamit ang X,” ang pamantayan ng tagumpay ay magiging “nag-deploy kami ng isang adaptive na ahente sa mga gumagamit at ito ay napapanahong pinabuti ang pagganap/utility nito ng Y% sa paglipas ng panahon.”

Papunta sa Mga Adaptive na Isip: Isang Pangwakas na Pananaw

Habang ang mga static scaling laws ay umabot na sa rurok, ang pagsasama na ipinakita ng abot-kayang trillion-scale na pagpapasadya ni Tinker at ang epektibong experiential RL ng Mind Lab ay nagbabadya ng isang makabagong panahon. Sa pamamagitan ng pag-embed ng adaptasyon sa product loop, lumalampas tayo sa mga marupok na kaisipan patungo sa matatag na mga isipan—mga sistema na hindi lamang nangangatuwiran at nakakaintindi sa mga hangganan na antas kundi lumalago ng magkasama sa kanilang mga kapaligiran. Ang co-evolutionary na trajektoryang ito ay nangangako ng AI na hindi lamang may kakayahan, kundi patuloy na nagiging mas naaayon sa mga pangangailangan ng tao at sa mga komplikasyon ng tunay na mundo.

[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence

https://ar5iv.labs.arxiv.org/html/2507.20534

[2] [3] [8] [9] Tinker - Thinking Machines Lab

https://thinkingmachines.ai/tinker/

[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: Pangkalahatang Pagiging Magagamit at Input ng Paningin - Thinking Machines Lab

https://thinkingmachines.ai/blog/tinker-general-availability/

[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] Paano Namin Binubuo ang Trillion Parameter Reasoning RL gamit ang 10% GPUs

https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus?trk=article-ssr-frontend-pulse_little-text-block

[17] [30] [33] Macaron AI | LinkedIn

https://www.linkedin.com/company/macaronaiofficial

[18] [19] [29] [31] [32] Introducing Mind Lab — Ang Research Arm ng Macaron AI

https://www.linkedin.com/pulse/introducing-mind-lab-macaron-ais-research-arm-macaronaiofficial-tkz2e?trk=organization_guest_main-feed-card_feed-article-content