स्थिर मॉडल से अनुकूलनशील एजेंट्स की ओर: टिंकर और माइंड लैब में नवाचार

लेखक: बॉक्सू ली

आर्टिफिशियल इंटेलिजेंस के विकसित होते परिदृश्य में, जहां अत्यधिक पैमाने पर प्रीट्रेनिंग ने मजबूत स्थिर क्षमताएं प्रदान की हैं, अब सीमांत निर्माण के बजाय स्थिर मॉडल से शक्तिशाली एजेंटिक सिस्टम बनाने की ओर बढ़ रहा है – ऐसे एआई एजेंट जो गहराई से सोच सकते हैं, उपकरण का उपयोग कर सकते हैं, देख सकते हैं और याद कर सकते हैं, और अनुभव से निरंतर सीख सकते हैं [1].

थिंकिंग मशीन लैब का टिंकर प्लेटफॉर्म, 12 दिसंबर, 2025 को अपनी हालिया सामान्य उपलब्धता की घोषणा के साथ, ट्रिलियन-पैरामीटर मॉडल की फाइन-ट्यूनिंग और बहुआयामी विस्तार तक पहुंच को लोकतांत्रिक बनाते हुए एक महत्वपूर्ण आधारभूत छलांग का प्रतिनिधित्व करता है। इसी समय, माइंड लैब— मैकरॉन एआई का अनुसंधान विभाग— "अनुभवात्मक बुद्धिमत्ता" के लिए एक दार्शनिक और तकनीकी ढांचा प्रस्तुत करता है, जिसमें मॉडल स्थिर ज्ञान के भंडार से वास्तविक विश्व प्रतिक्रिया के माध्यम से स्वयं को सुधारने वाली गतिशील प्रक्रियाओं में बदल जाते हैं। यह संगम अनुसंधान और उत्पाद के सह-डिजाइन को सुधारने के लिए गहरे अवसर प्रदान करता है, एल्गोरिदमिक नवाचार और लागू अनुकूलन के बीच के अंतर को बंद करते हुए।

टिंकर के अपडेट्स में प्रमुख नवाचार

थिंकिंग मशीन लैब का टिंकर प्लेटफॉर्म सामान्य उपलब्धता प्राप्त करता है, मूनशॉट एआई के ट्रिलियन-पैरामीटर किमी K2 थिंकिंग MoE मॉडल के फाइन-ट्यूनिंग का समर्थन करता है, ओपनएआई-संगत इन्फेरेंस, और अलीबाबा की क्वेन3-VL श्रृंखला के माध्यम से मल्टीमॉडल इनपुट का समर्थन करता है।
ये सीमांत तर्क और दृष्टि-भाषा मॉडल के कुशल अनुकूलन को सक्षम करते हैं, प्रदर्शन के साथ इमेज क्लासिफिकेशन में श्रेष्ठ कुछ-शॉट प्रदर्शन दिखाते हैं।
माइंड लैब (मैकैरन एआई की अनुसंधान शाखा) समान ट्रिलियन-स्केल MoE मॉडल पर स्केलेबल LoRA-आधारित आरएल में प्रगति करता है, अनुभवात्मक अनुकूलन पर जोर देता है।

इस पोस्ट में, हम टिंकर के नए किमी K2 तर्क मॉडल, ओपनएआई-संगत इंटरफेस, और क्वेन3-VL दृष्टि मॉडल में गहराई से जाएंगे, फिर माइंड लैब की अनुभवात्मक बुद्धिमत्ता की फिलॉसफी, उनके ट्रिलियन-पैरामीटर रिइनफोर्समेंट लर्निंग (आरएल) में ब्रेकथ्रू, मेमोरी डिफ्यूजन अप्रोच, और अगली पीढ़ी के एआई सिस्टम के निर्माण के लिए रणनीतिक प्रभावों का पता लगाएंगे।

टिंकर के नवीनतम नवाचार: तर्क, उपकरण, और दृष्टि

Tinker एक AI प्रशिक्षण मंच है जिसे शोधकर्ताओं को नवीनतम मॉडल को बिना बुनियादी ढांचे की चिंता किए फ़ाइन-ट्यून और तैनात करने के लिए डिज़ाइन किया गया है[2][3]। दिसंबर 2025 में, Tinker ने AI मॉडलों की तर्क क्षमताओं, उपकरण उपयोग और दृष्टि समझ को मजबूत करने वाले कई प्रमुख अपडेट की घोषणा की[4]:

किमी K2 थिंकिंग मॉडल: उपयोगकर्ता अब किमी K2 थिंकिंग, एक विशाल 1-ट्रिलियन-पैरामीटर मॉडल, को फाइन-ट्यून कर सकते हैं, जो टिंकर की श्रृंखला में सबसे बड़ा है[5]। किमी K2 एक Mixture-of-Experts (MoE) ट्रांसफार्मर है, जो लंबी विचार श्रृंखला तर्क और एजेंटिक उपकरण उपयोग के लिए डिज़ाइन किया गया है[6]। इसके पैमाने के बावजूद, इसके केवल एक उपसमूह (~32B) पैरामीटर एक समय में सक्रिय होते हैं, जिससे यह अत्याधुनिक तर्क प्रदर्शन प्राप्त करता है जबकि अनुमान को कुशल बनाता है[7]। इस खुले मॉडल को “ओपन एजेंटिक इंटेलिजेंस” के रूप में वर्णित किया गया है, जो जटिल तर्क बेंचमार्क पर कई बंद मॉडल्स को टक्कर देता है[7]। टिंकर पर किमी K2 का समर्थन करके, थिंकिंग मशीन शोधकर्ताओं को ऐसे कार्यों के लिए एक उन्नत तर्क इंजन का उपयोग करने की अनुमति देता है जो बहु-चरणीय तर्क, योजना, या बाहरी उपकरण कॉल की मांग करते हैं। महत्वपूर्ण रूप से, टिंकर ऐसे मॉडलों को LoRA (लो-रैंक एडेप्टेशन) का उपयोग करके फाइन-ट्यून करता है, छोटे एडेप्टर मैट्रिक्स को प्रशिक्षित करता है बजाय इसके कि सभी ट्रिलियन वेट्स को अपडेट करे[8]। यह दृष्टिकोण अनुकूलन के लिए आवश्यक मेमोरी और कम्प्यूट को काफी कम कर देता है। वास्तव में, आंतरिक अध्ययनों से पता चला है कि सही सेटअप के साथ, LoRA पूरा फाइन-ट्यूनिंग के सीखने के प्रदर्शन को मेल कर सकता है जबकि बहुत कम संसाधनों का उपयोग करता है[9]। व्यवहार में, इसका मतलब है कि उपयोगकर्ता एक विशाल मॉडल जैसे किमी K2 को नए कार्यों या डोमेन में अनुकूलित कर सकते हैं बिना अधिक लागत के – अधिक कुशल तर्क वर्कफ़्लोज़ के लिए एक महत्वपूर्ण कदम।
ओपनAI API-संगत अनुमान: अनुसंधान-उत्पाद एकीकरण में तेजी लाने के लिए, टिंकर ने एक अनुमान इंटरफ़ेस पेश किया है जो ओपनAI के API के संगत है, जो पूर्णता के लिए है[10]। मूल रूप से, टिंकर-होस्टेड मॉडल को ओपनAI के प्लेटफ़ॉर्म का उपयोग करके समान API कॉल्स के साथ क्वेरी किया जा सकता है, एक विशेष tinker:// URI के साथ एक मॉडल पथ निर्दिष्ट करके। उदाहरण के लिए, डेवलपर्स टिंकर मॉडल के पूर्णता API को ओपनAI-जैसे सिंटैक्स (मॉडल, प्रॉम्प्ट, मैक्स_टोकन्स, आदि) के साथ कॉल कर सकते हैं और परिणाम प्राप्त कर सकते हैं जैसे कि वे openai.Completion.create को कॉल कर रहे हों[10]। यह प्लग-एंड-प्ले संगतता का मतलब है कि ओपनAI API के आसपास निर्मित किसी भी उपकरण या अनुप्रयोग टिंकर के मॉडल्स को बिना किसी समस्या के एकीकृत कर सकते हैं[10]। यह उन्नत ओपन मॉडलों को वास्तविक उत्पादों में अपनाने के लिए घर्षण को कम करता है: आप टिंकर पर किमी K2 को फाइन-ट्यून कर सकते हैं, फिर इसे न्यूनतम कोड परिवर्तन के साथ एक मौजूदा विचार श्रृंखला एजेंट या चैटबॉट ढांचे में डाल सकते हैं। इसके अलावा, टिंकर के API स्कैफोल्डिंग से भी आपको एक मॉडल से नमूना लेने की अनुमति मिलती है जब यह अभी भी प्रशिक्षण में होता है[10] – जिससे इंटरैक्टिव मूल्यांकन या उपकरण-वर्धित प्रशिक्षण लूप्स सक्षम होते हैं जहां एक मॉडल को परीक्षण और उपयोग किया जा सकता है इसके फाइन-ट्यूनिंग प्रक्रिया के समानांतर। यह अपडेट अधिक कुशल एजेंट विकास वर्कफ़्लोज़ का समर्थन करता है, शोधकर्ताओं को निरंतर मॉडल सुधारों को वास्तविक सेटिंग्स में एकीकृत और परीक्षण करने की अनुमति देता है।
क्वेन3-VL दृष्टि–भाषा मॉडल्स: टिंकर में एक और प्रमुख जोड़ है मल्टीमॉडल दृष्टि-भाषा मॉडल्स के लिए समर्थन। प्लेटफ़ॉर्म ने दो दृष्टि-सक्षम मॉडल्स जोड़े हैं, क्वेन3-VL-30B और क्वेन3-VL-235B, जो छवि इनपुट्स को पाठ के साथ स्वीकार कर सकते हैं[11]। ये मॉडल्स (क्रमशः 30 बिलियन और 235 बिलियन पैरामीटर्स, दोनों MoE आर्किटेक्चर) निर्देश-ट्यून किए गए हैं ताकि वे चित्रों को शामिल करने वाले प्रॉम्प्ट का पालन कर सकें, जैसे कि आरेख के बारे में प्रश्नों का उत्तर देना या किसी चित्र की व्याख्या करना। सरल API कॉल्स के साथ, उपयोगकर्ता अब मॉडल में एक छवि (ImageChunk के रूप में) को पाठ के साथ इंटरलीव्ड कर सकते हैं और एक भाषा प्रतिक्रिया प्राप्त कर सकते हैं[12]। यह दृष्टि-सूचित अनुप्रयोगों की एक विविधता को अनलॉक करता है – स्क्रीनशॉट्स और चार्ट्स का विश्लेषण करने से लेकर मल्टीमॉडल सहायक जो देख सकते हैं और बात कर सकते हैं। विशेष रूप से, क्वेन3-VL मॉडल्स को डेटा-कुशल दृष्टि क्षमताओं के साथ डिज़ाइन किया गया था। इसे दर्शाने के लिए, थिंकिंग मशीन्स ने कुछ क्लासिक छवि वर्गीकरण कार्यों (Caltech101, Oxford Flowers, आदि) पर 235B क्वेन3-VL मॉडल को LoRA एडेप्टर्स का उपयोग करके फाइन-ट्यून किया[13]। उन्होंने इसके प्रदर्शन की तुलना एक मजबूत दृष्टि-केवल बेसलाइन (DINOv2 ViT मॉडल के साथ एक क्लासिफायर हेड) से की, प्रति वर्ग प्रशिक्षण डेटा की विभिन्न मात्रा में[14]।

[15] सीमित लेबल वाली उदाहरणों पर इमेज क्लासिफिकेशन कार्यों में फाइन-ट्यून किए गए Qwen3-VL-235B (विज़न-भाषा मॉडल) और DINOv2 (केवल विज़न आधारित बेसलाइन) की तुलना। Qwen3-VL विशेष रूप से कम-डेटा स्थिति (बाएँ छोर) में उच्च सटीकता प्राप्त करता है, इसके भाषा-सूचित दृश्य समझ के लिए धन्यवाद।

केवल प्रत्येक श्रेणी के लिए एक उदाहरण के साथ भी, 235B Qwen3-VL मॉडल ने उचित सटीकता प्राप्त की, इस अत्यंत कम-डेटा स्थिति में DINOv2 को महत्वपूर्ण रूप से पिछाड़ दिया[15]। जैसे-जैसे उदाहरणों की संख्या बढ़ी, दोनों मॉडलों में सुधार हुआ, लेकिन Qwen3-VL ने बढ़त बनाए रखी, मजबूत कुछ-शॉट सामान्यीकरण का प्रदर्शन किया[16]। इस लाभ का कारण मॉडल की अंतर्निहित भाषा और विश्व ज्ञान है – उदाहरण के लिए, Qwen3-VL पहले से ही जानता है कि 'सनफ्लावर' या 'गोल्डन रिट्रीवर' कैसा दिखता है या उसे कैसे वर्णित किया जाता है, इसके मल्टीमॉडल प्रीट्रेनिंग के कारण[16]। इसका मतलब है कि यह नए उदाहरणों के साथ नए चित्रों को पहचान या वर्गीकृत कर सकता है। व्यावहारिक रूप से, टिंकर के उपयोगकर्ता बहुत छोटे डेटासेट्स के साथ विज़न कार्यों पर उच्च सटीकता प्राप्त कर सकते हैं, इन बड़े विज़न-भाषा मॉडलों का लाभ उठाकर। यह डेटा-कुशल दृष्टि क्षमता वास्तविक दुनिया के परिदृश्यों के लिए महत्वपूर्ण है जहाँ लेबल वाले डेटा की कमी होती है। यह उपकरण-संवर्धित तर्क की शक्ति की ओर भी संकेत करता है: एक मॉडल जो 'देखता है' वह दृश्य संकेतों और भाषाई संदर्भ दोनों का लाभ उठा सकता है, इसे एक अधिक बहुमुखी एजेंट बनाता है (उदाहरण के लिए, एक आरेख पढ़ना और समझाना, या एक छवि का उपयोग तर्क श्रृंखला के भाग के रूप में)। कुल मिलाकर, टिंकर में Qwen3-VL का जोड़ मंच की पहुंच को शुद्ध पाठ से दृश्य क्षेत्र तक बढ़ाता है, एकीकृत प्रशिक्षण API के तहत मल्टी-मॉडल तर्क वर्कफ़्लो को सक्षम करता है।

माइंड लैब की अनुकूलन प्रणाली: अनुभवात्मक बुद्धिमत्ता की क्रियान्वित

शोध के क्षेत्र में, माइंड लैब – जो मैकरॉन AI से संबद्ध एक नई फ्रंटियर रिसर्च लैब है – AI एजेंट्स को वास्तव में अनुकूलनीय और अनुभवात्मक बनाने की चुनौती का सामना कर रही है। माइंड लैब का मूलमंत्र है कि “वास्तविक बुद्धिमत्ता वास्तविक अनुभव से आती है, केवल बड़े प्री-ट्रेनिंग से नहीं”[17]। दूसरे शब्दों में, केवल स्थिर डेटा सेट पर मॉडल्स का स्केलिंग पर्याप्त नहीं है; AI में अगली छलांग उन प्रणालियों से आएगी जो इंटरैक्शन से लगातार सीखती हैं, जैसे मानव अनुभव जुटाते हैं। माइंड लैब इस दृष्टिकोण को अनुभवात्मक बुद्धिमत्ता के रूप में प्रस्तुत करता है – स्थिर “मस्तिष्क” से अनुकूलनीय “मन” की ओर बढ़ना, जो आंतरिक विश्व मॉडल बना सकते हैं, फीडबैक के माध्यम से अपने ज्ञान को अपडेट कर सकते हैं, स्पष्ट लक्ष्य या मूल्य रख सकते हैं, और यहां तक कि अपने कार्यों पर विचार कर सकते हैं[18]। यह वर्तमान LLMs की सीमाओं का प्रत्यक्ष उत्तर है, जो अक्सर शक्तिशाली लेकिन प्री-ट्रेनिंग के बाद स्थिर होते हैं[18]। वास्तविक अनुकूलन के लिए तंत्रों को पेश करके – जैसे कि निरंतर सुदृढीकरण शिक्षण और गतिशील स्मृति – माइंड लैब उपयोग के साथ विकसित होते एजेंट्स बनाने का लक्ष्य रखता है।

माइंड लैब के कार्य के दो मुख्य स्तंभ हैं: (1) बड़े मॉडलों का कुशल RL फाइन-ट्यूनिंग नए व्यवहारों को स्थापित करने के लिए, और (2) उन्नत मेमोरी सिस्टम जो एजेंट्स को दीर्घकालिक ज्ञान बनाए रखने और उपयोग करने की अनुमति देते हैं। दोनों का उद्देश्य AI को अधिक एजेंटिक (स्वायत्त निर्णय और सुधार करना) बनाना है और शोध प्रगति को उत्पाद तैनाती के साथ मजबूती से जोड़ना है।

10% GPUs के साथ LoRA-आधारित ट्रिलियन-पैरामीटर RL

हमने यह कैसे हासिल किया?

माइंड लैब की प्रमुख उपलब्धियों में से एक है ट्रिलियन-पैरामीटर स्केल पर रिइंफोर्समेंट लर्निंग का प्रदर्शन करना - और इसे व्यावहारिक, लागत-प्रभावी तरीके से करना। दिसंबर 2025 में उन्होंने 1.04T-पैरामीटर Kimi K2 रीजनिंग मॉडल पर पहला एंड-टू-एंड RL पाइपलाइन की घोषणा की, जो सामान्य रूप से आवश्यक GPU संसाधनों के केवल ~10% के साथ प्राप्त किया गया[19]। यह कैसे संभव था? टीम ने एक विशेष प्रशिक्षण इंजन बनाया जो मॉडल की मिश्रण-ऑफ-एक्सपर्ट्स संरचना के पार पैरामीटर-प्रभावी फाइनट्यूनिंग (LoRA) के साथ हाइब्रिड पैरेललिज्म को संयोजित करता है[20][21]।

सभी ट्रिलियन वेट्स को ट्यून करने के बजाय, माइंड लैब का दृष्टिकोण Kimi K2 की चुनी हुई परतों में लो-रैंक अनुकूलन मैट्रिसेस डालता है (घनी बैकबोन और विशेषज्ञ परतों दोनों में) और केवल उन्हीं को RL[22] के दौरान अपडेट करता है। इससे ट्रेन करने योग्य पैरामीटर्स की संख्या को काफी हद तक घटा दिया जाता है (उदाहरण के लिए, पूर्ण मैट्रिसेस की बजाय कुछ दर्जनों या सैकड़ों प्रति लेयर का LoRA रैंक) और इस प्रकार मेमोरी और कंप्यूट उपयोग को एक क्रम में घटा देता है। साथ ही, इस आकार के मॉडल को ट्रेन करने के लिए कई GPUs के बीच काम को कुशलतापूर्वक वितरित करना आवश्यक है। टीम ने एक हाइब्रिड-पैरेलल रणनीति अपनाई: टेंसर पैरेललिज़्म, पाइपलाइन पैरेललिज़्म, विशेषज्ञ पैरेललिज़्म (MoE विशेषज्ञों के लिए), और अनुक्रम पैरेललिज़्म (लंबे अनुक्रम प्रशिक्षण के लिए) का समन्वित उपयोग, सभी को शार्डेड LoRA अपडेट्स[23] के साथ संगत बनाया गया। व्यावहारिक रूप से, इसका मतलब था मौजूदा बड़े-मॉडल प्रशिक्षण फ्रेमवर्क (NVIDIA का Megatron और ByteDance का VolcEngine RL) का लाभ उठाना, उन्हें MoE पर LoRA को संभालने के लिए बढ़ाना, और एक क्लस्टर में 64 GPUs के बीच गणना को सावधानीपूर्वक संतुलित करना[24]। परिणाम था स्थिर ऑन-पॉलिसी RL प्रशिक्षण (PPO-शैली के एल्गोरिदम के समान) पूर्ण Kimi K2 मॉडल पर, जिसमें रिवार्ड मॉडल तर्क की गुणवत्ता पर प्रतिक्रिया प्रदान करता है[22] – कुछ ऐसा जो ज्यादातर टीमों के लिए लागत के कारण पहले असंभव माना जाता था।

समान रूप से महत्वपूर्ण, यह काम किया: LoRA-फाइनट्यून Kimi K2 ने लंबे समय तक तर्क कार्यों पर महत्वपूर्ण सुधार प्राप्त किए, जिसमें सुगम सीखने की वक्र और कोई विचलन नहीं हुआ[25]। महत्वपूर्ण यह है कि अनुकूलित मॉडल ने आधार मॉडल के सामान्य कौशल को बनाए रखा (केवल न्यूनतम, केंद्रित वजन परिवर्तनों के लिए धन्यवाद) जबकि नए कार्य-विशिष्ट व्यवहार प्राप्त किए[26]। इसका मतलब है कि आधार मॉडल का विशाल पूर्व ज्ञान अधिलेखित नहीं किया गया, केवल संवर्धित किया गया - LoRA फाइनट्यूनिंग का एक प्रमुख लाभ। वास्तव में, Mind Lab के प्रयोगों ने पुष्टि की कि बड़े मॉडल RL के लिए एक मजबूत नींव प्रदान करते हैं। एक निश्चित प्रशिक्षण बजट के तहत, एक बड़ा मॉडल प्लस छोटे LoRA एडाप्टर्स ने पूर्ण ट्यूनिंग के साथ प्रशिक्षित छोटे मॉडल को मात दी, दोनों ही इन-डोमेन कार्यों पर और नए कार्यों में स्थानांतरित करते समय[27]। जैसा कि टीम कहती है, RL “पूर्व-सीमित” है - यदि आधार मॉडल शुरुआत में उच्च-गुणवत्ता वाले प्रक्षेप पथ उत्पन्न नहीं कर सकता, तो RL को बढ़ाने के लिए थोड़ा संकेत होता है[27]। Kimi K2 जैसे एक शक्तिशाली पूर्वप्रशिक्षित पूर्व RL को व्यवहार का एक समृद्ध सेट देता है जिसे संवर्धित किया जा सकता है, जबकि एक छोटे मॉडल को खरोंच से प्रशिक्षित करना उन व्यवहारों का फिर से निर्माण करना होता है। इस अंतर्दृष्टि ने पारंपरिक ज्ञान को उलट दिया: यह एक बड़े मॉडल पर RL करना अधिक गणना-कुशल हो सकता है (एक मजबूत पूर्व और LoRA दक्षता के साथ) बजाय एक छोटे मॉडल पर RL करने के, भले ही छोटे मॉडल प्रति चरण सस्ता हो[28]। Mind Lab का योगदान यहां सिर्फ एक एल्गोरिदम नहीं है, बल्कि एक अवसंरचना रणनीति है - सबसे बड़े मॉडलों पर सतत सीखने को संभव बनाने के लिए एक खाका। उन्होंने अपने तरीकों को ओपन-सोर्स परियोजनाओं (Megatron-Bridge, VERL) में ऊपर उठाया है[29], ताकि समुदाय इस कार्य को पुन: उत्पन्न और निर्माण कर सके, संभावित रूप से कई समूहों को मध्यम हार्डवेयर बजट पर ट्रिलियन-पैरामीटर एजेंटों को फाइन-ट्यून करने में सक्षम बना सके।

मेमोरी डिफ्यूजन: एजेंट मेमोरी को वेक्टर डेटाबेस से परे फिर से सोचना

मेमोरी डिफ्यूजन लाइव डेमो

एक और सीमा जिसे माइंड लैब खोज रहा है वह यह है कि एक AI एजेंट अपनी इंटरैक्शन की दीर्घकालिक स्मृतियों को कैसे संभाल सकता है। कई वर्तमान प्रणालियाँ पिछले वार्तालाप के अंशों को पुनः प्राप्त करने के लिए एक वेक्टर डेटाबेस जोड़ती हैं या इतिहास को संक्षेपित करने के लिए सारांश तकनीकों का उपयोग करती हैं। माइंड लैब एक अधिक एकीकृत, “मॉडल-नेटीव” मेमोरी प्रणाली का प्रस्ताव करता है जिसे मेमोरी डिफ्यूजन कहा जाता है[30]। विचार यह है कि एजेंट के संवाद या प्रक्षेपवक्र के पूरे अनुक्रम को मॉडल के संदर्भ के भीतर संपादन योग्य स्मृति के रूप में व्यवहार किया जाए, बजाय इसके कि बाहर संग्रहीत किया जाए। मेमोरी डिफ्यूजन मास्क–आवंटन–रीफिल लूप[30] के माध्यम से संदर्भ की एक स्थिर-आकार की विंडो को बार-बार बनाए रखकर काम करता है। प्रत्येक चरण में, मॉडल यह तय करता है कि किन टोकनों (पिछले वार्तालाप के हिस्से) को रखना है (मास्क) और किन्हें छोड़ना है, फिर खाली जगह को नए आने वाले सामग्री से भरता है – यह सब संदर्भ लंबाई के लिए एक सख्त टोकन बजट का सम्मान करते हुए[30]। मूल रूप से, मॉडल अपने स्वयं के संदर्भ को प्रबंधित करना सीख रहा है, कम प्रासंगिक विवरणों को संक्षेपित या भूलते हुए और जैसे-जैसे इंटरैक्शन बढ़ता है, महत्वपूर्ण तथ्यों को बनाए रखते हुए। यह बुद्धिमान भूल के समान है, जहाँ लक्ष्य सब कुछ अनिश्चितकाल के लिए याद रखना नहीं है (जो संदर्भ लंबाई सीमाओं को देखते हुए संभव नहीं है), बल्कि वास्तविक बाधाओं के तहत उपयोगी रूप से याद रखना है[30]।

टोकन सीक्वेंस स्तर पर काम करके, मेमोरी डिफ्यूजन को बाहरी एम्बेडिंग्स या समानता खोज की आवश्यकता नहीं होती; "मेमोरी" मॉडल के कार्य करने वाले संदर्भ के समान प्रतिनिधिकारी स्थान में रहती है। माइंड लैब की रिपोर्ट है कि यह दृष्टिकोण लंबी-अवधि की स्मृति प्रदर्शन में अत्याधुनिक है, मतलब एजेंट लंबी बातचीत या कार्य कर सकता है बिना महत्वपूर्ण जानकारी खोए, सभी सीखे हुए इन-मॉडल तंत्रों के माध्यम से [31]। यह संदर्भ आकार के सापेक्ष स्थिर समय में भी चलता है - जब इतिहास बढ़ता है तब पुनः प्राप्ति लागत में कोई वृद्धि नहीं होती, क्योंकि संदर्भ की लंबाई मास्क/रीफिल ऑपरेशनों के माध्यम से निश्चित और प्रबंधित होती है [31]। व्यावहारिक रूप से, मेमोरी डिफ्यूजन के साथ एक एजेंट हजारों टर्न की बातचीत में संलग्न हो सकता है, और जबकि यह हर विवरण को स्पष्ट रूप से याद नहीं रख सकता, यह लगातार निर्णय करेगा कि क्या ध्यान में रखना है। महत्वपूर्ण उपयोगकर्ता प्राथमिकताएं या अनसुलझे प्रश्न बने रहेंगे, जबकि पहले की तुच्छ बातचीत हटाई जा सकती है। यह दृष्टिकोण स्मृति को मॉडल की अनुभूति के प्रथम श्रेणी के घटक के रूप में मानता है, माइंड लैब के दृष्टिकोण के साथ संरेखित है कि स्मृति प्रणाली का सक्रिय, सीखने वाला हिस्सा होना चाहिए, न कि एक निष्क्रिय डेटा स्टोर [30]।

हमारे तकनीकी ब्लॉग पर और पढ़ें

अनुसंधान–उत्पाद सह-डिज़ाइन: एक सतत सीखने का चक्र

Tinker के बुनियादी ढांचे की सुविधाएं और Mind Lab की एल्गोरिदम दक्षताएं एक प्राकृतिक सहजीवन बनाती हैं। Tinker Kimi K2 और Qwen3-VL पर Mind Lab की हाइब्रिड LoRA RL के सीधे अनुप्रयोग को सक्षम बनाता है, जिससे मल्टीमॉडल एजेंटिक चक्रों की सुविधा होती है।

अनुसंधान-उत्पाद सह-डिज़ाइन में—Mind Lab का मुख्य सिद्धांत—यह इस प्रकार प्रकट होता है:

प्रतिक्रिया के लिए उपकरण: तैनात एजेंट्स (उदा., Tinker द्वारा सेवा प्रदत्त मॉडल) उपयोगकर्ता इंटरैक्शन, टूल परिणाम, और सुधारों से संरचित एपिसोड उत्पन्न करते हैं।
ऑनलाइन RL पाइपलाइन्स: हाइब्रिड पैरेललिज्म लाइव सिग्नल्स पर निरंतर अपडेट का समर्थन करता है, मूल्य कार्यों और नीतियों को ऑफलाइन बैचों के बिना विकसित करता है।
मल्टीमॉडल अनुकूलन: दृष्टि इनपुट RL को धारणा कार्यों पर अनुमति देते हैं, GUI नेविगेशन, दस्तावेज़ समझ, या दृश्य तर्क के लिए विश्व मॉडल को परिष्कृत करते हैं।
सुरक्षा और स्थिरता: कोलोकेटेड रोलआउट्स वितरण शिफ्ट को कम करते हैं; स्ट्रीमिंग पुरस्कार (जैसे Mind Lab के HTML सौंदर्यशास्त्र उदाहरण में) पुरस्कार हैकिंग को रोकते हैं।

रणनीतिक रूप से, यह प्रतिमान पुनरावृत्ति को तेज करता है: उत्पाद प्रायोगिक परीक्षण स्थल बन जाते हैं, जो उच्च निष्ठा डेटा उत्पन्न करते हैं जो अनुसंधान परिकल्पनाओं को परिष्कृत करता है। उदाहरण के लिए, Tinker से प्राप्त कुछ-शॉट दृष्टि वर्गीकरण तैनात दृश्य एजेंटों में RL उद्देश्यों को बीजित कर सकता है, प्रगतिशील रूप से धारणा नीतियों को उपयोगकर्ता प्राथमिकताओं के साथ संरेखित कर सकता है।

परंपरागत रूप से, एआई अनुसंधान एक मॉडल या एल्गोरिदम तैयार करता था, और फिर एक उत्पाद टीम अलग से यह पता लगाती थी कि इसे कैसे तैनात किया जाए, जिसमें दोनों के बीच अपेक्षाकृत धीमी पुनरावृत्ति होती थी। इसके बजाय, माइड लैब अनुसंधान-उत्पाद सह-डिज़ाइन के दर्शन पर काम करता है: हर नई तकनीक को एक लाइव एजेंट सेटिंग में जल्दी से परखा जाता है, और वास्तविक उपयोगकर्ता इंटरैक्शन डेटा को अनुसंधान को परिष्कृत करने के लिए उत्पन्न करते हैं[32]।

"अनुसंधान और उत्पाद अब अलग-अलग ट्रैक नहीं हैं। वे एक बंद फीडबैक लूप हैं: उपयोगकर्ता अनुभव → डेटा → आरएल प्रशिक्षण → तैनाती → बेहतर UX → समृद्ध डेटा → दोहराएं।"[33]। व्यवहार में, इसका मतलब है कि जब माइड लैब अपने आरएल एल्गोरिदम या मेमोरी सिस्टम में सुधार करता है, तो वे इसे एक वास्तविक उपयोगकर्ता-उन्मुख एजेंट (उदाहरण के लिए, मैकरॉन के व्यक्तिगत एआई सहायक) में एकीकृत करते हैं और देखते हैं कि यह वास्तविक उपयोगकर्ताओं के साथ कैसा प्रदर्शन करता है। उपयोग डेटा - उपयोगकर्ता कौन से प्रश्न पूछते हैं, एजेंट कहां विफल या सफल होता है, स्पष्ट फीडबैक - फिर अगले मॉडल अपडेट के लिए प्रशिक्षण संकेत के रूप में वापस फीड किया जाता है (सुपरवाइज्ड फाइन-ट्यूनिंग या सुदृढीकरण सीखने के माध्यम से)। यह तंग लूप सीखने को बहुत तेजी से बढ़ाता है: उत्पाद ही प्रयोग है।

एक निहितार्थ है स्ट्रीमिंग रिवॉर्ड मॉडल्स और ऑनलाइन आरएलएचएफ (मानव प्रतिक्रिया से सुदृढीकरण लर्निंग) का उपयोग। मानव प्राथमिकता तुलना के एक स्थिर डेटा सेट को एकत्र करने और एक बार रिवॉर्ड मॉडल को प्रशिक्षित करने के बजाय, माइंड लैब का ढांचा नए फीडबैक के आने पर रिवॉर्ड मॉडल को निरंतर अपडेट करने की कल्पना करता है। उदाहरण के लिए, यदि कोई एजेंट उपयोगकर्ताओं के लिए कार्य हल कर रहा है और कभी-कभी उसे थंब्स-डाउन या सुधार मिलता है, तो उन संकेतों को रिवॉर्ड मॉडल में स्ट्रीम किया जा सकता है ताकि "अच्छे" व्यवहार की धारणा को तुरंत सुधार सके। अगली बार जब आरएल चलाया जाता है (जो एक निर्धारित ताल पर या यहां तक कि असिंक्रोनस रूप में हो सकता है), तो अपडेटेड रिवॉर्ड मॉडल नीति को उपयोगकर्ता की प्राथमिकताओं के साथ बेहतर संरेखित करने के लिए मार्गदर्शन करता है। यह स्ट्रीमिंग आरएल पैरेडाइम तैनाती को प्रशिक्षण के विस्तार में बदल देता है – जितना अधिक एजेंट वास्तविक दुनिया में चलता है, उतना अधिक अनुभव वह एकत्र करता है, और उतना ही बेहतर बनता है। टिंकर द्वारा प्रदान किया गया ओपनएआई-संगत इंटरफ़ेस वास्तव में इस रणनीति को पूरक करता है: यह इन लगातार सीखे गए मॉडलों को मौजूदा उत्पादों और उपकरणों में आसानी से प्लग करने की अनुमति देता है, जिसका मतलब है कि एक अनुसंधान लैब नए मॉडल संस्करणों को तेजी से उत्पाद में धकेल सकती है और परिणामों का अवलोकन कर सकती है, बिना हर बार एकीकरण को पुनर्निर्मित करने की आवश्यकता के।

टिंकर की ओर से, प्लेटफ़ॉर्म की मॉडल के मध्य-प्रशिक्षण से नमूना लेने की क्षमता[10] इस तरह के पुनरावृत्त लूप्स को सक्षम बनाकर मध्यवर्ती मूल्यांकन और सूक्ष्म-स्तरीय ट्यूनिंग निर्णयों को सुविधाजनक बना सकती है। माइंड लैब की ओर से, सह-डिज़ाइन लूप यह सुनिश्चित करता है कि उनके नवाचार (जैसे ट्रिलियन-स्केल आरएल या मेमोरी डिफ्यूज़न) वास्तविक उपयोग मामलों में तनाव-परीक्षण किए जाते हैं। यह दृष्टिकोण व्यावहारिक चुनौतियों को जल्दी सतह पर लाता है (जैसे, विलंबता को कैसे संभालें या अप्रत्याशित उपयोगकर्ता इनपुट्स) और अत्याधुनिक अनुसंधान और उपयोगकर्ता-उन्मुख एआई उत्पादों के बीच की खाई को पाटता है। रणनीतिक लाभ यह है कि सुधार वास्तविक दुनिया की आवश्यकताओं द्वारा संचालित होते हैं और सीधे वास्तविक दुनिया के उपयोग के खिलाफ मान्य होते हैं। जैसा कि माइंड लैब नोट करता है, वास्तविक प्रगति “उपयोगकर्ता-उत्पाद इंटरैक्शन से निरंतर सीखने”[33] से आती है, और एक एजेंट जो स्थिति में अनुकूलित कर सकता है, अंततः एक बेहतर उपयोगकर्ता अनुभव प्रदान करेगा जो एक जगह पर तैनात होने पर स्थिर होता है।

एजेंटिक एआई और भविष्य के सह-डिज़ाइन सिस्टम के लिए निहितार्थ

टिंकर और माइंड लैब से हुई प्रगति को एक साथ लेते हुए, यह दिखाता है कि हम एआई सिस्टम कैसे बनाते हैं में एक गहरी बदलाव है – स्थैतिक मॉडल से अनुकूलनशील एजेंट जो अपने वातावरण के साथ सह-डिज़ाइन किए गए हैं। कई प्रमुख निहितार्थ उभरते हैं:

फाउंडेशन मॉडल से फाउंडेशन एजेंट तक: एजेंटिक मॉडल जैसे कि Kimi K2 (जिसमें टूल-यूज़ और रीजनिंग को समाहित किया गया है) की शुरुआत और उन्हें निरंतर फाइन-ट्यून करने की तकनीकें यह संकेत देती हैं कि बड़े भाषा मॉडल अब केवल ज्ञान के लिए नहीं, बल्कि व्यवहार के प्लेटफॉर्म के रूप में विकसित हो रहे हैं। एक बार प्रशिक्षित मॉडल जो केवल पाठ की नकल करते हैं, अब हमें ऐसे एजेंट मिल रहे हैं जो योजना बना सकते हैं, क्रिया कर सकते हैं, और फीडबैक को समाहित कर सकते हैं। यह एआई मॉडल और एआई उत्पाद के बीच की रेखा को धुंधला कर देता है: मॉडल वह एजेंट बनता जा रहा है जिसके साथ आप इंटरैक्ट करते हैं, और यह खुद को बेहतर सेवा देने के लिए अपडेट कर सकता है। ऐसे एजेंट बनाना मॉडल-केंद्रित अनुसंधान (नई आर्किटेक्चर, प्रशिक्षण विधियां) को उत्पाद-केंद्रित सोच (उपयोगकर्ता अनुभव, परिनियोजन बाधाएँ) के साथ एकीकृत करने की आवश्यकता होती है।
टूल-अगुमेंटेड रीजनिंग एक मानक के रूप में: टिंकर की ओपनएआई-संगत इंटरफ़ेस और टूल उपयोग के लिए विशेष रूप से निर्मित मॉडल के साथ, हम यह देख सकते हैं कि एआई एजेंट अपने रीजनिंग प्रक्रिया के हिस्से के रूप में बाहरी टूल, एपीआई, या डेटाबेस को सहज रूप से लागू कर सकते हैं। Kimi K2 का डिज़ाइन और माइंड लैब के एजेंटिक प्रयोग दोनों इस बात पर जोर देते हैं कि जटिल कार्यों को हल करने के लिए अक्सर एआई को टूल्स का परामर्श करना या वातावरण को अनुकरण करना आवश्यक होता है। भविष्य की प्रणालियाँ संभवतः मॉडल के प्रशिक्षण के कोर में टूल एपीआई को एकीकृत करेंगी (जैसा कि Kimi के बड़े पैमाने पर एजेंटिक डेटा सिंथेसिस ने किया था), जिससे बॉक्स से बाहर टूल उपयोग की क्षमताएँ उत्पन्न होंगी। रणनीतिक रूप से, इसका मतलब है कि एआई उत्पाद एक एकल मॉडल से अधिक होंगे – वे टूल ऑर्केस्ट्रेशन प्लेटफॉर्म होंगे, जहां मॉडल एक मस्तिष्क के रूप में सेवा करता है जो जानता है कि कब और कैसे अन्य सेवाओं को कॉल करना है। परिचित एपीआई के माध्यम से टिंकर मॉडल को एकीकृत करने में आसानी डेवलपर्स के लिए ऐसे टूल-उपयोगकर्ता एआई वर्कफ़्लो बनाने की बाधा को कम करती है।
स्टेटफुल इंटरैक्शन और पर्सनलाइज्ड एआई: मेमोरी इनोवेशन जैसे मेमोरी डिफ्यूजन एआई की ओर संकेत करते हैं जो इंटरैक्शन के बारे में दीर्घकालिक स्थिति बनाए रख सकते हैं। प्रत्येक सत्र या क्वेरी को अलग से मानने के बजाय, भविष्य के एजेंट पूर्व की इंटरैक्शन, प्राथमिकताओं और संदर्भों की सिद्धांतपूर्ण, सीमित तरीके से याद रखेंगे। इससे बहुत अधिक व्यक्तिगत और संदर्भ-संवेदनशील एआई सहायक सक्षम होंगे – जो हर बार रीसेट नहीं होते, बल्कि वास्तव में यह सीखते हैं कि वे किसके साथ इंटरैक्ट कर रहे हैं और क्या हो रहा है। महत्वपूर्ण रूप से, माइंड लैब का दृष्टिकोण दिखाता है कि यह अनंत संदर्भ विंडो के बिना किया जा सकता है; सीखी हुई मेमोरी प्रबंधन के माध्यम से, एजेंट यह समझदार बन सकते हैं कि क्या याद रखना है। उपयोगकर्ताओं के लिए, इसका मतलब है एक अधिक तरल अनुभव: एक व्यक्तिगत एआई जो पिछली बातचीत को याद रखता है, एक सतत संवाद या एक सुसंगत सहायक की तरह महसूस होगा, बजाय एक श्रृंखला की असंबद्ध उपयोग के। यह नए डिज़ाइन प्रश्न भी उठाता है: हम कैसे सुनिश्चित करें कि सही चीजें याद रखी या भूल जाएं? उत्तर शायद मेमोरी डिफ्यूजन जैसी तकनीकों में निहित है जो मानव जैसी भूल और जोर को शामिल करती हैं।
हाइब्रिड इन्फ्रास्ट्रक्चर एक प्रतिस्पर्धात्मक लाभ के रूप में: इन परियोजनाओं द्वारा बिछाई गई तकनीकी नींव – जैसे हाइब्रिड पैरेलल प्रशिक्षण, LoRA-ऑन-MoE, वितरित RL – एआई विकास टीमों के लिए एक गेम-चेंजर होगी। जो समूह इन विधियों को अपनाते हैं, वे सबसे बड़े मॉडलों को अपेक्षाकृत मामूली कंप्यूट के साथ फाइन-ट्यून कर सकते हैं, जो विशेषीकृत उच्च-प्रदर्शन एआई एजेंटों का निर्माण करने की क्षमता को लोकतांत्रित कर सकता है। केवल बड़ी तकनीकी कंपनियां ही ट्रिलियन-पैरामीटर मॉडल को तैनात कर सकती हैं, कोई भी लैब या स्टार्टअप एक ओपन मॉडल जैसे Kimi K2 का लाभ उठा सकता है और LoRA के माध्यम से उसे एक छोटे GPU क्लस्टर पर अनुकूलित कर सकता है। यह खेल का मैदान समतल करता है और निचे डोमेन में बड़े मॉडल के साथ प्रयोग को प्रोत्साहित करता है (क्योंकि लागत कम बाधा होती है)। हम ट्रिलियन-स्केल एजेंटों के उछाल को देख सकते हैं – कुछ चिकित्सा रीजनिंग पर केंद्रित, कुछ कानूनी अनुसंधान पर, कुछ रचनात्मक डिज़ाइन पर – सभी को प्रभावी फाइन-ट्यूनिंग फ्रेमवर्क द्वारा संभव बनाया गया। ओपन-सोर्स इंटीग्रेशन (मेगाट्रॉन, आदि) आगे सुनिश्चित करते हैं कि ये नवाचार तेजी से फैलते हैं। इसके अलावा, एक हाइब्रिड पैरेलल दृष्टिकोण का मतलब है कि किसी भी दिए गए हार्डवेयर बजट के लिए, कोई अधिक प्रभावी प्रशिक्षण को स्मार्ट शेड्यूलिंग और पैरेललाइजिंग द्वारा निकाल सकता है, बजाय केवल एक छोटे मॉडल को स्वीकार करने के। यह महत्वपूर्ण है क्योंकि हम मॉडलों को अधिक मॉडेलिटी और लंबे संदर्भों को शामिल करने के लिए धकेलते हैं, जो आगे कम्प्यूटेशनल मांगों को बढ़ाएगा।
निरंतर सीखना और मानव-एआई इंटरैक्शन: अंत में, एक बंद-लूप सीखने की प्रणाली की धारणा उपयोगकर्ता की भूमिका को एआई विकास में बदल देती है। हर उपयोगकर्ता इंटरैक्शन एक संभावित प्रशिक्षण उदाहरण बन जाता है, और हर परिनियोजन एक प्रयोग। व्यावहारिक रूप से, इसका मतलब यह हो सकता है कि एआई सेवाएं रातोंरात नाटकीय रूप से सुधारती हैं क्योंकि वे पिछले दिन के डेटा पर पुनः प्रशिक्षित होती हैं – जैसे कि कैसे सॉफ़्टवेयर अपडेट रोल आउट करते हैं। उपयोगकर्ता यह उम्मीद करना शुरू कर सकते हैं कि यदि वे आज एक एआई को सुधारते हैं, तो यह कल वही गलती नहीं दोहराएगा। यह एक गुणात्मक चक्र स्थापित करता है: बेहतर उत्पाद अधिक उपयोग को आकर्षित करते हैं, जिससे सीखने के लिए अधिक डेटा मिलता है, जो बदले में उत्पाद में सुधार करता है। हालाँकि, यह सावधानीपूर्वक मूल्यांकन और सुरक्षा का सह-डिज़ाइन भी मांगता है – यदि एक एजेंट अपने इंटरैक्शन से सीख रहा है, तो हमें यह सुनिश्चित करने के लिए मजबूत पुरस्कार मॉडल और गार्डरेल की आवश्यकता है कि यह सही पाठ सीखता है (अवांछनीय व्यवहारों को सुदृढ़ करने से बचना)। माइंड लैब का काम मानव वरीयता पुरस्कार और आत्म-आलोचना को RL में शामिल करने पर एक प्रारंभिक टेम्पलेट है। दीर्घकालिक में, इस तरह का अनुसंधान-उत्पाद सह-डिज़ाइन मानक अभ्यास बन सकता है: एक शोध पत्र के अंत के बजाय कि "हमने एक मॉडल को फाइन-ट्यून किया और X हासिल किया," सफलता का मापदंड होगा "हमने उपयोगकर्ताओं के लिए एक अनुकूली एजेंट को तैनात किया और इसने समय के साथ अपने प्रदर्शन/उपयोगिता में Y% की स्थायी रूप से सुधार किया।"

अनुकूली मन की ओर: एक निष्कर्ष दृष्टि

जैसे-जैसे स्थिर स्केलिंग कानून पठार पर पहुंचते हैं, टिंकर के सुलभ ट्रिलियन-स्तरीय अनुकूलन और माइंड लैब के कुशल अनुभवात्मक आरएल द्वारा प्रदर्शित संश्लेषण एक परिवर्तनकारी युग की शुरुआत करता है। उत्पाद चक्र में अनुकूलन को एकीकृत करके, हम नाजुक दिमागों से परे जाकर लचीले मन की ओर बढ़ते हैं - ऐसे सिस्टम जो न केवल सीमांत स्तरों पर तर्क करते हैं और समझते हैं, बल्कि अपने वातावरण के साथ सहजीवी रूप से बढ़ते हैं। यह सह-विकासशील मार्ग वादा करता है कि एआई न केवल सक्षम है, बल्कि लगातार मानव आवश्यकताओं और वास्तविक दुनिया की जटिलताओं के प्रति अधिक संवेदनशील बनता जा रहा है।

[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence

https://ar5iv.labs.arxiv.org/html/2507.20534

[2] [3] [8] [9] टिंकर - थिंकिंग मशीन लैब

https://thinkingmachines.ai/tinker/

[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] टिंकर: सामान्य उपलब्धता और दृष्टि इनपुट - थिंकिंग मशीन लैब

https://thinkingmachines.ai/blog/tinker-general-availability/

[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] 10% GPUs के साथ ट्रिलियन पैरामीटर रीजनिंग RL का निर्माण कैसे करें

https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus?trk=article-ssr-frontend-pulse_little-text-block

[17] [30] [33] मैकरॉन एआई | LinkedIn

https://www.linkedin.com/company/macaronaiofficial

[18] [19] [29] [31] [32] माइंड लैब का परिचय — मैकरॉन एआई का शोध विभाग

https://www.linkedin.com/pulse/introducing-mind-lab-macaron-ais-research-arm-macaronaiofficial-tkz2e?trk=organization_guest_main-feed-card_feed-article-content