
लेखक: बॉक्सू ली
आर्टिफिशियल इंटेलिजेंस के विकसित होते परिदृश्य में, जहां अत्यधिक पैमाने पर प्रीट्रेनिंग ने मजबूत स्थिर क्षमताएं प्रदान की हैं, अब सीमांत निर्माण के बजाय स्थिर मॉडल से शक्तिशाली एजेंटिक सिस्टम बनाने की ओर बढ़ रहा है – ऐसे एआई एजेंट जो गहराई से सोच सकते हैं, उपकरण का उपयोग कर सकते हैं, देख सकते हैं और याद कर सकते हैं, और अनुभव से निरंतर सीख सकते हैं [1].
थिंकिंग मशीन लैब का टिंकर प्लेटफॉर्म, 12 दिसंबर, 2025 को अपनी हालिया सामान्य उपलब्धता की घोषणा के साथ, ट्रिलियन-पैरामीटर मॉडल की फाइन-ट्यूनिंग और बहुआयामी विस्तार तक पहुंच को लोकतांत्रिक बनाते हुए एक महत्वपूर्ण आधारभूत छलांग का प्रतिनिधित्व करता है। इसी समय, माइंड लैब— मैकरॉन एआई का अनुसंधान विभाग— "अनुभवात्मक बुद्धिमत्ता" के लिए एक दार्शनिक और तकनीकी ढांचा प्रस्तुत करता है, जिसमें मॉडल स्थिर ज्ञान के भंडार से वास्तविक विश्व प्रतिक्रिया के माध्यम से स्वयं को सुधारने वाली गतिशील प्रक्रियाओं में बदल जाते हैं। यह संगम अनुसंधान और उत्पाद के सह-डिजाइन को सुधारने के लिए गहरे अवसर प्रदान करता है, एल्गोरिदमिक नवाचार और लागू अनुकूलन के बीच के अंतर को बंद करते हुए।
टिंकर के अपडेट्स में प्रमुख नवाचार
इस पोस्ट में, हम टिंकर के नए किमी K2 तर्क मॉडल, ओपनएआई-संगत इंटरफेस, और क्वेन3-VL दृष्टि मॉडल में गहराई से जाएंगे, फिर माइंड लैब की अनुभवात्मक बुद्धिमत्ता की फिलॉसफी, उनके ट्रिलियन-पैरामीटर रिइनफोर्समेंट लर्निंग (आरएल) में ब्रेकथ्रू, मेमोरी डिफ्यूजन अप्रोच, और अगली पीढ़ी के एआई सिस्टम के निर्माण के लिए रणनीतिक प्रभावों का पता लगाएंगे।
Tinker एक AI प्रशिक्षण मंच है जिसे शोधकर्ताओं को नवीनतम मॉडल को बिना बुनियादी ढांचे की चिंता किए फ़ाइन-ट्यून और तैनात करने के लिए डिज़ाइन किया गया है[2][3]। दिसंबर 2025 में, Tinker ने AI मॉडलों की तर्क क्षमताओं, उपकरण उपयोग और दृष्टि समझ को मजबूत करने वाले कई प्रमुख अपडेट की घोषणा की[4]:
[15] सीमित लेबल वाली उदाहरणों पर इमेज क्लासिफिकेशन कार्यों में फाइन-ट्यून किए गए Qwen3-VL-235B (विज़न-भाषा मॉडल) और DINOv2 (केवल विज़न आधारित बेसलाइन) की तुलना। Qwen3-VL विशेष रूप से कम-डेटा स्थिति (बाएँ छोर) में उच्च सटीकता प्राप्त करता है, इसके भाषा-सूचित दृश्य समझ के लिए धन्यवाद।
केवल प्रत्येक श्रेणी के लिए एक उदाहरण के साथ भी, 235B Qwen3-VL मॉडल ने उचित सटीकता प्राप्त की, इस अत्यंत कम-डेटा स्थिति में DINOv2 को महत्वपूर्ण रूप से पिछाड़ दिया[15]। जैसे-जैसे उदाहरणों की संख्या बढ़ी, दोनों मॉडलों में सुधार हुआ, लेकिन Qwen3-VL ने बढ़त बनाए रखी, मजबूत कुछ-शॉट सामान्यीकरण का प्रदर्शन किया[16]। इस लाभ का कारण मॉडल की अंतर्निहित भाषा और विश्व ज्ञान है – उदाहरण के लिए, Qwen3-VL पहले से ही जानता है कि 'सनफ्लावर' या 'गोल्डन रिट्रीवर' कैसा दिखता है या उसे कैसे वर्णित किया जाता है, इसके मल्टीमॉडल प्रीट्रेनिंग के कारण[16]। इसका मतलब है कि यह नए उदाहरणों के साथ नए चित्रों को पहचान या वर्गीकृत कर सकता है। व्यावहारिक रूप से, टिंकर के उपयोगकर्ता बहुत छोटे डेटासेट्स के साथ विज़न कार्यों पर उच्च सटीकता प्राप्त कर सकते हैं, इन बड़े विज़न-भाषा मॉडलों का लाभ उठाकर। यह डेटा-कुशल दृष्टि क्षमता वास्तविक दुनिया के परिदृश्यों के लिए महत्वपूर्ण है जहाँ लेबल वाले डेटा की कमी होती है। यह उपकरण-संवर्धित तर्क की शक्ति की ओर भी संकेत करता है: एक मॉडल जो 'देखता है' वह दृश्य संकेतों और भाषाई संदर्भ दोनों का लाभ उठा सकता है, इसे एक अधिक बहुमुखी एजेंट बनाता है (उदाहरण के लिए, एक आरेख पढ़ना और समझाना, या एक छवि का उपयोग तर्क श्रृंखला के भाग के रूप में)। कुल मिलाकर, टिंकर में Qwen3-VL का जोड़ मंच की पहुंच को शुद्ध पाठ से दृश्य क्षेत्र तक बढ़ाता है, एकीकृत प्रशिक्षण API के तहत मल्टी-मॉडल तर्क वर्कफ़्लो को सक्षम करता है।
शोध के क्षेत्र में, माइंड लैब – जो मैकरॉन AI से संबद्ध एक नई फ्रंटियर रिसर्च लैब है – AI एजेंट्स को वास्तव में अनुकूलनीय और अनुभवात्मक बनाने की चुनौती का सामना कर रही है। माइंड लैब का मूलमंत्र है कि “वास्तविक बुद्धिमत्ता वास्तविक अनुभव से आती है, केवल बड़े प्री-ट्रेनिंग से नहीं”[17]। दूसरे शब्दों में, केवल स्थिर डेटा सेट पर मॉडल्स का स्केलिंग पर्याप्त नहीं है; AI में अगली छलांग उन प्रणालियों से आएगी जो इंटरैक्शन से लगातार सीखती हैं, जैसे मानव अनुभव जुटाते हैं। माइंड लैब इस दृष्टिकोण को अनुभवात्मक बुद्धिमत्ता के रूप में प्रस्तुत करता है – स्थिर “मस्तिष्क” से अनुकूलनीय “मन” की ओर बढ़ना, जो आंतरिक विश्व मॉडल बना सकते हैं, फीडबैक के माध्यम से अपने ज्ञान को अपडेट कर सकते हैं, स्पष्ट लक्ष्य या मूल्य रख सकते हैं, और यहां तक कि अपने कार्यों पर विचार कर सकते हैं[18]। यह वर्तमान LLMs की सीमाओं का प्रत्यक्ष उत्तर है, जो अक्सर शक्तिशाली लेकिन प्री-ट्रेनिंग के बाद स्थिर होते हैं[18]। वास्तविक अनुकूलन के लिए तंत्रों को पेश करके – जैसे कि निरंतर सुदृढीकरण शिक्षण और गतिशील स्मृति – माइंड लैब उपयोग के साथ विकसित होते एजेंट्स बनाने का लक्ष्य रखता है।
माइंड लैब के कार्य के दो मुख्य स्तंभ हैं: (1) बड़े मॉडलों का कुशल RL फाइन-ट्यूनिंग नए व्यवहारों को स्थापित करने के लिए, और (2) उन्नत मेमोरी सिस्टम जो एजेंट्स को दीर्घकालिक ज्ञान बनाए रखने और उपयोग करने की अनुमति देते हैं। दोनों का उद्देश्य AI को अधिक एजेंटिक (स्वायत्त निर्णय और सुधार करना) बनाना है और शोध प्रगति को उत्पाद तैनाती के साथ मजबूती से जोड़ना है।
माइंड लैब की प्रमुख उपलब्धियों में से एक है ट्रिलियन-पैरामीटर स्केल पर रिइंफोर्समेंट लर्निंग का प्रदर्शन करना - और इसे व्यावहारिक, लागत-प्रभावी तरीके से करना। दिसंबर 2025 में उन्होंने 1.04T-पैरामीटर Kimi K2 रीजनिंग मॉडल पर पहला एंड-टू-एंड RL पाइपलाइन की घोषणा की, जो सामान्य रूप से आवश्यक GPU संसाधनों के केवल ~10% के साथ प्राप्त किया गया[19]। यह कैसे संभव था? टीम ने एक विशेष प्रशिक्षण इंजन बनाया जो मॉडल की मिश्रण-ऑफ-एक्सपर्ट्स संरचना के पार पैरामीटर-प्रभावी फाइनट्यूनिंग (LoRA) के साथ हाइब्रिड पैरेललिज्म को संयोजित करता है[20][21]।
सभी ट्रिलियन वेट्स को ट्यून करने के बजाय, माइंड लैब का दृष्टिकोण Kimi K2 की चुनी हुई परतों में लो-रैंक अनुकूलन मैट्रिसेस डालता है (घनी बैकबोन और विशेषज्ञ परतों दोनों में) और केवल उन्हीं को RL[22] के दौरान अपडेट करता है। इससे ट्रेन करने योग्य पैरामीटर्स की संख्या को काफी हद तक घटा दिया जाता है (उदाहरण के लिए, पूर्ण मैट्रिसेस की बजाय कुछ दर्जनों या सैकड़ों प्रति लेयर का LoRA रैंक) और इस प्रकार मेमोरी और कंप्यूट उपयोग को एक क्रम में घटा देता है। साथ ही, इस आकार के मॉडल को ट्रेन करने के लिए कई GPUs के बीच काम को कुशलतापूर्वक वितरित करना आवश्यक है। टीम ने एक हाइब्रिड-पैरेलल रणनीति अपनाई: टेंसर पैरेललिज़्म, पाइपलाइन पैरेललिज़्म, विशेषज्ञ पैरेललिज़्म (MoE विशेषज्ञों के लिए), और अनुक्रम पैरेललिज़्म (लंबे अनुक्रम प्रशिक्षण के लिए) का समन्वित उपयोग, सभी को शार्डेड LoRA अपडेट्स[23] के साथ संगत बनाया गया। व्यावहारिक रूप से, इसका मतलब था मौजूदा बड़े-मॉडल प्रशिक्षण फ्रेमवर्क (NVIDIA का Megatron और ByteDance का VolcEngine RL) का लाभ उठाना, उन्हें MoE पर LoRA को संभालने के लिए बढ़ाना, और एक क्लस्टर में 64 GPUs के बीच गणना को सावधानीपूर्वक संतुलित करना[24]। परिणाम था स्थिर ऑन-पॉलिसी RL प्रशिक्षण (PPO-शैली के एल्गोरिदम के समान) पूर्ण Kimi K2 मॉडल पर, जिसमें रिवार्ड मॉडल तर्क की गुणवत्ता पर प्रतिक्रिया प्रदान करता है[22] – कुछ ऐसा जो ज्यादातर टीमों के लिए लागत के कारण पहले असंभव माना जाता था।
समान रूप से महत्वपूर्ण, यह काम किया: LoRA-फाइनट्यून Kimi K2 ने लंबे समय तक तर्क कार्यों पर महत्वपूर्ण सुधार प्राप्त किए, जिसमें सुगम सीखने की वक्र और कोई विचलन नहीं हुआ[25]। महत्वपूर्ण यह है कि अनुकूलित मॉडल ने आधार मॉडल के सामान्य कौशल को बनाए रखा (केवल न्यूनतम, केंद्रित वजन परिवर्तनों के लिए धन्यवाद) जबकि नए कार्य-विशिष्ट व्यवहार प्राप्त किए[26]। इसका मतलब है कि आधार मॉडल का विशाल पूर्व ज्ञान अधिलेखित नहीं किया गया, केवल संवर्धित किया गया - LoRA फाइनट्यूनिंग का एक प्रमुख लाभ। वास्तव में, Mind Lab के प्रयोगों ने पुष्टि की कि बड़े मॉडल RL के लिए एक मजबूत नींव प्रदान करते हैं। एक निश्चित प्रशिक्षण बजट के तहत, एक बड़ा मॉडल प्लस छोटे LoRA एडाप्टर्स ने पूर्ण ट्यूनिंग के साथ प्रशिक्षित छोटे मॉडल को मात दी, दोनों ही इन-डोमेन कार्यों पर और नए कार्यों में स्थानांतरित करते समय[27]। जैसा कि टीम कहती है, RL “पूर्व-सीमित” है - यदि आधार मॉडल शुरुआत में उच्च-गुणवत्ता वाले प्रक्षेप पथ उत्पन्न नहीं कर सकता, तो RL को बढ़ाने के लिए थोड़ा संकेत होता है[27]। Kimi K2 जैसे एक शक्तिशाली पूर्वप्रशिक्षित पूर्व RL को व्यवहार का एक समृद्ध सेट देता है जिसे संवर्धित किया जा सकता है, जबकि एक छोटे मॉडल को खरोंच से प्रशिक्षित करना उन व्यवहारों का फिर से निर्माण करना होता है। इस अंतर्दृष्टि ने पारंपरिक ज्ञान को उलट दिया: यह एक बड़े मॉडल पर RL करना अधिक गणना-कुशल हो सकता है (एक मजबूत पूर्व और LoRA दक्षता के साथ) बजाय एक छोटे मॉडल पर RL करने के, भले ही छोटे मॉडल प्रति चरण सस्ता हो[28]। Mind Lab का योगदान यहां सिर्फ एक एल्गोरिदम नहीं है, बल्कि एक अवसंरचना रणनीति है - सबसे बड़े मॉडलों पर सतत सीखने को संभव बनाने के लिए एक खाका। उन्होंने अपने तरीकों को ओपन-सोर्स परियोजनाओं (Megatron-Bridge, VERL) में ऊपर उठाया है[29], ताकि समुदाय इस कार्य को पुन: उत्पन्न और निर्माण कर सके, संभावित रूप से कई समूहों को मध्यम हार्डवेयर बजट पर ट्रिलियन-पैरामीटर एजेंटों को फाइन-ट्यून करने में सक्षम बना सके।

एक और सीमा जिसे माइंड लैब खोज रहा है वह यह है कि एक AI एजेंट अपनी इंटरैक्शन की दीर्घकालिक स्मृतियों को कैसे संभाल सकता है। कई वर्तमान प्रणालियाँ पिछले वार्तालाप के अंशों को पुनः प्राप्त करने के लिए एक वेक्टर डेटाबेस जोड़ती हैं या इतिहास को संक्षेपित करने के लिए सारांश तकनीकों का उपयोग करती हैं। माइंड लैब एक अधिक एकीकृत, “मॉडल-नेटीव” मेमोरी प्रणाली का प्रस्ताव करता है जिसे मेमोरी डिफ्यूजन कहा जाता है[30]। विचार यह है कि एजेंट के संवाद या प्रक्षेपवक्र के पूरे अनुक्रम को मॉडल के संदर्भ के भीतर संपादन योग्य स्मृति के रूप में व्यवहार किया जाए, बजाय इसके कि बाहर संग्रहीत किया जाए। मेमोरी डिफ्यूजन मास्क–आवंटन–रीफिल लूप[30] के माध्यम से संदर्भ की एक स्थिर-आकार की विंडो को बार-बार बनाए रखकर काम करता है। प्रत्येक चरण में, मॉडल यह तय करता है कि किन टोकनों (पिछले वार्तालाप के हिस्से) को रखना है (मास्क) और किन्हें छोड़ना है, फिर खाली जगह को नए आने वाले सामग्री से भरता है – यह सब संदर्भ लंबाई के लिए एक सख्त टोकन बजट का सम्मान करते हुए[30]। मूल रूप से, मॉडल अपने स्वयं के संदर्भ को प्रबंधित करना सीख रहा है, कम प्रासंगिक विवरणों को संक्षेपित या भूलते हुए और जैसे-जैसे इंटरैक्शन बढ़ता है, महत्वपूर्ण तथ्यों को बनाए रखते हुए। यह बुद्धिमान भूल के समान है, जहाँ लक्ष्य सब कुछ अनिश्चितकाल के लिए याद रखना नहीं है (जो संदर्भ लंबाई सीमाओं को देखते हुए संभव नहीं है), बल्कि वास्तविक बाधाओं के तहत उपयोगी रूप से याद रखना है[30]।
टोकन सीक्वेंस स्तर पर काम करके, मेमोरी डिफ्यूजन को बाहरी एम्बेडिंग्स या समानता खोज की आवश्यकता नहीं होती; "मेमोरी" मॉडल के कार्य करने वाले संदर्भ के समान प्रतिनिधिकारी स्थान में रहती है। माइंड लैब की रिपोर्ट है कि यह दृष्टिकोण लंबी-अवधि की स्मृति प्रदर्शन में अत्याधुनिक है, मतलब एजेंट लंबी बातचीत या कार्य कर सकता है बिना महत्वपूर्ण जानकारी खोए, सभी सीखे हुए इन-मॉडल तंत्रों के माध्यम से [31]। यह संदर्भ आकार के सापेक्ष स्थिर समय में भी चलता है - जब इतिहास बढ़ता है तब पुनः प्राप्ति लागत में कोई वृद्धि नहीं होती, क्योंकि संदर्भ की लंबाई मास्क/रीफिल ऑपरेशनों के माध्यम से निश्चित और प्रबंधित होती है [31]। व्यावहारिक रूप से, मेमोरी डिफ्यूजन के साथ एक एजेंट हजारों टर्न की बातचीत में संलग्न हो सकता है, और जबकि यह हर विवरण को स्पष्ट रूप से याद नहीं रख सकता, यह लगातार निर्णय करेगा कि क्या ध्यान में रखना है। महत्वपूर्ण उपयोगकर्ता प्राथमिकताएं या अनसुलझे प्रश्न बने रहेंगे, जबकि पहले की तुच्छ बातचीत हटाई जा सकती है। यह दृष्टिकोण स्मृति को मॉडल की अनुभूति के प्रथम श्रेणी के घटक के रूप में मानता है, माइंड लैब के दृष्टिकोण के साथ संरेखित है कि स्मृति प्रणाली का सक्रिय, सीखने वाला हिस्सा होना चाहिए, न कि एक निष्क्रिय डेटा स्टोर [30]।
हमारे तकनीकी ब्लॉग पर और पढ़ें
Tinker के बुनियादी ढांचे की सुविधाएं और Mind Lab की एल्गोरिदम दक्षताएं एक प्राकृतिक सहजीवन बनाती हैं। Tinker Kimi K2 और Qwen3-VL पर Mind Lab की हाइब्रिड LoRA RL के सीधे अनुप्रयोग को सक्षम बनाता है, जिससे मल्टीमॉडल एजेंटिक चक्रों की सुविधा होती है।
अनुसंधान-उत्पाद सह-डिज़ाइन में—Mind Lab का मुख्य सिद्धांत—यह इस प्रकार प्रकट होता है:
रणनीतिक रूप से, यह प्रतिमान पुनरावृत्ति को तेज करता है: उत्पाद प्रायोगिक परीक्षण स्थल बन जाते हैं, जो उच्च निष्ठा डेटा उत्पन्न करते हैं जो अनुसंधान परिकल्पनाओं को परिष्कृत करता है। उदाहरण के लिए, Tinker से प्राप्त कुछ-शॉट दृष्टि वर्गीकरण तैनात दृश्य एजेंटों में RL उद्देश्यों को बीजित कर सकता है, प्रगतिशील रूप से धारणा नीतियों को उपयोगकर्ता प्राथमिकताओं के साथ संरेखित कर सकता है।
परंपरागत रूप से, एआई अनुसंधान एक मॉडल या एल्गोरिदम तैयार करता था, और फिर एक उत्पाद टीम अलग से यह पता लगाती थी कि इसे कैसे तैनात किया जाए, जिसमें दोनों के बीच अपेक्षाकृत धीमी पुनरावृत्ति होती थी। इसके बजाय, माइड लैब अनुसंधान-उत्पाद सह-डिज़ाइन के दर्शन पर काम करता है: हर नई तकनीक को एक लाइव एजेंट सेटिंग में जल्दी से परखा जाता है, और वास्तविक उपयोगकर्ता इंटरैक्शन डेटा को अनुसंधान को परिष्कृत करने के लिए उत्पन्न करते हैं[32]।
"अनुसंधान और उत्पाद अब अलग-अलग ट्रैक नहीं हैं। वे एक बंद फीडबैक लूप हैं: उपयोगकर्ता अनुभव → डेटा → आरएल प्रशिक्षण → तैनाती → बेहतर UX → समृद्ध डेटा → दोहराएं।"[33]। व्यवहार में, इसका मतलब है कि जब माइड लैब अपने आरएल एल्गोरिदम या मेमोरी सिस्टम में सुधार करता है, तो वे इसे एक वास्तविक उपयोगकर्ता-उन्मुख एजेंट (उदाहरण के लिए, मैकरॉन के व्यक्तिगत एआई सहायक) में एकीकृत करते हैं और देखते हैं कि यह वास्तविक उपयोगकर्ताओं के साथ कैसा प्रदर्शन करता है। उपयोग डेटा - उपयोगकर्ता कौन से प्रश्न पूछते हैं, एजेंट कहां विफल या सफल होता है, स्पष्ट फीडबैक - फिर अगले मॉडल अपडेट के लिए प्रशिक्षण संकेत के रूप में वापस फीड किया जाता है (सुपरवाइज्ड फाइन-ट्यूनिंग या सुदृढीकरण सीखने के माध्यम से)। यह तंग लूप सीखने को बहुत तेजी से बढ़ाता है: उत्पाद ही प्रयोग है।
एक निहितार्थ है स्ट्रीमिंग रिवॉर्ड मॉडल्स और ऑनलाइन आरएलएचएफ (मानव प्रतिक्रिया से सुदृढीकरण लर्निंग) का उपयोग। मानव प्राथमिकता तुलना के एक स्थिर डेटा सेट को एकत्र करने और एक बार रिवॉर्ड मॉडल को प्रशिक्षित करने के बजाय, माइंड लैब का ढांचा नए फीडबैक के आने पर रिवॉर्ड मॉडल को निरंतर अपडेट करने की कल्पना करता है। उदाहरण के लिए, यदि कोई एजेंट उपयोगकर्ताओं के लिए कार्य हल कर रहा है और कभी-कभी उसे थंब्स-डाउन या सुधार मिलता है, तो उन संकेतों को रिवॉर्ड मॉडल में स्ट्रीम किया जा सकता है ताकि "अच्छे" व्यवहार की धारणा को तुरंत सुधार सके। अगली बार जब आरएल चलाया जाता है (जो एक निर्धारित ताल पर या यहां तक कि असिंक्रोनस रूप में हो सकता है), तो अपडेटेड रिवॉर्ड मॉडल नीति को उपयोगकर्ता की प्राथमिकताओं के साथ बेहतर संरेखित करने के लिए मार्गदर्शन करता है। यह स्ट्रीमिंग आरएल पैरेडाइम तैनाती को प्रशिक्षण के विस्तार में बदल देता है – जितना अधिक एजेंट वास्तविक दुनिया में चलता है, उतना अधिक अनुभव वह एकत्र करता है, और उतना ही बेहतर बनता है। टिंकर द्वारा प्रदान किया गया ओपनएआई-संगत इंटरफ़ेस वास्तव में इस रणनीति को पूरक करता है: यह इन लगातार सीखे गए मॉडलों को मौजूदा उत्पादों और उपकरणों में आसानी से प्लग करने की अनुमति देता है, जिसका मतलब है कि एक अनुसंधान लैब नए मॉडल संस्करणों को तेजी से उत्पाद में धकेल सकती है और परिणामों का अवलोकन कर सकती है, बिना हर बार एकीकरण को पुनर्निर्मित करने की आवश्यकता के।
टिंकर की ओर से, प्लेटफ़ॉर्म की मॉडल के मध्य-प्रशिक्षण से नमूना लेने की क्षमता[10] इस तरह के पुनरावृत्त लूप्स को सक्षम बनाकर मध्यवर्ती मूल्यांकन और सूक्ष्म-स्तरीय ट्यूनिंग निर्णयों को सुविधाजनक बना सकती है। माइंड लैब की ओर से, सह-डिज़ाइन लूप यह सुनिश्चित करता है कि उनके नवाचार (जैसे ट्रिलियन-स्केल आरएल या मेमोरी डिफ्यूज़न) वास्तविक उपयोग मामलों में तनाव-परीक्षण किए जाते हैं। यह दृष्टिकोण व्यावहारिक चुनौतियों को जल्दी सतह पर लाता है (जैसे, विलंबता को कैसे संभालें या अप्रत्याशित उपयोगकर्ता इनपुट्स) और अत्याधुनिक अनुसंधान और उपयोगकर्ता-उन्मुख एआई उत्पादों के बीच की खाई को पाटता है। रणनीतिक लाभ यह है कि सुधार वास्तविक दुनिया की आवश्यकताओं द्वारा संचालित होते हैं और सीधे वास्तविक दुनिया के उपयोग के खिलाफ मान्य होते हैं। जैसा कि माइंड लैब नोट करता है, वास्तविक प्रगति “उपयोगकर्ता-उत्पाद इंटरैक्शन से निरंतर सीखने”[33] से आती है, और एक एजेंट जो स्थिति में अनुकूलित कर सकता है, अंततः एक बेहतर उपयोगकर्ता अनुभव प्रदान करेगा जो एक जगह पर तैनात होने पर स्थिर होता है।
टिंकर और माइंड लैब से हुई प्रगति को एक साथ लेते हुए, यह दिखाता है कि हम एआई सिस्टम कैसे बनाते हैं में एक गहरी बदलाव है – स्थैतिक मॉडल से अनुकूलनशील एजेंट जो अपने वातावरण के साथ सह-डिज़ाइन किए गए हैं। कई प्रमुख निहितार्थ उभरते हैं:
जैसे-जैसे स्थिर स्केलिंग कानून पठार पर पहुंचते हैं, टिंकर के सुलभ ट्रिलियन-स्तरीय अनुकूलन और माइंड लैब के कुशल अनुभवात्मक आरएल द्वारा प्रदर्शित संश्लेषण एक परिवर्तनकारी युग की शुरुआत करता है। उत्पाद चक्र में अनुकूलन को एकीकृत करके, हम नाजुक दिमागों से परे जाकर लचीले मन की ओर बढ़ते हैं - ऐसे सिस्टम जो न केवल सीमांत स्तरों पर तर्क करते हैं और समझते हैं, बल्कि अपने वातावरण के साथ सहजीवी रूप से बढ़ते हैं। यह सह-विकासशील मार्ग वादा करता है कि एआई न केवल सक्षम है, बल्कि लगातार मानव आवश्यकताओं और वास्तविक दुनिया की जटिलताओं के प्रति अधिक संवेदनशील बनता जा रहा है।
[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence
https://ar5iv.labs.arxiv.org/html/2507.20534
[2] [3] [8] [9] टिंकर - थिंकिंग मशीन लैब
https://thinkingmachines.ai/tinker/
[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] टिंकर: सामान्य उपलब्धता और दृष्टि इनपुट - थिंकिंग मशीन लैब
https://thinkingmachines.ai/blog/tinker-general-availability/
[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] 10% GPUs के साथ ट्रिलियन पैरामीटर रीजनिंग RL का निर्माण कैसे करें
[17] [30] [33] मैकरॉन एआई | LinkedIn
https://www.linkedin.com/company/macaronaiofficial
[18] [19] [29] [31] [32] माइंड लैब का परिचय — मैकरॉन एआई का शोध विभाग