स्केलिंग से अनुभवजन्य बुद्धिमत्ता तक: इलिया सुत्सकेवर की दृष्टि और मैकरॉन का दृष्टिकोण

लेखक: बॉक्सू ली

“स्केलिंग” युग का अंत और शोध की ओर वापसी

हाल ही में द्वारकेश पटेल के साथ बातचीत में, इलिया सुत्सकेवर - ओपनएआई के सह-संस्थापक और अब स्टार्टअप सेफ सुपरइंटेलिजेंस (SSI) के प्रमुख - ने एआई की स्थिति और उसके भविष्य के बारे में विचार व्यक्त किए। सुत्सकेवर का तर्क है कि एआई उद्योग "बस इसे बड़ा बनाओ" के युग से आगे बढ़कर मौलिक अनुसंधान के युग में वापस जा रहा है[1]। लगभग 2012–2020 के दौरान, डीप लर्निंग की प्रगति नए विचारों ("अनुसंधान का युग") द्वारा संचालित थी, उसके बाद 2020–2025 में डेटा और पैरामीटर को स्केल करने पर ध्यान केंद्रित किया गया ("स्केलिंग का युग")[1]। लेकिन अब, केवल मॉडल के आकार या डेटा सेट के आकार को बढ़ाने से कम लाभ मिल रहा है। जैसा कि सुत्सकेवर स्पष्ट रूप से कहते हैं, "यदि आप केवल 100× स्केल करते हैं, [नहीं] सब कुछ बदल जाएगा… यह फिर से अनुसंधान के युग में वापस है, बस बड़े कंप्यूटरों के साथ।"[2][3] दूसरे शब्दों में, भविष्य के नवाचार केवल बड़े पैमाने पर नहीं, बल्कि नए प्रशिक्षण रेसिपी और स्मार्ट एल्गोरिदम से आएंगे।

इस बदलाव के पीछे प्रेरणा देने वाली एक मुख्य समस्या है जिसे सुत्सकेवर सामान्यीकरण अंतर कहते हैं। आज के बड़े मॉडल बेंचमार्क पर उत्कृष्ट प्रदर्शन कर सकते हैं, फिर भी व्यावहारिक कार्यों में अटक सकते हैं - एक विरोधाभास जो दिन-ब-दिन स्पष्ट होता जा रहा है। “ये मॉडल किसी तरह से लोगों की तुलना में बहुत खराब सामान्यीकरण करते हैं। यह बहुत स्पष्ट है। यह एक बहुत ही मौलिक चीज़ लगती है,” सुत्सकेवर टिप्पणी करते हैं। मॉडल जो कोडिंग प्रतियोगिताओं या भाषा परीक्षाओं में शीर्ष अंक प्राप्त करते हैं, वे अब भी अजीब गलतियाँ कर सकते हैं – बार-बार एक ही बग को ठीक करना, या सरल सामान्य ज्ञान निर्णयों में असफल होना – जो कोई सक्षम व्यक्ति नहीं करेगा। यह एक नाजुकता को उजागर करता है: तंत्रिका नेटवर्क वास्तव में समझते या मनुष्यों की तरह मजबूत रूप से अनुकूलित नहीं होते हैं, भले ही उनके संकीर्ण कौशल प्रभावशाली हों। सुत्सकेवर के टॉक के एक सारांश में बताया गया है कि हमने मॉडल बनाए हैं जो मूल्यांकन में अच्छा प्रदर्शन करते हैं, फिर भी उनकी वास्तविक दुनिया की विश्वसनीयता “मूल्यांकन में उच्च प्रदर्शन के विपरीत वास्तविक दुनिया की त्रुटियों से प्रमाणित एक नाजुकता है।”

वर्तमान मॉडलों में सामान्यीकरण की कमी क्यों है? सुत्सकेवर का सुझाव है कि यह आंशिक रूप से हमारे प्रशिक्षण प्रतिमान का एक परिणाम है। बड़े पैमाने पर पूर्व-प्रशिक्षण के युग में, हमने बस मॉडल को सब कुछ (इंटरनेट-स्तरीय पाठ) दिया और उम्मीद की कि डेटा की व्यापकता से व्यापक क्षमताएँ प्राप्त होंगी। यह हुआ - एक सीमा तक। लेकिन पूर्व-प्रशिक्षण के बाद, कंपनियाँ मॉडल को विशिष्ट बेंचमार्क या उपयोगकर्ता निर्देशों पर सुदृढ़ीकरण शिक्षण (आरएल) के साथ ठीक करती हैं। सुत्सकेवर को संदेह है कि यह आरएल चरण अक्सर मॉडलों को परीक्षणों पर अच्छा प्रदर्शन करने के लिए ओवरस्पेशलाइज़ कर देता है, बजाय इसके कि वे अपने समझ को वास्तव में सुधारें। अपनी बातचीत में, वह एक जीवंत उपमा देते हैं: एक "छात्र" (एआई मॉडल के समान) 10,000 घंटे प्रतिस्पर्धी प्रोग्रामिंग समस्याओं का अभ्यास करता है और कोडिंग प्रतियोगिताओं में एक विशेषज्ञ बन जाता है, जबकि दूसरा छात्र अधिक संयम से अभ्यास करता है और व्यापक कंप्यूटर विज्ञान अंतर्ज्ञान पर ध्यान केंद्रित करता है। पहला प्रतियोगिताएं जीत सकता है लेकिन दूसरा वास्तविक दुनिया में एक अधिक बहुमुखी इंजीनियर बन जाता है। आज के मॉडल ओवर-प्रेप्ड विशेषज्ञ की तरह हैं - वे उन संकीर्ण परिस्थितियों में उत्कृष्टता प्राप्त करते हैं जिनके लिए उन्हें ट्यून किया गया था, लेकिन उनके पास वह "इट फैक्टर" नहीं है जो मनुष्यों के पास नई, जटिल समस्याओं के लिए कौशल को अनुकूलित करने के लिए होता है। संक्षेप में, हमारे एआई ने अभी तक वह मजबूत, तरल सामान्यीकरण प्राप्त नहीं किया है जो हम मनुष्य अपने जीवन के अनुभवों के माध्यम से प्राप्त करते हैं।

मनुष्य बेहतर क्यों सीखते हैं: नमूना दक्षता और निरंतर सीखना

सुत्सकेवर की चर्चा में एक प्रमुख विषय मानव सीखने की नमूना कुशलता है। मनुष्यों को जटिल कार्यों को सीखने के लिए आश्चर्यजनक रूप से बहुत कम डेटा की आवश्यकता होती है। उदाहरण के लिए, यान लेकुन ने बताया है कि एक किशोर शायद केवल 10 घंटे के अभ्यास से कार चलाना सीख सकता है – एआई मानकों के अनुसार यह एक बेहद छोटा डेटासेट है[12]। छोटे बच्चे सिर्फ दैनिक जीवन में एक्सपोजर से कारों (और हजारों अन्य अवधारणाओं) को पहचानना सीखते हैं[12]। इसके विपरीत, वर्तमान एआई मॉडल अक्सर विशाल प्रशिक्षण सेटों की आवश्यकता होती है और फिर भी वे मानव लचीलेपन के साथ मेल नहीं खा सकते। सुत्सकेवर बताते हैं कि विकास ने हमें कुछ उपयोगी प्रेरणात्मक पूर्वाग्रहों के साथ प्रीलोड किया है – जैसे कि लाखों वर्षों की दृष्टि और गमन ने हमारे दिमाग को आकार दिया – लेकिन यही पूरी कहानी नहीं है[13][12]। यहां तक कि उन क्षेत्रों में भी जो विकास द्वारा नहीं सुधारे गए हैं (जैसे पढ़ाई, गणित या प्रोग्रामिंग), मनुष्य आज के एल्गोरिदम से तेजी से सीखते हैं[14][15]। यह सुझाव देता है कि “जो कुछ भी हमें सीखने में अच्छा बनाता है” सिर्फ अंतर्निहित ज्ञान से परे है – हमारे पास मौलिक रूप से अधिक कुशल सीखने का एल्गोरिदम है[14][15]

वह एल्गोरिदम क्या हो सकता है? एक सुराग, सुत्सकेवर तर्क करते हैं, कि मनुष्य लगातार और इंटरैक्टिव तरीके से सीखते हैं, न कि एक विशाल बैच में। हम टेराबाइट्स के टेक्स्ट को नहीं निगलते और फिर अपने दिमाग को स्थिर नहीं करते हैं; इसके बजाय, हम निरंतर अनुभव से सीखते हैं, लगातार अपने ज्ञान को अपडेट करते रहते हैं। वह बताते हैं कि 15 वर्ष की आयु में एक मनुष्य के पास एक बड़े भाषा मॉडल के कॉर्पस की तुलना में काफी कम कुल डेटा इंटेक होता है, फिर भी 15 वर्ष की आयु तक हम गहन समझ प्राप्त करते हैं और बहुत कम स्पष्ट गलतियाँ करते हैं[16][17]। अंतर यह है कि मनुष्य जीवनभर सीखना जारी रखते हैं – हम अपने "प्रशिक्षण चरण" को किशोरावस्था में समाप्त नहीं मानते। "एक मनुष्य एजीआई नहीं है... इसके बजाय, हम निरंतर सीखने पर निर्भर करते हैं," सुत्सकेवर कहते हैं, यह उजागर करते हुए कि यहां तक कि एक सुपरइंटेलिजेंट एआई को भी एक 15-वर्षीय प्रतिभा के रूप में तैनात करने की आवश्यकता हो सकती है, न कि एक सर्वज्ञानी भविष्यवक्ता के रूप में[18][19]। ऐसा एआई एक मजबूत नींव के साथ होगा लेकिन "शुरू में बहुत सारा ज्ञान नहीं होता" – यह विभिन्न भूमिकाओं में काम के दौरान सीखता होगा, जैसे एक होशियार युवा व्यक्ति डॉक्टर या इंजीनियर के रूप में दुनिया में प्रशिक्षण लेने जाता है[19][20]। वास्तव में, सुत्सकेवर की सुरक्षित सुपरइंटेलिजेंस की दृष्टि स्पष्ट रूप से स्थिर मॉडल नहीं है जो "हर काम करना जानता है," बल्कि एक प्रणाली है जो "हर एक काम करना सीख सकती है" और लगातार बेहतर होती जाती है[20][21]। दूसरे शब्दों में, वास्तविक एआई सफलता का मतलब हो सकता है सीखने के मास्टर बनाना, न कि किसी निश्चित कार्य के मास्टर।

मानव सीखने का एक और पहलू हमारे अंतर्निहित प्रतिक्रिया तंत्र हैं। मनुष्यों की भावनाएँ और अंतर्दृष्टि होती हैं जो एक आंतरिक इनाम संकेत की तरह कार्य करती हैं, जो हमें नए कौशल सीखने के दौरान मार्गदर्शन करती हैं। सुत्सकेवर एक आश्चर्यजनक मामला बताते हैं: एक व्यक्ति जिसने भावनाएँ महसूस करने की क्षमता खो दी (मस्तिष्क क्षति के कारण) निर्णय लेने में काफी खराब हो गया, यहाँ तक कि कौन से मोजे पहनने हैं यह चुनने में भी संघर्ष करता था[22][23]। भावनात्मक संकेतों के बिना, उसे क्या महत्वपूर्ण है इसका कोई आंतरिक ज्ञान नहीं था। इसका सुझाव है कि हमारे मस्तिष्क एक प्रकार के मूल्य फ़ंक्शन का उपयोग करते हैं – यह अनुमान लगाने के लिए कि चीजें कितनी अच्छी चल रही हैं – प्रभावी ढंग से सीखने और निर्णय लेने के लिए[24][25]। पुनर्बलन सीखने के संदर्भ में, हम अनुभव के अंत तक इनाम की प्रतीक्षा नहीं करते; हम मध्यम चरणों पर आंतरिक पुरस्कार उत्पन्न करते हैं (सुख, निराशा, जिज्ञासा, आदि), जो सीखने को बहुत तेजी से बढ़ाता है। सुत्सकेवर का तर्क है कि आज के RL एल्गोरिदम में यह समृद्धता नहीं है – वे अक्सर अंतिम स्कोर की प्रतीक्षा करते हैं और इसलिए लंबी-समय की कार्यों में अत्यधिक अप्रभावी होते हैं[26][27]“यदि आप कुछ ऐसा कर रहे हैं जो लंबे समय तक चलता है... यह तब तक कोई सीख नहीं करेगा जब तक [अंत],” वह सरल RL के बारे में बताते हैं[28]। समाधान यह है कि AI एजेंटों को प्रगति की बेहतर समझ देना – लंबे फ़ीडबैक विलंब को शॉर्ट-सर्किट करने के लिए एक मूल्य फ़ंक्शन[29][30]। ऐसी आंतरिक प्रतिक्रिया को शामिल करना प्रशिक्षण को और अधिक कुशल बना सकता है। सुत्सकेवर इसे मनुष्यों के लिए भावनाओं के कार्य की तरह बताते हैं[31], इसे ब्रूट-फोर्स परीक्षण और त्रुटि से अधिक उत्पादक रूप से "अपनी गणना का उपयोग करने" की एक आशाजनक दिशा कहते हैं[30]। संक्षेप में, निरंतर सीखने और अधिक समृद्ध स्व-पर्यवेक्षण (मूल्य संकेतों) का संयोजन सामान्यीकरण अंतराल को बंद करने की कुंजी हो सकता है।

मुख्य अंतर्दृष्टि: वर्तमान एआई मॉडल्स को मनुष्यों की तुलना में कहीं अधिक डेटा की आवश्यकता होती है और फिर भी वे उतने अनुकूलनशील नहीं होते। मनुष्य कुशलता से सीखते हैं, अनुभव को लगातार इकट्ठा करके और आंतरिक फीडबैक (हमारा 'भावनात्मक' मूल्य फ़ंक्शन) का उपयोग करके सीखने का मार्गदर्शन करते हैं। एआई का निर्माण जो इसी तरह इंटरैक्टिव, क्रमिक तरीके से सीखता है - और जो अपनी प्रगति का आकलन कर सकता है - सामान्यीकरण को नाटकीय रूप से सुधार सकता है[32][4]

पूर्व-प्रशिक्षण से परे: अनुभवजन्य बुद्धिमत्ता की ओर

ये अंतर्दृष्टियाँ Macaron AI में हमारी दर्शन के साथ गहराई से मेल खाती हैं। हम इसे अक्सर एक पंक्ति में संक्षेप करते हैं: वास्तविक बुद्धिमत्ता वास्तविक अनुभव से सीखती है। केवल बड़े मॉडल या बड़े ऑफलाइन डेटासेट पर दांव लगाने के बजाय, Macaron का शोध अनुभवात्मक सीखने पर केंद्रित है – सक्रिय इंटरैक्शन, फीडबैक और लंबी अवधि की स्मृति के माध्यम से AI को प्रशिक्षित करना, जैसे एक इंसान समय के साथ कौशल प्राप्त करता है। इस दृष्टिकोण को हम अनुभवात्मक बुद्धिमत्ता कहते हैं, यह उन मॉडलों के बारे में है जिनकी क्षमताएँ गुणवत्ता और अनुभवों की विविधता से बढ़ती हैं, न कि केवल डेटा की मात्रा से जो वे निगलते हैं। यह अंधाधुंध विस्तार के युग से एक सचेत प्रस्थान है। जैसा कि सुत्सकेवर ने स्वयं जोर दिया है, केवल अधिक डेटा या पैरामीटर जोड़ने से सीमित लाभ मिलता है[2]; अगली बड़ी छलांग उन एल्गोरिदम से आएगी जो कम से अधिक सीख सकते हैं सही अनुभवों का उपयोग करके।

विशेष रूप से, Macaron के Mind Lab अनुसंधान प्रभाग ने बड़े मॉडलों में निरंतर, फीडबैक-संचालित सीखने को सक्षम करने के लिए तकनीकों का अग्रणी किया है। हम अपने फाउंडेशन मॉडल को नहीं छोड़ते और हर अपग्रेड के लिए एक नया मॉडल खरोंच से प्री-ट्रेन नहीं करते। इसके बजाय, हम मजबूत बेस मॉडलों को पुनरावृत्त पोस्ट-ट्रेनिंग के साथ विस्तारित करते हैं: वास्तविक कार्यों पर सुदृढीकरण सीखना, मानव-इन-द-लूप फीडबैक, और दीर्घकालिक मेमोरी एकीकरण। उदाहरण के लिए, हमारी टीम हाल ही में 1-ट्रिलियन-पैरामीटर ओपन-सोर्स मॉडल पर उच्च-प्रदर्शन आरएल फाइन-ट्यूनिंग चलाने वाली दुनिया की पहली टीम बन गई - यह सब केवल ~10% सामान्य GPU बजट का उपयोग करते हुए - LoRA एडेप्टर्स का उपयोग करके। यह बड़े पैमाने पर पोस्ट-ट्रेनिंग को संभव बनाने में एक सफलता थी। मूल रूप से, हमने दिखाया कि एक विशाल मॉडल को नए अनुभव देना (और उनसे सीखना) सीधे तरीकों की तुलना में कई गुना अधिक कुशलता से किया जा सकता है। परिणाम? स्थिर डेटा पर केवल थोड़ा कम जटिलता को निचोड़ने के बजाय, हमने मॉडल को इंटरैक्शन के माध्यम से नए कौशल सिखाए - और वह भी एक व्यावहारिक, लागत-प्रभावी तरीके से। (विशेष रूप से, हमने इसके पीछे की तकनीकों को ओपन-सोर्स किया है और उन्हें NVIDIA के Megatron और ByteDance के VEGA जैसे लोकप्रिय प्रशिक्षण फ्रेमवर्क में योगदान दिया है, ताकि व्यापक समुदाय इन पर निर्माण कर सके।)

मेमोरी: समझदारी से भूलना सीखें

Macaron के दृष्टिकोण का एक और स्तंभ है मेमोरी – एक सामान्य चैट इतिहास विंडो के रूप में नहीं, बल्कि एक सीखी हुई प्रणाली के रूप में जो समय के साथ ज्ञान को जमा और संग्रहित करती है। मनुष्य हर इनपुट को समान रूप से नहीं लेते; हम महत्वपूर्ण घटनाओं को याद रखते हैं और बाकी को आसानी से भूल जाते हैं। लंबी अवधि की निर्भरताओं को अधिभार के बिना संभालने के लिए समझदारी से भूलने की यह क्षमता महत्वपूर्ण है। इससे प्रेरित होकर, हमारे शोधकर्ताओं ने मेमोरी डिफ्यूजन नामक एक नई मेमोरी प्रणाली विकसित की। बलपूर्वक कैशिंग या पुनः प्राप्ति के विपरीत, मेमोरी डिफ्यूजन मॉडल को सिखाता है कि लंबी बातचीत या उपयोग इतिहास के दौरान जानकारी कैसे विकसित होनी चाहिए। जैसे-जैसे संदर्भ बढ़ता है, मॉडल अप्रासंगिक विवरणों को "वितरित" करना और महत्वपूर्ण तथ्यों को स्पष्ट करना सीखता है। अनुभवजन्य रूप से, इस विधि ने लंबे क्षितिज की सामंजस्य बनाए रखने में क्लासिक मेमोरी बेसलाइनों (जैसे फिक्स्ड-लेंथ संदर्भ या ह्यूरिस्टिक पुनः प्राप्ति) से बेहतर प्रदर्शन किया है। अधिक सहज रूप से, यह मॉडल को एक प्रकार की कार्यशील मेमोरी देता है जो महत्वपूर्ण बातों को प्राथमिकता देता है – जैसे आपका मस्तिष्क जल्दी से उन होर्डिंग्स को भूल जाता है जिन्हें आपने अपनी यात्रा पर देखा था लेकिन यह याद रखता है कि आप कहाँ जा रहे हैं और क्यों। मॉडल को किस संकेत को रखना है और किसे छोड़ना है, यह सीखने की अनुमति देकर, हम एक ऐसी प्रणाली के साथ समाप्त होते हैं जो एक कार्य से दूसरे कार्य में महत्वपूर्ण सीख को आगे ले जा सकती है, जिससे अधिक निरंतर सीखने को सक्षम किया जा सके। यह मेमोरी तंत्र मैकरॉन की एजेंट आर्किटेक्चर का एक प्रमुख हिस्सा बन गया है, हमारे तर्क और उपकरण-उपयोग में प्रगति के साथ। यह दिखाने का एक और उदाहरण है कि हम कच्चे पैमाने पर आर्किटेक्चरल स्मार्ट्स का पक्ष लेते हैं: बस एक संदर्भ विंडो को 1 मिलियन टोकन तक विस्तारित करने के बजाय (जो कि अक्षम है), हम मॉडल को अपने अनुभव से ज्ञान को समझदारी से संपीड़ित और याद करने का तरीका देते हैं।

वास्तविक दुनिया के प्रतिक्रिया चक्र

महत्वपूर्ण बात यह है कि मैकरॉन का अनुसंधान हमारे उत्पाद से अलग नहीं होता है। हम अनुसंधान↔उत्पाद लूप में विश्वास करते हैं: प्रयोगशाला में सुधार को सीधे उपयोगकर्ता अनुभव द्वारा प्रमाणित किया जाता है, और उत्पाद से मिली अंतर्दृष्टियाँ नए अनुसंधान को सूचित करती हैं। उदाहरण के लिए, मैकरॉन का व्यक्तिगत AI ऐप सक्रिय रूप से अनाम फीडबैक लॉग करता है जहां AI की प्रतिक्रियाएं कमज़ोर होती हैं या जब उपयोगकर्ता असंतुष्ट लगते हैं। ये संकेत हमारे सुदृढीकरण सीखने के प्रशिक्षण में एक अतिरिक्त पुरस्कार संकेत के रूप में फीड होते हैं। हमने पाया है कि वास्तविक उपयोगकर्ता फीडबैक पर प्रशिक्षण अक्सर क्षमता में बड़े लाभ देता है बजाए केवल इंटरनेट टेक्स्ट को पूर्व-प्रशिक्षण में जोड़ने के। यह सुत्सकेवर के अवलोकन के साथ मेल खाता है कि आप किस पर प्रशिक्षण देते हैं यह कितना महत्वपूर्ण हो सकता है - लक्षित अनुभव की थोड़ी मात्रा मॉडल को कुछ सिखा सकती है जो अरबों स्थिर टोकन नहीं कर सकते थे। तैनाती और अनुसंधान के बीच लूप को बंद करके, हम सुनिश्चित करते हैं कि हमारा AI वास्तव में उन कार्यों में सुधार करता है जिनकी लोगों को परवाह है। सुत्सकेवर के शब्दों में, हम अपने मॉडलों को वह "इट फैक्टर" दे रहे हैं जो दुनिया का अनुभव करने से आता है, न कि सिर्फ उसे याद करने से।

संगम: एआई के लिए एक नया प्रतिमान

यह देखना उत्साहजनक है कि AI नेताओं के बीच एक बढ़ती सहमति है कि निरंतर, अनुभवात्मक शिक्षण आगे का रास्ता है। Sutskever की वह दृष्टि, जिसमें एक सुपरइंटेलिजेंस मानव की तरह सीखती है – लगातार और अनुकूल रूप से – वह ठीक वही रास्ता है जिसे Macaron अपना रही है। इस बदलाव में हम अकेले नहीं हैं। उदाहरण के लिए, Google की हालिया Pathways रणनीति भी एक मॉडल को कई कार्यों और तौर-तरीकों पर प्रशिक्षित करने की वकालत करती है ताकि समय के साथ नई कौशल सीख सके, एकल-उद्देश्य मॉडल से आगे बढ़ते हुए। और शोधकर्ता जैसे Jason Wei और Jeff Dean ने उस आर्किटेक्चर की आवश्यकता पर चर्चा की है जो ज्ञान को क्रमिक और प्रभावी ढंग से जमा कर सके, बजाय इसके कि केवल विशाल एक-शॉट प्रशिक्षण पर निर्भर हो। यह उद्योग की एक व्यापक गति को दर्शाता है जिसे “शिक्षा-केंद्रित AI” कहा जा सकता है (आज के मॉडल-केंद्रित AI के विपरीत)। इस नए दृष्टिकोण में, सवाल बनता है: एक AI कितनी जल्दी एक नई क्षमता प्राप्त कर सकती है या एक नई स्थिति के अनुकूल हो सकती है? – बजाय इसके कि उसके पास कितने पैरामीटर हैं या उसे पूर्व-प्रशिक्षण के लिए कितना डेटा उपयोग किया गया था। इस मापदंड पर, मनुष्य अभी भी सर्वोच्च हैं। लेकिन अंतर कम हो रहा है।

Macaron AI में, हमारा मानना है कि अनुभवात्मक बुद्धिमत्ता - AI जो वास्तविक अनुभव से सीखता है - प्रदर्शन और विश्वसनीयता की अगली लहर को खोल देगा। हम पहले से ही प्रमाण देख रहे हैं: हमारे मॉडल जो सुदृढीकरण शिक्षण और मानव प्रतिक्रिया के साथ प्रशिक्षित हैं, न केवल बेंचमार्क पर बेहतर प्रदर्शन कर रहे हैं, बल्कि महत्वपूर्ण रूप से, वे व्यवहार में उपयोगकर्ता की आवश्यकताओं के साथ अधिक मेल खाते महसूस होते हैं। वे कम गलतियाँ करते हैं और गलतियों से अधिक सुंदरता से उबरते हैं, क्योंकि उनका प्रशिक्षण उन्हें गलतियों को नोटिस और सुधारने के लिए सिखा चुका है (जैसे एक इंसान करेगा)। हमारे मेमोरी तंत्र भी उन्हें वह निरंतरता प्रदान करते हैं जो शुद्ध ट्रांसफॉर्मर्स में नहीं होती, जिससे एक वार्तालाप या कार्य महीनों तक बिना रुकावट के जारी रह सकता है। ये सभी लाभ बुद्धिमत्ता को एक प्रक्रिया के रूप में देखने से उत्पन्न होते हैं, न कि एक स्थिर कलाकृति के रूप में। जैसा कि सुत्सकेवर ने कहा था, एक तैनात AI एक “शिक्षण परीक्षण-और-त्रुटि अवधि” से गुजर सकता है तैनाती के दौरान[19][21] - और यह एक विशेषता है, कोई बग नहीं, जब तक कि यह नियंत्रित और संरेखित होता है।

बिल्कुल, जब हम AI के स्वतंत्र रूप से सीखने की बात करते हैं, तो समन्वयन सबसे महत्वपूर्ण होता है। दिलचस्प बात यह है कि सुत्सकेवर ने सुझाव दिया कि एक AI को संरेखित करना जो वास्तव में समय के साथ सीखता और समझता है - संभवतः एक जो संवेदनशील जीवन का मूल्य समझता है और दुनिया और दूसरों को सहानुभूतिपूर्वक मॉडल कर सकता है - एक स्थिर सुपर-जीनियस की तुलना में अधिक आसान हो सकता है जो बंद दरवाजों के पीछे प्रशिक्षित किया गया था। यदि एक AI मानवों के साथ बातचीत करते हुए विकसित होता है, तो उसके विकास के दौरान उसमें मानव मूल्य समाहित करने का अवसर होता है (और गलतियों का निरीक्षण और सुधार करने का भी)। यह हमारी उस विचारधारा की प्रतिध्वनि करता है कि पारदर्शिता और धीमी गति से तैनाती सुरक्षित AI के लिए महत्वपूर्ण हैं। मैकरॉन का प्लेटफॉर्म, उपयोगकर्ताओं के साथ सीधे जुड़कर और उनसे सीखकर, इस क्रमिक दृष्टिकोण के लिए एक प्राकृतिक सैंडबॉक्स प्रदान करता है। हम जानबूझकर नए सीखने की क्षमताओं को चरणों में शुरू करते हैं, व्यवहार की निगरानी करते हैं और प्रतिक्रिया एकत्र करते हैं, बजाय इसके कि एक ब्लैक-बॉक्स मॉडल को एकांत में प्रशिक्षित किया जाए। संक्षेप में, अनुभवात्मक शिक्षा न केवल AI को अधिक स्मार्ट बनाती है - यह AI को अधिक सुरक्षित और मानव-संरेखित भी बना सकती है।

निष्कर्ष: अनुभवात्मक बुद्धिमत्ता को अपनाना

इल्या सुटस्केवर के दूरदर्शी दृष्टिकोण और मैकरॉन के विकास यात्रा दोनों ही एक ही निष्कर्ष की ओर इंगित करते हैं: अगला क्रांतिकारी AI एक मास्टर सीखने वाला होगा, सिर्फ एक बड़ा याद करने वाला नहीं। एक AI जो अनुभव से सीख सकता है, फीडबैक को आत्मसात कर सकता है, लंबे समय तक याद रख सकता है और अनुकूलित कर सकता है - मूल रूप से, एक AI जो विकसित हो सकता है - वह वास्तविक दुनिया की जटिलता को समझ सकता है। यह मानसिकता में एक गहरा परिवर्तन दर्शाता है: यह सिर्फ इस बात की बात नहीं है कि मॉडल के पास शुरुआत में कितना ज्ञान है, बल्कि यह कि वह नया ज्ञान कितनी कुशलता से प्राप्त कर सकता है। सुटस्केवर की कल्पना की गई “सुपरइंटेलिजेंट 15-वर्षीय” इस विचार को संक्षेपित करता है[18][19]। मैकरॉन में, हम अपने उपयोगकर्ताओं के समुदाय के साथ मिलकर उस प्रकार का सतत सीखने वाला AI बनाने की दिशा में काम कर रहे हैं।

अनुभवात्मक, निरंतर सीखने वाले एआई के प्रभाव व्यापक हैं। तकनीकी रूप से, इसका मतलब है उच्च नमूना दक्षता – कम में अधिक करना – और ऐसे मॉडल जो किसी भी डोमेन या वितरण के लिए जल्दी अनुकूलित हो सकते हैं। आर्थिक रूप से, यह ऐसे एआई कर्मियों का वादा करता है जिन्हें तुरंत पुनः प्रशिक्षित किया जा सकता है, जिससे नवाचार और उत्पादकता में तेजी से बढ़ोतरी हो सकती है (सुतस्केवर भविष्यवाणी करते हैं कि जब ऐसा एआई फैल जाएगा तो संभावित रूप से तेजी से वृद्धि हो सकती है[34][35])। और समाज के लिए, इसका मतलब है ऐसे एआई सिस्टम जो अधिक समझने योग्य हैं, क्योंकि हम उन्हें सीखते हुए देखेंगे और उनके विकास को आकार दे सकते हैं, बजाय इसके कि हमें पूरी तरह से बना बनाया रहस्यमय वस्तु सौंपा जाए।

इस लक्ष्य को प्राप्त करना आसान नहीं होगा। इसके लिए एल्गोरिदम, सिस्टम और सीखने की हमारी सैद्धांतिक समझ में प्रगति की आवश्यकता है। फिर भी टुकड़े एक साथ आ रहे हैं: मूल्य कार्यों और उन्नत RL से लेकर जीवन भर की स्मृति संरचनाओं और मानव-इन-द-लूप प्रशिक्षण तक। जैसे-जैसे हम इन टुकड़ों को एकीकृत करते हैं, हम उस AI के करीब पहुंचते हैं जो वास्तव में फुर्ती से सोचता और सीखता है। यही भावना मैकरॉन के अनुसंधान को प्रेरित करती है, और यह सुट्सकेवर जैसे नेताओं द्वारा व्यक्त किए गए दृष्टिकोण के साथ निकटता से मेल खाती है। पैमाने की उम्र ने हमें बहुत कुछ सिखाया, लेकिन अब अनुभवात्मक बुद्धिमत्ता का युग आ रहा है। इस नए युग में, सीमा केवल बड़े मॉडल नहीं हैं - यह चतुर, अधिक अनुकूलनीय, अधिक मानव-समान सीखने वाले हैं। और यही हम बनाने का प्रयास कर रहे हैं।

स्रोत:

· इलिया सुत्सकेवर का द्वारकेश पटेल के साथ साक्षात्कार (नवंबर 2025) – द्वारकेश पॉडकास्ट: “स्केलिंग के युग से रिसर्च के युग की ओर बढ़ते हुए।” मुख्य बातें द्वारकेश के ब्लॉग पर उपलब्ध हैं[1][4][18][19].

· बेस्ट ऑफ एआई डाइजेस्ट द्वारा सुत्सकेवर के प्रमुख बिंदुओं का सारांश[36].

· मानव ड्राइविंग दक्षता पर लेकुन का अवलोकन (सुत्सकेवर द्वारा संदर्भित)[12].

· Macaron AI माइंड लैब – अनुभवात्मक बुद्धिमत्ता और मेमोरी (2025) पर आंतरिक शोध ब्रीफ्स।

· Macaron AI ओपन-सोर्स योगदान बड़े पैमाने पर RL प्रशिक्षण (Megatron-Bridge और VEGA इंटीग्रेशन, 2025) पर।


इलिया सुत्सकेवर – हम स्केलिंग के युग से शोध के युग की ओर बढ़ रहे हैं

https://www.dwarkesh.com/p/ilya-sutskever-2

[6] [31] [33] [36] एआई में ड्राइविंग फोर्स: 2025 और उसके बाद के लिए स्केलिंग (जेसन वेई, ओपनएआई) सर्वश्रेष्ठ एआई पेपर्स द्वारा समझाया गया

https://creators.spotify.com/pod/profile/ehwkang/episodes/Driving-Forces-in-AI-Scaling-to-2025-and-Beyond-Jason-Wei--OpenAI-e30rd59

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Apply to become Macaron's first friends