
लेखक: बॉक्सु ली
बड़े पैमाने पर पूर्व-प्रशिक्षण द्वारा संचालित एक दशक के बाद, AI समुदाय अब AI विकास के तथाकथित "दूसरे आधे" में प्रवेश कर रहा है[1][2]। पहले आधे में, प्रगति नए मॉडल आर्किटेक्चर और प्रशिक्षण विधियों द्वारा संचालित थी जिन्होंने लगातार बेंचमार्क्स पर चढ़ाई की[3] – convnets और LSTMs से लेकर Transformers तक – सभी को स्थिर डेटासेट्स पर सुपरवाइज़्ड या सेल्फ-सुपरवाइज़्ड लर्निंग के माध्यम से अनुकूलित किया गया। लेकिन आज, GPT-4 जैसे अग्रणी मॉडल ने मूल रूप से कई बेंचमार्क्स को संतृप्त कर दिया है, और बस डेटा और पैरामीटर्स को बढ़ाने से घटते रिटर्न मिलते हैं[2]। इस बदलाव ने AI से अधिक बुद्धिमत्ता और उपयोगिता प्राप्त करने के तरीकों की पुन: परीक्षा को उत्प्रेरित किया है।
एक उभरती हुई सहमति यह है कि रिइंफोर्समेंट लर्निंग (RL) इस अगले चरण में एक महत्वपूर्ण भूमिका निभाएगी। RL को लंबे समय से AI का “अंतिम खेल” माना जाता रहा है - एक ऐसा ढांचा जो अंततः दीर्घकालिक पुरस्कारों को अनुकूलित करके मनमाने कार्यों में जीत सकता है[4]। वास्तव में, AlphaGo या AlphaStar जैसी सुपरह्यूमन प्रणालियों की कल्पना करना मुश्किल है, जिनमें RL उनके केंद्र में नहीं हो[4]। अब, बड़े प्री-ट्रेंड मॉडल को एक आधार के रूप में लेकर, कई शोधकर्ता तर्क देते हैं कि “प्री-ट्रेनिंग खत्म हो चुकी है” – भविष्य की प्रगति इन मॉडलों को इंटरएक्टिव वातावरण में RL के जरिए पोस्ट-ट्रेनिंग से आएगी। जैसा कि एक हालिया लेख ने कहा, एक बार जब हमारे पास विशाल प्री-ट्रेंड मॉडल (जो “प्रायर्स” हैं) और उपयुक्त वातावरण होते हैं, “RL एल्गोरिदम शायद सबसे तुच्छ हिस्सा हो सकता है” उन्नत एजेंट बनाने का[5]। दूसरे शब्दों में, हमने प्री-ट्रेनिंग के साथ केक बेक किया है; रिइंफोर्समेंट लर्निंग इसे तर्क और एजेंसी के साथ सजाने की कुंजी है।
शुनयू याओ, द सेकंड हाफ में, इस सिद्धांत को स्पष्ट करते हैं। वे बताते हैं कि आधुनिक एआई पहले से ही एक "वर्किंग रेसिपी" प्रदान करता है – बड़े भाषा मॉडल का प्री-ट्रेनिंग + स्केलिंग + रीजनिंग – जो बिना नए एल्गोरिदम के कई कार्यों को हल कर सकता है[2][6]। इस प्रकार, खेल बदल गया है: केवल एक और आर्किटेक्चर का आविष्कार करना अब पहले की तरह छलांग नहीं देगा। इसके बजाय, हमें मूल्यांकन और वातावरण पर ध्यान केंद्रित करना होगा – मूल रूप से, ऐसे कार्यों पर जो एआई को वास्तव में सोचने और कार्य करने के लिए मजबूर करें, न कि केवल अगले टोकन की भविष्यवाणी करें[7][8]। और इसका अर्थ अनिवार्य रूप से आरएल का उपयोग करना है। याओ ने आरएल को "एआई का एंडगेम" कहा है और तर्क दिया कि अब जब हमारे पास सही सामग्री है (प्री-ट्रेनिंग से शक्तिशाली प्रायर, साथ ही भाषा और उपकरणों के साथ समृद्ध वातावरण), "रेसिपी इस दूसरे हाफ में खेल को पूरी तरह बदल रही है[1]। हमें स्थैतिक बेंचमार्क से इंटरैक्टिव कार्यों की ओर और एक बार के मूल्यांकन से लेकर जंगली में निरंतर सीखने की ओर एक बदलाव की उम्मीद करनी चाहिए। संक्षेप में, सुदृढीकरण शिक्षण अब केंद्रीय बन रहा है कि हम एआई को यहां से कैसे आगे बढ़ाएं।
RL पर नया ध्यान क्यों? सरल शब्दों में, पुनर्बलन शिक्षण ऐसी क्षमताओं को सक्षम बनाता है जिन्हें केवल पर्यवेक्षित शिक्षण के माध्यम से आसानी से प्राप्त नहीं किया जा सकता। बड़े भाषा मॉडल (LLMs) इसका एक उदाहरण हैं। GPT-4 जैसे ट्रांसफार्मर, जो इंटरनेट पाठ पर पूर्व-प्रशिक्षित होते हैं, ज्ञान और भाषाई पैटर्न की पहचान का विशाल भंडार सीखते हैं - फिर भी अपने आप में यह अभी भी सच्ची एजेंसी की कमी रखता है। पूर्व-प्रशिक्षण यह सिखाता है कि "कैसे बात करनी है," लेकिन जरूरी नहीं कि क्या निर्णय लेने हैं एक इंटरैक्टिव सेटिंग में। इसके विपरीत, RL एक AI को क्या लक्ष्य प्राप्त करने हैं और उन्हें हासिल करने के लिए कैसे कार्य करना है सिखा सकता है, उन लक्ष्यों को प्रतिबिंबित करने वाले पुरस्कारों को अधिकतम करके। यह परिवर्तन निष्क्रिय रूप से भविष्यवाणी करने से सक्रिय रूप से प्रयोग करने और प्रतिक्रिया प्राप्त करने की ओर, विचार, योजना और संरेखण के लिए महत्वपूर्ण है।
एलएलएम-आधारित एजेंट्स पर हाल के काम यह दिखाते हैं कि आरएल कैसे प्रदर्शन के नए स्तरों को अनलॉक करता है। उदाहरण के लिए, ओपन-सोर्स किमी K2 मॉडल को रीइन्फोर्समेंट लर्निंग के साथ अंत-से-अंत तक फाइन-ट्यून किया गया था, जो "मॉडल को योजना बनाने, प्रतिक्रिया देने, और लंबे तर्क श्रृंखलाओं के माध्यम से आत्म-सुधार करने के लिए सिखाता है, केवल निगरानी के बाद प्रशिक्षण पर निर्भर रहने के बजाय"[9]। आरएल के माध्यम से, K2 ने स्वायत्त तर्कशक्ति पैटर्न प्राप्त किए – यह तथ्यों की जांच करना, परिकल्पनाओं पर पुनरावृत्ति करना, और सावधान रहना सीखता है, भले ही कोई प्रश्न आसान दिखे[10]। परिणामस्वरूप एक मॉडल बनता है जो केवल प्रशिक्षण डेटा को दोहराता नहीं है, बल्कि सक्रिय रूप से नए समस्याओं को हल करने के तरीके समझता है। इसी तरह, K2 परियोजना विश्वसनीयता पर जोर देती है: एजेंट अंतिम रूप देने से पहले उत्तरों को सत्यापित करना पसंद करता है, जो आरएल-प्रशिक्षित प्रवृत्ति को गति के बजाय सहीता को अधिकतम करने को दर्शाता है[11]। सार में, रीइन्फोर्समेंट लर्निंग ने मॉडल को योजना और प्रतिबिंब के एक आंतरिक "एजेंटिक" लूप के साथ समृद्ध किया, इसे अगले-टोकन प्रेडिक्शन की सीमाओं से परे ले जाते हुए।
हम अन्य उन्नत प्रणालियों के साथ भी इस पैटर्न को देखते हैं। ChatGPT के अपने सुधार GPT-3 से मुख्य रूप से मानव प्रतिक्रिया से प्रेरित सुदृढीकरण सीख (RLHF) के माध्यम से हुआ। मॉडल को टेक्स्ट पर पूर्व-प्रशिक्षण के बाद, OpenAI ने इसे मानव प्रतिक्रिया और पुरस्कार मॉडलों के साथ ठीक-ठाक किया, जिससे इसकी सहायकता और निर्देशों के पालन में नाटकीय रूप से सुधार हुआ। जॉन शुलमैन - ChatGPT के प्रमुख शोधकर्ता - ने इस प्रक्रिया का वर्णन किया: मानव परीक्षकों ने एक पुरस्कार संकेत प्रदान किया जिसने मॉडल को संगत वार्तालापों को बनाए रखने, ट्रैक पर बने रहने और अवांछित आउटपुट से बचने में बहुत बेहतर बना दिया[12]। दूसरे शब्दों में, RLHF ने मॉडल को मानव प्राथमिकताओं और वार्तालाप मानदंडों के साथ संरेखित किया। यह तकनीक कच्चे LLMs को सहायक सहायकों में बदलने के लिए डिफ़ॉल्ट मानक बन गई है। जैसा कि WIRED के एक लेख में उल्लेख है, सुदृढीकरण सीख अब मॉडलों को फाइन-ट्यून करने का "बढ़ता लोकप्रिय" तरीका है जो उन्हें फीडबैक आधारित पुरस्कार देकर अनुकूलित करता है[13]। चाहे यह चैटबॉट को निर्देशों का पालन करने के लिए बनाया गया हो या एक बड़े मॉडल में समस्या-समाधान कौशल को समाहित करने के लिए, RL वह उपकरण है जिसका उपयोग पूर्व-प्रशिक्षण के समाप्त होने के बाद किया जाता है।
RL का महत्व केवल विनम्रता के लिए फाइन-ट्यूनिंग से आगे बढ़ता है; यह मॉडलों को निर्णय लेने सिखाने के बारे में है। Macaron AI के Mind Labs के हालिया तकनीकी ब्लॉग ने इसे संक्षेपित किया: “जैसे-जैसे LLMs पूर्व-प्रशिक्षण से परे अनुभवात्मक सीखने की ओर विकसित होते हैं, रीइंफोर्समेंट लर्निंग उन्नत तर्क क्षमताओं को अनलॉक करने के लिए कुंजी बन गया है।”[14] रीइंफोर्समेंट लर्निंग को एक उपविचार की तरह न मानते हुए, उन्नत परियोजनाएँ इसे “एजेंटिक व्यवहार के लिए एक प्रथम श्रेणी की डिज़ाइन स्तंभ के रूप में मानती हैं, न कि केवल एक अंतिम पॉलिश कदम”[15]। व्यावहारिक रूप में, इसका मतलब एआई सिस्टम को प्रशिक्षित करना है उन्हें वास्तविक या सिमुलेटेड वातावरण में रखकर जहां उन्हें कार्य करना, प्रतिक्रिया प्राप्त करना और सुधारना होता है – चाहे वह टूल्स का उपयोग करने वाला LLM एजेंट हो या नेविगेट करना सीखने वाला रोबोट। रीइंफोर्समेंट लर्निंग के माध्यम से अनुभवात्मक सीखना वह तरीका है जिससे एआई उन कौशलों को प्राप्त करेगा जो स्थिर डेटा सेट में नहीं कैद किए जा सकते।
यह बताता है कि नई एआई लैब्स इस दर्शन के चारों ओर बन रही हैं। थिंकिंग मशीन लैब, एक स्टार्टअप जिसे पूर्व ओपनएआई नेताओं द्वारा स्थापित किया गया है, ने एक बड़े $2B सीड मूल्यांकन के साथ लॉन्च किया है ताकि आरएल और अन्य तकनीकों के माध्यम से फ्रंटियर मॉडल्स को फाइन-ट्यून करने के लिए उपकरण बनाए जा सकें। उनका प्रमुख उत्पाद "टिंकर" बड़े मॉडलों के आरएल-फाइन-ट्यूनिंग को ऑटोमेट करने का लक्ष्य रखता है, इस विश्वास पर कि "रिइनफोर्समेंट लर्निंग का लाभ उठाकर बड़े मॉडलों से नई क्षमताएं निकालने के लिए कई लोगों को सक्षम बनाना" एआई में अगली बड़ी चीज होगी[16][17]। इसी तरह, मैकरॉन एआई (एक नया शोध उपक्रम) ट्रिलियन-पैरामीटर मॉडलों के लिए आरएल को स्केल करने के लिए कस्टम आरएल ऑप्टिमाइज़र और इंफ्रास्ट्रक्चर डिज़ाइन कर रहा है[18][19]। इस तरह के प्रयास एक व्यापक प्रवृत्ति को उजागर करते हैं: एआई समुदाय आरएल में बड़ी संभावना देखता है कि यह मॉडलों को नई सीमाओं तक धकेल सके – चाहे वह उन्हें अधिक उपकरण-उपयोग और तर्कशील बनाना हो (जैसा कि किमी K2 और मैकरॉन के एजेंट्स के साथ है) या अधिक समान और अनुकूलित (जैसा कि चैटजीपीटी और टिंकर के साथ है)। संक्षेप में, आरएल अब उन फाउंडेशन मॉडलों की पूरी क्षमता को अवगत कराने के लिए एक प्रमुख सक्षम तकनीक के रूप में देखा जाता है, जो पिछले दशक में बनाए गए हैं।

शायद RL की बढ़ती प्रमुखता का सबसे सम्मोहक कारण यह है कि यह स्थिर डेटासेट्स के सैंडबॉक्स से परे समस्याओं को हल करने में सफल रहा है - अक्सर उन उपलब्धियों को हासिल कर रहा है जो लंबे समय तक पहुंच से बाहर थीं। गेम खेलने के मील के पत्थर पहले नाटकीय प्रमाण थे: डीपमाइंड के अल्फागो, अल्फाज़ीरो और ओपनएआई के फाइव ने गहन सुदृढीकरण शिक्षण के माध्यम से गो, शतरंज और यहां तक कि जटिल वीडियो गेम भी जीते। इन प्रणालियों ने दिखाया कि, एक अच्छी तरह से परिभाषित इनाम (जैसे खेल जीतना) दिया जाए, तो RL एजेंट केवल अभ्यास और अनुकूलन के माध्यम से मानव चैंपियनों को पार कर सकते हैं। विशेष रूप से, ओपनएआई फाइव की 2019 में दुनिया के चैंपियन डोटा-2 टीम पर जीत केवल आत्म-खेल RL के माध्यम से अभूतपूर्व पैमाने पर प्रशिक्षण द्वारा प्राप्त की गई थी - यह दिखाते हुए कि जब पर्याप्त अनुभव प्रदान किया जाता है तो आज के RL एल्गोरिदम की "आश्चर्यजनक शक्ति" क्या हो सकती है। उस परियोजना ने RL की क्षमता और इसकी चुनौतियों को उजागर किया: इसे काम करने के लिए विशाल सिमुलेशन (सैकड़ों वर्षों के गेमप्ले के बराबर) और शानदार इंजीनियरिंग की आवश्यकता थी, लेकिन यह काम किया, टीमवर्क और रणनीतियां विकसित कीं जो किसी भी नियम-आधारित AI से परे थीं।
महत्वपूर्ण रूप से, RL अब केवल खेलों तक सीमित नहीं है। 2022 में एक महत्वपूर्ण उपलब्धि में डीपमाइंड ने गहरे RL का उपयोग करके न्यूक्लियर फ्यूजन प्लाज्मा को वास्तविक समय में नियंत्रित किया, जो मैनुअल नियंत्रकों के साथ पहले असंभव था। एक सिम्युलेटर में प्रशिक्षण करके और फिर एक टोकामक रिएक्टर पर लागू करके, उनके एजेंट ने प्लाज्मा को नियंत्रित करने के लिए चुंबकीय कॉइल को संचालित करना सीखा, सफलतापूर्वक स्वायत्त रूप से फ्यूजन प्रतिक्रिया को स्थिर करना सीखा[21]। इसने दिखाया कि RL भौतिकी में उच्च-आयामी, गतिशील नियंत्रण समस्याओं को संभाल सकती है – वैज्ञानिक अनुसंधान के लिए नए रास्ते खोलना जो सटीक अनुक्रमिक निर्णय-निर्माण पर निर्भर करता है[21]।
एक और क्षेत्र जहां RL अपनी वास्तविक-दुनिया की क्षमता दिखा रहा है वह है मल्टी-एजेंट इंटरैक्शन और गेम थ्योरी। एक उत्कृष्ट उदाहरण है मेटा का CICERO, पहला AI जिसने खेल डिप्लोमेसी में मानव-स्तरीय प्रदर्शन प्राप्त किया, जिसमें कई खिलाड़ियों के बीच बातचीत और गठबंधन बनाना शामिल होता है। CICERO भाषा के लिए एक LLM को RL-प्रशिक्षित योजना मॉड्यूल के साथ संयोजित करता है; इसे रणनीतियां बनानी होती हैं, अन्य खिलाड़ियों के इरादों का मॉडल बनाना होता है, और प्रभावशाली संवाद करना पड़ता है। परिणामस्वरूप एक बड़ी सफलता मिली - CICERO ने झूठ और ब्लफिंग की उपस्थिति में भी मनुष्यों के साथ प्रभावी ढंग से सहयोग और प्रतिस्पर्धा की। जैसा कि पर्यवेक्षकों ने नोट किया, यह "पहला AI है जिसने डिप्लोमेसी में मानव-स्तरीय प्रदर्शन प्राप्त किया, जो एक रणनीति खेल है जिसमें विश्वास, बातचीत और कई खिलाड़ियों के साथ सहयोग की आवश्यकता होती है।"[22] यह बोर्ड-गेम रणनीतियों से परे है; यह संकेत करता है कि RL एजेंट सामाजिक रणनीति और गतिशील गेम-थ्योरी वातावरण को संभाल सकते हैं। ऐसी क्षमताएं AI के लिए आवश्यक हैं जो एक दिन अर्थव्यवस्थाओं, बातचीत, या जटिल संगठनात्मक निर्णयों को नेविगेट कर सकते हैं।
अंत में, और शायद सबसे नाटकीय रूप से, RL पूरी तरह से पृथ्वी से बाहर जा रहा है। पिछले वर्ष में, शोधकर्ताओं ने वह हासिल किया है जिसे केवल विज्ञान कथा के रूप में वर्णित किया जा सकता है: कक्षा में स्वायत्त उपग्रह और रोबोट जो सुदृढीकरण अधिगम द्वारा नियंत्रित होते हैं। अंतर्राष्ट्रीय अंतरिक्ष स्टेशन पर एक अमेरिकी नौसेना अनुसंधान प्रयोगशाला के प्रयोग में, एक RL एल्गोरिदम (सिमुलेशन में प्रशिक्षित) ने एक Astrobee फ्री-फ्लाइंग रोबोट का नियंत्रण किया और सूक्ष्मगुरुत्वाकर्षण में स्वायत्त युद्धाभ्यास सफलतापूर्वक किया[23][24]। NRL की टीम ने नोट किया कि यह “स्पेस में सुदृढीकरण अधिगम एल्गोरिदम का उपयोग करके पहला स्वायत्त रोबोटिक नियंत्रण है”, और यह विश्वास निर्माण करती है कि RL स्पेस ऑपरेशनों की कठोर परिस्थितियों को संभाल सकता है[23]। हाल ही में, 30 अक्टूबर, 2025 को, वुर्जबर्ग विश्वविद्यालय की एक टीम ने कक्षा में विश्व-प्रथम प्रदर्शन हासिल किया: उनके छोटे InnoCube उपग्रह ने एक दृष्टिकोण संरेखण युद्धाभ्यास पूरी तरह से ऑनबोर्ड RL एजेंट के नियंत्रण में किया[25][26]। जैसा कि प्रमुख शोधकर्ता ने कहा, “हमने दुनिया में पहली बार व्यावहारिक प्रमाण प्राप्त किया है कि एक उपग्रह दृष्टिकोण नियंत्रक जो डीप सुदृढीकरण अधिगम का उपयोग करके प्रशिक्षित किया गया है, कक्षा में सफलतापूर्वक संचालित हो सकता है।”[26] यह एक ऐतिहासिक क्षण है – RL ने सिमुलेशन और प्रयोगशालाओं से स्पेस में भौतिक प्रणालियों का नियंत्रण करने तक की प्रगति की है। एआई नियंत्रक ने एक उच्च-प्रामाणिक सिमुलेटर में सीखा और इसे उपग्रह पर अपलोड किया गया, जहाँ उसने बिना मानव हस्तक्षेप के सटीक उन्मुखीकरण कार्य किए[27][28]। उपग्रह के नियंत्रण एल्गोरिदम के हाथ से सुधार के लंबे महीनों के प्रक्रिया को एक RL एजेंट ने बदल दिया जो उड़ान के दौरान अनुकूलन कर सकता है[29]। अंतरिक्ष रोबोटिक्स में ये सफलताएँ RL की क्षमता को उजागर करती हैं कि यह नीतियाँ उत्पन्न कर सकता है जो वास्तविक दुनिया की अनिश्चितता के तहत अनुकूलन और सामान्यीकरण कर सकती हैं – यह पृथ्वी पर और अधिक स्वायत्त वाहनों, ड्रोन और रोबोटों की ओर एक महत्वपूर्ण कदम है।
इन सभी उदाहरणों में एक महत्वपूर्ण बिंदु को रेखांकित किया गया है: रिइन्फोर्समेंट लर्निंग तब परिपक्व हो रहा है जब हमें इसकी सबसे अधिक आवश्यकता है। जैसे-जैसे AI 'दूसरे आधे' में प्रवेश कर रहा है, जहाँ चुनौती सिर्फ भविष्यवाणी नहीं बल्कि प्रदर्शन है, RL प्रयोग, अनुकूलन और दीर्घकालिक अनुकूलन के लिए ढांचा प्रदान करता है। पर्यवेक्षित शिक्षण के विपरीत, जो पिछले डेटा से जुड़ा होता है, RL सिस्टम को उनकी अपनी अनुभवों से सीखने और परीक्षण-त्रुटि के माध्यम से सुधारने में सक्षम बनाता है। यह किसी भी AI के लिए आवश्यक है जिसे असंरचित, नवीन स्थितियों में काम करना होता है - चाहे वह एक सहायक हो जो किसी नए उपयोगकर्ता प्रश्न का समाधान कर रहा हो या एक रोबोट जो अप्रत्याशित बाधाओं का सामना कर रहा हो।
AI में प्रगति को मापने के हमारे तरीके के लिए भी गहरे प्रभाव हैं। अब हम मॉडल की बुद्धिमत्ता को मापने के लिए केवल स्थिर बेंचमार्क पर निर्भर नहीं रह सकते। इसके बजाय, शोधकर्ता नए मूल्यांकन सेटअप का प्रस्ताव कर रहे हैं जो वास्तविक दुनिया का प्रतिबिंब करते हैं: निरंतर कार्य, मानव-इन-द-लूप इंटरैक्शन, और गैर-i.i.d. परिदृश्य[8][30]। ऐसे समृद्ध वातावरणों को RL प्रशिक्षण के साथ जोड़कर, हम अपने मॉडलों को अधिक मजबूत, सामान्यीकृत व्यवहार विकसित करने के लिए मजबूर करते हैं। याओ के शब्दों में, दूसरी छमाही बेंचमार्क लूप से बाहर निकलने वाले एजेंट बनाने के बारे में होगी और वास्तव में वास्तविक दुनिया की उपयोगिता प्रदान करेगी[31][32]। RL-केंद्रित लैब्स में निवेश की बाढ़ और उद्योग में RLHF को तेजी से अपनाना यह पहचान दर्शाता है कि अब इस छलांग को लगाने का समय है।
हालांकि, RL को अपनाने के साथ चुनौतियाँ भी आती हैं। RL प्रशिक्षण अस्थिर और संसाधन-गहन हो सकता है (OpenAI Five के महंगे प्रशिक्षण का उदाहरण इसका प्रमाण है[20])। अक्सर इसमें तेज़ सिमुलेशन या ऐसे वातावरण की आवश्यकता होती है जहाँ गलतियाँ सस्ती हों – जो उच्च-दांव वाले क्षेत्रों में हमेशा उपलब्ध नहीं होते। हालांकि, इन मोर्चों पर भी प्रगति हो रही है। नए एल्गोरिदम और फ्रेमवर्क (जैसे कि मैकरॉन के ऑल-सिंक RL विद DAPO ऑप्टिमाइजेशन) बड़े पैमाने पर RL प्रशिक्षण की दक्षता को नाटकीय रूप से सुधार रहे हैं[19][33]। सिम2रियल ट्रांसफर, रिवार्ड मॉडलिंग, और सुरक्षित एक्सप्लोरेशन रणनीतियाँ जैसी तकनीकें RL सिस्टम को वास्तविक तैनाती तक पहुंचाने में मदद कर रही हैं बिना विनाशकारी विफलताओं के[34][35]। महत्वपूर्ण रूप से, समुदाय सीख रहा है कि अन्य प्रतिमानों के साथ RL को कैसे मिश्रित किया जाए – उदाहरण के लिए, भाषा मॉडल्स का उपयोग समीक्षक या योजनाकार के रूप में करना, मानव प्रदर्शनों का उपयोग करके RL को मार्गदर्शन देना (एक प्रकार का हाइब्रिड अनुकरण शिक्षा), और अधिक। ये हाइब्रिड दृष्टिकोण अक्सर दोनों दुनियाओं के सर्वश्रेष्ठ को प्राप्त करते हैं: पूर्व-प्रशिक्षण का ज्ञान और प्रबलित शिक्षा का निर्णय-निर्माण।
अंत में, अब सुदृढीकरण सीखने पर ध्यान केंद्रित करना केवल प्रचार का विषय नहीं है, बल्कि यह पहचानना है कि आवश्यकताएँ और अवसर कहाँ हैं। हम एक ऐसे मोड़ पर खड़े हैं जहाँ हमारे AI सिस्टम में विशाल अंतर्निहित क्षमताएं हैं (पूर्व-प्रशिक्षण के लिए धन्यवाद), और उन क्षमताओं को सक्रिय करने का तरीका लक्ष्य-निर्देशित सीखने के माध्यम से है। चाहे वह AI व्यवहार को मानव मूल्यों के अनुरूप बनाना हो, रोबोट्स को सच्ची स्वायत्तता प्रदान करना हो, या AI को नए वैज्ञानिक और इंजीनियरिंग समस्याओं को हल करने के लिए प्रेरित करना हो, आरएल प्रतिक्रिया के माध्यम से AI को पुनः परिष्कृत और सुधारने के उपकरण प्रदान करता है। हम निष्क्रिय सीखने के युग से सक्रिय सीखने और करने के युग में परिवर्तन देख रहे हैं। जैसा कि कहावत है, “जिसने हमें यहाँ तक पहुँचाया, वह हमें वहाँ तक नहीं ले जाएगा।” विशाल मॉडलों द्वारा प्रतिनिधित्व सीखने का भारी काम काफी हद तक पूरा हो सकता है, लेकिन उन मॉडलों को उपयोगी, अनुकूलनशील, और विश्वसनीय एजेंटों में बदलना - यह सुदृढीकरण सीखने का काम है। अब RL अनुसंधान और अनुप्रयोगों में निवेश करके, हम मूल रूप से कठिन समस्याओं का सामना कर रहे हैं: AI बनाना जो कदमों में सोच सके, विकल्पों का पता लगा सके, त्रुटियों से उबर सके, और अंततः खुले-अंत कार्यों में महारत हासिल कर सके। AI के भव्य पथ में, यह बदलाव 2010 के दशक की गहन सीखने की क्रांति जितना ही महत्वपूर्ण है। दूसरा भाग अभी शुरू ही हुआ है, और सुदृढीकरण सीखना इसका प्रेरक शक्ति बनने के लिए तैयार है।
संदर्भ:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]
[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] द सेकेंड हाफ – शुन्यु याओ – 姚顺雨
https://ysymyth.github.io/The-Second-Half/
[9] [10] [11] [15] Kimi K2 Thinking का परिचय | ब्लॉग
https://kimik2thinking.org/blog/introducing-kimi-k2-thinking
[12] [13] [16] [17] विशेष: मीरा मुराटी की स्टेल्थ एआई लैब ने अपना पहला उत्पाद लॉन्च किया | WIRED
https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/
[14] [19] माईंड लैब्स | DAPO और LoRA के साथ स्केलिंग ऑल-सिंक RL
[18] एक मैकरॉन विश्लेषण: किमी K2 “थिंकिंग” मॉडल: ओपन एजेंटिक AI को आगे बढ़ाते हुए - मैकरॉन
https://macaron.im/blog/kimi-k2-thinking
[20] ओपनएआई फाइव ने Dota 2 वर्ल्ड चैंपियंस को हराया | ओपनएआई
https://openai.com/index/openai-five-defeats-dota-2-world-champions/
[21] सीखा हुआ प्लाज्मा नियंत्रण के माध्यम से संलयन विज्ञान को तेज करना - गूगल डीपमाइंड
https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/
[22] CICERO: राजनय और संबंधों में एआई | blog_posts – वेट्स & बायसेस
https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5
[23] [24] [34] [35] सुदृढीकरण अधिगम अंतरिक्ष में चर्चा का विषय बन रहा है > यू.एस. नेवल रिसर्च लेबोरेटरी > एनआरएल न्यूज़
[25] [26] [27] [28] [29] अंतरिक्ष में विश्व प्रीमियर: वुर्जबर्ग AI उपग्रह नियंत्रित करता है -
https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/