लेखक: बॉक्सू ली
रीइन्फोर्समेंट लर्निंग (RL) आधुनिक AI का एक मुख्य तत्व बन गया है, जो एजेंटों को ट्रायल और एरर के माध्यम से सर्वोत्तम नीतियां सीखने में सक्षम बनाता है। व्यक्तिगत AI के संदर्भ में, हालांकि, RL अद्वितीय चुनौतियों का सामना करता है: पुरस्कार विषयक होते हैं, वातावरण गैर‑स्थिर होते हैं, और नैतिक विचारणाएँ प्रचुर मात्रा में होती हैं। मैकरॉन AI के डिजाइनरों ने इन चुनौतियों का सीधे सामना किया, एक बहु‑स्तरीय RL प्रणाली का निर्माण किया जो मेमोरी प्रबंधन, कोड संश्लेषण, वार्तालाप शैली और अधिक को नियंत्रित करता है। यह ब्लॉग बताता है कि मैकरॉन कैसे पदानुक्रमित RL, पुरस्कार मॉडलिंग, क्रेडिट असाइनमेंट और निष्पक्षता प्रतिबंधों का उपयोग करके एक वास्तव में व्यक्तिगत एजेंट बनाता है। हम मैकरॉन के RL दृष्टिकोण की तुलना अन्य क्षेत्रों में RL से भी करते हैं और भविष्य की दिशा-निर्देशों का अन्वेषण करते हैं।
बोर्ड गेम्स या सिम्युलेटेड वातावरण के विपरीत, व्यक्तिगत एजेंट ऐसे खुले स्थानों में कार्य करते हैं जहाँ रिवार्ड केवल कार्य की सफलता से नहीं प्राप्त किया जा सकता है। मैकरॉन अप्रत्यक्ष फीडबैक (वार्तालाप की लंबाई, उपयोग की आवृत्ति, उपयोगकर्ता प्रतिक्रियाओं का स्वर) और प्रत्यक्ष फीडबैक (रेटिंग्स, थंब्स अप/डाउन) एकत्र करता है ताकि एक रिवार्ड संकेत का निर्माण किया जा सके। उदाहरण के लिए, यदि एक जापानी उपयोगकर्ता एजेंट द्वारा विनम्र भाषा उपयोग करने के बाद लंबे वार्तालाप में संलग्न होता है, तो इस सकारात्मक संबंध से समान व्यवहार के लिए रिवार्ड बढ़ जाता है। यदि एक कोरियाई उपयोगकर्ता द्वारा एक जनरेटेड मिनी-ऐप को अव्यवस्थित डिज़ाइन के कारण खराब रेट किया जाता है, तो उस UI पैटर्न के लिए रिवार्ड घट जाता है। ये संकेत एक रिवार्ड मॉडल में योगदान करते हैं जो एक दिए गए स्थिति और क्रिया के लिए उपयोगकर्ता संतोष की भविष्यवाणी करता है।
Macaron का RL बहु-उद्देश्यीय है। उपयोगकर्ता संतुष्टि के अलावा, इनाम में गोपनीयता, अनुपालन, संसाधन उपयोग और नैतिकता के लिए शर्तें शामिल हैं। बिना उचित सहमति के संवेदनशील जानकारी साझा करने पर दंड मिलता है, जबकि मेमोरी को प्रभावी रूप से संपीड़ित करने पर बोनस मिलता है। कोड जनरेशन के लिए, दक्षता और रखरखाव इनाम को प्रभावित करते हैं: अत्यधिक जटिलता (जैसे, अनावश्यक रूप से 100,000 पंक्तियों का जनरेट करना) नकारात्मक इनाम का कारण बनती है। इनाम के भार विभिन्न क्षेत्रों के लिए समायोजित किए जाते हैं। जापान की गोपनीयता और पारदर्शिता पर जोर देने से गोपनीयता उल्लंघनों के लिए दंड बढ़ जाता है, जबकि कोरिया का नवाचार पर ध्यान गति और नवीनता के लिए अधिक वजन डाल सकता है। इन उद्देश्यों को संतुलित करने के लिए सावधानीपूर्वक डिज़ाइन की आवश्यकता होती है; Macaron एक स्केलराइजेशन फ़ंक्शन का उपयोग करता है जो वेटेड सम और डायनामिक स्केलिंग के माध्यम से कई उद्देश्यों को एकल इनाम में परिवर्तित करता है।
AI प्रणालियों को मूल्यों के साथ संरेखित करने के लिए मानव प्रतिक्रिया महत्वपूर्ण है। Macaron पसंद अन्वेषण लागू करता है जो वैकल्पिक प्रतिक्रियाएँ या मिनी‑ऐप डिज़ाइन प्रस्तुत करता है और उपयोगकर्ताओं से पूछता है कि वे किसे पसंद करते हैं। यह डेटा एक अनुमान मॉडल को खिलाता है जो संभावित क्रियाओं पर एक गुप्त उपयोगिता फ़ंक्शन सीखता है। यह दृष्टिकोण RLHF (मानव प्रतिक्रिया से सुदृढीकरण सीखना) के समान है जिसका उपयोग बड़े भाषा मॉडलों को प्रशिक्षित करने के लिए किया जाता है, लेकिन Macaron इसे सांस्कृतिक एनोटेशन को शामिल करके विस्तारित करता है: जापानी एनोटेटर्स शिष्टाचार और संदर्भ पर टिप्पणी करते हैं, जबकि कोरियाई एनोटेटर्स सामुदायिक बनाम व्यष्टिक वाक्यांश पर ध्यान देते हैं। परिणामी पुरस्कार मॉडल संस्कृतियों के बीच सूक्ष्म प्राथमिकताओं को दर्शाता है।
Macaron के कार्य आकस्मिक बातचीत से लेकर जटिल सॉफ़्टवेयर जनरेट करने तक होते हैं। इस विविधता को प्रबंधित करने के लिए, सिस्टम पदानुक्रमिक RL का उपयोग करता है। शीर्ष स्तर पर, एक मेटा-कंट्रोलर मॉड्यूलों में चयन करता है: वार्तालाप प्रबंधक, स्मृति प्रबंधक, संश्लेषण इंजन, भावना नियामक, आदि। प्रत्येक मॉड्यूल को स्वयं एक अलग RL नीति द्वारा नियंत्रित किया जाता है। उदाहरण के लिए, स्मृति प्रबंधक यह तय करने के लिए RL का उपयोग करता है कि क्या संग्रहीत करना है या भूलना है, जबकि संश्लेषण इंजन RL का उपयोग कोड टेम्पलेट्स चुनने के लिए करता है। मेटा-कंट्रोलर सभी मॉड्यूल पुरस्कारों को मिलाकर एक उच्च स्तरीय पुरस्कार प्राप्त करता है और सीखता है कि कब कार्यों को सौंपना है। यह विघटन खोज स्थान को कम करता है और नमूना दक्षता में सुधार करता है।
मॉड्यूल्स के भीतर, Macaron पुन: उपयोग योग्य उप-नीतियों को दर्शाने के लिए विकल्प ढांचे का उपयोग करता है। एक "विकल्प" एक उपलक्ष्य को प्राप्त करने वाली क्रियाओं की श्रृंखला के अनुरूप होता है, जैसे "पिछले महीने के खर्चों का सारांश" या "द्विभाषी अध्ययन योजना की सिफारिश करें।" यदि आधारभूत संरचना मेल खाती है, तो जापानी डोमेन में खोजे गए विकल्प को कोरियाई डोमेन में स्थानांतरित किया जा सकता है। जब Macaron एक भाषा में उपयोगकर्ता के अनुरोध को संभालने का प्रभावी तरीका सीखता है, तो यह उसी विकल्प को लागू कर सकता है जब अवधारणा किसी अन्य भाषा में प्रकट होती है, जिससे अनुकूलन में तेजी आती है।
टेम्पोरल एब्सट्रैक्शन RL एजेंट्स को विभिन्न समय पैमानों पर विचार करने की अनुमति देता है। Macaron मैक्रो-क्रियाओं को परिभाषित करता है जो बहु-मोड़ संवाद या लंबी गणनाओं को समाहित करती हैं। उदाहरण के लिए, एक कोरियाई पारिवारिक छुट्टी की योजना बनाना एक मैक्रो-क्रिया में आता है जिसमें गंतव्य चयन, परिवहन, आवास और यात्रा कार्यक्रम डिजाइन शामिल होते हैं। RL एजेंट्स मैक्रो-क्रिया का मूल्यांकन संचयी पुरस्कार के आधार पर करते हैं न कि अल्पकालिक संकेतों के आधार पर। यह एजेंट को दीर्घकालिक संतुष्टि पर विचार करने के लिए प्रेरित करता है, जैसे कि यात्रा को स्कूल की छुट्टियों के साथ संरेखित करना या शेड्यूलिंग संघर्षों से बचना।

विशिष्ट क्रियाओं को श्रेय देना चुनौतीपूर्ण होता है जब पुरस्कार देर से आते हैं। मैकरॉन समय बुनाई का उपयोग करता है, जो समय के साथ घटनाओं को कथात्मक धागों के साथ जोड़ता है। एजेंट इंटरैक्शन का एक ग्राफ बनाता है जहाँ नोड्स यादों का प्रतिनिधित्व करते हैं और किनारे कारण संबंधों का। जब किसी परिणाम का मूल्यांकन किया जाता है, तो सिस्टम ग्राफ को पीछे की ओर यात्रा करता है ताकि यह पहचाना जा सके कि कौन सी पुनःप्राप्तियाँ या क्रियाएँ योगदान करती हैं। उदाहरण के लिए, यदि जापानी त्योहार की सिफारिश करने से उपयोगकर्ता की खुशी हफ्तों बाद बढ़ गई, तो एजेंट इस पुरस्कार के एक हिस्से को त्योहार की स्मृति को पुनःप्राप्त करने और एक संबंधित मिनी-ऐप उत्पन्न करने का श्रेय देता है। यह स्पष्ट कारण विश्लेषण आरएल नीति को प्रभावी पुनःप्राप्ति रणनीतियों को सीखने में मदद करता है।
क्रेडिट असाइनमेंट में सुधार के लिए, Macaron प्रतिव्यापक एंकरिंग का उपयोग करता है। एजेंट उन वैकल्पिक क्रियाओं पर विचार करता है जो वह कर सकता था और परिणाम में अंतर का अनुमान लगाता है। यदि किसी कोरियाई उपयोगकर्ता को पारिवारिक कार्यक्रम की याद न दिलाना शर्मिंदगी का कारण बनता, तो वास्तविक याद दिलाने पर सकारात्मक प्रतिव्यापक पुरस्कार मिलता है। यह एजेंट को जानकारी भूलने या याद करने के परिणामों का अनुमान लगाने के लिए प्रोत्साहित करता है। प्रतिव्यापक तर्कसंगति ओवरफिटिंग से बचने में भी मदद करती है: एजेंट स्वतः यह नहीं मानता कि किसी सफल क्रिया को दोहराने से हमेशा वही इनाम मिलेगा; इसके बजाय, यह परीक्षण करता है कि क्या वास्तव में क्रिया का परिणाम का कारण है।
Macaron की आरएल कार्यान्वयन में अर्हता ट्रेसेस शामिल होती हैं, एक तंत्र जो उन राज्यों और क्रियाओं को श्रेय देने के लिए उपयोग किया जाता है जो पुरस्कारों से पहले होते हैं। जब एजेंट को विलंबित पुरस्कार प्राप्त होता है (जैसे, एक उपयोगकर्ता की संतुष्टि जो किसी मिनी-ऐप का हफ्तों तक उपयोग करने के बाद मिलती है), तो ट्रेस इस संकेत को पहले के निर्णयों तक वापस पहुँचाने में मदद करता है जैसे स्मृति चयन, बातचीत का स्वर और कोड मॉड्यूल विकल्प। अर्हता ट्रेसेस एक घटती कारक द्वारा भारित होते हैं; पुरस्कार के करीब के राज्य उच्च श्रेय प्राप्त करते हैं। यह तंत्र एजेंट को दीर्घकालिक संतुष्टि को अनुकूलित करने के लिए प्रोत्साहित करता है बजाय अल्पकालिक लाभ के।
रीइन्फोर्समेंट लर्निंग अनजाने में फीडबैक डेटा से पूर्वाग्रह सीख सकता है। Macaron इसे इनाम के फ़ंक्शन में न्याय की सीमाएँ शामिल करके ठीक करता है। उदाहरण के लिए, अगर एजेंट लगातार बिना पूछे लिंग-विशिष्ट गतिविधियाँ सुझाता है, तो उसे दंडित किया जाता है। प्रणाली जनसांख्यिकीय समूहों में सिफारिश पैटर्न की निगरानी करती है और अवसरों को बराबर करने के लिए इनाम को समायोजित करती है। जब वित्त या स्वास्थ्य जैसे संवेदनशील विषयों का सामना होता है, तो एजेंट नैतिक नीति पुस्तकालय से परामर्श करता है जो सांस्कृतिक मानदंड और कानूनी आवश्यकताओं को कूटबद्ध करता है। इन दिशानिर्देशों का उल्लंघन करने पर नकारात्मक इनाम मिलता है या कार्रवाई को पूरी तरह से अवरोधित कर दिया जाता है।
कोरिया का एआई फ्रेमवर्क अधिनियम उच्च-प्रभाव वाले सिस्टम और जनरेटिव एआई सूचनाओं के लिए मानव पर्यवेक्षण की आवश्यकता करता है। मैकरॉन वित्तीय योजना या स्वास्थ्य देखभाल सलाह जैसे बड़े निर्णयों में मानव-इन-द-लूप शामिल कर अनुपालन करता है। जब कोई कोरियाई उपयोगकर्ता उच्च-दांव वाला मिनी-ऐप उत्पन्न करता है, तो सिस्टम उन्हें क्रियाओं की समीक्षा और अनुमोदन करने के लिए प्रेरित करता है। जापान का एआई प्रमोशन अधिनियम पारदर्शिता पर जोर देता है; इसलिए, मैकरॉन आरएल निर्णयों को लॉग करता है और उपयोगकर्ताओं को यह समझाता है कि किन कारणों से कुछ यादें या मॉड्यूल चुने गए। ये उपाय विश्वास बनाते हैं और जिम्मेदारी सुनिश्चित करते हैं।
जापान का एआई कानून गैर-अनुपालन के लिए नाम-और-शर्म तंत्र लागू करता है। मैकरॉन के आरएल लॉग्स में केवल पुरस्कार ही नहीं बल्कि निर्णयों के पीछे के कारण भी शामिल होते हैं। यदि नियामक जांच करते हैं, तो कंपनी यह दिखा सकती है कि पूर्वाग्रहों का समाधान किया गया और गोपनीयता नियमों का पालन किया गया। लॉग्स उपयोगकर्ता ऑडिट का समर्थन भी करते हैं; व्यक्ति देख सकते हैं कि उनकी प्रतिक्रिया ने एआई के व्यवहार को कैसे प्रभावित किया। ऐसी पारदर्शिता आरएल के दुरुपयोग को रोकती है और नैतिक नवाचार को बढ़ावा देती है।
RL ने गेमिंग (AlphaGo, Dota 2), रोबोटिक्स और सिफारिश प्रणालियों में प्रभावशाली परिणाम दिए हैं। हालांकि, इन वातावरणों में स्पष्ट लक्ष्य (खेल जीतना, त्रुटि को कम करना) और स्पष्ट पुरस्कार होते हैं। इसके विपरीत, व्यक्तिगत AI को अव्यवस्थित डेटा से लक्ष्यों को समझना और मानव मूल्यों के साथ तालमेल बिठाना होता है। गेमिंग में, अन्वेषण अक्सर अनियंत्रित होता है; एक एजेंट स्थिति लाभ पाने के लिए एक प्यादा बलिदान कर सकता है। व्यक्तिगत AI में, अल्पकालिक सगाई के लिए उपयोगकर्ता के विश्वास का बलिदान अस्वीकार्य है। Macaron का इनाम मॉडल उन कार्यों को स्पष्ट रूप से दंडित करता है जो विश्वास को कम करते हैं, जिससे आवश्यकता पड़ने पर प्रणाली को रूढ़िवादी बना देता है।
कुछ ओपन-सोर्स प्रोजेक्ट्स आरएल संचालित व्यक्तिगत सहायक प्रदान करते हैं जो कार्यों का समय निर्धारण करते हैं या कार्यप्रवाह को स्वचालित करते हैं। ये सिस्टम अक्सर निरंतर उपयोगकर्ता फीडबैक मानते हैं और कार्यों को स्वतंत्र मानते हैं। मैकरॉन इसका अनुसरण नहीं करता है बल्कि अपने मेमोरी इंजन के माध्यम से कार्यों को एकीकृत करता है और इंटरैक्शन को प्रबंधित करने के लिए पदानुक्रम आरएल का उपयोग करता है। इसका आरएल मॉडल सांस्कृतिक संदर्भ, गोपनीयता नियमों और कोड जनरेशन के साथ गहराई से जुड़ा हुआ है, जिससे यह अधिक जटिल बनता है लेकिन साथ ही अधिक सक्षम भी। जबकि अन्य एजेंट सुनने के इतिहास के आधार पर गाने की सिफारिश करने के लिए आरएल का उपयोग कर सकते हैं, मैकरॉन आरएल का उपयोग यह तय करने के लिए करता है कि आपको अपनी माँ को कॉल करने की याद दिलानी है या नहीं, इससे पहले कि वह उपहार सिफारिश उत्पन्न करे।
शोधकर्ताओं ने बड़े भाषा मॉडलों को नियंत्रित करने के लिए RL पद्धतियों का प्रस्ताव दिया है, जैसे कि RLHF और अनसुपरवाइज्ड पर्यावरण डिजाइन। मैकरॉन इस साहित्य में योगदान देता है वास्तविक-विश्व, बहु-क्षेत्र, क्रॉस-लिंगुअल वातावरण में RL का प्रदर्शन करके। फायरएक्ट परियोजना ने पहले ही स्थापित किया था कि RL प्रम्प्ट-आधारित एजेंटों की तुलना में 77% तक तर्क की सटीकता में सुधार करता है; मैकरॉन इस विचार का विस्तार करता है न केवल तर्क कार्यों पर बल्कि स्मृति प्रबंधन, कोड संश्लेषण और संवाद शैली पर भी RL नीतियों को प्रशिक्षित करके। यह व्यक्तिगत एजेंटों के लिए RL को स्केल करने में पदानुक्रमित डिजाइन, क्रेडिट असाइनमेंट, और निष्पक्षता बाधाओं के महत्व को उजागर करता है।
रीइन्फोर्समेंट लर्निंग इनाम के लिए अनुकूलित होती है, लेकिन इनाम कार्य मानव मूल्यों को एन्कोड करते हैं जो विभिन्न संस्कृतियों में भिन्न होते हैं। मेटा-नैतिक प्रश्न उठते हैं: क्या एजेंट को खुशी को अधिकतम करना चाहिए, कर्तव्य-आधारित नैतिकता का पालन करना चाहिए, या निष्पक्षता को स्वायत्तता के साथ संतुलित करना चाहिए? मैकरॉन इसको सांस्कृतिक डेटा से मानक प्राथमिकताओं को सीखकर संबोधित करता है। जापान में, जहाँ सद्भाव और सामाजिक व्यवस्था के लिए सम्मान की सराहना की जाती है, इनाम मॉडल शिष्टाचार, सहमति और सूक्ष्मता पर जोर देता है। कोरिया में, जो सामुदायिक लचीलापन और साहसिक नवाचार को महत्व देता है, मॉडल सक्रिय सहायता और पारदर्शिता को पुरस्कृत करता है। ये मानक ढांचे स्थिर नहीं हैं; उपयोगकर्ता नैतिक स्लाइडर्स को समायोजित कर सकते हैं, और मैकरॉन सीमाओं के तहत मूल्य स्थान का अन्वेषण करता है। एक चल रही शोध दिशा औपचारिक नैतिक सिद्धांतों—उपयोगितावाद, कर्तव्यशास्त्र, गुण नैतिकता—को आरएल एजेंटों में एकीकृत करना है ताकि वे अपने कार्यों के पीछे नैतिक समझौतों की व्याख्या कर सकें। यह विशेष रूप से उच्च-प्रभाव वाले निर्णयों के लिए महत्वपूर्ण है जैसे वित्तीय योजना या स्वास्थ्य देखभाल सिफारिशें।
व्यक्तिगत एजेंट परिवारों, टीमों और समुदायों के भीतर बातचीत को बढ़ते हुए मध्यस्थता करते हैं। सामाजिक सुदृढीकरण शिक्षण RL को बहु-एजेंट सेटिंग्स तक बढ़ाता है, जहां एजेंटों को कई हितधारकों के कल्याण पर विचार करना चाहिए। उदाहरण के लिए, जब एक पारिवारिक कार्यक्रम का समय निर्धारित किया जाता है, तो मैकरॉन को व्यक्तिगत प्राथमिकताओं (गोपनीयता, कार्यभार) के साथ सामूहिक संतोष को संतुलित करना चाहिए। समूह पुरस्कारों को आकार देने के लिए परेतो दक्षता का उपयोग किया जा सकता है—यह सुनिश्चित करना कि एक सदस्य के परिणाम को सुधारने से अन्य को नुकसान न पहुंचे—या न्यायपूर्ण विभाजन सिद्धांत। बहुभाषी संदर्भों में, समूह संचार कई भाषाओं में हो सकता है; एजेंट को सांस्कृतिक मानदंडों का सम्मान करते हुए भाषा सीमाओं के पार पुरस्कारों को एकीकृत करना चाहिए। भविष्य के अनुसंधान में समानतापूर्ण RL का अन्वेषण होगा, जहां हाशिए पर स्थित आवाजों को अधिक वजन दिया जाएगा, जिससे समावेशिता सुनिश्चित होगी। अन्य उपायों में एजेंटों के बीच बातचीत को अनुकरण करने के लिए स्वयं-खेल, नए समूह गतिशीलता के अनुकूल होने के लिए मेटा-लर्निंग, और सामाजिक प्रतिक्रिया में सहसंबंध को कारण से अलग करने के लिए कारणात्मक अनुमान शामिल हैं। ये प्रगति मैकरॉन और समान व्यक्तिगत AI को एक से एक बातचीत से सामाजिक अनुभवों को संचालित करने की अनुमति देगी, जिससे वे जापानी और कोरियाई समाज में अमूल्य साथी बन जाएंगे।