लेखक: बॉक्सू ली 

परिचय

रीइन्फोर्समेंट लर्निंग (RL) आधुनिक AI का एक मुख्य तत्व बन गया है, जो एजेंटों को ट्रायल और एरर के माध्यम से सर्वोत्तम नीतियां सीखने में सक्षम बनाता है। व्यक्तिगत AI के संदर्भ में, हालांकि, RL अद्वितीय चुनौतियों का सामना करता है: पुरस्कार विषयक होते हैं, वातावरण गैर‑स्थिर होते हैं, और नैतिक विचारणाएँ प्रचुर मात्रा में होती हैं। मैकरॉन AI के डिजाइनरों ने इन चुनौतियों का सीधे सामना किया, एक बहु‑स्तरीय RL प्रणाली का निर्माण किया जो मेमोरी प्रबंधन, कोड संश्लेषण, वार्तालाप शैली और अधिक को नियंत्रित करता है। यह ब्लॉग बताता है कि मैकरॉन कैसे पदानुक्रमित RLपुरस्कार मॉडलिंगक्रेडिट असाइनमेंट और निष्पक्षता प्रतिबंधों का उपयोग करके एक वास्तव में व्यक्तिगत एजेंट बनाता है। हम मैकरॉन के RL दृष्टिकोण की तुलना अन्य क्षेत्रों में RL से भी करते हैं और भविष्य की दिशा-निर्देशों का अन्वेषण करते हैं।

1 रिवार्ड मॉडलिंग: मानव प्राथमिकताओं को कैप्चर करना

1.1 अप्रत्यक्ष और प्रत्यक्ष फीडबैक संकेत

बोर्ड गेम्स या सिम्युलेटेड वातावरण के विपरीत, व्यक्तिगत एजेंट ऐसे खुले स्थानों में कार्य करते हैं जहाँ रिवार्ड केवल कार्य की सफलता से नहीं प्राप्त किया जा सकता है। मैकरॉन अप्रत्यक्ष फीडबैक (वार्तालाप की लंबाई, उपयोग की आवृत्ति, उपयोगकर्ता प्रतिक्रियाओं का स्वर) और प्रत्यक्ष फीडबैक (रेटिंग्स, थंब्स अप/डाउन) एकत्र करता है ताकि एक रिवार्ड संकेत का निर्माण किया जा सके। उदाहरण के लिए, यदि एक जापानी उपयोगकर्ता एजेंट द्वारा विनम्र भाषा उपयोग करने के बाद लंबे वार्तालाप में संलग्न होता है, तो इस सकारात्मक संबंध से समान व्यवहार के लिए रिवार्ड बढ़ जाता है। यदि एक कोरियाई उपयोगकर्ता द्वारा एक जनरेटेड मिनी-ऐप को अव्यवस्थित डिज़ाइन के कारण खराब रेट किया जाता है, तो उस UI पैटर्न के लिए रिवार्ड घट जाता है। ये संकेत एक रिवार्ड मॉडल में योगदान करते हैं जो एक दिए गए स्थिति और क्रिया के लिए उपयोगकर्ता संतोष की भविष्यवाणी करता है।

1.2 बहु-उद्देश्यीय रिवार्ड फ़ंक्शंस

Macaron का RL बहु-उद्देश्यीय है। उपयोगकर्ता संतुष्टि के अलावा, इनाम में गोपनीयता, अनुपालन, संसाधन उपयोग और नैतिकता के लिए शर्तें शामिल हैं। बिना उचित सहमति के संवेदनशील जानकारी साझा करने पर दंड मिलता है, जबकि मेमोरी को प्रभावी रूप से संपीड़ित करने पर बोनस मिलता है। कोड जनरेशन के लिए, दक्षता और रखरखाव इनाम को प्रभावित करते हैं: अत्यधिक जटिलता (जैसे, अनावश्यक रूप से 100,000 पंक्तियों का जनरेट करना) नकारात्मक इनाम का कारण बनती है। इनाम के भार विभिन्न क्षेत्रों के लिए समायोजित किए जाते हैं। जापान की गोपनीयता और पारदर्शिता पर जोर देने से गोपनीयता उल्लंघनों के लिए दंड बढ़ जाता है, जबकि कोरिया का नवाचार पर ध्यान गति और नवीनता के लिए अधिक वजन डाल सकता है। इन उद्देश्यों को संतुलित करने के लिए सावधानीपूर्वक डिज़ाइन की आवश्यकता होती है; Macaron एक स्केलराइजेशन फ़ंक्शन का उपयोग करता है जो वेटेड सम और डायनामिक स्केलिंग के माध्यम से कई उद्देश्यों को एकल इनाम में परिवर्तित करता है।

1.3 प्राथमिकता आह्वान और मानव-इन-लूप

AI प्रणालियों को मूल्यों के साथ संरेखित करने के लिए मानव प्रतिक्रिया महत्वपूर्ण है। Macaron पसंद अन्वेषण लागू करता है जो वैकल्पिक प्रतिक्रियाएँ या मिनी‑ऐप डिज़ाइन प्रस्तुत करता है और उपयोगकर्ताओं से पूछता है कि वे किसे पसंद करते हैं। यह डेटा एक अनुमान मॉडल को खिलाता है जो संभावित क्रियाओं पर एक गुप्त उपयोगिता फ़ंक्शन सीखता है। यह दृष्टिकोण RLHF (मानव प्रतिक्रिया से सुदृढीकरण सीखना) के समान है जिसका उपयोग बड़े भाषा मॉडलों को प्रशिक्षित करने के लिए किया जाता है, लेकिन Macaron इसे सांस्कृतिक एनोटेशन को शामिल करके विस्तारित करता है: जापानी एनोटेटर्स शिष्टाचार और संदर्भ पर टिप्पणी करते हैं, जबकि कोरियाई एनोटेटर्स सामुदायिक बनाम व्यष्टिक वाक्यांश पर ध्यान देते हैं। परिणामी पुरस्कार मॉडल संस्कृतियों के बीच सूक्ष्म प्राथमिकताओं को दर्शाता है।

2 पदानुक्रमात्मक RL: जटिलता का विघटन

2.1 मॉड्यूल पर उच्च‑स्तरीय नीति

Macaron के कार्य आकस्मिक बातचीत से लेकर जटिल सॉफ़्टवेयर जनरेट करने तक होते हैं। इस विविधता को प्रबंधित करने के लिए, सिस्टम पदानुक्रमिक RL का उपयोग करता है। शीर्ष स्तर पर, एक मेटा-कंट्रोलर मॉड्यूलों में चयन करता है: वार्तालाप प्रबंधक, स्मृति प्रबंधक, संश्लेषण इंजन, भावना नियामक, आदि। प्रत्येक मॉड्यूल को स्वयं एक अलग RL नीति द्वारा नियंत्रित किया जाता है। उदाहरण के लिए, स्मृति प्रबंधक यह तय करने के लिए RL का उपयोग करता है कि क्या संग्रहीत करना है या भूलना है, जबकि संश्लेषण इंजन RL का उपयोग कोड टेम्पलेट्स चुनने के लिए करता है। मेटा-कंट्रोलर सभी मॉड्यूल पुरस्कारों को मिलाकर एक उच्च स्तरीय पुरस्कार प्राप्त करता है और सीखता है कि कब कार्यों को सौंपना है। यह विघटन खोज स्थान को कम करता है और नमूना दक्षता में सुधार करता है।

2.2 विकल्प खोज और ट्रांसफर लर्निंग

मॉड्यूल्स के भीतर, Macaron पुन: उपयोग योग्य उप-नीतियों को दर्शाने के लिए विकल्प ढांचे का उपयोग करता है। एक "विकल्प" एक उपलक्ष्य को प्राप्त करने वाली क्रियाओं की श्रृंखला के अनुरूप होता है, जैसे "पिछले महीने के खर्चों का सारांश" या "द्विभाषी अध्ययन योजना की सिफारिश करें।" यदि आधारभूत संरचना मेल खाती है, तो जापानी डोमेन में खोजे गए विकल्प को कोरियाई डोमेन में स्थानांतरित किया जा सकता है। जब Macaron एक भाषा में उपयोगकर्ता के अनुरोध को संभालने का प्रभावी तरीका सीखता है, तो यह उसी विकल्प को लागू कर सकता है जब अवधारणा किसी अन्य भाषा में प्रकट होती है, जिससे अनुकूलन में तेजी आती है।

2.3 कालिक अमूर्तीकरण और मैक्रो-क्रियाएँ

टेम्पोरल एब्सट्रैक्शन RL एजेंट्स को विभिन्न समय पैमानों पर विचार करने की अनुमति देता है। Macaron मैक्रो-क्रियाओं को परिभाषित करता है जो बहु-मोड़ संवाद या लंबी गणनाओं को समाहित करती हैं। उदाहरण के लिए, एक कोरियाई पारिवारिक छुट्टी की योजना बनाना एक मैक्रो-क्रिया में आता है जिसमें गंतव्य चयन, परिवहन, आवास और यात्रा कार्यक्रम डिजाइन शामिल होते हैं। RL एजेंट्स मैक्रो-क्रिया का मूल्यांकन संचयी पुरस्कार के आधार पर करते हैं न कि अल्पकालिक संकेतों के आधार पर। यह एजेंट को दीर्घकालिक संतुष्टि पर विचार करने के लिए प्रेरित करता है, जैसे कि यात्रा को स्कूल की छुट्टियों के साथ संरेखित करना या शेड्यूलिंग संघर्षों से बचना।

3 क्रेडिट असाइनमेंट और समय बुनाई

3.1 कारण श्रृंखलाओं का पता लगाना

विशिष्ट क्रियाओं को श्रेय देना चुनौतीपूर्ण होता है जब पुरस्कार देर से आते हैं। मैकरॉन समय बुनाई का उपयोग करता है, जो समय के साथ घटनाओं को कथात्मक धागों के साथ जोड़ता है। एजेंट इंटरैक्शन का एक ग्राफ बनाता है जहाँ नोड्स यादों का प्रतिनिधित्व करते हैं और किनारे कारण संबंधों का। जब किसी परिणाम का मूल्यांकन किया जाता है, तो सिस्टम ग्राफ को पीछे की ओर यात्रा करता है ताकि यह पहचाना जा सके कि कौन सी पुनःप्राप्तियाँ या क्रियाएँ योगदान करती हैं। उदाहरण के लिए, यदि जापानी त्योहार की सिफारिश करने से उपयोगकर्ता की खुशी हफ्तों बाद बढ़ गई, तो एजेंट इस पुरस्कार के एक हिस्से को त्योहार की स्मृति को पुनःप्राप्त करने और एक संबंधित मिनी-ऐप उत्पन्न करने का श्रेय देता है। यह स्पष्ट कारण विश्लेषण आरएल नीति को प्रभावी पुनःप्राप्ति रणनीतियों को सीखने में मदद करता है।

3.2 प्रतिकूल तर्क

क्रेडिट असाइनमेंट में सुधार के लिए, Macaron प्रतिव्यापक एंकरिंग का उपयोग करता है। एजेंट उन वैकल्पिक क्रियाओं पर विचार करता है जो वह कर सकता था और परिणाम में अंतर का अनुमान लगाता है। यदि किसी कोरियाई उपयोगकर्ता को पारिवारिक कार्यक्रम की याद न दिलाना शर्मिंदगी का कारण बनता, तो वास्तविक याद दिलाने पर सकारात्मक प्रतिव्यापक पुरस्कार मिलता है। यह एजेंट को जानकारी भूलने या याद करने के परिणामों का अनुमान लगाने के लिए प्रोत्साहित करता है। प्रतिव्यापक तर्कसंगति ओवरफिटिंग से बचने में भी मदद करती है: एजेंट स्वतः यह नहीं मानता कि किसी सफल क्रिया को दोहराने से हमेशा वही इनाम मिलेगा; इसके बजाय, यह परीक्षण करता है कि क्या वास्तव में क्रिया का परिणाम का कारण है।

3.3 विलंबित पुरस्कार और पात्रता ट्रेस

Macaron की आरएल कार्यान्वयन में अर्हता ट्रेसेस शामिल होती हैं, एक तंत्र जो उन राज्यों और क्रियाओं को श्रेय देने के लिए उपयोग किया जाता है जो पुरस्कारों से पहले होते हैं। जब एजेंट को विलंबित पुरस्कार प्राप्त होता है (जैसे, एक उपयोगकर्ता की संतुष्टि जो किसी मिनी-ऐप का हफ्तों तक उपयोग करने के बाद मिलती है), तो ट्रेस इस संकेत को पहले के निर्णयों तक वापस पहुँचाने में मदद करता है जैसे स्मृति चयन, बातचीत का स्वर और कोड मॉड्यूल विकल्प। अर्हता ट्रेसेस एक घटती कारक द्वारा भारित होते हैं; पुरस्कार के करीब के राज्य उच्च श्रेय प्राप्त करते हैं। यह तंत्र एजेंट को दीर्घकालिक संतुष्टि को अनुकूलित करने के लिए प्रोत्साहित करता है बजाय अल्पकालिक लाभ के।

4 निष्पक्षता, सुरक्षा और नैतिक विचार

4.1 पूर्वाग्रह और भेदभाव से बचाव

रीइन्फोर्समेंट लर्निंग अनजाने में फीडबैक डेटा से पूर्वाग्रह सीख सकता है। Macaron इसे इनाम के फ़ंक्शन में न्याय की सीमाएँ शामिल करके ठीक करता है। उदाहरण के लिए, अगर एजेंट लगातार बिना पूछे लिंग-विशिष्ट गतिविधियाँ सुझाता है, तो उसे दंडित किया जाता है। प्रणाली जनसांख्यिकीय समूहों में सिफारिश पैटर्न की निगरानी करती है और अवसरों को बराबर करने के लिए इनाम को समायोजित करती है। जब वित्त या स्वास्थ्य जैसे संवेदनशील विषयों का सामना होता है, तो एजेंट नैतिक नीति पुस्तकालय से परामर्श करता है जो सांस्कृतिक मानदंड और कानूनी आवश्यकताओं को कूटबद्ध करता है। इन दिशानिर्देशों का उल्लंघन करने पर नकारात्मक इनाम मिलता है या कार्रवाई को पूरी तरह से अवरोधित कर दिया जाता है।

4.2 मानव पर्यवेक्षण और नियामक अनुपालन

कोरिया का एआई फ्रेमवर्क अधिनियम उच्च-प्रभाव वाले सिस्टम और जनरेटिव एआई सूचनाओं के लिए मानव पर्यवेक्षण की आवश्यकता करता है। मैकरॉन वित्तीय योजना या स्वास्थ्य देखभाल सलाह जैसे बड़े निर्णयों में मानव-इन-द-लूप शामिल कर अनुपालन करता है। जब कोई कोरियाई उपयोगकर्ता उच्च-दांव वाला मिनी-ऐप उत्पन्न करता है, तो सिस्टम उन्हें क्रियाओं की समीक्षा और अनुमोदन करने के लिए प्रेरित करता है। जापान का एआई प्रमोशन अधिनियम पारदर्शिता पर जोर देता है; इसलिए, मैकरॉन आरएल निर्णयों को लॉग करता है और उपयोगकर्ताओं को यह समझाता है कि किन कारणों से कुछ यादें या मॉड्यूल चुने गए। ये उपाय विश्वास बनाते हैं और जिम्मेदारी सुनिश्चित करते हैं।

4.3 नाम-और-शर्म प्रवर्तन और ऑडिट ट्रेल्स

जापान का एआई कानून गैर-अनुपालन के लिए नाम-और-शर्म तंत्र लागू करता है। मैकरॉन के आरएल लॉग्स में केवल पुरस्कार ही नहीं बल्कि निर्णयों के पीछे के कारण भी शामिल होते हैं। यदि नियामक जांच करते हैं, तो कंपनी यह दिखा सकती है कि पूर्वाग्रहों का समाधान किया गया और गोपनीयता नियमों का पालन किया गया। लॉग्स उपयोगकर्ता ऑडिट का समर्थन भी करते हैं; व्यक्ति देख सकते हैं कि उनकी प्रतिक्रिया ने एआई के व्यवहार को कैसे प्रभावित किया। ऐसी पारदर्शिता आरएल के दुरुपयोग को रोकती है और नैतिक नवाचार को बढ़ावा देती है।

5 तुलनात्मक विश्लेषण: मैकरॉन बनाम अन्य आरएल-चालित एजेंट्स

5.1 गेमिंग, रोबोटिक्स और सिफारिश प्रणाली

RL ने गेमिंग (AlphaGo, Dota 2), रोबोटिक्स और सिफारिश प्रणालियों में प्रभावशाली परिणाम दिए हैं। हालांकि, इन वातावरणों में स्पष्ट लक्ष्य (खेल जीतना, त्रुटि को कम करना) और स्पष्ट पुरस्कार होते हैं। इसके विपरीत, व्यक्तिगत AI को अव्यवस्थित डेटा से लक्ष्यों को समझना और मानव मूल्यों के साथ तालमेल बिठाना होता है। गेमिंग में, अन्वेषण अक्सर अनियंत्रित होता है; एक एजेंट स्थिति लाभ पाने के लिए एक प्यादा बलिदान कर सकता है। व्यक्तिगत AI में, अल्पकालिक सगाई के लिए उपयोगकर्ता के विश्वास का बलिदान अस्वीकार्य है। Macaron का इनाम मॉडल उन कार्यों को स्पष्ट रूप से दंडित करता है जो विश्वास को कम करते हैं, जिससे आवश्यकता पड़ने पर प्रणाली को रूढ़िवादी बना देता है।

5.2 ओपन-सोर्स व्यक्तिगत सहायक ढाँचे

कुछ ओपन-सोर्स प्रोजेक्ट्स आरएल संचालित व्यक्तिगत सहायक प्रदान करते हैं जो कार्यों का समय निर्धारण करते हैं या कार्यप्रवाह को स्वचालित करते हैं। ये सिस्टम अक्सर निरंतर उपयोगकर्ता फीडबैक मानते हैं और कार्यों को स्वतंत्र मानते हैं। मैकरॉन इसका अनुसरण नहीं करता है बल्कि अपने मेमोरी इंजन के माध्यम से कार्यों को एकीकृत करता है और इंटरैक्शन को प्रबंधित करने के लिए पदानुक्रम आरएल का उपयोग करता है। इसका आरएल मॉडल सांस्कृतिक संदर्भ, गोपनीयता नियमों और कोड जनरेशन के साथ गहराई से जुड़ा हुआ है, जिससे यह अधिक जटिल बनता है लेकिन साथ ही अधिक सक्षम भी। जबकि अन्य एजेंट सुनने के इतिहास के आधार पर गाने की सिफारिश करने के लिए आरएल का उपयोग कर सकते हैं, मैकरॉन आरएल का उपयोग यह तय करने के लिए करता है कि आपको अपनी माँ को कॉल करने की याद दिलानी है या नहीं, इससे पहले कि वह उपहार सिफारिश उत्पन्न करे।

5.3 उभरता हुआ शैक्षणिक अनुसंधान

शोधकर्ताओं ने बड़े भाषा मॉडलों को नियंत्रित करने के लिए RL पद्धतियों का प्रस्ताव दिया है, जैसे कि RLHF और अनसुपरवाइज्ड पर्यावरण डिजाइन। मैकरॉन इस साहित्य में योगदान देता है वास्तविक-विश्व, बहु-क्षेत्र, क्रॉस-लिंगुअल वातावरण में RL का प्रदर्शन करके। फायरएक्ट परियोजना ने पहले ही स्थापित किया था कि RL प्रम्प्ट-आधारित एजेंटों की तुलना में 77% तक तर्क की सटीकता में सुधार करता है; मैकरॉन इस विचार का विस्तार करता है न केवल तर्क कार्यों पर बल्कि स्मृति प्रबंधन, कोड संश्लेषण और संवाद शैली पर भी RL नीतियों को प्रशिक्षित करके। यह व्यक्तिगत एजेंटों के लिए RL को स्केल करने में पदानुक्रमित डिजाइन, क्रेडिट असाइनमेंट, और निष्पक्षता बाधाओं के महत्व को उजागर करता है।

5.4 मेटा-नैतिकता और मानक ढांचे

रीइन्फोर्समेंट लर्निंग इनाम के लिए अनुकूलित होती है, लेकिन इनाम कार्य मानव मूल्यों को एन्कोड करते हैं जो विभिन्न संस्कृतियों में भिन्न होते हैं। मेटा-नैतिक प्रश्न उठते हैं: क्या एजेंट को खुशी को अधिकतम करना चाहिए, कर्तव्य-आधारित नैतिकता का पालन करना चाहिए, या निष्पक्षता को स्वायत्तता के साथ संतुलित करना चाहिए? मैकरॉन इसको सांस्कृतिक डेटा से मानक प्राथमिकताओं को सीखकर संबोधित करता है। जापान में, जहाँ सद्भाव और सामाजिक व्यवस्था के लिए सम्मान की सराहना की जाती है, इनाम मॉडल शिष्टाचार, सहमति और सूक्ष्मता पर जोर देता है। कोरिया में, जो सामुदायिक लचीलापन और साहसिक नवाचार को महत्व देता है, मॉडल सक्रिय सहायता और पारदर्शिता को पुरस्कृत करता है। ये मानक ढांचे स्थिर नहीं हैं; उपयोगकर्ता नैतिक स्लाइडर्स को समायोजित कर सकते हैं, और मैकरॉन सीमाओं के तहत मूल्य स्थान का अन्वेषण करता है। एक चल रही शोध दिशा औपचारिक नैतिक सिद्धांतों—उपयोगितावाद, कर्तव्यशास्त्र, गुण नैतिकता—को आरएल एजेंटों में एकीकृत करना है ताकि वे अपने कार्यों के पीछे नैतिक समझौतों की व्याख्या कर सकें। यह विशेष रूप से उच्च-प्रभाव वाले निर्णयों के लिए महत्वपूर्ण है जैसे वित्तीय योजना या स्वास्थ्य देखभाल सिफारिशें।

5.5 भविष्य की दिशाएँ: सामाजिक आरएल और समूह पुरस्कार

व्यक्तिगत एजेंट परिवारों, टीमों और समुदायों के भीतर बातचीत को बढ़ते हुए मध्यस्थता करते हैं। सामाजिक सुदृढीकरण शिक्षण RL को बहु-एजेंट सेटिंग्स तक बढ़ाता है, जहां एजेंटों को कई हितधारकों के कल्याण पर विचार करना चाहिए। उदाहरण के लिए, जब एक पारिवारिक कार्यक्रम का समय निर्धारित किया जाता है, तो मैकरॉन को व्यक्तिगत प्राथमिकताओं (गोपनीयता, कार्यभार) के साथ सामूहिक संतोष को संतुलित करना चाहिए। समूह पुरस्कारों को आकार देने के लिए परेतो दक्षता का उपयोग किया जा सकता है—यह सुनिश्चित करना कि एक सदस्य के परिणाम को सुधारने से अन्य को नुकसान न पहुंचे—या न्यायपूर्ण विभाजन सिद्धांत। बहुभाषी संदर्भों में, समूह संचार कई भाषाओं में हो सकता है; एजेंट को सांस्कृतिक मानदंडों का सम्मान करते हुए भाषा सीमाओं के पार पुरस्कारों को एकीकृत करना चाहिए। भविष्य के अनुसंधान में समानतापूर्ण RL का अन्वेषण होगा, जहां हाशिए पर स्थित आवाजों को अधिक वजन दिया जाएगा, जिससे समावेशिता सुनिश्चित होगी। अन्य उपायों में एजेंटों के बीच बातचीत को अनुकरण करने के लिए स्वयं-खेल, नए समूह गतिशीलता के अनुकूल होने के लिए मेटा-लर्निंग, और सामाजिक प्रतिक्रिया में सहसंबंध को कारण से अलग करने के लिए कारणात्मक अनुमान शामिल हैं। ये प्रगति मैकरॉन और समान व्यक्तिगत AI को एक से एक बातचीत से सामाजिक अनुभवों को संचालित करने की अनुमति देगी, जिससे वे जापानी और कोरियाई समाज में अमूल्य साथी बन जाएंगे।

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Related articles

Apply to become Macaron's first friends