लेखक: बॉक्सू ली
Macaron AI सिर्फ एक उत्पादकता उपकरण नहीं है – यह एक मंच है जो हमारी बातचीत को मिनी-एप्लिकेशन्स में बदल देता है जो कैलेंडर प्रबंधित करते हैं, यात्राएँ योजना बनाते हैं और शौक को खोजते हैं। इसके मैत्रीपूर्ण सतह के नीचे एक जटिल सुदृढीकरण लर्निंग (RL) प्रणाली और एक मेमोरी इंजन है जो महत्वपूर्ण बातों को याद रखता है और जो नहीं है उसे भूल जाता है[1]। जैसे ही Macaron Claude Sonnet 4.5 और DeepSeek V3.2‑Exp को एकीकृत करने की तैयारी करता है, साथ ही Claude Agent SDK/Code 2.0, यह ब्लॉग यह पता लगाता है कि ये नए मॉडल और उपकरण कैसे Macaron के आउटपुट की गुणवत्ता बढ़ा सकते हैं, मिनी-एप्लिकेशन निर्माण को छोटा कर सकते हैं और बग्स को कम कर सकते हैं। हम Anthropic के डेवलपर अपडेट्स, DeepSeek अनुसंधान और Macaron के अपने इंजीनियरिंग ब्लॉग्स से तकनीकी अंतर्दृष्टियों को मिलाकर एक स्पष्ट तस्वीर बनाते हैं कि आगे क्या आने वाला है।
मॉडलों की तुलना करने से पहले, यह समझना मददगार होता है कि मैकरॉन को क्या अनोखा बनाता है। मैकरॉन रोज़मर्रा की बातचीत को कार्यों और कोड में बदलने के लिए बहु-स्तरीय RL प्रणाली का उपयोग करता है। यह प्रणाली समस्या को कई मॉड्यूल्स में विभाजित करती है - बातचीत प्रबंधन, स्मृति चयन, कोड संश्लेषण और सिम्युलेटर फीडबैक - और उन्हें समन्वयित करने के लिए अवरोही सुदृढीकरण अधिगम (HRL) लागू करती है[2]। एक उच्च-स्तरीय मेटा-कंट्रोलर निर्धारित करता है कि कौन सा मॉड्यूल अगला सक्रिय होना चाहिए, जबकि निचले-स्तरीय RL नीतियाँ विशेष क्रियाओं जैसे कि स्मृति को पुनः प्राप्त करना, एक API को कॉल करना या उत्पन्न कोड को निष्पादित करने का निर्णय लेती हैं[2]। इस डिज़ाइन से मैकरॉन को जटिल लक्ष्यों - यात्रा की योजना बनाने से लेकर वित्त को व्यवस्थित करने तक - को प्रबंधनीय उप-कार्यों में विभाजित करने की अनुमति मिलती है।
व्यक्तिगत AI में, कोई भी एकल "विजय की स्थिति" नहीं होती है; उपयोगकर्ता संतुष्टि, गोपनीयता, समय पर और सांस्कृतिक बारीकी सभी महत्वपूर्ण हैं। मैकरॉन अपने इनाम फ़ंक्शन का निर्माण अप्रत्यक्ष और प्रत्यक्ष फीडबैक को मिलाकर करता है। अप्रत्यक्ष संकेतों में बातचीत की लंबाई, उपयोग की आवृत्ति और स्वर शामिल हैं, जबकि प्रत्यक्ष रेटिंग्स और थंब्स‑अप/डाउन प्राथमिकताओं को कैलिब्रेट करने में मदद करते हैं[3]। मैकरॉन प्राथमिकता अन्वेषण का भी उपयोग करता है, वैकल्पिक प्रतिक्रियाएं या मिनी‑ऐप डिज़ाइन प्रस्तुत करता है और उपयोगकर्ताओं से पूछता है कि वे किसे पसंद करते हैं। फिर एक अनुमान मॉडल संभावित कार्यों पर एक गुप्त उपयोगिता फ़ंक्शन सीखता है, जो मानव फीडबैक से सुदृढीकरण शिक्षण (RLHF) के समान है लेकिन सांस्कृतिक टिप्पणियों के साथ विस्तारित है – जापानी रेटर्स शिष्टाचार और संदर्भ पर जोर देते हैं, जबकि कोरियाई रेटर्स सामुदायिक बनाम व्यक्तिगत भाषा पर ध्यान देते हैं[4]। ये संकेत एक इनाम मॉडल में फ़ीड होते हैं जो उपयोगकर्ता संतुष्टि की भविष्यवाणी करता है और एजेंट को स्थानीय मानदंडों का पालन करने के लिए प्रोत्साहित करता है।
विविध उपयोगकर्ता कार्यों को प्रबंधित करने के लिए, मैकरॉन HRL का उपयोग मॉड्यूल और उप-नीतियों का चयन करने के लिए करता है। मॉड्यूल के भीतर, यह विकल्प ढांचा का उपयोग करता है: उप-लक्ष्य को प्राप्त करने वाले कार्यों की एक अनुक्रमिका को एकल विकल्प के रूप में माना जाता है (उदाहरण के लिए “पिछले महीने के खर्चों का सारांश बनाना” या “द्विभाषी अध्ययन योजना की सिफारिश करना”)[3]। यदि अंतर्निहित संरचनाएँ मेल खाती हैं, तो एक डोमेन में खोजे गए विकल्प दूसरे में स्थानांतरित हो सकते हैं। मैकरॉन मैक्रो-अभिनय भी परिभाषित करता है जो बहु-मोड़ संवादों या लंबे समय तक चलने वाले गणनाओं को समाहित करते हैं, जैसे परिवार की छुट्टी की योजना बनाना (गंतव्य, परिवहन, आवास और यात्रा कार्यक्रम)[3]। RL एजेंट मैक्रो-अभिनयों का मूल्यांकन संचयी इनाम के आधार पर करते हैं, बजाय अल्पकालिक संकेतों के, जिससे एजेंट को दीर्घकालिक संतोष को अनुकूलित करने के लिए प्रोत्साहित किया जाता है।
जब पुरस्कार देर से आते हैं, तो विशिष्ट कार्यों को श्रेय देना मुश्किल होता है। Macaron समय बुनाई का उपयोग करता है, जो घटनाओं को समय के साथ कथात्मक धागों के साथ जोड़ता है। प्रणाली इंटरैक्शन का एक ग्राफ बनाती है जहां नोड्स यादों का प्रतिनिधित्व करते हैं और किनारे कारण संबंधों का प्रतिनिधित्व करते हैं; जब एक परिणाम का मूल्यांकन किया जाता है, तो यह ग्राफ को पीछे की ओर ट्रैवर्स करता है ताकि यह पहचान सके कि कौन सी पुनः प्राप्तियाँ या कार्य योगदान करते हैं[2]। प्रतिपक्ष तर्क यह आकलन करने में मदद करता है कि यदि वैकल्पिक कार्य किए जाते तो क्या होता, जिससे एजेंट को स्वचालित रूप से यह मानने से रोका जाता है कि सफल कार्य को दोहराने से हमेशा वही पुरस्कार मिलता है[2]। Macaron विलंबित पुरस्कारों और पात्रता ट्रेसेज़ का भी उपयोग करता है ताकि संकेत को पहले के निर्णयों जैसे कि स्मृति चयन या वार्तालाप के स्वर में वापस प्रसारित किया जा सके – एजेंट को दीर्घकालिक संतोषजनकता को अनुकूलित करने के लिए प्रोत्साहित किया जा सके[5]।
व्यक्तिगत AI एजेंटों को पक्षपात से बचना चाहिए और नियमों का पालन करना चाहिए। मैकरॉन इनाम फ़ंक्शन में निष्पक्षता बाधाओं को शामिल करता है; उदाहरण के लिए, यदि एजेंट बिना पूछे लगातार जेंडर-विशिष्ट गतिविधियों की सिफारिश करता है तो उसे दंडित किया जाता है[5]। नैतिक नीति पुस्तकालय सांस्कृतिक मानदंडों और कानूनी आवश्यकताओं को कूटबद्ध करता है, और इन दिशानिर्देशों का उल्लंघन करने पर नकारात्मक इनाम मिलता है या कार्रवाई पूरी तरह से रोक दी जाती है[5]। वित्तीय योजना या स्वास्थ्य सेवा सलाह जैसे उच्च प्रभाव वाले निर्णयों में मानव निरीक्षण शामिल होता है, कोरियाई AI फ्रेमवर्क अधिनियम और जापान के AI प्रमोशन अधिनियम की संतुष्टि के लिए[5]। मैकरॉन RL निर्णयों को लॉग करता है और उपयोगकर्ताओं को यह समझाने के लिए स्पष्टीकरण प्रदान करता है कि कुछ यादें या मॉड्यूल क्यों चुने गए, ऑडिट और पारदर्शिता का समर्थन करते हुए[5]।
Macaron का मेमोरी इंजन व्यक्तिगतकरण की रीढ़ है। यह यादों को अल्पकालिक, एपिसोडिक और दीर्घकालिक भंडारण में संगठित करता है। अल्पकालिक भंडारण वर्तमान बातचीत (8-16 संदेश) को रखता है; एपिसोडिक भंडारण हाल की इंटरैक्शन को संकुचनात्मक ध्यान के माध्यम से संकुचित करता है; और दीर्घकालिक भंडारण एक उच्च-आयामी वेक्टर डेटाबेस का उपयोग करता है जिसमें मेटाडेटा टैग (टाइमस्टैम्प, डोमेन, भाषा)[6] होते हैं। लागत प्रबंधन के लिए, Macaron अंतर्निहित संक्षेपण का उपयोग करता है ताकि महत्वपूर्ण खंडों की पहचान कर उन्हें निश्चित-लंबाई वाले वेक्टर में संकुचित किया जा सके; एक आटोएन्कोडिंग उद्देश्य छिपी अवस्थाओं को संकुचित सारांशों से पुनर्निर्मित करता है, और आरएल संक्षेपक को बाद में पुनः स्मरण के लिए महत्वपूर्ण जानकारी को बनाए रखने के लिए परिष्कृत करता है[7]। एक गतिशील मेमोरी टोकन एक पॉइंटर नेटवर्क के रूप में कार्य करता है: यह उम्मीदवार यादों को पुनः प्राप्त करता है, प्रासंगिकता का मूल्यांकन करता है और यह तय करता है कि उन्हें वापस करना है या खोज जारी रखनी है[8]।
पुनः प्राप्ति में उत्पाद क्वांटाइज़ेशन के साथ अनुमानित निकटतम पड़ोसी खोज और समानता और विविधता को संतुलित करने के लिए अधिकतम सीमांत प्रासंगिकता शामिल है[9]। क्वेरी विस्तार उपयोगकर्ता के लक्ष्य और गुप्त इरादे का उपयोग करता है; उदाहरण के लिए, "花火大会" (आतिशबाज़ी महोत्सव) के लिए एक जापानी अनुरोध में टिकट, तारीख और मौसम शामिल होता है[10]। प्रासंगिकता संघ क्रॉस-डोमेन क्वेरीज़ को संभालता है, डोमेन्स और भाषाओं में पुनः प्राप्ति संभावनाओं को वितरित करने के लिए एक सॉफ्टमैक्स गेटिंग फ़ंक्शन का उपयोग करता है[11]। इन घटकों को आरएल के साथ प्रशिक्षित किया जाता है, और समय बुनाई के माध्यम से क्रेडिट असाइनमेंट यह सुनिश्चित करता है कि एजेंट यह सीखे कि कौन सी यादें महत्वपूर्ण थीं[12]। मैकरॉन की मेमोरी प्रणाली पारंपरिक पुनः प्राप्ति-अनुरूप पीढ़ी (RAG) से भिन्न है क्योंकि यादें उपयोगकर्ता-विशिष्ट होती हैं, भंडारण और पुनः प्राप्ति आरएल द्वारा निर्देशित होती है, और प्रत्येक मेमोरी में गोपनीयता मेटाडेटा शामिल होता है जो पहुंच को नियंत्रित करता है[13]।
हालांकि मैकरॉन की आंतरिक संरचना मजबूत है, मिनी-ऐप्स बनाना अभी भी फाइलों को पढ़ने और लिखने, कोड को निष्पादित करने, संस्करण नियंत्रण का उपयोग करने और वेब एपीआई के साथ बातचीत करने की आवश्यकता होती है। एन्थ्रोपिक का क्लॉड एजेंट SDK बिल्कुल यही क्षमताएं प्रदान करता है, वही एजेंट हार्नेस उजागर करता है जो क्लॉड कोड के टर्मिनल सहायक को शक्ति देता है[14]। यह बारीकी से निर्मित उपकरणों को पैकेज करता है: फाइल संचालन (पढ़ना, लिखना, grep, glob), बैश कमांड्स, वेब फेच, बहु-भाषा कोड निष्पादन और Git संचालन[15]। उन सहायकों के विपरीत जो पहले से एक कोडबेस को इंडेक्स करते हैं, क्लॉड एजेंट grep/find/glob का उपयोग कर मांग पर खोज करते हैं ताकि फाइलों का पता लगाया जा सके, जिससे वे डायनामिक रिपोज में अधिक लचीले हो जाते हैं[16]। SDK में बड़े संदर्भ विंडो के साथ स्वचालित संक्षेपण और सारांशण शामिल है, जिससे एजेंट बिना टोकन सीमा को प्रभावित किए महत्वपूर्ण कोड संदर्भ धारण कर सकते हैं[17]। डेवलपर्स अनुमत टूल और अनुमत मोड निर्दिष्ट कर सकते हैं और सुरक्षा के लिए हुक जोड़ सकते हैं, गार्डरेल्स के साथ स्वायत्तता सक्षम कर सकते हैं[18]।
Claude Code 2.0 डेवलपर‑फ्रेंडली अपडेट्स लाता है: चेकपॉइंट्स डेवलपर्स को प्रगति को सहेजने और जब एजेंट गलतियाँ करता है तो उसे वापस लेने की अनुमति देते हैं[24]। एक VS कोड एक्सटेंशन एजेंट को आईडीई में एम्बेड करता है, जबकि एक ताज़ा टर्मिनल इंटरफ़ेस राज्य प्रबंधन में सुधार करता है[25]। Claude API संदर्भ संपादन और एक मेमोरी टूल प्राप्त करता है जो एजेंटों को लंबी अवधि तक चलाने में मदद करता है, जो स्वचालित रूप से संदर्भ को साफ़ करता है और प्रासंगिक टुकड़ों को पुनः प्राप्त करता है[26]। Claude का ऐप और API अब कोड निष्पादित कर सकते हैं, फाइलें बना सकते हैं और डेटा का विश्लेषण कर सकते हैं[27], एक LLM को एक पूर्ण कोडिंग सहायक में बदलना। ये विशेषताएँ Macaron के मिनी‑ऐप पाइपलाइन के लिए विशेष रूप से प्रासंगिक हैं, जिसमें प्रोग्राम कोड उत्पन्न करना, इसे सैंडबॉक्स में परीक्षण करना, त्रुटियों को सुधारना और बाहरी सेवाओं के साथ बातचीत करना शामिल है।
Claude Sonnet 4.5 Anthropic का सबसे सक्षम मॉडल है कोडिंग, एजेंटिक कार्यों और कंप्यूटर उपयोग के लिए। DevOps.com रिपोर्ट करता है कि Sonnet 4.5 30 घंटे से अधिक स्वायत्त रूप से कार्य कर सकता है, जो इसके पूर्ववर्ती के सात घंटों से कहीं अधिक है। यह निर्देशों का पालन करने, कोड पुनर्गठन और उत्पादन-तैयार आउटपुट में उत्कृष्ट है, और यथार्थवादी कोडिंग कार्यों पर SWE-Bench Verified बेंचमार्क का नेतृत्व करता है। वास्तविक दुनिया की तैनाती में सुधार स्पष्ट है: Replit की आंतरिक बेंचमार्क ने देखा कि कोड संपादन त्रुटियाँ Sonnet 4 के साथ 9% से घटकर Sonnet 4.5 के साथ 0% हो गईं, जबकि साइबर सुरक्षा टीमों ने जोखिम सेवन समय को 44% तक घटा दिया और सटीकता में 25% सुधार किया। Netflix इंजीनियर Sonnet 4.5 को “सॉफ्टवेयर विकास कार्यों में उत्कृष्ट, हमारे कोडबेस पैटर्न को सीखकर सटीक कार्यान्वयन देने में सक्षम” बताते हैं।
Sonnet 4.5 का डेवलपर टूलिंग और मेमोरी फीचर्स Agent SDK के साथ समन्वय करते हैं। मॉडल संदर्भ संपादन और मेमोरी प्रबंधन का समर्थन करता है, जो पुरानी संदर्भों को स्वचालित रूप से साफ करता है और प्रासंगिक टुकड़ों को वापस ध्यान में लाता है[24]। यह GUI को क्लिक करके, टाइप करके और मेनू के साथ इंटरैक्ट करके नेविगेट कर सकता है, जिससे टूल्स का ऑटोमेशन बिना API के संभव होता है। SDK की उप‑एजेंट आर्किटेक्चर और चेकपॉइंट्स के साथ मिलकर, इसका मतलब है कि Macaron बिना संदर्भ खोए, मल्टी‑डे सत्रों के दौरान मिनी‑ऐप्स बना सकता है, और आवश्यक होने पर गलतियों को वापस ला सकता है।
जबकि सॉनेट 4.5 गुणवत्ता और स्वायत्तता पर केंद्रित है, डीपसीक V3.2‑Exp कुशलता पर जोर देता है। मॉडल डीपसीक स्पार्स अटेंशन (DSA) को पेश करता है, जो ध्यान के दौरान केवल सबसे महत्वपूर्ण टोकनों का चयन करता है। इससे जटिलता चतुष्कीय O(n²) से O(nk) तक घट जाती है, जिससे लंबे संदर्भों पर 2-3× तेज़ अनुमान, 30-40 % कम मेमोरी उपयोग और API कीमतों में 50 %+ की कमी मिलती है[28]। इन बचतों के बावजूद, V3.2‑Exp अधिकतर बेंचमार्क्स पर पिछले V3.1‑टर्मिनस मॉडल के साथ समानता बनाए रखता है[29]। ओपन‑सोर्स रिलीज़ मैकरॉन को मॉडल को स्थानीय रूप से चलाने, इसे फाइन‑ट्यून करने और नए आर्किटेक्चर का पता लगाने की अनुमति देता है[30]। रॉयटर्स का कहना है कि डीपसीक इसे अपनी अगली-पीढ़ी की आर्किटेक्चर की दिशा में एक मध्यवर्ती कदम के रूप में देखता है; DSA तंत्र कुछ प्रकार के प्रदर्शन को बढ़ाते हुए कंप्यूटिंग लागत को कम करता है[31], और सेवा स्वचालित रूप से V3.2‑Exp में अपग्रेड होती है, उपयोगकर्ताओं के लिए कीमत में भारी कटौती के साथ[32]।
DeepSeek V3.2‑Exp मिश्रित‑विशेषज्ञ डिज़ाइन को अपनाता है और मिश्रित परिशुद्धता और मल्टी‑हेड लेटेंट अटेंशन जोड़ता है[33]। हालाँकि, यह प्रयोगात्मक होने के कारण जटिल तर्क कार्यों पर कुछ मामूली प्रतिगमन दिखाता है[34] और Claude पारिस्थितिकी तंत्र के एकीकृत एजेंट टूलिंग की कमी है। Macaron के लिए इसका मतलब है कि V3.2‑Exp लागत-संवेदनशील कार्यों या प्रोटोटाइपिंग के लिए बेहतर अनुकूल है, जहाँ गति और थ्रूपुट सर्वोच्च कोडिंग सटीकता से अधिक महत्वपूर्ण हैं।
Macaron का दोनों मॉडलों से जुड़ने का निर्णय उनके ताकतों और कमजोरियों की तुलना करने के लिए आमंत्रित करता है। नीचे दी गई तालिका में प्रमुख विशेषताओं का सारांश दिया गया है:
इस तुलना से, हम एक संकर रणनीति निकाल सकते हैं। Macaron प्रारंभिक ड्राफ्ट के लिए DeepSeek V3.2-Exp का उपयोग कर सकता है, जो कम विलंबता और लागत का लाभ देता है, फिर सहीता और सुरक्षा सुनिश्चित करने के लिए Sonnet 4.5 के साथ परिष्कृत या सत्यापित कर सकता है। जटिल मिनी-ऐप्स के लिए जिन्हें गहन विचार-विमर्श की आवश्यकता होती है, Sonnet 4.5 सबसे अच्छा विकल्प बना रहता है, जबकि V3.2-Exp तेजी से पुनरावृत्तियों या बड़े-बैच उत्पादन में उत्कृष्ट है।
Macaron के लिए मुख्य प्रश्न यह है कि क्या Sonnet 4.5 और DeepSeek V3.2-Exp गुणवत्ता में सुधार, विकास समय को कम और बग को कम कर सकते हैं। हम Macaron की पाइपलाइन के संदर्भ में प्रत्येक कारक का विश्लेषण करते हैं:
Sonnet 4.5 उच्च कोड गुणवत्ता और कम त्रुटियों को प्रदान करता है। Replit के अनुसार, Sonnet 4 से Sonnet 4.5 पर जाने पर कोड संपादन त्रुटियाँ 9% से शून्य तक गिर गईं। इसका मतलब है कि Macaron द्वारा उत्पन्न मिनी-ऐप्स अधिक विश्वसनीय रूप से संकलित होंगे, जिनमें कम सिंटैक्स गलतियाँ या अनुपस्थित आयात होंगे। मॉडल की बेहतर निर्देश-अनुसरण क्षमता Macaron को उपयोगकर्ता विनिर्देशों को अधिक सटीकता से समझने में मदद करती है; इसका उन्नत कोड रिफैक्टरिंग सुनिश्चित करता है कि उत्पन्न मॉड्यूल साफ और मॉड्यूलर हों। वित्तीय और साइबर सुरक्षा कार्यों में, Sonnet 4.5 ने 25% से 44% तक सटीकता में सुधार किया, Macaron के यात्रा और वेलनेस ऐप्स के लिए समान लाभों का सुझाव देते हुए। DeepSeek V3.2-Exp, जबकि जटिल तर्क पर थोड़ा कमजोर है, फिर भी V3.1 के साथ बेहतर दक्षता बनाए रखते हुए प्रदर्शन को बनाए रखता है[29]; जब Macaron के डोमेन पर फाइन-ट्यून किया जाता है, तो यह सरल मिनी-ऐप्स के लिए पर्याप्त उच्च सटीकता प्रदान कर सकता है।
Sonnet 4.5 की 30 घंटे से अधिक समय तक स्वायत्त रूप से चलने की क्षमता का मतलब है कि Macaron बिना मैन्युअल रीसेट के एक ही सतत सत्र में एंड-टू-एंड मिनी-ऐप्स उत्पन्न कर सकता है। Agent SDK के संदर्भ प्रबंधन और चेकपॉइंट्स के साथ मिलकर, यह कार्यों को पुनः आरंभ करने या संदर्भ को पुनः लोड करने में खर्च होने वाले समय को कम करता है। उप-एजेंट आर्किटेक्चर Macaron को कार्यों को समानांतर में करने की अनुमति देता है: एक एजेंट UI जनरेशन को संभाल सकता है जबकि दूसरा API इंटीग्रेशन का प्रबंधन करता है, प्रत्येक के पास अपना स्वयं का संदर्भ और उपकरण होते हैं। इस बीच, DeepSeek V3.2-Exp की 2-3× तेज अनुमान लगाना और कम मेमोरी उपयोग तेज प्रतिक्रियाओं में परिवर्तित होते हैं। उदाहरण के लिए, यदि Sonnet 4.5 का उपयोग करके यात्रा कार्यक्रम उत्पन्न करने में 30 सेकंड लगते हैं, तो V3.2-Exp 10-15 सेकंड में एक मोटा ड्राफ्ट तैयार कर सकता है; Sonnet 4.5 फिर इसे परिष्कृत करेगा। शुद्ध प्रभाव यह है कि पहले उपयोग योग्य संस्करण तक का समय कम हो जाता है, जिससे तेजी से उपयोगकर्ता प्रतिक्रिया लूप सक्षम होते हैं।
स्वचालन मानव त्रुटियों को कम करता है, लेकिन यदि सही ढंग से प्रबंधित नहीं किया गया तो स्वायत्तता नए बग्स को जन्म दे सकती है। एजेंट SDK के चेकप्वाइंट्स डेवलपर्स को एजेंट की स्थिति को सहेजने और पुनः प्राप्त करने की सुविधा देते हैं[24]। अगर मैकारोन गलत API कॉल करता है या मिनी-ऐप जेनरेशन के दौरान गलत फाइल में लिखता है, तो डेवलपर को फिर से शुरू करने के बजाय पिछले चेकप्वाइंट पर लौटने का विकल्प मिलता है। संदर्भ संपादन टोकन के समाप्त होने से रोकता है और सुनिश्चित करता है कि केवल प्रासंगिक संदर्भ ही रखा जाए, जिससे गलतफहमियाँ कम होती हैं। डीपसीक के लिए, ओपन-सोर्स रिलीज मैकारोन की टीम को मॉडल का निरीक्षण और संशोधन करने, कस्टम सुरक्षा चेक्स को एकीकृत करने और डोमेन-विशिष्ट कार्यों के लिए फाइन-ट्यून करने की अनुमति देता है। इसके अतिरिक्त, मैकारोन के अपने आरएल तंत्र – समय बुनाई, प्रतिकूल तर्क और निष्पक्षता बाधाएं – उपयोगकर्ता संतुष्टि की निरंतर निगरानी करते हैं और हानिकारक व्यवहार को दंडित करते हैं[2][5], जिससे बग्स और नैतिक उल्लंघनों का जोखिम कम होता है।
उच्च-गुणवत्ता वाले मॉडल की कीमत होती है। सोननेट 4.5 की टोकन कीमत सोननेट 4 से अपरिवर्तित है ($3/M इनपुट टोकन, $15/M आउटपुट टोकन)[37]। डीपसीक V3.2‑Exp एपीआई कॉल की लागत को आधा करता है[38] और, क्योंकि यह ओपन-सोर्स है, इसे स्वयं होस्ट किया जा सकता है। इसलिए, मैकरॉन V3.2‑Exp का उपयोग प्रारंभिक ड्राफ्ट या कम महत्वपूर्ण कार्यों (जैसे, यूआई घटक या सरल कैलकुलेटर जनरेट करना) के लिए कर लागत को अनुकूलित कर सकता है और सोननेट 4.5 को उच्च-अहमियत वाले कार्यों (जैसे, वित्तीय योजना, चिकित्सा सलाह) के लिए आरक्षित कर सकता है जहाँ शुद्धता और अनुपालन महत्वपूर्ण हैं। तेज़ी से निष्कर्षण और कम जीपीयू उपयोग (नीचे चर्चा की गई) से प्राप्त बचत भी गणना लागत को संतुलित करती है।
मॉडल में सुधार करना केवल कहानी का एक हिस्सा है; प्रशिक्षण की दक्षता इस बात को प्रभावित करती है कि Macaron कितनी जल्दी RL नीतियों पर पुनरावृत्ति कर सकता है। MIND LABS एक प्रणाली का वर्णन करता है जो Decoupled Clip और Dynamic Sampling Policy Optimization (DAPO) को Low‑Rank Adaptation (LoRA) के साथ All‑Sync RL वास्तुकला में मिलाता है ताकि केवल 48 H800 GPUs का उपयोग करके 671B DeepSeek मॉडल को प्रशिक्षित किया जा सके – यह मानक RL के लिए आवश्यक 512 GPUs की तुलना में 10× कमी है[39]। Coati और SGLang का उपयोग करके पाइपलाइन समानांतरता, साथ ही तेज LoRA मर्ज और मात्राकरण, "GPU बबल्स" को समाप्त करते हैं जहाँ GPUs निष्क्रिय रहते हैं और अनुमान की प्रतीक्षा करते हैं[40]। परिणामस्वरूप एक प्रशिक्षण चरण के लिए दीवार-घड़ी समय 9 घंटे से 1.5 घंटे तक घट जाता है[41]। ये प्रगति का मतलब है कि Macaron अपने इनाम मॉडल या स्मृति द्वार को तेजी से पुनःप्रशिक्षित कर सकता है, प्रतिक्रिया को अधिक तेज़ी से शामिल कर सकता है और उपयोगकर्ताओं को सुधार जल्दी से लागू कर सकता है।
चित्र 1 – GPU उपयोग में कमी, 512 से 48 H800 GPUs तक, जब All‑Sync RL का उपयोग LoRA के साथ किया जाता है, जिससे अधिक सुलभ RL अनुसंधान और तेज़ प्रयोग संभव होता है[39].
प्रभावशीलता के अलावा, LoRA के निम्न-रैंक अपडेट मॉडल वेट संचार लागत को कम करते हैं, और डायनामिक सैंपलिंग प्रशिक्षण को स्थिर बनाती है, प्रॉम्प्ट्स को फ़िल्टर करके और रिवॉर्ड्स को आकार देकर[42]। Macaron के लिए, इन तकनीकों का अर्थ है कि भविष्य की मेमोरी और पॉलिसी अपडेट्स को तेजी से प्रशिक्षित किया जा सकता है बिना अत्यधिक कंप्यूट लागत के।
Macaron के साथ एक मिनी-ऐप बनाने में कई चरण शामिल हैं:
Sonnet 4.5 और DeepSeek V3.2‑Exp को एकीकृत करके, Macaron इस वर्कफ़्लो को विशेष बना सकता है। उदाहरण के लिए, एक यात्रा योजना ऐप में UI जनरेटर एजेंट DeepSeek का उपयोग करके लेआउट्स को जल्दी से प्रस्तावित कर सकता है, जबकि यात्रा कार्यक्रम की लॉजिक और शेड्यूल ऑप्टिमाइज़ेशन Sonnet 4.5 का उपयोग करके कैलेंडरों की सटीकता और उचित प्रबंधन सुनिश्चित करता है। एक बजटिंग ऐप प्रारंभिक चार्ट्स और तालिकाओं के लिए DeepSeek पर निर्भर हो सकता है, लेकिन जटिल वित्तीय गणनाओं और नियमों के अनुपालन के लिए Sonnet 4.5 का उपयोग कर सकता है।
इन तकनीकों के ठोस लाभों को दर्शाने के लिए, निम्नलिखित चार्ट प्रमुख मेट्रिक्स का सारांश प्रस्तुत करते हैं।
चित्र 2 – Sonnet 4.5 और DeepSeek V3.2‑Exp का एक तुलनात्मक दृश्य, कोडिंग सटीकता, सापेक्ष गति, लागत और स्वायत्तता के संदर्भ में। उच्च बार्स सटीकता और स्वायत्तता के लिए बेहतर मानों का प्रतिनिधित्व करते हैं; कम बार्स दक्षता और लागत पर बेहतर (तेज या सस्ता) प्रदर्शन को इंगित करते हैं।
चित्र 3 – Replit की आंतरिक बेंचमार्क से पता चलता है कि कोड संपादन त्रुटियाँ Sonnet 4 के साथ 9% से घटकर Sonnet 4.5 के साथ शून्य हो गईं। निर्देशों का बेहतर पालन और कोड का पुनर्गठन अधिक विश्वसनीय मिनी‑ऐप्स की ओर ले जाता है।
चित्र 4 – एक ऑल-सिंक RL पाइपलाइन में DAPO और LoRA को मिलाने से एक ट्रेनिंग स्टेप का वॉल-क्लॉक समय 9 घंटे से घटकर 1.5 घंटे हो जाता है[41], जिससे रिवॉर्ड मॉडल्स और मेमोरी नीतियों के लिए तेजी से अपडेट संभव होते हैं।
इन विज़ुअलाइज़ेशन्स से स्पष्ट होता है कि लाभ केवल सैद्धांतिक नहीं हैं। घटित GPU आवश्यकताएँ, तेज़ ट्रेनिंग, उच्च सटीकता और कम लागतें सभी एक सुगम, अधिक कुशल मिनी-ऐप पाइपलाइन में योगदान देते हैं।
आगे देखते हुए, दोनों Anthropic और DeepSeek ने और अधिक महत्वाकांक्षी संरचनाओं की ओर संकेत दिया है। Sonnet 4.5 का उत्तराधिकारी संदर्भ विंडो का विस्तार कर सकता है, बहुभाषी तर्क में सुधार कर सकता है और अधिक जटिल उपकरण इंटरैक्शन का समर्थन कर सकता है। DeepSeek की अगली पीढ़ी की संरचना से अपेक्षा की जाती है कि वह कम लागत पर भी उच्च प्रदर्शन प्राप्त करने के लिए sparse attention पर आधारित होगी[31]। Macaron के लिए, self‑compressing memory, lifelong learning और cross‑lingual alignment में आगे का अनुसंधान व्यक्तिगतकरण और गोपनीयता को बढ़ा सकता है[43]। फेडरेटेड लर्निंग का एकीकरण उपयोगकर्ताओं को स्थानीय रूप से मेमोरी मॉडल का प्रशिक्षण देने की अनुमति देगा, केवल मॉडल अपडेट्स को साझा करके, इस प्रकार गोपनीयता को बनाए रखते हुए सामूहिक प्रदर्शन में सुधार करेगा[43]। RL पक्ष में, Macaron का दृष्टिकोण अपने कार्यों के लिए स्पष्टीकरण प्रदान करने के लिए उपयोगितावाद, कर्तव्यशास्त्र, गुण नैतिकता जैसी मानक सिद्धांतों को शामिल कर सकता है[44]।
सारांश में, मैकरॉन का निर्णय Claude Sonnet 4.5 और DeepSeek V3.2‑Exp से जुड़ने का, जो Claude Agent SDK द्वारा संचालित है, इसे व्यक्तिगत AI के अग्रणी स्थान पर लाता है। Sonnet 4.5 अद्वितीय गुणवत्ता, विस्तारित स्वायत्तता और समृद्ध डेवलपर टूलिंग प्रदान करता है; DeepSeek गति, दक्षता और ओपन-सोर्स लचीलापन प्रदान करता है। मैकरॉन की नवीन RL प्रशिक्षण तकनीकों और मेमोरी इंजन के साथ मिलकर, ये मॉडल मैकरॉन को मिनी-ऐप्स को तेजी से, स्मूथली और कम बग्स के साथ बनाने में मदद करेंगे। जैसे-जैसे व्यक्तिगत AI विकसित होता रहता है, मैकरॉन का स्वायत्तता, सुरक्षा, नैतिकता और दक्षता का मिश्रण जिम्मेदार नवाचार के लिए एक ब्लूप्रिंट के रूप में कार्य करता है।
[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] मैकैरॉन की मेमोरी इंजन के अंदर: संपीड़न, पुनःप्राप्ति और गतिशील गेटिंग - मैकैरॉन
https://macaron.im/memory-engine
[2] [3] [4] [5] [44] [शीर्षक अज्ञात]
https://macaron.im/reinforcement-learning
[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Claude कोड के SDK के साथ एजेंट बनाना
https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/
[24] [25] [26] [27] [37] एंथ्रोपिक क्लॉड सोननेट 4.5: विशेषताएं, मूल्य निर्धारण और तुलना - डेटाकonomy
https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/
[28] [29] [30] [32] [33] [34] [35] एआई ऑन एआई: डीपसीक-3.2-एक्सप और डीएसए – शैंपेन मैगज़ीन
https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/
[31] [38] चीन की डीपसीक ने अगली पीढ़ी की ओर 'मध्यवर्ती' एआई मॉडल जारी किया | रॉयटर्स
[39] [40] [41] [42] माइंड लैब्स | DAPO और LoRA के साथ ऑल-सिंक RL का स्केलिंग