लेखक: बॉक्सू ली 

Macaron AI सिर्फ एक उत्पादकता उपकरण नहीं है – यह एक मंच है जो हमारी बातचीत को मिनी-एप्लिकेशन्स में बदल देता है जो कैलेंडर प्रबंधित करते हैं, यात्राएँ योजना बनाते हैं और शौक को खोजते हैं। इसके मैत्रीपूर्ण सतह के नीचे एक जटिल सुदृढीकरण लर्निंग (RL) प्रणाली और एक मेमोरी इंजन है जो महत्वपूर्ण बातों को याद रखता है और जो नहीं है उसे भूल जाता है[1]। जैसे ही Macaron Claude Sonnet 4.5 और DeepSeek V3.2‑Exp को एकीकृत करने की तैयारी करता है, साथ ही Claude Agent SDK/Code 2.0, यह ब्लॉग यह पता लगाता है कि ये नए मॉडल और उपकरण कैसे Macaron के आउटपुट की गुणवत्ता बढ़ा सकते हैं, मिनी-एप्लिकेशन निर्माण को छोटा कर सकते हैं और बग्स को कम कर सकते हैं। हम Anthropic के डेवलपर अपडेट्स, DeepSeek अनुसंधान और Macaron के अपने इंजीनियरिंग ब्लॉग्स से तकनीकी अंतर्दृष्टियों को मिलाकर एक स्पष्ट तस्वीर बनाते हैं कि आगे क्या आने वाला है।

1 Macaron का आंतरिक इंजन: RL, मेमोरी और नैतिकता

मॉडलों की तुलना करने से पहले, यह समझना मददगार होता है कि मैकरॉन को क्या अनोखा बनाता है। मैकरॉन रोज़मर्रा की बातचीत को कार्यों और कोड में बदलने के लिए बहु-स्तरीय RL प्रणाली का उपयोग करता है। यह प्रणाली समस्या को कई मॉड्यूल्स में विभाजित करती है - बातचीत प्रबंधन, स्मृति चयन, कोड संश्लेषण और सिम्युलेटर फीडबैक - और उन्हें समन्वयित करने के लिए अवरोही सुदृढीकरण अधिगम (HRL) लागू करती है[2]। एक उच्च-स्तरीय मेटा-कंट्रोलर निर्धारित करता है कि कौन सा मॉड्यूल अगला सक्रिय होना चाहिए, जबकि निचले-स्तरीय RL नीतियाँ विशेष क्रियाओं जैसे कि स्मृति को पुनः प्राप्त करना, एक API को कॉल करना या उत्पन्न कोड को निष्पादित करने का निर्णय लेती हैं[2]। इस डिज़ाइन से मैकरॉन को जटिल लक्ष्यों - यात्रा की योजना बनाने से लेकर वित्त को व्यवस्थित करने तक - को प्रबंधनीय उप-कार्यों में विभाजित करने की अनुमति मिलती है।

1.1 रिवार्ड मॉडलिंग और मानव फीडबैक

व्यक्तिगत AI में, कोई भी एकल "विजय की स्थिति" नहीं होती है; उपयोगकर्ता संतुष्टि, गोपनीयता, समय पर और सांस्कृतिक बारीकी सभी महत्वपूर्ण हैं। मैकरॉन अपने इनाम फ़ंक्शन का निर्माण अप्रत्यक्ष और प्रत्यक्ष फीडबैक को मिलाकर करता है। अप्रत्यक्ष संकेतों में बातचीत की लंबाई, उपयोग की आवृत्ति और स्वर शामिल हैं, जबकि प्रत्यक्ष रेटिंग्स और थंब्स‑अप/डाउन प्राथमिकताओं को कैलिब्रेट करने में मदद करते हैं[3]। मैकरॉन प्राथमिकता अन्वेषण का भी उपयोग करता है, वैकल्पिक प्रतिक्रियाएं या मिनी‑ऐप डिज़ाइन प्रस्तुत करता है और उपयोगकर्ताओं से पूछता है कि वे किसे पसंद करते हैं। फिर एक अनुमान मॉडल संभावित कार्यों पर एक गुप्त उपयोगिता फ़ंक्शन सीखता है, जो मानव फीडबैक से सुदृढीकरण शिक्षण (RLHF) के समान है लेकिन सांस्कृतिक टिप्पणियों के साथ विस्तारित है – जापानी रेटर्स शिष्टाचार और संदर्भ पर जोर देते हैं, जबकि कोरियाई रेटर्स सामुदायिक बनाम व्यक्तिगत भाषा पर ध्यान देते हैं[4]। ये संकेत एक इनाम मॉडल में फ़ीड होते हैं जो उपयोगकर्ता संतुष्टि की भविष्यवाणी करता है और एजेंट को स्थानीय मानदंडों का पालन करने के लिए प्रोत्साहित करता है।

1.2 पदानुक्रमित RL और मैक्रो-अभिनय

विविध उपयोगकर्ता कार्यों को प्रबंधित करने के लिए, मैकरॉन HRL का उपयोग मॉड्यूल और उप-नीतियों का चयन करने के लिए करता है। मॉड्यूल के भीतर, यह विकल्प ढांचा का उपयोग करता है: उप-लक्ष्य को प्राप्त करने वाले कार्यों की एक अनुक्रमिका को एकल विकल्प के रूप में माना जाता है (उदाहरण के लिए “पिछले महीने के खर्चों का सारांश बनाना” या “द्विभाषी अध्ययन योजना की सिफारिश करना”)[3]। यदि अंतर्निहित संरचनाएँ मेल खाती हैं, तो एक डोमेन में खोजे गए विकल्प दूसरे में स्थानांतरित हो सकते हैं। मैकरॉन मैक्रो-अभिनय भी परिभाषित करता है जो बहु-मोड़ संवादों या लंबे समय तक चलने वाले गणनाओं को समाहित करते हैं, जैसे परिवार की छुट्टी की योजना बनाना (गंतव्य, परिवहन, आवास और यात्रा कार्यक्रम)[3]। RL एजेंट मैक्रो-अभिनयों का मूल्यांकन संचयी इनाम के आधार पर करते हैं, बजाय अल्पकालिक संकेतों के, जिससे एजेंट को दीर्घकालिक संतोष को अनुकूलित करने के लिए प्रोत्साहित किया जाता है।

1.3 क्रेडिट असाइनमेंट और समय बुनाई

जब पुरस्कार देर से आते हैं, तो विशिष्ट कार्यों को श्रेय देना मुश्किल होता है। Macaron समय बुनाई का उपयोग करता है, जो घटनाओं को समय के साथ कथात्मक धागों के साथ जोड़ता है। प्रणाली इंटरैक्शन का एक ग्राफ बनाती है जहां नोड्स यादों का प्रतिनिधित्व करते हैं और किनारे कारण संबंधों का प्रतिनिधित्व करते हैं; जब एक परिणाम का मूल्यांकन किया जाता है, तो यह ग्राफ को पीछे की ओर ट्रैवर्स करता है ताकि यह पहचान सके कि कौन सी पुनः प्राप्तियाँ या कार्य योगदान करते हैं[2]। प्रतिपक्ष तर्क यह आकलन करने में मदद करता है कि यदि वैकल्पिक कार्य किए जाते तो क्या होता, जिससे एजेंट को स्वचालित रूप से यह मानने से रोका जाता है कि सफल कार्य को दोहराने से हमेशा वही पुरस्कार मिलता है[2]। Macaron विलंबित पुरस्कारों और पात्रता ट्रेसेज़ का भी उपयोग करता है ताकि संकेत को पहले के निर्णयों जैसे कि स्मृति चयन या वार्तालाप के स्वर में वापस प्रसारित किया जा सके – एजेंट को दीर्घकालिक संतोषजनकता को अनुकूलित करने के लिए प्रोत्साहित किया जा सके[5]

1.4 निष्पक्षता, सुरक्षा और नैतिकता

व्यक्तिगत AI एजेंटों को पक्षपात से बचना चाहिए और नियमों का पालन करना चाहिए। मैकरॉन इनाम फ़ंक्शन में निष्पक्षता बाधाओं को शामिल करता है; उदाहरण के लिए, यदि एजेंट बिना पूछे लगातार जेंडर-विशिष्ट गतिविधियों की सिफारिश करता है तो उसे दंडित किया जाता है[5]नैतिक नीति पुस्तकालय सांस्कृतिक मानदंडों और कानूनी आवश्यकताओं को कूटबद्ध करता है, और इन दिशानिर्देशों का उल्लंघन करने पर नकारात्मक इनाम मिलता है या कार्रवाई पूरी तरह से रोक दी जाती है[5]। वित्तीय योजना या स्वास्थ्य सेवा सलाह जैसे उच्च प्रभाव वाले निर्णयों में मानव निरीक्षण शामिल होता है, कोरियाई AI फ्रेमवर्क अधिनियम और जापान के AI प्रमोशन अधिनियम की संतुष्टि के लिए[5]। मैकरॉन RL निर्णयों को लॉग करता है और उपयोगकर्ताओं को यह समझाने के लिए स्पष्टीकरण प्रदान करता है कि कुछ यादें या मॉड्यूल क्यों चुने गए, ऑडिट और पारदर्शिता का समर्थन करते हुए[5]

1.5 मेमोरी इंजन: संपीड़न, पुनःप्राप्ति और गेटिंग

Macaron का मेमोरी इंजन व्यक्तिगतकरण की रीढ़ है। यह यादों को अल्पकालिक, एपिसोडिक और दीर्घकालिक भंडारण में संगठित करता है। अल्पकालिक भंडारण वर्तमान बातचीत (8-16 संदेश) को रखता है; एपिसोडिक भंडारण हाल की इंटरैक्शन को संकुचनात्मक ध्यान के माध्यम से संकुचित करता है; और दीर्घकालिक भंडारण एक उच्च-आयामी वेक्टर डेटाबेस का उपयोग करता है जिसमें मेटाडेटा टैग (टाइमस्टैम्प, डोमेन, भाषा)[6] होते हैं। लागत प्रबंधन के लिए, Macaron अंतर्निहित संक्षेपण का उपयोग करता है ताकि महत्वपूर्ण खंडों की पहचान कर उन्हें निश्चित-लंबाई वाले वेक्टर में संकुचित किया जा सके; एक आटोएन्कोडिंग उद्देश्य छिपी अवस्थाओं को संकुचित सारांशों से पुनर्निर्मित करता है, और आरएल संक्षेपक को बाद में पुनः स्मरण के लिए महत्वपूर्ण जानकारी को बनाए रखने के लिए परिष्कृत करता है[7]। एक गतिशील मेमोरी टोकन एक पॉइंटर नेटवर्क के रूप में कार्य करता है: यह उम्मीदवार यादों को पुनः प्राप्त करता है, प्रासंगिकता का मूल्यांकन करता है और यह तय करता है कि उन्हें वापस करना है या खोज जारी रखनी है[8]

पुनः प्राप्ति में उत्पाद क्वांटाइज़ेशन के साथ अनुमानित निकटतम पड़ोसी खोज और समानता और विविधता को संतुलित करने के लिए अधिकतम सीमांत प्रासंगिकता शामिल है[9]। क्वेरी विस्तार उपयोगकर्ता के लक्ष्य और गुप्त इरादे का उपयोग करता है; उदाहरण के लिए, "花火大会" (आतिशबाज़ी महोत्सव) के लिए एक जापानी अनुरोध में टिकट, तारीख और मौसम शामिल होता है[10]प्रासंगिकता संघ क्रॉस-डोमेन क्वेरीज़ को संभालता है, डोमेन्स और भाषाओं में पुनः प्राप्ति संभावनाओं को वितरित करने के लिए एक सॉफ्टमैक्स गेटिंग फ़ंक्शन का उपयोग करता है[11]। इन घटकों को आरएल के साथ प्रशिक्षित किया जाता है, और समय बुनाई के माध्यम से क्रेडिट असाइनमेंट यह सुनिश्चित करता है कि एजेंट यह सीखे कि कौन सी यादें महत्वपूर्ण थीं[12]। मैकरॉन की मेमोरी प्रणाली पारंपरिक पुनः प्राप्ति-अनुरूप पीढ़ी (RAG) से भिन्न है क्योंकि यादें उपयोगकर्ता-विशिष्ट होती हैं, भंडारण और पुनः प्राप्ति आरएल द्वारा निर्देशित होती है, और प्रत्येक मेमोरी में गोपनीयता मेटाडेटा शामिल होता है जो पहुंच को नियंत्रित करता है[13]

2 क्लॉड एजेंट SDK और क्लॉड कोड 2.0

हालांकि मैकरॉन की आंतरिक संरचना मजबूत है, मिनी-ऐप्स बनाना अभी भी फाइलों को पढ़ने और लिखने, कोड को निष्पादित करने, संस्करण नियंत्रण का उपयोग करने और वेब एपीआई के साथ बातचीत करने की आवश्यकता होती है। एन्थ्रोपिक का क्लॉड एजेंट SDK बिल्कुल यही क्षमताएं प्रदान करता है, वही एजेंट हार्नेस उजागर करता है जो क्लॉड कोड के टर्मिनल सहायक को शक्ति देता है[14]। यह बारीकी से निर्मित उपकरणों को पैकेज करता है: फाइल संचालन (पढ़ना, लिखना, grep, glob), बैश कमांड्स, वेब फेच, बहु-भाषा कोड निष्पादन और Git संचालन[15]। उन सहायकों के विपरीत जो पहले से एक कोडबेस को इंडेक्स करते हैं, क्लॉड एजेंट grep/find/glob का उपयोग कर मांग पर खोज करते हैं ताकि फाइलों का पता लगाया जा सके, जिससे वे डायनामिक रिपोज में अधिक लचीले हो जाते हैं[16]। SDK में बड़े संदर्भ विंडो के साथ स्वचालित संक्षेपण और सारांशण शामिल है, जिससे एजेंट बिना टोकन सीमा को प्रभावित किए महत्वपूर्ण कोड संदर्भ धारण कर सकते हैं[17]। डेवलपर्स अनुमत टूल और अनुमत मोड निर्दिष्ट कर सकते हैं और सुरक्षा के लिए हुक जोड़ सकते हैं, गार्डरेल्स के साथ स्वायत्तता सक्षम कर सकते हैं[18]

SDK के मुख्य निर्माण खंड

  1. उपकरण – एसडीके इंजीनियरों को यह चयन करने देता है कि किन उपकरणों (फाइल I/O, बैश, वेब फेच, कोड निष्पादन) को एक एजेंट के लिए उपलब्ध कराया जाए [19]
  2. एमसीपी एक्सटेंशन्स – मॉडल कॉन्टेक्स्ट प्रोटोकॉल के साथ एकीकरण बाहरी सर्वरों (डेटाबेस, ईमेल खोज, वेक्टर खोज) को टूलसेट का विस्तार करने की अनुमति देता है [20]
  3. उप-एजेंट – .claude/agents में परिभाषित एजेंटों के अपने सिस्टम प्रॉम्प्ट, सीमित टूलसेट और वैकल्पिक मॉडल चयन होते हैं; कार्यों को इन उप-एजेंटों को सौंपा जा सकता है [21]
  4. मेमोरी और प्रोजेक्ट संदर्भ – एक स्थायी स्क्रैचपैड (CLAUDE.md) सत्रों के बीच संदर्भ बनाए रखता है और रेपो-स्तरीय कॉन्फ़िगरेशन का सम्मान करता है [22]
  5. संदर्भ प्रबंधन और रनटाइम – स्वचालित संदर्भ संक्षेपण, स्ट्रीमिंग प्रतिक्रियाएं और टाइप की गई त्रुटि हैंडलिंग लंबे समय तक चलने वाले कार्यों को सरल बनाते हैं [23]

क्लॉड कोड 2.0 में नए फीचर्स

Claude Code 2.0 डेवलपर‑फ्रेंडली अपडेट्स लाता है: चेकपॉइंट्स डेवलपर्स को प्रगति को सहेजने और जब एजेंट गलतियाँ करता है तो उसे वापस लेने की अनुमति देते हैं[24]। एक VS कोड एक्सटेंशन एजेंट को आईडीई में एम्बेड करता है, जबकि एक ताज़ा टर्मिनल इंटरफ़ेस राज्य प्रबंधन में सुधार करता है[25]। Claude API संदर्भ संपादन और एक मेमोरी टूल प्राप्त करता है जो एजेंटों को लंबी अवधि तक चलाने में मदद करता है, जो स्वचालित रूप से संदर्भ को साफ़ करता है और प्रासंगिक टुकड़ों को पुनः प्राप्त करता है[26]। Claude का ऐप और API अब कोड निष्पादित कर सकते हैं, फाइलें बना सकते हैं और डेटा का विश्लेषण कर सकते हैं[27], एक LLM को एक पूर्ण कोडिंग सहायक में बदलना। ये विशेषताएँ Macaron के मिनी‑ऐप पाइपलाइन के लिए विशेष रूप से प्रासंगिक हैं, जिसमें प्रोग्राम कोड उत्पन्न करना, इसे सैंडबॉक्स में परीक्षण करना, त्रुटियों को सुधारना और बाहरी सेवाओं के साथ बातचीत करना शामिल है।

3 Claude Sonnet 4.5: लंबी स्वायत्तता और उच्च गुणवत्ता

Claude Sonnet 4.5 Anthropic का सबसे सक्षम मॉडल है कोडिंग, एजेंटिक कार्यों और कंप्यूटर उपयोग के लिए। DevOps.com रिपोर्ट करता है कि Sonnet 4.5 30 घंटे से अधिक स्वायत्त रूप से कार्य कर सकता है, जो इसके पूर्ववर्ती के सात घंटों से कहीं अधिक है। यह निर्देशों का पालन करने, कोड पुनर्गठन और उत्पादन-तैयार आउटपुट में उत्कृष्ट है, और यथार्थवादी कोडिंग कार्यों पर SWE-Bench Verified बेंचमार्क का नेतृत्व करता है। वास्तविक दुनिया की तैनाती में सुधार स्पष्ट है: Replit की आंतरिक बेंचमार्क ने देखा कि कोड संपादन त्रुटियाँ Sonnet 4 के साथ 9% से घटकर Sonnet 4.5 के साथ 0% हो गईं, जबकि साइबर सुरक्षा टीमों ने जोखिम सेवन समय को 44% तक घटा दिया और सटीकता में 25% सुधार किया। Netflix इंजीनियर Sonnet 4.5 को “सॉफ्टवेयर विकास कार्यों में उत्कृष्ट, हमारे कोडबेस पैटर्न को सीखकर सटीक कार्यान्वयन देने में सक्षम” बताते हैं।

Sonnet 4.5 का डेवलपर टूलिंग और मेमोरी फीचर्स Agent SDK के साथ समन्वय करते हैं। मॉडल संदर्भ संपादन और मेमोरी प्रबंधन का समर्थन करता है, जो पुरानी संदर्भों को स्वचालित रूप से साफ करता है और प्रासंगिक टुकड़ों को वापस ध्यान में लाता है[24]। यह GUI को क्लिक करके, टाइप करके और मेनू के साथ इंटरैक्ट करके नेविगेट कर सकता है, जिससे टूल्स का ऑटोमेशन बिना API के संभव होता है। SDK की उप‑एजेंट आर्किटेक्चर और चेकपॉइंट्स के साथ मिलकर, इसका मतलब है कि Macaron बिना संदर्भ खोए, मल्टी‑डे सत्रों के दौरान मिनी‑ऐप्स बना सकता है, और आवश्यक होने पर गलतियों को वापस ला सकता है।

4 DeepSeek V3.2‑Exp: sparse attention के माध्यम से दक्षता

जबकि सॉनेट 4.5 गुणवत्ता और स्वायत्तता पर केंद्रित है, डीपसीक V3.2‑Exp कुशलता पर जोर देता है। मॉडल डीपसीक स्पार्स अटेंशन (DSA) को पेश करता है, जो ध्यान के दौरान केवल सबसे महत्वपूर्ण टोकनों का चयन करता है। इससे जटिलता चतुष्कीय O(n²) से O(nk) तक घट जाती है, जिससे लंबे संदर्भों पर 2-3× तेज़ अनुमान, 30-40 % कम मेमोरी उपयोग और API कीमतों में 50 %+ की कमी मिलती है[28]। इन बचतों के बावजूद, V3.2‑Exp अधिकतर बेंचमार्क्स पर पिछले V3.1‑टर्मिनस मॉडल के साथ समानता बनाए रखता है[29]। ओपन‑सोर्स रिलीज़ मैकरॉन को मॉडल को स्थानीय रूप से चलाने, इसे फाइन‑ट्यून करने और नए आर्किटेक्चर का पता लगाने की अनुमति देता है[30]। रॉयटर्स का कहना है कि डीपसीक इसे अपनी अगली-पीढ़ी की आर्किटेक्चर की दिशा में एक मध्यवर्ती कदम के रूप में देखता है; DSA तंत्र कुछ प्रकार के प्रदर्शन को बढ़ाते हुए कंप्यूटिंग लागत को कम करता है[31], और सेवा स्वचालित रूप से V3.2‑Exp में अपग्रेड होती है, उपयोगकर्ताओं के लिए कीमत में भारी कटौती के साथ[32]

DeepSeek V3.2‑Exp मिश्रित‑विशेषज्ञ डिज़ाइन को अपनाता है और मिश्रित परिशुद्धता और मल्टी‑हेड लेटेंट अटेंशन जोड़ता है[33]। हालाँकि, यह प्रयोगात्मक होने के कारण जटिल तर्क कार्यों पर कुछ मामूली प्रतिगमन दिखाता है[34] और Claude पारिस्थितिकी तंत्र के एकीकृत एजेंट टूलिंग की कमी है। Macaron के लिए इसका मतलब है कि V3.2‑Exp लागत-संवेदनशील कार्यों या प्रोटोटाइपिंग के लिए बेहतर अनुकूल है, जहाँ गति और थ्रूपुट सर्वोच्च कोडिंग सटीकता से अधिक महत्वपूर्ण हैं।

5 Macaron के लिए Sonnet 4.5 और DeepSeek V3.2‑Exp की तुलना

Macaron का दोनों मॉडलों से जुड़ने का निर्णय उनके ताकतों और कमजोरियों की तुलना करने के लिए आमंत्रित करता है। नीचे दी गई तालिका में प्रमुख विशेषताओं का सारांश दिया गया है:

विशेषता
सॉनेट 4.5
डीपसीक V3.2‑एक्स्प
फोकस
उच्च-गुणवत्ता कोडिंग, एजेंटिक कार्य, लंबी स्वायत्तता
कुशल लंबा-संदर्भ प्रसंस्करण[35]
आर्किटेक्चर
लंबी अवधि स्वायत्तता (>30 घंटे) और मजबूत निर्देश पालन के साथ स्वामित्व मॉडल
मिश्रण-ऑफ-एक्सपर्ट्स के साथ विरल ध्यान जो गणना को घटाता है[28]
मेमोरी और संदर्भ
बड़े संदर्भ विंडो; मेमोरी टूल के माध्यम से स्वचालित मेमोरी प्रबंधन[24]
विरल ध्यान के माध्यम से लंबे संदर्भ का समर्थन करता है; मेमोरी उपयोग घटाया गया है[28]
डेवलपर टूलिंग
एजेंट एसडीके के साथ सब‑एजेंट, चेकपॉइंट्स, वीएस कोड इंटीग्रेशन[36][24]
कोई आधिकारिक एसडीके नहीं; ओपन-सोर्स कोड कस्टम इंटीग्रेशन की अनुमति देता है लेकिन निर्मित मेमोरी टूलिंग की कमी है
लागत
सॉनेट 4 से अपरिवर्तित; $3/एम इनपुट टोकन और $15/एम आउटपुट टोकन[37]
50 %+ एपीआई मूल्य कटौती[38]; स्वयं-होस्ट करने के लिए मुफ्त
ताकतें
सर्वोच्च कोडिंग सटीकता (एसडब्ल्यूई-बेंच सत्यापित 77–82 %), विस्तारित स्वायत्तता, मजबूत सुरक्षा
असाधारण दक्षता; 2–3× तेज अनुमान और कम मेमोरी उपयोग[28]; ओपन-सोर्स
कमजोरियाँ
उच्च टोकन लागत; स्वामित्व एपीआई; सावधानीपूर्वक प्रॉम्प्ट प्रबंधन की आवश्यकता हो सकती है
प्रायोगिक स्थिति; जटिल तर्क पर मामूली प्रतिगमन[34]; एकीकृत टूलिंग की कमी है

इस तुलना से, हम एक संकर रणनीति निकाल सकते हैं। Macaron प्रारंभिक ड्राफ्ट के लिए DeepSeek V3.2-Exp का उपयोग कर सकता है, जो कम विलंबता और लागत का लाभ देता है, फिर सहीता और सुरक्षा सुनिश्चित करने के लिए Sonnet 4.5 के साथ परिष्कृत या सत्यापित कर सकता है। जटिल मिनी-ऐप्स के लिए जिन्हें गहन विचार-विमर्श की आवश्यकता होती है, Sonnet 4.5 सबसे अच्छा विकल्प बना रहता है, जबकि V3.2-Exp तेजी से पुनरावृत्तियों या बड़े-बैच उत्पादन में उत्कृष्ट है।

6 नए मॉडल Macaron के मिनी-ऐप पाइपलाइन को कैसे सुधारेंगे

Macaron के लिए मुख्य प्रश्न यह है कि क्या Sonnet 4.5 और DeepSeek V3.2-Exp गुणवत्ता में सुधार, विकास समय को कम और बग को कम कर सकते हैं। हम Macaron की पाइपलाइन के संदर्भ में प्रत्येक कारक का विश्लेषण करते हैं:

6.1 कोड और आउटपुट की गुणवत्ता

Sonnet 4.5 उच्च कोड गुणवत्ता और कम त्रुटियों को प्रदान करता है। Replit के अनुसार, Sonnet 4 से Sonnet 4.5 पर जाने पर कोड संपादन त्रुटियाँ 9% से शून्य तक गिर गईं। इसका मतलब है कि Macaron द्वारा उत्पन्न मिनी-ऐप्स अधिक विश्वसनीय रूप से संकलित होंगे, जिनमें कम सिंटैक्स गलतियाँ या अनुपस्थित आयात होंगे। मॉडल की बेहतर निर्देश-अनुसरण क्षमता Macaron को उपयोगकर्ता विनिर्देशों को अधिक सटीकता से समझने में मदद करती है; इसका उन्नत कोड रिफैक्टरिंग सुनिश्चित करता है कि उत्पन्न मॉड्यूल साफ और मॉड्यूलर हों। वित्तीय और साइबर सुरक्षा कार्यों में, Sonnet 4.5 ने 25% से 44% तक सटीकता में सुधार किया, Macaron के यात्रा और वेलनेस ऐप्स के लिए समान लाभों का सुझाव देते हुए। DeepSeek V3.2-Exp, जबकि जटिल तर्क पर थोड़ा कमजोर है, फिर भी V3.1 के साथ बेहतर दक्षता बनाए रखते हुए प्रदर्शन को बनाए रखता है[29]; जब Macaron के डोमेन पर फाइन-ट्यून किया जाता है, तो यह सरल मिनी-ऐप्स के लिए पर्याप्त उच्च सटीकता प्रदान कर सकता है।

6.2 मिनी-ऐप निर्माण की गति

Sonnet 4.5 की 30 घंटे से अधिक समय तक स्वायत्त रूप से चलने की क्षमता का मतलब है कि Macaron बिना मैन्युअल रीसेट के एक ही सतत सत्र में एंड-टू-एंड मिनी-ऐप्स उत्पन्न कर सकता है। Agent SDK के संदर्भ प्रबंधन और चेकपॉइंट्स के साथ मिलकर, यह कार्यों को पुनः आरंभ करने या संदर्भ को पुनः लोड करने में खर्च होने वाले समय को कम करता है। उप-एजेंट आर्किटेक्चर Macaron को कार्यों को समानांतर में करने की अनुमति देता है: एक एजेंट UI जनरेशन को संभाल सकता है जबकि दूसरा API इंटीग्रेशन का प्रबंधन करता है, प्रत्येक के पास अपना स्वयं का संदर्भ और उपकरण होते हैं। इस बीच, DeepSeek V3.2-Exp की 2-3× तेज अनुमान लगाना और कम मेमोरी उपयोग तेज प्रतिक्रियाओं में परिवर्तित होते हैं। उदाहरण के लिए, यदि Sonnet 4.5 का उपयोग करके यात्रा कार्यक्रम उत्पन्न करने में 30 सेकंड लगते हैं, तो V3.2-Exp 10-15 सेकंड में एक मोटा ड्राफ्ट तैयार कर सकता है; Sonnet 4.5 फिर इसे परिष्कृत करेगा। शुद्ध प्रभाव यह है कि पहले उपयोग योग्य संस्करण तक का समय कम हो जाता है, जिससे तेजी से उपयोगकर्ता प्रतिक्रिया लूप सक्षम होते हैं।

6.3 सुगम प्रक्रियाएँ और कम बग्स

स्वचालन मानव त्रुटियों को कम करता है, लेकिन यदि सही ढंग से प्रबंधित नहीं किया गया तो स्वायत्तता नए बग्स को जन्म दे सकती है। एजेंट SDK के चेकप्वाइंट्स डेवलपर्स को एजेंट की स्थिति को सहेजने और पुनः प्राप्त करने की सुविधा देते हैं[24]। अगर मैकारोन गलत API कॉल करता है या मिनी-ऐप जेनरेशन के दौरान गलत फाइल में लिखता है, तो डेवलपर को फिर से शुरू करने के बजाय पिछले चेकप्वाइंट पर लौटने का विकल्प मिलता है। संदर्भ संपादन टोकन के समाप्त होने से रोकता है और सुनिश्चित करता है कि केवल प्रासंगिक संदर्भ ही रखा जाए, जिससे गलतफहमियाँ कम होती हैं। डीपसीक के लिए, ओपन-सोर्स रिलीज मैकारोन की टीम को मॉडल का निरीक्षण और संशोधन करने, कस्टम सुरक्षा चेक्स को एकीकृत करने और डोमेन-विशिष्ट कार्यों के लिए फाइन-ट्यून करने की अनुमति देता है। इसके अतिरिक्त, मैकारोन के अपने आरएल तंत्र – समय बुनाई, प्रतिकूल तर्क और निष्पक्षता बाधाएं – उपयोगकर्ता संतुष्टि की निरंतर निगरानी करते हैं और हानिकारक व्यवहार को दंडित करते हैं[2][5], जिससे बग्स और नैतिक उल्लंघनों का जोखिम कम होता है।

6.4 लागत पर विचार

उच्च-गुणवत्ता वाले मॉडल की कीमत होती है। सोननेट 4.5 की टोकन कीमत सोननेट 4 से अपरिवर्तित है ($3/M इनपुट टोकन, $15/M आउटपुट टोकन)[37]। डीपसीक V3.2‑Exp एपीआई कॉल की लागत को आधा करता है[38] और, क्योंकि यह ओपन-सोर्स है, इसे स्वयं होस्ट किया जा सकता है। इसलिए, मैकरॉन V3.2‑Exp का उपयोग प्रारंभिक ड्राफ्ट या कम महत्वपूर्ण कार्यों (जैसे, यूआई घटक या सरल कैलकुलेटर जनरेट करना) के लिए कर लागत को अनुकूलित कर सकता है और सोननेट 4.5 को उच्च-अहमियत वाले कार्यों (जैसे, वित्तीय योजना, चिकित्सा सलाह) के लिए आरक्षित कर सकता है जहाँ शुद्धता और अनुपालन महत्वपूर्ण हैं। तेज़ी से निष्कर्षण और कम जीपीयू उपयोग (नीचे चर्चा की गई) से प्राप्त बचत भी गणना लागत को संतुलित करती है।

7 Macaron की RL प्रशिक्षण नवाचार: DAPO, LoRA और All‑Sync RL

मॉडल में सुधार करना केवल कहानी का एक हिस्सा है; प्रशिक्षण की दक्षता इस बात को प्रभावित करती है कि Macaron कितनी जल्दी RL नीतियों पर पुनरावृत्ति कर सकता है। MIND LABS एक प्रणाली का वर्णन करता है जो Decoupled Clip और Dynamic Sampling Policy Optimization (DAPO) को Low‑Rank Adaptation (LoRA) के साथ All‑Sync RL वास्तुकला में मिलाता है ताकि केवल 48 H800 GPUs का उपयोग करके 671B DeepSeek मॉडल को प्रशिक्षित किया जा सके – यह मानक RL के लिए आवश्यक 512 GPUs की तुलना में 10× कमी है[39]। Coati और SGLang का उपयोग करके पाइपलाइन समानांतरता, साथ ही तेज LoRA मर्ज और मात्राकरण, "GPU बबल्स" को समाप्त करते हैं जहाँ GPUs निष्क्रिय रहते हैं और अनुमान की प्रतीक्षा करते हैं[40]। परिणामस्वरूप एक प्रशिक्षण चरण के लिए दीवार-घड़ी समय 9 घंटे से 1.5 घंटे तक घट जाता है[41]। ये प्रगति का मतलब है कि Macaron अपने इनाम मॉडल या स्मृति द्वार को तेजी से पुनःप्रशिक्षित कर सकता है, प्रतिक्रिया को अधिक तेज़ी से शामिल कर सकता है और उपयोगकर्ताओं को सुधार जल्दी से लागू कर सकता है।

चित्र 1 – GPU उपयोग में कमी, 512 से 48 H800 GPUs तक, जब All‑Sync RL का उपयोग LoRA के साथ किया जाता है, जिससे अधिक सुलभ RL अनुसंधान और तेज़ प्रयोग संभव होता है[39].

प्रभावशीलता के अलावा, LoRA के निम्न-रैंक अपडेट मॉडल वेट संचार लागत को कम करते हैं, और डायनामिक सैंपलिंग प्रशिक्षण को स्थिर बनाती है, प्रॉम्प्ट्स को फ़िल्टर करके और रिवॉर्ड्स को आकार देकर[42]। Macaron के लिए, इन तकनीकों का अर्थ है कि भविष्य की मेमोरी और पॉलिसी अपडेट्स को तेजी से प्रशिक्षित किया जा सकता है बिना अत्यधिक कंप्यूट लागत के।

8 डेवलपर वर्कफ़्लो: Macaron में Sonnet 4.5 और DeepSeek को एकीकृत करना

Macaron के साथ एक मिनी-ऐप बनाने में कई चरण शामिल हैं:

  • इरादा समझना - मैकरॉन उपयोगकर्ता के अनुरोध को पार्स करता है और आवश्यक घटक पहचानता है (जैसे, डेटा स्रोत, UI तत्व, बाहरी APIs)। सोननेट 4.5 की उन्नत निर्देश पालन क्षमता सटीक इरादा निकालने और निष्पादन चरणों की योजना बनाने में मदद करती है, जबकि V3.2‑Exp उपयोगकर्ता चयन के लिए संभावित इरादों को तेजी से प्रोटोटाइप कर सकता है।
  • प्रोग्राम संश्लेषण - एजेंट कोड जनरेट करने, रिपॉजिटरी खोजने, टेम्पलेट पढ़ने और नई फाइलें लिखने के लिए क्लॉड एजेंट SDK का उपयोग करता है। सब-एजेंट फ्रंट-एंड (React) या बैक-एंड (Python) में विशेष हो सकते हैं, और संदर्भ प्रबंधन सुनिश्चित करता है कि सही कोड उपलब्ध हो बिना मेमोरी को ओवरलोड किए। सोननेट 4.5 की लंबी संदर्भ और कोड रिफैक्टरिंग क्षमताएं साफ़ और अधिक बनाए रखने योग्य प्रोग्राम उत्पन्न करती हैं, जबकि V3.2‑Exp पहले ड्राफ्ट को तेजी से तैयार करता है।
  • सैंडबॉक्स निष्पादन - उत्पन्न कोड को एक सुरक्षित वातावरण में निष्पादित किया जाता है। एजेंट लॉग पढ़ता है, त्रुटियों को पकड़ता है और क्रमिक रूप से बग्स को ठीक करता है। चेकपॉइंट सुरक्षित बैकअप प्रदान करते हैं, और RL इनाम संकेत परीक्षण में विफल कोड को दंडित करते हैं। मैकरॉन एजेंट SDK के बैश और वेब फ़ेच उपकरणों का उपयोग करके बाहरी सेवाओं के खिलाफ एकीकरण परीक्षण भी कर सकता है।
  • परस्पर क्रिया और परिष्करण - एजेंट मैकरॉन की संवादात्मक इंटरफ़ेस के माध्यम से उपयोगकर्ता को मिनी-ऐप प्रस्तुत करता है। मेमोरी इंजन बातचीत को संग्रहीत करता है और भविष्य की बातचीत में कौन सी यादें याद करनी हैं, यह तय करने के लिए RL का उपयोग करता है। उपयोगकर्ता से मिलने वाली प्रतिक्रिया इनाम मॉडल को अपडेट करती है और भविष्य की पीढ़ियों को प्रभावित करती है।

Sonnet 4.5 और DeepSeek V3.2‑Exp को एकीकृत करके, Macaron इस वर्कफ़्लो को विशेष बना सकता है। उदाहरण के लिए, एक यात्रा योजना ऐप में UI जनरेटर एजेंट DeepSeek का उपयोग करके लेआउट्स को जल्दी से प्रस्तावित कर सकता है, जबकि यात्रा कार्यक्रम की लॉजिक और शेड्यूल ऑप्टिमाइज़ेशन Sonnet 4.5 का उपयोग करके कैलेंडरों की सटीकता और उचित प्रबंधन सुनिश्चित करता है। एक बजटिंग ऐप प्रारंभिक चार्ट्स और तालिकाओं के लिए DeepSeek पर निर्भर हो सकता है, लेकिन जटिल वित्तीय गणनाओं और नियमों के अनुपालन के लिए Sonnet 4.5 का उपयोग कर सकता है।

9 सुधारों का दृश्यांकन

इन तकनीकों के ठोस लाभों को दर्शाने के लिए, निम्नलिखित चार्ट प्रमुख मेट्रिक्स का सारांश प्रस्तुत करते हैं।

चित्र 2 – Sonnet 4.5 और DeepSeek V3.2‑Exp का एक तुलनात्मक दृश्य, कोडिंग सटीकता, सापेक्ष गति, लागत और स्वायत्तता के संदर्भ में। उच्च बार्स सटीकता और स्वायत्तता के लिए बेहतर मानों का प्रतिनिधित्व करते हैं; कम बार्स दक्षता और लागत पर बेहतर (तेज या सस्ता) प्रदर्शन को इंगित करते हैं।

चित्र 3 – Replit की आंतरिक बेंचमार्क से पता चलता है कि कोड संपादन त्रुटियाँ Sonnet 4 के साथ 9% से घटकर Sonnet 4.5 के साथ शून्य हो गईं। निर्देशों का बेहतर पालन और कोड का पुनर्गठन अधिक विश्वसनीय मिनी‑ऐप्स की ओर ले जाता है।

चित्र 4 – एक ऑल-सिंक RL पाइपलाइन में DAPO और LoRA को मिलाने से एक ट्रेनिंग स्टेप का वॉल-क्लॉक समय 9 घंटे से घटकर 1.5 घंटे हो जाता है[41], जिससे रिवॉर्ड मॉडल्स और मेमोरी नीतियों के लिए तेजी से अपडेट संभव होते हैं।

इन विज़ुअलाइज़ेशन्स से स्पष्ट होता है कि लाभ केवल सैद्धांतिक नहीं हैं। घटित GPU आवश्यकताएँ, तेज़ ट्रेनिंग, उच्च सटीकता और कम लागतें सभी एक सुगम, अधिक कुशल मिनी-ऐप पाइपलाइन में योगदान देते हैं।

10 भविष्य की दिशाएँ

आगे देखते हुए, दोनों Anthropic और DeepSeek ने और अधिक महत्वाकांक्षी संरचनाओं की ओर संकेत दिया है। Sonnet 4.5 का उत्तराधिकारी संदर्भ विंडो का विस्तार कर सकता है, बहुभाषी तर्क में सुधार कर सकता है और अधिक जटिल उपकरण इंटरैक्शन का समर्थन कर सकता है। DeepSeek की अगली पीढ़ी की संरचना से अपेक्षा की जाती है कि वह कम लागत पर भी उच्च प्रदर्शन प्राप्त करने के लिए sparse attention पर आधारित होगी[31]। Macaron के लिए, self‑compressing memory, lifelong learning और cross‑lingual alignment में आगे का अनुसंधान व्यक्तिगतकरण और गोपनीयता को बढ़ा सकता है[43]फेडरेटेड लर्निंग का एकीकरण उपयोगकर्ताओं को स्थानीय रूप से मेमोरी मॉडल का प्रशिक्षण देने की अनुमति देगा, केवल मॉडल अपडेट्स को साझा करके, इस प्रकार गोपनीयता को बनाए रखते हुए सामूहिक प्रदर्शन में सुधार करेगा[43]। RL पक्ष में, Macaron का दृष्टिकोण अपने कार्यों के लिए स्पष्टीकरण प्रदान करने के लिए उपयोगितावाद, कर्तव्यशास्त्र, गुण नैतिकता जैसी मानक सिद्धांतों को शामिल कर सकता है[44]

सारांश में, मैकरॉन का निर्णय Claude Sonnet 4.5 और DeepSeek V3.2‑Exp से जुड़ने का, जो Claude Agent SDK द्वारा संचालित है, इसे व्यक्तिगत AI के अग्रणी स्थान पर लाता है। Sonnet 4.5 अद्वितीय गुणवत्ता, विस्तारित स्वायत्तता और समृद्ध डेवलपर टूलिंग प्रदान करता है; DeepSeek गति, दक्षता और ओपन-सोर्स लचीलापन प्रदान करता है। मैकरॉन की नवीन RL प्रशिक्षण तकनीकों और मेमोरी इंजन के साथ मिलकर, ये मॉडल मैकरॉन को मिनी-ऐप्स को तेजी से, स्मूथली और कम बग्स के साथ बनाने में मदद करेंगे। जैसे-जैसे व्यक्तिगत AI विकसित होता रहता है, मैकरॉन का स्वायत्तता, सुरक्षा, नैतिकता और दक्षता का मिश्रण जिम्मेदार नवाचार के लिए एक ब्लूप्रिंट के रूप में कार्य करता है।


[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] मैकैरॉन की मेमोरी इंजन के अंदर: संपीड़न, पुनःप्राप्ति और गतिशील गेटिंग - मैकैरॉन

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [शीर्षक अज्ञात]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Claude कोड के SDK के साथ एजेंट बनाना

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] एंथ्रोपिक क्लॉड सोननेट 4.5: विशेषताएं, मूल्य निर्धारण और तुलना - डेटाकonomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] एआई ऑन एआई: डीपसीक-3.2-एक्सप और डीएसए – शैंपेन मैगज़ीन

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] चीन की डीपसीक ने अगली पीढ़ी की ओर 'मध्यवर्ती' एआई मॉडल जारी किया | रॉयटर्स

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/

[39] [40] [41] [42] माइंड लैब्स | DAPO और LoRA के साथ ऑल-सिंक RL का स्केलिंग

https://mindlabs.macaron.im/

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Related articles

Apply to become Macaron's first friends