ChatGPT की 3वीं वर्षगांठ का उपहार – DeepSeek V3.2 सीरीज GPT-5 और Gemini को चुनौती देती है

लेखक: बॉक्सु ली

ChatGPT के पदार्पण के तीन साल बाद, AI समुदाय के लिए एक नए खुले-स्रोत दावेदार के रूप में जन्मदिन का उपहार आया है। DeepSeek-V3.2 और DeepSeek-V3.2-Speciale - दो नए जारी किए गए बड़े भाषा मॉडल - खुले AI सिस्टम की सीमाओं को आगे बढ़ा रहे हैं। चीनी AI लैब DeepSeek द्वारा विकसित, इन मॉडलों का उद्देश्य GPT-5-स्तरीय तर्क प्रदर्शन प्रदान करना है, जो Google के Gemini-3.0-Pro जैसे अत्याधुनिक बंद मॉडलों की टक्कर में हैं।[1][2]। दोनों मॉडल और एक गहन तकनीकी रिपोर्ट को खुले-स्रोत के रूप में जारी किया गया है, जिससे शोधकर्ताओं और डेवलपर्स को यह देखने का मौका मिल रहा है कि खुले मॉडल कितनी दूर आ गए हैं।

DeepSeek-V3.2: GPT-5 स्तर के प्रदर्शन पर दैनिक ड्राइवर

DeepSeek-V3.2 को एक संतुलित “डेली ड्राइवर” मॉडल के रूप में डिज़ाइन किया गया है - जो सामान्य प्रश्न-उत्तर, कोडिंग सहायता, और वास्तविक अनुप्रयोगों में AI एजेंट कार्यों के लिए उपयुक्त है। DeepSeek के बेंचमार्क के अनुसार, V3.2 की तर्क क्षमता GPT-5 के स्तर से मेल खाती है सार्वजनिक तर्क परीक्षणों पर और Gemini-3.0-Pro से केवल थोड़ा पीछे है[1]। व्यावहारिक रूप से, इसका मतलब है कि V3.2 जटिल तार्किक और विश्लेषणात्मक प्रश्नों को लगभग उतनी ही अच्छी तरह से संभाल सकता है जितना कि आज के सर्वश्रेष्ठ बंद मॉडल। विशेष रूप से, V3.2 कुछ पूर्व खुले मॉडल (जैसे Kimi-K2-Thinking) की तुलना में बहुत अधिक संक्षिप्त आउटपुट उत्पन्न करता है, बिना तर्क की गहराई खोए टोकन उपयोग और उपयोगकर्ता प्रतीक्षा समय को कम करता है[3].

अंदर की बात करें तो, DeepSeek-V3.2 के पास प्रति टोकन 685 बिलियन पैरामीटर सक्रिय होते हैं (670B MoE आर्किटेक्चर में से) – लेकिन इसे दक्षता और लंबे संदर्भ उपयोग के लिए अनुकूलित किया गया है। यह एक विस्तारित 128K टोकन संदर्भ विंडो का समर्थन करता है, जिससे सैकड़ों पृष्ठों के पाठ का एक बार में विश्लेषण किया जा सकता है। अपने आकार के बावजूद, V3.2 को बाहरी उपकरण उपयोग के साथ तर्क को एकीकृत करने के लिए परिष्कृत किया गया है। वास्तव में, यह DeepSeek का पहला मॉडल है जो "उपकरणों को कॉल करते समय सोच" सकता है। यह उपकरणों का उपयोग करते समय चेन-ऑफ-थॉट मोड और एक मानक मोड दोनों का समर्थन करता है, जिससे यह मल्टी-स्टेप उपकरण-वर्धित कार्यों (जैसे कैलकुलेटर, कोड इंटरप्रेटर, या खोज इंजन का उपयोग) को एक संरचित तरीके से तर्क करने की अनुमति देता है। यह V3.2 को एजेंट अनुप्रयोगों के लिए विशेष रूप से शक्तिशाली बनाता है – कोड चलाने वाले कोडिंग सहायकों से लेकर वेब ब्राउज़ करने वाले संवाद एजेंटों तक।

V3.2-स्पेशल: चरम तर्कशक्ति, Gemini Pro के बराबर

उन उपयोगकर्ताओं के लिए जो और भी अधिक तर्कशक्ति की आवश्यकता रखते हैं, डीपसीक ने मानक मॉडल के साथ V3.2-Speciale जारी किया। स्पेशल संस्करण ओपन-सोर्स तर्कशक्ति को अत्यधिक स्तर तक धकेलता है, जिसमें एक विस्तारित "सोचने" की प्रणाली शामिल होती है और एक समर्पित गणित प्रमेय-प्रमाण मॉड्यूल (जो DeepSeek-Math-V2 मॉडल से है) को भी एकीकृत करता है। परिणामस्वरूप, यह मॉडल अत्यधिक जटिल समस्याओं के समाधान के लिए अनुकूलित है – जैसा कि डेवलपर्स कहते हैं, "मॉडल की क्षमता की सीमाओं का अन्वेषण करना," [4]। सख्त तर्क और गणितीय मानकों पर, DeepSeek-V3.2-Speciale का प्रदर्शन Gemini-3.0-Pro के बराबर है[4], जो इन क्षेत्रों में अत्याधुनिक के बराबर है।

इस दावे का समर्थन स्पेशल के प्रतिष्ठित प्रतियोगिताओं में उपलब्धियों द्वारा किया गया है: उसने कथित तौर पर अंतर्राष्ट्रीय गणित ओलंपियाड (IMO 2025), चीनी गणित ओलंपियाड (CMO 2025), ICPC 2025 विश्व फाइनल (प्रोग्रामिंग), और IOI 2025 (सूचना विज्ञान)[5] पर स्वर्ण पदक स्तर के परिणाम प्राप्त किए। वास्तव में, ICPC कोडिंग प्रतियोगिता में, V3.2-स्पेशल का प्रदर्शन एक मानव रजत पदक विजेता (दूसरा स्थान) के बराबर था, और IOI में यह शीर्ष 10 मानव प्रतियोगियों[5] के बराबर था। ये AI मॉडल के लिए अद्वितीय उपलब्धियाँ हैं, जो श्रेष्ठ मानव स्तरों पर तर्क और समस्या समाधान की क्षमताएँ दर्शाती हैं।

यह ध्यान देने योग्य है कि Speciale एक विशेषज्ञ-केंद्रित मॉडल है। यह लंबी अवधि की तर्क क्षमता में उत्कृष्ट है (जैसे कि विस्तृत प्रमाण, बहु-स्तरीय तर्क, जटिल प्रोग्रामिंग चुनौतियाँ), लेकिन यह आम बातचीत या रचनात्मक लेखन के लिए अनुकूलित नहीं है। इसे चलाना भी अधिक महंगा है - Speciale अपने उत्तरों पर पहुँचने के लिए काफी अधिक टोकन का उपयोग करता है[6]। फिलहाल, DeepSeek केवल V3.2-Speciale को एक सीमित अनुसंधान API के माध्यम से प्रदान कर रहा है (बिना किसी उपकरण-उपयोग की सुविधा के) और यह सलाह दे रहा है कि यह अकादमिक या उच्च-दांव तर्क कार्यों के लिए है, न कि रोज़मर्रा की बातचीत के लिए।

विरल ध्यान के माध्यम से कुशल तर्क (DSA)

DeepSeek-V3.2 के प्रदर्शन को सक्षम करने वाले प्रमुख नवाचारों में से एक नया ध्यान तंत्र है जिसे DeepSeek Sparse Attention (DSA) कहा जाता है। पारंपरिक ट्रांसफॉर्मर मॉडल जब संदर्भ की लंबाई बढ़ती है, तो एक द्विघात लागत का भुगतान करते हैं, क्योंकि हर टोकन दूसरे टोकन पर ध्यान देता है। DSA इस बाधा को सूक्ष्म-विरल ध्यान पैटर्न का उपयोग करके तोड़ता है[7]। यह एक “लाइटनिंग इंडेक्सर” घटक प्रस्तुत करता है जो वर्तमान टोकन और पिछले टोकनों के बीच प्रासंगिकता स्कोर का तेजी से अनुमान लगाता है, फिर केवल शीर्ष-$k$ सबसे प्रासंगिक टोकनों को चुनता है जिन पर ध्यान दिया जाना चाहिए[7]। सार रूप में, मॉडल अप्रासंगिक संदर्भ को अनदेखा करना सीखता है और एक लंबी श्रंखला के केवल महत्वपूर्ण हिस्सों पर ध्यान केंद्रित करता है।

यह विरल ध्यान डिज़ाइन लंबी अनुक्रमों के लिए आवश्यक गणना को O(L²) से घटाकर O(L·k) कर देता है, जहाँ k L की तुलना में बहुत छोटा है। डीपसीक के कार्यान्वयन में, दूसरे प्रशिक्षण चरण के दौरान k=2048 का उपयोग किया गया था (प्रत्येक टोकन 2048 चयनित पिछले टोकनों पर ध्यान देता है)। डीएसए के लिए टीम ने दो-चरणीय प्रशिक्षण रणनीति अपनाई: पहले एक घने वार्म-अप में बिजली सूचक के साथ कुछ अरब टोकनों के लिए पूर्ण ध्यान के साथ प्रशिक्षण दिया गया, ताकि यह सुनिश्चित किया जा सके कि यह पूर्ण ध्यान के व्यवहार की नकल करना सीख सके। फिर मॉडल को विरल मोड में स्विच किया गया और सैकड़ों अरबों अधिक टोकनों पर शीर्ष-$k$ बाधा के साथ प्रशिक्षण दिया गया। परिणामस्वरूप एक विशाल दक्षता लाभ बिना किसी सटीकता के नुकसान के मिला। वास्तव में, V3.2-Exp (अंतिम मॉडल का प्रायोगिक अग्रदूत) ने नए विरल ध्यान का उपयोग करने के बावजूद बेंचमार्क के एक बैटरी में V3.1-टर्मिनस के बराबर प्रदर्शन किया। [8]।

व्यावहारिक रूप से, DSA का मतलब है कि लंबे दस्तावेज़ अब बोझ नहीं हैं। आंतरिक परीक्षणों में 128K-लंबाई इनपुट्स पर 2-3 गुना तेज़ प्रसंस्करण और लगभग 30-40% कम मेमोरी उपयोग दिखाया गया [9]। लागत भी नाटकीय रूप से गिरती है। डीपसीक ने रिपोर्ट किया कि उनके H800 क्लस्टर पर 128K संदर्भों के लिए, मिलियन टोकन पर प्रॉम्प्ट (प्रीफिल) लागत ~$0.70 से ~$0.20 तक और उत्पत्ति लागत ~$2.40 से ~$0.80 तक आई – लंबे संदर्भ अनुमान लागत में 3 गुना कमी। सार्वजनिक API में, इन बचतों ने उपयोगकर्ताओं के लिए 50% से अधिक कम कीमत में अनुवाद किया है [10]। संक्षेप में, DSA V3.2 को अत्यधिक लंबे इनपुट को पिछले मॉडलों के समय और लागत के एक हिस्से में संभालने की अनुमति देता है, बिना आउटपुट गुणवत्ता को प्रभावित किए।

बड़े पैमाने पर पुनर्बलन अधिगम: GRPO और विशेषज्ञ आसवन

DeepSeek-V3.2 के मजबूत प्रदर्शन का एक और मुख्य कारण इसमें किया गया विशाल पुनर्बलन अधिगम (RL) फाइन-ट्यूनिंग है। DeepSeek टीम ने प्रशिक्षण के बाद के RL में अभूतपूर्व मात्रा में कंप्यूट का निवेश किया - प्रशिक्षण से पहले इस्तेमाल किए गए कंप्यूट का 10% से अधिक (जो अपने आप में 670B-स्केल मॉडल के लिए बहुत बड़ा है)। यह ओपन-सोर्स एआई में अत्यंत असामान्य है, जहां RL फाइन-ट्यूनिंग बजट आमतौर पर बहुत छोटे होते हैं। तर्क यह है कि जबकि पूर्व-प्रशिक्षण व्यापक ज्ञान सिखाता है, गहन RL मॉडल को जटिल उद्देश्यों के साथ संरेखित करके उन्नत क्षमताएँ अनलॉक कर सकता है (जैसे कि बहु-चरणीय समस्याओं को हल करना, उपकरणों का उपयोग करना, या बाधाओं के तहत निर्देशों का पालन करना)[2]।

RL को सुरक्षित रूप से बढ़ाने के लिए, DeepSeek ने अपने कस्टम Group Relative Policy Optimization (GRPO) एल्गोरिदम का उपयोग किया। उन्होंने इस RL पाइपलाइन में कई स्थिरता और दक्षता सुधार जोड़े:

· अप्रत偏ागी KL अनुमान: टीम ने KL-विचलन दंड के लिए उपयोग किए गए मूल K3 अनुमापक में मुद्दों को ठीक किया, जिससे व्यवस्थित पूर्वाग्रह को समाप्त किया जो असीमित ग्रेडिएंट अद्यतनों का कारण बन सकता था। इससे प्रशिक्षण अस्थिरताओं को रोका गया जो तब हो सकती हैं जब नीति संदर्भ नीति से बहुत दूर चली जाती है।

· ऑफलाइन अनुक्रम मास्किंग: क्योंकि RL प्रशिक्षण अक्सर बड़े बैचों में “रोलआउट” डेटा उत्पन्न करता है जिन्हें कई ग्रेडिएंट अपडेट्स के दौरान पुनः उपयोग किया जाता है (एक ऑफ-पॉलिसी परिदृश्य), दीपसीक प्रत्येक नमूने के लिए रोलआउट पॉलिसी और वर्तमान पॉलिसी के बीच KL विचलन की गणना करता है। यदि एक उत्पन्न अनुक्रम की पॉलिसी वर्तमान मॉडल से बहुत दूर चली गई थी, तो उस अनुक्रम को प्रशिक्षण अपडेट से मास्क कर दिया गया (अलग कर दिया गया) [11][12]। इस चतुर तरीके ने सुनिश्चित किया कि मॉडल मुख्य रूप से ऑन-पॉलिसी या निकट ऑन-पॉलिसी डेटा से सीखे, जिससे स्थिरता में सुधार हुआ और खराब पथों से सीखने में गिरावट से बचा जा सका।

· MoE के लिए रूटिंग बनाए रखें: DeepSeek के मॉडल Mixture-of-Experts आर्किटेक्चर का उपयोग करते हैं, जिसका मतलब है कि विभिन्न “विशेषज्ञ” (उप-नेटवर्क) विभिन्न टोकन्स को संभालते हैं। यहां एक चुनौती यह है कि अनुमान और प्रशिक्षण कार्यान्वयन के बीच हल्के अंतर के कारण, वही इनपुट के लिए विभिन्न विशेषज्ञ चुने जा सकते हैं, जिससे असंगति हो सकती है। DeepSeek ने इसका समाधान इस तरह किया कि अनुमान के दौरान विशेषज्ञ रूटिंग निर्णयों को कैप्चर किया और RL अपडेट्स के दौरान उसी विशेषज्ञ रूट्स को मजबूर किया। इस “रूटिंग बनाए रखें” विधि ने सुनिश्चित किया कि RL के दौरान समायोजित किए गए पैरामीटर उन्हीं विशेषज्ञों से संबंधित हैं जो अनुमान के समय उपयोग किए जाएंगे, विशेषज्ञ फेरबदल से किसी भी अप्रिय आश्चर्य से बचते हुए।

इन एल्गोरिथमिक समायोजनों के अलावा, आरएल के लिए डेटा व्यवस्था बहुत महत्वाकांक्षी थी। डीपसीक ने विशेषज्ञ मॉडल की एक श्रृंखला प्रशिक्षित की – प्रत्येक का ध्यान किसी विशेष क्षेत्र या कौशल पर केंद्रित था – और फिर उनमें से सभी से ज्ञान को V3.2 में संघटित किया। उदाहरण के लिए, उन्होंने गणित (प्रमाण), प्रोग्रामिंग, तार्किक तर्क, सामान्य उपकरण-वर्धित कार्य, कोड-आधारित एजेंट, और खोज-आधारित एजेंट के लिए क्षेत्र-विशिष्ट विशेषज्ञों को फाइन-ट्यून किया। इन विशेषज्ञ मॉडलों को “सोचने” (चेन-ऑफ-थॉट) मोड और “नॉन-थिंकिंग” मोड दोनों में आवश्यकतानुसार प्रशिक्षित किया गया। इन विशेषज्ञों का उपयोग करके, डीपसीक ने प्रत्येक क्षेत्र में उच्च-गुणवत्ता वाले प्रदर्शनों का एक विशाल सिंथेटिक डेटासेट उत्पन्न किया, जिसका उपयोग अंतिम V3.2 मॉडल की निगरानी के लिए किया गया। यह विशेषज्ञ-संक्षेपण पाइपलाइन V3.2 को 85,000+ जटिल निर्देशों के साथ समृद्ध प्रशिक्षण संकेत प्रदान करती है, जिसमें चरण-दर-चरण गणितीय प्रमाण से लेकर सॉफ़्टवेयर डिबगिंग सत्र तक सबकुछ शामिल है।

उन्नत एजेंट क्षमताएँ और टूल उपयोग एकीकरण

DeepSeek-V3.2 की प्रमुख विशेषताओं में से एक इसकी बहुत उन्नत एजेंट क्षमताएँ हैं - यानी, मॉडल की योजना बनाने, तर्क करने, और समस्याओं को हल करने के लिए एक बहु-चरणीय लूप में टूल का उपयोग करने की क्षमता। DeepSeek के पूर्व संस्करणों के तर्क मॉडलों में एक प्रमुख सीमा थी: यदि मॉडल "सोच मोड" में था (यानी एक विचार श्रृंखला उत्पन्न कर रहा था), तो वह बाहरी टूल्स को कॉल नहीं कर सकता था, और इसके विपरीत। V3.2 ने उस बाधा को हटा दिया है। यह पहला DeepSeek मॉडल है जो पूरी तरह से सोच को टूल उपयोग के साथ एकीकृत करता है, जिसका मतलब है कि यह आंतरिक तर्क श्रृंखला को बनाए रखते हुए भी संवाद के बीच में टूल कॉल जारी कर सकता है (जैसे कोड चलाना, वेब खोज करना)[13]। इससे बहुत अधिक शक्तिशाली और लचीला एजेंट व्यवहार उत्पन्न होता है।

इसका समर्थन करने के लिए, DeepSeek टीम ने मॉडल के संदर्भ प्रबंधन को बहु-मोड़ कार्यों के लिए फिर से कल्पना की। V3.2 में, मॉडल के तर्क के निशान ("विचार") टूल कॉल के अनुक्रम में संरक्षित रहते हैं, बजाय इसके कि हर कदम पर मिट जाएं। केवल जब एक नया उपयोगकर्ता प्रश्न आता है, तो सिस्टम तर्क संदर्भ को रीसेट करता है (जबकि वार्तालाप में प्रासंगिक टूल इंटरैक्शन इतिहास को बनाए रखता है)। यह दृष्टिकोण बहुत सारे टोकन बचाता है और मॉडल को समस्या के लिए एक स्थायी विचार श्रृंखला बनाने की अनुमति देता है, जबकि उपकरणों को क्रमिक रूप से आह्वान किया जाता है। उदाहरण के लिए, यदि उपयोगकर्ता एक जटिल कोडिंग प्रश्न पूछता है, तो मॉडल कदमों के माध्यम से सोच सकता है, कुछ कोड का परीक्षण करने के लिए एक पायथन इंटरप्रेटर को कॉल कर सकता है, परिणाम के आधार पर आगे सोच सकता है, शायद एक दस्तावेज़ खोज उपकरण को कॉल कर सकता है, और इसी तरह - केवल तब अपने उत्तर को अंतिम रूप देता है जब उसने सही समाधान का सत्यापन कर लिया हो। सभी अंतरिम तर्क मॉडल के लिए उपलब्ध रहते हैं जब तक कि कार्य पूरा नहीं हो जाता।

DeepSeek ने मॉडल को एक “कोल्ड स्टार्ट” प्रॉम्प्ट भी दिया जो इस व्यवहार को स्पष्ट रूप से प्रोत्साहित करता है। सिस्टम निर्देश मॉडल को पहले एक विस्तृत तर्क प्रक्रिया (विशेष टोकनों के साथ चिह्नित) आउटपुट करने के लिए प्रेरित करते हैं, उसके बाद अंतिम उत्तर प्रकट करते हैं, विशेष रूप से जटिल कार्यों जैसे प्रोग्रामिंग चुनौतियों के लिए। यह प्रॉम्प्ट इंजीनियरिंग सुनिश्चित करता है कि V3.2 को पता हो कि उसे कठिन प्रश्नों के लिए अपनी विचार श्रृंखला और उपकरण क्षमताओं में संलग्न होना चाहिए, बजाय सीधे (अक्सर त्रुटिपूर्ण) उत्तर पर जाने के।

शायद V3.2 के एजेंट कौशल का सबसे प्रभावशाली पहलू यह है कि इसे कैसे प्रशिक्षित किया गया था। टीम ने मॉडल को सीखने के लिए यथार्थवादी, चुनौतीपूर्ण परिदृश्य बनाने के लिए एक स्वचालित पर्यावरण संश्लेषण पाइपलाइन का निर्माण किया। उन्होंने मॉडल को हल करने के लिए 85,000+ जटिल निर्देशों के साथ 1,827 इंटरएक्टिव टास्क एनवायरनमेंट उत्पन्न किए। इन कार्यों को विशेष रूप से "हल करने में कठिन, सत्यापन में आसान" होने के लिए डिज़ाइन किया गया था। दूसरे शब्दों में, मॉडल को ऐसे समस्याएं प्रस्तुत की जाती हैं जिनके पास एक बड़ा सर्च स्पेस होता है (संयोग से समाधान खोजना कठिन होता है) लेकिन समाधान की जाँच के लिए स्पष्ट मानदंड होते हैं। यह गुण उन्हें सुदृढीकरण सीखने के लिए आदर्श बनाता है: मॉडल एक समाधान प्रस्तावित करने के लिए प्रयोग कर सकता है (या एक उपकरण का उपयोग कर सकता है) और फिर जल्दी से सत्यापित कर सकता है कि क्या यह सभी दिए गए बाधाओं को पूरा करता है।

उदाहरण के लिए, एक संश्लेषित कार्य तीन-दिवसीय यात्रा यात्रा कार्यक्रम योजना समस्या थी जिसमें कई बाधाएँ थीं (शहरों को दोहराना नहीं, होटल लागत के आधार पर बजट को गतिशील रूप से समायोजित करना आदि)। यह एक मॉडल के लिए एक वैध यात्रा कार्यक्रम का केवल अनुमान लगाना बेहद कठिन है क्योंकि बाधाएँ एक संयोजनात्मक समस्या पैदा करती हैं - लेकिन यदि मॉडल एक उम्मीदवार यात्रा कार्यक्रम के साथ आता है, तो यह सत्यापित करना सीधा है कि सभी बाधाएँ संतुष्ट हैं। कई ऐसे कार्यों पर प्रशिक्षण के माध्यम से (जैसे यात्रा योजना, शेड्यूलिंग, तार्किक पहेलियाँ और अधिक डोमेन में), V3.2 ने उन समस्याओं को बेहतर ढंग से संभालना सीखा जो खोज, अनुकूलन, या बहु-चरणीय तर्क की आवश्यकता होती है। इस प्रशिक्षण व्यवस्था ने मॉडल की नई, अनदेखी एजेंट कार्यों के लिए सामान्यीकरण को बहुत बेहतर बना दिया है।

कोडिंग एजेंटों के क्षेत्र में, डीपसीक ने GitHub में टैप किया – लाखों वास्तविक इश्यू थ्रेड्स और पुल अनुरोधों का खनन किया। उन्होंने इस डेटा से निष्पादन योग्य कोडिंग चुनौती वातावरण के हजारों स्वचालित रूप से निर्मित किए। मॉडल बग रिपोर्ट या फीचर अनुरोध पढ़ने का अभ्यास कर सकता था, फिर (उपकरण सहायता के साथ) कोडबेस को नेविगेट करके एक फिक्स या फीचर लागू कर सकता था। इन वातावरणों ने कई प्रोग्रामिंग भाषाओं (पायथन, जावा, जावास्क्रिप्ट, आदि) को कवर किया, जिससे मॉडल को सॉफ़्टवेयर समस्याओं की एक विस्तृत विविधता का सामना करना पड़ा। एक अलग पाइपलाइन ने खोज-आधारित QA एजेंटों को संभाला: एक बहु-एजेंट सिमुलेशन का उपयोग करके, डीपसीक ने ऐसे डेटासेट उत्पन्न किए जहाँ एक एजेंट ने लंबी-पूंछ वाले संस्थाओं के बारे में कठिन प्रश्न पूछे और दूसरे एजेंट (एक खोज उपकरण तक पहुँच के साथ) को उत्तर खोजने और सत्यापित करने थे। इस बहु-चरणीय पीढ़ी (प्रश्न निर्माण → वेब खोज → उत्तर सत्यापन) ने V3.2 को एक प्रभावी “अनुसंधान सहायक” कैसे बनना है, के लिए उच्च गुणवत्ता वाले प्रशिक्षण उदाहरण प्रदान किए।

इन प्रयासों के लिए धन्यवाद, DeepSeek-V3.2 ने उपकरण उपयोगकर्ता एजेंट कार्यों में एक बड़ी सफलता हासिल की है। आंतरिक मूल्यांकनों में, V3.2 ने एजेंट बेंचमार्क के एक सेट पर किसी भी खुले मॉडल में सबसे उच्चतम स्कोर प्राप्त किया, जिससे बंद मॉडल के साथ अंतर को काफी कम कर दिया है[17]। डेवलपर्स ने यह उजागर किया कि V3.2 को उन परीक्षणों में विशिष्ट उपकरणों के लिए विशेष रूप से तैयार नहीं किया गया था – यह सुझाव देता है कि इसके एजेंट कौशल वास्तविक दुनिया के परिदृश्यों में स्थानांतरित होते हैं, न कि केवल संकीर्ण बेंचमार्क में[18]। दूसरे शब्दों में, मॉडल ने सामान्य रूप से तर्क करने और उपकरणों का उपयोग करने का तरीका सीखा, विशेष कार्यों में अति-फिटिंग नहीं की।

प्रदर्शन बेंचमार्क और तुलना

डीपसीक के नए मॉडल बाजार में उपलब्ध बेहतरीन एआई सिस्टम्स के मुकाबले कैसे हैं? तकनीकी रिपोर्ट और प्रारंभिक विश्लेषण कुछ उत्तर प्रदान करते हैं। व्यापक रूप से, डीपसीक-V3.2 गणितीय तर्क और कोडिंग कार्यों में शीर्ष स्तर का प्रदर्शन करता है, और V3.2-Speciale जटिल तर्क में बेहतरीन मॉडल्स की बराबरी करता है - लेकिन कुछ क्षेत्रों में (जैसे खुले-समाप्ति वाले टूल उपयोग) बंद मॉडल्स अभी भी बढ़त बनाए हुए हैं। नीचे चुने गए बेंचमार्क परिणामों की एक झलक है जो प्रतिस्पर्धी परिदृश्य को दर्शाती है:

तालिका 1: नमूना तर्क बेंचमार्क पर प्रदर्शन (सटीकता%)

बेंचमार्क (2025)

ओपनएआई जीपीटी-5.1 प्रो

गूगल जेमिनी-3.0-प्रो

डीपसीक-वी3.2

डीपसीक-वी3.2-स्पेशल

एआईएमई (गणित ओलंपियाड)

~94.6% (अनुमानित)

~95.0% (अनुमानित)

93.1%

96.0%[4]

एचएमएमटी (गणित टूर्नामेंट)

88.3%

97.5%

92.5%

99.2%[4]

जीपीक्यूए (विज्ञान प्रश्नोत्तरी, कठिन)

85.7%

91.9%

82.4%

85.7%

<small>स्रोत: डीपसीक तकनीकी रिपोर्ट[4]. GPT-5.1 और Gemini के परिणाम रिपोर्ट के ग्राफ से अनुमानित मान हैं। Speciale अक्सर गणित कार्यों पर Gemini के बराबर या उससे बेहतर होता है, जबकि मानक V3.2 GPT-5 स्तर पर है, जो Gemini से थोड़ा कम है।</small>

जैसा कि हम देख सकते हैं, DeepSeek-V3.2 ने शैक्षणिक तर्क चुनौतियों में अपने वादे को पूरा किया है। गणितीय प्रतियोगिताओं जैसे AIME और HMMT में, V3.2 की सटीकता एक उन्नत GPT-5 मॉडल के समान स्तर पर है, और केवल कुछ बिंदुओं से Gemini के अत्याधुनिक स्कोर से पीछे है। Speciale मॉडल ने उन गणित मानदंडों पर Gemini को भी पीछे छोड़ दिया है [4], इसके उन्नत "दीर्घ सोच" दृष्टिकोण के लाभ को दर्शाते हुए। ये परिणाम चौंकाने वाले हैं – गणित और औपचारिक तर्क को लंबे समय से खुले मॉडल की कमजोरी माना जाता था, लेकिन V3.2 दिखाता है कि ओपन-सोर्स सिस्टम इस क्षेत्र में अग्रिम-स्तरीय प्रदर्शन हासिल कर सकते हैं [19].

कोडिंग के मामले में, DeepSeek-V3.2 भी चमक रहा है, हालांकि प्रतिस्पर्धा कड़ी है। SWE-Bench Verified परीक्षण में (जो यह जांचता है कि क्या एक मॉडल बग-फिक्सिंग कोड डिफ्स उत्पन्न कर सकता है जो यूनिट टेस्ट पास करता है), V3.2 ने ~73% स्कोर किया, जो इसके पूर्ववर्ती से काफी अधिक है (V3.1 ने ~66% स्कोर किया[20]) और अन्य शीर्ष ओपन मॉडल्स जैसे Moonshot का Kimi K2 और Alibaba का Qwen-3 के साथ लगभग बराबरी पर है। वास्तव में, ये सभी ओपन मॉडल इस कोडिंग बेंचमार्क पर OpenAI के पुराने 120B बेसलाइन को थोड़ा पीछे छोड़ देते हैं[21][22]। यह दिखाता है कि व्यावहारिक कोडिंग क्षमता में ओपन मॉडल कितनी आगे बढ़ चुके हैं। DeepSeek V3.2 वास्तविक बग को ठीक करने और कार्यशील कोड उत्पन्न करने में सक्षम है, जिससे यह डेवलपर सहायता के लिए अत्यधिक उपयोगी बनता है।

हालांकि, सर्वश्रेष्ठ बंद मॉडल्स के खिलाफ तस्वीर मिली-जुली है। कुछ कोडिंग कार्यों पर, GPT-5.1 अभी भी एक लाभ रखता है। उदाहरण के लिए, अधिक जटिल टर्मिनल-बेंच 2.0 में (जो मल्टी-स्टेप CLI टूल उपयोग और एजेंट लूप में कोडिंग का मूल्यांकन करता है), प्रारंभिक रिपोर्ट्स बताती हैं कि GPT-5 और यहां तक कि एंथ्रोपिक का क्लॉड डीपसीक से बेहतर प्रदर्शन करता है, विशेष रूप से लंबे टूल-उपयोग सत्रों में निरंतर विश्वसनीयता में[23]। डीपसीक-V3.2 की सटीकता उन जटिल मल्टी-स्टेप एजेंट कार्यों पर गिरती है, यह दर्शाता है कि जबकि यह बहुत सक्षम है, यह पूरी तरह से स्वायत्त कोडिंग एजेंटों या लंबी-अवधि की समस्या समाधान में अभी तक शीर्ष प्रदर्शन करने वाला नहीं है। इसी तरह, व्यापक टूल-उपयोग बेंचमार्क्स जैसे MCP-यूनिवर्स और टूल-डेकाथलॉन पर, V3.2 GPT-5 और जेमिनी से काफी पीछे है[24]। OpenAI और Google के सिस्टम अभी भी जटिल, मल्टी-टूल योजनाएं अधिक स्थिरता से निष्पादित करते हैं। अंतर कम हुआ है - V3.2 ने इन परीक्षणों पर खुले मॉडलों के लिए नई ऊँचाईयाँ छू ली हैं[17] - लेकिन खुले मॉडल्स को सामान्य टूल-उपयोग प्रवीणता में बंद मॉडल्स के साथ वास्तव में मेल खाने से पहले एक बड़ा अंतर बना रहता है।

संक्षेप में, DeepSeek-V3.2 कई क्षेत्रों में सीमांत प्रदर्शन प्रदान करता है। यह वास्तविक-विश्व कोडिंग कार्यों पर GPT-5 के साथ प्रतिस्पर्धी है और उन्नत गणितीय तर्क में भी Gemini की बराबरी करता है। इसके साथ ही, यह सभी मामलों में GPT-5 या Gemini का पूर्ण प्रतिस्थापन नहीं है - विशेष रूप से जटिल "एजेंट" परिदृश्यों में जिसमें विस्तृत उपकरण समन्वय शामिल है, जहाँ वे बंद मॉडल अभी भी बढ़त रखते हैं। यह संतुलित दृष्टिकोण अपेक्षाएं सेट करने के लिए महत्वपूर्ण है: V3.2 उन चीजों में उत्कृष्टता प्राप्त करता है जिनके लिए इसे अनुकूलित किया गया था (तर्क और कोडिंग के साथ कुशलता), जबकि Speciale प्रकार यह दिखाता है कि जब तर्क को सीमा तक धकेला जाता है तो क्या संभव है।

सीमाएँ और दृष्टिकोण

प्रभावशाली उपलब्धियों के बावजूद, डीपसीक टीम V3.2 सीरीज़ की कुछ सीमाओं को लेकर ईमानदार है। सबसे पहले, क्योंकि कुल प्रशिक्षण FLOPs (फ्लोटिंग-पॉइंट ऑपरेशन्स) अभी भी कुछ अत्यधिक बड़े बंद मॉडलों से कम हैं, V3.2 में विश्व ज्ञान की व्यापकता और दुर्लभ तथ्यों का स्मरण GPT-5 जैसे नेताओं से पीछे हो सकता है। दूसरे शब्दों में, यह कुछ अस्पष्ट जानकारी या डोमेन-विशिष्ट जानकारी को नहीं जान सकता जो बड़े स्वामित्व वाले मॉडल ने सम्मिलित की है। यह एक सामान्य ट्रेड-ऑफ है खुले मॉडलों में, जो अक्सर थोड़े छोटे या कम विविध कॉर्पस पर प्रशिक्षित होते हैं।

एक और चुनौती है टोकन दक्षता। DeepSeek नोट करता है कि V3.2 और Speciale दोनों को कभी-कभी अधिक लंबी तर्क श्रृंखला उत्पन्न करने की आवश्यकता होती है ताकि उसी उत्तर की गुणवत्ता प्राप्त हो सके जो Gemini-3.0-Pro जैसे मॉडल द्वारा एक अधिक संक्षिप्त प्रतिक्रिया के साथ हासिल की जा सकती है[6]। व्यवहार में, इसका मतलब है कि V3.2 का "सोच मोड" उपयोग करना अत्यंत कठिन समस्याओं को हल करने के लिए उच्च टोकन लागत (और विलंबता) ला सकता है – मॉडल चरणों के माध्यम से काम करते समय शब्दy होगा। विशेष रूप से, Speciale, जबकि असाधारण रूप से सक्षम है, टोकन-भूखा है: यह एक बहुत ही विस्तृत प्रमाण या व्याख्या उत्पन्न कर सकता है जहाँ एक मानव विशेषज्ञ या एक परिष्कृत बंद मॉडल एक कसकर उत्तर दे सकता है। यह हमेशा नुकसान नहीं है (विस्तृत तर्क मूल्यवान हो सकता है), लेकिन यह कुछ उपयोगों को अधिक महंगा बना देता है।

DeepSeek-V3.2 में वर्तमान में खुली बातचीत की शैली या रचनात्मक लेखन के लिए सूक्ष्मता की कमी है। इसके प्रशिक्षण का फोकस स्पष्ट रूप से संरचित समस्या समाधान और एजेंट्स पर था। उपयोगकर्ताओं ने देखा है कि इसकी शैली तार्किक और सूचनात्मक है, लेकिन शायद आकस्मिक संवाद में GPT-4 या Claude जैसे मॉडलों की तुलना में कम स्वाभाविक रूप से बातचीत करने वाली या कल्पनाशील है। यह एक सचेत निर्णय था: DeepSeek ने इस रिलीज़ के लिए अनुसंधान कार्य, कोडिंग और गणित क्षमताओं को प्राथमिकता दी, भले ही इसका मतलब सामान्य बातचीतशीलता में कुछ कमी हो।

आगे देखते हुए, DeepSeek टीम ने निरंतर प्रगति का संकेत दिया है। V3.2 तकनीकी रिपोर्ट इन कमियों को खुले तौर पर भविष्य के सुधार के लक्ष्यों के रूप में चर्चा करती है। पहले से ही समुदाय में DeepSeek-R2 मॉडल के संभावित आने की प्रत्याशा है - जो, अगर नामकरण सही है, तो R1 और V3.2 की नींव पर आधारित अगला तर्क-केंद्रित मॉडल हो सकता है। (DeepSeek के अनुयायियों ने V3.2 लॉन्च के जवाब में आधे मजाक में पूछा "R2 कब आएगा?") अगर और जब R2 आता है, तो उम्मीद है कि यह और अधिक अंतराल को बंद कर सकता है, शायद बड़े प्रशिक्षण रनों को शामिल करके, अधिक ज्ञान समाहित करके, और बेहतर टोकन दक्षता तकनीकों का उपयोग करके।

अभी के लिए, DeepSeek-V3.2 ओपन-सोर्स AI दुनिया में एक मील का पत्थर दर्शाता है। यह दिखाता है कि होशियारी से इंजीनियरिंग के साथ - जैसे कि sparse attention, बड़े पैमाने पर RL फाइन-ट्यूनिंग और synthetic task generation - एक ओपन मॉडल तर्क और कोडिंग पर सीमांत प्रदर्शन तक पहुंच सकता है, जो कभी ट्रिलियन-पैरामीटर बंद मॉडल का संरक्षित क्षेत्र माना जाता था। एक विश्लेषक के अनुसार, V3.2 एक “मजबूत, कम-लागत वाला सोचने और कोडिंग मॉडल है जो वहां सीमांत स्तर के परिणाम देता है जहां अधिकांश डेवलपर्स वास्तव में काम करते हैं: कोड और गणित”[26]। यह जीपीटी-5 या जेमिनी को सार्वभौमिक AI समाधान के रूप में निरस्त्र नहीं कर सकता है, लेकिन अपनी विशेष भूमिका में, DeepSeek-V3.2 शानदार ढंग से सफल होता है[27] - और महत्वपूर्ण रूप से, यह एक स्वतंत्र रूप से उपलब्ध मॉडल के रूप में ऐसा करता है। व्यापक AI पारिस्थितिकी तंत्र में, यह वास्तव में चैटजीपीटी की इस वर्षगांठ पर एक अनमोल उपहार है।

स्रोत: इस लेख की जानकारी और उद्धरण DeepSeek के आधिकारिक रिलीज नोट्स और तकनीकी रिपोर्ट से लिए गए हैं[1][4][13][17], AI प्रकाशनों में समाचार कवरेज और विश्लेषण[2], साथ ही शुरुआती उपयोगकर्ताओं द्वारा DeepSeek-V3.2 की स्वतंत्र मूल्यांकन[19][24] और सामुदायिक विशेषज्ञों के विचार[7][8]। सभी बेंचमार्क और तुलना मॉडल प्रदर्शन के संबंधित कार्यों पर वर्तमान स्थिति (दिसंबर 2025) को दर्शाते हैं।

[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 का आधिकारिक संस्करण: एजेंट क्षमता को बढ़ाना, सोचने की क्षमता को शामिल करना | DeepSeek API डॉक्यूमेंट्स

https://api-docs.deepseek.com/zh-cn/news/news251201

[2] DeepSeek ने GPT-5 की बराबरी करने के लिए नए तर्क मॉडल जारी किए, Gemini 3 Pro को चुनौती दी

https://analyticsindiamag.com/ai-news-updates/deepseek-releases-new-reasoning-models-to-match-gpt-5-rival-gemini-3-pro/

[7] [8] [9] [10] [11] [12] [21] [22] DeepSeek V3.2-Exp समीक्षा। DeepSeek का नवीनतम प्रयोगात्मक मॉडल… | Barnacle Goose द्वारा | अक्टूबर, 2025 | मीडियम

https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c

[19] [23] [24] [25] [26] [27] DeepSeek V3.2 बनाम Gemini 3.0 बनाम Claude 4.5 बनाम GPT-5 | मेहुल गुप्ता द्वारा | आपके पॉकेट में डेटा साइंस | दिसंबर, 2025 | मीडियम

https://medium.com/data-science-in-your-pocket/deepseek-v3-2-vs-gemini-3-0-vs-claude-4-5-vs-gpt-5-55a7d865debc

[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face

https://huggingface.co/deepseek-ai/DeepSeek-V3.1