
लेखक: Boxu L
DeepSeek-V4 ने AI समुदाय में तहलका मचा दिया है, यह अब तक का सबसे बड़ा ओपन मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) भाषा मॉडल है। इस 1 ट्रिलियन-पैरामीटर मॉडल का विवरण देते हुए एक arXiv प्रीप्रिंट ऑनलाइन तेजी से वायरल हो गया, यह AI के स्केलिंग में एक नया दृष्टिकोण दर्शाता है। घने मॉडलों के विपरीत जो हर टोकन के लिए सभी वजन सक्रिय करते हैं, MoE मॉडल जैसे कि DeepSeek केवल समय-समय पर अपने छोटे हिस्से को सक्रिय करते हैं - आमतौर पर प्रति टोकन <10% [1]। यह विरल सक्रियण वह विशेषता है जो ट्रिलियन-पैरामीटर मॉडल को संभव बनाती है [1]। DeepSeek-V4 के मामले में, लगभग 32 बिलियन पैरामीटर (≈3% कुल का) किसी दिए गए इनपुट टोकन के लिए उपयोग किए जाते हैं, समान रूप से बड़े घने मॉडल की तुलना में बहुत कम गणना लागत के साथ विशाल क्षमता का लाभ उठाते हुए।
इतनी चर्चा क्यों? एक कारण है कि DeepSeek-V4 अब तक का सबसे बड़ा ओपन-एक्सेस MoE मॉडल है, जो DeepSeek-V3 (671B पैरामीटर) जैसे पूर्ववर्तियों को पार कर चुका है और कई कार्यों में बंद मॉडल्स से भी मुकाबला करता है[2]। इसके एक उदार ओपन-सोर्स लाइसेंस के तहत रिलीज़ का मतलब है कि कोई भी GPT-5 स्केल पर मॉडल का प्रयोग या तैनाती कर सकता है – एक ऐसा नाटकीय विकास जहाँ शीर्ष मॉडल अक्सर प्रोप्राइटरी होते हैं। इसके अलावा, प्रारंभिक बेंचमार्क यह सुझाव देते हैं कि DeepSeek-V4 विशेषज्ञता वाले क्षेत्रों जैसे गणित और कोडिंग में अत्याधुनिक प्रदर्शन देता है (जहां MoE की विशेषज्ञता लाभकारी होती है), जो पहले के बड़े मॉडलों की लागत के एक अंश पर होता है[3][4]। इन सभी कारकों ने मिलकर DeepSeek-V4 को शोधकर्ताओं और इंजीनियरों के बीच वायरल सनसनी बना दिया है।
DeepSeek-V4 की सराहना करने के लिए, यह जानना मददगार होता है कि इसके मुख्य तकनीकी विवरण क्या हैं और यह अन्य अग्रणी मॉडलों की तुलना में कैसा है:
तालिका: DeepSeek-V4 के 1T-पैराम MoE को समान अगली पीढ़ी के मॉडलों के संदर्भ में। 「सक्रिय」 उन पैरामीटरों को संदर्भित करता है जो प्रति टोकन उपयोग किए जाते हैं (MoE मॉडल प्रत्येक टोकन को विशेषज्ञों के उपसमूह के माध्यम से मार्गित करते हैं)। संदर्भ = अधिकतम अनुक्रम लंबाई जो मॉडल संभाल सकता है।
जैसा कि ऊपर दिखाया गया है, DeepSeek-V4 अन्य हाल ही में घोषित चीनी मॉडलों जैसे Kimi K2 और Qwen3-Max के साथ ट्रिलियन-पैरामीटर मॉडलों के एक विशिष्ट समूह में शामिल होता है। ये सभी छिटपुट रूप से गेटेड MoE आर्किटेक्चर का उपयोग करते हैं ताकि एक बार में केवल दसियों अरब पैरामीटर "सक्रिय" रह सकें [5]। इसके विपरीत, एक घना मॉडल (जैसे GPT-5) को हर बार हर भार का उपयोग करना होगा - एक ऐसा दृष्टिकोण जो 500B–1T पैमाने से परे अत्यधिक महंगा हो जाता है [10]। विशेष रूप से, DeepSeek-V4 की डिज़ाइन के बारे में बताया गया है कि यह 16-विशेषज्ञ मार्ग का उपयोग करता है, जिसका मतलब है कि प्रत्येक टोकन को प्रत्येक MoE परत में सैकड़ों उपलब्ध विशेषज्ञों में से 16 विशेषज्ञ उपनेटवर्क द्वारा संसाधित किया जाता है। यह पहले के MoE मॉडलों (जो अक्सर शीर्ष-2 या शीर्ष-4 विशेषज्ञों का उपयोग करते थे) से एक महत्वपूर्ण वृद्धि है और यह अधिक बारीक विशेषज्ञ मार्गों के माध्यम से मॉडल की अभिव्यक्तिक शक्ति को अधिकतम करने का उद्देश्य रखता है।
Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.
DeepSeek-V4 DeepSeek के प्रमाणित MoE आर्किटेक्चर पर आधारित है, जिसे V2/V3 में पेश किया गया था और DeepSeekMoE अनुसंधान श्रृंखला के माध्यम से परिष्कृत किया गया था। इसके मूल में, मॉडल मानक ट्रांसफॉर्मर फीड-फॉरवर्ड लेयर्स को समानांतर विशेषज्ञ नेटवर्क के एक सेट के साथ बदल देता है। प्रत्येक आने वाले टोकन के लिए, एक गेटिंग राउटर गतिशील रूप से उन विशेषज्ञों के समूह का चयन करता है जो उस टोकन की सामग्री को संसाधित करने के लिए सबसे उपयुक्त हैं (उदाहरण के लिए, कुछ विशेषज्ञ कोड में विशेषज्ञ हो सकते हैं, अन्य गणित में, अन्य सामान्य सिंटैक्स में)। केवल वे चयनित विशेषज्ञ नेटवर्क ही उस टोकन के लिए निष्पादित होते हैं, जिससे गणना विरल हो जाती है।
महत्वपूर्ण रूप से, DeepSeek ने विशेषज्ञ विशेषीकरण और उपयोगिता को बेहतर बनाने के लिए MoE रूटिंग पर नवाचार किया। DeepSeekMoE आर्किटेक्चर ने दो प्रमुख रणनीतियाँ पेश कीं[12]:
सूक्ष्म विभाजन और साझा विशेषज्ञों का संयोजन विशेषज्ञ ओवरलैप और पतन से बचने में मदद करता है, जो MoEs में एक कुख्यात चुनौती है। पारंपरिक MoEs में, यदि राउटर को सावधानीपूर्वक प्रबंधित नहीं किया जाता है, तो यह कुछ विशेषज्ञों का अधिक उपयोग कर सकता है और दूसरों को कम प्रशिक्षित कर सकता है ("रूट पतन")। DeepSeek-V3/V4 इसको लोड-बैलेंसिंग राउटिंग रणनीति के साथ संबोधित करता है जिसे किसी सहायक हानि की आवश्यकता नहीं होती[15] है। एक्सपर्ट उपयोग को मजबूर करने के लिए स्विच ट्रांसफार्मर में उपयोग किए गए अतिरिक्त हानि शब्द के बजाय, DeepSeek का राउटर अनुकूली क्षमता सीमाओं के साथ गतिशील रूटिंग का उपयोग करता है ताकि स्वाभाविक रूप से लोड संतुलित हो सके[16]। V3 की सहायक-हानि-मुक्त रणनीति प्रभावी साबित हुई - प्रशिक्षण स्थिर था और सभी विशेषज्ञ अच्छी तरह से उपयोग में रहे[17]। हम उम्मीद कर सकते हैं कि V4 इस दृष्टिकोण को जारी रखेगा, सैकड़ों विशेषज्ञों का बिना पतन के सुचारू प्रशिक्षण सक्षम करेगा।
संक्षेप में, DeepSeek-V4 की वास्तुकला अत्याधुनिक MoE डिज़ाइन का उदाहरण देती है: विरल विशेषज्ञ मार्गदर्शन जो क्षमता को बड़े पैमाने पर विस्तार देता है, प्रत्येक टोकन के लिए विशेषज्ञता के अधिक समृद्ध संयोजनों के लिए 16-विशेषज्ञ सक्रियण मार्ग और विशेषज्ञों को विशेष बनाने (सूक्ष्म विभाजन और साझा सामान्यवादियों के माध्यम से) और मज़बूत प्रशिक्षण सुनिश्चित करने के लिए विशेष तकनीकें। यह एक मॉडल है जो विशेषज्ञों के माध्यम से 'चौड़ा होता है' बजाय 'ऊँचा' परतों के माध्यम से - एक मौलिक रूप से अलग पैमाना रणनीति घनी GPT श्रृंखला से।
DeepSeek-V4 का एक सबसे आकर्षक पहलू इसकी लागत-दक्षता है, दोनों प्रशिक्षण और तैनाती में। 1 ट्रिलियन पैरामीटर तक विस्तार करना अत्यधिक महंगा लग सकता है, लेकिन MoE की विरल गणना वास्तविक लागतों को एक घने ट्रिलियन-पैरामीटर मॉडल की तुलना में काफी कम रखती है।
सारांश में, पूर्ण उपयोग के लिए समझदारी से व्यापार करके, DeepSeek-V4 काफी कम कंप्यूट के साथ लगभग अत्याधुनिक प्रदर्शन प्राप्त करता है। यह MoE के वादे को समाहित करता है: "मॉडल को बढ़ाएं, लागत को नहीं।" यह दक्षता एक प्रमुख कारण है कि क्यों कई विशेषज्ञ MoE आर्किटेक्चर को बड़े AI मॉडलों का भविष्य मानते हैं[21][10].
कच्चे आकार को छोड़कर, DeepSeek-V4 वास्तव में क्या कर सकता है? प्रारंभिक संकेतक सुझाव देते हैं कि यह उन क्षेत्रों में उत्कृष्टता प्राप्त करता है जहाँ विशेषज्ञ विशेषज्ञता सबसे अधिक लाभकारी होती है – विशेष रूप से जटिल तर्क (गणित, तर्क) और कोडिंग – जबकि सबसे अच्छे मॉडलों के साथ मजबूत सामान्य क्षमताओं को बनाए रखता है।
संक्षेप में, DeepSeek-V4 ऐसा लगता है कि यह MoE की ताकतों पर खरा उतरता है: यह एक गणितीय जादूगर है, एक योग्य कोडर है, और एक मजबूत सर्वांगीण संवादात्मक AI है। यह हर एक कार्य में GPT-5 जैसे मॉडलों की तुलना में बहुत अधिक श्रेष्ठ नहीं हो सकता है (GPT-5 कुछ “सामान्य” क्षेत्रों या बहु-मोडल समझ में अभी भी बढ़त रख सकता है), लेकिन V4 कई प्रमुख क्षेत्रों में नेतृत्व या करीब दूसरे स्थान पर दावा कर सकता है, और वह भी अधिक सुलभ रहते हुए। कई विशेष उपयोग मामलों के लिए – खासकर वे जिनमें बड़े संदर्भ या डोमेन-विशिष्ट तर्क की आवश्यकता होती है – यह उच्च प्रदर्शन और कम लागत का एक बेजोड़ संयोजन प्रदान करता है।
DeepSeek-V4 की शुरुआत सिर्फ एक कंपनी की उपलब्धि से अधिक का संकेत देती है - यह AI के भविष्य में विरल विशेषज्ञ मॉडल्स की तरफ एक व्यापक बदलाव का प्रतिनिधित्व करती है। जैसा कि एक विश्लेषण ने कहा, “ट्रिलियन-पैरामीटर मॉडल्स को ट्रेन करने योग्य और तैनात करने योग्य बनाने के लिए, MoE के माध्यम से विरलता एकमात्र व्यवहार्य दृष्टिकोण बन रही है।”[10] DeepSeek ने एक ट्रिलियन-स्तरीय मॉडल प्रदान करके इसे साबित कर दिया है जिसे समुदाय वास्तव में उपयोग कर सकता है। पारंपरिक घना स्केलिंग (सिर्फ मॉडल को बड़ा बनाकर और बलपूर्वक इसे पूरा करना) गंभीर घटती हुई वापसी और लागत बाधाओं का सामना कर रहा है[33][34]। DeepSeek-V4 जैसे विरल मॉडल आगे का रास्ता दिखाते हैं जहां हम AI क्षमताओं का विस्तार कर सकते हैं बिना गणना आवश्यकताओं को अनुपातिक रूप से बढ़ाए।
बाज़ार के दृष्टिकोण से, खुले चीनी मॉडल अब पश्चिमी प्रयोगशालाओं के सर्वश्रेष्ठ के बराबर होते जा रहे हैं। दीपसीक-V4 और इसके समकालीन (क्वेन3, किमी K2) की तुलना मीडिया और बेंचमार्क में सीधे GPT-5 से की गई है। वे अक्सर विशेष क्षेत्रों में GPT-4-श्रेणी के मॉडलों को बेहतर प्रदर्शन करते हैं (जैसे कोडिंग, तर्क) और वे यह सब बहुत कम कीमत पर करते हैं। यह एक प्रतिस्पर्धी पुनर्विचार को मजबूर कर रहा है: ओपनएआई और अन्य को अपने लागतों को कम करने या MoE तकनीकों को शामिल करने के लिए दबाव महसूस हो सकता है। अंतिम उपयोगकर्ताओं और डेवलपर्स के लिए, यह एक बड़ी जीत है - हमारे पास AI के अत्याधुनिक में पहले से अधिक विकल्प हैं, और उनमें से कई विकल्प ओपन-सोर्स और बजट-फ्रेंडली हैं। चीन के AI पारिस्थितिकी तंत्र में नवाचार की गति दीपसीक जैसे मॉडलों द्वारा प्रेरित है; यह लागतों को कम कर रहा है और प्रदर्शन को बढ़ा रहा है, जिससे वैश्विक समुदाय को लाभ हो रहा है।
अंत में, यह ध्यान देने योग्य है कि डीपसीक-V4 का दृष्टिकोण एक अन्य उभरते रास्ते से विपरीत है: सुदृढीकरण शिक्षा + स्मृति-वर्धित मॉडल। MoE रणनीति मॉडल की क्षमता (पैरामीटर) को बढ़ाती है और जटिलता को संभालने के लिए रूटिंग पर निर्भर करती है, जबकि कुछ अन्य अनुसंधान बाहरी उपकरणों, दीर्घकालिक स्मृति, या एजेंट-जैसे तर्क लूप के माध्यम से मॉडल की क्षमता को बढ़ाने पर ध्यान केंद्रित कर रहे हैं। उदाहरण के लिए, Kimi K2 “Thinking” जैसे मॉडल उपकरण उपयोग और 256K संदर्भ के साथ एक एजेंटिक लूप को शामिल करते हैं ताकि दीर्घ-अवधि योजना को हासिल किया जा सके[5][39]। इसी तरह, आगामी सिस्टम छोटे मॉडलों को बड़ी मॉडलों से बेहतर बनाने के लिए स्पष्ट स्मृति मॉड्यूल या न्यूरल रिट्रीवल का अन्वेषण कर रहे हैं। डीपसीक की अब तक की फिलॉसफी यह रही है कि जितना संभव हो सके ज्ञान को मॉडल पैरामीटर में पैक किया जाए (और वास्तव में, V4 अपने फाइन-ट्यूनिंग में कुछ मल्टी-स्टेप थिंकिंग को एकीकृत कर सकता है)। दोनों दृष्टिकोण – MoE के माध्यम से स्केलिंग और स्मृति/आरएल के माध्यम से उन्नति – पूरक हैं। हम जल्द ही ऐसे हाइब्रिड देख सकते हैं जो विशाल MoE नेटवर्क को डायनामिक मेमोरी या टूल इंटरफेस के साथ संयोजित करते हैं। किसी भी स्थिति में, V4 की सफलता एक उच्च मानक स्थापित करती है: किसी भी वैकल्पिक दृष्टिकोण को गंभीरता से लेने के लिए उसके प्रदर्शन और दक्षता से मेल खाना चाहिए।
DeepSeek-V4 MoE एआई विकास में एक मील का पत्थर है - 1-ट्रिलियन पैरामीटर वाला ओपन मॉडल जो MoE के 'बड़ा होने और कुशल बने रहने' के वादे को साकार करता है। यह दिखाता है कि विरल विशेषज्ञ मॉडल चुनौतीपूर्ण कार्यों में अत्याधुनिक परिणाम प्राप्त कर सकते हैं, अक्सर घने मॉडलों को मात देते हैं जो प्रशिक्षित करने और चलाने में कहीं अधिक महंगे होते हैं। MIT लाइसेंस के तहत V4 को ओपन-सोर्स करके, DeepSeek-AI ने यह सुनिश्चित किया है कि यह उपलब्धि व्यापक रूप से सुलभ है, जिससे वैश्विक अनुसंधान और अनुप्रयोग विकास को बढ़ावा मिलता है। मॉडल का ऑनलाइन वायरल स्वागत समुदाय की उत्सुकता का प्रमाण है: हम देख रहे हैं कि खुले मॉडल और सर्वश्रेष्ठ बंद मॉडलों के बीच गुणवत्ता अंतर कम हो रहा है, और कुछ क्षेत्रों में, खुले मॉडल आगे बढ़ रहे हैं[40][38]।
आगे देखते हुए, DeepSeek-V4 में अग्रणी तकनीकों - 16-विशेषज्ञ रूटिंग से लेकर सहायक-मुक्त संतुलन तक - संभवतः कई भविष्य की आर्किटेक्चर को प्रभावित करेंगे। एआई शोधकर्ताओं के रूप में, अब हमारे पास सबूत हैं कि स्केलिंग चौड़ाई (विशेषज्ञ) गहराई या डेटा के स्केलिंग जितनी शक्तिशाली हो सकती है, यदि कुछ समस्याओं के लिए अधिक नहीं। इस बीच, अगले चुनौतियाँ सामने आ रही हैं: लाखों-टोकन संदर्भों में सामंजस्य बनाए रखने के लिए, रियल-टाइम लर्निंग या मेमोरी को कैसे एकीकृत करें, और MoE मॉडलों के 'राउटर' मस्तिष्क को कैसे और सुधारें। DeepSeek-V4 ने इस कहानी में एक नया अध्याय खोला है, और इसका प्रभाव एआई सिस्टम की इंजीनियरिंग और एआई डिप्लॉयमेंट के अर्थशास्त्र (सस्ते, अधिक खुले मॉडल सभी के लिए) में महसूस किया जाएगा।
सारांश में, डीपसीक-V4 विरल मॉडल डिज़ाइन की एक विजय है – एक विशाल ढांचे के बजाय विशेषज्ञों की एक सेना के माध्यम से GPT-5 जैसी क्षमता प्रदान करता है। यह इस बात को रेखांकित करता है कि एआई का क्षेत्र अब केवल इस बात पर निर्भर नहीं है कि किसके पास अधिक डेटा या TPU पॉड्स हैं, बल्कि स्मार्ट आर्किटेक्चर और खुलापन पर भी है। जैसे ही हम इस MoE दृष्टिकोण की अन्य रास्तों (जैसे कि आगामी कार्य में सुदृढीकरण अधिगम + स्मृति रणनीतियों) से तुलना करते हैं, एक बात स्पष्ट है: AGI की दौड़ में अब कई उपयोगी मार्ग हैं। और डीपसीक-V4 जैसी नवाचारों के लिए धन्यवाद, यह दौड़ एक खुले, लागत-सचेत और अत्यंत रोमांचक तरीके से तेज हो रही है।
स्रोत:
· DeepSeek-AI, DeepSeek-V3 तकनीकी रिपोर्ट, arXiv (2025) – 671B-पैरामीटर MoE (37B सक्रिय) पेश किया; 14.8T टोकन पर स्थिर प्रशिक्षण[18]। खुले मॉडल प्रदर्शन को बंद GPT-4-स्तरीय मॉडलों के समकक्ष दिखाया[2] केवल 2.788M H800-घंटे के प्रशिक्षण के साथ[41]।
· DeepSeek-AI, DeepSeekMoE: अंतिम विशेषज्ञ विशिष्टीकरण, arXiv (2024) – MoE ओवरलैप को हल करने के लिए प्रस्तावित सूक्ष्म-विशिष्ट विशेषज्ञ विभाजन और साझा विशेषज्ञ[12], m·K विशेषज्ञ सक्रिय (DeepSeekMoE 2B ने 1/2 गणना का उपयोग करके घनी 2B प्रदर्शन का मिलान किया)[42]। GShard MoE पर महत्वपूर्ण लाभ के साथ 145B तक का स्केलिंग सत्यापित।
· जॉयस बर्किन्स, डीपसीक आधिकारिक पत्रों का अवलोकन, मीडियम (फरवरी 2025) – डीपसीक V2/V3 आर्किटेक्चर की व्याख्या की गई। V3 के 671B कुल बनाम 37B सक्रिय (केवल ~5.5%)[11], सहायक-हानि-मुक्त लोड बैलेंसिंग[15] के उपयोग, और विशेषज्ञ विभाजन के माध्यम से 14 विशेषज्ञ/टोकन[13] का उल्लेख किया। V3 की स्थिरता और V2.5 की तुलना में कोड क्षमता में बड़ा उछाल (30%+) को उजागर किया[22].
· Cerebras ब्लॉग, MoE के मूलभूत सिद्धांत: Sparse मॉडल्स (जुलाई 2025) – चर्चा की गई कि क्यों <10% सक्रियता (जैसे DeepSeek में) ट्रिलियन-स्केल मॉडल्स के लिए एक विशेषता है[1]। दिखाया कि केवल 32 विशेषज्ञ भी 3× तेज प्रशिक्षण या समान कंप्यूट के लिए 5% बेहतर हानि दे सकते हैं[43], और DeepSeek का 256-विशेषज्ञ डिज़ाइन इस दक्षता का उदाहरण प्रस्तुत करता है[44]। दर्शाया कि MoEs निश्चित कंप्यूट पर डेंस (Chinchilla-इष्टतम) से बेहतर प्रदर्शन करते हैं[45]।
· स्पेक्ट्रम AI लैब्स (परास), डीपसीक V4 बनाम क्वेन3-मैक्स बनाम GPT-5 (नवंबर 2025) – नवीनतम चीनी मॉडलों की तुलना की। रिपोर्ट में डीपसीक V3 के 89.3% GSM8K और 61.6% MATH का उल्लेख किया गया है, उम्मीद है कि V4 गणितीय तर्क में GPT-5 को मिलान/पार कर सकता है[3]। नोट किया गया कि क्वेन 2.5-मैक्स का ह्यूमनइवैल 92.7% कोडिंग बेंचमार्क में अग्रणी है[25], जबकि डीपसीक V3 88.9% पर है। डीपसीक की लागत लाभ (ओपन-सोर्स, ~30× ओपनएआई से सस्ता)[46][47] पर जोर दिया गया।
· Reddit DeepSeek समुदाय पोस्ट्स (2025) – R1 की लागत को हाइलाइट किया गया: “OpenAI-o1 के समान प्रदर्शन, 1/27वीं कीमत पर”[48]. V4 की 1M टोकन संदर्भ विंडो की अफवाहें भी नोट की गईं (अपुष्ट)[49] और “V3.2 sparse attention” का उपयोग V4 से पहले लंबे संदर्भ के लिए परीक्षण के रूप में किया गया। समुदाय की प्रतिक्रिया बताती है कि बेहद कम API उपयोग लागत (प्रति मिलियन टोकन कुछ सेंट के अंश) लंबे संवादों को सक्षम बनाती है[50].
· Moonshot AI, Kimi K2 Thinking – आर्किटेक्चर और परफॉर्मेंस (नवंबर 2025) – एक समकालीन 1T-पराम MoE मॉडल का वर्णन किया। K2 256K संदर्भ, 1T कुल मिलाकर 32B सक्रिय[5] और दक्षता के लिए INT4 क्वांटाइज़ेशन का उपयोग करता है[51]। मजबूत दीर्घावधि उपकरण-उपयोग क्षमताओं (200+ अनुक्रमिक कॉल्स) और अत्याधुनिक एजेंट बेंचमार्क[52] दिखाए, जो MoE स्केल को एजेंटिक रीजनिंग लूप्स के साथ संयोजित करने की संभावना को दर्शाते हैं। K2 का प्रशिक्षण खर्च ~$4.6M[20] ट्रिलियन-पराम प्रशिक्षण की नई सस्तीता का उदाहरण देता है।
[1] [10] [21] [33] [34] [43] [44] [45] MoE मूल बातें: क्यों Sparse मॉडल AI का भविष्य हैं
https://www.cerebras.ai/blog/moe-guide-why-moe
[2] [17] [18] [41] [2412.19437] DeepSeek-V3 तकनीकी रिपोर्ट
https://arxiv.org/abs/2412.19437
[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 बनाम Qwen3-Max-Thinking: चीनी AI मॉडल जो GPT-5 को हरा रहे हैं | Spectrum AI Labs
https://spectrumailab.com/blog/deepseek-v4-vs-qwen3-max-thinking-chinese-ai-models-beating-gpt5
[4] [7] [22] [30] [31] [48] जनरेटिव एआई बड़े मॉडल गतिशील साप्ताहिक रिपोर्ट | jax
[5] [6] [19] [23] [24] [39] [51] [52] Kimi K2 थिंकिंग: 256K संदर्भ के साथ लंबी-समय की योजना | My Social द्वारा | . | नवम्बर, 2025 | मीडियम
https://medium.com/aimonks/kimi-k2-thinking-long-horizon-planning-with-256k-context-67cd1277fb72
[9] डीपसीक बड़े भाषा मॉडल्स का बेंचमार्क मूल्यांकन ...
https://www.nature.com/articles/s41591-025-03727-2
[11] [13] [14] [15] [16] Deepseek 4 आधिकारिक पेपर्स अवलोकन: Deepseek MoE, MLA, MTP, आसवन | जॉयस बिर्किन्स द्वारा | मीडियम
[12] [42] [2401.06066] DeepSeekMoE: एक्सपर्ट स्पेशलाइज़ेशन की चरम सीमा की ओर, मिश्रण-ऑफ़-एक्सपर्ट्स भाषा मॉडल में
https://arxiv.org/abs/2401.06066
[20] Kimi K2 सोच: $4.6M मॉडल AI नैरेटिव्स को बदलना
https://recodechinaai.substack.com/p/kimi-k2-thinking-the-46m-model-shifting
[49] [50] डीपसीक V4. : r/DeepSeek
https://www.reddit.com/r/DeepSeek/comments/1nwvnmb/deepseek_v4/