पूर्ण LLM तुलना: Claude Opus 4.5 बनाम ChatGPT 5.1 बनाम Google Gemini 3 Pro

लेखक: बॉक्सू ली

परिचय

2025 के अंत में, तीन AI दिग्गज - Anthropic, OpenAI, और Google DeepMind - ने अगली पीढ़ी के बड़े भाषा मॉडल लॉन्च किए। Anthropic का Claude Opus 4.5, OpenAI का ChatGPT 5.1 (GPT-5.1 सीरीज़ पर आधारित), और Google का Gemini 3 Pro AI में नवीनतम हैं। सभी तीनों ने क्षमता में महत्वपूर्ण छलांग का वादा किया है, विशाल संदर्भों को संभालने से लेकर जटिल कोडिंग और तर्क कार्यों को हल करने तक। यह गहन विश्लेषण इन मॉडलों की प्रमुख आयामों में तकनीकी तुलना प्रदान करता है - प्रदर्शन मानक, तर्क क्षमताएँ, कोड जनरेशन, API विलंबता, लागत, टोकन संदर्भ विंडो, फाइन-ट्यूनिंग और अनुकूलन - यह समझने के लिए कि वे एक-दूसरे के मुकाबले कैसे हैं।

मॉडल प्रोफाइल्स: क्लॉड ओपस 4.5 एंथ्रोपिक का नवीनतम प्रमुख मॉडल है (क्लॉड 2 और क्लॉड 4 श्रृंखला का उत्तराधिकारी), जिसका दावा है कि यह “कोडिंग, एजेंट्स और कंप्यूटर उपयोग के लिए दुनिया का सबसे अच्छा मॉडल” है[1]। ओपनएआई का चैटजीपीटी 5.1 जीपीटी‑5 श्रृंखला का एक उन्नयन है, जो दो मोड्स (इंस्टेंट और थिंकिंग) में उपलब्ध है ताकि गति और तर्क की गहराई के बीच संतुलन बना रहे[2]। गूगल का जेमिनी 3 प्रो जेमिनी परिवार का शीर्ष स्तर का मॉडल है, जो गूगल डीपमाइंड द्वारा निर्मित एक मल्टीमॉडल मॉडल है, जिसे “हमारा सबसे बुद्धिमान मॉडल” कहा जाता है, जिसमें अत्याधुनिक तर्क और टूल उपयोग की क्षमताएं हैं[3][4]। जबकि विस्तृत आर्किटेक्चर स्वामित्व में हैं, सभी तीन बड़े ट्रांसफार्मर-आधारित सिस्टम हैं जो संभवतः खरबों मापदंडों के आदेश पर हैं, व्यापक प्रशिक्षण और अनुकूलन (जैसे मानव प्रतिक्रिया से सुदृढीकरण शिक्षण) के साथ बढ़ाए गए हैं। नीचे, हम उन्हें विस्तार से तुलना करते हैं।

बेंचमार्क पर प्रदर्शन

Model
व्यापक ज्ञान (MMLU / PiQA)
GPQA डायमंड (कठिन QA)
मानवता की अंतिम परीक्षा (HLE)
ARC‑AGI (तर्कशक्ति)
विशेषता
Gemini 3 Pro
≈“मानव‑विशेषज्ञ” मानक शैक्षणिक मानकों पर; ~90%+
91.9%[5]
37.5% (कोई उपकरण नहीं)[8]
31%, “डीप थिंक” मोड में 45% तक[9]
सबसे कठिन तर्क कार्यों पर अत्याधुनिक; फ्रंटियर मानकों पर प्रभावी रूप से “पीएचडी‑स्तर”[10]।
GPT‑5.1
≈91.0% MMLU पर[6], जेमिनी के बराबर[6]
– (सार्वजनिक रूप से नहीं बताया गया; व्यापक ज्ञान में तुलनीय)
≈26.8%[8]
≈18%[9]
बहुत मजबूत व्यापक ज्ञान; अल्ट्रा‑कठिन तर्क में जेमिनी 3 प्रो से पीछे, लेकिन फिर भी प्रतिस्पर्धी।
Claude Opus 4.5
कोई आधिकारिक MMLU नहीं; उच्च-80% क्लॉड सोनेट 4.5 का उपयोग प्रॉक्सी के रूप में[7]
≈13.7% पिछले क्लॉड मॉडल के लिए[8]
ARC‑AGI पर GPT‑5.1 और जेमिनी 3 प्रो से नीचे[9]
ठोस शैक्षणिक प्रदर्शन; फ्रंटियर तर्क में तुलनात्मक रूप से कमजोर, कुछ अन्य क्षेत्रों में ताकत (विशेष रूप से कोडिंग में)।

ज्ञान और तर्क (MMLU, ARC, आदि): व्यापक ज्ञान परीक्षणों जैसे MMLU (मैसिव मल्टी-टास्क लैंग्वेज अंडरस्टैंडिंग) पर, सभी तीन मॉडल मानव-विशेषज्ञ स्तर के आसपास या उससे ऊपर कार्य करते हैं। गूगल रिपोर्ट करता है कि जेमिनी 3 प्रो ने सबसे कठिन प्रश्न सेट्स (GPQA डायमंड) पर लगभग 91.9% हासिल किया और LMArena लीडरबोर्ड पर 1501 का इलो प्राप्त किया[5]। GPT‑5.1 MMLU पर समान रूप से मजबूत है – एक विश्लेषण में, GPT‑5.1 ने MMLU पर लगभग 91.0% स्कोर किया, जो कि जेमिनी 3 प्रो के बराबर है[6]। एंथ्रोपिक ने Opus 4.5 के लिए आधिकारिक MMLU प्रकाशित नहीं किया है, लेकिन इसके पूर्ववर्ती (क्लॉड सॉनेट 4.5) ने ऊपरी 80% की सीमा में प्रदर्शन किया था[7], जो सुझाव देता है कि Opus 4.5 शैक्षणिक ज्ञान कार्यों के लिए उस स्तर के आसपास है। अत्यधिक चुनौतीपूर्ण तर्क परीक्षाओं पर, अंतर प्रकट होते हैं।

Humanity’s Last Exam (a brutal reasoning test) saw Gemini 3 Pro score 37.5% (no tools) – significantly higher than GPT‑5.1 (~26.8%) or Anthropic’s prior model (~13.7%)[8]. Likewise, on the ARC-AGI reasoning challenge, Gemini 3 Pro reached 31% (and up to 45% in a special “Deep Think” mode), far surpassing GPT‑5.1 (~18%) and previous Claude models[9]. These results indicate that Google’s model currently leads on the hardest reasoning benchmarks, likely reflecting Gemini’s advanced planning and problem-solving training. OpenAI’s GPT‑5.1 is not far behind on knowledge and reasoning, while Anthropic’s strength lies elsewhere (as we’ll see in coding). Overall, on standard benchmarks like MMLU and PiQA all three are tightly clustered at ~90% accuracy[5], but for “frontier” reasoning tests (complex math, logic puzzles), Gemini 3 Pro has an edge with its “PhD-level” performance[10].

कोड निर्माण और सॉफ़्टवेयर बेंचमार्क्स: एंथ्रोपिक क्लॉड ओपस 4.5 ने विशेष रूप से कोडिंग और “एजेंटिक” कंप्यूटर-उपयोग कार्यों को लक्षित किया है, और यह वर्तमान में कोड बेंचमार्क्स पर शीर्ष स्थान पर है। एंथ्रोपिक के आंतरिक मूल्यांकन में SWE-बेंच (सॉफ़्टवेयर इंजीनियरिंग बेंच) सत्यापित पर, ओपस 4.5 ने 80.9% सफलता प्राप्त की – जो किसी भी फ्रंटियर मॉडल में सबसे अधिक है[11]। इसने ओपनएआई के GPT‑5.1-Codex-Max मॉडल (77.9%) और गूगल के Gemini 3 Pro (76.2%) को उसी परीक्षण में थोड़ा पीछे छोड़ दिया[11]। नीचे दिया गया चार्ट, एंथ्रोपिक की घोषणा से, यह दिखाता है कि वास्तविक दुनिया के कोडिंग कार्यों में क्लॉड 4.5 किस हद तक आगे है:

Claude Opus 4.5 ने SWE-Bench Verified (वास्तविक-विश्व कोडिंग समस्याएं) पर सर्वोच्च स्कोर प्राप्त किया, जो OpenAI के GPT‑5.1 Codex और Google के Gemini 3 Pro से थोड़ा आगे है[11].

यह परिणाम उल्लेखनीय है क्योंकि GPT-5.1 का Codex-Max संस्करण स्वयं कोडिंग के लिए एक बड़ा सुधार था (OpenAI ने इसे सॉफ़्टवेयर इंजीनियरिंग कार्यों और टूल उपयोग पर प्रशिक्षित किया था)[12]। फिर भी Opus 4.5 ने कुछ प्रतिशत अंक से आगे बढ़ने में सफलता प्राप्त की। Google का Gemini 3 Pro निकट है; यह अपने पूर्ववर्ती Gemini 2.5 की तुलना में इन कोडिंग एजेंट बेंचमार्क पर “बहुत अच्छा प्रदर्शन करता है”[13], लेकिन वर्तमान में नए Claude से पीछे है। व्यावहारिक रूप से, ये सभी तीन मॉडल अत्यधिक सक्षम कोडिंग सहायक हैं – जटिल कार्यों के लिए सही कोड उत्पन्न करने, बड़े कोडबेस को पुनः संरचित करने, और यहां तक कि विकास वातावरण संचालित करने में सक्षम हैं। लेकिन Anthropic का कोड गुणवत्ता और दक्षता पर ध्यान दिखाता है: डेवलपर्स ने बताया कि Claude Opus 4.5 कोडिंग में “फ्रंटियर टास्क प्लानिंग और टूल उपयोग” प्रदर्शित करता है, और कम टोकन के साथ समस्याओं को हल करता है[14][15]। वास्तव में, Anthropic का कहना है कि Opus 4.5 मल्टी-स्टेप कोडिंग वर्कफ़्लो को “किसी भी मॉडल की तुलना में अधिक कुशलता से संभाल सकता है जिसे हमने परीक्षण किया है” और समान कार्यों पर 65% कम टोकन का उपयोग करते हुए उच्च पास दर प्राप्त करता है[16]। यह दक्षता और कोडिंग कौशल Claude 4.5 को सॉफ़्टवेयर इंजीनियरिंग उपयोग मामलों के लिए अत्यधिक मजबूत बनाती है।

अन्य बेंचमार्क: प्रत्येक मॉडल की अपनी विशेष ताकत होती है। Gemini 3 की मल्टीमॉडल क्षमता छवि+वीडियो तर्क बेंचमार्क में प्रदर्शित होती है – उदाहरण के लिए, MMMU-Pro (मल्टीमॉडल MMLU) और वीडियो-MMMU, जहां Gemini 3 Pro ने क्रमशः 81% और 87.6% स्कोर किया, एक नया राज्य-के-अनुसार स्थापित किया[17]। इसने सिंपलQA वेरीफाइड पर 72.1% भी प्राप्त किया, जो खुले प्रश्नोत्तर में तथ्यात्मक सटीकता में सुधार को इंगित करता है[18]। OpenAI का GPT‑5.1 वार्तालाप की गुणवत्ता में उत्कृष्ट है और अपने पूर्ववर्तियों की तुलना में निर्देशों का अधिक निकटता से पालन करता है। हालांकि यह किसी एकल बेंचमार्क से बंधा नहीं है, OpenAI ने नोट किया कि GPT‑5.1 की समग्र बुद्धिमत्ता और संचार शैली दोनों में “महत्वपूर्ण” सुधार देखे गए[19]। कई पर्यवेक्षकों ने नोट किया कि GPT‑5.1 “वार्मर, अधिक बुद्धिमान, और निर्देशों का पालन करने में बेहतर” लगता है रोजमर्रा के कार्यों में[2], जो शुद्ध सटीकता मीट्रिक्स में दिखाई नहीं दे सकता है लेकिन वास्तविक दुनिया की उपयोगिता में सुधार करता है। Anthropic का Opus 4.5 भी व्यावहारिक कार्यों के लिए डिज़ाइन किया गया था, जो कोडिंग से परे हैं – परीक्षकों ने पाया कि यह जटिल मल्टी-प्रणाली बगों के लिए “फिक्स का पता लगाता है” और “अस्पष्टता को संभालता है और ट्रेडऑफ़ के बारे में तर्क करता है” बिना हाथ पकड़ने की आवश्यकता के[20]। संक्षेप में, बेंचमार्क केवल कहानी का एक हिस्सा बताते हैं। सभी तीन मॉडल कई शैक्षणिक परीक्षणों पर मानव स्तर पर या उससे ऊपर प्रदर्शन करते हैं। Gemini 3 कठिन तार्किक और मल्टीमॉडल चुनौतियों पर सीमा को आगे बढ़ाता है, Claude 4.5 जटिल कोडिंग और उपकरण-उपयोग कार्यों में अग्रणी है, और GPT‑5.1 मजबूत प्रदर्शन के संतुलन के साथ परिष्कृत वार्तालाप क्षमता प्रदान करता है।

तर्क क्षमता और दीर्घ-कालिक सोच

इन नए मॉडलों में एक थीम है बेहतर दीर्घकालिक तर्क – जटिल समस्याओं को कई चरणों में या विस्तारित समय के दौरान हल करने की क्षमता। OpenAI के GPT‑5.1 ने एक समर्पित “थिंकिंग” मोड पेश किया, जो एक उन्नत तर्क मॉडल है जो “जटिल कार्यों पर अधिक दृढ़ रहता है”[2]। GPT‑5.1 थिंकिंग वास्तव में कठिन प्रश्नों के लिए अधिक समय (यानी अधिक आंतरिक गणना या चरण आवंटित करेगा) लेता है, जिससे यह बहु-चरणीय तर्क की आवश्यकता वाली समस्याओं को हल कर सकता है। Google ने जेमिनी 3 डीप थिंक के साथ एक समान दृष्टिकोण अपनाया, जो जेमिनी 3 प्रो के लिए एक वैकल्पिक मोड है जो “जटिल समस्याओं पर बुद्धिमत्ता की सीमाओं को और आगे बढ़ाता है”[21]। परीक्षण में, जेमिनी 3 डीप थिंक ने सबसे कठिन बेंचमार्क पर सामान्य मोड को काफी पीछे छोड़ दिया (उदाहरण के लिए, मानवता की अंतिम परीक्षा स्कोर को 37.5% से 41.0% तक बढ़ाना, और ARC-AGI को 45.1% तक)[22]। यह संकेत देता है कि मॉडल को अधिक “सोचने का समय” देने पर यह बहुत कठिन कार्यों के माध्यम से आंतरिक रूप से तर्क कर सकता है।

Anthropic का Claude Opus 4.5 भी विस्तारित तर्क पर जोर देता है। यह अपने “सोचने के ब्लॉक्स” को पिछले चरणों से स्वतः ही संरक्षित करता है, जिससे एक लंबी सत्र के दौरान विचारों की श्रृंखला बनी रहती है[23] – पहले के Claude मॉडल्स इन्हें छोड़ देते थे, लेकिन Opus 4.5 मध्यवर्ती तर्क को आगे ले जा सकता है, जो सुसंगत बहु-चरणीय कार्य के लिए महत्वपूर्ण है। Anthropic ने Opus 4.5 में एक “प्रयास” पैरामीटर भी जोड़ा है जो सीधे तौर पर यह नियंत्रित करता है कि मॉडल तर्क और व्याख्या पर कितने टोकन खर्च करता है[24]उच्च प्रयास पर, Opus बहुत गहन विश्लेषण उत्पन्न करेगा (जटिल डिबगिंग या गहन अनुसंधान के लिए उपयोगी), जबकि कम प्रयास संक्षिप्त उत्तर देता है जो त्वरित उच्च-मात्रा कार्यों के लिए उपयुक्त है[25]। यह तर्क की गहराई बनाम गति के लिए प्रभावी रूप से एक घुंडी है।

व्यवहार में, इन सुविधाओं का मतलब है कि प्रत्येक मॉडल लगातार तर्क कार्यों को पहले की पीढ़ियों की तुलना में कहीं बेहतर तरीके से संभाल सकता है। उदाहरण के लिए, OpenAI ने बताया कि GPT‑5.1-Codex-Max बिना मानव हस्तक्षेप के घंटों तक स्वायत्त रूप से कार्य कर सकता है, कोड को बार-बार सुधारता है और बग्स को ठीक करता है[26][27]। यह “कम्पैक्शन” नामक तकनीक का उपयोग करता है जो काम करते समय उसके संदर्भ को छांटने और संक्षिप्त करने की अनुमति देता है, जिससे एकल सत्र में लाखों टोकन पर सुसंगत कार्य संभव हो जाता है[28][29]। प्रारंभिक परीक्षक साइमन विलिसन ने नोट किया कि Anthropic के मॉडल समान रूप से लंबी कोडिंग सत्रों को बनाए रख सकते हैं – उन्होंने Opus 4.5 का उपयोग करके लगभग 30 मिनट का स्वायत्त कोडिंग किया, और यहां तक कि छोटा Claude Sonnet 4.5 भी प्रभावी रूप से कार्यभार को जारी रखने में सक्षम था[30][31]। Gemini 3, जो अपनी विशाल संदर्भ विंडो और एकीकृत उपकरण उपयोग के साथ, विशेष रूप से “जटिल, अंत-से-अंत कार्यों की योजना और निष्पादन” के लिए डिज़ाइन किया गया है, एजेंटों के माध्यम से जो IDE या यहां तक कि Linux टर्मिनल में भी चल सकते हैं[32][33]। Google के अपने उत्पादों में, Gemini-आधारित AI लंबे दस्तावेज़ों या वीडियो का विश्लेषण कर सकता है और संरचित आउटपुट जैसे फ्लैशकार्ड या चरण-दर-चरण योजनाएँ उत्पन्न कर सकता है[34][35]

निचोड़: सभी तीन मॉडलों ने तर्क को अधिक स्थायी और स्वायत्त बना दिया है। वे जटिल कार्यप्रवाहों को संभाल सकते हैं जो कई चरणों में फैले होते हैं। OpenAI और Google टॉगल्स (थिंकिंग मोड, डीप थिंक) प्रदान करते हैं ताकि जब आवश्यकता हो तो तर्क को बढ़ाया जा सके। Anthropic का Opus डिफ़ॉल्ट रूप से उच्च तर्क स्तर पर चलता है, और डेवलपर्स को गहनता और विलंबता के बीच संतुलन का मैन्युअल नियंत्रण देता है[24]। यह डिज़ाइन में एक संगम को दर्शाता है: हमेशा एक बार में प्रतिक्रिया देने के बजाय, ये मॉडल आंतरिक रूप से “लंबे समय तक सोचने”[36][37] का अनुकरण करते हैं ताकि कठिन समस्याओं का समाधान किया जा सके और उपकरणों का प्रभावी ढंग से उपयोग किया जा सके, जो सच्चे एजेंट-जैसे व्यवहार के करीब पहुँच रहे हैं।

कोड जेनरेशन और उपकरण उपयोग

कोडिंग क्षमताएं: जैसा कि पहले उल्लेख किया गया था, Claude 4.5 वर्तमान में मापी गई कोडिंग बेंचमार्क पर GPT-5.1 और Gemini 3 से बेहतर प्रदर्शन करता है [11]। लेकिन सभी तीनों कोड जेनरेशन में अत्यधिक सक्षम हैं, जो एक या दो साल पहले के मॉडलों से कहीं आगे हैं। उदाहरण के लिए, OpenAI का GPT-5.1-Codex-Max “वास्तविक-वर्ल्ड सॉफ्टवेयर इंजीनियरिंग कार्यों” जैसे कोड रिव्यू, पुल रिक्वेस्ट बनाना, और कोडिंग प्रश्नोत्तर को हल करने के लिए प्रशिक्षित किया गया था [12]। यह कई फाइलों में काम कर सकता है और विंडोज वातावरण को भी संभाल सकता है (जो कुछ नया है, जो ओएस-विशिष्ट कार्यों पर प्रशिक्षण को इंगित करता है) [38][39]। इस बीच, Claude Opus 4.5 को Anthropic के ग्राहकों के अनुसार कई कोडबेस और एजेंटों को शामिल करने वाले जटिल पुनर्संरचनाओं के लिए जिम्मेदार ठहराया गया था [40]। Claude का IDE (जैसे Claude Code) में उपयोग करने वाले डेवलपर्स ने पाया कि यह दर्जनों फाइलों में बदलाव को न्यूनतम त्रुटियों के साथ समन्वयित कर सकता है [41]। Google का Gemini 3 भी सॉफ्टवेयर विकास में उत्कृष्ट है: इसे Google द्वारा “अब तक का सर्वश्रेष्ठ वाइब-कोडिंग और एजेंटिक कोडिंग मॉडल” के रूप में वर्णित किया गया है, और इसने Elo 1487 के साथ एक WebDev बेंचमार्क (वेब विकास कार्य) में शीर्ष स्थान प्राप्त किया है [13]। एक लाइव टर्मिनल-बेंच परीक्षण में (जिसमें मॉडल को एक लिनक्स टर्मिनल संचालित करना होता है), Gemini 3 Pro ने 54.2% स्कोर किया, जो GPT-5.1 (~47%) या पहले के Anthropic मॉडलों से अधिक था [42][43]। यह सुझाव देता है कि Gemini विशेष रूप से टूल्स/कमांड का उपयोग करके कोडिंग कार्य स्वायत्त रूप से पूरा करने में मजबूत है।

उपकरण उपयोग और एजेंट्स: कच्चे कोड निर्माण से परे, एक महत्वपूर्ण सीमा है एजेंटिक व्यवहार - मॉडल का उपकरणों का उपयोग करना या स्वायत्त एजेंट के रूप में कार्य करना। सभी तीन कंपनियाँ इसे विभिन्न तरीकों से सक्षम बना रही हैं। OpenAI का प्लेटफ़ॉर्म फंक्शन कॉलिंग का समर्थन करता है और उसने “OpenAI एजेंट्स” पेश किए हैं जो GPT‑5.1 को उपकरणों (जैसे वेब ब्राउज़र, कोड इंटरप्रेटर आदि) का उपयोग करके कार्य पूरे करने की अनुमति देते हैं। GPT‑5.1 लंबी उपकरण-उपयोग सत्रों के दौरान अपनी कार्यशील स्मृति को स्वचालित रूप से “संकुचित” कर सकता है, जैसा कि वर्णित है, ताकि यह संदर्भ से बाहर न हो जाए[28][29]। गूगल ने Gemini 3 के चारों ओर Google Antigravity नामक एक संपूर्ण एजेंट-उन्मुख वातावरण तैयार किया है[32]। इस प्रणाली में, Gemini एजेंट्स को एक कोड संपादक, टर्मिनल और ब्राउज़र तक सीधी पहुंच होती है। वे “स्वायत्त रूप से जटिल, अंत-से-अंत सॉफ़्टवेयर कार्यों की योजना और निष्पादन कर सकते हैं” - कोड लिखना, उसे चलाना, परीक्षण करना और पुनरावृत्ति करना, सभी विकास प्लेटफॉर्म के भीतर[44][33]। यह Gemini की बहु-मॉडल क्षमताओं द्वारा समर्थित है: उदाहरण के लिए, एक Gemini एजेंट स्क्रीनशॉट या डिजाइन मॉकअप को इनपुट के रूप में पढ़ सकता है, फिर UI को पुनः उत्पन्न करने के लिए कोड उत्पन्न और निष्पादित कर सकता है।

एंथ्रोपिक ने अपनी तरफ से क्लॉड के “कंप्यूटर उपयोग” टूल्स को अपग्रेड किया। क्लॉड ओपस 4.5 अब स्क्रीन के क्षेत्रों का उच्च-रिज़ॉल्यूशन ज़ूम किए गए स्क्रीनशॉट के लिए अनुरोध कर सकता है ताकि सूक्ष्म निरीक्षण किया जा सके[45][46]। एंथ्रोपिक के क्लॉड ऐप्स और एसडीके में, यह एक वर्चुअल कंप्यूटर ऑपरेट कर सकता है - बटन क्लिक करना, स्क्रॉल करना, टाइप करना - और नई ज़ूम विशेषता इसे छोटे टेक्स्ट या यूआई तत्वों को पढ़ने में मदद करती है जो पहले देखना कठिन थे[47][48]। उपलब्ध टूल्स के सेट के साथ संयुक्त (क्लॉड के एपीआई में बाश शेल, कोड निष्पादन, वेब ब्राउज़र, आदि[49][50]), क्लॉड 4.5 स्पष्ट रूप से “कंप्यूटर का उपयोग करने वाले एजेंटों” में उत्कृष्टता के लिए डिजाइन किया गया है। प्रारंभिक परीक्षकों की रिपोर्ट है कि ओपस 4.5 “अब तक देखे गए सबसे अच्छे फ्रंटियर टास्क प्लानिंग और टूल कॉलिंग” का प्रदर्शन करता है, जो कम डेड-एंड्स के साथ मल्टी-स्टेप वर्कफ़्लो को निष्पादित करता है[14][51]। उदाहरण के लिए, वॉर्प (एक डेवलपमेंट टूल कंपनी) ने क्लॉड 4.5 की तुलना में क्लॉड 4.1 के साथ टर्मिनल बेंच पर 15% सुधार देखा, इसके निरंतर तर्क के साथ बेहतर दीर्घकालिक योजना का उल्लेख करते हुए[52]

सारांश में, जब कोडिंग और टूल उपयोग की बात आती है: - क्लॉड ओपस 4.5 शुद्ध कोडिंग सफलता दर में थोड़ा आगे है और अत्यंत कुशल है (महत्वपूर्ण रूप से कम टोकन के साथ कार्यों को हल करना)। यह बड़े पैमाने पर रिफैक्टरिंग, कोड माइग्रेशन, और किसी भी चीज़ के लिए शीर्ष पसंद है जहां टोकन लागत मायने रखती है, परीक्षण में टोकन उपयोग को 50–76% तक कम करने वाले अनुकूलन के लिए धन्यवाद। - जीपीटी‑5.1 (कोडेक्स-मैक्स) एक बहुत करीबी प्रतिद्वंद्वी है जो डेवलपर वर्कफ़्लो के साथ गहराई से एकीकृत करता है (CLI, IDE एक्सटेंशन)। यह एक विश्वसनीय कोडिंग पार्टनर के रूप में जाना जाता है जो घंटों तक चल सकता है, और अब कई संदर्भ विंडो को स्वाभाविक रूप से समर्थन करता है (जिसका अर्थ है कि यह परियोजना के टुकड़ों को क्रम में संभाल सकता है)। ओपनएआई का पारिस्थितिकी तंत्र भी फ़ंक्शन कॉल के माध्यम से टूल एकीकरण को सरल बनाता है। - जेमिनी 3 प्रो गूगल की खोज, डेटा और मल्टी-मोडल इनपुट को कोडिंग में एकीकृत करने की ताकत लाता है। यह न केवल कोड लिखता है बल्कि सॉफ्टवेयर ऑपरेट (टर्मिनल, ब्राउज़र, आदि) को प्रभावी ढंग से कर सकता है। मल्टीमॉडल में गूगल का फायदा जेमिनी को दृश्य संदर्भ (डिजाइन मॉकअप, आरेख) को सीधे कोडिंग प्रक्रिया में शामिल करने की अनुमति देता है – इन मॉडलों के बीच एक अनूठी क्षमता।

तीनों न केवल कोड लिखने की दिशा में बढ़ रहे हैं बल्कि स्वायत्त इंजीनियर के रूप में कार्य करने वाले AI की दिशा में भी अग्रसर हैं। यह AI एजेंटों की रिपोर्ट में स्पष्ट है जो “अनुभव से सीखते हैं और अपनी खुद की कौशल को परिष्कृत करते हैं” एक पुनरावृत्त लूप में[57][58]। एक ग्राहक ने क्लॉड 4.5 एजेंटों का वर्णन किया जो 4 पुनरावृत्तियों में आत्म-सुधार कर उच्चतम प्रदर्शन तक पहुँचे, जबकि अन्य मॉडलों ने 10 पुनरावृत्तियाँ लीं और फिर भी इसे मेल नहीं कर सके[59][60]। इस प्रकार का अनुकूली, उपकरण-उपयोग करने वाला व्यवहार तेजी से विकसित हो रहा है, और इन मॉडलों में से प्रत्येक अग्रणी है।

संदर्भ विंडो और मेमोरी

लार्ज कॉन्टेक्स्ट विंडोज़ एंथ्रॉपिक के क्लॉड की एक विशेषता रही हैं, और ओपस 4.5 इस प्रवृत्ति को जारी रखता है एक 200,000-टोकन कॉन्टेक्स्ट विंडो के साथ इनपुट के लिए (और आउटपुट में 64k टोकन तक)[61]। यह एक बार में सैकड़ों पृष्ठों के पाठ या कई लंबी दस्तावेजों को इनपुट करने के लिए पर्याप्त है। व्यावहारिक रूप में, 200k टोकन (~150,000 शब्द) उदाहरण के लिए, क्लॉड में एक संपूर्ण कोडबेस या एक किताब को विश्लेषण के लिए फीड करने की अनुमति देता है। एंथ्रॉपिक इसका उपयोग "अनन्त" चैट सत्रों को सक्षम करने के लिए करता है बिना किसी रुकावट के – वास्तव में, क्लॉड 4.5 बहुत लंबी बातचीत का समर्थन करता है और अधिकांश मॉडलों की तुलना में अधिक इतिहास याद रख सकता है[62][63]

Google ने अब इसे Gemini 3 Pro के 1,048,576-टोकन संदर्भ विंडो (लगभग 1 मिलियन टोकन) के साथ पीछे छोड़ दिया है[64][65]। यह एक बड़े पैमाने की छलांग है। Gemini 3 "विशाल डेटा सेटों को समझ सकता है... जिसमें टेक्स्ट, ऑडियो, इमेज, वीडियो, PDFs और यहां तक कि पूरे कोड भंडार शामिल हैं, इसके 1M टोकन संदर्भ विंडो के साथ"[64][65]। मूल रूप से, यह किताबें या घंटों का ऑडियो/वीडियो इनपुट के रूप में ले सकता है। वास्तव में, मॉडल सचमुच मल्टीमॉडल इनपुट का समर्थन करता है - आप इसे एक लंबा PDF, कई इमेज और ऑडियो क्लिप एक ही प्रॉम्प्ट में दे सकते हैं, जब तक कि कुल टोकन (इनको एन्कोड करने के बाद) सीमा के भीतर हों[64][66]। Google का दस्तावेज़ बताता है कि यह एक प्रॉम्प्ट में 900 छवियों तक या बड़े वीडियो (जिसमें फ्रेम टोकन के रूप में एन्कोड होते हैं) को संभाल सकता है[67]। यह विशाल संदर्भ बड़े कोडबेस की समीक्षा, लंबे कानूनी अनुबंधों का विश्लेषण, या घंटों की ट्रांसक्रिप्ट्स का सारांश बनाने जैसे कार्यों के लिए एक गेम-चेंजर है।

OpenAI के GPT‑5.1 ने 1M जितना बड़ा निश्चित संदर्भ स्पष्ट रूप से विज्ञापित नहीं किया, लेकिन इसने पिछले सीमाओं से आगे बढ़ने की तकनीकों को पेश किया। GPT‑4 ने 128k संदर्भ संस्करण (ChatGPT Enterprise और GPT‑4 32k मॉडलों में) की पेशकश की, और संकेत हैं कि GPT‑5 कुछ सेटिंग्स में 400k या उससे अधिक टोकन को संभाल सकता है[68][69]। अधिक ठोस रूप से, OpenAI का "संपीड़न" तंत्र GPT‑5.1-Codex-Max में मॉडल को बातचीत या कार्य के इतिहास के पुराने हिस्सों को लगातार संक्षेप करने की अनुमति देता है, जिससे यह लंबे सत्रों में असीमित कार्यशील स्मृति प्रदान करता है[28][29]। उदाहरण के लिए, GPT‑5.1 24+ घंटे के लिए काम कर सकता है, संदर्भ को समय-समय पर संपीड़ित करके जगह खाली कर सकता है और "इस प्रक्रिया को तब तक दोहराता है जब तक कार्य पूरा नहीं हो जाता।"[70][71]। इसलिए, जबकि GPT‑5.1 की कच्ची विंडो प्रति प्रस्तावना लगभग 128k टोकन हो सकती है, इसका डिज़ाइन संदर्भों को श्रृंखलाबद्ध करके उसे पार करने की अनुमति देता है। OpenAI ने ChatGPT में संदर्भ कैशिंग सुविधाएं और दीर्घकालिक बातचीत स्मृति भी रोल आउट की है, जो संकेत देती है कि मॉडल संवाद के पहले के हिस्सों को याद कर सकता है, भले ही वे नाममात्र टोकन सीमा को पार कर जाएं।

संदर्भ क्षमताओं का सारांश: - क्लॉड ओपस 4.5: ~200K टोकन विंडो (इनपुट) मौलिक रूप से[61]। यह अत्यधिक उच्च है और अधिकांश लंबे दस्तावेज़ कार्यों के लिए उपयुक्त है। एंथ्रोपिक की मूल्य निर्धारण योजना भी इसे ध्यान में रखती है: यदि आप एकल अनुरोध में 200k से अधिक जाते हैं, तो आपको उच्च “1M संदर्भ” दर पर बिल किया जाता है[72][73] (संकेत करती है कि उनके पास संभवतः एक प्रयोगात्मक 1M मोड भी है)। - जीपीटी‑5.1: आधिकारिक तौर पर चैटजीपीटी प्रो के लिए वर्तमान में 128K तक[74], लेकिन स्वचालित संदर्भ संपीड़न के साथ प्रभावी रूप से सत्र के दौरान लाखों टोकन सक्षम करता है[28][29]। हम इसे एक गतिशील लंबे संदर्भ समर्थन के रूप में सोच सकते हैं बजाय एक स्थिर बड़ी विंडो के। - जेमिनी 3 प्रो: 1M-टोकन विंडो – किसी भी प्रमुख मॉडल में सबसे बड़ा – और विशेष रूप से मल्टीमॉडल संदर्भ (टेक्स्ट+छवि+ऑडियो+वीडियो एक में) के लिए डिज़ाइन किया गया है[64][75]। यह विश्लेषण की अनुमति देता है जैसे “मॉडल को एक पूरा वीडियो लेक्चर और कई शोध पत्रों को खिलाएं और इसका सारांश या प्रश्नों के उत्तर प्राप्त करें,” जो छोटे संदर्भों में असंभव होगा।

इसका मतलब है कि इन मॉडलों के साथ मेमोरी बाधाएं पहले से कम अवरोधक हैं। जहां पहले के मॉडल किसी लंबे दस्तावेज़ की शुरुआत से विवरण याद रखने में संघर्ष करते थे, ये एक बार में बड़ी मात्रा में जानकारी रख सकते हैं। यह विशेष रूप से लंबी दूरी की तर्क क्षमता वाली कार्यों को लाभ पहुंचाता है (जैसे कि ऐसे समाधान का पता लगाना जो इनपुट के कई हिस्सों का संदर्भ देने की आवश्यकता होती है) और खुले अंत वाले संवाद जो दर्जनों बार बदलते हैं।

गति और विलंबता

इतने बड़े संदर्भ और गहन तर्क के साथ, कोई उम्मीद कर सकता है कि ये मॉडल धीमे होंगे, लेकिन प्रत्येक प्रदाता ने विलंबता को प्रबंधित करने के तरीके पेश किए हैं। OpenAI का दृष्टिकोण है मॉडल विभेदन: GPT‑5.1 इंस्टेंट बनाम GPT‑5.1 थिंकिंग[76]इंस्टेंट मॉडल तेज, संवादात्मक प्रतिक्रियाओं के लिए अनुकूलित है - यह वह है जो "अक्सर अपनी चंचलता से लोगों को आश्चर्यचकित करता है, जबकि स्पष्ट और उपयोगी भी रहता है।"[77] यह रोजमर्रा की बातचीत के लिए कम विलंबता विकल्प है। दूसरी ओर, थिंकिंग मॉडल जटिल प्रश्नों के लिए मेहनती है, और जबकि यह आसान कार्यों पर तेजी से अनुकूलित है, यह कठिन कार्यों पर अधिक समय लेगा क्योंकि यह गहन तर्क में संलग्न होता है[78]। यह दो-स्तरीय मॉडल प्रणाली उपयोगकर्ताओं को मांग पर गति के लिए सटीकता का व्यापार करने देती है। व्यवहार में, GPT‑5.1 इंस्टेंट बहुत संवेदनशील महसूस करता है (GPT‑4 टर्बो के समान या तेज), जबकि GPT‑5.1 थिंकिंग एक कठिन समस्या को हल करते समय ध्यान देने योग्य अधिक समय ले सकता है, लेकिन बेहतर उत्तर देता है।

एन्थ्रोपिक का समाधान, जैसा कि उल्लेख किया गया है, क्लॉड 4.5 में प्रयास पैरामीटर है [24]। डिफ़ॉल्ट रूप से इसे "उच्च" पर सेट किया गया है, जिसका अर्थ है कि मॉडल अधिकतम गहनता को प्राप्त करता है (जो विलंबता को बढ़ा सकता है)। डेवलपर्स इसे मध्यम या कम पर सेट कर सकते हैं। एन्थ्रोपिक के डेटा के अनुसार, मध्यम प्रयास पर, Opus 4.5 पूर्व की तरह ही सटीकता से कार्यों को हल कर सकता है लेकिन बहुत कम टोकन का उपयोग करके, इस प्रकार तेजी से प्रतिक्रिया करता है [53][54]। एक उदाहरण में, मध्यम प्रयास ने क्लॉड सोननेट 4.5 के प्रदर्शन को SWE-बेंच पर मिलाया जबकि 76% कम आउटपुट टोकन का उपयोग किया [53][54] – जो काफी कम विलंबता और लागत में परिवर्तित होता है। इसलिए, यदि किसी एप्लिकेशन को त्वरित उत्तरों की आवश्यकता है, तो कम प्रयास सेटिंग संक्षिप्त (लेकिन फिर भी सक्षम) प्रतिक्रियाएं देती है। उच्च प्रयास पर, क्लॉड थोड़ी देर ले सकता है, लेकिन बहुत विस्तृत आउटपुट उत्पन्न करता है। प्रारंभिक उपयोगकर्ता रिपोर्टों में उल्लेख किया गया है कि क्लॉड की प्रतिक्रिया समयें "स्थिर और पूर्वानुमानित" हैं, भले ही उच्च प्रयास पर, यद्यपि लंबी प्रतिक्रियाओं को उत्पन्न करने में अधिक समय लगता है [79]

गूगल के Gemini 3 Pro में इसी तरह एक thinking_level पैरामीटर होता है (जिसके मान “low” या “high” होते हैं), जो Gemini 2 की पहले की “thinking_budget” सेटिंग की जगह लेता है[80]। यह thinking_level उपयोगकर्ता को यह तय करने देता है कि Gemini को न्यूनतम आंतरिक तर्क करना चाहिए (गति के लिए) या अधिकतम तर्क करना चाहिए (गुणवत्ता के लिए)[80]। गूगल मल्टीमॉडल इनपुट के लिए एक media_resolution सेटिंग भी प्रदान करता है, जहाँ आप तेजी से परिणाम के लिए निम्न रिज़ॉल्यूशन पर छवियों/वीडियो को संसाधित करने का विकल्प चुन सकते हैं या उच्च रिज़ॉल्यूशन पर बेहतर दृष्टि सटीकता के लिए (अधिक टोकन और विलंबता की लागत पर)[81]। ये नियंत्रण स्वीकार करते हैं कि 1M टोकन या बड़े चित्रों को संसाधित करना स्वाभाविक रूप से धीमा है – इसलिए डेवलपर्स गति को उस मॉडल के अनुसार समायोजित करके ट्यून कर सकते हैं कि मॉडल कितना "सोचता" है और वह मीडिया का कितना बारीकी से विश्लेषण करता है। GPT-5.1 बनाम Claude बनाम Gemini का सार्वजनिक साइड-बाय-साइड विलंबता बेंचमार्क नहीं है, लेकिन तथ्यात्मक सबूत संकेत देते हैं: - GPT-5.1 इंस्टेंट सामान्य प्रश्नों के लिए अत्यधिक तेज़ है (अक्सर कुछ सेकंड में समाप्त हो जाता है), और यहाँ तक कि Thinking मोड को गति अनुकूलन मिला – OpenAI ने नोट किया कि यह “अब समझने में आसान और सरल कार्यों पर पहले से तेज़ है”[78]। - Claude 4.5 पर High प्रयास बहुत विस्तृत है, जिसका मतलब लंबा आउटपुट और थोड़ी अधिक विलंबता हो सकती है, लेकिन Medium/Low पर यह काफी तेज़ हो जाता है। एक Reddit उपयोगकर्ता ने कोडिंग कार्यों का परीक्षण करते हुए नोट किया कि GPT-5.1 और Claude गति में लगभग तुलनीय थे GPT-5.1 के सुधारों के बाद, जबकि पहले GPT-5 कुछ लंबे कार्यों में Claude से धीमा था[82][83]। - Gemini 3 Pro की विलंबता संदर्भ पर निर्भर करेगी – इसे सैकड़ों छवियों या एक मिलियन टोकन को खिलाना स्वाभाविक रूप से धीमा होगा। हालाँकि, सामान्य प्रॉम्प्ट आकारों के लिए, Gemini को तेज़ बताया गया है, और गूगल की क्लाउड इन्फ्रास्ट्रक्चर (TPUs) इन मॉडलों को वैश्विक रूप से सेवा देने के लिए अनुकूलित है। गूगल ने स्पष्ट विलंबता संख्या जारी नहीं की है, लेकिन “Gemini 3 Flash” की उपलब्धता (एक तेज़, कम लागत वाला संस्करण छोटे संदर्भ के साथ) यह सुझाव देती है कि पूर्ण प्रो मॉडल भारी कर्तव्यों के लिए है न कि त्वरित Q&A के लिए[84]

सारांश में, अब सभी तीन मॉडल गति और तर्क के बीच संतुलन की अनुमति देते हैं। वे आंतरिक लीवर या मॉडल वेरिएंट पेश करते हैं ताकि अगर आपको गहराई से सोचने की आवश्यकता नहीं हो, तो आप प्रतीक्षा में न फंसें। अधिकांश सामान्य अनुप्रयोगों (छोटे प्रॉम्प्ट, मध्यम जटिलता) के लिए, प्रत्येक मॉडल लगभग वास्तविक समय (कुछ सेकंड) में प्रतिक्रिया कर सकता है। बहुत बड़े या जटिल कार्यों के लिए, आप मल्टी-सेकंड या यहां तक कि मल्टी-मिनट रनटाइम्स की उम्मीद कर सकते हैं, लेकिन आपके पास सेटिंग्स के माध्यम से उस पर नियंत्रण होता है। यह एक आवश्यक विकास है क्योंकि संदर्भ विंडो और कार्य बड़े होते गए - और यह उत्साहजनक है कि भले ही वे अधिक जटिल समस्याओं का सामना करते हैं, ये मॉडल इंटरैक्टिव सेटिंग्स में उपयोग योग्य बने रहते हैं।

लागत और मूल्य निर्धारण

प्रतिस्पर्धा केवल क्षमता के बारे में नहीं है - लागत एक प्रमुख कारक है, और हम यहाँ आक्रामक कदम देख रहे हैं। वास्तव में, Anthropic के Opus 4.5 लॉन्च के साथ एक नाटकीय मूल्य कटौती आई: Opus 4.5 API कॉल्स की लागत प्रति मिलियन इनपुट टोकन $5 और प्रति मिलियन आउटपुट टोकन $25 है[85][86]। यह पिछले Opus 4.1 की कीमत का ⅓ हिस्सा है (जो $15/$75 प्रति मिलियन था)[85]। Anthropic ने जानबूझकर कीमतों को इस उद्देश्य से कम किया ताकि Claude डेवलपर्स के लिए अधिक आकर्षक हो सके, यह स्वीकार करते हुए कि पिछले Opus मॉडल लागत-प्रभावी नहीं थे[87][88]। नई मूल्य निर्धारण पर, Claude का उपयोग बड़े कार्यों के लिए काफी अधिक व्यावहारिक है - अब यह प्रति टोकन Anthropic के छोटे मॉडल (Claude Sonnet 4.5 $3/$15 प्रति मिलियन है) की तुलना में केवल थोड़ा अधिक महंगा है[89]

यह तुलना कैसे होती है? OpenAI का GPT‑5.1 परिवार वास्तव में प्रति टोकन सस्ता है। GPT‑5.1 एपीआई कॉल्स लगभग प्रति मिलियन इनपुट टोकन के लिए $1.25 और बेस मॉडल के लिए प्रति मिलियन आउटपुट टोकन के लिए $10 हैं[89]। Google का Gemini 3 Pro बीच में है: लगभग प्रति मिलियन इनपुट के लिए $2 और प्रति मिलियन आउटपुट के लिए $12 मानक 200k संदर्भ स्तर पर[89]। (विशेष रूप से, Google की योजना है कि यदि आप 200k टोकन से आगे बढ़कर पूरे 1M संदर्भ का उपयोग करते हैं, तो लगभग $4/$18 प्रति मिलियन उस स्तर में चार्ज करने की[90] है।) इन आंकड़ों का मतलब है कि OpenAI वर्तमान में शीर्ष स्तरीय मॉडलों के लिए सबसे कम टोकन-दर-टोकन मूल्य प्रदान करता है। उदाहरण के लिए, 1000-टोकन उत्तर उत्पन्न करना GPT‑5.1 के साथ ~$0.012 और Claude 4.5 के साथ ~$0.025 हो सकता है – लगभग आधी लागत। Google का ~$0.015 होगा। हालांकि, लागत को दक्षता के खिलाफ तौलना होगा: यदि एक मॉडल कम टोकन या कम प्रयासों में एक कार्य को हल करता है, तो यह कुल मिलाकर पैसे बचा सकता है। Anthropic इस बात पर जोर देता है कि Opus 4.5 कहीं अधिक टोकन-कुशल है, संभावित रूप से कुछ कार्यों पर उपयोग (और लागत) को 50%+ से कम कर सकता है जबकि पूर्व सटीकता से मेल खाता है[53][54]। जैसा कि एक प्रारंभिक उपयोगकर्ता ने बताया, “Opus 4.5 मध्यम तर्क Sonnet 4.5 की गुणवत्ता से मेल खाता है जबकि 76% कम टोकन का उपयोग करता है… ~60% कम लागत।”[91]। इसलिए, एक डेवलपर Claude के लिए प्रति टोकन थोड़ा अधिक भुगतान कर सकता है, लेकिन यदि Claude समाधान तक पहुँचने के लिए बहुत कम टोकन का उपयोग करता है, तो कुल लागत अंतर कम हो जाता है।

यह भी ध्यान देने योग्य है कि पहुंच को कैसे संभाला जा रहा है: - Claude Opus 4.5 API के माध्यम से उपलब्ध है (Claude for Pro/Max/Team tiers) और प्रमुख क्लाउड प्लेटफॉर्म जैसे AWS, Azure, और Google Cloud पर [92]। एक Claude Pro उपभोक्ता ऐप भी है जहाँ Opus को इंटरैक्टिव रूप से उपयोग किया जा सकता है। हमने जो लागत चर्चा की वह API उपयोग पर लागू होती है। - ChatGPT 5.1 अंतिम उपयोगकर्ताओं के लिए ChatGPT के माध्यम से सुलभ है (Plus और Enterprise उपयोगकर्ताओं को नवंबर 2025 से GPT-5.1 मिलता है), और डेवलपर्स के लिए OpenAI API के माध्यम से। ChatGPT Plus में GPT-5.1 उपयोग के लिए OpenAI की मूल्य निर्धारण प्रभावी रूप से एक फ्लैट सब्सक्रिप्शन है, जबकि API प्रति टोकन उपयोग का भुगतान-प्रति-उपयोग है (जैसा कि ऊपर)। वे कुछ सीमाओं तक मुफ्त उपयोग के साथ ChatGPT Enterprise भी प्रदान करते हैं। - Gemini 3 Pro Google के Vertex AI प्लेटफॉर्म के माध्यम से सुलभ है (वर्तमान में एक पूर्वावलोकन मॉडल के रूप में) [93], Gemini API के माध्यम से और उत्पादों में जैसे Gemini Chat ऐप और AI Studio [94][95]। Google ने अपनी साइट पर टोकन की कीमतें सार्वजनिक रूप से सूचीबद्ध नहीं की हैं, लेकिन रिपोर्टों के अनुसार, API मूल्य निर्धारण उल्लिखित सीमा में है ($2/$12 प्रति M टोकन) जो PaLM 2 की मूल्य निर्धारण के समान है। Google उपभोक्ता सुविधाओं में भी Gemini को एकीकृत करता है (जैसे खोज जनरेटिव अनुभव, Google Workspace AI टूल) जहां अंतिम उपयोगकर्ताओं से प्रत्येक टोकन के लिए सीधे चार्ज नहीं किया जाता।

संक्षेप में, OpenAI एपीआई उपयोग के लिए सबसे कम कच्ची कीमत एक अग्रणी मॉडल के लिए प्रदान करता है, जबकि Anthropic ने अपनी कीमतें बड़े पैमाने पर कम की हैं ताकि प्रतिस्पर्धी बने रहें (Opus अब अपने पुराने मूल्य के 1/3 पर है, हालांकि अभी भी OpenAI की दर के लगभग ~2× पर है)[89]Google की कीमत इन दोनों के बीच है, जिसमें विशाल संदर्भ रन के लिए कुछ अतिरिक्त लागत शामिल है[89]। कंपनियों के लिए यह तय करना कि किस मॉडल का उपयोग करना है, प्रति क्वेरी लागत कार्य पर निर्भर करेगी: अगर Claude की दक्षता के दावे सही होते हैं, तो लंबी कोडिंग नौकरी तीनों में समान लागत वाली हो सकती है, जबकि छोटा प्रश्नोत्तर GPT‑5.1 के साथ सबसे सस्ता हो सकता है। यह देखना बहुत अच्छा है कि प्रतिस्पर्धा कीमतों को कम कर रही है – अंततः उन्नत AI को अधिक सुलभ बना रही है।

फाइन-ट्यूनिंग और कस्टमाइजेशन

एक उल्लेखनीय पहलू यह है कि फाइन-ट्यूनिंग (पारंपरिक अर्थ में मॉडल के वेट्स को कस्टम डेटा पर अपडेट करना) इन नवीनतम मॉडलों के लिए तत्काल उपलब्ध नहीं है – कम से कम अभी तक नहीं। न तो Claude Opus 4.5 और न ही Gemini 3 Pro वर्तमान में उपयोगकर्ता फाइन-ट्यूनिंग का समर्थन करते हैं[96][97]। OpenAI ने GPT‑5.1 को फाइन-ट्यूनिंग के लिए जारी नहीं किया है (उनके API दस्तावेज़ों में GPT‑5 श्रृंखला मॉडल के लिए “फाइन-ट्यूनिंग: समर्थित नहीं” का उल्लेख है)[97][98]। यह समझ में आता है: ये मॉडल अत्यधिक बड़े और सावधानीपूर्वक संरेखित होते हैं; खुला फाइन-ट्यूनिंग सुरक्षा और क्षमता चुनौतियाँ पैदा कर सकता है।

इसके बजाय, जोर प्रॉम्प्ट-आधारित कस्टमाइजेशन पर है। उदाहरण के लिए, OpenAI ने ChatGPT के व्यवहार को व्यक्तिगत बनाने के नए तरीके 5.1 अपडेट में पेश किए। उन्होंने “व्यक्तित्व प्रीसेट्स” और टोन नियंत्रण जोड़े – जिससे उपयोगकर्ताओं को पहले से परिभाषित शैलियों (जैसे डेवलपर, ट्यूटर, संदेहपूर्ण, आदि) में से चुनने या सहायक की प्रतिक्रियाओं को आकार देने के लिए कस्टम निर्देश सेट करने की अनुमति मिलती है[99][100]। यह मॉडल वेट्स का फाइन-ट्यूनिंग नहीं है, लेकिन यह मॉडल को विशिष्ट तरीकों से व्यवहार करने के लिए एक लचीला तंत्र है। इसी प्रकार, Anthropic Constitutional AI शैली नियंत्रण और सिस्टम प्रॉम्प्ट्स प्रदान करता है ताकि क्लॉड को निर्देशित किया जा सके, और Opus 4.5 के साथ वे नोट करते हैं कि यह “विचारशीलता की निरंतरता बनाए रखता है” और लंबे सत्रों के दौरान जटिल भूमिकाओं या निर्देशों का पालन बेहतर कर सकता है[23]। Google का Gemini API डेवलपर्स को सिस्टम मैसेजेस प्रदान करने की अनुमति देता है ताकि संदर्भ या भूमिका सेट की जा सके (OpenAI के सिस्टम प्रॉम्प्ट के समान) और यहां तक कि अप्रत्यक्ष और प्रत्यक्ष संदर्भ कैशिंग को शामिल कर सके ताकि मॉडल को प्रासंगिक पृष्ठभूमि जानकारी के साथ प्रभावित किया जा सके[101][102]। मूल रूप से, जबकि आप इन दिग्गजों को सीधे फाइन-ट्यून नहीं कर सकते, आप उन्हें अपने डेटा के साथ रनटाइम पर फीड कर सकते हैं – उदाहरण के लिए, बड़े संदर्भ विंडो में दस्तावेज डालकर या रिट्रीवल-अगमेंटेड प्रॉम्प्टिंग का उपयोग करके। Google का Vertex AI एक RAG इंजन (Retrieval Augmented Generation) प्रदान करता है जो जरूरत के अनुसार Gemini के साथ एंटरप्राइज़ दस्तावेज़ों को खींचता है[103], मॉडल के मूल को बदले बिना फाइन-ट्यूनिंग के कई उद्देश्यों को पूरा करता है (डोमेन-विशिष्ट प्रश्नों का उत्तर देना, आदि)।

यह उल्लेखनीय है कि OpenAI ने छोटे भाई मॉडल (जैसे GPT-5 नैनो आदि) पेश किए हैं और कुछ मॉडल (जैसे openai-o3 और o4-मिनी) को ओपन-सोर्स किया है। वे छोटे मॉडल शायद फाइन-ट्यूनिंग का समर्थन कर सकते हैं और GPT-5 के विशेष कार्यों के लिए संक्षिप्त संस्करण के रूप में सेवा कर सकते हैं। लेकिन जब यहां तुलना किए जा रहे प्रमुख मॉडल की बात आती है, तो उनमें से कोई भी आपको कस्टम डेटा पर पूरा मॉडल पुनःप्रशिक्षित करने की अनुमति नहीं देता है। इसके बजाय, रणनीति है: प्रॉम्प्ट इंजीनियरिंग, सिस्टम निर्देश, बाहरी ज्ञान की पुनःप्राप्ति, और इनबिल्ट पैरामीटर (जैसे टोन, सोच स्तर) का उपयोग करके मॉडल के आउटपुट को आपकी आवश्यकताओं के अनुसार अनुकूलित करें।

शोध के दृष्टिकोण से, यह भविष्य में बदल सकता है – लोरा (लो-रैंक एडाप्टेशन) जैसी विधियाँ या अन्य पैरामीटर-कुशल फाइन-ट्यूनिंग इन बड़े मॉडलों पर संभव हो सकती हैं। लेकिन फिलहाल, “फाइन-ट्यूनिंग” प्रभावी रूप से प्रदाता के अपने प्रशिक्षण पाइपलाइन तक सीमित है। उदाहरण के लिए, OpenAI ने GPT‑5 बेस से GPT‑5.1 को अतिरिक्त सुदृढीकरण शिक्षण और निर्देश ट्यूनिंग के साथ फाइन-ट्यून किया (वे उल्लेख करते हैं कि GPT‑5.1 “हमारे बुनियादी तर्क मॉडल के एक अपडेट पर बनाया गया है”)[105], और Anthropic ने क्लॉड को संरेखित करने के लिए संवैधानिक फाइन-ट्यूनिंग जैसी तकनीकों का उपयोग किया। एक अंतिम उपयोगकर्ता या डेवलपर के रूप में, आप इन मॉडलों का उपयोग मुख्यतः जैसा है करते हैं, API इंटरफेस के माध्यम से अनुकूलित करते हैं बजाय वजन अपडेट के।

मॉडल आर्किटेक्चर और डिज़ाइन (अटकल)

हालांकि आधिकारिक विवरण कम हैं, हम कुछ डिज़ाइन दर्शन के अंतर निकाल सकते हैं: - Claude Opus 4.5 शायद अपने पूर्ववर्तियों की तरह एक घना ट्रांसफार्मर मॉडल है। Anthropic ने पैरामीटर संख्या का खुलासा नहीं किया है, लेकिन पहले के Claude संस्करणों की अफवाह थी कि वे GPT‑4 के पैमाने के बराबर हैं। ऐसा लगता है कि Anthropic का ध्यान डेटा/कौशल पर है: उन्होंने Claude 4.5 को कोडिंग, टूल उपयोग (शेल, वेब), और संवाद पर अच्छी तरह से प्रशिक्षित किया है, और उन्नत संरेखण तकनीकों (मानव प्रतिक्रिया के साथ सुदृढीकरण शिक्षा और उनके “संवैधानिक AI” विधि) को लागू किया है।

परिणाम एक मॉडल है जो “बस समझता है” – व्यावहारिक रूप से वास्तविक दुनिया के कार्यों पर बेहतर निर्णय लेने वाला है[20][106]। एक दिलचस्प वास्तुकला पहलू यह है कि Claude लंबे संदर्भ को कैसे संभालता है: Anthropic संभवतः स्थिति एन्कोडिंग रणनीतियों या ध्यान ट्वीक (जैसे ALiBi या केंद्रित ध्यान) का उपयोग करता है 200k टोकन तक पहुंचने के लिए। और विचार के निशान संरक्षित होने का तथ्य एक वास्तुकला का सुझाव देता है जो आगे बढ़ते हुए अपनी खुद की विचार-श्रृंखला को इनपुट का हिस्सा मानता है[23]। Claude 4.5 क्लाउड हार्डवेयर पर भी पेश किया जाता है जिसमें तेज़ मैट्रिक्स गुणन और संभवतः मॉडल पैरेललिज़्म होता है ताकि बड़े संदर्भ को कुशलतापूर्वक संभाला जा सके। - OpenAI GPT‑5.1 (और GPT‑5) को एक बेस मॉडल के साथ विशेष हेड्स/मोड्स को मिलाकर बनाया गया माना जाता है।

OpenAI के ब्लॉग से यह संकेत मिलता है कि GPT-5 एक "एकीकृत प्रणाली" है जिसमें एक तेज़ मॉडल और "गहन तर्क प्रणाली (GPT-5 Thinking) कठिन प्रश्नों के लिए" शामिल है[107]। यह संभव है कि GPT-5 की वास्तुकला में कई मॉड्यूल या एक विशेषज्ञ-शैली का स्विच शामिल हो जो आसान प्रश्नों को एक छोटे उप-मॉडल पर और कठिन प्रश्नों को एक बड़े मॉडल पर भेजता है, जिससे गति और लागत-कुशलता में सुधार होता है। "दो अपडेटेड वर्शन अब ChatGPT (Instant और Thinking) में उपलब्ध हैं" का उल्लेख करना[99] इसे समर्थन देता है। अंदरूनी तौर पर, GPT-5 में संभवतः ट्रिलियन की संख्या में पैरामीटर्स या कई विशेषज्ञ मॉडल हैं - एक प्रारंभिक अफवाह थी कि GPT-4 में ~111B पैरामीटर्स के 16 विशेषज्ञ थे (हालांकि इसकी पुष्टि नहीं हुई)। GPT-5 में पैरामीटर्स का विस्तार या अधिक कुशल प्रशिक्षण हो सकता है (OpenAI ने नई अनुकूलन तकनीकों और बड़े क्लस्टरों में निवेश किया)। इसने इनपुट मोडालिटी को भी कुछ हद तक विस्तारित किया: GPT-5 छवियों को इनपुट के रूप में स्वीकार कर सकता है (GPT-4 की दृष्टि का अनुसरण करते हुए), और संभवतः सीमित रूप में अन्य मोडालिटी भी[68][108]

हालांकि, व्यवहार में OpenAI ने मल्टीमॉडल के साथ अधिक सतर्कता बरती है; उन्होंने चीज़ों जैसे सोर (ऑडियो और संभवतः अन्य तौर-तरीकों के लिए एक मॉडल) को पूरी तरह से जोड़ने के बजाय अलग-अलग रखा है। इसलिए GPT‑5.1 मुख्य रूप से एक टेक्स्ट-आधारित मॉडल है जिसमें कुछ विज़न क्षमताएँ हैं। - गूगल जेमिनी 3 प्रो स्पष्ट रूप से नींव से ही मल्टीमॉडल है[109][110]। जेमिनी परिवार (जेमिनी 1, 2, 3) को गूगल दीपमाइंड द्वारा एकीकृत मॉडल में टेक्स्ट, विज़न और अधिक को संभालने के लिए डिज़ाइन किया गया था। यह संभावना है कि इसमें मॉडल आर्किटेक्चर के भीतर विज़न एन्कोडर्स और ऑडियो प्रोसेसिंग शामिल हैं।

Google की अनुसंधान रिपोर्ट या संकेत (यदि कोई प्रकाशित किए गए हैं) यह बता सकते हैं कि Gemini ट्रांसफॉर्मर बैकबोन्स का संयोजन उपयोग करता है - शायद एक भाषा के लिए, एक दृष्टि के लिए, और एक साझा प्रतिनिधित्व स्थान के साथ। परिणाम (जैसे मल्टीमॉडल बेंचमार्क्स पर अत्याधुनिक[17]) एक बहुत ही कसी हुई एकीकरण का सुझाव देते हैं। एक और पहलू है उपकरण उपयोग: DeepMind ने अनुकूली एजेंट्स पर पूर्व कार्य किया था (जैसे AlphaGo, रोबोटिक्स, आदि), और Demis Hassabis ने संकेत दिया कि उन क्षेत्रों की तकनीकें Gemini के डिज़ाइन को प्रभावित करेंगी। उदाहरण के लिए, Gemini में सुदृढीकरण सीखना या योजना एल्गोरिदम शामिल हो सकते हैं ताकि इसकी "एजेंटिक" क्षमताओं को बढ़ाया जा सके[109][111]। तथ्य यह है कि यह एक कंप्यूटर का परिचालन कर सकता है और इंटरैक्टिव कार्यों को हल कर सकता है (टर्मिनल, वेंडिंग-मशीन बेंचमार्क्स, आदि) यह दर्शाता है कि इसमें एजेंटिक सिमुलेशंस शामिल थे। हमने Gemini दस्तावेजों में "विचार हस्ताक्षर" और बहु-मोड़ उपकरण उपयोग के लिए सख्त सत्यापन का भी उल्लेख देखा[112][113] - यह मॉडल के उपकरण कॉलिंग व्यवहार को विश्वसनीय रखने के लिए एक वास्तु विशेषता हो सकती है (शायद एक अलग मॉड्यूल प्रत्येक विचार/क्रिया को सत्यापित करता है)। अंत में, Gemini का 1M संदर्भ संभवतः वास्तु नवाचार की आवश्यकता थी - संभवतः पुनर्प्राप्ति तंत्र या खंडित ध्यान को मिलाकर ताकि यह एक साथ एक मिलियन टोकनों पर द्विघात रूप से ध्यान न दे।

मूल रूप से, Claude, GPT-5.1, और Gemini सभी विशाल Transformer-आधारित AI सिस्टम हैं जिनमें कई विशेषताएँ हैं। इनके सटीक आर्किटेक्चर गोपनीय हैं, लेकिन प्रत्येक को थोड़ी अलग प्राथमिकताओं के लिए अनुकूलित किया गया है: Claude को बहुत लंबे संदर्भों और कोडिंग/एजेंट्स में विश्वसनीयता के लिए, GPT-5.1 को संतुलित चैट अनुभव के लिए और अनुकूलनशील तर्क के लिए, और Gemini को व्यापक मल्टीमॉडल समझ और जटिल टूल-मध्यस्थ कार्यों के लिए।

निष्कर्ष

हम AI के मोर्चे पर एक रोमांचक संगम देख रहे हैं: Claude Opus 4.5, ChatGPT 5.1, और Gemini 3 Pro सभी "फ्रंटियर मॉडल" का प्रतिनिधित्व करते हैं जो AI की सीमाओं को आगे बढ़ा रहे हैं, फिर भी प्रत्येक का एक अनूठा स्वाद है। Claude 4.5 कोडिंग और एजेंट विशेषज्ञ के रूप में उभरता है - यह वह मॉडल है जिसे आप अपनी पूरी कोडबेस को रातोंरात पुनः संरचित करने या एक घंटे के लिए स्प्रेडशीट चलाने के लिए बुला सकते हैं। इसे "गहरे काम" के लिए तैयार किया गया है और अब कम कीमतों के माध्यम से अधिक सुलभ बनाया गया है[85][86]। ChatGPT 5.1 OpenAI की व्यापक क्षमता और परिष्कार की विरासत को जारी रखता है - यह बातचीत और निर्देशों में उत्कृष्ट है, जबकि अभी भी एक प्रभावशाली सामान्य समस्या-समाधान करने वाला और कोडर है (विशेष रूप से Codex-Max संस्करण के साथ)[11]। उपयोगकर्ता की मंशा का पालन करने और कस्टमाइज़ेशन की पेशकश में इसके सुधार इसे एक बहुत ही उपयोगकर्ता-मित्र AI साथी बनाते हैं[19]। दूसरी ओर, Gemini 3 Pro भविष्य की एक झलक जैसा लगता है: यह वास्तव में मल्टीमॉडल है और तर्क क्षमताएँ प्रदर्शित करता है जो "AGI प्रोटोटाइप" कहे जा सकते हैं (Deep Think मोड के साथ समस्याओं को हल करते हुए जिन्हें पहले AI द्वारा असंभव माना जाता था)[114][111]। 1M संदर्भ और Google इकोसिस्टम में एकीकरण के साथ, Gemini उन अनुप्रयोगों का केंद्र हो सकता है जो पाठ, छवियों, और क्रियाओं को सहजता से मिलाते हैं।

इससे कुछ मुख्य निष्कर्ष:

कच्चा प्रदर्शन अब कार्य-निर्भर है। अब कोई ऐसा मॉडल नहीं है जो हर चीज़ में 'सबसे अच्छा' हो; इसके बजाय, हम एक छलांग लगाने वाले पैटर्न को देखते हैं। क्लॉड 4.5 कोडिंग बेंचमार्क्स पर अग्रणी है[11], जेमिनी 3 तार्किक तर्क और मल्टीमॉडल कार्यों पर अग्रणी है[5][17], और GPT-5.1 ज्ञान परीक्षणों में मूल रूप से समान स्तर पर है और सबसे परिष्कृत संवादात्मक अनुभव प्रदान करता है। कई क्षेत्रों में अंतर अपेक्षाकृत संकीर्ण है (अक्सर केवल कुछ प्रतिशत अंकों का), जो प्रभावशाली है यह देखते हुए कि ये मॉडल पहले के बेंचमार्क्स और यहां तक कि मानव आधारभूत मानकों को कितनी दूर तक पार कर गए हैं।

संदर्भ और निरंतरता कच्ची सटीकता जितनी ही महत्वपूर्ण हैं। लंबी बातचीत करने या लंबे दस्तावेजों पर बिना संदर्भ खोए काम करने की क्षमता एक बड़ी उपयोगिता जीत है। यहाँ, Google ने एक नया मानक स्थापित किया (1M टोकन, बहु-दस्तावेज़ इनपुट)[64], लेकिन Anthropic और OpenAI के पास उनके समाधान हैं (200k टोकन और संक्षेपण क्रमशः[61][29])। इसका मतलब है कि उपयोगकर्ता अब कम से कम “माफ करें, संदर्भ सीमा” विघटनों की उम्मीद कर सकते हैं और इन मॉडलों का उपयोग वास्तव में बड़े पैमाने पर डेटा सारांशण या विश्लेषण कार्यों के लिए कर सकते हैं।

अनुकूलता बनाम फाइन-ट्यूनिंग: भले ही हम इन विशाल मॉडलों को अभी फाइन-ट्यून नहीं कर सकते, विभिन्न नियंत्रण लीवर (प्रयास स्तर, व्यक्तित्व प्रीसेट, सिस्टम टूल्स) डेवलपर्स और उपयोगकर्ताओं को बिना पुन: प्रशिक्षण के आउटपुट पर बहुत प्रभाव डालने की क्षमता देते हैं। यह प्रवृत्ति जारी रह सकती है: भविष्य के मॉडल में और भी अधिक मॉड्यूलर नियंत्रण हो सकते हैं (उदाहरण के लिए, बिना अलग मॉडल की आवश्यकता के "सख्त तथ्यों" या "रचनात्मक" मोड को टॉगल करना)। - लागत सही दिशा में जा रही है - नीचे। यह तथ्य कि Anthropic ने Opus की कीमतों को दो-तिहाई तक कम करने की आवश्यकता महसूस की, और OpenAI और Google टोकन कीमतों पर प्रतिस्पर्धा कर रहे हैं, दिखाता है कि प्रतिस्पर्धा उपयोगकर्ताओं को लाभ पहुंचा रही है। बड़े पैमाने पर कार्य (लाखों टोकन) चलाना अभी भी महंगा है, लेकिन यह अब काफी अधिक सस्ता हो रहा है। अब यह संभव है कि एक छोटा स्टार्टअप एक अग्रणी मॉडल का उपयोग बड़े डेटासेट पर कर सके बिना अत्यधिक बिल के, जो और अधिक नवाचार को प्रेरित कर सकता है।

अंत में, "सर्वश्रेष्ठ" मॉडल आपकी जरूरतों पर निर्भर करता है। यदि आपको मल्टीमॉडल समझ या कठिन तर्क/गणितीय समस्याओं पर सर्वोत्तम तर्क की आवश्यकता है, तो Google का Gemini 3 Pro वर्तमान में आगे है। यदि आपको AI जोड़ी प्रोग्रामर या सॉफ़्टवेयर कार्यों को स्वचालित करने वाला एजेंट चाहिए, तो Anthropic का Claude Opus 4.5 सर्वोत्तम परिणाम दे सकता है (कोड के लिए संभवतः अधिक पूर्वानुमेय आउटपुट शैली के साथ)। यदि आप एक सार्वजनिक AI चाहते हैं जो बहुमुखी, विश्वसनीय और व्यापक कार्यों के लिए लागत-प्रभावी हो, तो ChatGPT 5.1 OpenAI के इकोसिस्टम के समर्थन के साथ एक शानदार विकल्प बना रहता है।

यह स्पष्ट है कि ये तीनों मॉडल एक-दूसरे को - और इस क्षेत्र को - आगे बढ़ा रहे हैं। जैसा कि एक विश्लेषण में कहा गया है, नए LLMs का मूल्यांकन करना कठिन होता जा रहा है क्योंकि प्रत्येक नई पीढ़ी पिछले से केवल एक छोटा कदम आगे होती है[115][116]। लेकिन ये छोटे कदम कुछ महत्वपूर्ण में बदल रहे हैं: AI मॉडल जो कोडिंग में पेशेवर स्तर की क्षमता तक पहुँच रहे हैं, कुछ परीक्षाओं में मानव विशेषज्ञों से आगे निकल रहे हैं[117], कई प्रकार की मोडालिटीज़ को सहजता से संभाल रहे हैं, और लंबी बातचीत को बनाए रख सकते हैं। बड़े, सामान्य-उद्देश्य AI का युग, जिसके पास प्रतीत होता है कि अंतहीन संदर्भ और क्षमताएं हैं, वास्तव में शुरू हो चुका है, और Claude 4.5, GPT-5.1, और Gemini 3 Pro इस दिशा में अग्रणी हैं।

स्रोत: आधिकारिक घोषणाओं और दस्तावेज़ों पर आधारित Anthropic[118][11], OpenAI[2][28], और Google DeepMind[17][64], साथ ही प्रतिष्ठित तृतीय पक्षों द्वारा रिपोर्ट की गई बेंचमार्क परिणाम और अंतर्दृष्टियां[11][13]। प्रत्येक मॉडल के दावों और स्कोर को सटीकता सुनिश्चित करने के लिए इन स्रोतों से उद्धृत किया गया है।

[1] [14] [15] [16] [20] [40] [51] [52] [59] [60] [62] [63] [87] [88] [92] [118] क्लॉड ओपस 4.5 \ एंथ्रोपिक पेश कर रहा है

https://www.anthropic.com/news/claude-opus-4-5

[2] [19] [76] [77] [78] [104] GPT-5.1: एक स्मार्ट, अधिक संवादात्मक ChatGPT | OpenAI

https://openai.com/index/gpt-5-1/

[3] [4] [5] [6] [7] [8] [9] [10] [13] [17] [18] [21] [22] [32] [33] [34] [35] [44] [94] [95] [109] [110] [111] [114] Gemini 3: गूगल से नवीनतम जेमिनी एआई मॉडल का परिचय

https://blog.google/products/gemini/gemini-3/

[11] [53] [54] [55] [57] [58] [85] [86] [106] एंथ्रोपिक का क्लॉड ओपस 4.5 आ गया: सस्ता एआई, अनंत चैट्स, और कोडिंग कौशल जो इंसानों को मात देते हैं | वेंचरबीट

https://venturebeat.com/ai/anthropics-claude-opus-4-5-is-here-cheaper-ai-infinite-chats-and-coding

[12] [26] [27] [28] [29] [36] [37] [38] [39] [56] [70] [71] [105] GPT-5.1-Codex-Max के साथ और अधिक निर्माण | ओपनएआई

https://openai.com/index/gpt-5-1-codex-max/

[23] [24] [25] [45] [46] [47] [48] [49] [50] Claude 4.5 में नया क्या है - Claude Docs

https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-5

[30] [31] [41] [61] [89] [90] [115] [116] Claude Opus 4.5, और क्यों नए LLMs का मूल्यांकन करना अधिक कठिन होता जा रहा है

https://simonwillison.net/2025/Nov/24/claude-opus/

[42] [43] जेमिनी 3 प्रो - मूल्यांकन दृष्टिकोण, कार्यप्रणाली और दृष्टिकोण v2

http://deepmind.google/models/evals-methodology/gemini-3-pro

[64] [65] [66] [67] [75] [80] [81] [93] [96] [101] [102] [103] [112] [113] Gemini 3 Pro  |  वर्ज़न एआई पर जनरेटिव एआई  |  गूगल क्लाउड दस्तावेज़ीकरण

https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-pro

[68] GPT-5 समझाया गया: फीचर्स, प्रदर्शन, मूल्य निर्धारण और उपयोग के मामले ...

https://www.leanware.co/insights/gpt-5-features-guide

[69] सबसे बड़े संदर्भ विंडो वाले LLMs - Codingscape

https://codingscape.com/blog/llms-with-largest-context-windows

[72] मूल्य निर्धारण - Claude Docs

https://platform.claude.com/docs/en/about-claude/pricing

[73] Claude Opus 4.5 बनाम Sonnet 4.5: मूल्य निर्धारण क्रांति और प्रदर्शन ...

https://vertu.com/lifestyle/claude-opus-4-5-vs-sonnet-4-5-vs-opus-4-1-the-evolution-of-anthropics-ai-models/?srsltid=AfmBOorwdEvjBy7o_kYmFhLrs_cP8wilvmsV5ZtxI-lYhR0H6wBPAOW_

[74] GPT-5 संदर्भ विंडो सीमाएं ChatGPT में - मुफ्त उपयोगकर्ताओं के लिए 8K,

https://x.com/rohanpaul_ai/status/1953549303638557183

[79] Claude Sonnet 4.5 बनाम GPT-5: प्रदर्शन, दक्षता, और मूल्य ...

https://portkey.ai/blog/claude-sonnet-4-5-vs-gpt-5

[82] मैंने GPT-5.1 Codex को Sonnet 4.5 के खिलाफ परीक्षण किया, और यह ... - Reddit

https://www.reddit.com/r/ClaudeAI/comments/1oy36ag/i_tested_gpt51_codex_against_sonnet_45_and_its/

[83] GPT-5.1 Codex बनाम Claude 4.5 Sonnet बनाम Kimi K2 Thinking

https://composio.dev/blog/kimi-k2-thinking-vs-claude-4-5-sonnet-vs-gpt-5-codex-tested-the-best-models-for-agentic-coding

[84] एआई के लिए मूर के कानून का अंत? जेमिनी फ्लैश एक चेतावनी देता है

https://news.ycombinator.com/item?id=44457371

[91] Claude Opus 4.5 Opus 4.1 से बहुत सस्ता है - Reddit

https://www.reddit.com/r/singularity/comments/1p5pdjq/claude_opus_45_is_much_cheaper_than_opus_41/

[97] models/gpt-5 - मॉडल - OpenAI एपीआई

https://platform.openai.com/docs/models/gpt-5

[98] Microsoft Foundry मॉडल्स में Azure OpenAI में क्या नया है?

https://learn.microsoft.com/en-us/azure/ai-foundry/openai/whats-new?view=foundry-classic

[99] [100] OpenAI जीपीटी-5.1 के आठ नए व्यक्तित्वों के साथ एक कठिन संतुलन साधता है

https://arstechnica.com/ai/2025/11/openai-walks-a-tricky-tightrope-with-gpt-5-1s-eight-new-personalities/

[107] जीपीटी-5 का परिचय - ओपनएआई

https://openai.com/index/introducing-gpt-5/

[108] GPT-5: नई विशेषताएं, परीक्षण, बेंचमार्क और अधिक - DataCamp

https://www.datacamp.com/blog/gpt-5

[117] GPT-5 ने पृथ्वी की सबसे कठिन चिकित्सा परीक्षा पास की, और ... - Reddit

https://www.reddit.com/r/deeplearning/comments/1mraxnh/gpt5s_medical_reasoning_prowess_gpt5_just_passed/

Boxu earned his Bachelor's Degree at Emory University majoring Quantitative Economics. Before joining Macaron, Boxu spent most of his career in the Private Equity and Venture Capital space in the US. He is now the Chief of Staff and VP of Marketing at Macaron AI, handling finances, logistics and operations, and overseeing marketing.

Related articles

Apply to become Macaron's first friends