मैंने पिछले कुछ हफ्तों में जानबूझकर अपनी खुद की वर्कफ़्लो तोड़ी है ताकि यह देखा जा सके कि जब आप असली परियोजनाओं, गंदे रेपो, अधपके स्पेक्स आदि पर उन्हें लॉन्च करते हैं तो GLM-4.7 और GPT-5 वास्तव में कैसे व्यवहार करते हैं।
कागज पर, दोनों "नेक्स्ट-जेन", "एजेंटिक", "कोडिंग में मजबूत" और सभी सामान्य बज़वर्ड्स हैं। व्यवहार में, जब मैंने बग फिक्सिंग, मल्टी-फाइल रिफैक्टर्स, और टूल-यूज़िंग एजेंट्स पर साइड-बाय-साइड टेस्ट किए, तो GLM-4.7 और GPT-5 के बीच के अंतर मार्केटिंग की तुलना में बहुत कम सैद्धांतिक थे।
डूबने से पहले एक त्वरित अस्वीकरण: GPT-5 के विवरण अभी भी विकसित हो रहे हैं और विक्रेता बेंचमार्क, अनुमानतः, प्रशंसा करते हैं। मैं यहां जो साझा कर रहा हूं वह दिसंबर 2025 में अपने परीक्षणों पर आधारित है: छोटे लेकिन पुनरुत्पादक प्रयोग, दोनों मॉडलों पर समान प्रॉम्प्ट्स, रेपो और टूल्स का उपयोग करते हुए। इसे क्षेत्र नोट्स के रूप में मानें, न कि सच्चाई के रूप में।
आइए देखें कि GLM-4.7 बनाम GPT-5 वास्तव में कहाँ भिन्न होते हैं, विशेष रूप से कोडिंग, एजेंट्स, और लागत-संवेदनशील वर्कफ़्लोज़ के लिए।
मैंने GLM-4.7 vs GPT-5 का गहन विश्लेषण करने की ज़हमत क्यों उठाई, इसका कारण सरल है: दोनों विक्रेता एक ही बात चिल्ला रहे हैं, बेहतर एजेंट, बेहतर कोडिंग, बेहतर तर्क।
मेरे परीक्षणों में, यह तीन ठोस प्रश्नों में अनुवादित हुआ:
मैंने दोनों को एक छोटे एजेंट फ्रेमवर्क में जोड़ा था जिसमें पहुंच थी:
मैंने उपयोग किया:
क्योंकि एक "स्मार्ट" एजेंट जो चुपचाप $50 एक बगफिक्स पर जला देता है, वह स्मार्ट नहीं है।
GLM-4.7 और GPT-5 दोनों स्पष्ट रूप से इन परिदृश्यों के लिए अनुकूलित हैं, लेकिन समझौते अलग हैं:
यह एक सैद्धांतिक GLM-4.7 बनाम GPT-5 मुकाबला नहीं है। चुनाव सब कुछ में प्रवेश करता है:
मैंने पहले ही एक क्लाइंट के आंतरिक "AI देव सहायक" को GPT-ओनली स्टैक से एक हाइब्रिड में स्विच कर दिया है: उत्पाद विनिर्देश कार्य और उपयोगकर्ता-समक्ष प्रति के लिए GPT-5, और पृष्ठभूमि कोडिंग कार्यों के लिए GLM-4.7 जहाँ लागत और थ्रूपुट का अधिक महत्व है। यह विभाजन एक साल पहले अकल्पनीय होता: अब यह बस समझ में आता है।
मैं यह दिखावा नहीं कर रहा कि मैंने पूर्ण शैक्षिक बेंचमार्क को दोहराया है, लेकिन मैंने प्रत्येक के एक संक्षिप्त संस्करण को चलाया।
एक छोटे, सत्यापित बग-फिक्स सेट (30 पायथन मुद्दे, प्रत्येक के साथ परीक्षण) पर:
जब मैंने फीडबैक के साथ दूसरे प्रयास की अनुमति दी ("परीक्षण अभी भी विफल हो रहे हैं, यहाँ लॉग है"), अंतर कम हो गया:
कच्चे प्रतिशत से अधिक महत्वपूर्ण यह था कि वे कैसे असफल हुए:
मैंने एक नकली बहुभाषी SWE-बेंच को इस तरह से तैयार किया:
यहां GLM-4.7 बनाम GPT-5 उलट गए:
GLM-4.7 ने चीनी बग विवरण को उल्लेखनीय रूप से बेहतर तरीके से संभाला और डॉकस्ट्रिंग्स में मिश्रित-भाषा टिप्पणियों से भ्रमित नहीं हुआ। GPT-5 आमतौर पर समस्या को हल कर लेता था जब मैंने रिपोर्ट को पूरी तरह से अंग्रेजी में पुनः व्यक्त किया, लेकिन यह एक अतिरिक्त घर्षण है जिसे आप बड़े पैमाने पर नहीं चाहते।
टर्मिनल-शैली के कार्यों के लिए (डीप्स इंस्टॉल करना, परीक्षण चलाना, लॉग जांचना, मामूली फ़ाइल संपादन), मैंने दोनों मॉडलों को एक ही सैंडबॉक्स में जोड़ा।
मैंने 40 कार्यों के पार बैच सफलता दर को मापा:
मुख्य अंतर:
यह विनाशकारी नहीं है, लेकिन अगर आपका एजेंट प्रति कॉल भुगतान करता है, तो यह महसूस होगा।
उच्च-स्तरीय मूल्यांकन (HLE) के लिए बाहरी टूल्स के साथ, मैंने एक मिनी "विश्लेषक" वर्कफ़्लो का परीक्षण किया:
यहां GPT-5 ने दिखाना शुरू किया:
कुल मिलाकर, इस छोटे HLE-with-tools परीक्षण में:
यदि आपका मुख्य उपयोग मामला कोडिंग + टूल्स है, तो दोनों ठोस हैं। यदि आपका उपयोग मामला टूल्स के साथ रणनीतिक विश्लेषण है, तो मेरे अनुभव में GPT-5 अभी भी साफ सुथरा है।
स्वतंत्र निर्माताओं के लिए, मूल्य निर्धारण वह जगह है जहां GLM-4.7 बनाम GPT-5 चुपचाप आपके महीने को बना या बिगाड़ सकता है।
सटीक GPT-5 मूल्य निर्धारण अभी सार्वजनिक नहीं है, लेकिन अगर यह GPT-4.1/o3 पैटर्न का पालन करता है, तो हम देख रहे हैं:
इसके विपरीत, GLM-4.7 को लागत पर आक्रामक रूप से स्थापित किया गया है, विशेष रूप से चीनी क्षेत्रों में, और अक्सर आपके क्षेत्र और प्रदाता के आधार पर अग्रणी OpenAI मॉडलों की तुलना में प्रति टोकन 30-60% सस्ता है।
एक विशिष्ट कोडिंग सेशन के लिए (200K इनपुट संदर्भ, 20-40K आउटपुट टोकन विभिन्न चरणों में), मैंने रन देखे जहां:
यदि GPT-5 उस ऊपरी बैंड में या उससे ऊपर रहता है, तो GLM-4.7 "प्रत्येक हल किए गए कार्य के लिए मूल्य" में मजबूत बढ़त बनाए रखता है।
मैंने प्रति सफल कार्य की लागत भी ट्रैक की, न कि केवल प्रति टोकन।
मेरे 30 कार्य SWE-शैली के बेंचमार्क के लिए:
इसलिए भले ही GPT-शैली के मॉडल अधिक कार्य हल कर रहे हों, GLM फिर भी प्रति कार्यशील PR पर डॉलर में जीत गया।
यदि आप चला रहे हैं:
वे लागत-प्रति-सुधार अंतराल बहुत तेजी से जुड़ते हैं।
वाइल्ड कार्ड है स्व-होस्टिंग। GLM-4.7 को आपके अपने GPUs या निजी क्लाउड पर तैनात किया जा सकता है।
यह उन उपयोग के मामलों को खोलता है जहाँ:
यह निःशुल्क नहीं है, बेशक। आप व्यापार कर रहे हैं:
…लेकिन एक बार जब आपका उपयोग एक निश्चित सीमा पार कर जाता है (मेरे लिए यह लगभग 15-20M टोकन/दिन निरंतर था), तो GLM-4.7 स्व-होस्टेड एक शुद्ध GPT-5 API रणनीति की तुलना में बहुत आकर्षक लगने लगता है।
GLM-4.7 के लिए, मुझे लगातार ~200K टोकन संदर्भ मिला जिसके साथ काम किया जा सके। जो पर्याप्त है:
GPT-5 के सटीक संदर्भ सीमाएं टियर/संस्करण पर निर्भर करती हैं, और विक्रेता उन्हें लगातार समायोजित करता रहता है। व्यावहारिक रूप से मैंने इसे 128K-200K श्रेणी के मॉडल की तरह माना, और मैं लगभग कभी भी रोज़मर्रा के कोडिंग कार्यों में सख्त संदर्भ सीमाओं तक नहीं पहुंचा।
अर्थपूर्ण अंतर कच्ची संख्या में नहीं था, बल्कि यह था कि उन्होंने इसका उपयोग कैसे किया:
GLM-4.7 ने बहुत लंबे आउटपुट तब शांति से उत्पन्न किए जब मैंने पूर्ण पैच या परीक्षण सूट्स के लिए कहा, बिना किसी समस्या के हजारों टोकन।
GPT-5 ने भी बड़े आउटपुट संभाले, लेकिन मैंने देखा कि यह अधिक संभावना था कि यह जल्दी रोककर कहे "मुझे बताएं अगर आप बाकी चाहते हैं," विशेष रूप से चैट जैसे यूआई में।
बड़े अंतर के लिए:
दोनों मॉडल कुछ प्रकार की "गहरी सोच" या तर्क मोड का प्रचार करते हैं।
मेरे परीक्षणों में:
यदि आप उत्पाद निर्णयों या बहु-चरणीय योजना के लिए अधिकतम रीजनिंग की परवाह करते हैं, तो GPT-5 का शीर्ष स्तर अभी भी आगे महसूस होता है। यदि आप समझदारी की लागत पर पर्याप्त रीजनिंग की परवाह करते हैं, तो GLM-4.7 अपनी जगह बनाए रखता है।
यहाँ GLM-4.7 बनाम GPT-5 का कोडिंग के लिए तुलनात्मक विश्लेषण ठोस रूप लेता है।
मैंने दोनों मॉडलों को एक ही परिदृश्य दिया:
परिणाम:
"ग्रीन टेस्ट्स" तक पहुँचने का समय 2-3 बार बातचीत के बाद:
ईमानदारी से कहूं तो? यह एक समान है। दोनों को रीफैक्टर कोपिलॉट्स के रूप में उपयोग किया जा सकता है। GPT-5 एक वरिष्ठ डेवलपर की तरह लगता है जिसके पास अच्छा डिज़ाइन स्वाद है, GLM-4.7 एक तेज़, सावधान मध्य-स्तर की तरह लगता है जो प्रकारों को दोबारा जांचता है।
छोटे SWE-शैली के बग कार्यों पर, मैंने देखा कि प्रत्येक मॉडल लूप किए गए प्रयासों में कैसे व्यवहार करता है:
जो पैटर्न मैंने देखे:
मैंने दोनों से बग को ठीक करने से पहले परीक्षण उत्पन्न करने के लिए भी कहा (एक आश्चर्यजनक रूप से शक्तिशाली चाल):
यदि आपका मुख्य उपयोग GLM-4.7 बनाम GPT-5 कोडिंग एजेंट्स के लिए है, तो मैं इसे इस प्रकार सारांशित करूंगा:
यदि आप एक इंडी डेवलपर, छोटी एजेंसी हैं, या साइड प्रोजेक्ट चला रहे हैं, तो GLM-4.7 बनाम GPT-5 आमतौर पर एक कठोर मीट्रिक पर आता है: प्रत्येक हल किए गए कार्य के लिए डॉलर।
मेरी लॉग्स से:
यह ट्रेड इसके लिए मूल्यवान है:
यदि आपकी टीम या ग्राहक:
फिर GLM-4.7 की स्व-होस्टिंग कहानी निर्णायक कारक है।
क्या इसे संचालित करना अधिक कठिन है? हाँ। आप GPUs, अनुमान सर्वर, निगरानी, और स्केलिंग से निपट रहे हैं। लेकिन अगर आपका टोकन वॉल्यूम पर्याप्त उच्च है और सुरक्षा/गोपनीयता पर कोई समझौता नहीं हो सकता, तो यह बहुत विवेकपूर्ण विकल्प है।
यदि आपका कोडबेस:
GLM-4.7 के पास वर्तमान में एक वास्तविक बढ़त है।
मेरे मिश्रित चीनी-अंग्रेजी रिपो परीक्षणों में:
इसलिए अगर आप चीनी-प्रथम या द्विभाषी वातावरण में काम कर रहे हैं, तो GLM-4.7 बस दिन-प्रतिदिन के डेवलपमेंट जीवन में अधिक स्वाभाविक रूप से फिट बैठता है।
GLM-4.7 बनाम GPT-5 में मुख्य गैर-तकनीकी तर्क इकोसिस्टम है।
वर्तमान में GPT-5 इन पर जीतता है:
अगर आप कुछ ऐसा बना रहे हैं जिसे कई SaaS टूल्स, प्लगइन्स, या नो-कोड प्लेटफॉर्म्स में प्लग करने की आवश्यकता है, तो GPT-5 सबसे कम प्रतिरोध का मार्ग है।
अंग्रेजी-प्रथम के लिए:
GPT-5 बस अधिक पॉलिश लगता है।
मेरे परीक्षणों में, इसका:
बिना संपादन के लगातार अधिक "क्लाइंट-रेडी" थे। GLM-4.7 भी इसे संभाल सकता है, लेकिन मैंने अक्सर स्वर और संरचना को संपादित किया।
यदि आपकी प्राथमिकताएँ हैं:
तो GPT-5 फिलहाल एक सुरक्षित विकल्प है।
लंबे समय तक चलने वाले एजेंटों में जहाँ एक अजीब भ्रम वास्तविक क्षति कर सकता है (जैसे कि बुनियादी ढांचे को गलत कॉन्फ़िगर करना), GPT-5 के गार्डरेल और मॉनिटरिंग स्टैक अधिक परिपक्व लगे। मेरे परीक्षणों में GLM-4.7 ने अच्छा प्रदर्शन किया, लेकिन आसपास का इकोसिस्टम (मूल्यांकन, गार्डरेल, ऑफ-द-शेल्फ उपकरण) अभी तक उतना परीक्षणित नहीं है।
दूर से देखने पर, GLM-4.7 बनाम GPT-5 का सबसे दिलचस्प हिस्सा यह नहीं है कि कौन "जीतता" है। यह है कि, दिन-प्रतिदिन के काम के लिए, वे दोनों पर्याप्त अच्छे हैं।
अब वास्तव में जो मायने रखता है वह है:
इन सभी परीक्षणों के बाद मेरा व्यावहारिक निष्कर्ष:
और ईमानदारी से कहूं? उन्हें मिलाने से डरें नहीं।
मेरे अपने स्टैक में अभी:
अगर आप बस शुरू कर रहे हैं, तो मैं यह सुझाऊंगा:
यह छोटा सा प्रयोग आपको GLM-4.7 बनाम GPT-5 के बारे में आपके जीवन के लिए किसी भी मार्केटिंग पेज या किसी ब्लॉग पोस्ट, जिसमें यह भी शामिल है, से ज्यादा बताएगा।
फिर वही रखें जो वास्तव में आपके लिए काम करता है, न कि वह जिसका बेंचमार्क चार्ट ज्यादा चमकदार है।
आपके लिए सबसे अच्छा मॉडल आपके कार्यप्रवाह पर निर्भर करता है, न कि लीडरबोर्ड पर।
इन सभी परीक्षणों के बाद, असुविधाजनक सच्चाई यह है: ज्यादातर व्यक्तिगत और इंडी कार्यप्रवाहों के लिए, मॉडल स्वयं से ज्यादा एजेंट डिज़ाइन मायने रखता है।
यही तो हम Macaron में बना रहे हैं। हम किसी एक "सर्वश्रेष्ठ" मॉडल पर दांव नहीं लगाते। हम सबसे मजबूत उपलब्ध मॉडलों को एक मेमोरी सिस्टम के साथ संयोजित करते हैं जो वास्तव में यह सीखता है कि आप कैसे काम करते हैं — आप किस चीज की परवाह करते हैं, आप कैसे बदलाव करते हैं, और कहां चीजें आमतौर पर टूटती हैं।
अगर आप जानना चाहते हैं कि यह व्यावहारिक रूप में कैसा लगता है, तो आप इसे खुद आजमा सकते हैं। [Macaron मुफ्त में आज़माएं →]