मैंने पिछले कुछ हफ्तों में जानबूझकर अपने वर्कफ्लो को तोड़ने की कोशिश की है ताकि यह देखा जा सके कि जब आप वास्तविक प्रोजेक्ट्स, अस्त-व्यस्त रिपोजिटरी, अधपके स्पैक्स और सभी कुछ उन पर फेंकते हैं तो GLM-4.7 और GPT-5 वास्तव में कैसे व्यवहार करते हैं।
कागज पर, दोनों "अगली पीढ़ी", "एजेंटिक", "कोडिंग में मजबूत" और सभी सामान्य बज़वर्ड्स हैं। व्यवहार में, जब मैंने बग फिक्सिंग, मल्टी-फाइल रिफैक्टर्स और टूल-उपयोग करने वाले एजेंट्स पर साइड-बाय-साइड परीक्षण चलाए, तो GLM-4.7 और GPT-5 के बीच के अंतर मार्केटिंग में सुनाई देने से कहीं कम सैद्धांतिक थे।
डूबने से पहले एक त्वरित अस्वीकरण: GPT-5 के विवरण अभी भी विकसित हो रहे हैं और विक्रेता के बेंचमार्क, उम्मीद के मुताबिक, चापलूसी करने वाले होते हैं। मैं यहां जो साझा कर रहा हूं, वह दिसंबर 2025 में मेरे अपने परीक्षणों पर आधारित है: छोटे लेकिन पुनरुत्पादनीय प्रयोग, दोनों मॉडलों में समान प्रॉम्प्ट्स, रिपोजिटरी और टूल्स का उपयोग करते हुए। इसे फील्ड नोट्स के रूप में देखें, सच्चाई के रूप में नहीं।
आइए देखें कि GLM-4.7 और GPT-5 वास्तव में कहाँ अलग होते हैं, खासकर कोडिंग, एजेंट्स और लागत-संवेदनशील वर्कफ्लो के लिए।

मेरे द्वारा GLM-4.7 बनाम GPT-5 का गहन अध्ययन करने का कारण सरल है: दोनों विक्रेता एक ही बात चिल्ला रहे हैं, बेहतर एजेंट, बेहतर कोडिंग, बेहतर तर्क।
मेरे परीक्षणों में, यह तीन ठोस प्रश्नों में अनुवादित हुआ:
मैंने दोनों को एक छोटे एजेंट फ्रेमवर्क में जोड़ा जिसमें यह एक्सेस था:
मैंने उपयोग किया:
क्योंकि एक "स्मार्ट" एजेंट जो एक बगफिक्स पर चुपचाप $50 खर्च करता है, वह स्मार्ट नहीं है।
GLM-4.7 और GPT-5 स्पष्ट रूप से इन परिदृश्यों के लिए अनुकूलित हैं, लेकिन समझौते अलग हैं:

यह एक सैद्धांतिक GLM-4.7 बनाम GPT-5 मुकाबला नहीं है। विकल्प सब कुछ में रिसता है:
मैंने पहले ही एक ग्राहक के आंतरिक "AI डेव असिस्टेंट" को केवल GPT स्टैक से हाइब्रिड में बदल दिया है: उत्पाद स्पेक कार्य और उपयोगकर्ता-उन्मुख कॉपी के लिए GPT-5, और बैकग्राउंड कोडिंग कार्यों के लिए GLM-4.7, जहां लागत और थ्रूपुट हावी होते हैं। यह विभाजन एक साल पहले अकल्पनीय था: अब यह समझ में आता है।
मैं यह दिखावा नहीं करने जा रहा कि मैंने पूर्ण शैक्षणिक बेंचमार्क को दोहराया है, लेकिन मैंने प्रत्येक का एक संक्षिप्त संस्करण चलाया है।
एक छोटे, सत्यापित बग-फिक्स सेट (30 पायथन समस्याओं, प्रत्येक के साथ परीक्षण) पर:
जब मैंने फीडबैक के साथ दूसरा प्रयास करने की अनुमति दी ("परीक्षण अभी भी विफल हो रहे हैं, यहाँ लॉग है"), तो अंतर कम हो गया:
कच्चे प्रतिशत से अधिक महत्वपूर्ण यह था कि वे कैसे असफल हुए:
मैंने एक छद्म बहुभाषी SWE-बेंच को इस तरह से जोड़ा:
यहाँ GLM-4.7 बनाम GPT-5 पलटा:
GLM-4.7 ने चीनी बग विवरणों को काफी बेहतर तरीके से संभाला और डॉकस्ट्रिंग में मिश्रित-भाषा की टिप्पणियों से भ्रमित नहीं हुआ। GPT-5 आमतौर पर समस्या को हल कर देता था जब मैंने रिपोर्ट को पूरी तरह से अंग्रेजी में पुनः प्रस्तुत किया, लेकिन यह अतिरिक्त रुकावट है जो बड़े पैमाने पर नहीं चाहिए।
टर्मिनल-शैली के कार्यों के लिए (डिप्स स्थापित करना, परीक्षण चलाना, लॉग्स का निरीक्षण करना, छोटे फाइल संपादन), मैंने दोनों मॉडलों को एक ही सैंडबॉक्स में जोड़ा।
मैंने 40 कार्यों में बैच सफलता दर मापी:
मुख्य अंतर:
यह विनाशकारी नहीं है, लेकिन अगर आपका एजेंट प्रति कॉल भुगतान करता है, तो आप इसे महसूस करेंगे।
बाहरी टूल्स के साथ उच्च स्तरीय मूल्यांकन (HLE) के लिए, मैंने एक मिनी "विश्लेषक" कार्यप्रवाह का परीक्षण किया:
यहाँ GPT-5 ने दिखाना शुरू किया:
कुल मिलाकर, इस छोटे HLE-with-tools परीक्षण में:
यदि आपका मुख्य उपयोग मामला कोडिंग + उपकरण है, तो दोनों मजबूत हैं। यदि आपका उपयोग मामला उपकरणों के साथ रणनीतिक विश्लेषण है, तो मेरे अनुभव में GPT-5 का शीर्ष स्तर अभी भी साफ-सुथरा है।
इंडी बिल्डर्स के लिए, मूल्य निर्धारण वह स्थान है जहाँ GLM-4.7 बनाम GPT-5 आपकी मासिक योजना को बनाए या तोड़ सकता है।
सटीक GPT-5 मूल्य निर्धारण अभी तक सार्वजनिक नहीं है, लेकिन यदि यह GPT-4.1/o3 पैटर्न का अनुसरण करता है, तो हम देख रहे हैं:
GLM-4.7, इसके विपरीत, लागत पर आक्रामक रूप से स्थित है, विशेष रूप से चीनी क्षेत्रों में, और अक्सर अग्रणी OpenAI मॉडलों की तुलना में आपके क्षेत्र और प्रदाता के आधार पर प्रति टोकन 30–60% सस्ता आता है।
एक विशिष्ट कोडिंग सत्र के लिए (200K इनपुट संदर्भ, 20–40K आउटपुट टोकन चरणों में), मैंने देखा कि रन जहाँ:
यदि GPT-5 उस ऊपरी बैंड में रहता है या उससे अधिक रहता है, तो GLM-4.7 एक मजबूत "हल किए गए कार्य प्रति मूल्य" किनारा रखता है।
मैंने सफल कार्य प्रति लागत को भी ट्रैक किया, न कि केवल प्रति टोकन।
मेरे 30 कार्य SWE-शैली के बेंचमार्क के लिए:
तो भले ही GPT‑शैली के मॉडल अधिक कार्यों को हल कर रहे हों, डॉलर प्रति कार्यशील पीआर में जीएलएम अभी भी जीता।
यदि आप चला रहे हैं:
तो ये प्रति सुधार लागत अंतराल बहुत तेजी से जोड़ते हैं।
जंगली कार्ड स्व-होस्टिंग है। GLM-4.7 को आपके अपने GPU या निजी क्लाउड पर तैनात किया जा सकता है।
यह उन उपयोग मामलों को अनलॉक करता है जहाँ:
यह निःशुल्क नहीं है, निश्चित रूप से। आप व्यापार कर रहे हैं:
...लेकिन एक बार जब आपका उपयोग एक निश्चित सीमा पार कर जाता है (मेरे लिए यह लगभग 15–20 मिलियन टोकन/दिन था), तो GLM-4.7 स्व-होस्टेड एक शुद्ध GPT-5 API रणनीति के मुकाबले बहुत आकर्षक लगने लगता है।
GLM-4.7 के लिए, मुझे लगातार ~200K टोकन संदर्भ मिला। यह पर्याप्त है:
GPT-5 के सटीक संदर्भ सीमाएं टियर/संस्करण पर निर्भर करती हैं, और विक्रेता उन्हें लगातार समायोजित करते रहते हैं। व्यावहारिक रूप से मैंने इसे 128K–200K वर्ग मॉडल की तरह माना, और मैं लगभग कभी भी रोज़मर्रा के कोडिंग कार्यों में कठिन संदर्भ सीमाओं से नहीं टकराया।
महत्वपूर्ण अंतर केवल संख्या में नहीं था, बल्कि यह था कि उन्होंने इसे कैसे उपयोग किया:
GLM-4.7 ने बहुत लंबे आउटपुट बहुत शांति से उत्पन्न किए जब मैंने पूर्ण पैच या परीक्षण सूट्स के लिए कहा, बिना रुके हजारों टोकन।
GPT-5 ने भी बड़े आउटपुट संभाले, लेकिन मैंने देखा कि यह जल्दी रुक जाता था और कुछ ऐसा कहता था जैसे "अगर आपको बाकी चाहिए तो बताएं," खासकर चैट जैसी यूआई में।
बड़े अंतर के लिए:
दोनों मॉडल कुछ प्रकार की "गहरी सोच" या तर्क मोड का बाजार करते हैं।
मेरे परीक्षणों में:
यदि आप उत्पाद निर्णयों या बहु-चरणीय योजना के लिए अधिकतम रीजनिंग की परवाह करते हैं, तो GPT-5 का शीर्ष स्तर अभी भी आगे महसूस होता है। यदि आप उचित लागत पर पर्याप्त रीजनिंग की परवाह करते हैं, तो GLM-4.7 अपनी जगह बनाए रखता है।
यहाँ GLM-4.7 बनाम GPT-5 कोडिंग तुलना जहाँ ठोस होती है:
मैंने दोनों मॉडलों को एक ही परिदृश्य दिया:
परिणाम:
2-3 बार आगे-पीछे के बाद "ग्रीन टेस्ट्स" तक का समय:
ईमानदारी से कहूं तो? यह बराबरी पर है। दोनों को रिफैक्टर कोपायलट के रूप में उपयोग किया जा सकता है। GPT-5 एक वरिष्ठ डेवलपर की तरह लगता है जिसके पास अच्छा डिज़ाइन स्वाद है, जबकि GLM-4.7 एक तेज़, सावधान मध्यम-स्तरीय की तरह लगता है जो प्रकारों को दोबारा जांचता है।

छोटे सॉफ़्टवेयर इंजीनियरिंग शैली के बग कार्यों पर, मैंने देखा कि प्रत्येक मॉडल ने लूप किए गए प्रयासों में कैसे व्यवहार किया:
जो पैटर्न मैंने देखे:
मैंने दोनों से बग फिक्स करने से पहले परीक्षण जनरेट करने के लिए भी कहा (एक आश्चर्यजनक रूप से शक्तिशाली ट्रिक):
अगर आपका मुख्य उपयोग मामला कोडिंग एजेंट्स के लिए GLM-4.7 बनाम GPT-5 है, तो मैं इसे इस तरह संक्षेप में कहूँगा:

अगर आप एक इंडी डेवलपर हैं, छोटी एजेंसी हैं, या साइड प्रोजेक्ट चला रहे हैं, तो GLM-4.7 बनाम GPT-5 आमतौर पर एक कठोर मापदंड पर आता है: प्रति हल कार्य डॉलर।
मेरे लॉग से:
यह व्यापारिक समझौता इसके लायक है:
अगर आपकी टीम या ग्राहक:
तो GLM-4.7 की सेल्फ-होस्टिंग कहानी निर्णायक कारक है।
क्या इसे संचालित करना अधिक कठिन है? हाँ। आप GPUs, इन्फरेंस सर्वर, निगरानी, और स्केलिंग के साथ काम कर रहे हैं। लेकिन अगर आपका टोकन वॉल्यूम पर्याप्त उच्च है और सुरक्षा/गोपनीयता गैर-परक्राम्य हैं, तो यह एक बहुत ही तार्किक विकल्प है।
अगर आपका कोडबेस:
GLM-4.7 वर्तमान में एक वास्तविक बढ़त रखता है।
मेरे मिश्रित चीनी-अंग्रेज़ी रिपोजिटरी परीक्षणों में:
इसलिए यदि आप एक चीनी-प्रथम या द्विभाषी वातावरण में काम कर रहे हैं, तो GLM-4.7 दिन-प्रतिदिन के डेवलपमेंट जीवन में अधिक स्वाभाविक रूप से फिट बैठता है।
GLM-4.7 बनाम GPT-5 में मुख्य गैर-तकनीकी तर्क पारिस्थितिकी तंत्र है।
GPT-5 वर्तमान में इस पर जीतता है:
यदि आप कुछ ऐसा बना रहे हैं जिसे कई SaaS टूल्स, प्लगइन्स, या नो-कोड प्लेटफॉर्म्स में प्लग करने की आवश्यकता है, तो GPT-5 कम से कम प्रतिरोध का मार्ग है।
अंग्रेज़ी-प्रथम के लिए:
GPT-5 बस अधिक परिष्कृत लगता है।
मेरे परीक्षणों में, इसका:
बिना संपादन के लगातार अधिक "क्लाइंट-रेडी" थी। GLM-4.7 भी इसे संभाल सकता है, लेकिन मैंने खुद को स्वर और संरचना को अधिक बार संपादित करते हुए पाया।
यदि आपकी प्राथमिकताएँ हैं:
फिलहाल GPT-5 सुरक्षित विकल्प है।
लंबे समय तक चलने वाले एजेंट्स में जहां एक अजीब भ्रम वास्तविक नुकसान कर सकता है (जैसे इन्फ्रास्ट्रक्चर की गलत कॉन्फ़िगरेशन), GPT-5 की सुरक्षा उपाय और निगरानी प्रणाली अधिक परिपक्व महसूस हुई। GLM-4.7 ने मेरे परीक्षणों में अच्छा प्रदर्शन किया, लेकिन आसपास का इकोसिस्टम (मूल्यांकन, सुरक्षा उपाय, ऑफ-द-शेल्फ टूल्स) अभी तक उतना परीक्षणित नहीं है।
दूर से देखने पर, GLM-4.7 बनाम GPT-5 का सबसे दिलचस्प हिस्सा यह नहीं है कि कौन "जीतता" है। यह है कि दिन-प्रतिदिन के काम के लिए, वे दोनों काफी अच्छे हैं।
वास्तव में अब जो मायने रखता है वह है:
इन सभी परीक्षणों के बाद मेरा व्यावहारिक निष्कर्ष:
और ईमानदारी से? उन्हें मिलाने से न डरें।
मेरे अपने स्टैक में अभी:
यदि आप अभी शुरू कर रहे हैं, तो मैं यह सुझाव दूंगा:
यह छोटा सा प्रयोग आपको GLM-4.7 और GPT-5 के बीच आपके जीवन के लिए अधिक बताएगा, किसी भी मार्केटिंग पेज या किसी भी ब्लॉग पोस्ट की तुलना में, जिसमें यह भी शामिल है।
फिर वही रखें जो वास्तव में आपके लिए काम करता है, न कि वह जो अधिक आकर्षक बेंचमार्क चार्ट के साथ आता है।
आपके लिए सबसे अच्छा मॉडल आपके वर्कफ़्लो पर निर्भर करता है, न कि लीडरबोर्ड पर।
इन सभी परीक्षणों के बाद, असहज सत्य यह है: अधिकांश व्यक्तिगत और इंडी वर्कफ़्लो के लिए, मॉडल स्वयं एजेंट डिज़ाइन से कम महत्वपूर्ण होता है जो इसके चारों ओर लपेटा जाता है।
यही हम Macaron में बना रहे हैं। हम एकल "सर्वश्रेष्ठ" मॉडल पर दांव नहीं लगाते। हम सबसे मजबूत उपलब्ध मॉडलों को एक मेमोरी सिस्टम के साथ संयोजित करते हैं जो वास्तव में सीखता है कि आप कैसे काम करते हैं — आप किसके बारे में परवाह करते हैं, आप कैसे सुधार करते हैं, और आमतौर पर कहाँ चीजें टूटती हैं।
यदि आप जानना चाहते हैं कि यह व्यवहार में कैसा लगता है, तो आप इसे स्वयं आजमा सकते हैं। [Macaron को मुफ्त में आजमाएं →]