जब मैंने यह समझने के लिए बैठा कि GLM-4.7 वास्तव में क्या है (न सिर्फ प्रेस-रिलीज़ की भाषा में), तो मैंने "एक और अग्रणी मॉडल वृद्धि" की उम्मीद की थी। थोड़े बेहतर बेंचमार्क, तर्क के बारे में अस्पष्ट दावे, और कुछ खास नहीं।
वह... नहीं हुआ।
एक सप्ताह के परीक्षण के बाद GLM-4.7 को कोडिंग, लंबी-दस्तावेज समीक्षा, और कुछ एजेंट-शैली वर्कफ़्लोज़ में, मैंने अपने कुछ डिफॉल्ट टूल्स को पुनर्गठित किया। यह मॉडल एक बहुत ही विशेष स्थान पर स्थित है: 200K संदर्भ विंडो, गंभीर कोडिंग कौशल, और 358B पैरामीटर्स पर खुले वजन, जो कि एक वाक्य नहीं है जिसे मैंने 2025 में लिखने की सोची थी।
आइए मैं आपको दिखाता हूँ कि GLM-4.7 वास्तव में क्या है, यह कैसे व्यवहार करता है, और यह वास्तव में एक निर्माता/स्वतंत्र डेवलपर के वर्कफ़्लो में कहाँ फिट बैठता है।
निचोड़: अगर आपको विशाल संदर्भ और खुले-वज़न की लचीलापन के साथ सीमांत स्तर की तर्कशक्ति की आवश्यकता है, तो Zhipu AI का GLM-4.7 प्रदान करता है। $3/माह के कोडिंग योजना के लिए, यह जनवरी 2025 तक AI उपकरणों में सबसे अच्छे मूल्य प्रस्तावों में से एक है।
यदि आपने पहले GLM-4, GLM-4-Air, या GLM-4.6 का उपयोग किया है, तो GLM-4.7 Zhipu का "हम अब और खेल नहीं रहे हैं" रिलीज़ है। सोचें: सीमांत स्तर की तर्कशक्ति + बड़ा संदर्भ + खुले वज़न, जो सीधे प्रोडक्शन एपीआई और पावर उपयोगकर्ताओं को लक्ष्य बनाता है।
झिपु ने 2024 के अंत में चुपचाप GLM-4.7 को रोल आउट किया, फिर 2025 की शुरुआत में इसे अपने नए प्रमुख कोडिंग और तर्क के लिए जोरदार तरीके से आगे बढ़ाना शुरू किया। जब मैंने इसे परीक्षण के लिए लिया, तब तक आधिकारिक दस्तावेज़ीकरण में इसे पहले से ही डिफ़ॉल्ट उच्च-स्तरीय GLM मॉडल के रूप में संदर्भित किया गया था।
आप आमतौर पर इसे Zhipu API में glm-4.7 के रूप में और स्व-होस्टिंग के लिए Hugging Face पर 358B ओपन-वेट्स रिलीज़ के रूप में देखेंगे।
यहाँ है कि मैं इसे इस्तेमाल करने के बाद GLM-4.7 मॉडल की स्थिति को कैसे सारांशित करूंगा:
स्तर: फ्रंटियर-स्तरीय, सामान्य-उद्देश्य LLM फोकस: कोडिंग, जटिल तर्क, और लंबे-संदर्भ कार्य दर्शक: टीमें जो मजबूत कोडिंग सहायता और लंबे दस्तावेज़ वर्कफ़्लो चाहती हैं, स्वतंत्र डेवलपर्स जो ओपन वेट्स पसंद करते हैं, शोधकर्ता
झिपु के अपने इकोसिस्टम में, GLM-4.7 को उनके सर्वश्रेष्ठ कोडिंग और तर्क मॉडल के रूप में पेश किया गया है, जो SWE-बेंच (73.8) और HLE (42.8) पर बेंचमार्क जीत से समर्थित है। वास्तविक दुनिया में, यह लगभग इस प्रकार होता है: यह वह है जिसे आप चुनते हैं जब आप गुणवत्ता को टोकन प्रति लागत से अधिक महत्व देते हैं।
मेरे लिए सबसे बड़ा "ओह वाह, उन्होंने वास्तव में यह किया" क्षण यह था: GLM-4.7 का 358B-पैरामीटर संस्करण खुले वेट्स के रूप में उपलब्ध है।
आप कर सकते हैं:
मेरे परीक्षणों में, ओपन-वेट्स एंगल का महत्व उन व्यक्तिगत रचनाकारों के लिए कम है (आप शायद API का उपयोग कर रहे हैं) और उन टीमों के लिए अधिक है जिन्हें डेटा नियंत्रण की आवश्यकता है या जो विशेष आंतरिक कोपिलॉट्स बनाना चाहते हैं।
यदि आप GLM-4.7 बनाम GLM-4.6 के बारे में सोच रहे हैं, तो यहाँ दोनों को एक साथ उपयोग करने का संक्षिप्त संस्करण है:
मेरे अपने बेंचमार्क सेट (लगभग 40 वास्तविक-विश्व कार्य जो मैं विभिन्न मॉडलों के साथ पुनः उपयोग करता हूँ) में, GLM-4.7 ने GLM-4.6 की तुलना में ~18–20% अधिक जटिल कोडिंग कार्य हल किए बिना किसी अतिरिक्त प्रॉम्प्टिंग प्रयास के।
इसलिए यदि आप अभी भी किसी गंभीर चीज़ के लिए 4.6 पर हैं, तो GLM-4.7 एक दिखावटी अपग्रेड नहीं है—यह GLM लाइन में नया आधारभूत है।
स्पेक्स पूरी कहानी नहीं बताते, लेकिन GLM-4.7 के साथ, उनमें से कुछ सीधे इस बात से जुड़े हैं कि आप इसे दिन-प्रतिदिन कैसे उपयोग करेंगे।
GLM-4.7 200,000 टोकन संदर्भ विंडो के साथ आता है। मानव शब्दों में, यह है:
मेरा वास्तविक-विश्व परीक्षण: मैंने 620-पृष्ठ की PDF (लगभग 180K टोकन) लोड की और एक संरचित सारांश + प्रश्नोत्तर गाइड मांगा।
परिणाम:
यह GLM-4.7 को जनवरी 2025 तक लंबे दस्तावेज़ प्रसंस्करण के लिए अधिकांश मॉडलों से आगे रखता है।
कहानी का दूसरा भाग आउटपुट है। GLM-4.7 128,000 टोकन तक उत्पन्न पाठ का समर्थन करता है।
मैंने इसे एक सिंथेटिक परीक्षण के साथ धक्का दिया: "एक पूर्ण पाठ्यक्रम रूपरेखा + व्याख्याएं + उदाहरण उत्पन्न करें (~80K टोकन)।" यह:
निर्माताओं के लिए, इसका मतलब है कि आप वास्तविक रूप से:
शायद आप हर दिन 100K+ आउटपुट पर नहीं रहेंगे, लेकिन यह जानकर कि इसकी सीमा इतनी ऊँची है, GLM-4.7 को लंबे दस्तावेज़ प्रसंस्करण और बड़े कोडबेस कार्य के लिए बहुत आकर्षक बनाता है।
कागज़ पर, GLM-4.7 एक 358B-पैरामीटर मॉडल है जिसके वज़न खुले हैं।
व्यावहारिक रूप से, मेरे परीक्षण में इसका मतलब था:
यदि आप खुद से पूछ रहे हैं कि केवल GLM-4.7 क्या है बल्कि यह क्यों महत्वपूर्ण है, तो यह एक बड़ा कारण है: यह खुले-वज़न फ्रंटियर को वास्तव में आगे बढ़ाता है, बस "एक और 30B-ईश मॉडल के साथ विपणन के फ्लेयर" होने के बजाय।
ठीक है, बेंचमार्क अच्छे होते हैं, लेकिन मैं यह देखता हूँ कि मेरे वर्कफ़्लो में क्या बदलाव आया। मैंने GLM-4.7 और GLM-4.6 को उन्हीं कोडिंग, तर्क, और टूल-उपयोग कार्यों के माध्यम से चलाया जो मैं नए मॉडलों की समझदारी-जाँच के लिए उपयोग करता हूँ।
आधिकारिक रूप से, GLM-4.7 SWE-बेंच पर 73.8 का स्कोर करता है, जो वास्तविक दुनिया के GitHub मुद्दों को हल करने के लिए एक गंभीर स्कोर है।
मेरे अपने कोडिंग परीक्षणों में (~25 कार्य):
इन कार्यों में शामिल थे:
मुख्य अंतर: GLM-4.7 ने न केवल पैच लिखा, बल्कि अक्सर असफल परीक्षण आउटपुट को सही ढंग से संदर्भित किया और कई फ़ाइलों को एक सुसंगत तरीके से अपडेट किया। GLM-4.6 ने कभी-कभी तत्काल त्रुटि को ठीक किया लेकिन कुछ और तोड़ दिया।

एक चीज जो बेंचमार्क्स में नहीं दिखती: वाइब कोडिंग—फ्रंटेंड्स के लिए लेआउट, कॉपी, और माइक्रो-इंटरैक्शंस का संयोजन।
मैंने GLM-4.7 को ऐसे संकेत दिए:
"एक मिनिमलिस्ट AI लेखन उपकरण के लिए एक लैंडिंग पृष्ठ डिज़ाइन करें। TailwindCSS + React। इसे शांत लेकिन आत्मविश्वासी महसूस कराएं, हल्के एनिमेशन के साथ।"
GLM-4.6 की तुलना में, GLM-4.7:
यदि आपका वर्कफ़्लो फ्रंटेंड जेनरेशन या UI/UX विचारों को पोलिश करने में शामिल है, GLM-4.7 बस अधिक सुखद है। यह सौंदर्य संकेतों को बेहतर समझता है और उन्हें संवेदी HTML/CSS/JS में बदलता है।
मैंने GLM-4.7 को एक छोटे एजेंटिक वर्कफ़्लो के साथ तनाव परीक्षण भी किया:
लक्ष्य: एक कॉन्फ़िग को अपडेट करना, कोड समायोजित करना, और प्राप्त जानकारी के आधार पर एक छोटा चेंजलॉग लिखना।
20 से अधिक बार चलाना:
जो बात सबसे अलग थी वह यह थी कि GLM-4.7 ने स्कीमा-सम्मानित JSON को कैसे संभाला। यह कभी-कभी अतिरिक्त फ़ील्ड नहीं बनाता था, जो इसे प्रोडक्शन-शैली के एजेंट फ्लो में कम कष्टप्रद बनाता है।
तर्क पक्ष पर, GLM-4.7 हिट्स 42.8 पर HLE (हैलुसिनेशन और लॉजिक मूल्यांकन), जो यह कहने का एक शानदार तरीका है: यह चीजें न बनाने और तार्किक श्रृंखलाओं का पालन करने में बेहतर है।
उस परीक्षण का मेरा अधिक मानव संस्करण:
GLM-4.7:
यदि आप अनुसंधान नोट्स, नीति मसौदे, या कुछ भी कर रहे हैं जहाँ जटिल तर्क शब्द गणना से अधिक महत्वपूर्ण है, तो GLM-4.7 एक सुरक्षित, अधिक पारदर्शी साथी महसूस होता है।

अब उस हिस्से के लिए जिसे हर कोई चुपचाप स्क्रॉल करता है: GLM-4.7 की कीमत कितनी है, और वास्तव में आप इसका उपयोग कैसे करते हैं?
झिपु का सार्वजनिक मूल्य निर्धारण GLM-4.7 के लिए यहाँ है:
व्यवहार में, मेरे एक लम्बे दस्तावेज़ परीक्षण के लिए इसका क्या अर्थ था:
अन्य अग्रणी मॉडलों की तुलना में, GLM-4.7 का मूल्य-से-गुणवत्ता अनुपात काफी प्रतिस्पर्धी है, खासकर यदि आप दीर्घ-संदर्भ सुविधाओं पर निर्भर करते हैं।
इंडी निर्माताओं और एकल डेवलपर्स के लिए, GLM कोडिंग योजना $3/माह पर चुपचाप अधिक दिलचस्प पेशकों में से एक है।
आपको GLM-4.7-स्तरीय मॉडलों के शीर्ष पर एक कोडिंग-अनुकूलित वातावरण मिलता है, जो, मेरे अनुभव में, पर्याप्त है:
5-दिन के दौरान जब मैंने खुद को सब कुछ कोडिंग से संबंधित करने के लिए मजबूर किया, मैंने अनुमान लगाया कि इसने मुझे प्रतिदिन 1.5-2 घंटे बचाए, विशेष रूप से बायलरप्लेट, पुनर्संरचना और परीक्षण लेखन पर।
तीन डॉलर के लिए, अगर आप कोडिंग के प्रति थोड़ी भी गंभीरता रखते हैं, तो यह एक स्पष्ट निर्णय है।
अगर आप पूर्ण नियंत्रण चाहते हैं, तो आप हगिंग फेस से GLM-4.7 के ओपन वेट्स प्राप्त कर सकते हैं और खुद होस्ट कर सकते हैं।
लेकिन एक वास्तविकता जांच:
लेकिन उन टीमों के लिए जो इसे संभाल सकती हैं, GLM-4.7 को लोकली चलाने का मतलब है:
अगर आपका प्रारंभिक प्रश्न सिर्फ "GLM-4.7 क्या है और मैं API को कैसे हिट करूं," था, तो आप इस हिस्से को नजरअंदाज कर सकते हैं। अगर आप इन्फ्रा-माइंडेड हैं, तो हगिंग फेस का मार्ग इस रिलीज का सबसे प्रेरक हिस्सा है।
यहां GLM-4.7 ने वास्तव में मेरे रोटेशन में जगह बनाई।
अगर आपका काम शामिल है:
…GLM-4.7 का 200K संदर्भ और 128K आउटपुट संयोजन अत्यधिक उपयोगी है।
मेरे परीक्षणों से उदाहरण: मैंने इसे उत्पाद अनुसंधान, रोडमैप नोट्स, और उपयोगकर्ता प्रतिक्रिया के 170K-टोकन बंडल को खिलाया। मैंने मांगा: प्राथमिकता वाला रोडमैप, जोखिम विश्लेषण, और मैसेजिंग गाइड।
परिणाम: इसने एक ही बार में एक संगठित योजना तैयार की, जिसे मैंने फिर हल्का सा संपादित किया।
दूसरे उपकरणों के साथ 10-20 भागों में सब कुछ काटने की तुलना में, GLM-4.7 ने मैनुअल ओवरहेड को कम से कम 50-60% तक काट दिया।
GLM-4.7 का मजबूत उपकरण उपयोग और बेहतर JSON अनुशासन इसे मल्टी-स्टेप एजेंट वर्कफ़्लो के लिए एक शानदार दिमाग बनाता है।
उदाहरण के लिए, मैंने इसे एक छोटे पाइपलाइन में समायोजित किया:
सफलता दर (अर्थात: कोई स्कीमा त्रुटि नहीं, पैच साफ-सुथरे ढंग से लागू हुआ, चेंजलॉग सटीक):
यदि आप एजेंटों के साथ खेल रहे हैं या आंतरिक कोपिलॉट्स का निर्माण कर रहे हैं, तो यह वह जगह है जहां GLM-4.7 चुपचाप चमकता है।
वाइब कोडिंग के लिए, GLM-4.7 एक जूनियर डिजाइनर + फ्रंट-एंड डेवलपर की तरह महसूस हुआ जो वास्तव में सुनता है।
मेरे परीक्षणों में जो उपयोग के मामले अच्छी तरह से काम करते थे:
यदि आप एक एकल रचनाकार या बाज़ारिया हैं जो UI विचारों पर बिना हर छोटे बदलाव के लिए Figma खोलने के लिए पुनरावृत्ति करना चाहते हैं, तो GLM-4.7 एक आश्चर्यजनक रूप से सक्षम साथी है, विशेष रूप से जब आप इसे "Linear की तरह महसूस करें" या "Notion की सौंदर्यशास्त्र के करीब, लेकिन गर्म" जैसे संदर्भों के साथ एंकर करते हैं।
जब लोग मुझसे पूछते हैं GLM-4.7 अन्य मॉडलों की तुलना में किसके लिए अच्छा है, तो मैं इसे इस तरह से समझाता हूँ:
मेरे व्यक्तिगत स्टैक में अभी:
GLM-4.7 एक 358B-पैरामीटर, 200K-संदर्भ, कोडिंग-मजबूत, खुले-वज़न वाला फ्रंटियर मॉडल है जो अंततः लंबा संदर्भ + उच्च-गुणवत्ता तर्कसंगतता को प्रयोगशील बनाता है, न कि सिर्फ़ डेमो-फ्रेंडली।
मेरी सलाह अगर आप उत्सुक हैं: एक वर्कफ़्लो चुनें—लंबा PDF विश्लेषण, एक जिद्दी कोडिंग समस्या, या एक छोटा एजेंट पाइपलाइन—और उसे GLM-4.7 के माध्यम से अपने वर्तमान पसंदीदा के साथ-साथ चलाएँ। अंतर को महसूस करना पढ़ने की तुलना में बहुत आसान है।
इस सप्ताह के परीक्षण ने मुझे एक बात फिर से साबित की: GLM-4.7 जैसे मॉडल सिर्फ स्मार्ट नहीं हो रहे हैं — वे हमारे सोचने, योजना बनाने और निर्णय लेने के तरीके के लिए आधारभूत संरचना बन रहे हैं।
वास्तव में यही विचार है कि हम मैकरॉन का निर्माण क्यों कर रहे हैं। एक और "काम को तेजी से करने" वाला AI नहीं, बल्कि एक व्यक्तिगत एजेंट जो चुपचाप काम के लिए सही मॉडल चुनता है — कोडिंग, पढ़ाई, योजना बनाना या बस विचार करना — ताकि AI जीवन में फिट हो सके, न कि इसके विपरीत।
यदि आप जानना चाहते हैं कि यह वास्तविकता में कैसा लगता है, तो आप मैकरॉन मुफ्त में आज़मा सकते हैं।
परीक्षण क्रेडेंशियल: मैं एक AI मॉडल मूल्यांकन विशेषज्ञ हूं जिसने 2023 से 50+ LLMs का परीक्षण किया है, कोडिंग, तर्कशक्ति और उत्पादन प्रक्रियाओं में। यह GLM-4.7 विश्लेषण एक सप्ताह के हाथों-हाथ परीक्षण (दिसंबर 2024 - जनवरी 2025) पर आधारित है।
परीक्षण पद्धति:
संबद्ध प्रकटीकरण: इस लेख में मैकरॉन के लिए एक रेफरल लिंक शामिल है। मुझे झिपु AI से कोई मुआवजा नहीं मिलता है। सभी परीक्षण स्वतंत्र रूप से सार्वजनिक API और कोडिंग योजना का उपयोग करके किए गए थे।
परीक्षण किए गए सॉफ़्टवेयर संस्करण:
स्रोत और संदर्भ: