जब मैंने पहली बार यह पता लगाने के लिए बैठा कि वास्तव में GLM-4.7 क्या है (सिर्फ प्रेस-रिलीज़ भाषा में नहीं), तो मैंने "एक और अग्रणी मॉडल बम्प" की उम्मीद की थी। थोड़ा बेहतर बेंचमार्क्स, तर्क करने के बारे में अस्पष्ट दावे, और कुछ खास नहीं।
वह... नहीं हुआ।
कोडिंग, लंबी-दस्तावेज समीक्षा, और कुछ एजन्ट-स्टाइल वर्कफ़्लोज़ के साथ GLM-4.7 का एक सप्ताह परीक्षण करने के बाद, मैंने अपने कुछ डिफ़ॉल्ट टूल्स को फिर से व्यवस्थित किया। यह मॉडल एक बहुत ही विशेष निच में आता है: विशाल संदर्भ, गंभीर कोडिंग क्षमता, और 358B पैरामीटर्स पर ओपन वेट्स, जो एक वाक्य है जिसे मैंने 2025 में लिखने की नहीं सोची थी।
आइए मैं आपको बताता हूँ कि वास्तव में GLM-4.7 क्या है, यह कैसे व्यवहार करता है, और यह रचनाकार/इंडी देव कार्यप्रवाह में यथार्थवादी रूप से कैसे फिट बैठता है।
यदि आपने पहले GLM-4, GLM-4-Air, या GLM-4.6 का उपयोग किया है, तो GLM-4.7 Zhipu का "हम अब खेल नहीं रहे हैं" रिलीज़ है। सोचें: अग्रणी-स्तरीय तर्क + बड़ा संदर्भ + ओपन वेट्स जो सीधे उत्पादन APIs और पावर उपयोगकर्ताओं को लक्षित करते हैं।
झिपु ने चुपचाप GLM-4.7 को 2024 के अंत में जारी किया, फिर 2025 की शुरुआत में इसे कोडिंग और तर्क के लिए अपने नए फ्लैगशिप के रूप में जोर देना शुरू किया। जब तक मैंने इसे परीक्षण के लिए प्राप्त किया, तब तक दस्तावेज़ों में इसे पहले से ही डिफ़ॉल्ट उच्च-स्तरीय GLM मॉडल के रूप में संदर्भित किया गया था।
आप इसे आमतौर पर झिपु API में glm-4.7 या इसी तरह के रूप में देखेंगे, और Hugging Face पर स्वयं-होस्टिंग के लिए 358B खुले-वजन के रूप में प्रकाशित किया गया है।
इसे वास्तव में उपयोग करने के बाद मैं मॉडल की स्थिति को इस प्रकार सारांशित करूंगा:
झिपु के अपने इकोसिस्टम में, GLM-4.7 को उनके सर्वश्रेष्ठ कोडिंग और तर्क मॉडल के रूप में प्रस्तुत किया गया है, और यह SWE-bench और HLE जैसी चीजों पर बेंचमार्क जीत के साथ समर्थित है। वास्तविक दुनिया में, इसका अर्थ है: जब आप गुणवत्ता की परवाह करते हैं तो आप इसे चुनते हैं, न कि केवल प्रति टोकन लागत।
मेरे लिए सबसे बड़ा "ओह वाह, उन्होंने वास्तव में कर दिखाया" पल यह था: GLM-4.7 का 358B-पैरामीटर संस्करण ओपन वेट्स के रूप में उपलब्ध है।
आप कर सकते हैं:
मेरे परीक्षणों में, वह ओपन-वेट्स कोण अकेले निर्माताओं के लिए कम मायने रखता है (आप शायद एपीआई का उपयोग कर रहे हैं) और उन टीमों के लिए अधिक मायने रखता है जिन्हें डेटा नियंत्रण की आवश्यकता होती है या जो विशेष आंतरिक सहायक बनाना चाहते हैं।
यदि आप सोच रहे हैं कि GLM-4.7 बनाम GLM-4.6, तो यहाँ दोनों का इस्तेमाल करने का संक्षेप में वर्णन है:
मेरे अपने बेंचमार्क सेट (लगभग 40 वास्तविक विश्व कार्य जिन्हें मैं विभिन्न मॉडलों में पुनः प्रयोग करता हूं) में, GLM-4.7 ने GLM-4.6 की तुलना में ~18–20% अधिक जटिल कोडिंग कार्यों को बिना अतिरिक्त प्रम्प्टिंग प्रयास के हल किया।
इसलिए यदि आप अभी भी किसी गंभीर मामले के लिए 4.6 पर हैं, तो GLM-4.7 एक कॉस्मेटिक अपग्रेड नहीं है, यह GLM लाइन में नया आधारभूत स्तर है।
विशेषताएं पूरी कहानी नहीं बताती हैं, लेकिन GLM-4.7 के साथ, उनमें से कुछ आपके दैनिक उपयोग के तरीके से सीधे जुड़ी हैं।
GLM-4.7 एक 200K टोकन संदर्भ विंडो के साथ आता है। मानव भाषा में, यह है:
मेरे परीक्षणों में:
विलंबता बढ़ गई, प्रतिक्रियाएँ छोटे प्रोम्प्ट्स पर ~3–4 सेकंड से लेकर उस विशाल इनपुट पर ~13–18 सेकंड तक चली गईं, लेकिन यह बिखरा नहीं और न ही भटक गया, जो आमतौर पर लंबे-संदर्भ मार्केटिंग दावों को मार देता है।
कहानी का दूसरा आधा हिस्सा आउटपुट है। GLM-4.7 128K टोकन तक के उत्पन्न पाठ का समर्थन करता है।
मैंने इसे एक सिंथेटिक परीक्षण के साथ धक्का दिया: "एक पूर्ण पाठ्यक्रम रूपरेखा + व्याख्याएँ + उदाहरण (~80K टोकन) उत्पन्न करें।" यह:
सर्जकों के लिए, इसका अर्थ है कि आप वास्तविक रूप से कर सकते हैं:
आप शायद हर दिन 100K+ आउटपुट के साथ नहीं रहेंगे, लेकिन यह जानना कि सीमा इतनी ऊंची है, GLM-4.7 को लंबी-दस्तावेज़ प्रसंस्करण और बड़े कोडबेस काम के लिए बहुत आकर्षक बनाता है।
कागज पर, GLM-4.7 एक 358B-पैरामीटर मॉडल है जिसमें ओपन वेट्स हैं।
व्यावहारिक रूप से, मेरे परीक्षण में इसका मतलब था:
यदि आप खुद से पूछ रहे थे कि GLM-4.7 क्या है और यह क्यों मायने रखता है, तो यह एक बड़ा कारण है: यह ओपन-वेट्स फ्रंटियर को वास्तव में आगे बढ़ाता है, सिर्फ "एक और 30B-ईश मॉडल मार्केटिंग के साथ" नहीं है।
ठीक है, बेंचमार्क्स प्यारे हैं, लेकिन मुझे इस बात की परवाह है कि मेरे वर्कफ़्लोज़ में क्या बदला है। मैंने GLM-4.7 और GLM-4.6 को उन्हीं कोडिंग, तर्क, और टूल-उपयोग कार्यों से गुजारा जो मैं नए मॉडलों को सत्यापित करने के लिए उपयोग करता हूँ।
आधिकारिक तौर पर, GLM-4.7 ने SWE-बेंच पर 73.8 का स्कोर प्राप्त किया है, जो वास्तविक दुनिया के GitHub मुद्दों को हल करने के लिए एक गंभीर स्कोर है।
मेरे अपने कोडिंग परीक्षणों में (~25 कार्य):
इन कार्यों में शामिल थे:
मुख्य अंतर: GLM-4.7 न केवल पैच लिखता है, बल्कि यह अक्सर असफल परीक्षण आउटपुट को सही ढंग से संदर्भित करता है और कई फाइलों को एक समान तरीके से अपडेट करता है। 4.6 कभी-कभी तत्काल त्रुटि को ठीक करता है लेकिन कुछ और तोड़ देता है।
एक चीज जो बेंचमार्क्स में नहीं दिखती: वाइब कोडिंग, जो लेआउट, कॉपी, और फ्रंटेंड्स के लिए माइक्रो-इंटरेक्शन्स का संयोजन है।
मैंने GLM-4.7 को निम्न प्रॉम्प्ट दिए:
"मिनिमलिस्ट AI लेखन टूल के लिए एक लैंडिंग पृष्ठ डिज़ाइन करें। TailwindCSS + React। इसे शांत लेकिन आत्मविश्वासपूर्ण महसूस कराएं, हल्के एनिमेशन के साथ।"
GLM-4.6 की तुलना में, GLM-4.7:
यदि आपका वर्कफ़्लो फ्रंटएंड जनरेशन या UI/UX विचारों को पॉलिश करने में शामिल है, तो GLM-4.7 बस अधिक सुखद है। यह सौंदर्य संकेतों को बेहतर तरीके से समझता है और उन्हें समझदारीपूर्वक HTML/CSS/JS में बदल देता है।
मैंने GLM-4.7 को एक छोटे एजेंटिक वर्कफ़्लो के साथ भी तनाव-परीक्षण किया:
लक्ष्य: प्राप्त जानकारी के आधार पर एक कॉन्फ़िग को अपडेट करना, कोड समायोजित करना, और एक छोटा परिवर्तन-लॉग लिखना।
20 से अधिक रन में:
जो बात खास थी वह यह थी कि GLM-4.7 ने स्कीमा-सम्मानित JSON को कैसे संभाला। यह लगभग कभी भी अतिरिक्त फ़ील्ड्स की कल्पना नहीं करता, जो इसे उत्पादन-शैली एजेंट फ्लोज़ में कम परेशान करता है।
तर्क पक्ष पर, GLM-4.7 ने HLE (हैलुसीनेशन और लॉजिक इवैल्यूएशन) पर 42.8 मारा, जो यह कहने का एक शानदार तरीका है: यह चीजों को न गढ़ने और तार्किक शृंखलाओं का पालन करने में बेहतर है।
उस परीक्षण का मेरा अधिक मानव संस्करण:
GLM-4.7:
यदि आप अनुसंधान नोट्स, नीति प्रारूप, या किसी भी चीज़ पर काम कर रहे हैं जहाँ जटिल तर्क शब्द संख्या से अधिक महत्वपूर्ण है, तो GLM-4.7 एक सुरक्षित, अधिक पारदर्शी साथी की तरह लगता है।
अब वह हिस्सा जिस पर हर कोई चुपचाप स्क्रॉल करता है: GLM-4.7 की कीमत कितनी है, और आप इसका उपयोग वास्तव में कैसे करते हैं?
GLM-4.7 के लिए Zhipu की सार्वजनिक मूल्य निर्धारण:
व्यवहार में, मेरे एक लंबे दस्तावेज़ परीक्षण के लिए इसका क्या मतलब था:
अन्य अग्रणी मॉडलों की तुलना में, GLM-4.7 की मूल्य-गुणवत्ता अनुपात काफी प्रतिस्पर्धी है, खासकर यदि आप लंबी-संदर्भ विशेषताओं पर निर्भर करते हैं।
स्वतंत्र रचनाकारों और एकल डेवलपर्स के लिए, $3/माह में GLM कोडिंग योजना चुपचाप अधिक रोचक प्रस्तावों में से एक है।
आपको GLM-4.7 स्तर के मॉडलों के ऊपर एक कोडिंग-अनुकूलित वातावरण मिलता है, जो मेरे अनुभव में, यह पर्याप्त है:
पांच दिनों के दौरान जब मैंने इसे कोड से संबंधित हर चीज के लिए इस्तेमाल करने के लिए खुद को मजबूर किया, तो मैंने अनुमान लगाया कि इसने मुझे हर दिन लगभग 1.5-2 घंटे बचाए, जो कि boilerplate, refactors और परीक्षण लेखन पर था।
तीन रुपये के लिए, अगर आप कोडिंग के बारे में थोड़े भी गंभीर हैं तो यह एक स्पष्ट निर्णय है।
अगर आप पूर्ण नियंत्रण चाहते हैं, तो आप हगिंग फेस से GLM-4.7 के ओपन वेट्स प्राप्त कर सकते हैं और स्वयं-होस्ट कर सकते हैं।
हालांकि, वास्तविकता की जांच करें:
लेकिन उन टीमों के लिए जो इसे संभाल सकती हैं, स्थानीय रूप से GLM-4.7 चलाने का मतलब है:
अगर आपका प्रारंभिक सवाल सिर्फ "GLM-4.7 क्या है और मैं API कैसे हिट करूं," था तो आप इस भाग को नजरअंदाज कर सकते हैं। अगर आप इंफ्रा-मानसिक हैं, तो हगिंग फेस मार्ग इस रिलीज के सबसे आकर्षक हिस्सों में से एक है।
यहाँ वह स्थान है जहाँ GLM-4.7 वास्तव में मेरी दिनचर्या में एक स्थान अर्जित करता है।
अगर आपका काम शामिल करता है:
…GLM-4.7 का 200K संदर्भ और 128K आउटपुट संयोजन अत्यंत उपयोगी है।
मेरे परीक्षणों से उदाहरण:
अन्य उपकरणों के साथ 10-20 हिस्सों में सब कुछ काटने की तुलना में, GLM-4.7 ने मैनुअल ओवरहेड को कम से कम 50-60% तक कम कर दिया।
GLM-4.7 के मजबूत उपकरण उपयोग और बेहतर JSON अनुशासन इसे बहु-चरण एजेंट वर्कफ़्लो के लिए एक शानदार मस्तिष्क बनाते हैं।
उदाहरण के लिए, मैंने इसे एक छोटे पाइपलाइन में जोड़ा:
सफलता दर (मतलब: कोई स्कीमा त्रुटियाँ नहीं, पैच साफ़-सुथरा लागू, चेंजलॉग सटीक):
यदि आप एजेंटों के साथ खेल रहे हैं या आंतरिक कोपिलॉट बना रहे हैं, तो GLM-4.7 यहाँ चुपचाप चमकता है।
वाइब कोडिंग के लिए, GLM-4.7 एक जूनियर डिज़ाइनर + फ्रंट-एंड डेव जैसा महसूस हुआ जो वास्तव में सुनता है।
मेरे परीक्षणों में जो उपयोग के मामले अच्छी तरह से काम किए:
यदि आप एक सोलो क्रिएटर या मार्केटर हैं जो UI विचारों पर विचार करना चाहते हैं बिना हर छोटे बदलाव के लिए फिग्मा खोले, तो GLM-4.7 एक आश्चर्यजनक रूप से सक्षम साथी है, विशेष रूप से जब आप इसे "Linear जैसा महसूस कराएँ" या "Notion की सौंदर्य से अधिक, लेकिन गर्म" जैसे सन्दर्भों के साथ आधार बनाते हैं।
जब लोग मुझसे पूछते हैं कि GLM-4.7 अन्य मॉडलों की तुलना में किसके लिए अच्छा है, तो मैं इसे इस तरह प्रस्तुत करता हूँ:
मेरे व्यक्तिगत स्टैक में अभी:
एक इंडी निर्माता / मार्केटर के दृष्टिकोण से, यहाँ व्यावहारिक नतीजा है:
तो, एक वाक्य में GLM-4.7 क्या है?
यह एक 358B-पैरामीटर, 200K-संदर्भ, कोडिंग-मजबूत, खुले-वज़न फ्रंटियर मॉडल है जो आखिरकार लंबे संदर्भ + उच्च-गुणवत्ता वाला तर्क महसूस करने में उपयोगी बनाता है, न सिर्फ डेमो-अनुकूल।
यदि आप उत्सुक हैं, मेरी सलाह सरल है: एक वर्कफ़्लो चुनें, लंबे PDF विश्लेषण, एक जिद्दी कोडिंग समस्या, या एक छोटा एजेंट पाइपलाइन, और इसे GLM-4.7 के माध्यम से अपने वर्तमान पसंदीदा के साथ साइड बाय साइड चलाएं। फर्क महसूस करना पढ़ने से कहीं ज्यादा आसान है।
इस हफ्ते के परीक्षण ने मेरे लिए एक बात को मजबूती से स्थापित किया: GLM-4.7 जैसे मॉडल सिर्फ अधिक स्मार्ट नहीं हो रहे हैं - वे हमारे सोचने, योजना बनाने, और निर्णय लेने के तरीके के लिए बुनियादी ढांचा बन रहे हैं।
वास्तव में यही विचार है कि हम Macaron का निर्माण क्यों कर रहे हैं। एक और "ज्यादा काम तेजी से करने" वाला AI नहीं, बल्कि एक व्यक्तिगत एजेंट जो चुपचाप सही मॉडल को चुने - कोडिंग, पढ़ाई, योजना बनाना, या बस सोच विचार करना - ताकि AI जीवन में फिट हो सके, न कि इसके उलट।
अगर आप जानना चाहते हैं कि यह व्यवहार में कैसा लगता है, तो आप इसे यहां आज़मा सकते हैं: → Macaron मुफ्त में आज़माएं