عندما جلست لأول مرة لأكتشف ما هو GLM-4.7 في الممارسة (وليس فقط في لغة البيانات الصحفية)، توقعت "نمواً آخر في نموذج الجبهة." مؤشرات أفضل قليلاً، ادعاءات غامضة حول التفكير، وليس الكثير غير ذلك.
هذا... ليس ما حدث.
بعد أسبوع من اختبار GLM-4.7 عبر البرمجة، مراجعة الوثائق الطويلة، وبعض تدفقات العمل بأسلوب الوكيل، انتهيت إلى إعادة ترتيب بعض أدواتي الافتراضية. هذا النموذج يقع في مكانة محددة للغاية: سياق ضخم، مهارات برمجية جادة، ووزن مفتوح عند 358 مليار معلمة، وهو ليس بجملة توقعت أن أكتبها في عام 2025.
دعني أشرح لك ما هو GLM-4.7 بالفعل، كيف يتصرف، وأين يمكن أن يناسب فعلياً في تدفق عمل المبدعين أو المطورين المستقلين.
إذا كنت قد استخدمت GLM-4 أو GLM-4-Air أو GLM-4.6 من قبل، فإن GLM-4.7 هو إصدار Zhipu الذي يقول "لن نلعب بعد الآن". فكر في: التفكير على مستوى الجبهة + سياق كبير + أوزان مفتوحة مستهدفة بشكل مباشر لكل من واجهات برمجة التطبيقات الإنتاجية والمستخدمين الأقوياء.
أطلقت Zhipu بهدوء GLM-4.7 في أواخر 2024، ثم بدأت في دفعه بقوة في أوائل 2025 كنموذجها الرئيسي الجديد للبرمجة والاستدلال. بحلول الوقت الذي قمت فيه باختباره، كانت الوثائق تشير إليه بالفعل كنموذج GLM الراقي الافتراضي.
عادةً ما ستراه يُعرض كشيء مثل glm-4.7 أو مشابه في واجهة برمجة التطبيقات الخاصة بـ Zhipu، وكإصدار بوزن مفتوح 358B على Hugging Face للاستضافة الذاتية.
إليك كيف ألخص تموضع النموذج بعد استخدامه فعليًا:
في نظام Zhipu البيئي الخاص، يتم تقديم GLM-4.7 كنموذجهم الأفضل للبرمجة والاستدلال، ويدعمه الفوز في المعايير مثل SWE-bench و HLE. في العالم الواقعي، هذا يعني: هذا هو النموذج الذي تختاره عندما تهتم بالجودة أكثر من التكلفة الخام لكل رمز.
أكبر لحظة "واو، لقد فعلوها بالفعل" بالنسبة لي كانت هذه: نسخة GLM-4.7 ذات 358 مليار معلمة متاحة كأوزان مفتوحة.
يمكنك:
في اختباري، كان زاوية الأوزان المفتوحة أقل أهمية للمبدعين الفرديين (من المحتمل أنك تستخدم API) وأكثر أهمية للفرق التي تحتاج إلى التحكم في البيانات أو ترغب في بناء مساعدين داخليين متخصصين.
إذا كنت تتساءل عن الفرق بين GLM-4.7 وGLM-4.6، فإليك النسخة المختصرة من استخدام كلاهما جنبًا إلى جنب:
في مجموعة المعايير الخاصة بي (حوالي 40 مهمة في العالم الحقيقي أستخدمها عبر النماذج)، حل GLM-4.7 حوالي 18-20% من المهام البرمجية المعقدة أكثر من GLM-4.6 بدون أي جهد إضافي في التوجيه.
لذا إذا كنت لا تزال تستخدم 4.6 لأي شيء جاد، فإن GLM-4.7 ليس مجرد ترقية جمالية، بل هو الأساس الجديد في خط GLM.
المواصفات لا تروي القصة كاملة، ولكن مع GLM-4.7، بعضها مرتبط مباشرة بكيفية استخدامك له يوميًا.
يأتي GLM-4.7 مع نافذة سياق تضم 200 ألف رمز. بمعنى بشري، هذا يعني:
في اختباري:
ارتفعت فترة الانتظار، انتقلت الردود من حوالي 3-4 ثواني على المطالبات الأصغر إلى حوالي 13-18 ثانية على هذا الإدخال الضخم، ولكن لم ينهار أو يتوهم بشكل كبير، وهو ما يقتل عادةً ادعاءات التسويق للسياق الطويل.
النصف الآخر من القصة هو الإخراج. يدعم GLM-4.7 ما يصل إلى 128 ألف رمز من النص المُولد.
لقد اختبرته مع اختبار اصطناعي: "توليد مخطط دورة كامل مع شروح وأمثلة (~80 ألف رمز)." وقد:
بالنسبة للمبدعين، هذا يعني أنك يمكن أن تتوقع بشكل واقعي:
ربما لن تصل إلى 100 ألف+ ناتج كل يوم، ولكن معرفة أن السقف مرتفع إلى هذا الحد يجعل GLM-4.7 جذابًا جدًا لمعالجة الوثائق الطويلة والعمل على قواعد أكواد كبيرة.
على الورق، GLM-4.7 هو نموذج يحتوي على 358 مليار معلمة مع أوزان مفتوحة.
عمليًا، هذا ما يعنيه ذلك في اختباري:
إذا كنت تسأل نفسك ليس فقط ما هو GLM-4.7 ولكن لماذا هو مهم، فهذه واحدة من الأسباب الكبيرة: إنه يدفع حدود الأوزان المفتوحة بالفعل إلى الأمام بدلاً من أن يكون مجرد "نموذج آخر بحوالي 30 مليار مع تسويق رائع."
حسنًا، المعايير لطيفة، لكنني أهتم بما تغير في سير العمل الخاص بي. لقد قمت بتشغيل GLM-4.7 وGLM-4.6 من خلال نفس مهام الترميز والتفكير واستخدام الأدوات التي أستخدمها للتحقق من صحة النماذج الجديدة.
رسميًا، GLM-4.7 يسجل 73.8 على SWE-bench، وهو درجة جادة لحل مشاكل GitHub الحقيقية.
في اختبارات الترميز الخاصة بي (~25 مهمة):
تضمنت هذه المهام:
الفرق الرئيسي: لم يكتب GLM-4.7 التصحيح فحسب، بل أشار غالبًا إلى نتائج الاختبار الفاشلة بشكل صحيح وقام بتحديث ملفات متعددة بطريقة متسقة. 4.6 أحيانًا كان يصلح الخطأ الفوري ولكنه يكسر شيئًا آخر.
هناك شيء لا يظهر في المعايير: ترميز الأجواء، ذلك المزيج من التخطيط، والنصوص، والتفاعلات الدقيقة للواجهات الأمامية.
لقد قمت بتوجيه GLM-4.7 بتوجيهات مثل:
"صمم صفحة هبوط لأداة كتابة AI بسيطة. TailwindCSS + React. اجعلها تشعر بالهدوء ولكن واثقة، مع رسوم متحركة خفيفة."
مقارنة بـ GLM-4.6، كان GLM-4.7:
إذا كان سير العمل الخاص بك يتضمن إنشاء الواجهة الأمامية أو تحسين أفكار UI/UX، فإن GLM-4.7 يكون ببساطة أكثر متعة. إنه "يفهم" التلميحات الجمالية بشكل أفضل ويحولها إلى HTML/CSS/JS معقول.
لقد قمت أيضًا باختبار GLM-4.7 ضمن سير عمل صغير:
الهدف: تحديث تكوين، تعديل الكود، وكتابة سجل تغييرات قصير بناءً على المعلومات المسترجعة.
على مدى 20 تشغيلًا:
ما كان مميزًا هو كيفية تعامل GLM-4.7 مع JSON الذي يحترم المخطط. نادرًا ما تخيلت حقولًا إضافية، مما يجعلها أقل إزعاجًا في تدفقات الوكيل الإنتاجية.
في جانب التفكير، يصل GLM-4.7 إلى 42.8 في HLE (تقييم الهلوسة والمنطق)، وهو طريقة معقدة للقول: إنه أفضل في عدم اختراع الأشياء واتباع سلاسل منطقية.
نسختي الأكثر إنسانية من هذا الاختبار:
GLM-4.7:
إذا كنت تقوم بكتابة ملاحظات بحثية أو مسودات سياسات أو أي شيء حيث يهم التفكير المعقد أكثر من عدد الكلمات، فإن GLM-4.7 يبدو كشريك أكثر أمانًا وشفافية.
الآن إلى الجزء الذي يتجاوزه الجميع بصمت: كم يكلف GLM-4.7 وكيف يمكنك استخدامه فعليًا؟
تسعير Zhipu العام لـ GLM-4.7 هو:
في الممارسة العملية، هذا ما يعنيه لأحد اختبارات الوثائق الطويلة الخاصة بي:
بالمقارنة مع النماذج المتقدمة الأخرى، فإن نسبة السعر إلى الجودة لـ GLM-4.7 تنافسية بشكل كبير، خاصة إذا كنت تعتمد على ميزات السياق الطويل.
بالنسبة للمبدعين المستقلين والمطورين الفرديين، تعتبر خطة ترميز GLM بسعر 3 دولارات/الشهر واحدة من العروض الأكثر إثارة للاهتمام.
تحصل على بيئة محسنة للترميز أعلى نماذج GLM-4.7، التي في تجربتي، تكفي لـ:
خلال فترة 5 أيام حيث أجبرت نفسي على استخدامه لكل ما يتعلق بالبرمجة، أقدر أنه وفر لي من 1.5 إلى 2 ساعة يوميًا على القوالب الجاهزة، وإعادة الهيكلة، وكتابة الاختبارات.
مقابل ثلاثة دولارات، يكون الأمر بديهيًا إذا كنت جادًا حتى بشكل جزئي فيما يتعلق بالبرمجة.
إذا كنت تريد تحكمًا كاملًا، يمكنك الحصول على الأوزان المفتوحة لـ GLM-4.7 من Hugging Face واستضافتها بنفسك.
لكن لنكن واقعيين:
لكن بالنسبة للفرق التي يمكنها التعامل معه، تشغيل GLM-4.7 محليًا يعني:
إذا كان سؤالك الأولي هو فقط "ما هو GLM-4.7 وكيف أصل إلى API"، يمكنك تجاهل هذا الجزء. إذا كنت مهتمًا بالبنية التحتية، فإن مسار Hugging Face هو واحد من أكثر الأجزاء إقناعًا في هذا الإصدار.
هنا حيث حصل GLM-4.7 بالفعل على مكان في دورتي.
إذا كان عملك يتضمن:
... فإن مجموعة 200K السياق و128K الناتج لـ GLM-4.7 مفيدة للغاية.
مثال من اختبارات:
بالمقارنة مع تقسيم كل شيء إلى 10-20 قطعة باستخدام أدوات أخرى، خفض GLM-4.7 العمل اليدوي بنسبة لا تقل عن 50-60%.
استخدام GLM-4.7 الأقوى للأدوات وانضباطه الأفضل مع JSON يجعله عقلاً رائعاً لتدفقات العمل متعددة الخطوات للوكيل.
على سبيل المثال، قمت بتوصيله في مسار صغير:
نسبة النجاح (المعنى: لا توجد أخطاء في المخطط، التصحيح مطبق بنجاح، سجل التغييرات دقيق):
إذا كنت تلعب مع الوكلاء أو تبني مساعدين داخليين، فهذا هو المكان الذي يتألق فيه GLM-4.7 بهدوء.
بالنسبة لبرمجة الإيقاع، شعر GLM-4.7 وكأنه مصمم مبتدئ + مطور واجهة أمامية يستمع بالفعل.
حالات الاستخدام التي نجحت جيداً في اختباري:
إذا كنت منشئًا فرديًا أو مسوقًا يريد تجربة أفكار واجهة المستخدم دون فتح Figma لكل تغيير صغير، فإن GLM-4.7 شريك مفاجئ قادر، خاصة عندما تثبته بمراجع مثل "اجعله يشبه Linear" أو "أقرب إلى جمالية Notion، ولكن أكثر دفئًا."
عندما يسألني الناس ما الذي يميز GLM-4.7 مقارنة بالنماذج الأخرى، أطرحه بهذه الطريقة:
في مجموعتي الشخصية الآن:
من منظور منشئ / مسوق مستقل، إليك الخلاصة العملية:
إذن، ما هو GLM-4.7 في جملة واحدة؟
إنه نموذج حدودي مفتوح الأوزان يبلغ 358B-parameter و200K-context وقوي في البرمجة يجعل أخيرًا السياق الطويل + التفكير عالي الجودة يبدو قابلًا للاستخدام، وليس مجرد عرض توضيحي.
إذا كنت فضوليًا، نصيحتي بسيطة: اختر تدفق عمل واحد، تحليل PDF طويل، مشكلة برمجة عنيدة، أو خط أنابيب وكيل صغير، وجربه باستخدام GLM-4.7 جنبًا إلى جنب مع المفضل لديك الحالي. الفرق أسهل بكثير للشعور به من القراءة عنه.
شيء واحد عززته لي هذا الأسبوع من الاختبارات: النماذج مثل GLM-4.7 لا تصبح فقط أكثر ذكاءً — بل أصبحت بنية تحتية لطريقة تفكيرنا، تخطيطنا، واتخاذ قراراتنا.
في الواقع، هذه الفكرة هي السبب وراء بناء Macaron. ليس مجرد AI آخر "للقيام بالمزيد من العمل بشكل أسرع"، بل وكيل شخصي يختار بهدوء النموذج المناسب للعمل — سواء كان ترميزًا، قراءة، تخطيطًا، أو مجرد التفكير في الأمور — لكي يتناسب الذكاء الاصطناعي مع حياتنا، وليس العكس.
إذا كنت مهتمًا بمعرفة كيف يبدو ذلك في الواقع، يمكنك تجربته هنا: → جرب Macaron مجانًا