لقد قضيت الأسابيع القليلة الماضية عمداً في كسر سير العمل الخاص بي لمعرفة كيف يتصرف GLM-4.7 مقابل GPT-5 عندما تواجههم بمشاريع حقيقية، ومستودعات فوضوية، ومواصفات غير مكتملة، وكل شيء.
على الورق، كلاهما "من الجيل التالي"، "وكيل", "قوي في البرمجة"، وكل العبارات الطنانة المعتادة. في الواقع، عندما قمت بإجراء اختبارات جنبًا إلى جنب في إصلاح الأخطاء، وإعادة هيكلة الملفات المتعددة، ووكلاء استخدام الأدوات، كانت الفروقات بين GLM-4.7 وGPT-5 أقل نظرية مما تجعلها تبدو التسويق.
تنويه سريع قبل أن نغمر: تفاصيل GPT-5 لا تزال تتطور ومعايير البائع هي، كما هو متوقع، متملقة. ما أشاركه هنا يعتمد على اختبارات قمت بها في ديسمبر 2025: تجارب صغيرة ولكن يمكن تكرارها، باستخدام نفس الموجهات، والمستودعات، والأدوات عبر كلا النموذجين. تعامل مع هذا كنوتات ميدانية، وليس كحقائق مطلقة.
دعونا نمر حيث يختلف GLM-4.7 مقابل GPT-5 فعليًا، خاصة في البرمجة، والوكلاء، وسير العمل الحساس للتكلفة.
السبب الذي جعلني أهتم بإجراء تحليل عميق لـ GLM-4.7 مقابل GPT-5 بسيط: كلا البائعين يصرخان نفس الشيء، وكلاء أفضل، ترميز أفضل، تفكير أفضل.
في اختباري، ترجم ذلك إلى ثلاثة أسئلة ملموسة:
لقد قمت بتوصيل كلا النموذجين في إطار عمل صغير للوكيل كان لديه الوصول إلى:
استخدمت:
لأن الوكيل "الذكي" الذي يحرق 50 دولارًا على إصلاح خطأ واحد ليس ذكيًا.
كلا من GLM-4.7 وGPT-5 تم تحسينهما بوضوح لهذه السيناريوهات، لكن التنازلات مختلفة:
هذا ليس مواجهة نظرية بين GLM-4.7 وGPT-5. الاختيار يؤثر على كل شيء:
لقد قمت بالفعل بتحويل "مساعد التطوير بالذكاء الاصطناعي" الداخلي لأحد العملاء من نظام يعتمد على GPT فقط إلى نظام هجين: GPT-5 لأعمال مواصفات المنتج والنصوص الموجهة للمستخدم، وGLM-4.7 لمهام البرمجة الخلفية حيث تهيمن التكلفة والمرور. هذا الانقسام كان لا يمكن تصوره قبل عام: الآن يبدو منطقيًا.
لن أدعي أنني قمت بتكرار اختبارات أكاديمية كاملة، لكنني قمت بتشغيل نسخة مبسطة من كل منها.
على مجموعة صغيرة من إصلاح الأخطاء المؤكدة (30 مشكلة في بايثون، كل منها مع اختبارات):
عندما سمحت بمحاولة ثانية مع التغذية الراجعة ("الاختبارات لا تزال تفشل، إليك السجل")، تقلص الفجوة:
ما كان أكثر أهمية من النسبة الخام هو كيف فشلوا:
لقد قمت بتجميع SWE‑bench متعدد اللغات زائف عن طريق:
هنا انعكس GLM-4.7 مقابل GPT-5:
GLM-4.7 تعامل بشكل ملحوظ مع أوصاف الأخطاء باللغة الصينية ولم يتشتت بسبب التعليقات المختلطة اللغة في السلاسل التوثيقية. عادةً ما كان GPT-5 يحل المشكلة بمجرد أن أعيد صياغة التقرير بالكامل باللغة الإنجليزية، لكن هذا يضيف احتكاكًا إضافيًا لا تريده على نطاق واسع.
للمهام ذات الطراز الطرفي (تثبيت التبعيات، تشغيل الاختبارات، فحص السجلات، تعديلات الملفات الصغيرة)، قمت بتوصيل كلا النموذجين في نفس الصندوق.
قمت بقياس معدل النجاح في دفعات عبر 40 مهمة:
الفرق الرئيسي:
ليس كارثيًا، ولكن إذا كان وكيلك يدفع لكل مكالمة، ستشعر بذلك.
للتقييم العالي المستوى (HLE) باستخدام الأدوات الخارجية، اختبرت سير عمل صغير لـ "المحلل":
هنا بدأ GPT-5 في إظهار قدراته:
بشكل عام، في هذا الاختبار الصغير HLE-with-tools:
إذا كانت حالتك الرئيسية هي البرمجة + الأدوات، فكلاهما قويان. إذا كانت حالتك استخدام الأدوات للتحليل الاستراتيجي، فإن GPT-5 لا يزال لديه نهاية عليا أنظف من وجهة نظري.
بالنسبة للبنائين المستقلين، يمكن أن تكون الأسعار هي التي تجعل GLM-4.7 مقابل GPT-5 تكسر أو تبني شهرهم بهدوء.
لا تزال أسعار GPT-5 الدقيقة غير معلنة، ولكن إذا تبعت أنماط GPT‑4.1/o3، فإننا نتحدث عن:
من ناحية أخرى، يتم تحديد GLM-4.7 بشكل عدواني من حيث التكلفة، خاصة في المناطق الصينية، وغالبًا ما يكون أرخص بنسبة 30–60% لكل رمز من نماذج OpenAI الحدودية، اعتمادًا على منطقتك ومزود الخدمة.
لجلسة برمجة نموذجية (200 ألف سياق إدخال، 20-40 ألف رمز مخرجات عبر الخطوات)، رأيت عمليات تشغيل حيث:
إذا بقيت أسعار GPT-5 في هذا النطاق الأعلى أو أعلى، فإن GLM-4.7 يحتفظ بقوة "القيمة لكل مهمة محلولة".
لقد تتبعت أيضًا التكلفة لكل مهمة ناجحة، وليس فقط لكل رمز.
بالنسبة لمعيار 30 مهمة بأسلوب SWE:
لذلك حتى مع نماذج نمط GPT التي تحل المزيد من المهام، فإن GLM لا يزال يتفوق عندما يتعلق الأمر بالدولارات لكل PR يعمل.
إذا كنت تقوم بتشغيل:
فإن الفروقات في التكلفة لكل تصحيح تتراكم بسرعة كبيرة.
الخيار الغامض هو الاستضافة الذاتية. يمكن نشر GLM-4.7 على وحدات معالجة الرسوم الخاصة بك أو السحابة الخاصة.
هذا يفتح حالات الاستخدام حيث:
بالطبع، ليس الأمر مجانيًا. أنت تتبادل:
… ولكن بمجرد أن يتجاوز استخدامك خطًا معينًا (بالنسبة لي كان حوالي 15-20 مليون رمز/يوم بشكل مستمر)، يبدأ GLM-4.7 المستضاف ذاتيًا في الظهور جذابًا جدًا مقارنة باستراتيجية واجهة برمجة التطبيقات GPT-5 البحتة.
بالنسبة لـ GLM-4.7، حصلت باستمرار على نافذة سياق تبلغ حوالي 200 ألف رمز للعب بها. وهذا يكفي لـ:
تختلف حدود السياق الدقيقة لـ GPT-5 حسب الفئة/الإصدار، ويستمر البائع في تعديلها. في الممارسة العملية، تعاملت معه كنموذج فئة 128K-200K أيضًا، ونادرًا ما واجهت حدود سياق صارمة في مهام البرمجة اليومية.
لم يكن الفرق المهم هو الرقم الخام، بل كيف تم استخدامه:
أنتج GLM-4.7 بهدوء مخرجات طويلة جدًا عندما طلبت تصحيحات كاملة أو مجموعات اختبار، عشرات الآلاف من الرموز دون أن يختنق.
تعامل GPT-5 أيضًا مع المخرجات الكبيرة، لكنني لاحظت أنه كان أكثر احتمالًا للتوقف مبكرًا ويقول شيئًا مثل "أخبرني إذا كنت تريد الباقي"، خاصة في واجهات المستخدم المشابهة للدردشة.
بالنسبة للاختلافات الكبيرة:
تروج كلا النموذجين لشكل من أشكال "التفكير العميق" أو وضع التفكير.
في اختباري:
إذا كنت تهتم بأقصى درجات التفكير لاتخاذ قرارات المنتج أو التخطيط المتعدد الخطوات، فإن فئة GPT-5 العليا لا تزال متقدمة. إذا كنت تهتم بالتفكير الجيد بما فيه الكفاية بتكلفة معقولة، فإن GLM-4.7 يثبت نفسه.
هنا حيث يصبح مقارنة GLM-4.7 مع GPT-5 للبرمجة ملموسًا.
أعطيت كلا النموذجين نفس السيناريو:
النتائج:
الوقت للوصول إلى "اختبارات خضراء" بعد 2-3 تكرارات ذهابًا وإيابًا:
بصراحة؟ هذا يبدو متعادلاً. كلاهما يمكن استخدامه كمساعد في إعادة الهيكلة. يبدو GPT-5 مثل مطور كبير ذو ذوق جيد في التصميم، بينما يبدو GLM-4.7 مثل مطور متوسط سريع ودقيق يتحقق من الأنواع بعناية.
في المهام الصغيرة المتعلقة بإصلاح الأخطاء بأسلوب مهندسي البرمجيات، شاهدت كيف يتصرف كل نموذج عبر المحاولات المتكررة:
الأنماط التي لاحظتها:
طلبت أيضًا من كليهما توليد اختبارات قبل إصلاح خطأ (وهي حيلة قوية بشكل مدهش):
إذا كان الاستخدام الرئيسي لك هو GLM-4.7 مقابل GPT-5 لوكلاء البرمجة، سأقوم بتلخيصه على هذا النحو:
إذا كنت مطورًا مستقلاً، وكالة صغيرة، أو تدير مشروعًا جانبيًا، غالبًا ما يتلخص GLM-4.7 مقابل GPT-5 في مقياس قاسٍ واحد: الدولارات لكل مهمة محلولة.
من سجلاتي:
هذا التبادل يستحق ذلك من أجل:
إذا كان فريقك أو عملاؤك:
قصة الاستضافة الذاتية لـ GLM-4.7 هي العامل الحاسم.
هل من المؤلم تشغيله؟ نعم. أنت تتعامل مع معالجات الرسوميات، خوادم الاستدلال، المراقبة والتوسع. ولكن إذا كان حجم الرموز مرتفعًا بما يكفي وكانت الأمان/الخصوصية غير قابلة للتفاوض، فإنه اختيار عقلاني جدًا.
إذا كانت قاعدة الشيفرة الخاصة بك:
GLM-4.7 لديه حاليًا ميزة حقيقية.
في اختبارات المستودعات المختلطة الصينية-الإنجليزية:
لذا إذا كنت تعمل في بيئة تفضل اللغة الصينية أو ثنائية اللغة، فإن GLM-4.7 يتناسب بشكل أكثر طبيعية مع الحياة اليومية للمطورين.
الحجة الرئيسية غير التقنية في GLM-4.7 مقابل GPT-5 هي النظام البيئي.
حاليًا، GPT-5 يفوز في:
إذا كنت تبني شيئًا يحتاج إلى الاتصال بالعديد من أدوات SaaS، أو المكونات الإضافية، أو المنصات التي لا تتطلب البرمجة، فإن GPT-5 هو الطريق الأقل مقاومة.
بالنسبة ل:
GPT-5 يشعر ببساطة بأنه أكثر صقلًا.
في اختباري، كان:
كانت دائمًا أكثر "جاهزية للعملاء" دون تعديلات. يمكن لـ GLM-4.7 التعامل مع هذا أيضًا، لكنني وجدت نفسي أقوم بتحرير النغمة والهيكل بشكل متكرر.
إذا كانت أولوياتك هي:
فإن GPT-5 هو الخيار الأكثر أمانًا في الوقت الحالي.
في الوكلاء الذين يعملون لفترات طويلة حيث يمكن أن تسبب هذيان غير معروف ضررًا حقيقيًا (مثل تكوين البنية التحتية بشكل خاطئ)، كانت الحواجز ووسائل المراقبة الخاصة بـ GPT-5 تبدو أكثر نضجًا. تصرف GLM-4.7 بشكل جيد في اختباراتي، لكن النظام البيئي المحيط (التقييمات، الحواجز، الأدوات الجاهزة) ليس بنفس القوة بعد.
عند النظر بصورة أوسع، الجزء الأكثر إثارة للاهتمام في المقارنة بين GLM-4.7 وGPT-5 ليس من "يفوز". بل هو، بالنسبة للكثير من العمل اليومي، كلاهما جيد بما فيه الكفاية.
ما يهم الآن هو:
الخلاصة العملية بعد كل هذه الاختبارات:
وبصراحة؟ لا تخف من مزجها.
في مجموعتي الخاصة الآن:
إذا كنت تبدأ الآن، أقترح عليك هذا:
هذا التجربة الصغيرة ستخبرك بالمزيد عن GLM-4.7 مقابل GPT-5 لحياتك أكثر من أي صفحة تسويق، أو أي منشور مدونة، بما في ذلك هذا.
ثم احتفظ بالذي يقوم فعلياً بإنجاز العمل لك، وليس الذي يحتوي على مخطط معايير لامع.
أفضل نموذج لك يعتمد على سير العمل الخاص بك، وليس لوحة المتصدرين.
بعد كل هذه الاختبارات، الحقيقة غير المريحة هي هذه: بالنسبة لمعظم سير العمل الشخصية والمستقلة، النموذج نفسه يهم أقل من تصميم الوكيل المحيط به.
هذا بالضبط ما نبنيه في Macaron. نحن لا نراهن على نموذج "الأفضل" الواحد. نحن نجمع بين النماذج الأقوى المتاحة مع نظام ذاكرة يتعلم فعلياً كيف تعمل أنت — ما تهتم به، كيف تكرر الأمر، وأين تحدث المشاكل عادةً.
إذا كنت فضولياً لمعرفة كيف يبدو ذلك في الواقع، يمكنك تجربته بنفسك. [جرب Macaron مجاناً →]