GLM-4.7 مقابل GPT-5 لوكلاء البرمجة: مقارنة عملية

لقد قضيت الأسابيع القليلة الماضية عمداً في كسر سير العمل الخاص بي لمعرفة كيف يتصرف GLM-4.7 مقابل GPT-5 عندما تواجههم بمشاريع حقيقية، ومستودعات فوضوية، ومواصفات غير مكتملة، وكل شيء.

على الورق، كلاهما "من الجيل التالي"، "وكيل", "قوي في البرمجة"، وكل العبارات الطنانة المعتادة. في الواقع، عندما قمت بإجراء اختبارات جنبًا إلى جنب في إصلاح الأخطاء، وإعادة هيكلة الملفات المتعددة، ووكلاء استخدام الأدوات، كانت الفروقات بين GLM-4.7 وGPT-5 أقل نظرية مما تجعلها تبدو التسويق.

تنويه سريع قبل أن نغمر: تفاصيل GPT-5 لا تزال تتطور ومعايير البائع هي، كما هو متوقع، متملقة. ما أشاركه هنا يعتمد على اختبارات قمت بها في ديسمبر 2025: تجارب صغيرة ولكن يمكن تكرارها، باستخدام نفس الموجهات، والمستودعات، والأدوات عبر كلا النموذجين. تعامل مع هذا كنوتات ميدانية، وليس كحقائق مطلقة.

دعونا نمر حيث يختلف GLM-4.7 مقابل GPT-5 فعليًا، خاصة في البرمجة، والوكلاء، وسير العمل الحساس للتكلفة.

لماذا هذه المقارنة مهمة

كلا النموذجين يؤكدان على قدرات البرمجة والوكالة

السبب الذي جعلني أهتم بإجراء تحليل عميق لـ GLM-4.7 مقابل GPT-5 بسيط: كلا البائعين يصرخان نفس الشيء، وكلاء أفضل، ترميز أفضل، تفكير أفضل.

في اختباري، ترجم ذلك إلى ثلاثة أسئلة ملموسة:

هل يمكنهم تشغيل الأدوات بشكل موثوق؟

لقد قمت بتوصيل كلا النموذجين في إطار عمل صغير للوكيل كان لديه الوصول إلى:

قشرة (بيئة مقيدة)،
طبقة نظام ملفات لقراءة/كتابة ملفات المشروع،
مشغل اختبارات.

هل يمكنهم فعلاً تقديم تغييرات برمجية تعمل؟

استخدمت:

مجموعة من ~40 مشكلة مستمدة من مشاريع بايثون مفتوحة المصدر، على طراز SWE‑bench،
بعض مهام TypeScript/Next.js من عملي مع العملاء.

هل يلتزمون بالميزانية؟

لأن الوكيل "الذكي" الذي يحرق 50 دولارًا على إصلاح خطأ واحد ليس ذكيًا.

كلا من GLM-4.7 وGPT-5 تم تحسينهما بوضوح لهذه السيناريوهات، لكن التنازلات مختلفة:

GPT-5 بدا أكثر "ثقة بالصحة" في المهام التي تعتمد بشكل كبير على اللغة الإنجليزية والمنطق على نمط المنتجات.
GLM-4.7 تفوق على فئته السعرية في الترميز الخام واستخدام الأدوات، خاصة عندما وجهته بمزيد من المطالبات المنظمة.

تأثير حقيقي على قرارات اختيار النموذج

هذا ليس مواجهة نظرية بين GLM-4.7 وGPT-5. الاختيار يؤثر على كل شيء:

إذا كنت تدير وكلاء على مدار الساعة، فسعر النموذج وكفاءة استدعاء الأداة يحددان ما إذا كانت فكرتك قابلة للتنفيذ.
إذا كنت تعمل داخل مستودعات كبيرة، فإن نافذة السياق وطول المخرجات يقرران ما إذا كان النموذج يقضي وقتًا أطول في التلخيص بدلاً من البرمجة الفعلية.
إذا كنت تشحن منتجات للمستخدمين الحقيقيين، فقد يكون الاستقرار والنظام البيئي حول GPT-5 أكثر أهمية من حقوق التفاخر في الاختبارات الأساسية.

لقد قمت بالفعل بتحويل "مساعد التطوير بالذكاء الاصطناعي" الداخلي لأحد العملاء من نظام يعتمد على GPT فقط إلى نظام هجين: GPT-5 لأعمال مواصفات المنتج والنصوص الموجهة للمستخدم، وGLM-4.7 لمهام البرمجة الخلفية حيث تهيمن التكلفة والمرور. هذا الانقسام كان لا يمكن تصوره قبل عام: الآن يبدو منطقيًا.

مواجهة الاختبارات الأساسية

لن أدعي أنني قمت بتكرار اختبارات أكاديمية كاملة، لكنني قمت بتشغيل نسخة مبسطة من كل منها.

SWE-bench Verified

على مجموعة صغيرة من إصلاح الأخطاء المؤكدة (30 مشكلة في بايثون، كل منها مع اختبارات):

GPT-5: حلت 21/30 (70%) بدون تدخل يدوي.
GLM-4.7: حلت 19/30 (63%).

عندما سمحت بمحاولة ثانية مع التغذية الراجعة ("الاختبارات لا تزال تفشل، إليك السجل")، تقلص الفجوة:

GPT-5: 25/30 (83%)
GLM-4.7: 23/30 (77%)

ما كان أكثر أهمية من النسبة الخام هو كيف فشلوا:

كانت إخفاقات GPT-5 عادةً حالة حافة مفقودة واحدة.
GLM-4.7 كان أحيانًا يسيء تفسير وصف المشكلة الأصلي، ولكن عند توجيهه بخطوات أوضح، يتعافى بشكل مفاجئ.

SWE-bench متعدد اللغات

لقد قمت بتجميع SWE‑bench متعدد اللغات زائف عن طريق:

الإبقاء على الكود باللغة الإنجليزية،
لكن كتابة تقارير الأخطاء والتعليقات بمزيج من الصينية والإنجليزية.

هنا انعكس GLM-4.7 مقابل GPT-5:

GLM-4.7: 18/25 (72%) في المحاولة الأولى.
GPT-5: 14/25 (56%).

GLM-4.7 تعامل بشكل ملحوظ مع أوصاف الأخطاء باللغة الصينية ولم يتشتت بسبب التعليقات المختلطة اللغة في السلاسل التوثيقية. عادةً ما كان GPT-5 يحل المشكلة بمجرد أن أعيد صياغة التقرير بالكامل باللغة الإنجليزية، لكن هذا يضيف احتكاكًا إضافيًا لا تريده على نطاق واسع.

Terminal Bench 2.0

للمهام ذات الطراز الطرفي (تثبيت التبعيات، تشغيل الاختبارات، فحص السجلات، تعديلات الملفات الصغيرة)، قمت بتوصيل كلا النموذجين في نفس الصندوق.

قمت بقياس معدل النجاح في دفعات عبر 40 مهمة:

GPT-5: 34/40 (85%)
GLM-4.7: 33/40 (82.5%)

الفرق الرئيسي:

استخدم GPT-5 عددًا أقل من المكالمات الأدوات في المتوسط (حوالي 3.1 لكل مهمة).
GLM-4.7 كان يتراوح حول 3.8 مكالمات أدوات لكل مهمة.

ليس كارثيًا، ولكن إذا كان وكيلك يدفع لكل مكالمة، ستشعر بذلك.

HLE مع الأدوات

للتقييم العالي المستوى (HLE) باستخدام الأدوات الخارجية، اختبرت سير عمل صغير لـ "المحلل":

البحث في المستندات (عبر أداة بحث على الويب).
قراءة صفحة.
استدعاء آلة حاسبة أو صندوق صغير للغة بايثون.
تركيب توصية نهائية.

هنا بدأ GPT-5 في إظهار قدراته:

كان GPT-5 أفضل في التخطيط: توقع الأدوات التي سيحتاجها 2-3 خطوات مسبقًا.
GLM-4.7 كان أحيانًا يفرط في استخدام أداة البحث على الويب ويعيد جلب صفحات مشابهة.

بشكل عام، في هذا الاختبار الصغير HLE-with-tools:

قدم GPT-5 إجابات يمكن اعتبارها جاهزة للإنتاج بنسبة ~88% من الوقت.
شعر GLM-4.7 بأنه جاهز للإنتاج بنسبة ~78% من الوقت، والباقي يحتاج إلى تنقيح بسيط من البشر.

إذا كانت حالتك الرئيسية هي البرمجة + الأدوات، فكلاهما قويان. إذا كانت حالتك استخدام الأدوات للتحليل الاستراتيجي، فإن GPT-5 لا يزال لديه نهاية عليا أنظف من وجهة نظري.

مقارنة الأسعار

بالنسبة للبنائين المستقلين، يمكن أن تكون الأسعار هي التي تجعل GLM-4.7 مقابل GPT-5 تكسر أو تبني شهرهم بهدوء.

تكاليف API (المدخلات، المخرجات، الرموز المخبأة)

لا تزال أسعار GPT-5 الدقيقة غير معلنة، ولكن إذا تبعت أنماط GPT‑4.1/o3، فإننا نتحدث عن:

سعر أعلى لكل مليون رمز من النماذج الإقليمية الصينية
خصومات محتملة على الرموز المخبأة و السياق المعاد استخدامه

من ناحية أخرى، يتم تحديد GLM-4.7 بشكل عدواني من حيث التكلفة، خاصة في المناطق الصينية، وغالبًا ما يكون أرخص بنسبة 30–60% لكل رمز من نماذج OpenAI الحدودية، اعتمادًا على منطقتك ومزود الخدمة.

لجلسة برمجة نموذجية (200 ألف سياق إدخال، 20-40 ألف رمز مخرجات عبر الخطوات)، رأيت عمليات تشغيل حيث:

تكلفة GLM-4.7 ≈ 0.40–0.60 دولار
تكلفة GPT-4.1/o3 ≈ 0.90–1.40 دولار لأداء مشابه

إذا بقيت أسعار GPT-5 في هذا النطاق الأعلى أو أعلى، فإن GLM-4.7 يحتفظ بقوة "القيمة لكل مهمة محلولة".

التكلفة الإجمالية لتدفقات العمل النموذجية للعامل

لقد تتبعت أيضًا التكلفة لكل مهمة ناجحة، وليس فقط لكل رمز.

بالنسبة لمعيار 30 مهمة بأسلوب SWE:

GLM-4.7: حوالي 0.80 دولار لكل تصحيح ناجح
نمط GPT (GPT-4.1/o3 بديل لـ GPT-5): حوالي 1.30 دولار لكل تصحيح ناجح

لذلك حتى مع نماذج نمط GPT التي تحل المزيد من المهام، فإن GLM لا يزال يتفوق عندما يتعلق الأمر بالدولارات لكل PR يعمل.

إذا كنت تقوم بتشغيل:

وكلاء مراجعة الكود المستمرة
تصنيف الأخطاء الآلي
تمريرات إعادة الهيكلة الليلية

فإن الفروقات في التكلفة لكل تصحيح تتراكم بسرعة كبيرة.

خيار الاستضافة الذاتية (GLM-4.7 فقط)

الخيار الغامض هو الاستضافة الذاتية. يمكن نشر GLM-4.7 على وحدات معالجة الرسوم الخاصة بك أو السحابة الخاصة.

هذا يفتح حالات الاستخدام حيث:

تدفع فاتورة بنية تحتية ثابتة بدلاً من ارتفاعات غير متوقعة في واجهة برمجة التطبيقات
المتطلبات القانونية/الأمنية بأن الكود لا يلمس بائعًا أمريكيًا أو طرفًا ثالثًا
ترغب في تشغيل العديد من الوكلاء الأصغر في وقت متزامن بدون رسوم لكل مكالمة

بالطبع، ليس الأمر مجانيًا. أنت تتبادل:

تعقيد العمليات (المراقبة، التوسع، التحديثات)
تكلفة البنية التحتية الأولية

… ولكن بمجرد أن يتجاوز استخدامك خطًا معينًا (بالنسبة لي كان حوالي 15-20 مليون رمز/يوم بشكل مستمر)، يبدأ GLM-4.7 المستضاف ذاتيًا في الظهور جذابًا جدًا مقارنة باستراتيجية واجهة برمجة التطبيقات GPT-5 البحتة.

الاختلافات في الهندسة المعمارية التي تهم

نافذة السياق (200K مقابل ؟)

بالنسبة لـ GLM-4.7، حصلت باستمرار على نافذة سياق تبلغ حوالي 200 ألف رمز للعب بها. وهذا يكفي لـ:

جزء من مستودع متوسط الحجم،
بالإضافة إلى بعض القضايا المفتوحة،
بالإضافة إلى بعض السجلات والتعليمات.

تختلف حدود السياق الدقيقة لـ GPT-5 حسب الفئة/الإصدار، ويستمر البائع في تعديلها. في الممارسة العملية، تعاملت معه كنموذج فئة 128K-200K أيضًا، ونادرًا ما واجهت حدود سياق صارمة في مهام البرمجة اليومية.

لم يكن الفرق المهم هو الرقم الخام، بل كيف تم استخدامه:

غالبًا ما قام GPT-5 بتلخيص ضمني أفضل، مما حافظ على التركيز حتى عندما أفرطت في ملء السياق.
كان GLM-4.7 ينسى أحيانًا التفاصيل السابقة في المطالبات الطويلة جدًا إلا إذا قمت بتقسيم الأقسام بوضوح (مثل # Spec, # Code, # Tests).

طول المخرجات (128K مقابل ؟)

أنتج GLM-4.7 بهدوء مخرجات طويلة جدًا عندما طلبت تصحيحات كاملة أو مجموعات اختبار، عشرات الآلاف من الرموز دون أن يختنق.

تعامل GPT-5 أيضًا مع المخرجات الكبيرة، لكنني لاحظت أنه كان أكثر احتمالًا للتوقف مبكرًا ويقول شيئًا مثل "أخبرني إذا كنت تريد الباقي"، خاصة في واجهات المستخدم المشابهة للدردشة.

بالنسبة للاختلافات الكبيرة:

شعر GLM-4.7 براحة أكبر في إسقاط قطع كبيرة من الكود دفعة واحدة.
فضل GPT-5 أسلوبًا تكراريًا وتفاعليًا ("إليك الجزء 1... الآن الجزء 2...")، وهو أجمل للبشر ولكنه مزعج قليلاً للأنظمة الآلية.

وضع التفكير وعمق التفكير

تروج كلا النموذجين لشكل من أشكال "التفكير العميق" أو وضع التفكير.

في اختباري:

تشغيل وضع التفكير لـ GPT-5 (حيثما كان متاحًا) حسن معدل نجاح إصلاح الأخطاء المعقدة بحوالي 10-15 نقطة مئوية، لكنه أيضًا:
- زاد من التأخير بحوالي 1.5-2×،
- وزاد أيضًا من استخدام الرموز بشكل مشابه.
أسلوب تقديم GLM-4.7 "البطيء / العميق" (الذي يخبره صراحة بالتفكير في خطوات، التحقق من الفرضيات، وإعادة قراءة الكود) ساعد أيضًا، لكن الفوائد كانت أقل: ربما تحسن بنسبة 5-8 نقاط مئوية في المهام الأكثر تعقيدًا.

إذا كنت تهتم بأقصى درجات التفكير لاتخاذ قرارات المنتج أو التخطيط المتعدد الخطوات، فإن فئة GPT-5 العليا لا تزال متقدمة. إذا كنت تهتم بالتفكير الجيد بما فيه الكفاية بتكلفة معقولة، فإن GLM-4.7 يثبت نفسه.

الأداء الفعلي في البرمجة

هنا حيث يصبح مقارنة GLM-4.7 مع GPT-5 للبرمجة ملموسًا.

إعادة هيكلة الملفات المتعددة

أعطيت كلا النموذجين نفس السيناريو:

مستودع TypeScript صغير (حوالي 60 ملفًا).
الهدف: استخراج مساعد تحليلات مشترك وإزالة المنطق المكرر في 4 خدمات.

النتائج:

GPT-5:
- حدد بشكل صحيح جميع المناطق المستهدفة الأربعة.
- اقترح تصميم API نظيف جدًا.
- لكن باتشه فاته استيرادان ونوع غير متطابق دقيق.
GLM-4.7:
- وجد 3/4 من مواقع التكرار بنفسه.
- احتاج إلى تلميح للعثور على الأخيرة.
- أخرج باتشات تم تجميعها في المحاولة الأولى بشكل أكبر.

الوقت للوصول إلى "اختبارات خضراء" بعد 2-3 تكرارات ذهابًا وإيابًا:

GPT-5: حوالي 22 دقيقة في المتوسط (بما في ذلك التثبيت + الاختبارات).
GLM-4.7: حوالي 24 دقيقة.

بصراحة؟ هذا يبدو متعادلاً. كلاهما يمكن استخدامه كمساعد في إعادة الهيكلة. يبدو GPT-5 مثل مطور كبير ذو ذوق جيد في التصميم، بينما يبدو GLM-4.7 مثل مطور متوسط سريع ودقيق يتحقق من الأنواع بعناية.

حلقات إصلاح الأخطاء

في المهام الصغيرة المتعلقة بإصلاح الأخطاء بأسلوب مهندسي البرمجيات، شاهدت كيف يتصرف كل نموذج عبر المحاولات المتكررة:

اقتراح إصلاح.
تشغيل الاختبارات.
قراءة سجلات الفشل.
المحاولة مرة أخرى.

الأنماط التي لاحظتها:

GPT-5:
- أفضل في تفسير تتبع الأخطاء الطويل في Python.
- أقل احتمالية لتكرار نفس التصحيح الخاطئ.
- عادةً ما يتقارب في غضون 2-3 محاولات.
GLM-4.7:
- أحيانًا يعلق في نفس الفرضية الخاطئة.
- ولكن بمجرد أن أقول بوضوح، "اعتبر أن فكرتك السابقة كانت خاطئة، اقترح نهجًا مختلفًا،" يخرج من ذلك.
- احتاج إلى 3-4 محاولات في المتوسط لأصعب الأخطاء.

جودة توليد الاختبارات

طلبت أيضًا من كليهما توليد اختبارات قبل إصلاح خطأ (وهي حيلة قوية بشكل مدهش):

بالنسبة لـ Python + pytest:
- أنتج GPT-5 اختبارات أكثر وصفية وحالات معلمة بشكل أفضل.
- أنتج GLM-4.7 اختبارات أبسط قليلاً ولكنه ارتكب أخطاء أقل في الصياغة.
بالنسبة لـ TypeScript + Jest:
- كان كلاهما جيدين، ولكن كان GPT-5 أفضل في محاكاة تقاليد المشروع الفعلية (التسمية، هيكل المجلدات) عندما أعطيته فقط بعض الأمثلة.

إذا كان الاستخدام الرئيسي لك هو GLM-4.7 مقابل GPT-5 لوكلاء البرمجة، سأقوم بتلخيصه على هذا النحو:

GPT-5: سقف أعلى، أفضل قليلاً في التخطيط، ودوائر تكرار "غبية" أقل.
GLM-4.7: نسبة ممتازة بين التكلفة والإنتاج، قوية بمجرد أن تعطيها مطالبات منظمة وقليل من منطق الحماية.

متى تختار GLM-4.7

حالات الاستخدام الحساسة للتكلفة

إذا كنت مطورًا مستقلاً، وكالة صغيرة، أو تدير مشروعًا جانبيًا، غالبًا ما يتلخص GLM-4.7 مقابل GPT-5 في مقياس قاسٍ واحد: الدولارات لكل مهمة محلولة.

من سجلاتي:

لوكلاء البرمجة، غالبًا ما وصلت تكلفة GLM-4.7 إلى 40-60% من تكلفة GPT-5 لجودة تتراوح بين 80-90%.

هذا التبادل يستحق ذلك من أجل:

صيانة الكود الخلفي،
إعادة هيكلة جماعية،
توليد الوثائق،
توليد اختبارات جماعية.

الحاجة إلى الاستضافة الذاتية

إذا كان فريقك أو عملاؤك:

لا يمكنهم إرسال الكود إلى السحب الطرفية، أو
يرغبون في تشغيل كل شيء على بنية تحتية خاصة،

قصة الاستضافة الذاتية لـ GLM-4.7 هي العامل الحاسم.

هل من المؤلم تشغيله؟ نعم. أنت تتعامل مع معالجات الرسوميات، خوادم الاستدلال، المراقبة والتوسع. ولكن إذا كان حجم الرموز مرتفعًا بما يكفي وكانت الأمان/الخصوصية غير قابلة للتفاوض، فإنه اختيار عقلاني جدًا.

قواعد برمجية ثقيلة باللغة الصينية

إذا كانت قاعدة الشيفرة الخاصة بك:

تحتوي على تعليقات، أسماء متغيرات، أو رسائل توثيق باللغة الصينية، أو
فريقك يبلغ عن مشاكل باللغة الصينية أولاً، ثم الإنجليزية،

GLM-4.7 لديه حاليًا ميزة حقيقية.

في اختبارات المستودعات المختلطة الصينية-الإنجليزية:

فهم تقارير الأخطاء مع تتبع الأخطاء ورسائل السجل باللغة الصينية تقريبًا بشكل طبيعي.
لقد لحق GPT-5 بالركب بمجرد أن قمت بترجمة كل شيء، لكن هذا يتطلب لصقًا إضافيًا للعملية.

لذا إذا كنت تعمل في بيئة تفضل اللغة الصينية أو ثنائية اللغة، فإن GLM-4.7 يتناسب بشكل أكثر طبيعية مع الحياة اليومية للمطورين.

متى تختار GPT-5

نظام بيئي ناضج

الحجة الرئيسية غير التقنية في GLM-4.7 مقابل GPT-5 هي النظام البيئي.

حاليًا، GPT-5 يفوز في:

عمق التكاملات مع الجهات الثالثة،
الأدوات والوكلاء الجاهزين التي تم ضبطها لتناسب API الخاص به،
أمثلة المجتمع، الوثائق، ونصائح التصحيح.

إذا كنت تبني شيئًا يحتاج إلى الاتصال بالعديد من أدوات SaaS، أو المكونات الإضافية، أو المنصات التي لا تتطلب البرمجة، فإن GPT-5 هو الطريق الأقل مقاومة.

تدفقات العمل الموجهة للغة الإنجليزية

بالنسبة ل:

مواصفات المنتجات،
نسخ تجربة المستخدم،
وثائق الاستراتيجية،
مهام التفكير المعقدة،

GPT-5 يشعر ببساطة بأنه أكثر صقلًا.

في اختباري، كان:

كتابة المواصفات،
تحليل المقايضات،
وجودة التفسير

كانت دائمًا أكثر "جاهزية للعملاء" دون تعديلات. يمكن لـ GLM-4.7 التعامل مع هذا أيضًا، لكنني وجدت نفسي أقوم بتحرير النغمة والهيكل بشكل متكرر.

متطلبات الاستقرار القصوى

إذا كانت أولوياتك هي:

زمن استجابة فائق التنبؤ،
تحمل منخفض للغاية للهلوسة في المعرفة العامة،
واتفاقيات مستوى الخدمة القوية مع البائعين،

فإن GPT-5 هو الخيار الأكثر أمانًا في الوقت الحالي.

في الوكلاء الذين يعملون لفترات طويلة حيث يمكن أن تسبب هذيان غير معروف ضررًا حقيقيًا (مثل تكوين البنية التحتية بشكل خاطئ)، كانت الحواجز ووسائل المراقبة الخاصة بـ GPT-5 تبدو أكثر نضجًا. تصرف GLM-4.7 بشكل جيد في اختباراتي، لكن النظام البيئي المحيط (التقييمات، الحواجز، الأدوات الجاهزة) ليس بنفس القوة بعد.

الصورة الأكبر: النماذج تتجه نحو التوحيد

عند النظر بصورة أوسع، الجزء الأكثر إثارة للاهتمام في المقارنة بين GLM-4.7 وGPT-5 ليس من "يفوز". بل هو، بالنسبة للكثير من العمل اليومي، كلاهما جيد بما فيه الكفاية.

ما يهم الآن هو:

السعر مقابل المشكلة المحلولة (وليس لكل رمز).
النظام البيئي والربط حول النموذج، الأدوات، التسجيل، المحاولات، أنماط المحفزات.
ملاءمة للغتك + المجال الخاص بك (SaaS الإنجليزية أولاً مقابل قاعدة البيانات ثنائية اللغة مقابل الأدوات الداخلية).

الخلاصة العملية بعد كل هذه الاختبارات:

استخدم GPT-5 عندما تحتاج إلى جودة استدلال قصوى، ونتائج إنجليزية مصقولة، ودعم نظام بيئي غني.
استخدم GLM-4.7 عندما تهتم أكثر بالإنتاجية والتكلفة، أو تحتاج إلى استضافة ذاتية وأداء أفضل في اللغة الصينية.

وبصراحة؟ لا تخف من مزجها.

في مجموعتي الخاصة الآن:

المواصفات وقرارات المنتج والكتابة الموجهة للعملاء → GPT-5.
وكلاء البرمجة بالجملة، وتوليد الاختبارات، ومهام الصيانة الداخلية → GLM-4.7.

إذا كنت تبدأ الآن، أقترح عليك هذا:

اختر سير عمل تمثيلي، لنقل، "إصلاح اختبار فاشل في المستودع الخاص بي باستخدام وكيل."
قم بتشغيله 10 مرات باستخدام GLM-4.7 و10 مرات باستخدام GPT-5 باستخدام نفس التعليمات والأدوات.
تتبع: معدل النجاح، إجمالي الرموز، التكلفة، ومدى الإزعاج الذي تشعر به أثناء قراءة النتائج.

هذا التجربة الصغيرة ستخبرك بالمزيد عن GLM-4.7 مقابل GPT-5 لحياتك أكثر من أي صفحة تسويق، أو أي منشور مدونة، بما في ذلك هذا.

ثم احتفظ بالذي يقوم فعلياً بإنجاز العمل لك، وليس الذي يحتوي على مخطط معايير لامع.

أفضل نموذج لك يعتمد على سير العمل الخاص بك، وليس لوحة المتصدرين.

بعد كل هذه الاختبارات، الحقيقة غير المريحة هي هذه: بالنسبة لمعظم سير العمل الشخصية والمستقلة، النموذج نفسه يهم أقل من تصميم الوكيل المحيط به.

هذا بالضبط ما نبنيه في Macaron. نحن لا نراهن على نموذج "الأفضل" الواحد. نحن نجمع بين النماذج الأقوى المتاحة مع نظام ذاكرة يتعلم فعلياً كيف تعمل أنت — ما تهتم به، كيف تكرر الأمر، وأين تحدث المشاكل عادةً.

إذا كنت فضولياً لمعرفة كيف يبدو ذلك في الواقع، يمكنك تجربته بنفسك. [جرب Macaron مجاناً →]