在过去的几周里,我故意打破自己的工作流程,看看当你把真实项目、混乱的代码库和半成品规范交给它们时,GLM-4.7 和 GPT-5 的实际表现如何。
从理论上讲,两者都是“下一代”、“具备代理能力”、“擅长编码”等常见的流行语。实际上,当我进行了错误修复、多文件重构和工具使用代理的并排测试时,GLM-4.7 和 GPT-5 之间的差异比宣传所说的要少得多。
在深入探讨之前,先做个免责声明:GPT-5 的细节仍在发展,供应商的基准测试往往是令人欣喜的。我在这里分享的是基于我在 2025 年 12 月的测试:小规模但可重复的实验,使用相同的提示、代码库和工具在两个模型之间进行。将此视为实地笔记,而非绝对真理。
让我们来看看 GLM-4.7 和 GPT-5 的实际区别,特别是在编码、代理和成本敏感的工作流程方面。

我之所以深入研究 GLM-4.7 与 GPT-5 的原因很简单:两个供应商都在大声宣称相同的东西,更好的代理,更好的编码,更好的推理。
在我的测试中,这转化为三个具体问题:
我将两者连接到一个小型 agent 框架,该框架可以访问:
我使用了:
因为一个“聪明的”代理如果在一个错误修复上悄悄地消耗了 50 美元,那就不算聪明。
GLM-4.7 和 GPT-5 显然针对这些场景进行了优化,但权衡有所不同:

这不是一个理论上的 GLM-4.7 与 GPT-5 的对决。选择渗透到所有事情中:
我已经将一个客户的内部「AI开发助手」从仅使用GPT的堆栈切换到了混合模式:GPT-5用于产品规格工作和用户界面文案,GLM-4.7用于成本和吞吐量占主导地位的背景编码任务。这种分工在一年前是不可想象的,现在却是理所当然。
我不会假装我复制了完整的学术基准,但我确实运行了每个的简化版本。
在一个小型的、已验证的错误修复集上(30个Python问题,每个都有测试):
当我允许第二次尝试并提供反馈(「测试仍未通过,这是日志」),差距缩小:
比原始百分比更重要的是它们失败的方式:
我通过以下方式拼凑了一个伪多语言的 SWE‑bench:
这里是 GLM-4.7 与 GPT-5 的对比:
GLM-4.7 在处理中文错误描述时表现得更好,并且不会被文档字符串中的混合语言注释搞混。GPT-5 通常在我将报告完全改写为英文后解决问题,但这在大规模应用时会增加额外的摩擦。
对于终端风格的任务(安装依赖、运行测试、检查日志、简单文件编辑),我将两个模型接入到相同的沙盒中。
我测量了 40 个任务的批次成功率:
主要差异在于:
虽然不至于灾难性,但如果你的代理按调用次数付费,你会注意到差异。
对于使用外部工具的高级评估 (HLE),我测试了一种迷你“分析师”工作流程:
在这里,GPT-5 开始展现其优势:
总体而言,在这个小型的 HLE-with-tools 测试中:
如果您的主要用例是编码和工具,那么这两者都很出色。如果您的用例是结合工具进行战略分析,依我经验,GPT-5 的高级表现更为出色。
对于独立开发者来说,GLM-4.7 与 GPT-5 的价格可能会悄然影响您的月度预算。
GPT-5 的具体定价尚未公开,但如果遵循 GPT-4.1/o3 的模式,预期会是:
相比之下,GLM-4.7 在成本上定位积极,特别是在中国地区,通常比前沿的 OpenAI 模型每个 token 便宜 30–60%,这取决于您的地区和供应商。
对于典型的编码会话(20 万输入上下文,2–4 万输出 token 跨步骤),我观察到:
如果 GPT-5 保持在这个上限或更高,GLM-4.7 将在"每解决任务的价值"方面保持强劲优势。
我还跟踪了每个成功任务的成本,而不仅仅是每个 token 的成本。
对于我的 30 项 SWE 风格基准测试:
所以即使 GPT 风格模型解决了更多任务,GLM 在每个工作 PR 的花费上仍然胜出。
如果您正在运行:
这些每次修复的成本差异会迅速累积。
变数是自托管。GLM-4.7 可以部署在您自己的 GPU 或私有云上。
这样可以实现以下用例:
当然,这并不是免费的。您在交换:
……但一旦您的使用量超过某个界限(对我来说大约是 1500-2000 万 tokens/天的持续量),GLM-4.7 自托管开始变得非常有吸引力,相对于纯 GPT-5 API 策略。
对于 GLM-4.7,我始终可以使用约 200K tokens 的上下文。这足以:
GPT-5 的具体上下文限制取决于其等级/版本,并且供应商会不断调整这些限制。在实际使用中,我将其视为一个 128K-200K 类的模型,几乎从未在日常编码任务中遇到硬性上下文限制。
有意义的区别不在于原始数字,而在于它们如何使用这些数字:
GLM-4.7 在我要求完整补丁或测试套件时能够从容地产生非常长的输出,数万个 tokens 而不出错。
GPT-5 也能处理大输出,但我注意到它更可能提前停止,并说“如果你想要剩下的部分,请告诉我”,尤其是在类似聊天的 UI 中。
对于巨大的差异:
这两种模型都宣传某种形式的“深入思考”或推理模式。
在我的测试中:
如果你关心产品决策或多步骤规划的最大推理能力,GPT-5 的顶级表现仍然领先。如果你关心以合理成本获得足够好的推理能力,GLM-4.7 也表现出色。
这是 GLM-4.7 与 GPT-5 的编码对比变得具体的地方。
我给两个模型提供了相同的场景:
结果:
经过 2-3 次反复迭代后达到「绿灯测试」的时间:
说实话?这两者都可以作为重构助手使用。GPT-5 更像是有良好设计品味的高级开发者,而 GLM-4.7 则像是快速且细心的中级开发者,总是仔细检查类型。

在较小的软件工程风格的漏洞任务中,我观察了每个模型在循环尝试中的表现:
我看到的模式:
我还要求两者在修复漏洞前生成测试(这是一个出乎意料的强大技巧):
如果你的主要使用场景是为编码代理选择GLM-4.7还是GPT-5,我会这样总结:

如果你是独立开发者、小型代理公司,或在运营一个副项目,GLM-4.7和GPT-5的选择通常归结为一个残酷的指标:每解决一个任务的花费。
根据我的记录:
这样的取舍值得用于:
如果你的团队或客户:
那么GLM-4.7的自托管能力是决定性因素。
操作起来更痛苦吗?是的。你需要处理GPU、推理服务器、监控和扩展。但如果你的令牌量足够高,并且安全/隐私是不可妥协的,这是一个非常理性的选择。
如果你的代码库:
GLM-4.7 目前具有真正的优势。
在我混合中英文的仓库测试中:
所以,如果您在中文优先或双语环境中工作,GLM-4.7 更自然地融入日常开发生活。
GLM-4.7 与 GPT-5 的主要非技术论点是生态系统。
GPT-5 目前在以下方面占优:
如果您正在构建需要集成大量 SaaS 工具、插件或无代码平台的东西,GPT-5 是最省力的路径。
对于英文优先的:
GPT-5 起来更打磨得更好。
在我的测试中,它的:
一贯地更加“客户就绪”,无需修改。GLM-4.7 也完全可以处理这些,但我发现自己更频繁地编辑语气和结构。
如果您的优先级是:
目前,GPT-5 是更安全的选择。
在长时间运行的代理中,一个小小的幻觉就可能造成严重损害(如错误配置基础设施),GPT-5 的防护措施和监控堆栈显得更加成熟。在我的测试中,GLM-4.7 表现良好,但其周边生态系统(评估、防护措施、现成工具)尚未经过充分实战测试。
放眼全局,GLM-4.7 和 GPT-5 最有趣的部分不是谁“赢”。而是对于很多日常工作来说,它们都足够好。
现在真正重要的是:
经过所有这些测试,我的实际收获是:
说实话?不要害怕混合使用它们。
在我目前的技术栈中:
如果你刚开始,我建议这样做:
这个小实验会让你比任何市场页面或博客文章(包括这篇)更了解 GLM-4.7 和 GPT-5 对你生活的影响。
然后选择真正能为你完成工作的模型,而不是那个有更炫目基准图表的模型。
最适合你的模型取决于你的工作流程,而不是排行榜。
经过所有这些测试,不得不承认一个不那么舒服的事实:对于大多数个人和小型项目的工作流程,模型本身的重要性不如围绕它设计的代理。
这正是我们在 Macaron 所做的。我们不押注于单一的“最佳”模型。我们结合了最强大的可用模型与一个记忆系统,该系统实际上可以学习你的工作方式——你关注什么,如何迭代,以及通常问题出在哪。
如果你想知道这在实践中是什么感觉,可以亲自试试。 [免费试用 Macaron →]