过去几周,我故意破坏自己的工作流程,以观察在实际项目、混乱的代码库和不完整的规范中,GLM-4.7 与 GPT-5 的实际表现。
理论上,这两者都是“下一代”、“自主”、“擅长编码”等常见的流行词。在实践中,当我对比测试错误修复、多文件重构和工具使用代理时,GLM-4.7 和 GPT-5 之间的差异远不像宣传中的那么理论化。
在深入探讨之前需要声明一点:GPT-5 的细节仍在发展中,厂商的基准测试结果通常是较为理想化的。我在这里分享的是基于我自己在 2025 年 12 月进行的测试:小规模但可重复的实验,使用相同的提示、代码库和工具对比这两个模型。将此视为实地笔记,而非绝对真理。
让我们来看看 GLM-4.7 与 GPT-5 在编码、代理和对成本敏感的工作流程中究竟有哪些不同。
我之所以费心深入研究 GLM-4.7 vs GPT-5,原因很简单:两家供应商都在宣称同样的东西,更好的代理,更好的编码,更好的推理能力。
在我的测试中,这转化为三个具体的问题:
我将它们接入了一个小型的 agent 框架,该框架可以访问:
我使用了:
因为一个“聪明”的代理在一个 bug 修复上悄悄烧掉 $50 并不聪明。
GLM-4.7 和 GPT-5 显然针对这些场景进行了优化,但权衡有所不同:
这不是理论上的GLM-4.7与GPT-5对决。选择渗透到一切中:
我已经将一个客户的内部“AI开发助手”从仅使用GPT的架构切换到混合架构:GPT-5用于产品规格工作和面向用户的文案,GLM-4.7用于以成本和吞吐量为主的后台编码任务。这种分配在一年前是不可想象的:现在则合情合理。
我不会假装我复制了完整的学术基准,但我确实运行了每个模型的精简版。
在一个小型、经过验证的错误修复集合上(30个Python问题,每个都有测试):
当我允许进行第二次尝试并提供反馈(“测试仍然失败,这是日志”)时,差距缩小:
比起纯粹的百分比,更重要的是它们如何失败:
我通过以下方式拼凑了一个伪多语言 SWE-bench:
在这里 GLM-4.7 和 GPT-5 的表现颠倒了:
GLM-4.7 在处理中文错误描述时明显更好,并且不会被文档字符串中的混合语言评论搞混。GPT-5 通常在我将报告完全用英文重述后才能解决问题,但在大规模应用时,这会增加额外的摩擦。
对于终端风格的任务(安装依赖,运行测试,检查日志,进行小的文件编辑),我将这两个模型接入同一个沙盒。
我在 40 项任务中测量了批量成功率:
关键区别在于:
虽不至于灾难性,但如果你的代理按调用付费,你会感受到差异。
对于使用外部工具的高层次评估(HLE),我测试了一个迷你“分析师”工作流程:
这就是 GPT-5 开始展示实力的地方:
总体而言,在这个小型带工具的 HLE 测试中:
如果你的主要用例是编码加工具,两者都很可靠。如果你的用例是战略分析加工具,个人经验来看,GPT-5 在高端表现上仍然更干净。
对于独立开发者来说,GLM-4.7 和 GPT-5 的定价可能在悄无声息中决定你的月度成败。
GPT-5 的确切定价尚未公开,但如果遵循 GPT-4.1/o3 的模式,我们可能会看到:
相比之下,GLM-4.7 的定价在成本上更具攻击性,特别是在中国地区,通常每个 token 便宜 30–60%,具体取决于你的地区和供应商。
对于一个典型的编码会话(20 万输入上下文,20–40K 输出 tokens 跨步骤),我看到的运行成本是:
如果 GPT-5 保持在那个上限或更高,GLM-4.7 在“每个已解决任务的价值”上将保持强势优势。
我还跟踪了每个成功任务的成本,而不仅仅是每个 token 的成本。
对于我的 30 个 SWE 风格基准测试任务:
所以即使使用 GPT 风格模型解决更多任务,GLM 在每个有效 PR 的花费上仍然胜出。
如果你在运行:
这些每次修复的成本差异增长得非常快。
变数是自托管。GLM-4.7 可以部署在你自己的 GPU 或私有云上。
这解锁了以下使用场景:
当然,这不是免费的。你在交换:
……但一旦你的使用量超过一定线(对我来说大约是每日 1500-2000 万个 token),自托管的 GLM-4.7 开始显得比纯 GPT-5 API 策略有吸引力。
对于 GLM-4.7,我能够稳定获得大约 200K 的 token 上下文。这足以容纳:
GPT-5 的确切上下文限制取决于层级/版本,供应商不断进行调整。实际上,我把它当作一个 128K-200K 类模型来使用,在日常编码任务中几乎没有遇到硬性上下文限制。
有意义的区别不在于原始数字,而在于它们的使用方式:
当我请求完整补丁或测试套件时,GLM-4.7 可以从容地产生非常长的输出,数以万计的标记不会卡住。
GPT-5 也能处理大量输出,但我注意到它更可能提早停止并说“如果你想要剩下的,请告诉我”,尤其是在类似聊天的界面中。
对于巨大的差异:
两个模型都宣传某种形式的“更深入思考”或推理模式。
在我的测试中:
如果您关心产品决策或多步骤规划的最大推理能力,GPT-5 的顶级表现仍然领先。如果您关心在合理成本下的足够推理能力,GLM-4.7 也能自立。
这是 GLM-4.7 与 GPT-5 在编码比较中变得具体的地方。
我给了两个模型相同的场景:
结果:
经过 2-3 次来回迭代后达到“绿色测试”的时间:
老实说?这两者都不相上下。两者都可以作为重构助手。GPT-5更像是一位有良好设计品味的高级开发人员,而GLM-4.7则像是一位快速、细心的中级开发人员,会仔细检查类型。
在较小的软件工程风格的Bug任务中,我观察了每个模型在循环尝试中的表现:
我观察到的模式:
我还要求两者在修复Bug之前生成测试(这是一个非常强大的技巧):
如果你的主要用途是 GLM-4.7 与 GPT-5 的编码代理,我会这样总结:
如果你是独立开发者、小型代理机构或在做副项目,GLM-4.7 与 GPT-5 的选择通常归结为一个严酷的指标:每个解决任务的成本。
根据我的日志:
这种权衡对于以下情况是值得的:
如果你的团队或客户:
那么 GLM-4.7 的自托管能力就是决定性因素。
操作起来更痛苦吗?是的。你需要处理 GPU、推理服务器、监控和扩展。但如果你的令牌量足够高,且安全性/隐私是不可妥协的,那么这是一个非常理性的选择。
如果你的代码库:
GLM-4.7 目前具有真正的优势。
在我混合中英的代码库测试中:
所以如果你在一个以中文为主或双语的环境中工作,GLM-4.7 更自然地融入到日常开发生活中。
GLM-4.7 与 GPT-5 的主要非技术性比较在于生态系统。
GPT-5 目前在以下方面胜出:
如果你正在构建需要对接大量 SaaS 工具、插件或无代码平台的东西,GPT-5 是最不费力的路径。
对于英文为主的:
GPT-5 更显得成熟。
在我的测试中,它的:
这些内容在不进行编辑的情况下,始终更具「客户准备」状态。GLM-4.7 也完全能胜任这项工作,但我发现自己更频繁地编辑语气和结构。
如果你的优先事项是:
那么目前来说,GPT-5 是更安全的选择。
在长时间运行的代理中,一个奇怪的错误可能会造成实质性的损害(比如错误配置基础设施),GPT-5 的保护措施和监控系统显得更加成熟。GLM-4.7 在我的测试中表现良好,但其周边生态系统(评估、保护措施、现成工具)尚未经过全面测试。
从更广的视角来看,GLM-4.7 和 GPT-5 之间最有趣的部分不是谁「胜出」。而是,对于很多日常工作来说,它们都足够好。
现在真正重要的是:
经过所有这些测试后,我的实际收获是:
老实说?别害怕混搭。
在我现在的工具组合中:
如果你刚开始,我建议这样做:
这个小实验会比任何营销页面或博客文章(包括这篇)更能告诉你 GLM-4.7 和 GPT-5 对你生活的影响。
然后选择真正为你完成工作的那个,而不是闪亮的基准图表。
最适合你的模型取决于你的工作流程,而不是排行榜。
经过所有这些测试,不舒服的真相是:对于大多数个人和独立工作流程,模型本身的重要性不如围绕它设计的代理。
这正是我们在 Macaron 打造的。我们不押注于单一的“最佳”模型。我们结合了最强大的可用模型和一个真正学习你如何工作的记忆系统——你关心什么,如何迭代,以及通常在哪里出错。
如果你想知道实际使用的感觉,可以亲自试试。 [免费试用 Macaron →]