当我第一次坐下来想弄清楚 GLM-4.7 在实际操作中究竟是什么(而不仅仅是新闻稿中的语言)时,我预期会是“又一个前沿模型的提升”。稍微更好的基准测试、关于推理的模糊声明,除此之外没什么别的了。
结果……并非如此。
在对 GLM-4.7 进行了为期一周的测试,包括编码、长文档审阅以及一些代理式工作流程之后,我最终重新调整了一些默认工具。这个模型占据了一个非常特别的领域:巨大的上下文、强大的编码能力,以及358B参数的开放权重,这不是我在2025年会想到会写下的一句话。
让我带你了解 GLM-4.7 实际上是什么,它的行为如何,以及它在创作者/独立开发者工作流程中实际适合的位置。
如果你之前使用过 GLM-4、GLM-4-Air 或 GLM-4.6,GLM-4.7 是智谱的“我们不再玩闹了”版本。想象一下:前沿级推理+大上下文+针对生产API和高级用户的开放权重。
Zhipu 在 2024 年底悄然推出了 GLM-4.7,然后在 2025 年初开始大力推广,作为他们在编程和推理方面的新旗舰。当我开始测试时,文档中已经将其引用为默认的高端 GLM 模型。
你通常会在 Zhipu API 中看到类似 glm-4.7 的标识,并在 Hugging Face 上作为 358B 开放权重发布供自托管。
在实际使用后,我会这样总结模型定位:
在 Zhipu 自己的生态系统中,GLM-4.7 被定位为他们在编程和推理方面的最佳模型,并在 SWE-bench 和 HLE 等基准测试中取得了胜利。在现实中,这大致意味着:当你更注重质量而不是每个 token 的原始成本时,这就是你的选择。
对我来说,最大的「哇,他们真的做到了」的时刻是这一点:GLM-4.7 的 358B 参数版本以开放权重形式提供。
你可以:
在我的测试中,开放权重的角度对个人创作者来说意义较小(你可能会使用 API),但对需要数据控制或想构建专业内部助手的团队来说意义更大。
如果你在比较 GLM-4.7 和 GLM-4.6,这里是我同时使用两者的简短总结:
在我自己的基准测试集(大约 40 个我在不同模型中重复使用的真实任务)中,GLM-4.7 比 GLM-4.6 多解决了约 18–20% 的复杂编码任务,而无需额外的提示。
所以如果你仍在使用 4.6 进行任何严肃的工作,GLM-4.7 不是一个表面上的升级,而是 GLM 系列中的新基准。
规格不能说明一切,但在GLM-4.7中,有一些规格直接关系到你每天的实际使用。
GLM-4.7配备了一个20万token的上下文窗口。用人类的术语来说,这相当于:
在我的测试中:
延迟确实增加了,从较小输入的约3到4秒增加到处理这个庞大输入的约13到18秒,但它没有崩溃或出现严重的幻想,这通常是长上下文营销宣传的致命因素。
故事的另一半是输出。GLM-4.7支持最多12.8万token的生成文本。
我用一个合成测试来考验它:“生成一个完整的课程大纲加解释和示例(约8万token)。”结果是:
对于创作者来说,这意味着你可以实际:
你可能不会每天都需要 100K+ 输出,但知道 GLM-4.7 的上限如此之高,使其在长文档处理和大型代码库工作中非常有吸引力。
从纸面上看,GLM-4.7 是一个具有开放权重的 358B 参数模型。
实际上,这在我的测试中意味着:
如果你一直在问自己 GLM-4.7 是什么,以及为什么它重要,这是一个重要原因:它真实地推动了开放权重的前沿,而不仅仅是“另一个带有市场噱头的 30B 级模型”。
好吧,基准测试很可爱,但我关心的是我的工作流程发生了什么变化。我通过我用来检查新模型的编码、推理和工具使用任务运行了 GLM-4.7 和 GLM-4.6。
官方数据显示,GLM-4.7 在 SWE-bench 上达到了 73.8,这是一个解决实际 GitHub 问题的高分。
在我自己的编码测试中(约 25 项任务):
这些任务包括:
关键差异在于:GLM-4.7 不仅编写了补丁,还经常正确引用失败的测试输出,并以一致的方式更新多个文件。4.6 有时修复了立即错误,但破坏了其他部分。
基准测试中没有体现的一件事是:氛围编码,即前端的布局、文案和微交互的组合。
我向 GLM-4.7 提供了这样的提示:
“设计一个极简 AI 写作工具的登陆页面。使用 TailwindCSS + React。营造出宁静但自信的感觉,带有细微动画。”
与 GLM-4.6 相比,GLM-4.7:
如果你的工作流程涉及前端生成或优化 UI/UX 想法,GLM-4.7 会更加令人愉悦。它更好地理解美学提示,并将其转化为合理的 HTML/CSS/JS。
我还对 GLM-4.7 进行了小型代理工作流的压力测试:
目标:更新配置、调整代码,并根据检索的信息编写一份简短的更改日志。
超过 20 次运行:
令人印象深刻的是 GLM-4.7 如何处理遵循模式的 JSON。它几乎从不虚构额外的字段,这使得在生产风格的代理流程中不那么令人烦恼。
在推理方面,GLM-4.7 在 HLE(幻觉与逻辑评估)中得分 42.8,这是一种强调它更擅长不凭空捏造和遵循逻辑链的高级说法。
我对该测试的更人性化版本:
GLM-4.7:
如果你在做研究笔记、政策草案或任何复杂推理比字数更重要的工作,GLM-4.7 感觉像是一个更安全、更透明的伙伴。
现在是大家静静翻到的部分:GLM-4.7 的价格是多少,以及如何实际使用?
智谱对 GLM-4.7 的公开定价为:
实际上,这对我进行的一次长文档测试意味着:
与其他前沿模型相比,GLM-4.7 的性价比相当有竞争力,特别是如果你依赖于长上下文功能。
对于独立创作者和个人开发者,每月 $3 的 GLM 编码计划是相当有趣的选择之一。
你可以在 GLM-4.7 级模型上获得一个编码优化的环境,根据我的经验,足够用来:
在一个为期 5 天的时间里,我强迫自己在所有与代码相关的事情上使用它,我估计它每天为我节省了 1.5 到 2 小时的样板代码、重构和测试编写时间。
三美元,如果你对编程有些认真,那这是个不费脑筋的选择。
如果你想要完全控制,可以从 Hugging Face 获取 GLM-4.7 的开源权重并自行托管。
不过,现实情况是:
但对于能够处理的团队来说,本地运行 GLM-4.7 意味着:
如果你最初的问题只是“什么是 GLM-4.7,我怎么调用 API”,你可以忽略这部分。如果你对基础设施感兴趣,Hugging Face 路线是这个版本中最引人注目的部分之一。
这里是 GLM-4.7 真正占据我工作流程一席之地的地方。
如果你的工作涉及:
……GLM-4.7 的 200K 上下文和 128K 输出组合非常有用。
从我的测试中的例子:
与其他工具将所有内容切割成10到20个块相比,GLM-4.7至少减少了50%到60%的人工开销。
GLM-4.7更强的工具使用能力和更好的JSON规范使其成为多步骤代理工作流的优秀大脑。
例如,我将它连接到一个小型管道中:
成功率(意味着:无架构错误,补丁干净应用,变更日志准确):
如果你正在玩弄代理或构建内部助手,这正是GLM-4.7悄然闪耀的地方。
对于情感编码,GLM-4.7感觉就像有一个真正倾听的初级设计师加前端开发人员。
在我的测试中表现良好的用例:
如果你是希望在不打开Figma的情况下迭代UI想法的独立创作者或营销人员,GLM-4.7是一个令人惊讶的有力伙伴,尤其当你以参考资料锚定它时,比如“让它感觉像Linear”或“更接近Notion的美学,但更温暖。”
当人们问我GLM-4.7与其他模型相比有什么优势时,我会这样描述:
在我目前的个人技术堆栈中:
从独立创作者/市场营销人员的角度来看,这里是实用的要点:
那么,用一句话来概括 GLM-4.7 是什么?
它是一个 358B 参数、200K 上下文、编码能力强、开放权重的前沿模型,终于让长上下文 + 高质量推理的使用感变得实用,而不仅仅是展示用。
如果你感兴趣,我的建议很简单:选择一个工作流、长 PDF 分析、一个棘手的编码问题或一个小型代理管道,将其与当前的最爱一起通过 GLM-4.7 运行。差异比读起来更容易感受到。
这一周的测试让我更加确信: 像 GLM-4.7 这样的模型不仅变得更聪明——它们正在成为我们思考、计划和决策的基础设施。
这其实就是我们构建Macaron的原因。 不是另一个“加快工作速度”的 AI,而是一个能够安静地为任务挑选合适模型的个人助手——无论是编码、阅读、计划,还是仅仅是思考——让 AI 融入生活,而不是让生活围着 AI 转。
如果你想知道这种体验在实践中的感觉,可以在这里试试: → 免费试用 Macaron