当我第一次坐下来想弄清楚 GLM-4.7 在实际操作中究竟是什么(而不仅仅是新闻稿中的语言)时,我预期会是“又一个前沿模型的提升”。稍微更好的基准测试、关于推理的模糊声明,除此之外没什么别的了。

结果……并非如此。

在对 GLM-4.7 进行了为期一周的测试,包括编码、长文档审阅以及一些代理式工作流程之后,我最终重新调整了一些默认工具。这个模型占据了一个非常特别的领域:巨大的上下文、强大的编码能力,以及358B参数的开放权重,这不是我在2025年会想到会写下的一句话。

让我带你了解 GLM-4.7 实际上是什么,它的行为如何,以及它在创作者/独立开发者工作流程中实际适合的位置。

GLM-4.7 概览:智谱刚刚发布了什么

如果你之前使用过 GLM-4、GLM-4-Air 或 GLM-4.6,GLM-4.7 是智谱的“我们不再玩闹了”版本。想象一下:前沿级推理+大上下文+针对生产API和高级用户的开放权重。

发布日期

Zhipu 在 2024 年底悄然推出了 GLM-4.7,然后在 2025 年初开始大力推广,作为他们在编程和推理方面的新旗舰。当我开始测试时,文档中已经将其引用为默认的高端 GLM 模型。

你通常会在 Zhipu API 中看到类似 glm-4.7 的标识,并在 Hugging Face 上作为 358B 开放权重发布供自托管。

模型定位

在实际使用后,我会这样总结模型定位:

  • 级别:前沿级别的通用 LLM
  • 重点:编程、复杂推理和长上下文任务
  • 目标用户:需要强大编程帮助和长文档工作流的团队:喜欢开放权重的独立开发者:研究人员

在 Zhipu 自己的生态系统中,GLM-4.7 被定位为他们在编程和推理方面的最佳模型,并在 SWE-bench 和 HLE 等基准测试中取得了胜利。在现实中,这大致意味着:当你更注重质量而不是每个 token 的原始成本时,这就是你的选择。

开放权重的可用性

对我来说,最大的「哇,他们真的做到了」的时刻是这一点:GLM-4.7 的 358B 参数版本以开放权重形式提供

你可以:

  • 从 Hugging Face 拉取
  • 在你自己的基础设施上运行(假设你有非常不平凡的硬件)
  • 为你自己的领域微调或进行 LoRA 适配

在我的测试中,开放权重的角度对个人创作者来说意义较小(你可能会使用 API),但对需要数据控制或想构建专业内部助手的团队来说意义更大。

与 GLM-4.6 的关系

如果你在比较 GLM-4.7 和 GLM-4.6,这里是我同时使用两者的简短总结:

  • GLM-4.7 在编码方面显著更好(尤其是多文件和测试感知的重构)
  • 在困难的多步骤任务中,推理更稳定,而不仅仅是「偶尔出彩」
  • 工具使用更流畅:它更可靠地遵循函数签名和模式

在我自己的基准测试集(大约 40 个我在不同模型中重复使用的真实任务)中,GLM-4.7 比 GLM-4.6 多解决了约 18–20% 的复杂编码任务,而无需额外的提示。

所以如果你仍在使用 4.6 进行任何严肃的工作,GLM-4.7 不是一个表面上的升级,而是 GLM 系列中的新基准。

你需要知道的核心规格

规格不能说明一切,但在GLM-4.7中,有一些规格直接关系到你每天的实际使用。

20万上下文窗口

GLM-4.7配备了一个20万token的上下文窗口。用人类的术语来说,这相当于:

  • 大约13万到15万个单词
  • 或几本完整的书籍
  • 或一个复杂的monorepo加上文档和配置文件一并处理

在我的测试中:

  • 我加载了一个620页的PDF(约18万token),并要求生成结构化摘要和问答指南。
  • GLM-4.7在一次处理完成,无需手动分块。

延迟确实增加了,从较小输入的约3到4秒增加到处理这个庞大输入的约13到18秒,但它没有崩溃或出现严重的幻想,这通常是长上下文营销宣传的致命因素。

12.8万最大输出长度

故事的另一半是输出。GLM-4.7支持最多12.8万token的生成文本。

我用一个合成测试来考验它:“生成一个完整的课程大纲加解释和示例(约8万token)。”结果是:

  • 完成没有在句中截断
  • 保持了95%以上的主题一致性(这是我粗略的手动抽样)

对于创作者来说,这意味着你可以实际:

  • 在一个会话中生成书籍长度的草稿
  • 请求完整的前端组件库或 API 客户端集
  • 构建大规模知识库风格的答案,而无需不断重复提示

你可能不会每天都需要 100K+ 输出,但知道 GLM-4.7 的上限如此之高,使其在长文档处理和大型代码库工作中非常有吸引力。

358B 参数与开放权重

从纸面上看,GLM-4.7 是一个具有开放权重的 358B 参数模型。

实际上,这在我的测试中意味着:

  • 质量和稳定性更接近专有前沿模型,而不是大多数开放权重选项
  • 在多步骤问题的推理上(尤其是数学、代码和文本结合)比我常用的中档开放模型提高了 15-25%
  • 自我托管比较重,但如果你这样做,你不会遇到“开放但质量平平”的常见权衡

如果你一直在问自己 GLM-4.7 是什么,以及为什么它重要,这是一个重要原因:它真实地推动了开放权重的前沿,而不仅仅是“另一个带有市场噱头的 30B 级模型”。

GLM-4.7 比 GLM-4.6 做得更好的地方

好吧,基准测试很可爱,但我关心的是我的工作流程发生了什么变化。我通过我用来检查新模型的编码、推理和工具使用任务运行了 GLM-4.7 和 GLM-4.6。

核心编码性能 (SWE-bench 73.8)

官方数据显示,GLM-4.7 在 SWE-bench 上达到了 73.8,这是一个解决实际 GitHub 问题的高分。

在我自己的编码测试中(约 25 项任务):

  • GLM-4.7 在不修改代码的情况下完全解决了 20/25 项任务(80%)
  • GLM-4.6 在相同提示下解决了 15/25 项任务(60%)

这些任务包括:

  • 修复 Python 库中失败的单元测试
  • 将混乱的 TypeScript 文件重构为模块化组件
  • 编写小型后端端点及相关测试

关键差异在于:GLM-4.7 不仅编写了补丁,还经常正确引用失败的测试输出,并以一致的方式更新多个文件。4.6 有时修复了立即错误,但破坏了其他部分。

氛围编码和前端美学

基准测试中没有体现的一件事是:氛围编码,即前端的布局、文案和微交互的组合。

我向 GLM-4.7 提供了这样的提示:

“设计一个极简 AI 写作工具的登陆页面。使用 TailwindCSS + React。营造出宁静但自信的感觉,带有细微动画。”

与 GLM-4.6 相比,GLM-4.7:

  • 创建了更简洁的组件结构(减少了大型组件)
  • 使用了更现代的 Tailwind 模式
  • 生成的文案感觉不那么生硬,更接近可以轻松编辑和发布的状态

如果你的工作流程涉及前端生成或优化 UI/UX 想法,GLM-4.7 会更加令人愉悦。它更好地理解美学提示,并将其转化为合理的 HTML/CSS/JS。

工具使用和代理执行

我还对 GLM-4.7 进行了小型代理工作流的压力测试:

  • 工具 1: 搜索
  • 工具 2: 内部文档查找
  • 工具 3: 文件编辑器

目标:更新配置、调整代码,并根据检索的信息编写一份简短的更改日志。

超过 20 次运行:

  • GLM-4.7 正确使用工具的次数为 18/20(90%)
  • GLM-4.6 管理了 14/20(70%)

令人印象深刻的是 GLM-4.7 如何处理遵循模式的 JSON。它几乎从不虚构额外的字段,这使得在生产风格的代理流程中不那么令人烦恼。

复杂推理(HLE 42.8)

在推理方面,GLM-4.7 在 HLE(幻觉与逻辑评估)中得分 42.8,这是一种强调它更擅长不凭空捏造和遵循逻辑链的高级说法。

我对该测试的更人性化版本:

  • 长提示,包含相互矛盾的要求
  • 数据表 + 叙述总结
  • 要求它推导出一个决策,并给出清晰的逐步理由

GLM-4.7:

  • 明确标记缺失或模糊数据在约 70% 的边缘案例中(这是个好迹象)
  • 比 4.6 更少出现「自信但错误」的判断
  • 生成的推理步骤我可以实际跟随和审核

如果你在做研究笔记、政策草案或任何复杂推理比字数更重要的工作,GLM-4.7 感觉像是一个更安全、更透明的伙伴。

定价和访问

现在是大家静静翻到的部分:GLM-4.7 的价格是多少,以及如何实际使用?

API 定价($0.6/百万输入,$2.2/百万输出)

智谱对 GLM-4.7 的公开定价为:

  • 每百万输入 token $0.60
  • 每百万输出 token $2.20

实际上,这对我进行的一次长文档测试意味着:

  • 输入:约 16 万个 token → 约 $0.10
  • 输出:约 1.8 万个 token → 约 $0.04
  • 总计:约 $0.14 用于一次严肃的、多小时人力等效的阅读和综合

与其他前沿模型相比,GLM-4.7 的性价比相当有竞争力,特别是如果你依赖于长上下文功能。

GLM 编码计划($3/月)

对于独立创作者和个人开发者,每月 $3 的 GLM 编码计划是相当有趣的选择之一。

你可以在 GLM-4.7 级模型上获得一个编码优化的环境,根据我的经验,足够用来:

  • 作为你日常的主要编码助手
  • 替代你通常在 GitHub Copilot 或类似工具中做的一部分工作

在一个为期 5 天的时间里,我强迫自己在所有与代码相关的事情上使用它,我估计它每天为我节省了 1.5 到 2 小时的样板代码、重构和测试编写时间。

三美元,如果你对编程有些认真,那这是个不费脑筋的选择。

通过 Hugging Face 自行托管

如果你想要完全控制,可以从 Hugging Face 获取 GLM-4.7 的开源权重并自行托管。

不过,现实情况是:

  • 358B 参数并不是一个随意的业余爱好托管规模
  • 你需要进入多 GPU、严肃操作的领域

但对于能够处理的团队来说,本地运行 GLM-4.7 意味着:

  • 数据永远不会离开你的基础设施
  • 可以进行特定领域的微调
  • 延迟可以根据你的技术栈进行调整,而不是共享公共基础设施

如果你最初的问题只是“什么是 GLM-4.7,我怎么调用 API”,你可以忽略这部分。如果你对基础设施感兴趣,Hugging Face 路线是这个版本中最引人注目的部分之一。

GLM-4.7 的最佳使用场景

这里是 GLM-4.7 真正占据我工作流程一席之地的地方。

长文档处理

如果你的工作涉及:

  • 报告
  • 研究 PDF
  • 知识库
  • 大型 Notion 导出

……GLM-4.7 的 200K 上下文和 128K 输出组合非常有用。

从我的测试中的例子:

  • 我给它输入了一个包含 170K 令牌的产品研究、路线图笔记和用户反馈的捆绑包
  • 让它提供:优先路线图、风险分析和消息指南
  • 它一次性生成了一个连贯的计划,我随后进行了轻微编辑

与其他工具将所有内容切割成10到20个块相比,GLM-4.7至少减少了50%到60%的人工开销。

多步骤代理工作流

GLM-4.7更强的工具使用能力和更好的JSON规范使其成为多步骤代理工作流的优秀大脑。

例如,我将它连接到一个小型管道中:

  1. 搜索文档
  2. 检查代码
  3. 提出补丁
  4. 编写变更日志

成功率(意味着:无架构错误,补丁干净应用,变更日志准确):

  • GLM-4.7:约85%–90%在20次试验中
  • 中档开放模型:约60%–65%在相同设置下

如果你正在玩弄代理或构建内部助手,这正是GLM-4.7悄然闪耀的地方。

前端生成(情感编码)

对于情感编码,GLM-4.7感觉就像有一个真正倾听的初级设计师加前端开发人员。

在我的测试中表现良好的用例:

  • 第一版登陆页面草稿,文案不错
  • 带有设计系统注释的组件库
  • 布局或主视觉区的快速A/B变体

如果你是希望在不打开Figma的情况下迭代UI想法的独立创作者或营销人员,GLM-4.7是一个令人惊讶的有力伙伴,尤其当你以参考资料锚定它时,比如“让它感觉像Linear”或“更接近Notion的美学,但更温暖。”

下一步:将GLM-4.7与其他模型进行比较

当人们问我GLM-4.7与其他模型相比有什么优势时,我会这样描述:

  • 如果你想要极致的打磨和生态系统:你仍然会关注常规前沿的封闭模型
  • 如果你想要完全开放的小型模型用于本地项目:你会选择 7B–70B 的模型
  • 如果你想要前沿级别的质量并且具有开放权重和长上下文:GLM-4.7 突然变得非常有趣

在我目前的个人技术堆栈中:

  • 当我需要严肃的编码帮助、长文档综合或多步骤代理流程时,我会选择 GLM-4.7
  • 我仍然使用其他模型进行快速、廉价的头脑风暴,或者在特定供应商工具锁定我的情况下

从独立创作者/市场营销人员的角度来看,这里是实用的要点:

  • 如果你想要一个便宜且高质量的编码伙伴,请使用 GLM 编码计划
  • 当你将长上下文工作流构建到产品中时,请使用 API
  • 仅在你已经具备基础设施能力时考虑自托管:否则不必为此烦恼

那么,用一句话来概括 GLM-4.7 是什么?

它是一个 358B 参数、200K 上下文、编码能力强、开放权重的前沿模型,终于让长上下文 + 高质量推理的使用感变得实用,而不仅仅是展示用。

如果你感兴趣,我的建议很简单:选择一个工作流、长 PDF 分析、一个棘手的编码问题或一个小型代理管道,将其与当前的最爱一起通过 GLM-4.7 运行。差异比读起来更容易感受到。

这一周的测试让我更加确信: 像 GLM-4.7 这样的模型不仅变得更聪明——它们正在成为我们思考、计划和决策的基础设施

这其实就是我们构建Macaron的原因。 不是另一个“加快工作速度”的 AI,而是一个能够安静地为任务挑选合适模型的个人助手——无论是编码、阅读、计划,还是仅仅是思考——让 AI 融入生活,而不是让生活围着 AI 转。

如果你想知道这种体验在实践中的感觉,可以在这里试试: 免费试用 Macaron

Nora 是 Macaron 的增长负责人。在过去两年中,她专注于 AI 产品的增长,成功将多个产品从 0 推向 1。她在增长策略方面拥有丰富的经验。

申请成为 Macaron 的首批朋友