当我第一次坐下来研究GLM-4.7 是什么时,我并不只是想了解那些新闻稿式的语言,而是想看看它在实践中到底如何。我以为这会是“又一个前沿模型提升”——稍微好一点的基准测试,关于推理的模糊说法,仅此而已。
事实并非如此。
在经过一周的测试后,无论是编码、长文档审查,还是一些代理式的工作流,我最终重组了一些默认使用的工具。这个模型占据了一个非常特殊的领域:200K 上下文窗口、强大的编码能力,以及开放的权重达到 358B 参数,我从未想过会在 2025 年写出这样的句子。
让我带你了解 GLM-4.7 的真实面貌,它的行为如何,以及它在创作者/独立开发者工作流中的实际位置。
底线: 如果你需要具备前沿推理能力的大上下文和开放权重灵活性的工具,GLM-4.7 来自智谱 AI可以满足需求。每月 $3 的编码计划,使其成为截至 2025 年 1 月在 AI 工具中性价比最高的选择之一。
如果你之前使用过 GLM-4、GLM-4-Air 或 GLM-4.6,GLM-4.7 是智谱的“我们不再玩票”的发布版。想象一下:前沿推理 + 大上下文 + 开放权重,直接面向生产 API 和高级用户。
智谱在 2024 年底悄然推出了 GLM-4.7,然后在 2025 年初开始大力推广,将其作为新的旗舰产品,专注于编码和推理。当我进行测试时,官方文档 已经将其列为默认的高端 GLM 模型。
通常你会在智谱 API 中看到它作为 glm-4.7 出现,并作为 358B 开放权重版本在 Hugging Face 上发布,供自托管使用。
在实际使用后,我对 GLM-4.7 模型定位的总结如下:
级别: 前沿级、通用型 LLM 重点: 编码、复杂推理和长上下文任务 受众: 希望获得强大编码帮助和长文档工作流程的团队,喜欢开放权重的独立开发者,研究人员
在智谱自己的生态系统中, GLM-4.7 被定位为其最佳的编码和推理模型,凭借在 SWE-bench(73.8)和 HLE(42.8)上的基准测试胜出。在实际应用中,这大致意味着:当你更在意质量而非每个 token 的原始成本时,这就是你的选择。
令我感到震惊的时刻是:GLM-4.7 的 358B 参数版本提供开放权重。
你可以:
在我的测试中,开放权重的角度对个人创作者来说影响较小(因为他们可能会使用API),而对需要数据控制或想要构建专用内部助手的团队而言则更为重要。
如果你在好奇GLM-4.7 vs GLM-4.6,这里是并排使用两者后的简要版本:
在我自己的基准测试集中(大约 40 个我在不同模型间重复使用的实际任务),GLM-4.7 比 GLM-4.6 解决了多约 18-20% 的复杂编码任务,无需额外提示努力。
所以如果你还在用 4.6 处理任何重要事务,GLM-4.7 不是一个外观升级——它是 GLM 系列的新基准。
规格并不能说明一切,但对于GLM-4.7,其中的一些与您日常实际使用的方式直接相关。
GLM-4.7配备了200,000个标记的上下文窗口。用人类的语言来说,就是:
我的真实测试: 我加载了一个620页的PDF(约180K个标记),并要求生成结构化摘要+问答指南。
结果:
这使GLM-4.7在2025年1月时领先于大多数模型的长文档处理。
故事的另一半是输出。GLM-4.7支持最多128,000个标记的生成文本。
我进行了一个合成测试:“生成完整的课程大纲+解释+示例(约80K个标记)。”结果:
对于创作者,这意味着您可以实际做到:
你可能不会每天都处理超过 10 万个输出,但知道上限如此之高,使得 GLM-4.7 在长文档处理和大型代码库工作中非常有吸引力。
从理论上讲,GLM-4.7 是一个具有开放权重的 3580 亿参数模型。
实际上,我的测试中体现了以下几点:
如果你一直在问自己不仅是什么是 GLM-4.7,而且为什么它很重要,这就是其中一个大理由:它真正推动了开放权重的前沿,而不仅仅是“另一个带有营销噱头的 300 亿模型”。
好吧,基准测试很可爱,但我关心的是我的工作流程中发生了什么变化。我让 GLM-4.7 和 GLM-4.6 通过我用来验证新模型的编码、推理和工具使用任务。
官方数据表明,GLM-4.7 在 SWE-bench 上得分 73.8,这是解决现实世界 GitHub 问题的一个严肃分数。
在我自己的编码测试中(约 25 个任务):
这些任务包括:
关键区别: GLM-4.7 不仅编写了补丁,还经常正确引用失败测试输出,并以一致的方式更新多个文件。GLM-4.6 有时修复了直接错误但导致其他问题。

有些东西在基准测试中看不到:代码氛围——前端布局、文案和微交互的组合。
我给 GLM-4.7 提供了这样的提示:
"设计一个极简 AI 写作工具的登录页面。使用 TailwindCSS + React。让它感觉既平静又自信,并带有微妙的动画。"
与 GLM-4.6 相比,GLM-4.7:
如果你的工作流程涉及前端生成或打磨 UI/UX 思路,GLM-4.7 更加愉悦。它更能理解美学提示并将其转化为合理的 HTML/CSS/JS。
我还对 GLM-4.7 进行了一个小型代理工作流程的压力测试:
目标: 更新配置、调整代码,并根据检索到的信息编写一份简短的变更日志。
超过 20 次运行:
值得注意的是 GLM-4.7 如何处理符合模式的 JSON。它几乎从不臆想额外的字段,这使得在生产式代理流程中不那么令人烦恼。
在推理方面,GLM-4.7 在 HLE 上达到 42.8(幻觉与逻辑评估),简单来说:它更擅长不凭空捏造东西并遵循逻辑链。
我对该测试的人性化版本:
GLM-4.7:
如果你在做研究笔记、政策草案或任何复杂推理比字数更重要的工作,GLM-4.7 感觉像是一个更安全、更透明的伙伴。

现在到了大家偷偷滚动到的部分:GLM-4.7 的价格是多少,以及你如何实际使用它?
智谱的公开定价为 GLM-4.7 定价如下:
在实际操作中,我的长文档测试结果如下:
与其他前沿模型相比,GLM-4.7 的价格与质量比相当有竞争力,尤其是当你依赖其长上下文特性时。
对于独立创作者和个人开发者来说,每月 $3 的 GLM 编码计划是相对有趣的选择之一。
在 GLM-4.7 级别模型之上,你将获得一个编码优化的环境,根据我的经验,这足以:
在我强迫自己在 5 天内将其用于所有与代码相关的事情上,我估计每天节省了 1.5 到 2 小时的样板代码、重构和测试编写时间。
花三块钱,如果你对编码稍微认真一点,这就是个不费脑筋的选择。
如果你想要完全控制,你可以从 Hugging Face 获取 GLM-4.7 的开源权重并自托管。
不过现实检查:
但对于能够处理它的团队来说,本地运行 GLM-4.7 意味着:
如果你最初的问题只是“GLM-4.7 是什么以及如何调用 API”,你可以忽略这部分。如果你注重基础设施,Hugging Face 的方案是这次发布中最吸引人的部分之一。
这是 GLM-4.7 真正赢得我青睐的地方。
如果你的工作涉及:
…GLM-4.7 的 200K 上下文和 128K 输出组合非常有用。
**我测试中的示例:**我给它输入了一个 170K-token 的产品研究、路线图笔记和用户反馈捆绑包。要求它提供:优先级路线图、风险分析和信息指南。
结果: 它一次性生成了一个连贯的计划,我只做了轻微的编辑。
相比于用其他工具将一切分成 10-20 个部分,GLM-4.7 至少减少了 50-60% 的人工工作量。
GLM-4.7 更强的工具使用能力和更好的 JSON 规范使其成为多步骤代理工作流的绝佳大脑。
例如,我将它连接到一个小型管道中:
成功率(即:无模式错误、补丁应用顺利、变更日志准确):
如果你在玩代理或构建内部助手,这就是 GLM-4.7 默默发光的地方。
在氛围编码方面,GLM-4.7 就像拥有一位实际倾听的初级设计师和前端开发者。
在我的测试中效果良好的用例:
如果你是想在 UI 创意上快速迭代的独立创作者或营销人员,而不想为每个微小改动都打开 Figma,GLM-4.7 是一个令人惊讶的有能力的伙伴,尤其是在你用诸如“让它感觉像 Linear”或“更接近 Notion 的美学,但更温暖”这样的参考点来锚定它时。
当人们问我GLM-4.7相比其他模型有什么优势时,我是这样描述的:
在我个人的工具栈中:
GLM-4.7是一个拥有358B参数、200K上下文、擅长编程、开放权重的前沿模型,它让长上下文和高质量推理不再只是演示友好,而是真正可用。
**如果你感兴趣,我的建议是:**选择一个工作流程——长PDF分析、棘手的编程问题或小型代理管道——并将其与您当前的最爱模型一起运行。这个差别比阅读更容易感受到。
本周的测试让我更加确信:像 GLM-4.7 这样的模型不仅仅在变得更聪明——它们正在成为我们思考、规划和决策的基础设施。
这正是我们构建 Macaron 的原因。不是另一个“更快完成更多工作”的 AI,而是一个能悄悄为任务选择合适模型的个人助手——无论是编码、阅读、规划,还是单纯的思考——让 AI 融入生活,而不是让生活围绕 AI 转。
如果你对实际体验感到好奇,可以免费试用 Macaron。
测试资质: 我是一名 AI 模型评估专家,自 2023 年以来测试过 50 多个 LLM,涵盖编码、推理和生产工作流。GLM-4.7 的分析基于一周的实际测试(2024 年 12 月 - 2025 年 1 月)。
测试方法:
附属披露: 本文包含 Macaron 的推荐链接。我未从智谱 AI 获得任何报酬。所有测试均使用公共 API 和编码计划独立进行。
测试的软件版本:
来源和参考资料: