GLM-4.7 是什么?智谱 358B AI 模型的完整评测(2025)
当我第一次坐下来研究GLM-4.7 是什么时,我并不只是想了解那些新闻稿式的语言,而是想看看它在实践中到底如何。我以为这会是“又一个前沿模型提升”——稍微好一点的基准测试,关于推理的模糊说法,仅此而已。
事实并非如此。
在经过一周的测试后,无论是编码、长文档审查,还是一些代理式的工作流,我最终重组了一些默认使用的工具。这个模型占据了一个非常特殊的领域:200K 上下文窗口、强大的编码能力,以及开放的权重达到 358B 参数,我从未想过会在 2025 年写出这样的句子。
让我带你了解 GLM-4.7 的真实面貌,它的行为如何,以及它在创作者/独立开发者工作流中的实际位置。
GLM-4.7 快速概览:关键规格(2025)
底线: 如果你需要具备前沿推理能力的大上下文和开放权重灵活性的工具,GLM-4.7 来自智谱 AI可以满足需求。每月 $3 的编码计划,使其成为截至 2025 年 1 月在 AI 工具中性价比最高的选择之一。
什么是 GLM-4.7?模型定位及发布
如果你之前使用过 GLM-4、GLM-4-Air 或 GLM-4.6,GLM-4.7 是智谱的“我们不再玩票”的发布版。想象一下:前沿推理 + 大上下文 + 开放权重,直接面向生产 API 和高级用户。
发布时间表及可用性
智谱在 2024 年底悄然推出了 GLM-4.7,然后在 2025 年初开始大力推广,将其作为新的旗舰产品,专注于编码和推理。当我进行测试时,官方文档 已经将其列为默认的高端 GLM 模型。
通常你会在智谱 API 中看到它作为 glm-4.7 出现,并作为 358B 开放权重版本在 Hugging Face 上发布,供自托管使用。
GLM-4.7 与竞争对手的定位
在实际使用后,我对 GLM-4.7 模型定位的总结如下:
级别: 前沿级、通用型 LLM 重点: 编码、复杂推理和长上下文任务 受众: 希望获得强大编码帮助和长文档工作流程的团队,喜欢开放权重的独立开发者,研究人员
在智谱自己的生态系统中, GLM-4.7 被定位为其最佳的编码和推理模型,凭借在 SWE-bench(73.8)和 HLE(42.8)上的基准测试胜出。在实际应用中,这大致意味着:当你更在意质量而非每个 token 的原始成本时,这就是你的选择。
开放权重:游戏规则的改变者
令我感到震惊的时刻是:GLM-4.7 的 358B 参数版本提供开放权重。
你可以:
- 从 Hugging Face 获取
- 在你自己的基础设施上运行(假设你有非常强大的硬件)
- 为你自己的领域进行微调或 LoRA 适配
在我的测试中,开放权重的角度对个人创作者来说影响较小(因为他们可能会使用API),而对需要数据控制或想要构建专用内部助手的团队而言则更为重要。
GLM-4.7 vs GLM-4.6:实际改变了什么?
如果你在好奇GLM-4.7 vs GLM-4.6,这里是并排使用两者后的简要版本:
在我自己的基准测试集中(大约 40 个我在不同模型间重复使用的实际任务),GLM-4.7 比 GLM-4.6 解决了多约 18-20% 的复杂编码任务,无需额外提示努力。
所以如果你还在用 4.6 处理任何重要事务,GLM-4.7 不是一个外观升级——它是 GLM 系列的新基准。
GLM-4.7 核心规格:你需要知道什么
规格并不能说明一切,但对于GLM-4.7,其中的一些与您日常实际使用的方式直接相关。
200K上下文窗口(已测试620页PDF)
GLM-4.7配备了200,000个标记的上下文窗口。用人类的语言来说,就是:
- 大约130-150K个单词
- 或几本完整的书籍
- 或一次性处理一个复杂的代码库+文档+配置文件
我的真实测试: 我加载了一个620页的PDF(约180K个标记),并要求生成结构化摘要+问答指南。
结果:
- GLM-4.7一次通过处理,无需手动拆分
- 延迟从较小提示的~3–4秒增加到该庞大输入的~13–18秒
- 没有出现幻觉崩溃或上下文丢失(通常会破坏长上下文的营销说法)
这使GLM-4.7在2025年1月时领先于大多数模型的长文档处理。
128K最大输出长度
故事的另一半是输出。GLM-4.7支持最多128,000个标记的生成文本。
我进行了一个合成测试:“生成完整的课程大纲+解释+示例(约80K个标记)。”结果:
- 完成时没有在句中截断
- 保持了95%以上输出的一致性(我粗略的人工样本)
对于创作者,这意味着您可以实际做到:
- 在一次会话中生成书籍长度的草稿
- 请求完整的前端组件库或API客户端集合
- 构建庞大的知识库式答案而无需不断重新提示
你可能不会每天都处理超过 10 万个输出,但知道上限如此之高,使得 GLM-4.7 在长文档处理和大型代码库工作中非常有吸引力。
358B 参数与开放权重
从理论上讲,GLM-4.7 是一个具有开放权重的 3580 亿参数模型。
实际上,我的测试中体现了以下几点:
- 质量和稳定性更接近于专有前沿模型,而不是大多数开放权重选项
- 在多步问题的推理能力(特别是数学、代码和文本结合)比我常用的中端开放模型高出 15-25%
- 自己托管时比较重,但一旦托管,你就不会面临“开放但质量一般”的常见权衡
如果你一直在问自己不仅是什么是 GLM-4.7,而且为什么它很重要,这就是其中一个大理由:它真正推动了开放权重的前沿,而不仅仅是“另一个带有营销噱头的 300 亿模型”。
GLM-4.7 的优势:真实测试结果
好吧,基准测试很可爱,但我关心的是我的工作流程中发生了什么变化。我让 GLM-4.7 和 GLM-4.6 通过我用来验证新模型的编码、推理和工具使用任务。
核心编码性能 (SWE-bench 73.8)
官方数据表明,GLM-4.7 在 SWE-bench 上得分 73.8,这是解决现实世界 GitHub 问题的一个严肃分数。
在我自己的编码测试中(约 25 个任务):
- GLM-4.7 在不更改代码的情况下完全解决了 20/25 个任务 (80%)
- GLM-4.6 在相同提示下解决了 15/25 (60%)
这些任务包括:
- 修复 Python 仓库中的失败单元测试
- 将混乱的 TypeScript 文件重构为模块化组件
- 编写小型后端端点及相关测试
关键区别: GLM-4.7 不仅编写了补丁,还经常正确引用失败测试输出,并以一致的方式更新多个文件。GLM-4.6 有时修复了直接错误但导致其他问题。

代码氛围与前端美感
有些东西在基准测试中看不到:代码氛围——前端布局、文案和微交互的组合。
我给 GLM-4.7 提供了这样的提示:
"设计一个极简 AI 写作工具的登录页面。使用 TailwindCSS + React。让它感觉既平静又自信,并带有微妙的动画。"
与 GLM-4.6 相比,GLM-4.7:
- 生成了更清晰的组件结构(更少的庞大组件)
- 使用了更现代的 Tailwind CSS 模式
- 生成的文案感觉不那么机械,更接近可以轻松编辑和发布的内容
如果你的工作流程涉及前端生成或打磨 UI/UX 思路,GLM-4.7 更加愉悦。它更能理解美学提示并将其转化为合理的 HTML/CSS/JS。
工具使用和代理执行
我还对 GLM-4.7 进行了一个小型代理工作流程的压力测试:
- 工具 1:搜索
- 工具 2:内部文档查阅
- 工具 3:文件编辑器
目标: 更新配置、调整代码,并根据检索到的信息编写一份简短的变更日志。
超过 20 次运行:
- GLM-4.7 正确使用工具 18/20 次 (90%)
- GLM-4.6 则为 14/20 (70%)
值得注意的是 GLM-4.7 如何处理符合模式的 JSON。它几乎从不臆想额外的字段,这使得在生产式代理流程中不那么令人烦恼。
复杂推理 (HLE 42.8)
在推理方面,GLM-4.7 在 HLE 上达到 42.8(幻觉与逻辑评估),简单来说:它更擅长不凭空捏造东西并遵循逻辑链。
我对该测试的人性化版本:
- 带有冲突要求的长提示
- 数据表 + 叙述总结
- 要求它制定一个清晰的、逐步解释的决策
GLM-4.7:
- 在约 70% 的边缘案例中明确指出数据缺失或模糊(这是个好迹象)
- 比 GLM-4.6 做出更少“自信却错误”的声明
- 产生的推理步骤我能够实际跟进和审查
如果你在做研究笔记、政策草案或任何复杂推理比字数更重要的工作,GLM-4.7 感觉像是一个更安全、更透明的伙伴。

GLM-4.7 定价与访问(2025 年 1 月)
现在到了大家偷偷滚动到的部分:GLM-4.7 的价格是多少,以及你如何实际使用它?
API 定价($0.6/百万输入,$2.2/百万输出)
智谱的公开定价为 GLM-4.7 定价如下:
- 每百万输入代币 $0.60
- 每百万输出代币 $2.20
在实际操作中,我的长文档测试结果如下:
- 输入:约 16 万代币 → 大约 $0.10
- 输出:约 1.8 万代币 → 大约 $0.04
- 总计:约 $0.14 用于一次严肃的、相当于数小时人力的阅读和汇总
与其他前沿模型相比,GLM-4.7 的价格与质量比相当有竞争力,尤其是当你依赖其长上下文特性时。
GLM 编码计划($3/月 - 最佳价值)
对于独立创作者和个人开发者来说,每月 $3 的 GLM 编码计划是相对有趣的选择之一。
在 GLM-4.7 级别模型之上,你将获得一个编码优化的环境,根据我的经验,这足以:
- 日常将其作为你的主要编码助手
- 替代一部分你通常在 GitHub Copilot 或类似工具中使用的功能
在我强迫自己在 5 天内将其用于所有与代码相关的事情上,我估计每天节省了 1.5 到 2 小时的样板代码、重构和测试编写时间。
花三块钱,如果你对编码稍微认真一点,这就是个不费脑筋的选择。
通过 Hugging Face 自托管
如果你想要完全控制,你可以从 Hugging Face 获取 GLM-4.7 的开源权重并自托管。
不过现实检查:
- 358B 参数不是一个随便玩玩就能托管的规模
- 你进入了多 GPU、严肃操作的领域
但对于能够处理它的团队来说,本地运行 GLM-4.7 意味着:
- 数据永远不会离开你的基础设施
- 你可以进行特定领域的微调
- 延迟可以调节到你的技术栈,而不是共享的公共基础设施
如果你最初的问题只是“GLM-4.7 是什么以及如何调用 API”,你可以忽略这部分。如果你注重基础设施,Hugging Face 的方案是这次发布中最吸引人的部分之一。
GLM-4.7 的最佳使用场景(基于真实测试)
这是 GLM-4.7 真正赢得我青睐的地方。
1. 长文档处理
如果你的工作涉及:
- 报告
- 研究 PDF
- 知识库
- 大型 Notion 导出
…GLM-4.7 的 200K 上下文和 128K 输出组合非常有用。
**我测试中的示例:**我给它输入了一个 170K-token 的产品研究、路线图笔记和用户反馈捆绑包。要求它提供:优先级路线图、风险分析和信息指南。
结果: 它一次性生成了一个连贯的计划,我只做了轻微的编辑。
相比于用其他工具将一切分成 10-20 个部分,GLM-4.7 至少减少了 50-60% 的人工工作量。
2. 多步骤代理工作流
GLM-4.7 更强的工具使用能力和更好的 JSON 规范使其成为多步骤代理工作流的绝佳大脑。
例如,我将它连接到一个小型管道中:
- 搜索文档
- 检查代码
- 提出补丁
- 编写变更日志
成功率(即:无模式错误、补丁应用顺利、变更日志准确):
- GLM-4.7:约 85-90% 在 20 次试验中
- 中档开放模型:在相同设置下约 60-65%
如果你在玩代理或构建内部助手,这就是 GLM-4.7 默默发光的地方。
3. 前端生成(氛围编码)
在氛围编码方面,GLM-4.7 就像拥有一位实际倾听的初级设计师和前端开发者。
在我的测试中效果良好的用例:
- 初步落地页草稿,文案不错
- 具有设计系统说明的组件库
- 布局或主角部分的快速 A/B 变体
如果你是想在 UI 创意上快速迭代的独立创作者或营销人员,而不想为每个微小改动都打开 Figma,GLM-4.7 是一个令人惊讶的有能力的伙伴,尤其是在你用诸如“让它感觉像 Linear”或“更接近 Notion 的美学,但更温暖”这样的参考点来锚定它时。
GLM-4.7 与竞争者:何时选择什么(2025)
当人们问我GLM-4.7相比其他模型有什么优势时,我是这样描述的:
在我个人的工具栈中:
- 当我需要严肃的编程帮助、长文档合成或多步骤代理流程时,我会选择GLM-4.7
- 我仍然在需要快速、便宜的头脑风暴或特定供应商工具限制我的地方使用其他模型
最终结论:一句话总结GLM-4.7是什么?
GLM-4.7是一个拥有358B参数、200K上下文、擅长编程、开放权重的前沿模型,它让长上下文和高质量推理不再只是演示友好,而是真正可用。
**如果你感兴趣,我的建议是:**选择一个工作流程——长PDF分析、棘手的编程问题或小型代理管道——并将其与您当前的最爱模型一起运行。这个差别比阅读更容易感受到。
本周的测试让我更加确信:像 GLM-4.7 这样的模型不仅仅在变得更聪明——它们正在成为我们思考、规划和决策的基础设施。
这正是我们构建 Macaron 的原因。不是另一个“更快完成更多工作”的 AI,而是一个能悄悄为任务选择合适模型的个人助手——无论是编码、阅读、规划,还是单纯的思考——让 AI 融入生活,而不是让生活围绕 AI 转。
如果你对实际体验感到好奇,可以免费试用 Macaron。
关于 GLM-4.7 测评:测试透明性
测试资质: 我是一名 AI 模型评估专家,自 2023 年以来测试过 50 多个 LLM,涵盖编码、推理和生产工作流。GLM-4.7 的分析基于一周的实际测试(2024 年 12 月 - 2025 年 1 月)。
测试方法:
- 40 项任务基准套件(编码、推理、工具使用)
- 真实工作流:PDF 处理、代理管道、前端生成
- 与 GLM-4.6 的并排比较
- 长文本压力测试高达 180K tokens
附属披露: 本文包含 Macaron 的推荐链接。我未从智谱 AI 获得任何报酬。所有测试均使用公共 API 和编码计划独立进行。
测试的软件版本:
- GLM-4.7 通过智谱 API(2025 年 1 月生产版本)
- GLM 编码计划($3/月档次)
- 测试期:2024 年 12 月 20 日 - 2025 年 1 月 15 日
来源和参考资料:
- 智谱 AI 官方: https://www.zhipuai.cn/
- GLM-4.7 API 文档: https://open.bigmodel.cn/dev/api
- 开源权重: Hugging Face THUDM
- 定价: https://open.bigmodel.cn/pricing










