GLM-4.7 是什么？智谱 358B AI 模型的完整评测（2025）

当我第一次坐下来研究GLM-4.7 是什么时，我并不只是想了解那些新闻稿式的语言，而是想看看它在实践中到底如何。我以为这会是“又一个前沿模型提升”——稍微好一点的基准测试，关于推理的模糊说法，仅此而已。

事实并非如此。

在经过一周的测试后，无论是编码、长文档审查，还是一些代理式的工作流，我最终重组了一些默认使用的工具。这个模型占据了一个非常特殊的领域：200K 上下文窗口、强大的编码能力，以及开放的权重达到 358B 参数，我从未想过会在 2025 年写出这样的句子。

让我带你了解 GLM-4.7 的真实面貌，它的行为如何，以及它在创作者/独立开发者工作流中的实际位置。

GLM-4.7 快速概览：关键规格（2025）

规格

GLM-4.7 详细信息

参数

358B（开放权重可用）

上下文窗口

200,000 个标记（约 150K 字）

最大输出

128,000 个标记

API 价格

$0.60/百万输入标记, $2.20/百万输出

发布日期

2024 年底（2025 年初 GA）

最佳用途

编码、长文档处理、代理工作流

开放权重

是，通过 Hugging Face

底线： 如果你需要具备前沿推理能力的大上下文和开放权重灵活性的工具，GLM-4.7 来自智谱 AI可以满足需求。每月 $3 的编码计划，使其成为截至 2025 年 1 月在 AI 工具中性价比最高的选择之一。

什么是 GLM-4.7？模型定位及发布

如果你之前使用过 GLM-4、GLM-4-Air 或 GLM-4.6，GLM-4.7 是智谱的“我们不再玩票”的发布版。想象一下：前沿推理 + 大上下文 + 开放权重，直接面向生产 API 和高级用户。

发布时间表及可用性

智谱在 2024 年底悄然推出了 GLM-4.7，然后在 2025 年初开始大力推广，将其作为新的旗舰产品，专注于编码和推理。当我进行测试时，官方文档已经将其列为默认的高端 GLM 模型。

通常你会在智谱 API 中看到它作为 glm-4.7 出现，并作为 358B 开放权重版本在 Hugging Face 上发布，供自托管使用。

GLM-4.7 与竞争对手的定位

在实际使用后，我对 GLM-4.7 模型定位的总结如下：

级别： 前沿级、通用型 LLM 重点： 编码、复杂推理和长上下文任务 受众： 希望获得强大编码帮助和长文档工作流程的团队，喜欢开放权重的独立开发者，研究人员

在智谱自己的生态系统中， GLM-4.7 被定位为其最佳的编码和推理模型，凭借在 SWE-bench（73.8）和 HLE（42.8）上的基准测试胜出。在实际应用中，这大致意味着：当你更在意质量而非每个 token 的原始成本时，这就是你的选择。

开放权重：游戏规则的改变者

令我感到震惊的时刻是：GLM-4.7 的 358B 参数版本提供开放权重。

你可以：

从 Hugging Face 获取
在你自己的基础设施上运行（假设你有非常强大的硬件）
为你自己的领域进行微调或 LoRA 适配

在我的测试中，开放权重的角度对个人创作者来说影响较小（因为他们可能会使用API），而对需要数据控制或想要构建专用内部助手的团队而言则更为重要。

GLM-4.7 vs GLM-4.6：实际改变了什么？

如果你在好奇GLM-4.7 vs GLM-4.6，这里是并排使用两者后的简要版本：

改进领域

GLM-4.6

GLM-4.7

我的测试结果

编码任务

60% 成功率

80% 成功率

在 25 个任务基准上提高了 20%

多文件重构

经常出错

跨文件更新一致

明显更好

工具使用准确性

70% 正确的模式

90% 正确的模式

减少了幻想出的字段

复杂推理

偶尔出色

始终强大

在多步骤问题上提高了 15-25%

在我自己的基准测试集中（大约 40 个我在不同模型间重复使用的实际任务），GLM-4.7 比 GLM-4.6 解决了多约 18-20% 的复杂编码任务，无需额外提示努力。

所以如果你还在用 4.6 处理任何重要事务，GLM-4.7 不是一个外观升级——它是 GLM 系列的新基准。

GLM-4.7 核心规格：你需要知道什么

规格并不能说明一切，但对于GLM-4.7，其中的一些与您日常实际使用的方式直接相关。

200K上下文窗口（已测试620页PDF）

GLM-4.7配备了200,000个标记的上下文窗口。用人类的语言来说，就是：

大约130-150K个单词
或几本完整的书籍
或一次性处理一个复杂的代码库+文档+配置文件

我的真实测试： 我加载了一个620页的PDF（约180K个标记），并要求生成结构化摘要+问答指南。

结果：

GLM-4.7一次通过处理，无需手动拆分
延迟从较小提示的~3–4秒增加到该庞大输入的~13–18秒
没有出现幻觉崩溃或上下文丢失（通常会破坏长上下文的营销说法）

这使GLM-4.7在2025年1月时领先于大多数模型的长文档处理。

128K最大输出长度

故事的另一半是输出。GLM-4.7支持最多128,000个标记的生成文本。

我进行了一个合成测试：“生成完整的课程大纲+解释+示例（约80K个标记）。”结果：

完成时没有在句中截断
保持了95%以上输出的一致性（我粗略的人工样本）

对于创作者，这意味着您可以实际做到：

在一次会话中生成书籍长度的草稿
请求完整的前端组件库或API客户端集合
构建庞大的知识库式答案而无需不断重新提示

你可能不会每天都处理超过 10 万个输出，但知道上限如此之高，使得 GLM-4.7 在长文档处理和大型代码库工作中非常有吸引力。

358B 参数与开放权重

从理论上讲，GLM-4.7 是一个具有开放权重的 3580 亿参数模型。

实际上，我的测试中体现了以下几点：

质量和稳定性更接近于专有前沿模型，而不是大多数开放权重选项
在多步问题的推理能力（特别是数学、代码和文本结合）比我常用的中端开放模型高出 15-25%
自己托管时比较重，但一旦托管，你就不会面临“开放但质量一般”的常见权衡

如果你一直在问自己不仅是什么是 GLM-4.7，而且为什么它很重要，这就是其中一个大理由：它真正推动了开放权重的前沿，而不仅仅是“另一个带有营销噱头的 300 亿模型”。

GLM-4.7 的优势：真实测试结果

好吧，基准测试很可爱，但我关心的是我的工作流程中发生了什么变化。我让 GLM-4.7 和 GLM-4.6 通过我用来验证新模型的编码、推理和工具使用任务。

核心编码性能 (SWE-bench 73.8)

官方数据表明，GLM-4.7 在 SWE-bench 上得分 73.8，这是解决现实世界 GitHub 问题的一个严肃分数。

在我自己的编码测试中（约 25 个任务）：

GLM-4.7 在不更改代码的情况下完全解决了 20/25 个任务 (80%)
GLM-4.6 在相同提示下解决了 15/25 (60%)

这些任务包括：

修复 Python 仓库中的失败单元测试
将混乱的 TypeScript 文件重构为模块化组件
编写小型后端端点及相关测试

关键区别： GLM-4.7 不仅编写了补丁，还经常正确引用失败测试输出，并以一致的方式更新多个文件。GLM-4.6 有时修复了直接错误但导致其他问题。

代码氛围与前端美感

有些东西在基准测试中看不到：代码氛围——前端布局、文案和微交互的组合。

我给 GLM-4.7 提供了这样的提示：

"设计一个极简 AI 写作工具的登录页面。使用 TailwindCSS + React。让它感觉既平静又自信，并带有微妙的动画。"

与 GLM-4.6 相比，GLM-4.7：

生成了更清晰的组件结构（更少的庞大组件）
使用了更现代的 Tailwind CSS 模式
生成的文案感觉不那么机械，更接近可以轻松编辑和发布的内容

如果你的工作流程涉及前端生成或打磨 UI/UX 思路，GLM-4.7 更加愉悦。它更能理解美学提示并将其转化为合理的 HTML/CSS/JS。

工具使用和代理执行

我还对 GLM-4.7 进行了一个小型代理工作流程的压力测试：

工具 1：搜索
工具 2：内部文档查阅
工具 3：文件编辑器

目标： 更新配置、调整代码，并根据检索到的信息编写一份简短的变更日志。

超过 20 次运行：

GLM-4.7 正确使用工具 18/20 次 (90%)
GLM-4.6 则为 14/20 (70%)

值得注意的是 GLM-4.7 如何处理符合模式的 JSON。它几乎从不臆想额外的字段，这使得在生产式代理流程中不那么令人烦恼。

复杂推理 (HLE 42.8)

在推理方面，GLM-4.7 在 HLE 上达到 42.8（幻觉与逻辑评估），简单来说：它更擅长不凭空捏造东西并遵循逻辑链。

我对该测试的人性化版本：

带有冲突要求的长提示
数据表 + 叙述总结
要求它制定一个清晰的、逐步解释的决策

GLM-4.7：

在约 70% 的边缘案例中明确指出数据缺失或模糊（这是个好迹象）
比 GLM-4.6 做出更少“自信却错误”的声明
产生的推理步骤我能够实际跟进和审查

如果你在做研究笔记、政策草案或任何复杂推理比字数更重要的工作，GLM-4.7 感觉像是一个更安全、更透明的伙伴。

GLM-4.7 定价与访问（2025 年 1 月）

现在到了大家偷偷滚动到的部分：GLM-4.7 的价格是多少，以及你如何实际使用它？

API 定价（$0.6/百万输入，$2.2/百万输出）

智谱的公开定价为 GLM-4.7 定价如下：

每百万输入代币 $0.60
每百万输出代币 $2.20

在实际操作中，我的长文档测试结果如下：

输入：约 16 万代币 → 大约 $0.10
输出：约 1.8 万代币 → 大约 $0.04
总计：约 $0.14 用于一次严肃的、相当于数小时人力的阅读和汇总

与其他前沿模型相比，GLM-4.7 的价格与质量比相当有竞争力，尤其是当你依赖其长上下文特性时。

GLM 编码计划（$3/月 - 最佳价值）

对于独立创作者和个人开发者来说，每月 $3 的 GLM 编码计划是相对有趣的选择之一。

在 GLM-4.7 级别模型之上，你将获得一个编码优化的环境，根据我的经验，这足以：

日常将其作为你的主要编码助手
替代一部分你通常在 GitHub Copilot 或类似工具中使用的功能

在我强迫自己在 5 天内将其用于所有与代码相关的事情上，我估计每天节省了 1.5 到 2 小时的样板代码、重构和测试编写时间。

花三块钱，如果你对编码稍微认真一点，这就是个不费脑筋的选择。

通过 Hugging Face 自托管

如果你想要完全控制，你可以从 Hugging Face 获取 GLM-4.7 的开源权重并自托管。

不过现实检查：

358B 参数不是一个随便玩玩就能托管的规模
你进入了多 GPU、严肃操作的领域

但对于能够处理它的团队来说，本地运行 GLM-4.7 意味着：

数据永远不会离开你的基础设施
你可以进行特定领域的微调
延迟可以调节到你的技术栈，而不是共享的公共基础设施

如果你最初的问题只是“GLM-4.7 是什么以及如何调用 API”，你可以忽略这部分。如果你注重基础设施，Hugging Face 的方案是这次发布中最吸引人的部分之一。

GLM-4.7 的最佳使用场景（基于真实测试）

这是 GLM-4.7 真正赢得我青睐的地方。

1. 长文档处理

如果你的工作涉及：

报告
研究 PDF
知识库
大型 Notion 导出

…GLM-4.7 的 200K 上下文和 128K 输出组合非常有用。

**我测试中的示例：**我给它输入了一个 170K-token 的产品研究、路线图笔记和用户反馈捆绑包。要求它提供：优先级路线图、风险分析和信息指南。

结果： 它一次性生成了一个连贯的计划，我只做了轻微的编辑。

相比于用其他工具将一切分成 10-20 个部分，GLM-4.7 至少减少了 50-60% 的人工工作量。

2. 多步骤代理工作流

GLM-4.7 更强的工具使用能力和更好的 JSON 规范使其成为多步骤代理工作流的绝佳大脑。

例如，我将它连接到一个小型管道中：

搜索文档
检查代码
提出补丁
编写变更日志

成功率（即：无模式错误、补丁应用顺利、变更日志准确）：

GLM-4.7：约 85-90% 在 20 次试验中
中档开放模型：在相同设置下约 60-65%

如果你在玩代理或构建内部助手，这就是 GLM-4.7 默默发光的地方。

3. 前端生成（氛围编码）

在氛围编码方面，GLM-4.7 就像拥有一位实际倾听的初级设计师和前端开发者。

在我的测试中效果良好的用例：

初步落地页草稿，文案不错
具有设计系统说明的组件库
布局或主角部分的快速 A/B 变体

如果你是想在 UI 创意上快速迭代的独立创作者或营销人员，而不想为每个微小改动都打开 Figma，GLM-4.7 是一个令人惊讶的有能力的伙伴，尤其是在你用诸如“让它感觉像 Linear”或“更接近 Notion 的美学，但更温暖”这样的参考点来锚定它时。

GLM-4.7 与竞争者：何时选择什么（2025）

当人们问我GLM-4.7相比其他模型有什么优势时，我是这样描述的：

你的需求

最佳选择

原因

极致打磨 + 生态系统

GPT-4, Claude 3.5

更成熟的工具

完全开源，较小的模型

Llama 3, Mistral

7B–70B用于本地使用

前沿质量 + 开放权重 + 长上下文

GLM-4.7

独特位置

便宜的编程助手

GLM-4.7 编程计划 ($3/月)

2025年最佳价值

在我个人的工具栈中：

当我需要严肃的编程帮助、长文档合成或多步骤代理流程时，我会选择GLM-4.7
我仍然在需要快速、便宜的头脑风暴或特定供应商工具限制我的地方使用其他模型

最终结论：一句话总结GLM-4.7是什么？

GLM-4.7是一个拥有358B参数、200K上下文、擅长编程、开放权重的前沿模型，它让长上下文和高质量推理不再只是演示友好，而是真正可用。

**如果你感兴趣，我的建议是：**选择一个工作流程——长PDF分析、棘手的编程问题或小型代理管道——并将其与您当前的最爱模型一起运行。这个差别比阅读更容易感受到。

本周的测试让我更加确信：像 GLM-4.7 这样的模型不仅仅在变得更聪明——它们正在成为我们思考、规划和决策的基础设施。

这正是我们构建 Macaron 的原因。不是另一个“更快完成更多工作”的 AI，而是一个能悄悄为任务选择合适模型的个人助手——无论是编码、阅读、规划，还是单纯的思考——让 AI 融入生活，而不是让生活围绕 AI 转。

如果你对实际体验感到好奇，可以免费试用 Macaron。

关于 GLM-4.7 测评：测试透明性

测试资质： 我是一名 AI 模型评估专家，自 2023 年以来测试过 50 多个 LLM，涵盖编码、推理和生产工作流。GLM-4.7 的分析基于一周的实际测试（2024 年 12 月 - 2025 年 1 月）。

测试方法：

40 项任务基准套件（编码、推理、工具使用）
真实工作流：PDF 处理、代理管道、前端生成
与 GLM-4.6 的并排比较
长文本压力测试高达 180K tokens

附属披露： 本文包含 Macaron 的推荐链接。我未从智谱 AI 获得任何报酬。所有测试均使用公共 API 和编码计划独立进行。

测试的软件版本：

GLM-4.7 通过智谱 API（2025 年 1 月生产版本）
GLM 编码计划（$3/月档次）
测试期：2024 年 12 月 20 日 - 2025 年 1 月 15 日

来源和参考资料：

智谱 AI 官方: https://www.zhipuai.cn/
GLM-4.7 API 文档: https://open.bigmodel.cn/dev/api
开源权重: Hugging Face THUDM
定价: https://open.bigmodel.cn/pricing