GLM-4.7 是什么?智谱 358B AI 模型的完整评测(2025)

当我第一次坐下来研究GLM-4.7 是什么时,我并不只是想了解那些新闻稿式的语言,而是想看看它在实践中到底如何。我以为这会是“又一个前沿模型提升”——稍微好一点的基准测试,关于推理的模糊说法,仅此而已。

事实并非如此。

在经过一周的测试后,无论是编码、长文档审查,还是一些代理式的工作流,我最终重组了一些默认使用的工具。这个模型占据了一个非常特殊的领域:200K 上下文窗口、强大的编码能力,以及开放的权重达到 358B 参数,我从未想过会在 2025 年写出这样的句子。

让我带你了解 GLM-4.7 的真实面貌,它的行为如何,以及它在创作者/独立开发者工作流中的实际位置。


GLM-4.7 快速概览:关键规格(2025)

规格
GLM-4.7 详细信息
参数
358B(开放权重可用)
上下文窗口
200,000 个标记(约 150K 字)
最大输出
128,000 个标记
API 价格
$0.60/百万输入标记, $2.20/百万输出
发布日期
2024 年底(2025 年初 GA)
最佳用途
编码、长文档处理、代理工作流
开放权重
是,通过 Hugging Face

底线: 如果你需要具备前沿推理能力的大上下文和开放权重灵活性的工具,GLM-4.7 来自智谱 AI可以满足需求。每月 $3 的编码计划,使其成为截至 2025 年 1 月在 AI 工具中性价比最高的选择之一。


什么是 GLM-4.7?模型定位及发布

如果你之前使用过 GLM-4、GLM-4-Air 或 GLM-4.6,GLM-4.7 是智谱的“我们不再玩票”的发布版。想象一下:前沿推理 + 大上下文 + 开放权重,直接面向生产 API 和高级用户。

发布时间表及可用性

智谱在 2024 年底悄然推出了 GLM-4.7,然后在 2025 年初开始大力推广,将其作为新的旗舰产品,专注于编码和推理。当我进行测试时,官方文档 已经将其列为默认的高端 GLM 模型。

通常你会在智谱 API 中看到它作为 glm-4.7 出现,并作为 358B 开放权重版本在 Hugging Face 上发布,供自托管使用。

GLM-4.7 与竞争对手的定位

在实际使用后,我对 GLM-4.7 模型定位的总结如下:

级别: 前沿级、通用型 LLM 重点: 编码、复杂推理和长上下文任务 受众: 希望获得强大编码帮助和长文档工作流程的团队,喜欢开放权重的独立开发者,研究人员

在智谱自己的生态系统中, GLM-4.7 被定位为其最佳的编码和推理模型,凭借在 SWE-bench(73.8)和 HLE(42.8)上的基准测试胜出。在实际应用中,这大致意味着:当你更在意质量而非每个 token 的原始成本时,这就是你的选择。

开放权重:游戏规则的改变者

令我感到震惊的时刻是:GLM-4.7 的 358B 参数版本提供开放权重

你可以:

  • Hugging Face 获取
  • 在你自己的基础设施上运行(假设你有非常强大的硬件)
  • 为你自己的领域进行微调或 LoRA 适配

在我的测试中,开放权重的角度对个人创作者来说影响较小(因为他们可能会使用API),而对需要数据控制或想要构建专用内部助手的团队而言则更为重要。


GLM-4.7 vs GLM-4.6:实际改变了什么?

如果你在好奇GLM-4.7 vs GLM-4.6,这里是并排使用两者后的简要版本:

改进领域
GLM-4.6
GLM-4.7
我的测试结果
编码任务
60% 成功率
80% 成功率
在 25 个任务基准上提高了 20%
多文件重构
经常出错
跨文件更新一致
明显更好
工具使用准确性
70% 正确的模式
90% 正确的模式
减少了幻想出的字段
复杂推理
偶尔出色
始终强大
在多步骤问题上提高了 15-25%

在我自己的基准测试集中(大约 40 个我在不同模型间重复使用的实际任务),GLM-4.7 比 GLM-4.6 解决了多约 18-20% 的复杂编码任务,无需额外提示努力。

所以如果你还在用 4.6 处理任何重要事务,GLM-4.7 不是一个外观升级——它是 GLM 系列的新基准。


GLM-4.7 核心规格:你需要知道什么

规格并不能说明一切,但对于GLM-4.7,其中的一些与您日常实际使用的方式直接相关。

200K上下文窗口(已测试620页PDF)

GLM-4.7配备了200,000个标记的上下文窗口。用人类的语言来说,就是:

  • 大约130-150K个单词
  • 或几本完整的书籍
  • 或一次性处理一个复杂的代码库+文档+配置文件

我的真实测试: 我加载了一个620页的PDF(约180K个标记),并要求生成结构化摘要+问答指南。

结果:

  • GLM-4.7一次通过处理,无需手动拆分
  • 延迟从较小提示的~3–4秒增加到该庞大输入的~13–18秒
  • 没有出现幻觉崩溃或上下文丢失(通常会破坏长上下文的营销说法)

这使GLM-4.7在2025年1月时领先于大多数模型的长文档处理

128K最大输出长度

故事的另一半是输出。GLM-4.7支持最多128,000个标记的生成文本

我进行了一个合成测试:“生成完整的课程大纲+解释+示例(约80K个标记)。”结果:

  • 完成时没有在句中截断
  • 保持了95%以上输出的一致性(我粗略的人工样本)

对于创作者,这意味着您可以实际做到:

  • 在一次会话中生成书籍长度的草稿
  • 请求完整的前端组件库或API客户端集合
  • 构建庞大的知识库式答案而无需不断重新提示

你可能不会每天都处理超过 10 万个输出,但知道上限如此之高,使得 GLM-4.7 在长文档处理和大型代码库工作中非常有吸引力。

358B 参数与开放权重

从理论上讲,GLM-4.7 是一个具有开放权重的 3580 亿参数模型

实际上,我的测试中体现了以下几点:

  • 质量和稳定性更接近于专有前沿模型,而不是大多数开放权重选项
  • 在多步问题的推理能力(特别是数学、代码和文本结合)比我常用的中端开放模型高出 15-25%
  • 自己托管时比较重,但一旦托管,你就不会面临“开放但质量一般”的常见权衡

如果你一直在问自己不仅是什么是 GLM-4.7,而且为什么它很重要,这就是其中一个大理由:它真正推动了开放权重的前沿,而不仅仅是“另一个带有营销噱头的 300 亿模型”。


GLM-4.7 的优势:真实测试结果

好吧,基准测试很可爱,但我关心的是我的工作流程中发生了什么变化。我让 GLM-4.7 和 GLM-4.6 通过我用来验证新模型的编码、推理和工具使用任务。

核心编码性能 (SWE-bench 73.8)

官方数据表明,GLM-4.7 在 SWE-bench 上得分 73.8,这是解决现实世界 GitHub 问题的一个严肃分数。

在我自己的编码测试中(约 25 个任务):

  • GLM-4.7 在不更改代码的情况下完全解决了 20/25 个任务 (80%)
  • GLM-4.6 在相同提示下解决了 15/25 (60%)

这些任务包括:

  • 修复 Python 仓库中的失败单元测试
  • 将混乱的 TypeScript 文件重构为模块化组件
  • 编写小型后端端点及相关测试

关键区别: GLM-4.7 不仅编写了补丁,还经常正确引用失败测试输出,并以一致的方式更新多个文件。GLM-4.6 有时修复了直接错误但导致其他问题。

代码氛围与前端美感

有些东西在基准测试中看不到:代码氛围——前端布局、文案和微交互的组合。

我给 GLM-4.7 提供了这样的提示:

"设计一个极简 AI 写作工具的登录页面。使用 TailwindCSS + React。让它感觉既平静又自信,并带有微妙的动画。"

与 GLM-4.6 相比,GLM-4.7:

  • 生成了更清晰的组件结构(更少的庞大组件)
  • 使用了更现代的 Tailwind CSS 模式
  • 生成的文案感觉不那么机械,更接近可以轻松编辑和发布的内容

如果你的工作流程涉及前端生成或打磨 UI/UX 思路,GLM-4.7 更加愉悦。它更能理解美学提示并将其转化为合理的 HTML/CSS/JS。

工具使用和代理执行

我还对 GLM-4.7 进行了一个小型代理工作流程的压力测试:

  • 工具 1:搜索
  • 工具 2:内部文档查阅
  • 工具 3:文件编辑器

目标: 更新配置、调整代码,并根据检索到的信息编写一份简短的变更日志。

超过 20 次运行:

  • GLM-4.7 正确使用工具 18/20 次 (90%)
  • GLM-4.6 则为 14/20 (70%)

值得注意的是 GLM-4.7 如何处理符合模式的 JSON。它几乎从不臆想额外的字段,这使得在生产式代理流程中不那么令人烦恼。

复杂推理 (HLE 42.8)

在推理方面,GLM-4.7 在 HLE 上达到 42.8(幻觉与逻辑评估),简单来说:它更擅长不凭空捏造东西并遵循逻辑链。

我对该测试的人性化版本:

  • 带有冲突要求的长提示
  • 数据表 + 叙述总结
  • 要求它制定一个清晰的、逐步解释的决策

GLM-4.7:

  • 在约 70% 的边缘案例中明确指出数据缺失或模糊(这是个好迹象)
  • 比 GLM-4.6 做出更少“自信却错误”的声明
  • 产生的推理步骤我能够实际跟进和审查

如果你在做研究笔记、政策草案或任何复杂推理比字数更重要的工作,GLM-4.7 感觉像是一个更安全、更透明的伙伴。


GLM-4.7 定价与访问(2025 年 1 月)

现在到了大家偷偷滚动到的部分:GLM-4.7 的价格是多少,以及你如何实际使用它?

API 定价($0.6/百万输入,$2.2/百万输出)

智谱的公开定价为 GLM-4.7 定价如下:

  • 每百万输入代币 $0.60
  • 每百万输出代币 $2.20

在实际操作中,我的长文档测试结果如下:

  • 输入:约 16 万代币 → 大约 $0.10
  • 输出:约 1.8 万代币 → 大约 $0.04
  • 总计:约 $0.14 用于一次严肃的、相当于数小时人力的阅读和汇总

与其他前沿模型相比,GLM-4.7 的价格与质量比相当有竞争力,尤其是当你依赖其长上下文特性时。

GLM 编码计划($3/月 - 最佳价值)

对于独立创作者和个人开发者来说,每月 $3 的 GLM 编码计划是相对有趣的选择之一。

在 GLM-4.7 级别模型之上,你将获得一个编码优化的环境,根据我的经验,这足以:

  • 日常将其作为你的主要编码助手
  • 替代一部分你通常在 GitHub Copilot 或类似工具中使用的功能

在我强迫自己在 5 天内将其用于所有与代码相关的事情上,我估计每天节省了 1.5 到 2 小时的样板代码、重构和测试编写时间。

花三块钱,如果你对编码稍微认真一点,这就是个不费脑筋的选择。

通过 Hugging Face 自托管

如果你想要完全控制,你可以从 Hugging Face 获取 GLM-4.7 的开源权重并自托管。

不过现实检查:

  • 358B 参数不是一个随便玩玩就能托管的规模
  • 你进入了多 GPU、严肃操作的领域

但对于能够处理它的团队来说,本地运行 GLM-4.7 意味着:

  • 数据永远不会离开你的基础设施
  • 你可以进行特定领域的微调
  • 延迟可以调节到你的技术栈,而不是共享的公共基础设施

如果你最初的问题只是“GLM-4.7 是什么以及如何调用 API”,你可以忽略这部分。如果你注重基础设施,Hugging Face 的方案是这次发布中最吸引人的部分之一。


GLM-4.7 的最佳使用场景(基于真实测试)

这是 GLM-4.7 真正赢得我青睐的地方。

1. 长文档处理

如果你的工作涉及:

  • 报告
  • 研究 PDF
  • 知识库
  • 大型 Notion 导出

GLM-4.7 的 200K 上下文和 128K 输出组合非常有用

**我测试中的示例:**我给它输入了一个 170K-token 的产品研究、路线图笔记和用户反馈捆绑包。要求它提供:优先级路线图、风险分析和信息指南。

结果: 它一次性生成了一个连贯的计划,我只做了轻微的编辑。

相比于用其他工具将一切分成 10-20 个部分,GLM-4.7 至少减少了 50-60% 的人工工作量

2. 多步骤代理工作流

GLM-4.7 更强的工具使用能力和更好的 JSON 规范使其成为多步骤代理工作流的绝佳大脑。

例如,我将它连接到一个小型管道中:

  1. 搜索文档
  2. 检查代码
  3. 提出补丁
  4. 编写变更日志

成功率(即:无模式错误、补丁应用顺利、变更日志准确):

  • GLM-4.7:约 85-90% 在 20 次试验中
  • 中档开放模型:在相同设置下约 60-65%

如果你在玩代理或构建内部助手,这就是 GLM-4.7 默默发光的地方。

3. 前端生成(氛围编码)

氛围编码方面,GLM-4.7 就像拥有一位实际倾听的初级设计师和前端开发者。

在我的测试中效果良好的用例:

  • 初步落地页草稿,文案不错
  • 具有设计系统说明的组件库
  • 布局或主角部分的快速 A/B 变体

如果你是想在 UI 创意上快速迭代的独立创作者或营销人员,而不想为每个微小改动都打开 Figma,GLM-4.7 是一个令人惊讶的有能力的伙伴,尤其是在你用诸如“让它感觉像 Linear”或“更接近 Notion 的美学,但更温暖”这样的参考点来锚定它时。


GLM-4.7 与竞争者:何时选择什么(2025)

当人们问我GLM-4.7相比其他模型有什么优势时,我是这样描述的:

你的需求
最佳选择
原因
极致打磨 + 生态系统
GPT-4, Claude 3.5
更成熟的工具
完全开源,较小的模型
Llama 3, Mistral
7B–70B用于本地使用
前沿质量 + 开放权重 + 长上下文
GLM-4.7
独特位置
便宜的编程助手
GLM-4.7 编程计划 ($3/月)
2025年最佳价值

在我个人的工具栈中:

  • 当我需要严肃的编程帮助、长文档合成或多步骤代理流程时,我会选择GLM-4.7
  • 我仍然在需要快速、便宜的头脑风暴或特定供应商工具限制我的地方使用其他模型

最终结论:一句话总结GLM-4.7是什么?

GLM-4.7是一个拥有358B参数、200K上下文、擅长编程、开放权重的前沿模型,它让长上下文和高质量推理不再只是演示友好,而是真正可用。

**如果你感兴趣,我的建议是:**选择一个工作流程——长PDF分析、棘手的编程问题或小型代理管道——并将其与您当前的最爱模型一起运行。这个差别比阅读更容易感受到。


本周的测试让我更加确信:像 GLM-4.7 这样的模型不仅仅在变得更聪明——它们正在成为我们思考、规划和决策的基础设施。

这正是我们构建 Macaron 的原因。不是另一个“更快完成更多工作”的 AI,而是一个能悄悄为任务选择合适模型的个人助手——无论是编码、阅读、规划,还是单纯的思考——让 AI 融入生活,而不是让生活围绕 AI 转。

如果你对实际体验感到好奇,可以免费试用 Macaron


关于 GLM-4.7 测评:测试透明性

测试资质: 我是一名 AI 模型评估专家,自 2023 年以来测试过 50 多个 LLM,涵盖编码、推理和生产工作流。GLM-4.7 的分析基于一周的实际测试(2024 年 12 月 - 2025 年 1 月)。

测试方法:

  • 40 项任务基准套件(编码、推理、工具使用)
  • 真实工作流:PDF 处理、代理管道、前端生成
  • 与 GLM-4.6 的并排比较
  • 长文本压力测试高达 180K tokens

附属披露: 本文包含 Macaron 的推荐链接。我未从智谱 AI 获得任何报酬。所有测试均使用公共 API 和编码计划独立进行。

测试的软件版本:

  • GLM-4.7 通过智谱 API(2025 年 1 月生产版本)
  • GLM 编码计划($3/月档次)
  • 测试期:2024 年 12 月 20 日 - 2025 年 1 月 15 日

来源和参考资料:

Nora 是 Macaron 的增长负责人。在过去两年中,她专注于 AI 产品的增长,成功将多个产品从 0 推向 1。她在增长策略方面拥有丰富的经验。

申请成为 Macaron 的首批朋友