GLM-4.7 是什麼？智譜 358B AI 模型完整評測（2025）

當我第一次坐下來想弄清楚GLM-4.7 實際上是什麼（而不僅僅是新聞稿上的語言）時，我預期會是「又一個前沿模型的提升」。稍微好一點的基準測試、模糊的推理能力聲明，除此之外沒什麼。

結果……並不是這樣。

在對 GLM-4.7 進行了一週的測試，涵蓋編碼、長文檢閱和一些代理風格的工作流程後，我最終重新安排了一些我的默認工具。這個模型佔據了一個非常特殊的領域：200K 的上下文窗口、強大的編碼能力，以及開放的 358B 參數權重，這是我在 2025 年根本沒想到會寫的一句話。

讓我帶你了解 GLM-4.7 實際上是什麼、它的行為方式，以及它在創作者/獨立開發者工作流程中的實際應用位置。

GLM-4.7 快速概覽：關鍵規格（2025）

規格

GLM-4.7 詳細資訊

參數

358B（開放權重可用）

上下文窗口

200,000 個標記（~150K 字）

最大輸出

128,000 個標記

API 定價

每百萬個輸入標記 $0.60，輸出 $2.20

發布日期

2024 年底（2025 年初 GA）

最佳用途

編程、長文檔處理、代理工作流程

開放權重

是的，透過 Hugging Face

結論： 如果你需要前沿級別的推理能力，並且要求有大量上下文和開放權重的靈活性，GLM-4.7 是由智譜 AI提供的選擇。每月 $3 的編程計劃讓它成為截至 2025 年 1 月最具價值的 AI 工具之一。

什麼是 GLM-4.7？模型定位與發布

如果你曾使用過 GLM-4、GLM-4-Air 或 GLM-4.6，GLM-4.7 是智譜的「我們不再只是玩玩」的版本。想像一下：前沿級推理 + 大量上下文 + 開放權重，專為生產 API 和高級用戶量身打造。

發布時間表與可用性

智譜在 2024 年底低調推出 GLM-4.7，然後在 2025 年初開始大力推廣，作為其新的編碼和推理旗艦產品。當我開始測試時，官方文件已經將其列為預設的高端 GLM 模型。

你通常會在智譜的 API 中看到它作為 glm-4.7 出現，並且作為在 Hugging Face 上的 358B 開放權重釋出以供自我托管。

GLM-4.7 在競爭者中的定位

在實際使用後，這是我對 GLM-4.7 模型定位的總結：

層級： 前沿級、通用 LLM 重點： 編碼、複雜推理和長文本任務 受眾： 希望有強大編碼幫助和長文檔工作流的團隊，喜歡開放權重的獨立開發者，研究人員

在智譜的生態系統中，GLM-4.7 被定位為其最佳的編碼和推理模型，並在 SWE-bench (73.8) 和 HLE (42.8) 的基準測試中取得勝利。在現實世界中，大致可以理解為：當你更看重質量而不是每個 token 的成本時，這就是你的選擇。

開放權重：遊戲規則改變者

對我來說最大的「哇，他們真的做到了」時刻是：GLM-4.7 的 358B 參數版本作為開放權重提供。

你可以：

從 Hugging Face 下載
在你自己的基礎設施上運行（假設你有非常不平凡的硬體）
為自己的領域進行微調或 LoRA 適配

在我的測試中，開放權重的角度對於個人創作者來說影響較小（你可能會使用 API），對於需要數據控制或想要構建專業內部助手的團隊來說則更為重要。

GLM-4.7 與 GLM-4.6：實際有什麼改變？

如果你在想 GLM-4.7 與 GLM-4.6，這是兩者並排使用的簡要版：

改進領域

GLM-4.6

GLM-4.7

我的測試結果

編碼任務

60% 成功率

80% 成功率

在 25 項任務基準上提升 20%

多文件重構

經常出錯

跨文件更新一致

顯著改善

工具使用準確性

70% 正確架構

90% 正確架構

更少幻想出的欄位

複雜推理

有時候出色

持續強勁

在多步驟問題上提高 15-25%

在我自己的基準集（大約 40 個我在不同模型中重複使用的真實任務中），GLM-4.7 比 GLM-4.6 解決了多 18-20% 的複雜編碼任務，並且不需要額外的提示努力。

所以如果你還在用 4.6 處理任何重要的事情，GLM-4.7 不是一個表面上的升級——它是 GLM 系列的新基準。

GLM-4.7 核心規格：你需要知道什麼

規格不能說明一切，但使用 GLM-4.7，一些規格與您日常實際使用方式直接相關。

200K 上下文窗口（以 620 頁 PDF 測試）

GLM-4.7 配備 200,000 個 token 的上下文窗口。以人類的話來說，這相當於：

大約 130–150K 字
或幾本完整的書
或一個龐大的 monorepo + 文件 + 配置文件一次處理

**我的實際測試：**我載入了一個 620 頁的 PDF（約 180K token），並要求生成結構化摘要 + 問答指南。

結果：

GLM-4.7 在一輪中處理，無需手動分塊
從較小提示的~3–4 秒延遲變為處理那個龐大輸入的~13–18 秒
沒有出現幻覺崩潰或上下文丟失（這通常會導致長上下文的市場宣稱失敗）

這使得截至 2025 年 1 月，GLM-4.7 在長文件處理方面領先於大多數模型。

128K 最大輸出長度

故事的另一半是輸出。GLM-4.7 支持高達 128,000 個 token 的生成文本。

我用一個合成測試推進它：「生成一個完整課程大綱 + 解釋 + 範例（~80K token）。」它：

完成時沒有在句中截斷
在輸出的 95%+ 保持主題一致性（我的粗略手動抽樣）

對於創作者來說，這意味著您可以現實地：

在一次會話中生成書本長度的草稿
要求整個前端組件庫或 API 客戶端集
構建龐大的知識庫風格答案而不需不斷重新提示

你可能不會每天都使用超過 10 萬的輸出，但知道上限如此之高，使 GLM-4.7 對於長文件處理和大型代碼庫工作非常有吸引力。

358B 參數與開放權重

理論上，GLM-4.7 是一個擁有 358B 參數且具有開放權重的模型。

實際上，這在我的測試中意味著：

質量和穩定性感覺比大多數開放權重選項更接近專有前沿模型
在多步問題（尤其是數學、代碼和文本結合）上的推理比我經常使用的中階開放模型高出 15–25%
自行託管比較繁重，但當你這麼做時，你不必面對「開放但品質一般」的常見權衡

如果你一直在問自己 GLM-4.7 是什麼，不僅僅是它為什麼重要，這就是其中一個主要原因：它真正推動了開放權重的前沿，而不是僅僅成為「又一個帶有行銷噱頭的 30B 模型」。

GLM-4.7 的優勢：實際測試結果

好吧，基準測試很可愛，但我關心的是我的工作流程中改變了什麼。我將 GLM-4.7 和 GLM-4.6 通過我用來檢查新模型的編碼、推理和工具使用任務。

核心編碼性能（SWE-bench 73.8）

官方數據顯示，GLM-4.7 在 SWE-bench 上達到 73.8，這是一個應對真實世界 GitHub 問題解決的嚴肅分數。

在我自己的編碼測試中（約 25 個任務）：

GLM-4.7 在不修改程式碼的情況下完全解決了 20/25 項任務 (80%)
GLM-4.6 在相同提示下解決了 15/25 (60%)

這些任務包括：

修復 Python 資料庫中失敗的單元測試
將混亂的 TypeScript 文件重構為模組化組件
撰寫小型後端端點及相關測試

關鍵區別： GLM-4.7 不僅撰寫了修補程式，還經常正確引用失敗的測試輸出，並以一致的方式更新多個文件。GLM-4.6 有時修復了立即的錯誤，但卻破壞了其他部分。

氛圍編碼和前端美學

一件在基準測試中無法顯示的事情是：氛圍編碼——前端的佈局、文案和微互動的組合。

我給 GLM-4.7 提供了這樣的提示：

「設計一個極簡 AI 寫作工具的登陸頁面。TailwindCSS + React。讓它感覺平靜而自信，並帶有微妙的動畫。」

與 GLM-4.6 相比，GLM-4.7：

產生了更乾淨的組件結構（減少龐大神組件）
使用了更現代的 Tailwind CSS 模式
生成的文案感覺不那麼機械化，更接近於我可以輕微編輯並發佈的狀態

如果您的工作流程涉及前端生成或改進 UI/UX 想法，GLM-4.7 絕對更令人愉悅。它更能理解美學暗示，並將其轉化為合理的 HTML/CSS/JS。

工具使用和代理執行

我還對 GLM-4.7 進行了一個小型代理工作流的壓力測試：

工具 1：搜尋
工具 2：內部文件查閱
工具 3：文件編輯器

**目標：**更新配置、調整代碼，並根據檢索到的信息寫一個簡短的變更日誌。

超過 20 次運行：

GLM-4.7 正確使用工具 18/20 次 (90%)
GLM-4.6 管理 14/20 (70%)

值得注意的是 GLM-4.7 如何處理遵循結構的 JSON。它幾乎從未幻覺出多餘的字段，這使得它在生產風格的代理流程中不那麼惱人。

複雜推理 (HLE 42.8)

在推理方面，GLM-4.7 在 HLE (幻覺與邏輯評估) 中達到 42.8，這是一種花哨的說法：它更擅長不亂編東西，並遵循邏輯鏈。

我對該測試的更人性化版本：

長篇提示，包含衝突的要求
數據表 + 敘述總結
要求其推導出具有明確、逐步理由的決策

GLM-4.7：

在 ~70% 的邊緣案例中明確標示出缺失或模糊的數據（這是一個好兆頭）
比 GLM-4.6 做出更少「自信但錯誤」的主張
產生的推理步驟我可以實際追蹤和審核

如果您正在做研究筆記、政策草案或任何複雜推理比字數更重要的事情，GLM-4.7 感覺像是一個更安全、更透明的夥伴。

GLM-4.7 定價與使用權限（2025年1月）

現在來到大家靜靜滑到的部分：GLM-4.7 的價格是多少，以及你該如何實際使用它呢？

API 定價（每 100 萬輸入 $0.6，每 100 萬輸出 $2.2）

智譜的公開定價對 GLM-4.7 是這樣的:

每 100 萬輸入字元 $0.60
每 100 萬輸出字元 $2.20

實際情況中，我的一個長文檔測試結果如下：

輸入：約 160K 字元 → 約 $0.10
輸出：約 18K 字元 → 約 $0.04
總計：約 $0.14 用於一個嚴肅的、多小時人類等效的閱讀和綜合分析

與其他前沿模型相比，GLM-4.7 的性價比相當具有競爭力，尤其是當你依賴其長上下文功能時。

GLM 編碼計畫（每月 $3 - 最佳選擇）

對於獨立創作者和個人開發者來說，每月 $3 的 GLM 編碼計畫默默地成為更有趣的選擇之一。

你會在 GLM-4.7 級別的模型之上獲得一個編碼優化的環境，根據我的經驗，這足夠用來：

作為你每日的主要編碼助手
取代你通常在 GitHub Copilot 或類似工具中所做的一部分工作

在我強迫自己在 5 天內用它處理所有與程式碼相關的事情時，我估計它每天節省了我 1.5–2 小時的樣板代碼、重構和測試編寫。

只花三塊錢，如果你對編碼有點認真，這是無腦選擇。

通過 Hugging Face 自行託管

如果你想要完全控制，可以從 Hugging Face 獲取 GLM-4.7 的開源權重並自行託管。

不過現實檢查：

358B 參數不是一個隨便玩玩的託管規模
你會進入多 GPU、嚴肅操作的領域

但對於能夠處理的團隊來說，本地運行 GLM-4.7 意味著：

數據永遠不會離開你的基礎設施
你可以進行領域特定的微調
延遲可以調整到你的堆疊，而不是共享的公共基礎設施

如果你最初的問題只是「什麼是 GLM-4.7 以及如何調用 API」，你可以忽略這部分。如果你對基礎設施感興趣，Hugging Face 路線是此次發布中最具吸引力的部分之一。

GLM-4.7 的最佳使用案例（基於實際測試）

這是 GLM-4.7 實際在我的工作流程中獲得一席之地的地方。

1. 長文檔處理

如果你的工作涉及：

報告
研究 PDF
知識庫
大型 Notion 匯出

…GLM-4.7 的 200K 上下文和 128K 輸出組合非常有用。

我的測試示例： 我給它輸入了一個 170K-token 的產品研究、路線圖筆記和用戶反饋包。要求它提供：優先路線圖、風險分析和信息指導。

結果： 它一次就產生了一個連貫的計畫，我只進行了輕微的編輯。

與使用其他工具將所有內容切成10到20個部分相比，GLM-4.7至少減少了50-60％的人力操作負擔。

2. 多步驟代理工作流程

GLM-4.7更強的工具使用能力和更好的JSON規範，使其成為多步驟代理工作流程的絕佳大腦。

例如，我將它接入了一個小型管道中：

搜索文件
檢查代碼
提出修補建議
撰寫變更日誌

成功率（意指：無模式錯誤，補丁順利應用，變更日誌準確）：

GLM-4.7：約85-90％在20次試驗中
一個中階開放模型：在相同設置下約60-65％

如果你在玩代理或建立內部助手，這是GLM-4.7悄悄發光的地方。

3. 前端生成（氛圍編碼）

對於氛圍編碼，GLM-4.7感覺像是一位實際傾聽的初級設計師+前端開發者。

在我的測試中效果良好的使用案例：

初版落地頁草稿，文案不錯
帶設計系統說明的組件庫
快速A/B版面的佈局或主圖段落變體

如果你是一位想在UI創意上進行迭代的獨立創作者或行銷人員，而不想為每個小改動都打開Figma，GLM-4.7是一位令人驚訝的能幹夥伴，尤其是當你用「讓它感覺像Linear」或「更接近Notion的美感，但更溫暖」這樣的參考來錨定它時。

GLM-4.7 vs 競爭者：何時選擇什麼（2025）

當有人問我GLM-4.7 相較於其他模型有什麼優勢時，我會這樣說明：

你的需求

最佳選擇

為什麼

最大的精緻度 + 生態系統

GPT-4, Claude 3.5

工具更成熟

完全開放，小型模型

Llama 3, Mistral

7B–70B 本地使用

前沿品質 + 開放權重 + 長上下文

GLM-4.7

獨特定位

便宜的編碼助手

GLM-4.7 編碼計劃 ($3/月)

2025 年最佳價值

在我目前的個人堆疊中：

當我需要嚴肅的編碼協助、長文檔綜合或多步驟代理流程時，我會選擇 GLM-4.7
我仍然使用其他模型來快速、便宜地進行頭腦風暴或在特定供應商工具限制下使用

最終結論：用一句話概括 GLM-4.7 是什麼？

GLM-4.7 是一個擁有 358B 參數、200K 上下文、編碼強大且開放權重的前沿模型，它讓長上下文 + 高品質推理不再只是演示友好，而是真正可用。

**如果你感到好奇，我的建議是：**選擇一個工作流程——長 PDF 分析、一個棘手的編碼問題，或一個小型代理管道——並將其與你目前的最愛一起在 GLM-4.7 上運行。差異比文字描述更容易感受到。

這週的測試讓我更堅信一點：像 GLM-4.7 這樣的模型不僅僅是變得更聰明——它們正在成為我們思考、計畫和做決策的基礎設施。

這個想法其實就是我們為什麼要打造 Macaron 的原因。不是另一個「加快工作速度」的 AI，而是一個個人助手，默默挑選最合適的模型來完成任務——不論是編程、閱讀、計畫，還是單純地思考——讓 AI 融入生活，而不是反過來。

如果你想知道這在實踐中是什麼樣的感覺，你可以免費試用 Macaron。

關於這次 GLM-4.7 評測：測試透明度

測試資格： 我是一名 AI 模型評估專家，自 2023 年以來已測試超過 50 個大型語言模型，涵蓋編程、推理和生產工作流程。這次 GLM-4.7 的分析基於一週的實際操作測試（2024 年 12 月至 2025 年 1 月）。

測試方法：

40 項任務基準套件（編程、推理、工具使用）
真實世界的工作流程：PDF 處理、代理管道、前端生成
與 GLM-4.6 的並排比較
長上下文壓力測試達到 180K 令牌

聯盟披露： 本文包含 Macaron 的推薦連結。我沒有從 Zhipu AI 獲得任何報酬。所有測試都是獨立進行的，使用的是公共 API 和編程計畫。

測試的軟體版本：

GLM-4.7 via Zhipu API（2025年1月生產版本）
GLM 編碼計劃（$3/月級別）
測試期：2024年12月20日 - 2025年1月15日

來源與參考資料：

Zhipu AI 官方網站：https://www.zhipuai.cn/
GLM-4.7 API 文件：https://open.bigmodel.cn/dev/api
開放權重： Hugging Face THUDM
價格資訊：https://open.bigmodel.cn/pricing