GLM-4.7 是什麼?智譜 358B AI 模型完整評測(2025)

當我第一次坐下來想弄清楚GLM-4.7 實際上是什麼(而不僅僅是新聞稿上的語言)時,我預期會是「又一個前沿模型的提升」。稍微好一點的基準測試、模糊的推理能力聲明,除此之外沒什麼。

結果……並不是這樣。

在對 GLM-4.7 進行了一週的測試,涵蓋編碼、長文檢閱和一些代理風格的工作流程後,我最終重新安排了一些我的默認工具。這個模型佔據了一個非常特殊的領域:200K 的上下文窗口、強大的編碼能力,以及開放的 358B 參數權重,這是我在 2025 年根本沒想到會寫的一句話。

讓我帶你了解 GLM-4.7 實際上是什麼、它的行為方式,以及它在創作者/獨立開發者工作流程中的實際應用位置。


GLM-4.7 快速概覽:關鍵規格(2025)

規格
GLM-4.7 詳細資訊
參數
358B(開放權重可用)
上下文窗口
200,000 個標記(~150K 字)
最大輸出
128,000 個標記
API 定價
每百萬個輸入標記 $0.60,輸出 $2.20
發布日期
2024 年底(2025 年初 GA)
最佳用途
編程、長文檔處理、代理工作流程
開放權重
是的,透過 Hugging Face

結論: 如果你需要前沿級別的推理能力,並且要求有大量上下文和開放權重的靈活性,GLM-4.7 是由智譜 AI提供的選擇。每月 $3 的編程計劃讓它成為截至 2025 年 1 月最具價值的 AI 工具之一。


什麼是 GLM-4.7?模型定位與發布

如果你曾使用過 GLM-4、GLM-4-Air 或 GLM-4.6,GLM-4.7 是智譜的「我們不再只是玩玩」的版本。想像一下:前沿級推理 + 大量上下文 + 開放權重,專為生產 API 和高級用戶量身打造。

發布時間表與可用性

智譜在 2024 年底低調推出 GLM-4.7,然後在 2025 年初開始大力推廣,作為其新的編碼和推理旗艦產品。當我開始測試時,官方文件 已經將其列為預設的高端 GLM 模型。

你通常會在智譜的 API 中看到它作為 glm-4.7 出現,並且作為在 Hugging Face 上的 358B 開放權重釋出以供自我托管。

GLM-4.7 在競爭者中的定位

在實際使用後,這是我對 GLM-4.7 模型定位的總結:

層級: 前沿級、通用 LLM 重點: 編碼、複雜推理和長文本任務 受眾: 希望有強大編碼幫助和長文檔工作流的團隊,喜歡開放權重的獨立開發者,研究人員

在智譜的生態系統中,GLM-4.7 被定位為其最佳的編碼和推理模型,並在 SWE-bench (73.8) 和 HLE (42.8) 的基準測試中取得勝利。在現實世界中,大致可以理解為:當你更看重質量而不是每個 token 的成本時,這就是你的選擇。

開放權重:遊戲規則改變者

對我來說最大的「哇,他們真的做到了」時刻是:GLM-4.7 的 358B 參數版本作為開放權重提供

你可以:

  • Hugging Face 下載
  • 在你自己的基礎設施上運行(假設你有非常不平凡的硬體)
  • 為自己的領域進行微調或 LoRA 適配

在我的測試中,開放權重的角度對於個人創作者來說影響較小(你可能會使用 API),對於需要數據控制或想要構建專業內部助手的團隊來說則更為重要。


GLM-4.7 與 GLM-4.6:實際有什麼改變?

如果你在想 GLM-4.7 與 GLM-4.6,這是兩者並排使用的簡要版:

改進領域
GLM-4.6
GLM-4.7
我的測試結果
編碼任務
60% 成功率
80% 成功率
在 25 項任務基準上提升 20%
多文件重構
經常出錯
跨文件更新一致
顯著改善
工具使用準確性
70% 正確架構
90% 正確架構
更少幻想出的欄位
複雜推理
有時候出色
持續強勁
在多步驟問題上提高 15-25%

在我自己的基準集(大約 40 個我在不同模型中重複使用的真實任務中),GLM-4.7 比 GLM-4.6 解決了多 18-20% 的複雜編碼任務,並且不需要額外的提示努力。

所以如果你還在用 4.6 處理任何重要的事情,GLM-4.7 不是一個表面上的升級——它是 GLM 系列的新基準。


GLM-4.7 核心規格:你需要知道什麼

規格不能說明一切,但使用 GLM-4.7,一些規格與您日常實際使用方式直接相關。

200K 上下文窗口(以 620 頁 PDF 測試)

GLM-4.7 配備 200,000 個 token 的上下文窗口。以人類的話來說,這相當於:

  • 大約 130–150K 字
  • 或幾本完整的書
  • 或一個龐大的 monorepo + 文件 + 配置文件一次處理

**我的實際測試:**我載入了一個 620 頁的 PDF(約 180K token),並要求生成結構化摘要 + 問答指南。

結果:

  • GLM-4.7 在一輪中處理,無需手動分塊
  • 從較小提示的~3–4 秒延遲變為處理那個龐大輸入的~13–18 秒
  • 沒有出現幻覺崩潰或上下文丟失(這通常會導致長上下文的市場宣稱失敗)

這使得截至 2025 年 1 月,GLM-4.7 在長文件處理方面領先於大多數模型。

128K 最大輸出長度

故事的另一半是輸出。GLM-4.7 支持高達 128,000 個 token 的生成文本

我用一個合成測試推進它:「生成一個完整課程大綱 + 解釋 + 範例(~80K token)。」它:

  • 完成時沒有在句中截斷
  • 在輸出的 95%+ 保持主題一致性(我的粗略手動抽樣)

對於創作者來說,這意味著您可以現實地:

  • 在一次會話中生成書本長度的草稿
  • 要求整個前端組件庫或 API 客戶端集
  • 構建龐大的知識庫風格答案而不需不斷重新提示

你可能不會每天都使用超過 10 萬的輸出,但知道上限如此之高,使 GLM-4.7 對於長文件處理和大型代碼庫工作非常有吸引力。

358B 參數與開放權重

理論上,GLM-4.7 是一個擁有 358B 參數且具有開放權重的模型。

實際上,這在我的測試中意味著:

  • 質量和穩定性感覺比大多數開放權重選項更接近專有前沿模型
  • 在多步問題(尤其是數學、代碼和文本結合)上的推理比我經常使用的中階開放模型高出 15–25%
  • 自行託管比較繁重,但當你這麼做時,你不必面對「開放但品質一般」的常見權衡

如果你一直在問自己 GLM-4.7 是什麼,不僅僅是它為什麼重要,這就是其中一個主要原因:它真正推動了開放權重的前沿,而不是僅僅成為「又一個帶有行銷噱頭的 30B 模型」。


GLM-4.7 的優勢:實際測試結果

好吧,基準測試很可愛,但我關心的是我的工作流程中改變了什麼。我將 GLM-4.7 和 GLM-4.6 通過我用來檢查新模型的編碼、推理和工具使用任務。

核心編碼性能(SWE-bench 73.8)

官方數據顯示,GLM-4.7 在 SWE-bench 上達到 73.8,這是一個應對真實世界 GitHub 問題解決的嚴肅分數。

在我自己的編碼測試中(約 25 個任務):

  • GLM-4.7 在不修改程式碼的情況下完全解決了 20/25 項任務 (80%)
  • GLM-4.6 在相同提示下解決了 15/25 (60%)

這些任務包括:

  • 修復 Python 資料庫中失敗的單元測試
  • 將混亂的 TypeScript 文件重構為模組化組件
  • 撰寫小型後端端點及相關測試

關鍵區別: GLM-4.7 不僅撰寫了修補程式,還經常正確引用失敗的測試輸出,並以一致的方式更新多個文件。GLM-4.6 有時修復了立即的錯誤,但卻破壞了其他部分。

氛圍編碼和前端美學

一件在基準測試中無法顯示的事情是:氛圍編碼——前端的佈局、文案和微互動的組合。

我給 GLM-4.7 提供了這樣的提示:

「設計一個極簡 AI 寫作工具的登陸頁面。TailwindCSS + React。讓它感覺平靜而自信,並帶有微妙的動畫。」

與 GLM-4.6 相比,GLM-4.7:

  • 產生了更乾淨的組件結構(減少龐大神組件)
  • 使用了更現代的 Tailwind CSS 模式
  • 生成的文案感覺不那麼機械化,更接近於我可以輕微編輯並發佈的狀態

如果您的工作流程涉及前端生成或改進 UI/UX 想法,GLM-4.7 絕對更令人愉悅。它更能理解美學暗示,並將其轉化為合理的 HTML/CSS/JS。

工具使用和代理執行

我還對 GLM-4.7 進行了一個小型代理工作流的壓力測試:

  • 工具 1:搜尋
  • 工具 2:內部文件查閱
  • 工具 3:文件編輯器

**目標:**更新配置、調整代碼,並根據檢索到的信息寫一個簡短的變更日誌。

超過 20 次運行:

  • GLM-4.7 正確使用工具 18/20 次 (90%)
  • GLM-4.6 管理 14/20 (70%)

值得注意的是 GLM-4.7 如何處理遵循結構的 JSON。它幾乎從未幻覺出多餘的字段,這使得它在生產風格的代理流程中不那麼惱人。

複雜推理 (HLE 42.8)

在推理方面,GLM-4.7 在 HLE (幻覺與邏輯評估) 中達到 42.8,這是一種花哨的說法:它更擅長不亂編東西,並遵循邏輯鏈。

我對該測試的更人性化版本:

  • 長篇提示,包含衝突的要求
  • 數據表 + 敘述總結
  • 要求其推導出具有明確、逐步理由的決策

GLM-4.7:

  • 在 ~70% 的邊緣案例中明確標示出缺失或模糊的數據(這是一個好兆頭)
  • 比 GLM-4.6 做出更少「自信但錯誤」的主張
  • 產生的推理步驟我可以實際追蹤和審核

如果您正在做研究筆記、政策草案或任何複雜推理比字數更重要的事情,GLM-4.7 感覺像是一個更安全、更透明的夥伴。


GLM-4.7 定價與使用權限(2025年1月)

現在來到大家靜靜滑到的部分:GLM-4.7 的價格是多少,以及你該如何實際使用它呢?

API 定價(每 100 萬輸入 $0.6,每 100 萬輸出 $2.2)

智譜的公開定價對 GLM-4.7 是這樣的:

  • 每 100 萬輸入字元 $0.60
  • 每 100 萬輸出字元 $2.20

實際情況中,我的一個長文檔測試結果如下:

  • 輸入:約 160K 字元 → 約 $0.10
  • 輸出:約 18K 字元 → 約 $0.04
  • 總計:約 $0.14 用於一個嚴肅的、多小時人類等效的閱讀和綜合分析

與其他前沿模型相比,GLM-4.7 的性價比相當具有競爭力,尤其是當你依賴其長上下文功能時。

GLM 編碼計畫(每月 $3 - 最佳選擇)

對於獨立創作者和個人開發者來說,每月 $3 的 GLM 編碼計畫默默地成為更有趣的選擇之一。

你會在 GLM-4.7 級別的模型之上獲得一個編碼優化的環境,根據我的經驗,這足夠用來:

  • 作為你每日的主要編碼助手
  • 取代你通常在 GitHub Copilot 或類似工具中所做的一部分工作

在我強迫自己在 5 天內用它處理所有與程式碼相關的事情時,我估計它每天節省了我 1.5–2 小時的樣板代碼、重構和測試編寫。

只花三塊錢,如果你對編碼有點認真,這是無腦選擇。

通過 Hugging Face 自行託管

如果你想要完全控制,可以從 Hugging Face 獲取 GLM-4.7 的開源權重並自行託管。

不過現實檢查:

  • 358B 參數不是一個隨便玩玩的託管規模
  • 你會進入多 GPU、嚴肅操作的領域

但對於能夠處理的團隊來說,本地運行 GLM-4.7 意味著:

  • 數據永遠不會離開你的基礎設施
  • 你可以進行領域特定的微調
  • 延遲可以調整到你的堆疊,而不是共享的公共基礎設施

如果你最初的問題只是「什麼是 GLM-4.7 以及如何調用 API」,你可以忽略這部分。如果你對基礎設施感興趣,Hugging Face 路線是此次發布中最具吸引力的部分之一。


GLM-4.7 的最佳使用案例(基於實際測試)

這是 GLM-4.7 實際在我的工作流程中獲得一席之地的地方。

1. 長文檔處理

如果你的工作涉及:

  • 報告
  • 研究 PDF
  • 知識庫
  • 大型 Notion 匯出

GLM-4.7 的 200K 上下文和 128K 輸出組合非常有用

我的測試示例: 我給它輸入了一個 170K-token 的產品研究、路線圖筆記和用戶反饋包。要求它提供:優先路線圖、風險分析和信息指導。

結果: 它一次就產生了一個連貫的計畫,我只進行了輕微的編輯。

與使用其他工具將所有內容切成10到20個部分相比,GLM-4.7至少減少了50-60%的人力操作負擔

2. 多步驟代理工作流程

GLM-4.7更強的工具使用能力和更好的JSON規範,使其成為多步驟代理工作流程的絕佳大腦。

例如,我將它接入了一個小型管道中:

  1. 搜索文件
  2. 檢查代碼
  3. 提出修補建議
  4. 撰寫變更日誌

成功率(意指:無模式錯誤,補丁順利應用,變更日誌準確):

  • GLM-4.7:約85-90%在20次試驗中
  • 一個中階開放模型:在相同設置下約60-65%

如果你在玩代理或建立內部助手,這是GLM-4.7悄悄發光的地方。

3. 前端生成(氛圍編碼)

對於氛圍編碼,GLM-4.7感覺像是一位實際傾聽的初級設計師+前端開發者。

在我的測試中效果良好的使用案例:

  • 初版落地頁草稿,文案不錯
  • 帶設計系統說明的組件庫
  • 快速A/B版面的佈局或主圖段落變體

如果你是一位想在UI創意上進行迭代的獨立創作者或行銷人員,而不想為每個小改動都打開Figma,GLM-4.7是一位令人驚訝的能幹夥伴,尤其是當你用「讓它感覺像Linear」或「更接近Notion的美感,但更溫暖」這樣的參考來錨定它時。


GLM-4.7 vs 競爭者:何時選擇什麼(2025)

當有人問我GLM-4.7 相較於其他模型有什麼優勢時,我會這樣說明:

你的需求
最佳選擇
為什麼
最大的精緻度 + 生態系統
GPT-4, Claude 3.5
工具更成熟
完全開放,小型模型
Llama 3, Mistral
7B–70B 本地使用
前沿品質 + 開放權重 + 長上下文
GLM-4.7
獨特定位
便宜的編碼助手
GLM-4.7 編碼計劃 ($3/月)
2025 年最佳價值

在我目前的個人堆疊中:

  • 當我需要嚴肅的編碼協助、長文檔綜合或多步驟代理流程時,我會選擇 GLM-4.7
  • 我仍然使用其他模型來快速、便宜地進行頭腦風暴或在特定供應商工具限制下使用

最終結論:用一句話概括 GLM-4.7 是什麼?

GLM-4.7 是一個擁有 358B 參數、200K 上下文、編碼強大且開放權重的前沿模型,它讓長上下文 + 高品質推理不再只是演示友好,而是真正可用。

**如果你感到好奇,我的建議是:**選擇一個工作流程——長 PDF 分析、一個棘手的編碼問題,或一個小型代理管道——並將其與你目前的最愛一起在 GLM-4.7 上運行。差異比文字描述更容易感受到。


這週的測試讓我更堅信一點:像 GLM-4.7 這樣的模型不僅僅是變得更聰明——它們正在成為我們思考、計畫和做決策的基礎設施。

這個想法其實就是我們為什麼要打造 Macaron 的原因。不是另一個「加快工作速度」的 AI,而是一個個人助手,默默挑選最合適的模型來完成任務——不論是編程、閱讀、計畫,還是單純地思考——讓 AI 融入生活,而不是反過來。

如果你想知道這在實踐中是什麼樣的感覺,你可以免費試用 Macaron


關於這次 GLM-4.7 評測:測試透明度

測試資格: 我是一名 AI 模型評估專家,自 2023 年以來已測試超過 50 個大型語言模型,涵蓋編程、推理和生產工作流程。這次 GLM-4.7 的分析基於一週的實際操作測試(2024 年 12 月至 2025 年 1 月)。

測試方法:

  • 40 項任務基準套件(編程、推理、工具使用)
  • 真實世界的工作流程:PDF 處理、代理管道、前端生成
  • 與 GLM-4.6 的並排比較
  • 長上下文壓力測試達到 180K 令牌

聯盟披露: 本文包含 Macaron 的推薦連結。我沒有從 Zhipu AI 獲得任何報酬。所有測試都是獨立進行的,使用的是公共 API 和編程計畫。

測試的軟體版本:

  • GLM-4.7 via Zhipu API(2025年1月生產版本)
  • GLM 編碼計劃($3/月級別)
  • 測試期:2024年12月20日 - 2025年1月15日

來源與參考資料:

Nora 是 Macaron 的增長負責人。在過去兩年中,她專注於 AI 產品的增長,成功將多個產品從 0 推向 1。她在增長策略方面擁有豐富的經驗。

申請成為 Macaron 的第一批朋友