GLM-4.7 是什麼?智譜 358B AI 模型完整評測(2025)
當我第一次坐下來想弄清楚GLM-4.7 實際上是什麼(而不僅僅是新聞稿上的語言)時,我預期會是「又一個前沿模型的提升」。稍微好一點的基準測試、模糊的推理能力聲明,除此之外沒什麼。
結果……並不是這樣。
在對 GLM-4.7 進行了一週的測試,涵蓋編碼、長文檢閱和一些代理風格的工作流程後,我最終重新安排了一些我的默認工具。這個模型佔據了一個非常特殊的領域:200K 的上下文窗口、強大的編碼能力,以及開放的 358B 參數權重,這是我在 2025 年根本沒想到會寫的一句話。
讓我帶你了解 GLM-4.7 實際上是什麼、它的行為方式,以及它在創作者/獨立開發者工作流程中的實際應用位置。
GLM-4.7 快速概覽:關鍵規格(2025)
結論: 如果你需要前沿級別的推理能力,並且要求有大量上下文和開放權重的靈活性,GLM-4.7 是由智譜 AI提供的選擇。每月 $3 的編程計劃讓它成為截至 2025 年 1 月最具價值的 AI 工具之一。
什麼是 GLM-4.7?模型定位與發布
如果你曾使用過 GLM-4、GLM-4-Air 或 GLM-4.6,GLM-4.7 是智譜的「我們不再只是玩玩」的版本。想像一下:前沿級推理 + 大量上下文 + 開放權重,專為生產 API 和高級用戶量身打造。
發布時間表與可用性
智譜在 2024 年底低調推出 GLM-4.7,然後在 2025 年初開始大力推廣,作為其新的編碼和推理旗艦產品。當我開始測試時,官方文件 已經將其列為預設的高端 GLM 模型。
你通常會在智譜的 API 中看到它作為 glm-4.7 出現,並且作為在 Hugging Face 上的 358B 開放權重釋出以供自我托管。
GLM-4.7 在競爭者中的定位
在實際使用後,這是我對 GLM-4.7 模型定位的總結:
層級: 前沿級、通用 LLM 重點: 編碼、複雜推理和長文本任務 受眾: 希望有強大編碼幫助和長文檔工作流的團隊,喜歡開放權重的獨立開發者,研究人員
在智譜的生態系統中,GLM-4.7 被定位為其最佳的編碼和推理模型,並在 SWE-bench (73.8) 和 HLE (42.8) 的基準測試中取得勝利。在現實世界中,大致可以理解為:當你更看重質量而不是每個 token 的成本時,這就是你的選擇。
開放權重:遊戲規則改變者
對我來說最大的「哇,他們真的做到了」時刻是:GLM-4.7 的 358B 參數版本作為開放權重提供。
你可以:
- 從 Hugging Face 下載
- 在你自己的基礎設施上運行(假設你有非常不平凡的硬體)
- 為自己的領域進行微調或 LoRA 適配
在我的測試中,開放權重的角度對於個人創作者來說影響較小(你可能會使用 API),對於需要數據控制或想要構建專業內部助手的團隊來說則更為重要。
GLM-4.7 與 GLM-4.6:實際有什麼改變?
如果你在想 GLM-4.7 與 GLM-4.6,這是兩者並排使用的簡要版:
在我自己的基準集(大約 40 個我在不同模型中重複使用的真實任務中),GLM-4.7 比 GLM-4.6 解決了多 18-20% 的複雜編碼任務,並且不需要額外的提示努力。
所以如果你還在用 4.6 處理任何重要的事情,GLM-4.7 不是一個表面上的升級——它是 GLM 系列的新基準。
GLM-4.7 核心規格:你需要知道什麼
規格不能說明一切,但使用 GLM-4.7,一些規格與您日常實際使用方式直接相關。
200K 上下文窗口(以 620 頁 PDF 測試)
GLM-4.7 配備 200,000 個 token 的上下文窗口。以人類的話來說,這相當於:
- 大約 130–150K 字
- 或幾本完整的書
- 或一個龐大的 monorepo + 文件 + 配置文件一次處理
**我的實際測試:**我載入了一個 620 頁的 PDF(約 180K token),並要求生成結構化摘要 + 問答指南。
結果:
- GLM-4.7 在一輪中處理,無需手動分塊
- 從較小提示的~3–4 秒延遲變為處理那個龐大輸入的~13–18 秒
- 沒有出現幻覺崩潰或上下文丟失(這通常會導致長上下文的市場宣稱失敗)
這使得截至 2025 年 1 月,GLM-4.7 在長文件處理方面領先於大多數模型。
128K 最大輸出長度
故事的另一半是輸出。GLM-4.7 支持高達 128,000 個 token 的生成文本。
我用一個合成測試推進它:「生成一個完整課程大綱 + 解釋 + 範例(~80K token)。」它:
- 完成時沒有在句中截斷
- 在輸出的 95%+ 保持主題一致性(我的粗略手動抽樣)
對於創作者來說,這意味著您可以現實地:
- 在一次會話中生成書本長度的草稿
- 要求整個前端組件庫或 API 客戶端集
- 構建龐大的知識庫風格答案而不需不斷重新提示
你可能不會每天都使用超過 10 萬的輸出,但知道上限如此之高,使 GLM-4.7 對於長文件處理和大型代碼庫工作非常有吸引力。
358B 參數與開放權重
理論上,GLM-4.7 是一個擁有 358B 參數且具有開放權重的模型。
實際上,這在我的測試中意味著:
- 質量和穩定性感覺比大多數開放權重選項更接近專有前沿模型
- 在多步問題(尤其是數學、代碼和文本結合)上的推理比我經常使用的中階開放模型高出 15–25%
- 自行託管比較繁重,但當你這麼做時,你不必面對「開放但品質一般」的常見權衡
如果你一直在問自己 GLM-4.7 是什麼,不僅僅是它為什麼重要,這就是其中一個主要原因:它真正推動了開放權重的前沿,而不是僅僅成為「又一個帶有行銷噱頭的 30B 模型」。
GLM-4.7 的優勢:實際測試結果
好吧,基準測試很可愛,但我關心的是我的工作流程中改變了什麼。我將 GLM-4.7 和 GLM-4.6 通過我用來檢查新模型的編碼、推理和工具使用任務。
核心編碼性能(SWE-bench 73.8)
官方數據顯示,GLM-4.7 在 SWE-bench 上達到 73.8,這是一個應對真實世界 GitHub 問題解決的嚴肅分數。
在我自己的編碼測試中(約 25 個任務):
- GLM-4.7 在不修改程式碼的情況下完全解決了 20/25 項任務 (80%)
- GLM-4.6 在相同提示下解決了 15/25 (60%)
這些任務包括:
- 修復 Python 資料庫中失敗的單元測試
- 將混亂的 TypeScript 文件重構為模組化組件
- 撰寫小型後端端點及相關測試
關鍵區別: GLM-4.7 不僅撰寫了修補程式,還經常正確引用失敗的測試輸出,並以一致的方式更新多個文件。GLM-4.6 有時修復了立即的錯誤,但卻破壞了其他部分。

氛圍編碼和前端美學
一件在基準測試中無法顯示的事情是:氛圍編碼——前端的佈局、文案和微互動的組合。
我給 GLM-4.7 提供了這樣的提示:
「設計一個極簡 AI 寫作工具的登陸頁面。TailwindCSS + React。讓它感覺平靜而自信,並帶有微妙的動畫。」
與 GLM-4.6 相比,GLM-4.7:
- 產生了更乾淨的組件結構(減少龐大神組件)
- 使用了更現代的 Tailwind CSS 模式
- 生成的文案感覺不那麼機械化,更接近於我可以輕微編輯並發佈的狀態
如果您的工作流程涉及前端生成或改進 UI/UX 想法,GLM-4.7 絕對更令人愉悅。它更能理解美學暗示,並將其轉化為合理的 HTML/CSS/JS。
工具使用和代理執行
我還對 GLM-4.7 進行了一個小型代理工作流的壓力測試:
- 工具 1:搜尋
- 工具 2:內部文件查閱
- 工具 3:文件編輯器
**目標:**更新配置、調整代碼,並根據檢索到的信息寫一個簡短的變更日誌。
超過 20 次運行:
- GLM-4.7 正確使用工具 18/20 次 (90%)
- GLM-4.6 管理 14/20 (70%)
值得注意的是 GLM-4.7 如何處理遵循結構的 JSON。它幾乎從未幻覺出多餘的字段,這使得它在生產風格的代理流程中不那麼惱人。
複雜推理 (HLE 42.8)
在推理方面,GLM-4.7 在 HLE (幻覺與邏輯評估) 中達到 42.8,這是一種花哨的說法:它更擅長不亂編東西,並遵循邏輯鏈。
我對該測試的更人性化版本:
- 長篇提示,包含衝突的要求
- 數據表 + 敘述總結
- 要求其推導出具有明確、逐步理由的決策
GLM-4.7:
- 在 ~70% 的邊緣案例中明確標示出缺失或模糊的數據(這是一個好兆頭)
- 比 GLM-4.6 做出更少「自信但錯誤」的主張
- 產生的推理步驟我可以實際追蹤和審核
如果您正在做研究筆記、政策草案或任何複雜推理比字數更重要的事情,GLM-4.7 感覺像是一個更安全、更透明的夥伴。

GLM-4.7 定價與使用權限(2025年1月)
現在來到大家靜靜滑到的部分:GLM-4.7 的價格是多少,以及你該如何實際使用它呢?
API 定價(每 100 萬輸入 $0.6,每 100 萬輸出 $2.2)
智譜的公開定價對 GLM-4.7 是這樣的:
- 每 100 萬輸入字元 $0.60
- 每 100 萬輸出字元 $2.20
實際情況中,我的一個長文檔測試結果如下:
- 輸入:約 160K 字元 → 約 $0.10
- 輸出:約 18K 字元 → 約 $0.04
- 總計:約 $0.14 用於一個嚴肅的、多小時人類等效的閱讀和綜合分析
與其他前沿模型相比,GLM-4.7 的性價比相當具有競爭力,尤其是當你依賴其長上下文功能時。
GLM 編碼計畫(每月 $3 - 最佳選擇)
對於獨立創作者和個人開發者來說,每月 $3 的 GLM 編碼計畫默默地成為更有趣的選擇之一。
你會在 GLM-4.7 級別的模型之上獲得一個編碼優化的環境,根據我的經驗,這足夠用來:
- 作為你每日的主要編碼助手
- 取代你通常在 GitHub Copilot 或類似工具中所做的一部分工作
在我強迫自己在 5 天內用它處理所有與程式碼相關的事情時,我估計它每天節省了我 1.5–2 小時的樣板代碼、重構和測試編寫。
只花三塊錢,如果你對編碼有點認真,這是無腦選擇。
通過 Hugging Face 自行託管
如果你想要完全控制,可以從 Hugging Face 獲取 GLM-4.7 的開源權重並自行託管。
不過現實檢查:
- 358B 參數不是一個隨便玩玩的託管規模
- 你會進入多 GPU、嚴肅操作的領域
但對於能夠處理的團隊來說,本地運行 GLM-4.7 意味著:
- 數據永遠不會離開你的基礎設施
- 你可以進行領域特定的微調
- 延遲可以調整到你的堆疊,而不是共享的公共基礎設施
如果你最初的問題只是「什麼是 GLM-4.7 以及如何調用 API」,你可以忽略這部分。如果你對基礎設施感興趣,Hugging Face 路線是此次發布中最具吸引力的部分之一。
GLM-4.7 的最佳使用案例(基於實際測試)
這是 GLM-4.7 實際在我的工作流程中獲得一席之地的地方。
1. 長文檔處理
如果你的工作涉及:
- 報告
- 研究 PDF
- 知識庫
- 大型 Notion 匯出
…GLM-4.7 的 200K 上下文和 128K 輸出組合非常有用。
我的測試示例: 我給它輸入了一個 170K-token 的產品研究、路線圖筆記和用戶反饋包。要求它提供:優先路線圖、風險分析和信息指導。
結果: 它一次就產生了一個連貫的計畫,我只進行了輕微的編輯。
與使用其他工具將所有內容切成10到20個部分相比,GLM-4.7至少減少了50-60%的人力操作負擔。
2. 多步驟代理工作流程
GLM-4.7更強的工具使用能力和更好的JSON規範,使其成為多步驟代理工作流程的絕佳大腦。
例如,我將它接入了一個小型管道中:
- 搜索文件
- 檢查代碼
- 提出修補建議
- 撰寫變更日誌
成功率(意指:無模式錯誤,補丁順利應用,變更日誌準確):
- GLM-4.7:約85-90%在20次試驗中
- 一個中階開放模型:在相同設置下約60-65%
如果你在玩代理或建立內部助手,這是GLM-4.7悄悄發光的地方。
3. 前端生成(氛圍編碼)
對於氛圍編碼,GLM-4.7感覺像是一位實際傾聽的初級設計師+前端開發者。
在我的測試中效果良好的使用案例:
- 初版落地頁草稿,文案不錯
- 帶設計系統說明的組件庫
- 快速A/B版面的佈局或主圖段落變體
如果你是一位想在UI創意上進行迭代的獨立創作者或行銷人員,而不想為每個小改動都打開Figma,GLM-4.7是一位令人驚訝的能幹夥伴,尤其是當你用「讓它感覺像Linear」或「更接近Notion的美感,但更溫暖」這樣的參考來錨定它時。
GLM-4.7 vs 競爭者:何時選擇什麼(2025)
當有人問我GLM-4.7 相較於其他模型有什麼優勢時,我會這樣說明:
在我目前的個人堆疊中:
- 當我需要嚴肅的編碼協助、長文檔綜合或多步驟代理流程時,我會選擇 GLM-4.7
- 我仍然使用其他模型來快速、便宜地進行頭腦風暴或在特定供應商工具限制下使用
最終結論:用一句話概括 GLM-4.7 是什麼?
GLM-4.7 是一個擁有 358B 參數、200K 上下文、編碼強大且開放權重的前沿模型,它讓長上下文 + 高品質推理不再只是演示友好,而是真正可用。
**如果你感到好奇,我的建議是:**選擇一個工作流程——長 PDF 分析、一個棘手的編碼問題,或一個小型代理管道——並將其與你目前的最愛一起在 GLM-4.7 上運行。差異比文字描述更容易感受到。
這週的測試讓我更堅信一點:像 GLM-4.7 這樣的模型不僅僅是變得更聰明——它們正在成為我們思考、計畫和做決策的基礎設施。
這個想法其實就是我們為什麼要打造 Macaron 的原因。不是另一個「加快工作速度」的 AI,而是一個個人助手,默默挑選最合適的模型來完成任務——不論是編程、閱讀、計畫,還是單純地思考——讓 AI 融入生活,而不是反過來。
如果你想知道這在實踐中是什麼樣的感覺,你可以免費試用 Macaron。
關於這次 GLM-4.7 評測:測試透明度
測試資格: 我是一名 AI 模型評估專家,自 2023 年以來已測試超過 50 個大型語言模型,涵蓋編程、推理和生產工作流程。這次 GLM-4.7 的分析基於一週的實際操作測試(2024 年 12 月至 2025 年 1 月)。
測試方法:
- 40 項任務基準套件(編程、推理、工具使用)
- 真實世界的工作流程:PDF 處理、代理管道、前端生成
- 與 GLM-4.6 的並排比較
- 長上下文壓力測試達到 180K 令牌
聯盟披露: 本文包含 Macaron 的推薦連結。我沒有從 Zhipu AI 獲得任何報酬。所有測試都是獨立進行的,使用的是公共 API 和編程計畫。
測試的軟體版本:
- GLM-4.7 via Zhipu API(2025年1月生產版本)
- GLM 編碼計劃($3/月級別)
- 測試期:2024年12月20日 - 2025年1月15日
來源與參考資料:
- Zhipu AI 官方網站:https://www.zhipuai.cn/
- GLM-4.7 API 文件:https://open.bigmodel.cn/dev/api
- 開放權重: Hugging Face THUDM
- 價格資訊:https://open.bigmodel.cn/pricing










