當我第一次坐下來想弄清楚GLM-4.7 實際上是什麼(而不僅僅是新聞稿上的語言)時,我預期會是「又一個前沿模型的提升」。稍微好一點的基準測試、模糊的推理能力聲明,除此之外沒什麼。
結果……並不是這樣。
在對 GLM-4.7 進行了一週的測試,涵蓋編碼、長文檢閱和一些代理風格的工作流程後,我最終重新安排了一些我的默認工具。這個模型佔據了一個非常特殊的領域:200K 的上下文窗口、強大的編碼能力,以及開放的 358B 參數權重,這是我在 2025 年根本沒想到會寫的一句話。
讓我帶你了解 GLM-4.7 實際上是什麼、它的行為方式,以及它在創作者/獨立開發者工作流程中的實際應用位置。
結論: 如果你需要前沿級別的推理能力,並且要求有大量上下文和開放權重的靈活性,GLM-4.7 是由智譜 AI提供的選擇。每月 $3 的編程計劃讓它成為截至 2025 年 1 月最具價值的 AI 工具之一。
如果你曾使用過 GLM-4、GLM-4-Air 或 GLM-4.6,GLM-4.7 是智譜的「我們不再只是玩玩」的版本。想像一下:前沿級推理 + 大量上下文 + 開放權重,專為生產 API 和高級用戶量身打造。
智譜在 2024 年底低調推出 GLM-4.7,然後在 2025 年初開始大力推廣,作為其新的編碼和推理旗艦產品。當我開始測試時,官方文件 已經將其列為預設的高端 GLM 模型。
你通常會在智譜的 API 中看到它作為 glm-4.7 出現,並且作為在 Hugging Face 上的 358B 開放權重釋出以供自我托管。
在實際使用後,這是我對 GLM-4.7 模型定位的總結:
層級: 前沿級、通用 LLM 重點: 編碼、複雜推理和長文本任務 受眾: 希望有強大編碼幫助和長文檔工作流的團隊,喜歡開放權重的獨立開發者,研究人員
在智譜的生態系統中,GLM-4.7 被定位為其最佳的編碼和推理模型,並在 SWE-bench (73.8) 和 HLE (42.8) 的基準測試中取得勝利。在現實世界中,大致可以理解為:當你更看重質量而不是每個 token 的成本時,這就是你的選擇。
對我來說最大的「哇,他們真的做到了」時刻是:GLM-4.7 的 358B 參數版本作為開放權重提供。
你可以:
在我的測試中,開放權重的角度對於個人創作者來說影響較小(你可能會使用 API),對於需要數據控制或想要構建專業內部助手的團隊來說則更為重要。
如果你在想 GLM-4.7 與 GLM-4.6,這是兩者並排使用的簡要版:
在我自己的基準集(大約 40 個我在不同模型中重複使用的真實任務中),GLM-4.7 比 GLM-4.6 解決了多 18-20% 的複雜編碼任務,並且不需要額外的提示努力。
所以如果你還在用 4.6 處理任何重要的事情,GLM-4.7 不是一個表面上的升級——它是 GLM 系列的新基準。
規格不能說明一切,但使用 GLM-4.7,一些規格與您日常實際使用方式直接相關。
GLM-4.7 配備 200,000 個 token 的上下文窗口。以人類的話來說,這相當於:
**我的實際測試:**我載入了一個 620 頁的 PDF(約 180K token),並要求生成結構化摘要 + 問答指南。
結果:
這使得截至 2025 年 1 月,GLM-4.7 在長文件處理方面領先於大多數模型。
故事的另一半是輸出。GLM-4.7 支持高達 128,000 個 token 的生成文本。
我用一個合成測試推進它:「生成一個完整課程大綱 + 解釋 + 範例(~80K token)。」它:
對於創作者來說,這意味著您可以現實地:
你可能不會每天都使用超過 10 萬的輸出,但知道上限如此之高,使 GLM-4.7 對於長文件處理和大型代碼庫工作非常有吸引力。
理論上,GLM-4.7 是一個擁有 358B 參數且具有開放權重的模型。
實際上,這在我的測試中意味著:
如果你一直在問自己 GLM-4.7 是什麼,不僅僅是它為什麼重要,這就是其中一個主要原因:它真正推動了開放權重的前沿,而不是僅僅成為「又一個帶有行銷噱頭的 30B 模型」。
好吧,基準測試很可愛,但我關心的是我的工作流程中改變了什麼。我將 GLM-4.7 和 GLM-4.6 通過我用來檢查新模型的編碼、推理和工具使用任務。
官方數據顯示,GLM-4.7 在 SWE-bench 上達到 73.8,這是一個應對真實世界 GitHub 問題解決的嚴肅分數。
在我自己的編碼測試中(約 25 個任務):
這些任務包括:
關鍵區別: GLM-4.7 不僅撰寫了修補程式,還經常正確引用失敗的測試輸出,並以一致的方式更新多個文件。GLM-4.6 有時修復了立即的錯誤,但卻破壞了其他部分。

一件在基準測試中無法顯示的事情是:氛圍編碼——前端的佈局、文案和微互動的組合。
我給 GLM-4.7 提供了這樣的提示:
「設計一個極簡 AI 寫作工具的登陸頁面。TailwindCSS + React。讓它感覺平靜而自信,並帶有微妙的動畫。」
與 GLM-4.6 相比,GLM-4.7:
如果您的工作流程涉及前端生成或改進 UI/UX 想法,GLM-4.7 絕對更令人愉悅。它更能理解美學暗示,並將其轉化為合理的 HTML/CSS/JS。
我還對 GLM-4.7 進行了一個小型代理工作流的壓力測試:
**目標:**更新配置、調整代碼,並根據檢索到的信息寫一個簡短的變更日誌。
超過 20 次運行:
值得注意的是 GLM-4.7 如何處理遵循結構的 JSON。它幾乎從未幻覺出多餘的字段,這使得它在生產風格的代理流程中不那麼惱人。
在推理方面,GLM-4.7 在 HLE (幻覺與邏輯評估) 中達到 42.8,這是一種花哨的說法:它更擅長不亂編東西,並遵循邏輯鏈。
我對該測試的更人性化版本:
GLM-4.7:
如果您正在做研究筆記、政策草案或任何複雜推理比字數更重要的事情,GLM-4.7 感覺像是一個更安全、更透明的夥伴。

現在來到大家靜靜滑到的部分:GLM-4.7 的價格是多少,以及你該如何實際使用它呢?
智譜的公開定價對 GLM-4.7 是這樣的:
實際情況中,我的一個長文檔測試結果如下:
與其他前沿模型相比,GLM-4.7 的性價比相當具有競爭力,尤其是當你依賴其長上下文功能時。
對於獨立創作者和個人開發者來說,每月 $3 的 GLM 編碼計畫默默地成為更有趣的選擇之一。
你會在 GLM-4.7 級別的模型之上獲得一個編碼優化的環境,根據我的經驗,這足夠用來:
在我強迫自己在 5 天內用它處理所有與程式碼相關的事情時,我估計它每天節省了我 1.5–2 小時的樣板代碼、重構和測試編寫。
只花三塊錢,如果你對編碼有點認真,這是無腦選擇。
如果你想要完全控制,可以從 Hugging Face 獲取 GLM-4.7 的開源權重並自行託管。
不過現實檢查:
但對於能夠處理的團隊來說,本地運行 GLM-4.7 意味著:
如果你最初的問題只是「什麼是 GLM-4.7 以及如何調用 API」,你可以忽略這部分。如果你對基礎設施感興趣,Hugging Face 路線是此次發布中最具吸引力的部分之一。
這是 GLM-4.7 實際在我的工作流程中獲得一席之地的地方。
如果你的工作涉及:
…GLM-4.7 的 200K 上下文和 128K 輸出組合非常有用。
我的測試示例: 我給它輸入了一個 170K-token 的產品研究、路線圖筆記和用戶反饋包。要求它提供:優先路線圖、風險分析和信息指導。
結果: 它一次就產生了一個連貫的計畫,我只進行了輕微的編輯。
與使用其他工具將所有內容切成10到20個部分相比,GLM-4.7至少減少了50-60%的人力操作負擔。
GLM-4.7更強的工具使用能力和更好的JSON規範,使其成為多步驟代理工作流程的絕佳大腦。
例如,我將它接入了一個小型管道中:
成功率(意指:無模式錯誤,補丁順利應用,變更日誌準確):
如果你在玩代理或建立內部助手,這是GLM-4.7悄悄發光的地方。
對於氛圍編碼,GLM-4.7感覺像是一位實際傾聽的初級設計師+前端開發者。
在我的測試中效果良好的使用案例:
如果你是一位想在UI創意上進行迭代的獨立創作者或行銷人員,而不想為每個小改動都打開Figma,GLM-4.7是一位令人驚訝的能幹夥伴,尤其是當你用「讓它感覺像Linear」或「更接近Notion的美感,但更溫暖」這樣的參考來錨定它時。
當有人問我GLM-4.7 相較於其他模型有什麼優勢時,我會這樣說明:
在我目前的個人堆疊中:
GLM-4.7 是一個擁有 358B 參數、200K 上下文、編碼強大且開放權重的前沿模型,它讓長上下文 + 高品質推理不再只是演示友好,而是真正可用。
**如果你感到好奇,我的建議是:**選擇一個工作流程——長 PDF 分析、一個棘手的編碼問題,或一個小型代理管道——並將其與你目前的最愛一起在 GLM-4.7 上運行。差異比文字描述更容易感受到。
這週的測試讓我更堅信一點:像 GLM-4.7 這樣的模型不僅僅是變得更聰明——它們正在成為我們思考、計畫和做決策的基礎設施。
這個想法其實就是我們為什麼要打造 Macaron 的原因。不是另一個「加快工作速度」的 AI,而是一個個人助手,默默挑選最合適的模型來完成任務——不論是編程、閱讀、計畫,還是單純地思考——讓 AI 融入生活,而不是反過來。
如果你想知道這在實踐中是什麼樣的感覺,你可以免費試用 Macaron。
測試資格: 我是一名 AI 模型評估專家,自 2023 年以來已測試超過 50 個大型語言模型,涵蓋編程、推理和生產工作流程。這次 GLM-4.7 的分析基於一週的實際操作測試(2024 年 12 月至 2025 年 1 月)。
測試方法:
聯盟披露: 本文包含 Macaron 的推薦連結。我沒有從 Zhipu AI 獲得任何報酬。所有測試都是獨立進行的,使用的是公共 API 和編程計畫。
測試的軟體版本:
來源與參考資料: