當我第一次坐下來想弄清楚 GLM-4.7 實際上是什麼(不僅僅是新聞稿語言)時,我預期會看到「又一個前沿模型的提升」。稍微更好的基準測試,對推理的模糊聲稱,除此之外就沒什麼了。
但這並不是我所遇到的結果。
在對 GLM-4.7 進行了一周的測試後,涵蓋編碼、長文檢視和一些代理風格的工作流程,我最終重新調整了一些我預設的工具。這個模型佔據了一個非常特別的利基市場:龐大的上下文,出色的編碼能力,以及開放的 3580 億參數權重,這不是我以為我會在 2025 年寫下的一句話。
讓我帶你了解 GLM-4.7 實際上是什麼,它的行為如何,以及它實際上如何適合創作者/獨立開發者的工作流程。
如果你之前用過 GLM-4、GLM-4-Air 或 GLM-4.6,GLM-4.7 是智譜的「我們不再玩票」的版本。想像一下:前沿級別的推理能力 + 大上下文 + 面向生產 API 和高級用戶的開放權重。
智譜在 2024 年底悄悄推出了 GLM-4.7,然後在 2025 年初開始大力推廣,作為其新的編碼和推理旗艦產品。當我開始測試時,文件中已經將其作為預設的高端 GLM 模型。
在智譜 API 中,你通常會看到它以 glm-4.7 或類似的形式出現,並且作為 358B 開放權重版本在 Hugging Face 上提供自我託管。
在實際使用後,我會這樣總結模型定位:
在智譜自己的生態系統中,GLM-4.7 被定位為其最佳的編碼和推理模型,並在 SWE-bench 和 HLE 等基準測試中獲得優勝。在現實世界中,這大致意味著:當你更關注質量而非每個 token 的原始成本時,這就是你的首選。
讓我驚呼「哇,他們真的做到了」的最大時刻是這個:GLM-4.7 的 358B 參數版本可以作為開放權重獲得。
你可以:
在我的測試中,開放權重這點對於個人創作者來說影響較小(你可能使用的是 API),但對於需要數據控制或希望構建專用內部助手的團隊來說,則更為重要。
如果你在考慮 GLM-4.7 和 GLM-4.6,這是我在並排使用時的簡短總結:
在我自己的基準測試集中(約 40 個我在不同模型中重複使用的真實任務),GLM-4.7 解決了約 18–20% 更多的複雜編碼任務,且無需額外的提示努力。
所以,如果你在 4.6 上做任何嚴肅的事情,GLM-4.7 不是一個表面上的升級,而是 GLM 系列中的新基準。
規格並不能說明一切,但使用 GLM-4.7 時,其中一些規格確實直接影響到你每天的實際使用情況。
GLM-4.7 配備了一個 200K 代幣的內容窗口。用人類的語言來說,相當於:
在我的測試中:
延遲確實上升,從較小提示的約 3–4 秒增加到那個龐大輸入的約 13–18 秒,但它沒有崩潰或產生嚴重的幻覺,而這通常是長內容營銷聲稱失敗的原因。
故事的另一半是輸出。GLM-4.7 支持最多 128K 代幣的生成文本。
我用一個合成測試進行了推動:「生成一個完整的課程大綱 + 解釋 + 示例(約 80K 代幣)。」它:
對於創作者來說,這意味著你可以現實地:
你可能不會每天都使用 100K+ 的輸出,但知道這個上限如此高,使得 GLM-4.7 在長文檔處理和大型代碼庫工作中非常吸引人。
在理論上,GLM-4.7 是一個擁有開放權重的 358B 參數模型。
實際上,在我的測試中,它的表現如下:
如果你一直在問自己,不只是 GLM-4.7 是什麼,而是為什麼它重要,那麼這就是其中一個大原因:它真正推動了開放權重的前沿,而不僅僅是「另一個帶有市場噱頭的 30B 左右模型」。
好的,基準測試很可愛,但我更關心工作流程中發生了什麼變化。我使用相同的編碼、推理和工具使用任務來運行 GLM-4.7 和 GLM-4.6,以檢查新模型的合理性。
官方數據顯示,GLM-4.7 在 SWE-bench 上達到 73.8,這是一個在真實世界中解決 GitHub 問題的高分。
在我自己的編碼測試中(約 25 個任務):
這些任務包括:
關鍵區別在於:GLM-4.7 不僅寫了補丁,還經常正確引用失敗的測試輸出,並以一致的方式更新多個文件。而 4.6 有時修復了立即錯誤但破壞了其他部分。
基準測試中無法顯示的一件事是:感覺編碼,即前端的佈局、文案和微交互的組合。
我給 GLM-4.7 的提示是:
「設計一個極簡 AI 寫作工具的登陸頁面。使用 TailwindCSS + React。讓它感覺平靜但自信,帶有微妙的動畫。」
與 GLM-4.6 相比,GLM-4.7:
如果你的工作流程涉及前端生成或優化 UI/UX 構思,GLM-4.7 的使用體驗會更加愉悅。它更能「理解」美學暗示,並將其轉化為合理的 HTML/CSS/JS。
我也用一個小型代理工作流程對 GLM-4.7 進行了壓力測試:
目標:根據檢索資訊更新配置、調整代碼,並撰寫簡短的變更日志。
超過 20 次運行:
值得注意的是,GLM-4.7 如何處理遵循模式的 JSON。它幾乎從不產生多餘的字段,這使得它在生產風格的代理流程中不那麼惱人。
在推理方面,GLM-4.7 在 HLE(幻覺與邏輯評估)中得分 42.8,這是一種說法,表示它在不捏造事物和遵循邏輯鏈方面表現更好。
我更人性化的測試版本:
GLM-4.7:
如果您在做研究筆記、政策草案,或任何需要複雜推理而非字數的地方,GLM-4.7 感覺像是一個更安全、更透明的夥伴。
現在來談談大家悄悄關心的部分:GLM-4.7 的價格是多少,您實際上如何使用它?
智譜公開的 GLM-4.7 價格為:
實際上,這對我的一個長文檢測意味著:
與其他前沿模型相比,GLM-4.7 的性價比競爭力相當高,尤其是如果您依賴長上下文功能。
對於獨立創作者和個人開發者,月費 3 美元的 GLM 編碼計畫悄然成為較有吸引力的選擇之一。
您可以獲得一個經過編碼優化的環境,基於 GLM-4.7 級別的模型,根據我的經驗,這已足夠:
在連續 5 天的時間裡,我強迫自己將它用於所有與代碼相關的事情,我估計它每天為我節省了 1.5 到 2 小時的樣板代碼、重構和測試編寫時間。
花三塊錢,如果你對編碼有點認真,這是毫不費力的選擇。
如果你想要完全的控制權,你可以從 Hugging Face 獲取 GLM-4.7 的公開權重並自行託管。
不過,現實檢查:
但對於能處理的團隊來說,本地運行 GLM-4.7 意味著:
如果你的初始問題只是「什麼是 GLM-4.7 以及如何使用 API」,你可以忽略這部分。如果你對基礎設施感興趣,Hugging Face 路線是這次發布中最吸引人的部分之一。
這是 GLM-4.7 真正贏得我青睞的地方。
如果你的工作涉及:
…GLM-4.7 的 200K 上下文和 128K 輸出組合非常有用。
我測試中的例子:
與其他工具將所有內容切成 10–20 塊相比,GLM-4.7 將手動工作量至少減少了 50–60%。
GLM-4.7 更強的工具使用能力和更好的 JSON 規範,使其成為多步驟代理工作流程的優秀大腦。
例如,我將它連接到一個小型管道中:
成功率(即:無模式錯誤,修補順利應用,變更日誌準確):
如果你正在玩代理或構建內部副駕駛,這是 GLM-4.7 默默發光的地方。
在氛圍編碼方面,GLM-4.7 就像一位真的會傾聽的初級設計師和前端開發者。
在我的測試中效果良好的使用案例:
如果你是一個想要在不為每一個小變動開 Figma 的情況下迭代 UI 想法的獨立創作者或行銷人員,GLM-4.7 是一個非常有潛力的夥伴,特別是在你給它一些參考的情況下,比如「讓它感覺像 Linear」或「更接近 Notion 的美學,但更溫暖一些」。
當人們問我 GLM-4.7 與其他模型相比有什麼優勢時,我是這樣來說的:
在我目前的個人堆疊中:
從獨立創作者 / 市場營銷者的角度來看,這是實際的要點:
那麼,GLM-4.7 用一句話來說是什麼?
它是一個 358B 參數、200K 上下文、編程能力強、開放權重的前沿模型,最終讓長上下文 + 高質量推理感覺可用,而不僅僅是演示友好。
如果你感到好奇,我的建議很簡單:選擇一個工作流程、長 PDF 分析、一個棘手的編程問題或一個小型代理管道,並將其與你當前的最愛一起運行 GLM-4.7。這種差異比讀起來更容易感受到。
這週的測試讓我更堅信一件事: 像 GLM-4.7 這樣的模型不僅在變得更聰明——它們正在成為我們思考、規劃和決策的基礎設施。
這個想法其實就是我們打造Macaron的原因。 不是另一個“做更多工作更快”的 AI,而是一個能安靜地為每個任務挑選合適模型的個人助手——不論是編碼、閱讀、規劃,還是單純地思考——讓 AI 融入生活,而不是相反。
如果你想知道這在實際中是什麼感覺,可以在這裡試試看: → 免費試用 Macaron