當我第一次坐下來想弄清楚 GLM-4.7 實際上是什麼(不僅僅是新聞稿語言)時,我預期會看到「又一個前沿模型的提升」。稍微更好的基準測試,對推理的模糊聲稱,除此之外就沒什麼了。

但這並不是我所遇到的結果。

在對 GLM-4.7 進行了一周的測試後,涵蓋編碼、長文檢視和一些代理風格的工作流程,我最終重新調整了一些我預設的工具。這個模型佔據了一個非常特別的利基市場:龐大的上下文,出色的編碼能力,以及開放的 3580 億參數權重,這不是我以為我會在 2025 年寫下的一句話。

讓我帶你了解 GLM-4.7 實際上是什麼,它的行為如何,以及它實際上如何適合創作者/獨立開發者的工作流程。

GLM-4.7 概述:智譜最新推出的產品

如果你之前用過 GLM-4、GLM-4-Air 或 GLM-4.6,GLM-4.7 是智譜的「我們不再玩票」的版本。想像一下:前沿級別的推理能力 + 大上下文 + 面向生產 API 和高級用戶的開放權重。

發佈日期

智譜在 2024 年底悄悄推出了 GLM-4.7,然後在 2025 年初開始大力推廣,作為其新的編碼和推理旗艦產品。當我開始測試時,文件中已經將其作為預設的高端 GLM 模型。

在智譜 API 中,你通常會看到它以 glm-4.7 或類似的形式出現,並且作為 358B 開放權重版本在 Hugging Face 上提供自我託管。

模型定位

在實際使用後,我會這樣總結模型定位:

  • 階層:前沿級別,通用 LLM
  • 重點:編碼、複雜推理及長上下文任務
  • 目標用戶:需要強大編碼幫助和長文檔工作流程的團隊:喜歡開放權重的獨立開發者:研究人員

在智譜自己的生態系統中,GLM-4.7 被定位為其最佳的編碼和推理模型,並在 SWE-bench 和 HLE 等基準測試中獲得優勝。在現實世界中,這大致意味著:當你更關注質量而非每個 token 的原始成本時,這就是你的首選。

開放權重可用性

讓我驚呼「哇,他們真的做到了」的最大時刻是這個:GLM-4.7 的 358B 參數版本可以作為開放權重獲得

你可以:

  • 從 Hugging Face 拉取
  • 在自己的基礎設施上運行(假設你有非常強大的硬體)
  • 微調或 LoRA 調整以適應自己的領域

在我的測試中,開放權重這點對於個人創作者來說影響較小(你可能使用的是 API),但對於需要數據控制或希望構建專用內部助手的團隊來說,則更為重要。

與 GLM-4.6 的關係

如果你在考慮 GLM-4.7 和 GLM-4.6,這是我在並排使用時的簡短總結:

  • GLM-4.7 在編碼上顯著更好(特別是在多文件和測試感知的重構方面)
  • 在處理困難、多步驟任務時推理更一致,而不僅僅是「偶爾驚艷」
  • 工具使用更流暢:它更可靠地遵循功能簽名和架構

在我自己的基準測試集中(約 40 個我在不同模型中重複使用的真實任務),GLM-4.7 解決了約 18–20% 更多的複雜編碼任務,且無需額外的提示努力。

所以,如果你在 4.6 上做任何嚴肅的事情,GLM-4.7 不是一個表面上的升級,而是 GLM 系列中的新基準。

你需要知道的核心規格

規格並不能說明一切,但使用 GLM-4.7 時,其中一些規格確實直接影響到你每天的實際使用情況。

200K 內容窗口

GLM-4.7 配備了一個 200K 代幣的內容窗口。用人類的語言來說,相當於:

  • 大約 130–150k 字
  • 或幾本完整的書
  • 或龐大的 monorepo + 文檔 + 配置文件一次搞定

在我的測試中:

  • 我加載了一個 620 頁的 PDF(約 180K 代幣)並要求提供結構化摘要 + 問答指南。
  • GLM-4.7 一次性處理,無需手動分塊。

延遲確實上升,從較小提示的約 3–4 秒增加到那個龐大輸入的約 13–18 秒,但它沒有崩潰或產生嚴重的幻覺,而這通常是長內容營銷聲稱失敗的原因。

128K 最大輸出長度

故事的另一半是輸出。GLM-4.7 支持最多 128K 代幣的生成文本。

我用一個合成測試進行了推動:「生成一個完整的課程大綱 + 解釋 + 示例(約 80K 代幣)。」它:

  • 完成而不在句子中途截斷
  • 保持主題一致性達 95% 以上(我的粗略手動樣本)

對於創作者來說,這意味著你可以現實地:

  • 在單次會話中生成書籍長度的草稿
  • 要求整個前端組件庫或 API 客戶端集
  • 構建大規模知識庫風格的答案,而不用不斷重新提示

你可能不會每天都使用 100K+ 的輸出,但知道這個上限如此高,使得 GLM-4.7 在長文檔處理和大型代碼庫工作中非常吸引人。

358B 參數和開放權重

在理論上,GLM-4.7 是一個擁有開放權重的 358B 參數模型。

實際上,在我的測試中,它的表現如下:

  • 品質和穩定性比大多數開放權重選項更接近專有的前沿模型
  • 在多步問題(尤其是數學、代碼和文本結合)的推理能力比我經常使用的中級開放模型高出 15–25%
  • 自行託管時較重,但這樣做時,不必面對「開放但質量一般」的常見權衡

如果你一直在問自己,不只是 GLM-4.7 是什麼,而是為什麼它重要,那麼這就是其中一個大原因:它真正推動了開放權重的前沿,而不僅僅是「另一個帶有市場噱頭的 30B 左右模型」。

GLM-4.7 比 GLM-4.6 更好的地方

好的,基準測試很可愛,但我更關心工作流程中發生了什麼變化。我使用相同的編碼、推理和工具使用任務來運行 GLM-4.7 和 GLM-4.6,以檢查新模型的合理性。

核心編碼性能(SWE-bench 73.8)

官方數據顯示,GLM-4.7 在 SWE-bench 上達到 73.8,這是一個在真實世界中解決 GitHub 問題的高分。

在我自己的編碼測試中(約 25 個任務):

  • GLM-4.7 完全解決了 20/25 個任務(80%),而我沒有觸及代碼
  • GLM-4.6 在相同提示下解決了 15/25 個任務(60%)

這些任務包括:

  • 修復 Python 庫中失敗的單元測試
  • 將混亂的 TypeScript 文件重構為模塊化組件
  • 編寫小型後端端點及相關測試

關鍵區別在於:GLM-4.7 不僅寫了補丁,還經常正確引用失敗的測試輸出,並以一致的方式更新多個文件。而 4.6 有時修復了立即錯誤但破壞了其他部分。

感覺編碼和前端美學

基準測試中無法顯示的一件事是:感覺編碼,即前端的佈局、文案和微交互的組合。

我給 GLM-4.7 的提示是:

「設計一個極簡 AI 寫作工具的登陸頁面。使用 TailwindCSS + React。讓它感覺平靜但自信,帶有微妙的動畫。」

與 GLM-4.6 相比,GLM-4.7:

  • 產生更乾淨的元件結構(更少的神元件)
  • 使用更現代的 Tailwind 模式
  • 生成的文案感覺不那麼機械,更接近可輕微編輯並發佈的狀態

如果你的工作流程涉及前端生成或優化 UI/UX 構思,GLM-4.7 的使用體驗會更加愉悅。它更能「理解」美學暗示,並將其轉化為合理的 HTML/CSS/JS。

工具使用和代理執行

我也用一個小型代理工作流程對 GLM-4.7 進行了壓力測試:

  • 工具 1:搜尋
  • 工具 2:內部文件查閱
  • 工具 3:文件編輯器

目標:根據檢索資訊更新配置、調整代碼,並撰寫簡短的變更日志。

超過 20 次運行:

  • GLM-4.7 正確使用工具的次數為 18/20(90%)
  • GLM-4.6 則為 14/20(70%)

值得注意的是,GLM-4.7 如何處理遵循模式的 JSON。它幾乎從不產生多餘的字段,這使得它在生產風格的代理流程中不那麼惱人。

複雜推理(HLE 42.8)

在推理方面,GLM-4.7 在 HLE(幻覺與邏輯評估)中得分 42.8,這是一種說法,表示它在不捏造事物和遵循邏輯鏈方面表現更好。

我更人性化的測試版本:

  • 包含相互矛盾要求的長提示
  • 數據表 + 敘述性摘要
  • 要求其推導出一個決策,並提供清晰的逐步說明

GLM-4.7:

  • 明確標示約 70% 的邊緣情況中的缺失或模糊數據(這是一個好跡象)
  • 比 4.6 版本做出更少「自信但錯誤」的聲明
  • 產生的推理步驟我能夠實際跟隨和審核

如果您在做研究筆記、政策草案,或任何需要複雜推理而非字數的地方,GLM-4.7 感覺像是一個更安全、更透明的夥伴。

價格與使用

現在來談談大家悄悄關心的部分:GLM-4.7 的價格是多少,您實際上如何使用它?

API 價格($0.6/百萬輸入,$2.2/百萬輸出)

智譜公開的 GLM-4.7 價格為:

  • 每百萬輸入 Token 0.60 美元
  • 每百萬輸出 Token 2.20 美元

實際上,這對我的一個長文檢測意味著:

  • 輸入:約 16 萬個 Token → 約 0.10 美元
  • 輸出:約 1.8 萬個 Token → 約 0.04 美元
  • 總計:約 0.14 美元,對於一個嚴肅的、多小時人力等價的閱讀和綜合

與其他前沿模型相比,GLM-4.7 的性價比競爭力相當高,尤其是如果您依賴長上下文功能。

GLM 編碼計畫(月費 3 美元)

對於獨立創作者和個人開發者,月費 3 美元的 GLM 編碼計畫悄然成為較有吸引力的選擇之一。

您可以獲得一個經過編碼優化的環境,基於 GLM-4.7 級別的模型,根據我的經驗,這已足夠:

  • 每天用作您的主要編碼助手
  • 取代您通常在 GitHub Copilot 或類似工具中做的一部分工作

在連續 5 天的時間裡,我強迫自己將它用於所有與代碼相關的事情,我估計它每天為我節省了 1.5 到 2 小時的樣板代碼、重構和測試編寫時間。

花三塊錢,如果你對編碼有點認真,這是毫不費力的選擇。

自行託管 via Hugging Face

如果你想要完全的控制權,你可以從 Hugging Face 獲取 GLM-4.7 的公開權重並自行託管。

不過,現實檢查:

  • 358B 參數不是一個隨便玩玩的託管大小
  • 你將進入多 GPU、嚴肅運營的領域

但對於能處理的團隊來說,本地運行 GLM-4.7 意味著:

  • 數據永遠不會離開你的基礎設施
  • 你可以進行領域特定的微調
  • 延遲可以調整到你的堆疊,而不是共享的公共基礎設施

如果你的初始問題只是「什麼是 GLM-4.7 以及如何使用 API」,你可以忽略這部分。如果你對基礎設施感興趣,Hugging Face 路線是這次發布中最吸引人的部分之一。

GLM-4.7 的最佳用例

這是 GLM-4.7 真正贏得我青睞的地方。

長文件處理

如果你的工作涉及:

  • 報告
  • 研究 PDF
  • 知識庫
  • 大量 Notion 匯出

…GLM-4.7 的 200K 上下文和 128K 輸出組合非常有用。

我測試中的例子:

  • 我給它提供了一個 170K 字符的產品研究、路線圖筆記和用戶反饋捆綁包
  • 要求它:優先的路線圖、風險分析和信息指南
  • 它一次性生產了一個連貫的計劃,我然後稍微編輯了一下

與其他工具將所有內容切成 10–20 塊相比,GLM-4.7 將手動工作量至少減少了 50–60%。

多步驟代理工作流程

GLM-4.7 更強的工具使用能力和更好的 JSON 規範,使其成為多步驟代理工作流程的優秀大腦。

例如,我將它連接到一個小型管道中:

  1. 搜尋文件
  2. 檢查代碼
  3. 提出修補建議
  4. 撰寫變更日誌

成功率(即:無模式錯誤,修補順利應用,變更日誌準確):

  • GLM-4.7:大約 85–90%,20 次試驗
  • 中等級開源模型:同一設置下大約 60–65%

如果你正在玩代理或構建內部副駕駛,這是 GLM-4.7 默默發光的地方。

前端生成(氛圍編碼)

在氛圍編碼方面,GLM-4.7 就像一位真的會傾聽的初級設計師和前端開發者。

在我的測試中效果良好的使用案例:

  • 初步著陸頁草稿,內容不錯
  • 包含設計系統註釋的元件庫
  • 佈局或主題部分的快速 A/B 變體

如果你是一個想要在不為每一個小變動開 Figma 的情況下迭代 UI 想法的獨立創作者或行銷人員,GLM-4.7 是一個非常有潛力的夥伴,特別是在你給它一些參考的情況下,比如「讓它感覺像 Linear」或「更接近 Notion 的美學,但更溫暖一些」。

下一步:將 GLM-4.7 與其他模型進行比較

當人們問我 GLM-4.7 與其他模型相比有什麼優勢時,我是這樣來說的:

  • 如果你想要最大程度的打磨和生態系統:你仍會關注通常的前沿封閉模型
  • 如果你想要完全開放的小型模型來做本地玩具:你會選擇 7B–70B 的東西
  • 如果你想要具有前沿品質的開放權重和長上下文:GLM-4.7 突然變得非常有趣

在我目前的個人堆疊中:

  • 當我需要嚴肅的編程幫助、長文檔綜合或多步驟代理流程時,我會選擇 GLM-4.7
  • 我仍然使用其他模型來進行快速、便宜的頭腦風暴,或在特定供應商工具鎖定的情況下

從獨立創作者 / 市場營銷者的角度來看,這是實際的要點:

  • 如果你想要一個便宜且高質量的編程夥伴,請使用 GLM 編程計劃
  • 當你將長上下文工作流構建到產品中時,請使用 API
  • 僅在你已經具有基礎設施能力的情況下考慮自我託管:否則不要過於擔心

那麼,GLM-4.7 用一句話來說是什麼?

它是一個 358B 參數、200K 上下文、編程能力強、開放權重的前沿模型,最終讓長上下文 + 高質量推理感覺可用,而不僅僅是演示友好。

如果你感到好奇,我的建議很簡單:選擇一個工作流程、長 PDF 分析、一個棘手的編程問題或一個小型代理管道,並將其與你當前的最愛一起運行 GLM-4.7。這種差異比讀起來更容易感受到。

這週的測試讓我更堅信一件事: 像 GLM-4.7 這樣的模型不僅在變得更聰明——它們正在成為我們思考、規劃和決策的基礎設施

這個想法其實就是我們打造Macaron的原因。 不是另一個“做更多工作更快”的 AI,而是一個能安靜地為每個任務挑選合適模型的個人助手——不論是編碼、閱讀、規劃,還是單純地思考——讓 AI 融入生活,而不是相反。

如果你想知道這在實際中是什麼感覺,可以在這裡試試看: 免費試用 Macaron

Nora 是 Macaron 的增長負責人。在過去兩年中,她專注於 AI 產品的增長,成功將多個產品從 0 推向 1。她在增長策略方面擁有豐富的經驗。

申請成為 Macaron 的第一批朋友