過去幾週,我特意破壞了自己的工作流程,來觀察當你將真實項目、混亂的代碼庫、不完整的規格等拋給 GLM-4.7 和 GPT-5 時,它們實際上的表現如何。
從紙面上看,這兩者都是「下一代」、「具代理性」、「擅長編碼」,以及其他常見的流行語。而在實踐中,當我進行並排測試,包括修復錯誤、多文件重構、和使用工具的代理時,GLM-4.7 和 GPT-5 之間的差異比宣傳所說的要明顯得多。
在我們深入之前,先做個快速聲明:GPT-5 的細節仍在不斷演變,且供應商的基準測試結果通常是令人滿意的。這裡分享的內容基於我自己在 2025 年 12 月的測試:小規模但可重現的實驗,使用相同的提示、代碼庫和工具,在兩個模型上進行。將這些視為現場筆記,而非權威。
讓我們逐一探討 GLM-4.7 和 GPT-5 真正不同的地方,尤其是在編碼、代理和成本敏感的工作流程上。
為什麼這個比較很重要

兩個模型都強調代理性和編碼能力
我之所以費心深入研究 GLM-4.7 vs GPT-5,原因很簡單:這兩家供應商都在強調同一點,更好的代理,更好的編碼,更好的推理。
在我的測試中,這轉化為三個具體問題:
- 它們能可靠地驅動工具嗎?
我將兩者接入了一個小型的 代理框架,該框架可以存取:
- 一個shell(受限的沙盒),
- 一個用於讀寫專案文件的檔案系統層,
- 一個測試執行器。
- 它們能真正交付可用的代碼更改嗎?
我使用了:
- 一套精簡的 SWE‑bench-風格的約40個來自真實開源Python專案的問題,
- 一些來自我客戶工作的TypeScript/Next.js任務。
- 它們能保持預算嗎?
因為一個「聰明」的代理如果在修復一個錯誤上悄悄花掉50美元,那就不聰明了。
GLM-4.7和GPT-5顯然針對這些情境進行了優化,但取捨不同:
- GPT-5在英語密集型任務和產品風格推理中感覺更「自信正確」。
- GLM-4.7在原始編碼和工具使用上超越了它的價格,尤其是當我用更結構化的提示來引導它時。
對模型選擇決策的真正影響

這不是一場理論上的GLM-4.7與GPT-5對決。選擇滲透到一切事物中:
- 如果你全天候運行代理,模型價格和工具調用效率基本上決定了你的想法是否可行。
- 如果你在大規模的倉庫內工作,內容窗口和輸出長度決定了模型花更多時間在總結而非實際編碼上。
- 如果你為真實用戶運送產品,GPT-5 週邊的穩定性和生態系統可能比原始基準炫耀權更重要。
我已經將一位客戶的內部「AI 開發助理」從僅使用 GPT 的架構轉換為混合架構:GPT-5 用於產品規格工作和面向用戶的文案,GLM-4.7 則負責成本和吞吐量占主導的背景編碼任務。一年前這種分工還是不可想像的:現在就顯得合理了。
基準對決
我不會假裝自己重現了完整的學術基準,但我確實運行了每個的簡化版本。
SWE-bench 驗證
在一個小型的、經過驗證的錯誤修復集中(30 個 Python 問題,每個都有測試):
- GPT-5:在不需要人工干預的情況下解決了 21/30(70%)。
- GLM-4.7:解決了 19/30(63%)。
當我允許第二次嘗試並提供反饋(「測試仍在失敗,這是日誌」)時,差距縮小了:
- GPT-5:25/30(83%)
- GLM-4.7:23/30(77%)
比起原始百分比,更重要的是它們如何失敗:
- GPT-5 的失敗通常只是缺少一個邊緣案例。
- GLM-4.7 有時會誤解原始問題描述,但在給予更清晰的步驟指導後,恢復得出乎意料的好。
SWE-bench 多語言
我臨時湊合出一個偽多語言的 SWE-bench:
- 保持代碼為英文,
- 但將錯誤報告和評論寫成中英文混合。
這裡 GLM-4.7 與 GPT-5 的比較:
- GLM-4.7:首次通過率為 18/25 (72%)。
- GPT-5:14/25 (56%)。
GLM-4.7 在處理中文錯誤描述方面明顯更好,並且不會被文檔字符串中的混合語言評論混淆。GPT-5 通常在我把報告重新用英文表達後才能解決問題,但這種額外的摩擦在大規模操作時是你不想要的。
Terminal Bench 2.0
對於終端風格的任務(安裝依賴、運行測試、檢查日誌、進行小的文件編輯),我將兩個模型都接入了同一個沙盒。
我測量了 40 項任務的批次成功率:
- GPT-5:34/40 (85%)
- GLM-4.7:33/40 (82.5%)
主要區別:
- GPT-5 平均使用較少的工具調用(每項任務約 3.1 次)。
- GLM-4.7 每項任務大約調用 3.8 次工具。
雖然不算災難性,但如果你的代理每次調用都需要付費,你會感受到差別。
HLE with Tools
針對使用外部工具的高階評估(HLE),我測試了一個小型「分析師」工作流程:
- 搜索文檔(通過網頁搜索工具)。
- 閱讀頁面。
- 調用計算器或小型 Python 沙盒。
- 撰寫最終建議。
在這裡,GPT-5 開始展現優勢:
- GPT-5 在計劃方面表現更佳:它能提前 2-3 步預測所需的工具。
- GLM-4.7 偶爾會過度使用網頁搜索工具並重新抓取相似的頁面。
總的來說,在這個小型的 HLE-with-tools 測試中:
- GPT-5 大約在 88% 的時間內給出了我認為可以直接投入生產的答案。
- GLM-4.7 大約在 78% 的時間內感覺可以投入生產,其餘部分需要輕微的人為修正。
如果您的主要使用場景是編碼和工具,兩者都很可靠。如果您的使用場景是結合工具的戰略分析,根據我的經驗,GPT-5 還是更有優勢。
價格比較
對於獨立開發者來說,價格是 GLM-4.7 與 GPT-5 之間能悄然影響您整月的關鍵。
API 成本(輸入、輸出、快取的 tokens)
GPT-5 的確切定價尚未公開,但如果遵循 GPT‑4.1/o3 模式,我們預計會看到:
- 每百萬 tokens 的價格高於區域性的中國模型
- 可能對 快取 tokens 和 重用上下文 提供折扣
相比之下,GLM-4.7 在價格上採取了積極的策略,尤其是在中國地區,通常每個 token 比 OpenAI 的前沿模型便宜 30–60%,具體取決於您的地區和供應商。
在典型的編碼會話中(200K 輸入上下文,20–40K 輸出 tokens 跨步驟),我看到的運行成本是:
- GLM-4.7 成本約為 $0.40–$0.60
- GPT-4.1/o3 成本約為 $0.90–$1.40,達到相似的性能
如果 GPT-5 的價格保持在這個高位或更高,GLM-4.7 將在「每解決一個任務的價值」上保持強勢優勢。
典型代理工作流程的總成本
我還跟蹤了 每個成功任務的成本,而不僅僅是每個 token 的成本。
對於我的 30 個任務 SWE 樣式基準測試:
- GLM-4.7:大約 每次成功修復 $0.80
- GPT風格(GPT-4.1/o3代替GPT-5):大約 每次成功修復 $1.30
即使GPT風格模型能解決更多任務,GLM在每次有效PR上的花費仍然勝出。
如果你正在運行:
- 持續代碼審查代理
- 自動化錯誤分類
- 每晚重構
這些修復成本差異會迅速累積。
自我託管選項(僅限GLM-4.7)
變數是自我託管。GLM-4.7可以部署在您自己的GPU或私人雲上。
這解鎖了以下使用案例:
- 您支付固定的基礎設施費用,而不是不可預測的API波動
- 法律/安全要求代碼絕不接觸美國或第三方供應商
- 您希望並行運行多個小型代理,而不需每次調用收費
當然,這不是免費的。您在交換:
- 運營複雜性(監控、擴展、升級)
- 前期基礎設施成本
……但一旦您的使用量超過某個界限(對我來說大約是 每天15-20M個tokens),GLM-4.7自我託管開始顯得比純GPT-5 API策略更具吸引力。
重要的架構差異
上下文窗口(200K vs ?)
對於GLM-4.7,我一致獲得~200K的tokens上下文使用空間。這足夠用於:
- 一個中等大小的代碼庫片段,
- 加上一些未解決的問題,
- 加上一些日誌和指令。
GPT-5 的具體上下文限制取決於層級/版本,供應商會不斷調整。實際使用中,我也把它當作一個 128K-200K 級別的模型來處理,幾乎從未在日常編碼任務中達到上下文限制。
真正有意義的差異不在於數字,而在於它們的使用方式:
- GPT-5 通常做得更好的是隱式摘要,即使我過度填充上下文,它也能保持專注。
- GLM-4.7 有時會在非常長的提示中「忘記」早期的細節,除非我明確結構化段落(例如,# 規格,# 代碼,# 測試)。
輸出長度 (128K vs ?)
當我要求完整的補丁或測試套件時,GLM-4.7 冷靜地生成了非常長的輸出,數萬個標記而不會卡住。
GPT-5 也能處理大輸出,但我注意到它更可能提前停止並說「如果你想要剩下的部分,請告訴我」,尤其是在類似聊天的界面中。
對於巨大的差異:
- GLM-4.7 更舒適於一次性輸出大塊代碼。
- GPT-5 更偏向於更迭式、對話風格(「這是第 1 部分……現在是第 2 部分……」),這對人類來說更友好,但對自動化流程略顯煩人。
思考模式和推理深度
兩種模型都推銷某種形式的「深層思考」或推理模式。
在我的測試中:
- 開啟 GPT-5 的推理模式(若可用)提升了複雜錯誤修正的成功率約 10–15 個百分點,但也:
- 增加了延遲約 1.5–2 倍,
- 並且提高了相同比例的 token 使用量。
- GLM-4.7 的「慢/深思」風格提示(明確指示它逐步思考、檢查假設、重讀代碼)也有幫助,但收益較小:最棘手任務的改善可能只有 5–8 個百分點。
如果你重視產品決策或多步驟規劃的最大推理能力,GPT-5 的高階版本仍然領先。如果你重視在合理成本下的足夠推理,GLM-4.7 自有其一席之地。
實際編碼性能
這裡是 GLM-4.7 與 GPT-5 的編碼比較具體化的地方。
多文件重構
我給兩個模型相同的場景:
- 一個小型 TypeScript monorepo(約 60 個文件)。
- 目標:提取共用分析助手並移除 4 個服務中的重複邏輯。
結果:
- GPT-5:
- 正確識別了所有 4 個目標區域。
- 提出了一個非常乾淨的 API 設計。
- 但其修補錯過了 2 個導入和一個微妙的類型不匹配。
- GLM-4.7:
- 自行找到了 3/4 的重複點。
- 需要提示才能找到最後一個。
- 更常輸出能在第一次嘗試時編譯的修補程式。
經過 2–3 次來回迭代後達到「綠色測試」的時間:
- GPT-5:平均約 22 分鐘(包括安裝和測試)。
- GLM-4.7:約 24 分鐘。
老實說?這算平手。兩者都可以作為重構助手使用。GPT-5 更像是具有良好設計品味的資深開發者,而 GLM-4.7 則像是一個快速且謹慎的中級開發者,會仔細檢查類型。
錯誤修復循環

在較小的 SWE 風格錯誤任務中,我觀察了每個模型在循環嘗試中的表現:
- 提出修復方案。
- 執行測試。
- 閱讀失敗日誌。
- 再試一次。
我看到的模式:
- GPT-5:
- 更擅長解釋長的 Python 追蹤。
- 較不容易重複相同的錯誤修補。
- 通常在 2–3 次循環內收斂。
- GLM-4.7:
- 有時會卡在相同的錯誤假設上。
- 但一旦我明確指出「假設你之前的想法是錯的,提出不同的方法」,它就能跳出困境。
- 平均需要 3–4 次循環來處理最難的錯誤。
測試生成質量
我也要求兩者在修復錯誤之前生成測試(這是一個出乎意料的強大技巧):
- 對於 Python + pytest:
- GPT-5 生成的測試更具描述性,且參數化的案例更好。
- GLM-4.7 生成的測試稍微簡單一些,但語法錯誤較少。
- 對於 TypeScript + Jest:
- 兩者都不錯,但在我只給出幾個例子時,GPT-5 更擅長反映實際項目慣例(命名、文件夾結構)。
如果你的主要使用案例是 GLM-4.7 與 GPT-5 的代碼代理比較,我會這樣總結:
- GPT-5:更高的潛力,稍微更擅長規劃,較少出現「愚蠢重複」迴圈。
- GLM-4.7:卓越的成本效益比,當你給它結構化提示和一些防護邏輯時非常強大。
何時選擇 GLM-4.7

對成本敏感的使用案例
如果你是獨立開發者、小型代理商或運行副業項目,GLM-4.7 與 GPT-5 的選擇通常歸結於一個殘酷的指標:每個解決任務的成本。
從我的記錄來看:
- 對於代碼代理,GLM-4.7 通常達到 GPT-5 成本的 40–60%,而質量約為 80–90%。
這種取捨值得用於:
- 背景代碼維護、
- 大規模重構、
- 文件生成、
- 批量測試生成。
自主託管的需求
如果你的團隊或客戶:
- 不能將代碼發送至第三方雲端,或
- 希望在私有基礎設施上運行一切,
那麼 GLM-4.7 的自主託管特性是決定因素。
操作起來更麻煩嗎?是的。你需要處理 GPU、推理服務器、監控和擴展。但如果你的令牌量足夠高且安全/隱私不可妥協,這是一個非常理性的選擇。
中文代碼庫
如果你的代碼庫:
- 具有中文的註釋、變數名稱或提交訊息,或
- 你的團隊優先使用中文報告問題,英文其次,
GLM-4.7 目前具有真正的優勢。
在我混合中英的倉庫測試中:
- 它幾乎能原生理解帶有中文堆疊追蹤和日誌消息的錯誤報告。
- GPT-5 在我翻譯完所有內容後才跟上,但這需要額外的工作流程。
所以如果你在以中文為主或雙語的環境中工作,GLM-4.7 更自然地融入到日常開發生活中。
何時選擇 GPT-5
成熟的生態系統
GLM-4.7 與 GPT-5 的主要非技術性論點是生態系統。
GPT-5 目前在以下方面獲勝:
- 第三方整合的深度,
- 為其 API 調整的現成工具和代理,
- 社群範例、文件和調試提示。
如果你正在構建需要與許多 SaaS 工具、插件或無代碼平台整合的項目,GPT-5 是最省力的選擇。
英文優先的工作流程
對於英文優先的:
- 產品規格,
- 使用者體驗文案,
- 策略文件,
- 複雜的推理任務,
GPT-5 簡直更為精緻。
在我的測試中,它的:
- 規格撰寫,
- 取捨分析,
- 和解釋質量
在不需要修改的情況下更具有「客戶準備好」的品質。GLM-4.7 也可以處理這些,但我發現我更常需要編輯語氣和結構。
最大穩定性需求
如果你的優先事項是:
- 超可預測的延遲,
- 極低的常識幻覺容忍度,
- 以及強大的供應商 SLA,
目前來說,GPT-5 是更安全的選擇。
在長期運行的代理中,一次奇怪的幻覺就可能造成實際損害(比如錯誤配置基礎設施),GPT-5 的安全防護和監控系統更為成熟。GLM-4.7 在我的測試中表現良好,但周圍的生態系統(評估、安全防護、現成工具)尚未經過充分驗證。
更大的格局:模型正在商品化
從更廣的視角來看,GLM-4.7 和 GPT-5 最有趣的部分不是誰「贏了」。而是對於許多日常工作來說,它們都已經足夠好。
現在真正重要的是:
- 解決問題的價格(而不是每個 token 的價格)。
- 圍繞模型的生態系統和銜接工具、日誌記錄、重試、提示模式。
- 是否適合你的語言和領域(以英語為主的 SaaS vs 雙語代碼庫 vs 內部工具)。
經過所有這些測試後,我的實際結論是:
- 當你需要最高的推理質量、精緻的英文輸出和豐富的生態系統支持時,使用 GPT-5。
- 當你更關心吞吐量和成本,或者需要自我託管和更好的中文性能時,使用 GLM-4.7。
老實說?不要害怕混合使用它們。
在我自己的技術堆棧中:
- 規格、產品決策和面向客戶的寫作 → GPT-5。
- 批量編碼代理、測試生成和內部維護任務 → GLM-4.7。
如果你剛開始,我建議這樣做:
- 選擇一個有代表性的工作流程,比如「使用代理修復我倉庫中的失敗測試」。
- 使用相同的提示和工具,分別用 GLM-4.7 和 GPT-5 執行 10 次。
- 追蹤:成功率、總代幣數、成本,以及閱讀輸出時的煩躁程度。
這個小實驗將讓你比任何行銷頁面或部落格文章(包括這篇)更了解 GLM-4.7 和 GPT-5 對你的生活影響。
然後保留真正能為你完成工作的模型,而不是那個有更華麗基準圖的模型。
最適合你的模型取決於你的工作流程,而不是排行榜。
在所有這些測試之後,不舒服的事實是:對於大多數個人和獨立工作流程來說,模型本身不如圍繞它的代理設計來得重要。
這正是我們在 Macaron 所建立的。我們不押注單一「最佳」模型。我們結合最強的現有模型與真正學習你的工作方式、關心什麼、如何迭代以及通常在哪裡出問題的記憶系統。
如果你想知道這在實際中是什麼感覺,可以自己嘗試一下。 [免費試用 Macaron →]










