過去幾週,我特意破壞了自己的工作流程,來觀察當你將真實項目、混亂的代碼庫、不完整的規格等拋給 GLM-4.7 和 GPT-5 時,它們實際上的表現如何。
從紙面上看,這兩者都是「下一代」、「具代理性」、「擅長編碼」,以及其他常見的流行語。而在實踐中,當我進行並排測試,包括修復錯誤、多文件重構、和使用工具的代理時,GLM-4.7 和 GPT-5 之間的差異比宣傳所說的要明顯得多。
在我們深入之前,先做個快速聲明:GPT-5 的細節仍在不斷演變,且供應商的基準測試結果通常是令人滿意的。這裡分享的內容基於我自己在 2025 年 12 月的測試:小規模但可重現的實驗,使用相同的提示、代碼庫和工具,在兩個模型上進行。將這些視為現場筆記,而非權威。
讓我們逐一探討 GLM-4.7 和 GPT-5 真正不同的地方,尤其是在編碼、代理和成本敏感的工作流程上。

我之所以費心深入研究 GLM-4.7 vs GPT-5,原因很簡單:這兩家供應商都在強調同一點,更好的代理,更好的編碼,更好的推理。
在我的測試中,這轉化為三個具體問題:
我將兩者接入了一個小型的 代理框架,該框架可以存取:
我使用了:
因為一個「聰明」的代理如果在修復一個錯誤上悄悄花掉50美元,那就不聰明了。
GLM-4.7和GPT-5顯然針對這些情境進行了優化,但取捨不同:

這不是一場理論上的GLM-4.7與GPT-5對決。選擇滲透到一切事物中:
我已經將一位客戶的內部「AI 開發助理」從僅使用 GPT 的架構轉換為混合架構:GPT-5 用於產品規格工作和面向用戶的文案,GLM-4.7 則負責成本和吞吐量占主導的背景編碼任務。一年前這種分工還是不可想像的:現在就顯得合理了。
我不會假裝自己重現了完整的學術基準,但我確實運行了每個的簡化版本。
在一個小型的、經過驗證的錯誤修復集中(30 個 Python 問題,每個都有測試):
當我允許第二次嘗試並提供反饋(「測試仍在失敗,這是日誌」)時,差距縮小了:
比起原始百分比,更重要的是它們如何失敗:
我臨時湊合出一個偽多語言的 SWE-bench:
這裡 GLM-4.7 與 GPT-5 的比較:
GLM-4.7 在處理中文錯誤描述方面明顯更好,並且不會被文檔字符串中的混合語言評論混淆。GPT-5 通常在我把報告重新用英文表達後才能解決問題,但這種額外的摩擦在大規模操作時是你不想要的。
對於終端風格的任務(安裝依賴、運行測試、檢查日誌、進行小的文件編輯),我將兩個模型都接入了同一個沙盒。
我測量了 40 項任務的批次成功率:
主要區別:
雖然不算災難性,但如果你的代理每次調用都需要付費,你會感受到差別。
針對使用外部工具的高階評估(HLE),我測試了一個小型「分析師」工作流程:
在這裡,GPT-5 開始展現優勢:
總的來說,在這個小型的 HLE-with-tools 測試中:
如果您的主要使用場景是編碼和工具,兩者都很可靠。如果您的使用場景是結合工具的戰略分析,根據我的經驗,GPT-5 還是更有優勢。
對於獨立開發者來說,價格是 GLM-4.7 與 GPT-5 之間能悄然影響您整月的關鍵。
GPT-5 的確切定價尚未公開,但如果遵循 GPT‑4.1/o3 模式,我們預計會看到:
相比之下,GLM-4.7 在價格上採取了積極的策略,尤其是在中國地區,通常每個 token 比 OpenAI 的前沿模型便宜 30–60%,具體取決於您的地區和供應商。
在典型的編碼會話中(200K 輸入上下文,20–40K 輸出 tokens 跨步驟),我看到的運行成本是:
如果 GPT-5 的價格保持在這個高位或更高,GLM-4.7 將在「每解決一個任務的價值」上保持強勢優勢。
我還跟蹤了 每個成功任務的成本,而不僅僅是每個 token 的成本。
對於我的 30 個任務 SWE 樣式基準測試:
即使GPT風格模型能解決更多任務,GLM在每次有效PR上的花費仍然勝出。
如果你正在運行:
這些修復成本差異會迅速累積。
變數是自我託管。GLM-4.7可以部署在您自己的GPU或私人雲上。
這解鎖了以下使用案例:
當然,這不是免費的。您在交換:
……但一旦您的使用量超過某個界限(對我來說大約是 每天15-20M個tokens),GLM-4.7自我託管開始顯得比純GPT-5 API策略更具吸引力。
對於GLM-4.7,我一致獲得~200K的tokens上下文使用空間。這足夠用於:
GPT-5 的具體上下文限制取決於層級/版本,供應商會不斷調整。實際使用中,我也把它當作一個 128K-200K 級別的模型來處理,幾乎從未在日常編碼任務中達到上下文限制。
真正有意義的差異不在於數字,而在於它們的使用方式:
當我要求完整的補丁或測試套件時,GLM-4.7 冷靜地生成了非常長的輸出,數萬個標記而不會卡住。
GPT-5 也能處理大輸出,但我注意到它更可能提前停止並說「如果你想要剩下的部分,請告訴我」,尤其是在類似聊天的界面中。
對於巨大的差異:
兩種模型都推銷某種形式的「深層思考」或推理模式。
在我的測試中:
如果你重視產品決策或多步驟規劃的最大推理能力,GPT-5 的高階版本仍然領先。如果你重視在合理成本下的足夠推理,GLM-4.7 自有其一席之地。
這裡是 GLM-4.7 與 GPT-5 的編碼比較具體化的地方。
我給兩個模型相同的場景:
結果:
經過 2–3 次來回迭代後達到「綠色測試」的時間:
老實說?這算平手。兩者都可以作為重構助手使用。GPT-5 更像是具有良好設計品味的資深開發者,而 GLM-4.7 則像是一個快速且謹慎的中級開發者,會仔細檢查類型。

在較小的 SWE 風格錯誤任務中,我觀察了每個模型在循環嘗試中的表現:
我看到的模式:
我也要求兩者在修復錯誤之前生成測試(這是一個出乎意料的強大技巧):
如果你的主要使用案例是 GLM-4.7 與 GPT-5 的代碼代理比較,我會這樣總結:

如果你是獨立開發者、小型代理商或運行副業項目,GLM-4.7 與 GPT-5 的選擇通常歸結於一個殘酷的指標:每個解決任務的成本。
從我的記錄來看:
這種取捨值得用於:
如果你的團隊或客戶:
那麼 GLM-4.7 的自主託管特性是決定因素。
操作起來更麻煩嗎?是的。你需要處理 GPU、推理服務器、監控和擴展。但如果你的令牌量足夠高且安全/隱私不可妥協,這是一個非常理性的選擇。
如果你的代碼庫:
GLM-4.7 目前具有真正的優勢。
在我混合中英的倉庫測試中:
所以如果你在以中文為主或雙語的環境中工作,GLM-4.7 更自然地融入到日常開發生活中。
GLM-4.7 與 GPT-5 的主要非技術性論點是生態系統。
GPT-5 目前在以下方面獲勝:
如果你正在構建需要與許多 SaaS 工具、插件或無代碼平台整合的項目,GPT-5 是最省力的選擇。
對於英文優先的:
GPT-5 簡直更為精緻。
在我的測試中,它的:
在不需要修改的情況下更具有「客戶準備好」的品質。GLM-4.7 也可以處理這些,但我發現我更常需要編輯語氣和結構。
如果你的優先事項是:
目前來說,GPT-5 是更安全的選擇。
在長期運行的代理中,一次奇怪的幻覺就可能造成實際損害(比如錯誤配置基礎設施),GPT-5 的安全防護和監控系統更為成熟。GLM-4.7 在我的測試中表現良好,但周圍的生態系統(評估、安全防護、現成工具)尚未經過充分驗證。
從更廣的視角來看,GLM-4.7 和 GPT-5 最有趣的部分不是誰「贏了」。而是對於許多日常工作來說,它們都已經足夠好。
現在真正重要的是:
經過所有這些測試後,我的實際結論是:
老實說?不要害怕混合使用它們。
在我自己的技術堆棧中:
如果你剛開始,我建議這樣做:
這個小實驗將讓你比任何行銷頁面或部落格文章(包括這篇)更了解 GLM-4.7 和 GPT-5 對你的生活影響。
然後保留真正能為你完成工作的模型,而不是那個有更華麗基準圖的模型。
最適合你的模型取決於你的工作流程,而不是排行榜。
在所有這些測試之後,不舒服的事實是:對於大多數個人和獨立工作流程來說,模型本身不如圍繞它的代理設計來得重要。
這正是我們在 Macaron 所建立的。我們不押注單一「最佳」模型。我們結合最強的現有模型與真正學習你的工作方式、關心什麼、如何迭代以及通常在哪裡出問題的記憶系統。
如果你想知道這在實際中是什麼感覺,可以自己嘗試一下。 [免費試用 Macaron →]