當我開始比較 Z.AI 於 2025 年 12 月 21 日發布的 GLM-4.7 和 Anthropic 的 Claude Sonnet 4.5 時,我本來預期會是另一個典型的「兩者都不錯」的情況。然而,我發現 AI 模型在視覺設計方面的處理方式有根本性的不同——社群現在將其稱為「氛圍編碼」。

我實際測試了什麼

使用相同的提示——「設計一個適合類似 Notion 的生產力應用程序的時尚 SaaS 登陸頁面主題。讓它感覺高級、乾淨且有點俏皮」——我給兩個模型相同的限制和時間。結果揭示了一個超越原始代碼質量的有趣分歧。

GLM-4.7 在第一次嘗試時就呈現了我稱之為「2025 Dribbble」的美學。Claude Sonnet 4.5 生成的代碼在技術上沒有問題,但視覺輸出感覺過時——像是一個執行良好的 2019 年 Tailwind 教程。並不是錯,只是......不對勁。

理解氛圍編碼:為什麼這對前端開發很重要

氛圍編碼強調描述設計的期望感受或結果,讓 AI 提出視覺解決方案,而不是手動指定每個元素。對於 GLM-4.7 與 Claude Sonnet 4.5 來說,這意味著:

真正的測試標準

我不僅評估「正確的 HTML/CSS」,還考量:

  • 空白使用和留白
  • 字體排版信心(看起來是否專業選擇?)
  • 2025 年的相關性(在真實應用中是否感覺到現代?)
  • 客戶準備因素(我能否毫不歉意地展示這個?)

我將這兩個模型當作我僱用一天的初級設計師-開發者,提供了:

  • 最小化的樣式指南
  • 品牌形容詞(「冷靜、高級、友好」)
  • 粗略的元件列表

然後我觀察他們如何填補這些空白。

面對面性能測試

第一輪:原始UI氛圍(最小限制)

在三個核心場景——SaaS登陸頁面、分析儀表板和演示文稿中進行測試,我在「客戶準備」的1-10分數上對每個進行評分:

GLM-4.7 平均:8/10

  • 一貫使用現代間距和豐富的填充
  • 選擇合理的色彩方案,無需明確的十六進位規範
  • 默認佈局匹配當前SaaS產品

Claude Sonnet 4.5 平均:6/10

  • 元素過於緊密聚集
  • 偶爾過度使用漸變和陰影
  • 缺乏個性的通用區塊模式

GLM-4.7 的「氛圍編碼」能力顯著提高了UI質量,產生更清晰、更現代的網頁,佈局準確性更高。

為什麼AI生成的UI常常感覺一般

兩個模型都是訓練在大量網路數據上的模式機器。當提示不明確時,他們依賴於他們遇到過的最常見模式。這解釋了為什麼許多AI UI:

  • 重複相同的三種佈局
  • 使用安全、過於常見的間距
  • 感覺像是複製品的複製品

GLM-4.7 在當前設計模式中顯示出更強的內部優勢。當我指定「現代儀表板、簡約、企業風格」時,它自然地:

  • 使用具有明確視覺層次的分割佈局
  • 選擇不陳腐的點綴色
  • 更好地尊重字體比例

Claude Sonnet 僅在經過詳細的設計師風格提示後才能匹配這一品質,例如:

  • 「在主視覺區域增加約 20% 的垂直間距」
  • 「減少漸變,使用具有微妙不透明度的實色」
  • 「僅使用兩種字體重量:常規和半粗體」

模型哲學和方法

GLM-4.7:大膽的視覺設計師

GLM-4.7 是 Z.AI 的旗艦模型,具備增強的編程能力和穩定的多步推理,擁有 200K 的上下文窗口。在我的測試中,它展示了:

設計前瞻特性:

  • 積極的默認推斷(顏色、間距、字體比例)
  • 更清晰的類結構(特別是使用 Tailwind)
  • 將「現代」和「高級」字面化

性能指標:

  • 在約 11 秒內完成了一個 700 行的 Tailwind 登陸頁面
  • 需要 25-30% 更少的人工編輯即可達到「客戶準備」狀態
  • 在 SWE-bench Verified 上達到 73.8%(比 GLM-4.6 高出 5.8%)

Claude Sonnet 4.5:深思熟慮的合作者

Claude Sonnet 4.5 是世界上最好的編碼模型,用於構建複雜的智能代理,在推理和數學方面顯示出顯著的提升。其優勢包括:

結構化方法:

  • 推理組件的職責
  • 解釋佈局決策
  • 在多輪會話中保持一致性

亮點所在:

  • 擁有現有設計系統的團隊
  • 保持品牌標準
  • 長期代碼可維護性

Claude 默認選擇安全的設計選項,例如 Inter 字體和紫色漸變,雖然在適當提示下可高度引導。

實際測試:並排比較

測試 1:登陸頁生成

提示:「生成一個適用於 B2B AI 分析的 React + Tailwind 登陸頁。包含主題、社會證明、功能、定價和常見問題。現代、高級、信任為主。避免俗氣的漸變。」

GLM-4.7 結果:

  • 穩健的左文右圖主題佈局
  • 清晰的「最受歡迎」標註的定價卡
  • 真實感的社會證明(標誌條+信譽文字)
  • 冗長但邏輯分組的 Tailwind 類別
  • MVP 完成時間:約 15 分鐘調整

Claude Sonnet 4.5 結果:

  • 結構穩固但模板化
  • 漸變多於要求(需兩次後續調整)
  • 定價部分缺乏明確的計畫重點
  • MVP 完成時間:約 25-30 分鐘調整

測試 2:React 儀表板元件

提示:「建立 React 儀表板:左側邊欄導航、頂部標頭、主要分析區域包含 3 張卡片和圖表。簡約、企業風格。使用 CSS 模組。」

這裡的結果略有不同:

GLM-4.7:

  • 內建強大的視覺層次
  • 優秀的卡片間距
  • CSS 模組感覺像實用工具(精神上類似 Tailwind)

Claude Sonnet 4.5:

  • 較為保守但非常乾淨的元件分離
  • 語義化 CSS 模組:.sidebar.header.summaryGrid
  • 更易於長期團隊維護

結論:單獨開發者偏愛 GLM-4.7 的即時打磨;團隊則重視 Sonnet 的可維護性。

測試 3:簡報投影片

提示:「生成 10 張幻燈片的 HTML/CSS 簡報:標題、問題、解決方案、功能、推薦、定價、CTA。簡約,16:9,大字體。」

此測試最明顯地展示了氛圍差異:

  • GLM-4.7:佈局類似現代 Keynote 模板—大字體、優秀的空白區域、明顯的視覺節奏(評分:7.5/10)
  • Claude Sonnet 4.5:更接近普通的 Google 幻燈片模板,可用,但我仍會打開 Figma(評分:5.5/10)

超越美學:代碼質量分析

響應式設計處理

壓力測試:「使其在 375px 手機和 1440px 桌面上運行,無水平滾動」:

  • GLM-4.7:更好的行動優先行為,自然地正確使用響應式 Tailwind 類別(md:,lg:)80-85% 的時間
  • Claude Sonnet 4.5:更謹慎,有時過少使用斷點,需明確跟進

一旦修正,Sonnet 在後續提示中非常可靠地保持模式——這對於較長的工作流程至關重要。

無障礙性 (a11y)

測試正確的標題層級、ARIA 標籤和色彩對比:

  • Claude Sonnet 4.5 對無障礙性決策更為詳盡,經常主動加入 ARIA 角色
  • GLM-4.7:在提示時遵循但提供的細節較少

如果無障礙性不可妥協,Claude Sonnet 4.5 作為「默默做對的事」的夥伴略勝一籌。

元件架構

請求「乾淨、可重用的 React 元件」:

  • GLM-4.7:擅長創建帶有屬性的展示元件,有時初期過度抽象
  • Claude Sonnet 4.5:命名和分層元件能力強,尤其是在設計系統中提到時

對於長期前端,Sonnet 的代碼庫感覺更易維護。對於「今天需要一個強大的起點」,GLM-4.7 在輸出速度上勝出。

多回合精細化和上下文管理

處理「讓它更現代化」

這個故意模糊的指令揭示了不同的解讀:

GLM-4.7(70% 成功率):

  • 略微增加間距
  • 平滑邊框和半徑
  • 改進按鈕狀態(幽靈/輪廓變體)
  • 調整為中性灰色 + 一個重點色

Claude Sonnet 4.5:

  • 引入漸層或陰影
  • 調整字體粗細
  • 需要更具體的澄清

一旦我澄清了(「現代化我的意思是更平面,少裝飾,更多留白」),Sonnet 在隨後的迭代中幾乎完美地遵循了這一定義。

長期記憶(6-8 次迭代專案)

  • GLM-4.7:在單一會話中具有很好的短期上下文,但在重大結構變更後偶爾會回退
  • Claude Sonnet 4.5:在維持長時間對話軌跡和設計原則方面稍有優勢

Claude Sonnet 4.5 設計用於強大的推理穩定性和多文件邏輯及後端系統中的可預測執行。

UI 密集型工作流程的成本效益

測試典型的獨立創作者工作負載(3-5 個登陸頁面、1 個儀表板、1 個簡報)平均每個專案使用 25-35k 代幣:

  • GLM-4.7:產生稍短、更直接的代碼輸出(~10-15% 減少代幣使用量)
  • Claude Sonnet 4.5:定價從每百萬輸入代幣 $3 起,輸出代幣每百萬 $15,提供詳細但有用的解釋

對於預算緊張的 UI 密集型工作流程,10-15% 的效率差異可能是無限迭代與提前停止的分界。

何時使用每個模型

當您需要時選擇 GLM-4.7:

✅ 快速、高效的起始點,用於登陸頁面、儀表板、幻燈片佈局

✅ 現代美學優先於最乾淨的組件架構

✅ 獨立/個人創作者工作流程,不會看起來像預設模板

✅ 提高大規模 UI 生成的成本效率

最適合:SaaS 登陸頁面、簡單儀表板、演示風格的 UI

GLM-4.7 在 Code Arena 的開源模型中排名第一,擁有數百萬全球用戶的盲測結果。

當您需要時選擇 Claude Sonnet 4.5:

✅ 現有設計系統需要遵循品牌指南

✅ 默認提供深度可解釋性和無障礙功能

✅ 複雜的多頁應用程序,關鍵在於組件邊界

✅ 思慮周全的初級工程師,擁有良好的長期習慣

最適合:生產應用、團隊環境、複雜重構

Claude Sonnet 4.5 在 SWE-bench Verified 上屬於最先進的,並在 OSWorld 的電腦使用任務中領先達到 61.4%。

混合方法:兩全其美

對於單打獨鬥的開發者,經過廣泛測試後的誠實建議:

  1. 使用 GLM-4.7 初步設計布局、主視覺、區塊和整體風格
  2. 交給 Claude Sonnet 4.5 重構組件、改善可訪問性、清理結構

這種組合讓我幾乎一周都不碰 Figma,卻仍能交付令我自豪的 UI。

這種混合工作流程也是我們在 Macaron 開發方式。 我們每天生成小型應用——從卡路里追蹤器到旅行計劃器——很快就有個明顯的事實:一個看起來不對勁的應用對用戶來說仍然感覺像是壞的。

這就是為什麼我們對設計層和模型層同樣重視,將“氛圍”視為一級約束,而非可有可無的東西。

如果你想看看這在實際發布的小應用程式中是什麼樣子,Macaron 是一個不錯的窺探地方。

如果只能選擇一個:對於在瀏覽器中工作繁重的獨立創作者和行銷人員來說,GLM-4.7 與 Claude Sonnet 4.5 相比,前端應選擇 GLM-4.7——除非你的主要痛點是長期可維護性,這方面 Sonnet 仍然值得一席之地。

Vibe Coding 的未來

Vibe 設計提升了設計質量的標準,讓設計師能夠應對更複雜的體驗挑戰,使每個產品團隊成員都能夠融入 UX 思維。

Vibe coding 的出現代表了我們在 UI 開發方法上的根本轉變。設計師不再需要從空白代碼編輯器開始,而是可以描述他們想要的,並通過 AI 驅動的工具獲得功能性網站。

最後建議

不要只閱讀基準測試和規格。把你最奇怪的登陸頁面需求給這兩個模型,看看哪個更符合你的口味,然後從那裡建立你自己的 vibe coding 堆疊。

革命不在於哪個模型「更好」——而是在於將合適的工具匹配到你的特定工作流程、時間表和美學標準。


主要結論

  • Vibe coding 優先考慮設計感覺而非技術規格
  • GLM-4.7 在現代美學和快速上市方面表現出色
  • Claude Sonnet 4.5 在可維護性和結構上獲勝
  • 混合方法利用了兩個模型的優勢
  • 成本效率對於高容量 UI 工作至關重要

權威資源


文章基於 2025 年 12 月的實際測試。模型功能和定價可能會有所變動。實施前請務必確認最新規格。

Nora 是 Macaron 的增長負責人。在過去兩年中,她專注於 AI 產品的增長,成功將多個產品從 0 推向 1。她在增長策略方面擁有豐富的經驗。

申請成為 Macaron 的第一批朋友