完整的 LLM 比較:Claude Opus 4.5 vs. ChatGPT 5.1 vs. Google Gemini 3 Pro

作者:Boxu Li

介紹

在 2025 年底,三大 AI 巨頭 —— Anthropic、OpenAI 和 Google DeepMind —— 各自發布了下一代的大型語言模型。Anthropic 的 Claude Opus 4.5、OpenAI 的 ChatGPT 5.1(基於 GPT-5.1 系列)以及 Google 的 Gemini 3 Pro 代表了 AI 的最前沿。這三款模型都承諾在能力上有重大飛躍,從處理大量上下文到解決複雜的編碼和推理任務。本次深度解析將在主要維度上對這些模型進行技術比較 —— 性能基準、推理能力、代碼生成、API 延遲、成本、令牌上下文窗口、微調和定制化 —— 以了解它們如何相互比較。

**模型簡介:Claude Opus 4.5 是 Anthropic 最新的旗艦模型(Claude 2 和 Claude 4 系列的後繼者),自稱為「全球最佳的編程、代理及電腦使用模型」[1]。OpenAI 的 ChatGPT 5.1 是對 GPT-5 系列的升級,提供兩種模式(即時模式和思考模式),以平衡速度和推理深度[2]。Google 的 Gemini 3 Pro 是 Gemini 家族中的頂級實例,由 Google DeepMind 打造,被譽為「我們最智能的模型」,具備最先進的推理和工具使用能力[3][4]。雖然詳細架構為專有技術,這三者都是大型的基於 Transformer 的系統,參數量可能達到數兆,並且通過廣泛的訓練和優化(例如來自人類反饋的強化學習)增強。下面,我們將詳細比較它們的性能。

基準測試性能

Model
Broad knowledge (MMLU / PiQA)
GPQA Diamond (hard QA)
Humanity’s Last Exam (HLE)
ARC‑AGI (reasoning)
Characterization
Gemini 3 Pro
≈「人類專家級」在標準學術基準上;~90%+
91.9%[5]
37.5%(無工具)[8]
31%,在「深度思考」模式下可達45%[9]
在最難的推理任務中達到最先進水平;在前沿基準上有效地達到「博士級」[10]。
GPT‑5.1
≈91.0% 在 MMLU[6],基本上與 Gemini 相當[6]
– (未公開聲明;在知識上大致相當)
≈26.8%[8]
≈18%[9]
廣泛知識非常強;在超高難度推理上落後於 Gemini 3 Pro,但仍具有競爭力。
Claude Opus 4.5
無官方 MMLU;使用 Claude Sonnet 4.5 高80%作為參考[7]
先前 Claude 模型約為 13.7%[8]
在 ARC‑AGI 上低於 GPT‑5.1 和 Gemini 3 Pro[9]
學術表現穩定;在前沿推理上相對較弱,但在其他領域(尤其是編程)具有優勢。

知識及推理(MMLU、ARC 等): 在廣泛的知識測試中,如 MMLU(大型多任務語言理解),所有三個模型的表現都接近或超過人類專家水平。Google 報告顯示,Gemini 3 Pro 在最困難的問題集(GPQA Diamond)中達到約 91.9%,並以 1501 的 Elo 頂尖 LMArena 排行榜[5]。GPT-5.1 在 MMLU 上同樣強勁——在一項分析中,GPT-5.1 在 MMLU 上得分約 91.0%,與 Gemini 3 Pro 大致相當[6]。Anthropic 尚未發布 Opus 4.5 的官方 MMLU,但其前身(Claude Sonnet 4.5)在高 80% 的範圍內[7],這表明 Opus 4.5 在學術知識任務中大致處於該水平。在極具挑戰性的推理考試中,會出現差異。

人類的最後考試(一個殘酷的推理測驗)中,Gemini 3 Pro 得分 37.5%(無工具)——顯著高於 GPT‑5.1(約 26.8%)或 Anthropic 之前的模型(約 13.7%)[8]。同樣,在 ARC-AGI 推理挑戰中,Gemini 3 Pro 達到 31%(在特殊的“深度思考”模式下甚至高達 45%),遠超 GPT‑5.1(約 18%)和以往的 Claude 模型[9]。這些結果表明,Google 的模型目前在最困難的推理基準測試中領先,這可能反映了 Gemini 在高級規劃和問題解決訓練上的優勢。OpenAI 的 GPT‑5.1 在知識和推理方面不甘示弱,而 Anthropic 的強項則在其他地方(正如我們在編碼中將看到的)。總體而言,在像 MMLU 和 PiQA 這樣的標準基準測試中,三者的準確率都緊密靠攏在約 90%[5],但在“前沿”推理測試(複雜數學、邏輯謎題)中,Gemini 3 Pro 憑藉其“博士級”表現佔據優勢[10]

程式碼生成與軟體基準測試: Anthropic Claude Opus 4.5 專注於編碼和「代理」計算機使用任務,目前在程式碼基準測試中名列前茅。在 Anthropic 的內部評估中,SWE-Bench(軟體工程基準)經過驗證,Opus 4.5 取得了 80.9% 的成功率——這是所有最前沿模型中最高的[11]。這稍微超越了 OpenAI 的 GPT‑5.1-Codex-Max 模型(77.9%)和 Google 的 Gemini 3 Pro(76.2%)在同一測試中的成績[11]。以下圖表來自 Anthropic 的公告,顯示了 Claude 4.5 在真實世界編碼任務中的領先幅度:

Claude Opus 4.5 在 SWE-Bench 經過驗證的真實世界編碼問題中取得了最高分,稍微超過了 OpenAI 的 GPT‑5.1 Codex 和 Google 的 Gemini 3 Pro[11]

這個結果值得注意,因為GPT-5.1的Codex-Max變體本身在編碼方面是一個重要的改進(OpenAI將其訓練在軟體工程任務和工具使用上)[12]。然而,Opus 4.5設法超越了幾個百分點。Google的Gemini 3 Pro緊隨其後;在這些編碼代理基準上,它「大大超越」了其前身Gemini 2.5[13],但目前仍落後於新的Claude。實際上,這三種模型都是非常有能力的編碼助手——能夠為複雜任務生成正確的代碼,重構大型代碼庫,甚至運行開發環境。但Anthropic專注於代碼質量和效率:開發者報告指出Claude Opus 4.5在編碼中展示了「前沿任務規劃和工具使用」,並以較少的tokens解決問題[14][15]。事實上,Anthropic表示Opus 4.5能夠以「比我們測試過的任何模型更高效的方式」處理多步編碼工作流程,並在使用最多65%較少的tokens的情況下提高通過率[16]。這種效率和編碼技能使Claude 4.5在軟體工程使用案例中表現極為出色。

其他基準測試: 各個模型各有所長。Gemini 3 在圖像+視頻推理基準中展現出多模態的強大能力,例如 MMMU-Pro(多模態 MMLU)Video-MMMU,其中 Gemini 3 Pro 分別獲得 81%87.6% 的分數,創造了新的最先進水平[17]。它在 SimpleQA Verified 中也達到了 72.1%,顯示出開放式問答中事實準確性有所提升[18]。同時,OpenAI 的 GPT-5.1 在對話質量方面表現出色,且比前代更能遵循指令。雖然不局限於單一基準,但 OpenAI 指出 GPT-5.1 的整體智能和溝通風格都有「顯著」提升[19]。許多觀察者指出,GPT-5.1 在日常任務中感覺*「更溫暖、更智能,且更善於遵循指令」,這可能不會在純粹的準確性指標中顯示出來,但改善了現實世界的可用性[2]。Anthropic 的 Opus 4.5 亦被設計用於超越編碼的實用任務——測試者發現它「能解決」複雜多系統錯誤,並在不需手把手指導的情況下「處理模糊性並對權衡進行推理」*[20]。總之,基準測試只能揭示部分真相。這三個模型在許多學術測試中均達到或超越人類水平。Gemini 3 在艱難的邏輯和多模態挑戰上推進了前沿,Claude 4.5 在複雜的編碼和工具使用任務上領先,而 GPT-5.1 則在強大性能與精緻對話能力之間提供了良好的平衡。

推理能力與長篇思考

這些新模型的一個主題是改進的長期推理能力——能夠通過多個步驟或長時間處理複雜問題的能力。OpenAI 的 GPT‑5.1 引入了一個專門的**「思考」模式**,這是一個先進的推理模型,「在複雜任務上更加持久」[2]。GPT‑5.1 思考模式在面對困難查詢時會實際上「思考」更久(即分配更多的內部計算或步驟),使其能夠解決需要多步邏輯的問題。Google 採用了類似的方法,推出了Gemini 3 Deep Think,這是 Gemini 3 Pro 的一個可選模式,在複雜問題上*「進一步突破智能的界限」*[21]。在測試中,Gemini 3 Deep Think 在最難的基準測試中顯著超越了普通模式(例如,將 Humanity's Last Exam 的分數從 37.5% 提高到 41.0%,並將 ARC-AGI 提高到 45.1%)[22]。這表明當給予更多的「思考時間」時,模型能夠內部推理出非常困難的任務。

Anthropic 的 Claude Opus 4.5 同樣強調延伸推理。它會自動保留來自先前回合的「思考區塊」,在長時間的會話中維持連貫的思路來源 23——較早期的 Claude 模型會遺失這些,但 Opus 4.5 能夠延續中間的推理,這對於一致的多步驟工作至關重要。Anthropic 也為 Opus 4.5 增加了「努力」參數,直接控制模型在推理和解釋上花費的 tokens 數量來源 24。在高努力下,Opus 會產生非常透徹的分析(對於複雜的調試或深入研究很有用),而低努力則適合於快速高量任務的簡短回答來源 25。這實際上是一個調節推理深度與速度的旋鈕。

在實踐中,這些功能意味著每個模型都能比以前的世代更好地處理持續推理任務。例如,OpenAI 報告稱 GPT‑5.1-Codex-Max 能夠自主運行數小時之久,迭代地改進代碼並修復錯誤,而無需人工干預[26][27]。它使用一種稱為*“壓縮”的技術來修剪和壓縮其上下文,使其能夠在一次會話中處理數百萬個標記而保持連貫工作[28][29]。早期測試者 Simon Willison 指出,Anthropic 的模型同樣能夠支持長時間的編程會話——他使用 Opus 4.5 驅動了約 30 分鐘的自主編程,即使是較小的 Claude Sonnet 4.5 也能有效地繼續工作負載[30][31]。Gemini 3,具有巨大的上下文窗口和集成工具使用,專為“計劃和執行複雜的端到端任務”*而設計,通過能在 IDE 或甚至 Linux 終端中運行的代理來實現[32][33]。在 Google 自有產品中,基於 Gemini 的 AI 能夠分析冗長的文件或視頻,並產生結構化輸出,如抽認卡或分步計劃[34][35]

底線:所有三種模型在推理上都變得更加持久和自主。它們可以處理涉及多個步驟的複雜工作流程。OpenAI 和 Google 提供切換選項(思考模式、深度思考)以在需要時增強推理能力。Anthropic 的 Opus 默認運行在高推理水平,並賦予開發者在全面性和延遲之間進行權衡的手動控制[24]。這反映了設計上的趨同:這些模型不再僅僅是一拍即合地回應,而是在內部模擬*「長時間思考」*[36][37],以應對更棘手的問題並有效使用工具,逐步接近真正的代理行為。

代碼生成和工具使用

編碼能力: 如前所述,Claude 4.5 在測量的編碼基準上略勝 GPT-5.1 和 Gemini 3[11]。但這三者在代碼生成方面都極其出色,遠超一兩年前的模型。例如,OpenAI 的 GPT-5.1-Codex-Max 「在現實世界的軟件工程任務上進行訓練」,如代碼審查、創建拉取請求和回答編碼問答[12]。它可以跨多個文件工作,甚至處理 Windows 環境(這是一個新功能,表明其在操作系統特定任務上受過訓練)[38][39]。同時,根據 Anthropic 的客戶的說法,Claude Opus 4.5 負責跨 多個代碼庫和代理 的複雜重構[40]。使用 Claude 在 IDE(如 Claude Code)中的開發者發現,它可以在數十個文件中協調變更,且錯誤極少[41]。Google 的 Gemini 3 在軟件開發中也表現出色:Google 稱其為 「我們迄今為止構建的最佳氛圍編碼和代理編碼模型」,並在 WebDev 基準(網頁開發任務)中取得了 1487 的 Elo 分數[13]。在實時 Terminal-Bench 測試中(讓模型操作 Linux 終端),Gemini 3 Pro 得分 54.2%,高於 GPT-5.1(~47%)或之前的 Anthropic 模型[42][43]。這表明 Gemini 在使用工具/命令自主完成編碼任務方面特別強大。

工具使用與代理: 除了純粹的代碼生成,另一個關鍵領域是代理行為——讓模型使用工具或作為自主代理行動。這三家公司都在以不同的方式實現這一點。OpenAI 的平台支持功能調用,並引入了「OpenAI 代理」,允許 GPT‑5.1 調用工具(如網頁瀏覽器、代碼解釋器等)來完成任務。GPT‑5.1 還可以在長時間的工具使用會話中自動*「壓縮」其工作記憶,如描述所示,以免其上下文耗盡[28][29]。Google 則圍繞 Gemini 3 建立了一個完整的以代理為導向的環境,稱為Google Antigravity[32]。在這個系統中,Gemini 代理可以直接訪問代碼編輯器、終端和瀏覽器。他們可以「自主規劃並執行複雜的、端到端的軟體任務」*——編寫代碼、運行、測試並迭代,所有這些都在開發平台內進行[44][33]。這由 Gemini 的多模態技能增強:例如,Gemini 代理可以將截圖或設計模型作為輸入,然後生成並執行代碼以重現用戶介面。

Anthropic 升級了 Claude 的「電腦使用」工具。Claude Opus 4.5 現在可以請求高解析度的螢幕區域放大截圖,以進行細緻的檢查。在 Anthropic 的 Claude 應用程式和 SDK 中,它可以操作虛擬電腦——點擊按鈕、捲動、輸入——新的放大功能幫助它閱讀先前難以看清的小字或 UI 元素。結合一套可用工具(如 Claude API 中的 bash shell、代碼執行、網頁瀏覽器等),Claude 4.5 明顯設計來卓越於「使用電腦的代理」。早期測試者報告稱,Opus 4.5 展現了「我們見過的最佳前沿任務規劃和工具調用」,能以較少的死胡同執行多步驟工作流。例如,Warp(開發工具公司)報告稱,Claude 4.5 與 Claude 4.1 相比,在 Terminal Bench 上改善了 15%,並指出其持續的推理能帶來更好的長期規劃。

總結來說,當涉及到編碼和工具使用時:- Claude Opus 4.5 在純編碼成功率上略勝一籌,且效率極高(用顯著較少的 tokens 完成任務)[53][54]。它是大規模重構、代碼遷移和任何需要考量 token 成本的任務的首選,因為優化措施在測試中將 token 使用量減少了 50–76%[55][54]。- GPT‑5.1 (Codex-Max) 是一個非常接近的競爭者,深度整合到開發者的工作流程中(CLI、IDE 擴展[56])。它被稱為可靠的編碼夥伴,可以長時間運行,現在甚至原生支持多個上下文窗口(這意味著它可以順序無縫處理專案的片段)[28]。OpenAI 的生態系統通過函數調用使工具集成變得簡單。- Gemini 3 Pro 將 Google 在整合搜尋、數據和多模態輸入到編碼中的優勢帶來。它不僅能編寫代碼,還能有效地操作軟體(終端、瀏覽器等)。Google 在多模態上的優勢意味著 Gemini 可以將視覺上下文(設計模型、圖表)直接整合到編碼過程中——這是這些模型中獨一無二的能力。

這三者都在推動一種不僅能編寫代碼,還能充當自主工程師的 AI。這在報告中顯而易見,AI 代理能*「從經驗中學習並改進自己的技能」*,以迭代循環的方式進行[57][58]。有一位客戶描述了 Claude 4.5 代理在 4 次迭代中自我改進以達到任務的最佳性能,而其他模型需要 10 次迭代仍無法匹敵[59][60]。這種自適應的工具使用行為正在迅速演變,而這些模型都處於前沿階段。

內容窗口和記憶

大型上下文窗口一直是Anthropic的Claude的一個標誌性功能,而Opus 4.5延續了這一趨勢,提供了一個200,000個token的上下文窗口來處理輸入(輸出最多可達64k個token)[61]。這足以在一次操作中輸入數百頁的文本或多個冗長的文件。實際上,200k個token(約150,000個單詞)允許,例如,將整個代碼庫或一本書輸入Claude進行分析。Anthropic利用這一點來實現“無限”聊天會話而不會遇到瓶頸——實際上,Claude 4.5支持非常冗長的對話,並且能記住比大多數模型更多的歷史[62][63]

Google 現在已經通過 Gemini 3 Pro 的 1,048,576 代幣上下文窗口(大約 100 萬個代幣)超越了這一點。這是一個數量級的飛躍。Gemini 3 能夠「理解龐大的數據集……包括文本、音頻、圖像、視頻、PDF,甚至整個代碼庫,並且其 1M 代幣上下文窗口」實現了這一點。基本上,它可以將 書籍數小時的音頻/視頻 作為輸入。實際上,該模型支持真正的多模態輸入——你可以在一個提示中提供冗長的 PDF,再加上幾張圖片和音頻剪輯,只要這些編碼後的代幣總數不超過限制即可。Google 的文檔列出了它可以在一個提示中處理多達 900 張圖像,或者大型視頻(將幀編碼為代幣)。這種巨大的上下文對於審查大型代碼庫、分析冗長的法律合同或總結數小時的記錄等任務來說,是一個遊戲規則的改變者。

OpenAI 的 GPT-5.1 並未明確宣傳其固定上下文能達到 1M 這麼大,但它引入了超越先前限制的技術。GPT-4 提供了一個 128k 上下文變體(在 ChatGPT Enterprise 和 GPT-4 32k 模型中),而有跡象表明 GPT-5 在某些設置中可以處理多達 400k 或更多的 tokens[68][69]。更具體地說,OpenAI 在 GPT-5.1-Codex-Max 中的「壓縮」機制允許模型不斷地總結對話或任務歷史的較舊部分,有效地提供了 無限工作記憶,即使在長時間的會話中也是如此[28][29]。例如,GPT-5.1 可以通過定期壓縮上下文來釋放空間,實現超過 24 小時的工作時間,並「重覆此過程直到任務完成。」[70][71]。因此,儘管 GPT-5.1 的原始窗口可能每個提示有 128k tokens,但其設計允許通過鏈接上下文來超越此限制。OpenAI 也在 ChatGPT 中推出上下文緩存功能和長期對話記憶,這表明即使超過標稱的 tokens 限制,模型也能記住對話早期的部分。

總結上下文容量:- Claude Opus 4.5:原生支持 ~200K token 視窗(輸入)[61]。這個容量非常高,適合大多數長文檔任務。Anthropic 的定價方案甚至考慮到了這一點:如果您在單次請求中超過 200K,則按較高的「1M 上下文」費率計費[72][73](這意味著他們可能也有實驗性的 1M 模式)。- GPT-5.1:在 ChatGPT Pro 的當前部署中官方支持高達 128K[74],但具有 自動上下文壓縮,可在一個會話中有效支持數百萬個 token[28][29]。我們可以將其視為動態長上下文支持,而不是固定的大視窗。- Gemini 3 Pro:1M-token 視窗 —— 任何主要模型中最大的 —— 並專為 多模態 上下文設計(文本+圖像+音頻+視頻合一)[64][75]。這允許進行分析,例如「將整個視頻講座和多篇研究論文提供給模型,讓它綜合出一個摘要或回答問題」,在較小的上下文中是不可行的。

這一切意味著,對於這些模型來說,記憶限制不再像以前那樣是個障礙。早期的模型在回憶長文檔開頭的細節時會遇到困難,而這些模型可以一次性存儲大量信息。這對於諸如長距離推理(例如找出需要引用輸入多個部分的解決方案)和跨數十回合的開放式對話等任務尤其有利。

速度與延遲

面對如此龐大的上下文和繁重的推理,人們或許會覺得這些模型會很慢,但每個提供者都引入了管理延遲的方法。OpenAI 的方法是模型區分GPT-5.1 即時 vs GPT-5.1 深思[76]即時模型優化於快速的對話式回應——這個模型*「常常以其趣味性和清晰有用性讓人驚訝。」[77] 它是日常聊天的低延遲選擇。而深思*模型則是複雜查詢的主力,儘管在簡單任務上優化得更快,但在困難任務上會花費更長時間,因為它需要更深入的推理[78]。這個雙層模型系統讓用戶可以根據需求選擇速度與準確度。在實踐中,GPT-5.1 即時感覺非常迅速(類似於 GPT-4 Turbo 或更快),而 GPT-5.1 深思在解決困難問題時可能需要明顯更久,但會給出更好的答案。

Anthropic 的解決方案,如所述,是 Claude 4.5 的努力參數。預設為「高」,意味著模型最大化周密性(這可能增加延遲)。開發者可以將其調整為。Anthropic 的數據顯示,在努力下,Opus 4.5 可以以較少的 tokens 解決任務,仍保持與以前相同的準確性,因此回應更快。在一個例子中,中等努力在 SWE-Bench 上與 Claude Sonnet 4.5 的表現相匹配,同時使用少 76% 的輸出 tokens——這意味著顯著降低延遲和成本。因此,如果應用程式需要快速回答,設定較低的努力會產生較簡短(但仍具能力的)回應。高努力下,Claude 可能需要更長時間,但能產生非常詳細的輸出。早期用戶報告指出,即使在高努力下,Claude 的回應時間依然*「穩定且可預測」*,儘管較長的回應需要更多時間生成。

Google 的 Gemini 3 Pro 同樣有一個 thinking_level 參數(值為「low」或「high」),取代了早期的 Gemini 2 的「thinking_budget」設定。這個 thinking_level 讓使用者可以決定 Gemini 是應該進行最低限度的內部推理(為了速度)還是進行最大限度的推理(為了品質)。Google 還提供了一個 media_resolution 設定,用於多模態輸入,您可以選擇以較低的解析度處理圖像/視頻以獲得更快的結果,或以高解析度處理以獲得更好的視覺準確性(代價是更多的 tokens 和延遲)。這些控制承認處理 100 萬個 tokens 或大型圖像本質上是緩慢的,因此開發者可以透過調整模型「思考」的程度和分析媒體的精細度來調整速度。目前沒有 GPT-5.1、Claude 和 Gemini 的公開並列延遲基準,但有傳聞指出:- GPT-5.1 Instant 在處理普通查詢時速度非常快(通常在幾秒內完成),即使在思考模式下也得到了速度優化——OpenAI 指出它在簡單任務上*「現在更容易理解且速度更快」*。- Claude 4.5 在高效模式下非常徹底,這可能意味著輸出更長且延遲略高,但在中低效模式下速度顯著加快。一位測試編碼任務的 Reddit 用戶指出,GPT-5.1 和 Claude 在速度上大致相當,尤其是在 GPT-5.1 改進後,而早期的 GPT-5 在某些長任務中比 Claude 慢。- Gemini 3 Pro 的延遲將取決於上下文——給它餵入數百張圖像或一百萬個 tokens 自然會較慢。然而,對於典型的提示大小,據報導 Gemini 反應靈敏,且 Google 的雲基礎設施(TPUs)被優化來全球服務這些模型。Google 尚未發布明確的延遲數據,但「Gemini 3 Flash」(一個快速、低成本且上下文較小的變體)的可用性表明,完整的 Pro 模型旨在用於重型任務,而非快速的問答。

總結來說,現在所有三個模型都允許在速度和推理之間進行權衡。它們引入了內部調節或模型變體,以確保如果您不需要深入思考,您不會被卡住等待。對於大多數一般應用(簡短提示、中等複雜度),每個模型都能在接近即時(數秒)的時間內回應。對於非常大或複雜的工作,您可以預期運行時間為數秒甚至數分鐘,但您可以通過設置來控制。隨著上下文窗口和任務的增長,這是一個必要的演變——令人鼓舞的是,即便在面對更複雜的問題時,這些模型在互動環境中仍然可用。

成本和定價

競爭不僅僅是能力的較量——成本是個重要因素,我們在這方面看到了激進的舉措。事實上,Anthropic 推出了 Opus 4.5,並伴隨著顯著的降價:Opus 4.5 API 呼叫的成本為每百萬個輸入標記 $5 和每百萬個輸出標記 $25[85][86]。這是之前 Opus 4.1 價格的三分之一(當時為每百萬 $15/$75)[85]。Anthropic 刻意降價是為了讓 Claude 對開發者更具吸引力,承認過去的 Opus 模型價格過高[87][88]。在新價格下,使用 Claude 處理大型任務更為可行——現在每個標記的成本僅比 Anthropic 的較小模型(Claude Sonnet 4.5 每百萬 $3/$15)稍高[89]

這如何比較?OpenAI 的 GPT‑5.1 系列實際上「每個 token」更便宜。GPT‑5.1 的 API 調用,基礎模型大約是「每百萬輸入 token 1.25 美元和每百萬輸出 token 10 美元」[89]。Google 的 Gemini 3 Pro 介於兩者之間:在標準 200k 上下文級別下,大約是「每百萬輸入 2 美元和每百萬輸出 12 美元」[89]。(值得注意的是,Google 計劃在超過 200k token 但不超過 100 萬上下文時收取溢價——大約是每百萬 4 美元/18 美元的費率[90]。)這些數字意味著 OpenAI 目前在頂級模型中提供最低的逐 token 價格。例如,生成一個 1000 token 的答案可能花費 ~0.012 美元,使用 GPT‑5.1,而 Claude 4.5 則是 ~0.025 美元——大約是成本的一半。Google 的價格大約是 ~0.015 美元。然而,成本必須與效率權衡:如果一個模型能用更少的 token 或更少的嘗試解決一個任務,則可以節省總體開支。Anthropic 強調 Opus 4.5 在 token 使用上更有效率,可能在某些任務中將使用量(和成本)削減超過 50%,而精確度仍與以前相當[53][54]。正如一位早期用戶指出的那樣,「Opus 4.5 的中等推理與 Sonnet 4.5 的質量相匹配,同時使用 76% 更少的 token… ~60% 更低的成本。」[91]。因此,開發者可能會為 Claude 每個 token 支付稍多的費用,但如果 Claude 使用的 token 大大減少來達到解決方案,總成本差異就會縮小。

值得注意的是如何處理無障礙性:- Claude Opus 4.5 可通過 API(適用於 Pro/Max/Team 層)以及主要的雲平台如 AWS、Azure 和 Google Cloud [92] 使用。還有一個 Claude Pro 消費者應用程式,可以互動地使用 Opus。我們討論的費用適用於 API 使用。- ChatGPT 5.1 通過 ChatGPT 向終端用戶開放使用(Plus 和 Enterprise 用戶自 2025 年 11 月起可使用 GPT-5.1),並通過 OpenAI API 向開發者開放。OpenAI 對於 ChatGPT Plus 的 GPT-5.1 使用採取固定訂閱制,而 API 則按使用的 token 計費(如上所述)。他們還提供 ChatGPT Enterprise,在一定限度內免費使用。- Gemini 3 Pro 可通過 Google 的 Vertex AI 平台使用(目前為 預覽 模型)[93],通過 Gemini API 和像 Gemini Chat 應用程式及 AI Studio 等產品使用 [94][95]。Google 尚未在其網站上公開列出 token 價格,但據報導,其 API 定價與 PaLM 2 的定價相似(每百萬個 token $2/$12)。Google 還將 Gemini 整合到消費者功能中(如搜尋生成體驗、Google Workspace AI 工具),最終用戶不會直接按 token 收費。

總結來說,OpenAI 提供最低的原始價格 用於前沿模型的 API 使用,而 Anthropic 大幅降低他們的價格以保持競爭力(Opus 現在的成本是先前的三分之一,儘管仍然是 OpenAI 價格的約兩倍)[89]Google 的定價介於兩者之間,並對於龐大的上下文運行增加了一些成本[89]。對於決定使用哪種模型的公司來說,每次查詢的成本將取決於任務:如果 Claude 的效率聲稱屬實,長時間的編碼工作在三者之間可能成本相似,而短時間的問答可能使用 GPT‑5.1 最便宜。看到競爭推動價格下降,最終讓先進的 AI 更加普及,這真是太好了。

微調和定制

一個值得注意的方面是,微調(傳統意義上指的是在自定義數據上更新模型的權重)對於這些最新的模型來說尚未普及——至少目前還沒有。Claude Opus 4.5 和 Gemini 3 Pro 目前都不支持用戶微調[96][97]。OpenAI 也尚未釋出 GPT-5.1 的微調功能(其 API 文檔顯示 GPT-5 系列模型「微調:不支持」)[97][98]。這是可以理解的:這些模型非常龐大且經過精心調整;開放微調可能會帶來安全和容量挑戰。

相反地,重點在於「基於提示的自訂」。例如,OpenAI 在 5.1 更新中推出了個性化 ChatGPT 行為的新方式。他們新增了「個性預設」和語氣控制,允許用戶選擇預定義的風格(如開發者、導師、懷疑論者等),或設置自定義指令來塑造助手的回應[99][100]。這不是微調模型權重,而是一種靈活的機制來讓模型以特定方式運作。同樣地,Anthropic 提供「憲法 AI」風格控制和系統提示來引導 Claude,並在 Opus 4.5 中指出其「保持推理連貫性」,能夠在長時間會話中更好地遵循複雜的角色或指令[23]。Google 的 Gemini API 允許開發者提供系統訊息設置上下文或角色(類似於 OpenAI 的系統提示),甚至可以納入隱性和顯性上下文快取,以相關背景資訊影響模型[101][102]。基本上,雖然不能直接微調這些巨型模型,但可以在運行時「餵入數據」——例如,將文件塞入巨大的上下文窗口,或使用檢索增強提示。Google 的 Vertex AI 提供一個「RAG 引擎(檢索增強生成)」與 Gemini 協同工作,根據需要引入企業文件[103],在不更改模型核心的情況下實現許多微調的目標(回答特定領域問題等)。

值得一提的是,OpenAI 推出了較小的兄弟模型(如 GPT-5 Nano 等)並開源了一些模型(如 openai-o3 和 o4-mini)[104]。這些較小的模型可能支持微調,並作為 GPT‑5 的簡化版本,用於專門的任務。不過,在此比較的旗艦模型中,目前沒有任何一個允許你在自定義數據上重新訓練完整模型。相反的策略是:使用提示工程、系統指令、外部知識檢索和內建參數(如語氣、思考層次)來調整模型的輸出以滿足你的需求。

從研究的角度來看,這在未來可能會改變——像 LoRA(Low-Rank Adaptation) 或其他參數高效微調的方法可能在這些大型模型上變得可行。但目前,“微調”實際上僅限於供應商自己的訓練管道。例如,OpenAI 從 GPT‑5 基礎版微調出 GPT‑5.1,加入了額外的強化學習和指令調整(他們提到 GPT‑5.1 是*“建立在我們的基礎推理模型更新之上”*)[105],而 Anthropic 則使用了如 constitutional fine-tuning 的技術來對齊 Claude。作為最終用戶或開發者,你主要是直接使用這些模型,通過 API 接口進行自定義,而不是權重更新。

模型架構與設計(推測)

雖然官方細節有限,但我們可以推測出一些設計哲學上的差異:- Claude Opus 4.5 可能是一個密集的 Transformer 模型,與其前身相似。Anthropic 並未透露參數數量,但之前的 Claude 版本據說在規模上與 GPT-4 相當。Anthropic 的重點似乎是在數據和技能上:他們對 Claude 4.5 進行了大量的編碼、工具使用(如 shell、web)和對話訓練,並應用了先進的對齊技術(包括人類反饋的強化學習以及他們的「憲法 AI」方法)。

結果是一個「真正理解」的模型——據說在現實世界任務中具有更好的判斷力[20][106]。一個有趣的架構特點是 Claude 如何處理長上下文:Anthropic 可能使用位置編碼策略或注意力調整(如 ALiBi 或集中注意力)來達到 200k 個 tokens。思考痕跡得以保留的事實表明這是一種將自身思路鏈作為未來輸入的一部分的架構[23]。Claude 4.5 也在雲端硬體上提供,具有更快的矩陣乘法,可能的模型並行性可有效處理大量上下文。- OpenAI GPT‑5.1(以及 GPT‑5)被認為結合了一個基礎模型和專門的頭/模式。

OpenAI 的博客暗示 GPT-5 是一個「統一系統」,由一個快速模型和一個「用於更難問題的更深層推理模型(GPT-5 思考)」[107]組成。GPT-5 的架構可能包括多個模組或專家混合型切換,將簡單查詢路由到較小的子模型,將困難查詢路由到較大的模型,從而提高速度和成本效益。提到的「現在在 ChatGPT 中提供的兩個更新版本(即時和思考)」[99]支持了這一點。在底層,GPT-5 可能擁有數兆的參數或多個專家模型——早期有傳言稱 GPT-4 擁有 16 個專家,每個專家大約有 1110 億個參數(雖然未經證實)。GPT-5 可能擴大了參數或更有效的訓練(OpenAI 投資於新的優化技術和更大的集群)。它還在某種程度上擴展了輸入模態:GPT-5 可以接受影像作為輸入(沿襲 GPT-4 的視覺功能),並且可能在有限的形式中接受其他模態[68][108]

然而,OpenAI 在實際運用中對多模態技術採取了較為保守的態度;他們將一些如 Sora(一個可能用於音頻及其他模態的模型)這樣的技術分開處理,而不是完全融合。因此,GPT-5.1 主要是以文本為基礎的模型,具備一些視覺能力。- Google Gemini 3 Pro 從根本上就是明確的多模態模型[109][110]。Gemini 家族(Gemini 1, 2, 3)由 Google DeepMind 設計,旨在統一處理文本、視覺及更多模態。這個模型架構可能包含視覺編碼器和音頻處理功能。

Google 的研究報告或提示(如果有發表)可能會詳細說明 Gemini 使用了多個 transformer 主幹的結合——或許一個用於語言,一個用於視覺,並共享一個表示空間。結果(例如在多模態基準上的最新技術[17])顯示出非常緊密的整合。另一個方面是 工具使用:DeepMind 之前在自適應代理上有工作(例如 AlphaGo、機器人等),Demis Hassabis 暗示這些領域的技術會影響 Gemini 的設計。例如,Gemini 可能會整合強化學習 或計劃算法以提高其“代理性”能力[109][111]。其能運行電腦並解決互動任務(終端機、自動售貨機基準等)暗示了一種涉及 代理模擬 的架構或訓練程序。我們還在 Gemini 文檔中看到提到了 “思維簽名” 和多輪工具使用的更嚴格驗證[112][113]——這可能是一個架構特徵,用於保持模型的工具調用行為可靠(或許是一個單獨的模塊來驗證每個思維/行動)。最後,Gemini 的 1M 語境 可能需要架構創新——或許結合檢索機制或分塊注意力,以免一次性關注超過一百萬個代幣。

本質上,Claude、GPT-5.1 和 Gemini 都是基於 Transformer 的大型 AI 系統,具備多種功能。 具體的架構是專有的,但每一個系統都為不同的優先事項進行了優化:Claude 注重於超長上下文和在編碼/代理中的可靠性,GPT-5.1 則平衡聊天體驗和自適應推理,而 Gemini 則專注於廣泛的多模態理解和複雜的工具介導任務。

結論

我們正在見證 AI 前沿的激動人心融合:Claude Opus 4.5、ChatGPT 5.1 和 Gemini 3 Pro 都代表了推動 AI 邊界的「前沿模型」,但各具特色。Claude 4.5 作為編碼和代理專家脫穎而出——這是您可能會呼叫來在一夜之間重構整個代碼庫或駕駛電子表格一小時的模型。它專注於「深度工作」,並且現在通過降低價格更易於使用[85][86]。ChatGPT 5.1 繼承了 OpenAI 廣泛能力的傳統,且更為精緻——它擅長對話和指示,同時仍是一個強大的通用問題解決者和編碼器(尤其是 Codex-Max 變體)[11]。它在遵循用戶意圖和提供定制化方面的改進使其成為一個非常友好的 AI 夥伴[19]。而 Gemini 3 Pro 則如同未來預覽:它是真正的多模態,展現出接近「AGI 原型」的推理能力(Deep Think 模式解決了先前被認為 AI 無法解決的問題)[114][111]。憑藉 1M 上下文和整合到 Google 生態系統中的能力,Gemini 可以成為無縫混合文本、圖像和行動的應用程序核心。

以下是一些關鍵要點:

原始性能 現在取決於任務。沒有單一的“萬能”模型;相反,我們看到的是一種交替領先的模式。Claude 4.5 在編碼基準測試中領先[11],Gemini 3 在邏輯推理和多模態任務中領先[5][17],而 GPT‑5.1 在知識測試上基本持平,並提供最精緻的對話體驗。在許多領域的差距相對較小(通常僅相差幾個百分點),這令人印象深刻,因為這些模型已經遠遠超過了早期的基準甚至人類的基準。

上下文和持續性與原始準確性一樣重要。能夠在不丟失上下文的情況下進行長時間對話或處理長文檔,是一個巨大的可用性優勢。在這方面,Google 設立了一個新標準(1M tokens,多文檔輸入)[64],但 Anthropic 和 OpenAI 也有自己的解決方案(分別是 200k tokens 和壓縮技術[61][29])。這意味著用戶可以預期更少的「抱歉,上下文限制」中斷,並可以將這些模型用於真正的大規模數據摘要或分析任務。

**適應性與微調:**即使我們尚未能微調這些巨型模型,各種控制桿(努力程度、性格預設、系統工具)讓開發者和使用者能夠在不重新訓練的情況下對輸出產生很大的影響[24][100]。此趨勢可能會繼續:未來的模型可能會有更多模塊化控制(例如,切換到「嚴格事實」模式或「創意」模式,而不需要單獨的模型)。- 成本正在朝著正確的方向發展——下降。Anthropic感受到需要將Opus價格降低2/3,而OpenAI和Google在代幣價格上競爭,顯示競爭正在使使用者受益[85][89]。執行大規模任務(數百萬代幣)仍然不便宜,但變得更加合理。現在一個小型新創公司可以在不花費天價的情況下使用前沿模型處理大型數據集,這可能會促進更多創新。

最終,「最佳」模型取決於您的需求。如果您需要多模態理解或在困難的邏輯/數學問題上有絕佳推理能力,Google 的 Gemini 3 Pro 目前具有優勢。如果您需要AI 配對程序員或代理來自動化軟件任務,Anthropic 的 Claude Opus 4.5 可能提供最佳結果(可提供更可預測的代碼輸出風格)。如果您想要一個通用的 AI,具有多功能、可靠且成本效益高的特性,適用於各種任務,ChatGPT 5.1 仍然是絕佳選擇,並有 OpenAI 生態系統的支持。

可以肯定的是,這三個模型彼此推動著彼此,也推動著整個領域向前發展。正如一項分析指出的,評估新的大型語言模型變得越來越困難,因為每一代的新模型僅比上一代領先一步[115][116]。但是,這些微小的進步正在累積成為一些深遠的成果:AI模型在編碼方面接近專業水平,在某些考試中超越人類專家[117],能夠流暢地處理多模態,並能夠維持長時間的互動。大型、通用AI時代真正來臨,具有看似無限的背景和能力,而Claude 4.5、GPT‑5.1和Gemini 3 Pro正引領著這一浪潮。

來源: 根據 Anthropic 的官方公告和文件 [118][11],OpenAI [2][28],和 Google DeepMind [17][64],以及由知名第三方報導的基準測試結果和見解 [11][13]。每個模型的聲明和分數均已從這些來源中引用,以確保準確性。


[1] [14] [15] [16] [20] [40] [51] [52] [59] [60] [62] [63] [87] [88] [92] [118] 推出 Claude Opus 4.5 \ Anthropic

https://www.anthropic.com/news/claude-opus-4-5

[2] [19] [76] [77] [78] [104] GPT-5.1:更聰明、更具對話性的ChatGPT | OpenAI

https://openai.com/index/gpt-5-1/

[3] [4] [5] [6] [7] [8] [9] [10] [13] [17] [18] [21] [22] [32] [33] [34] [35] [44] [94] [95] [109] [110] [111] [114] Gemini 3:Google 最新推出的 Gemini AI 模型

https://blog.google/products/gemini/gemini-3/

[11] [53] [54] [55] [57] [58] [85] [86] [106] Anthropic 的 Claude Opus 4.5 上線:更便宜的 AI、無限聊天和超越人類的編碼技能 | VentureBeat

https://venturebeat.com/ai/anthropics-claude-opus-4-5-is-here-cheaper-ai-infinite-chats-and-coding

[12] [26] [27] [28] [29] [36] [37] [38] [39] [56] [70] [71] [105] 使用 GPT-5.1-Codex-Max 創造更多 | OpenAI

https://openai.com/index/gpt-5-1-codex-max/

[23] [24] [25] [45] [46] [47] [48] [49] [50] Claude 4.5 的新功能 - Claude 文件

https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-5

[30] [31] [41] [61] [89] [90] [115] [116] Claude Opus 4.5,為什麼評估新的 LLMs 越來越困難

https://simonwillison.net/2025/Nov/24/claude-opus/

[42] [43] Gemini 3 Pro - 評估方法與方法學 v2

http://deepmind.google/models/evals-methodology/gemini-3-pro

[64] [65] [66] [67] [75] [80] [81] [93] [96] [101] [102] [103] [112] [113] Gemini 3 Pro  |  生成式 AI 在 Vertex AI 上  |  Google Cloud 文件

https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-pro

[68] GPT-5 解構:特點、性能、定價與使用案例...

https://www.leanware.co/insights/gpt-5-features-guide

[69] 最大上下文窗口的 LLMs - Codingscape

https://codingscape.com/blog/llms-with-largest-context-windows

[72] 定價 - Claude 文件

https://platform.claude.com/docs/en/about-claude/pricing

[73] Claude Opus 4.5 vs Sonnet 4.5:定價革命與性能...

https://vertu.com/lifestyle/claude-opus-4-5-vs-sonnet-4-5-vs-opus-4-1-the-evolution-of-anthropics-ai-models/?srsltid=AfmBOorwdEvjBy7o_kYmFhLrs_cP8wilvmsV5ZtxI-lYhR0H6wBPAOW_

[74] GPT-5 的 ChatGPT 上下文視窗限制 - 免費用戶為 8K,

https://x.com/rohanpaul_ai/status/1953549303638557183

[79] Claude Sonnet 4.5 對比 GPT-5:性能、效率和定價...

https://portkey.ai/blog/claude-sonnet-4-5-vs-gpt-5

[82] 我測試了 GPT-5.1 Codex 與 Sonnet 4.5 的比較,結果是... - Reddit

https://www.reddit.com/r/ClaudeAI/comments/1oy36ag/i_tested_gpt51_codex_against_sonnet_45_and_its/

[83] GPT-5.1 Codex vs. Claude 4.5 Sonnet vs. Kimi K2 思維

https://composio.dev/blog/kimi-k2-thinking-vs-claude-4-5-sonnet-vs-gpt-5-codex-tested-the-best-models-for-agentic-coding

[84] 摩爾定律的終結?Gemini Flash 發出警告

https://news.ycombinator.com/item?id=44457371

[91] Claude Opus 4.5 比 Opus 4.1 便宜很多 - Reddit

https://www.reddit.com/r/singularity/comments/1p5pdjq/claude_opus_45_is_much_cheaper_than_opus_41/

[97] models/gpt-5 - 模型 - OpenAI API

https://platform.openai.com/docs/models/gpt-5

[98] Microsoft Foundry 模型中的 Azure OpenAI 有哪些新功能?

https://learn.microsoft.com/en-us/azure/ai-foundry/openai/whats-new?view=foundry-classic

[99] [100] OpenAI 面對 GPT-5.1 的八種新個性走著艱難的鋼絲

https://arstechnica.com/ai/2025/11/openai-walks-a-tricky-tightrope-with-gpt-5-1s-eight-new-personalities/

[107] 推出 GPT-5 - OpenAI

https://openai.com/index/introducing-gpt-5/

[108] GPT-5:新功能、測試、基準和更多 - DataCamp

https://www.datacamp.com/blog/gpt-5

[117] GPT-5 剛剛通過了地球上最難的醫學考試,並且... - Reddit

https://www.reddit.com/r/deeplearning/comments/1mraxnh/gpt5s_medical_reasoning_prowess_gpt5_just_passed/

Boxu 在埃默里大學獲得了定量經濟學專業的學士學位。在加入 Macaron 之前,Boxu 的職業生涯大部分時間都在美國的私募股權和風險投資領域度過。他現在是 Macaron AI 的首席參謀和市場營銷副總裁,負責管理財務、物流和運營,並監督市場營銷。

申請成為 Macaron 的第一批朋友