
作者:Boxu Li
在 ChatGPT 登場三年後,一個新的開源競爭者作為 AI 社群的生日禮物來臨。DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale —— 兩個新發布的大型語言模型 —— 正在推動開放 AI 系統的界限。由中國 AI 實驗室 DeepSeek 開發,這些模型旨在提供 GPT-5 級的推理性能,與先進的封閉模型如 Google 的 Gemini-3.0-Pro 媲美[1][2]。這兩個模型和一份深入的技術報告已被開源,讓研究人員和開發者能更深入了解開放模型的發展程度。
DeepSeek-V3.2 被設計為一個平衡的「日常驅動」模型,適合用於一般的問答、代碼輔助和在實際應用中的 AI 代理任務。根據 DeepSeek 的基準測試,V3.2 的推理能力在公共推理測試中與 GPT-5 的水平相當,僅略遜於 Gemini-3.0-Pro。在實際操作中,這意味著 V3.2 能夠處理複雜的邏輯和分析問題,其能力幾乎與目前最好的封閉模型相媲美。值得注意的是,V3.2 輸出的內容比一些之前的開放模型(如 Kimi-K2-Thinking)更加精簡,減少了令牌使用量和用戶等待時間,同時不失推理深度。
在引擎下,DeepSeek-V3.2 每個標記啟用了 6850 億個參數(在 670B MoE 架構中),但它經過優化以提高效率和長期上下文使用。它支援擴展的 128K 標記上下文窗口,可以一次性分析數百頁文本。儘管體積龐大,V3.2 已經過微調以整合推理與外部 工具使用。事實上,這是 DeepSeek 的第一個模型,可以在調用工具的過程中進行*“思考”*。它在使用工具時支援 連鎖思維模式 和標準模式,允許它以結構化方式通過多步驟工具增強任務進行推理(如使用計算器、代碼解釋器或搜索引擎)。這使得 V3.2 對於代理應用特別強大,從運行代碼的編碼助手到瀏覽網頁的對話代理。
對於需要更多推理能力的用戶,DeepSeek 推出了 V3.2-Speciale 與標準模型同步發佈。Speciale 版本將開源推理推向極致,整合了擴展的「思考」機制,甚至加入了一個專門的數學定理證明模組(來自 DeepSeek-Math-V2 模型)。結果是一個專為處理高度複雜問題而調校的模型——開發者稱之為*「探索模型能力的邊界」*[4]。在嚴格的邏輯和數學基準測試中,DeepSeek-V3.2-Speciale 的表現可比擬 Gemini-3.0-Pro[4],基本上達到了這些領域的最先進水平。
這一說法得到了 Speciale 在各大著名競賽中成就的支持:據報導,它在 國際數學奧林匹克(IMO 2025)、中國數學奧林匹克(CMO 2025)、ICPC 2025 世界總決賽(程式設計) 和 IOI 2025(資訊學) 中,均達到了金牌水平[5]。事實上,在 ICPC 程式設計比賽中,V3.2-Speciale 的表現達到了人類銀牌選手(第二名)的水準,而在 IOI 中則達到了人類前十名選手的水準[5]。對於一個 AI 模型來說,這些都是非凡的成就,展現了其在邏輯推理和問題解決上的能力達到了人類頂尖水平。
值得注意的是,Speciale 是一個專家專注的模型。它在長篇推理方面表現出色(如詳細證明、多步邏輯、複雜的編程挑戰),但不適合隨意聊天或創意寫作。運行成本也較高——Speciale通常需要消耗顯著更多的代幣才能得出答案[6]。目前,DeepSeek僅通過有限的研究API提供V3.2-Speciale(不啟用工具使用),並提醒這個模型適用於學術或高風險推理任務,而非日常對話。
DeepSeek-V3.2 性能的關鍵創新之一是一種新的注意力機制,稱為DeepSeek 稀疏注意力(DSA)。傳統的 Transformer 模型在上下文長度增長時會承擔二次成本,因為每個標記都會與其他每個標記互相注意。DSA 則通過使用細粒度稀疏注意力模式打破了這一瓶頸[7]。它引入了一個*「閃電索引器」*元件,快速估計當前標記與過去標記之間的相關性分數,然後只選擇最相關的前 $k$ 個標記進行注意[7]。本質上,模型學會忽略不相關的上下文,僅關注長序列中的重要部分。
這種稀疏注意力設計將長序列計算所需從 O(L²) 降低到 O(L·k),其中 k 遠小於 L。在 DeepSeek 的實現中,k=2048 在訓練的第二階段使用(每個標記關注 2048 個選定的過去標記)。團隊為 DSA 採用了兩階段訓練策略:首先是 dense warm-up,其中 lightning indexer 與全注意力一起訓練了幾十億個標記,以確保它學會模仿全注意力的行為。然後模型切換到稀疏模式,在數千億標記上進行訓練,並施加 top-$k$ 限制。結果是獲得了巨大的效率提升而不損失準確性。事實上,V3.2-Exp(最終模型的實驗先驅)在一系列基準測試中表現與 V3.1-Terminus 相當,儘管使用了新的稀疏注意力[8]。
實際上,DSA 意味著長文件不再是負擔。內部測試顯示,對於 128K 長度的輸入,處理速度提高了2-3 倍,記憶體使用降低了30-40%[9]。成本也大幅下降。DeepSeek 報告指出,在他們的 H800 集群上處理 128K 上下文時,每百萬個標記的提示(預填)成本從 ~$0.70 降至 ~$0.20,而生成成本從 ~$2.40 降至 ~$0.80 ——長上下文推理成本降低了3 倍。在公共 API 中,這些節省轉化為用戶超過50% 的價格下降[10]。簡而言之,DSA 允許 V3.2 以更少的時間和成本處理極長的輸入,而不影響輸出質量。
DeepSeek-V3.2 的強大性能的另一個主要因素是投入其中的大規模強化學習 (RL) 微調。DeepSeek 團隊在訓練後的 RL 上投入了前所未有的計算資源——超過了預訓練所用計算資源的 10%(對於一個 670B 級別的模型來說,這本身就已經很大)。這在開源 AI 中是非常不尋常的,因為 RL 微調的預算通常要小得多。其理由是,雖然預訓練教授了廣泛的知識,但密集的 RL 可以通過將模型與複雜目標對齊(如解決多步驟問題、使用工具或在限制下遵循指令)來解鎖高級能力。[2]。
為了安全地擴展 RL,DeepSeek 建立在其自定義的群體相對政策優化 (GRPO) 算法之上。他們在這個 RL 管道中引入了幾項穩定性和效率的改進:
· 無偏 KL 估計: 團隊修正了原始 K3 估計器中用於 KL 散度懲罰的問題,消除了可能導致梯度更新無界的系統性偏差。這防止了訓練不穩定性,當政策偏離參考政策太遠時可能發生。
· 離線序列遮罩: 由於強化學習訓練經常產生大量的“rollout”數據批次,並在許多梯度更新中重複使用(屬於非策略性場景),DeepSeek 計算了每個樣本的 rollout 策略與當前策略之間的 KL 散度。如果生成序列的策略偏離當前模型過遠,該序列將從訓練更新中被遮罩(排除)[11][12]。這個巧妙的策略確保模型主要從策略內或接近策略內的數據中學習,從而提高穩定性並防止不良軌跡扭曲學習。
· 保持專家路由: DeepSeek 的模型使用專家混合架構,這意味著不同的「專家」(子網絡)處理不同的符號。這裡的一個挑戰是推理和訓練實現之間的微小差異可能導致相同輸入選擇不同的專家,從而導致不一致。DeepSeek 解決了這個問題,通過在推理過程中捕捉專家路由決策,並在強化學習更新期間強制相同的專家路由。這種「保持路由」方法確保了在強化學習中調整的參數對應於推理時使用的相同專家,避免因專家洗牌而出現任何不愉快的驚喜。
除了這些算法調整外,RL 的數據規模也非常雄心勃勃。DeepSeek 訓練了一系列專家模型——每個模型專注於特定的領域或技能——然後將所有模型的知識提煉到 V3.2。例如,他們對數學(證明)、編程、邏輯推理、一般工具增強任務、基於代碼的代理和基於搜索的代理等領域的專家進行了微調。這些專家模型中的每一個都根據需要在*「思考」(連鎖思維)模式和「非思考」*模式下進行訓練。利用這些專家,DeepSeek 在每個領域生成了大量高質量示範的合成數據集,然後用於監督最終的 V3.2 模型。這個專家提煉管道為 V3.2 提供了豐富的訓練信號,涵蓋超過 85,000 條複雜指令,從逐步數學證明到軟件調試會話。
DeepSeek-V3.2 的一大亮點功能是其大大改進的代理功能——也就是模型在計劃、推理和使用工具以多步驟迴圈解決問題的能力。早期版本的 DeepSeek 推理模型有一個主要限制:如果模型處於“思考模式”(即產生思維鏈),它就無法調用外部工具,反之亦然。V3.2 消除了這一障礙。這是首個完全集成思考與工具使用的 DeepSeek 模型,意味著它可以在保持內部推理鏈的同時,在對話中途發出工具調用(例如運行代碼、搜索網頁)[13]。這帶來了更強大和靈活的代理行為。
為了支持這一點,DeepSeek 團隊重新構想了模型的「上下文管理」如何在多輪任務中運作。在 V3.2 中,模型的推理軌跡(即「思考」)在一系列工具調用中被保留,而不是在每個步驟被清除。只有當「新用戶查詢」到達時,系統才會重置推理上下文(同時仍保留對話中的相關工具交互歷史)[14][15]。這種方法節省了大量的 token,並讓模型在迭代調用工具時建立起「持久的思維鏈」。例如,如果用戶提出一個複雜的編碼問題,模型可以思考步驟,調用 Python 解釋器來測試某些代碼,根據結果繼續思考,或許調用文檔搜索工具,等等——只有在驗證了正確的解決方案後才會最終確定答案。所有的中間推理都保持可用,直到任務完成。
DeepSeek 還為模型提供了一個**「冷啟動」提示**,明確鼓勵這種行為。系統指令引導模型先輸出詳細的推理過程(以特殊標記標示),再揭示最終答案,特別是在處理複雜任務如程式挑戰時。這種提示工程確保 V3.2 知道它應該在面對困難問題時運用其思維鏈和工具能力,而不是直接跳到一個(通常有缺陷的)答案。
也許 V3.2 代理技能組最令人印象深刻的方面在於它的訓練方式。團隊構建了一個自動環境合成管道,為模型創建現實且具挑戰性的場景以便學習。他們生成了1,827 個互動任務環境,並配對了85,000+ 複雜指令供模型解決[16]。關鍵是,這些任務被設計為*「難以解決,易於驗證」*。換句話說,模型面臨的問題有著廣泛的搜尋空間(難以隨機找到解決方案),但有明確的驗證標準。這一特性使其成為強化學習的理想對象:模型可以嘗試(或使用工具)提出解決方案,然後迅速驗證其是否滿足所有給定的約束條件。
例如,其中一個合成任務是三天旅行行程規劃問題,具有多重約束條件(不重複城市,根據酒店費用動態調整預算等)。對於模型來說,僅僅猜測一個有效的行程是極其困難的,因為這些約束條件形成了一個組合問題——但如果模型想出了一個候選行程,檢查所有約束是否滿足就變得簡單了。通過對許多這樣的任務進行訓練(涵蓋旅行規劃、日程安排、邏輯謎題等領域),V3.2學會了更好地處理需要搜尋、優化或多步推理的問題。這種訓練方式大大提高了模型對新的、未見過的代理任務的泛化能力。
在程式代理的領域中,DeepSeek 探索了 GitHub,挖掘了數百萬個實際問題討論串和拉取請求。他們從這些資料自動構建了數萬個可執行的程式挑戰環境。模型可以練習閱讀錯誤報告或功能請求,然後在工具的幫助下導航程式碼庫以實現修正或功能。這些環境涵蓋多種程式語言(Python、Java、JavaScript 等),讓模型接觸到各種軟體問題。一個獨立的管道處理基於搜尋的 QA 代理:透過多代理模擬,DeepSeek 生成了資料集,其中一個代理提出關於長尾實體的棘手問題,另一個代理(具備搜尋工具)必須找到並驗證答案。這種多步驟的生成(問題構建 → 網路搜尋 → 答案驗證)為教學 V3.2 如何成為有效的“研究助理”提供了高品質的訓練範例。
由於這些努力,DeepSeek-V3.2 在工具使用代理任務上取得了突破。在內部評估中,V3.2 在一系列代理基準測試中取得了所有開放模型中的最高分,顯著縮小了與封閉模型的差距[17]。開發者強調,V3.2 並未針對這些測試中的特定工具進行調整,這意味著其代理技能可以轉移到現實世界場景中,而不僅僅是狹隘的基準測試[18]。換句話說,這個模型學會了如何推理和使用工具,而不是過度擬合特定任務。

DeepSeek 的新模型如何與市場上最優秀的 AI 系統比拼?技術報告和早期分析提供了一些答案。總的來說,DeepSeek-V3.2 在數學推理和編碼任務中表現出色,而 V3.2-Speciale 甚至在複雜推理上媲美最優秀的模型——但在某些領域(如開放式工具使用)上,封閉模型仍然佔有優勢。以下是一些選定基準結果的快照,展示了競爭格局:
表 1:樣本推理基準的表現(準確率%)
<small>來源: DeepSeek技術報告[4]. GPT-5.1和Gemini的結果是報告圖表中的近似值。Speciale在數學任務上通常與Gemini相當或超越,而標準版V3.2則在GPT-5水準,略低於Gemini。</small>
正如我們所見,DeepSeek-V3.2 在學術推理挑戰中兌現了其承諾。在像 AIME 和 HMMT 這樣的數學比賽中,V3.2 的準確度與先進的 GPT-5 模型相當,僅比 Gemini 的最先進分數低幾分。Speciale 模型甚至在這些數學基準上超越了 Gemini [4],展現出其增強「長期思考」方法的效果。這些結果令人矚目——數學和形式推理長期以來被認為是開放模型的弱項,但 V3.2 顯示出開源系統可以在這一領域達到前沿水平表現 [19]。
在編碼方面,DeepSeek-V3.2 也表現出色,儘管競爭激烈。在 SWE-Bench Verified 測試中(該測試檢查模型是否能產生通過單元測試的錯誤修正代碼差異),V3.2 的得分約為 73%,顯著超越其前身(V3.1 得分約為 66%[20]),並與其他頂級開源模型如 Moonshot 的 Kimi K2 和阿里巴巴的 Qwen-3 大致相當。事實上,所有這些開放模型在這個編碼基準測試中略微超越了 OpenAI 的舊的 120B 基線[21][22]。這凸顯了開放模型在實際編碼能力方面的進步。DeepSeek V3.2 能夠可靠地修復實際錯誤並生成可運行的代碼,使其對開發者協助極為有用。
然而,與絕對最佳的封閉模型相比,情況有些複雜。在某些編碼任務中,GPT-5.1 仍然具有優勢。例如,在較為複雜的 Terminal-Bench 2.0(評估多步驟 CLI 工具使用和代理循環中的編碼)中,早期報告顯示 GPT-5 甚至 Anthropic 的 Claude 在持續可靠性上超過 DeepSeek,特別是在長時間使用工具的情況下。[23]。DeepSeek-V3.2 在這些複雜的多步代理任務中的準確性下降,反映出儘管其能力很強,但在完全自主編碼代理或長期問題解決方面尚未成為頂尖表現者。同樣,在綜合 工具使用基準 如 MCP-Universe 和 Tool-Decathlon 中,V3.2 遠遠落後於 GPT-5 和 Gemini[24]。OpenAI 和 Google 的系統仍然更一致地執行複雜的多工具計劃。差距已縮小——V3.2 在這些測試中達到了開放模型的新高[17]——但在總體工具使用能力上,開放模型與封閉模型之間仍然存在不小的差距。
總結來說,DeepSeek-V3.2 在許多領域表現出近乎尖端的性能。在真實世界的編程任務中,它與 GPT-5 具有競爭力,甚至在高等數學推理方面媲美 Gemini[19]。但同時,它並不是在所有方面都能完全取代 GPT-5 或 Gemini——尤其是在涉及複雜工具編排的超複雜「代理」場景中,這些封閉模型仍然具有優勢[25][24]。這種平衡觀點對於設定期望非常重要:V3.2 在其優化的方面(推理和高效編程)表現優異,而 Speciale 變體則展示了在推理極限上可以達到的可能。
儘管取得了令人印象深刻的成就,DeepSeek 團隊對於 V3.2 系列的某些限制保持坦誠。首先,因為總訓練浮點運算(FLOPs)仍然少於一些超大型封閉模型,V3.2 的世界知識廣度和罕見事實的記憶可能落後於領導者,如 GPT-5。換句話說,它可能不知道一些晦澀的冷知識或領域特定的信息,這些是較大型專有模型已經吸收的。這是開放模型中常見的取捨,因為它們通常必須在稍小或多樣性較少的語料庫上訓練。
另一個挑戰是代幣效率。DeepSeek指出,V3.2和Speciale有時需要生成更長的推理鏈,才能達到像Gemini-3.0-Pro這樣的模型能夠用更簡潔的回答達到的相同答案質量[6]。實際上,這意味著在“思考模式”下使用V3.2可能會為了解決極其困難的問題而承擔更高的代幣成本(和延遲)——模型在解決步驟時會比較冗長。特別是Speciale,雖然功能強大,但卻是代幣饕餮:它可能會產生非常詳細的證明或解釋,而人類專家或精緻的閉合模型可能會提供更緊湊的答案。這並不總是缺點(詳盡的推理可能很有價值),但確實使某些使用情境更為昂貴。
DeepSeek-V3.2 目前也缺乏對於開放式對話技巧或創意寫作的微調。其訓練的重點顯然放在結構化問題解決和代理上。用戶觀察到它的風格邏輯且資訊豐富,但在隨意交談中可能不如 GPT-4 或 Claude 那樣自然或富有想像力。這是有意的選擇:DeepSeek 為這次發佈優先考慮了研究任務、編碼和數學能力,即使這意味著一般聊天能力可能有所下降。
展望未來,DeepSeek 團隊已暗示將持續進步。V3.2 技術報告公開討論了這些缺點作為未來改進的目標。社群已經對可能的 DeepSeek-R2 模型充滿期待——如果命名不變,這可能是下一個以推理為中心的模型,在 R1 和 V3.2 的基礎上進一步發展。(DeepSeek 的追隨者半開玩笑地在 V3.2 發佈時請求「R2 什麼時候來?!」)如果 R2 出現,預期它可能會進一步縮小差距,或許會透過更大規模的訓練、更多知識的灌輸和改進的代幣效率技術來實現。
目前,DeepSeek-V3.2 在開源 AI 世界中代表著一個里程碑。它展示了通過巧妙的工程技術——從稀疏注意力到大規模的強化學習微調和合成任務生成——開源模型可以在推理和編碼方面達到前沿的性能,這些領域曾被認為是數兆參數封閉模型的專屬領域。正如一位分析師所說,V3.2 是一個*「強大且低成本的思考和編碼模型,能夠在大多數開發者實際工作的領域——代碼和數學——提供前沿級別的結果」*[26]。它可能無法將 GPT-5 或 Gemini 從通用 AI 解決方案的寶座上拉下,但在其專業領域中,DeepSeek-V3.2 表現得非常出色[27]——而且,關鍵是它作為一個免費提供的模型。在更廣泛的 AI 生態系統中,這在 ChatGPT 的周年紀念日上確實是一份無價的禮物。
來源: 本文中的信息和引用來自DeepSeek的官方發布說明和技術報告[1][4][13][17],AI出版物中的新聞報導和分析[2],以及早期用戶對DeepSeek-V3.2的獨立評估[19][24]和社區專家的意見[7][8]。所有基準測試和比較均反映模型在各自任務上的現狀(2025年12月)。
[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 正式版:強化 Agent 能力,融入思考推理 | DeepSeek API Docs
https://api-docs.deepseek.com/zh-cn/news/news251201
[2] DeepSeek 發布新推理模型以匹敵 GPT-5,挑戰 Gemini 3 Pro
[7] [8] [9] [10] [11] [12] [21] [22] DeepSeek V3.2-Exp 評論。DeepSeek 的最新實驗模型… | 作者 Barnacle Goose | 2025 年 10 月 | Medium
https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c
[19] [23] [24] [25] [26] [27] DeepSeek V3.2 vs Gemini 3.0 vs Claude 4.5 vs GPT-5 | by Mehul Gupta | Data Science in Your Pocket | 2025年12月 | Medium
[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face