
作者:Boxu Li
DeepSeek-V4 作為迄今為止最大的開源專家混合(MoE)語言模型,席捲了 AI 社群。這篇詳述 1 兆參數模型的 arXiv 預印本在網上引發熱議,突顯了我們在擴展 AI 規模方式上的範式轉變。與每個標記都激活所有權重的密集模型不同,像 DeepSeek 這樣的 MoE 模型每次只激活一小部分參數——通常每個標記少於 10%[1]。這種稀疏激活是使兆參數模型成為可能的關鍵特徵[1]。在 DeepSeek-V4 的情況下,大約 320 億個參數(約占總數的 3%)用於任何給定的輸入標記,憑藉巨大的容量,其計算成本遠低於同樣大的密集模型。
為什麼這麼熱門?首先,DeepSeek-V4 是目前最大的開放存取 MoE 模型,超越了之前的 DeepSeek-V3(671B 參數),甚至在許多任務中與封閉模型相媲美[2]。其在寬鬆的開源許可下發布,意味著任何人都可以實驗或部署與 GPT-5 規模相當的模型——這是在頂級模型通常是專有的時代中的一個重大變革。此外,早期基準測試顯示,DeepSeek-V4 在數學和編碼等專業領域提供了尖端性能(MoE 的專家專業化發揮了作用),成本僅為先前大型模型的一小部分[3][4]。所有這些因素的結合使得 DeepSeek-V4 成為研究人員和工程師間的熱門話題。
要欣賞 DeepSeek-V4,了解其關鍵技術細節以及與其他前沿模型的比較是有幫助的:
表格:DeepSeek-V4 的 1T 參數 MoE 在與類似次世代模型的上下文中。“Active” 指的是每個 token 使用的參數(MoE 模型將每個 token 通過部分專家路由)。上下文 = 模型能處理的最大序列長度。
如上所述,DeepSeek-V4 加入了兆參數模型的精英俱樂部,與其他最近宣布的中國模型如 Kimi K2 和 Qwen3-Max 並肩。這些模型都利用稀疏門控 MoE 架構,使得同時“active”的參數僅維持在數百億[5]。相比之下,一個密集模型(如 GPT-5)每次需要使用所有權重——這種方法在超過 500B–1T 規模時變得難以承受[10]。值得注意的是,據報導,DeepSeek-V4 的設計使用了16 專家路徑,意味著每個 token 在每個 MoE 層中由多達 16 個專家子網處理,這些專家是從數百個可用專家中選出的。這是對早期 MoE 模型(通常使用 Top-2 或 Top-4 專家)的重大提升,旨在通過更精細的專家路徑來最大化模型的表達能力。
Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.
DeepSeek-V4 建立在 DeepSeek 的 MoE 架構之上,該架構在 V2/V3 中首次引入[11],並通過 DeepSeekMoE 研究系列進行了改進。其核心是模型用一組並行的專家網絡取代了標準的 Transformer 前饋層。對於每個傳入的標記,門控路由器會動態選擇最適合處理該標記內容的專家(例如,有些專家可能專精於代碼,有些專精於數學,有些專精於常見語法)。只有那些被選中的專家網絡會執行該標記,從而使計算變得稀疏。
關鍵是,DeepSeek 在 MoE 路由上進行了創新,以改善專家專精化和利用率。DeepSeekMoE 架構引入了兩個關鍵策略[12]:
精細分割和共享專家的結合有助於避免專家重疊和崩潰,這是 MoEs 中一個臭名昭著的挑戰。在傳統的 MoEs 中,如果路由器沒有得到妥善管理,可能會過度使用少數專家而使其他專家訓練不足(“路由崩潰”)。DeepSeek-V3/V4 通過不需要輔助損失的負載平衡路由策略[15]解決了這個問題。與 Switch Transformer 使用額外的損失項來強制專家利用不同,DeepSeek 的路由器使用具有自適應容量限制的動態路由來自然平衡負載[16]。V3 的無輔助損失策略證明有效——訓練穩定且所有專家均得到了良好利用[17]。我們可以預期 V4 將延續這一方法,使數百名專家無崩潰地平穩訓練。
總結來說,DeepSeek-V4 的架構體現了最先進的 MoE 設計:稀疏專家路由大幅擴展了容量,16 個專家激活路徑為每個 token 提供更豐富的專業組合,以及專屬技術確保專家們專精(通過精細分割和共享通才)並穩定訓練。這是一個通過專家「橫向擴展」而不是通過層數「縱向擴展」的模型——這是與密集 GPT 系列截然不同的擴展策略。
DeepSeek-V4 最吸引人的方面之一是其在訓練和部署上的成本效益。擴展到 1 萬億參數可能聽起來極其昂貴,但 MoE 的稀疏計算將實際成本遠低於密集的萬億參數模型。
總結來說,DeepSeek-V4 透過巧妙地在充分利用與稀疏利用之間進行取捨,實現了接近最先進的性能但計算量大幅降低。這體現了 MoE 的承諾:「擴展模型,而非成本。」這種效率是許多專家認為 MoE 架構是大型 AI 模型未來的關鍵原因[21][10]。
撇開原始大小不談,DeepSeek-V4 實際上能做什麼?早期跡象表明,它在專家專精最有利的領域中表現出色——尤其是在複雜推理(數學、邏輯)和編碼方面——同時保持與最佳模型相當的強大一般能力。
總的來說,DeepSeek-V4 展現了其在 MoE 方面的優勢:它是一個數學天才、熟練的程式碼撰寫者,以及全面的對話式 AI。它可能不會在每個任務上都大幅超越像 GPT-5 這樣的模型(GPT-5 在某些「通用」領域或多模態理解方面可能仍有優勢),但 V4 可以在幾個關鍵領域中領先或位居第二,同時還更易於獲得。對於許多特定的使用案例——特別是那些需要大量背景或領域特定推理的情況——它提供了性能卓越且成本低廉的無敵組合。
DeepSeek-V4 的首次亮相不僅僅是一家公司的成就,還代表了 AI 未來向稀疏專家模型的更廣泛轉變。正如一位分析所說,要實現可訓練和可部署的萬億參數模型,透過 MoE 的稀疏性正在成為唯一可行的方法。DeepSeek 已經證明了這一點,提供了一個實際可用的萬億級模型。傳統的密集擴展(只是把模型做大並強行運算)正面臨嚴重的報酬遞減和成本障礙。像 DeepSeek-V4 這樣的稀疏模型指出了一條前進的道路,我們可以在不成比例增加計算需求的情況下繼續擴展 AI 的能力。
從市場角度來看,開放的中國模型如今已經能與西方實驗室的最佳模型媲美。DeepSeek-V4及其同伴(Qwen3,Kimi K2)已在媒體和基準測試中與GPT-5進行了直接比較[35][36]。它們在專業領域(編碼、推理)中經常超越GPT-4級別的模型,並以更低的成本實現[37][38]。這迫使競爭者重新思考:OpenAI等可能感到壓力,必須採用MoE技術或大幅降低成本。對終端用戶和開發者來說,這是一個巨大的勝利——我們在AI前沿有了更多選擇,其中許多選擇是開源且經濟實惠的。像DeepSeek這樣的模型促使中國AI生態系統的創新步伐驚人;它推動成本下降和性能提高,造福全球社群。
最後,值得注意的是,DeepSeek-V4的方法與另一種新興途徑——強化學習 + 記憶增強模型形成對比。 MoE策略通過擴展模型的容量(參數)並依賴路由來處理複雜性,而一些其他研究則專注於通過外部工具、長期記憶或類代理推理迴圈來提升模型的能力。例如,像Kimi K2「Thinking」這樣的模型結合了工具使用和具有256K上下文的代理性迴圈,以實現顯著的長期規劃[5][39]。同樣,新興系統正在探索顯式記憶模塊或神經檢索,讓較小的模型通過查詢信息來超越較大的模型。DeepSeek的理念至今一直是在模型參數中儲存盡可能多的知識(實際上,V4可能會在微調中加入多步思考)。這兩種方法——通過MoE擴展和通過記憶/強化學習增強——是互補的。我們可能很快會看到將大型MoE網絡與動態記憶或工具接口相結合的混合體。不管怎樣,V4的成功樹立了一個高標準:任何替代方法都必須在性能和效率上與之匹敵,才能被認真對待。
DeepSeek-V4 MoE 在 AI 發展中樹立了一個里程碑 —— 一個擁有一兆參數的開放模型,實現了 MoE "擴大規模且保持效率"的承諾。這表明稀疏專家模型能夠在具有挑戰性的任務中達到最先進的成果,經常超過訓練和運行成本更高的密集模型。通過在 MIT 許可下開源 V4,DeepSeek-AI 也確保了這一突破能夠廣泛被獲取,促進全球的研究和應用開發。該模型在網絡上的病毒式反響證明了社群的興奮:我們見證了開放模型和最佳封閉模型之間質量差距的縮小,而在某些領域,開放模型正處於領先地位[40][38]。
展望未來,DeepSeek-V4 的技術創新——從16專家路由到無輔助平衡——可能會影響許多未來的架構。作為AI研究人員,我們現在有證據顯示,擴展寬度(專家)可能與擴展深度或數據一樣強大,甚至在某些問題上更為有效。同時,下一個挑戰正逐漸明朗:如何在百萬字元上下文中保持一致性,如何整合即時學習或記憶,如何進一步改善MoE模型的「路由器」核心。DeepSeek-V4 在這個故事中開啟了新篇章,其影響將在AI系統工程和AI部署經濟(更便宜、更開放的模型)中感受到。
總而言之,DeepSeek-V4 是稀疏模型設計的勝利——通過專家軍團而非一個巨大獨石提供類似GPT-5的能力。這強調了AI的前沿不僅僅是誰擁有更多數據或TPU集群,還有巧妙的架構和開放性。當我們將這種MoE方法與其他路徑(如即將推出的強化學習+記憶策略)進行對比時,有一點是清楚的:通往AGI的競賽現在有多條可行的路徑。感謝如DeepSeek-V4這樣的創新,這場競賽正在以開放、成本意識和極其激動人心的方式加速進行。
來源:
· DeepSeek-AI,DeepSeek-V3 技術報告,arXiv(2025 年)——引入 671B 參數 MoE(37B 活動);在 14.8T 代幣上穩定訓練[18]。展示了開放模型性能與封閉 GPT-4 級模型相當[2],僅使用 2.788M H800 小時訓練[41]。
· DeepSeek-AI,DeepSeekMoE:終極專家專業化,arXiv(2024 年)——提出精細的專家分割和共享專家以解決 MoE 重疊[12],使 m·K 專家處於活動狀態(DeepSeekMoE 2B 匹配密集 2B 性能使用一半計算量)[42]。驗證擴展到 145B,顯著超過 GShard MoE。
· Joyce Birkins,《DeepSeek 官方文件概覽》,Medium(2025 年 2 月)—— 解釋了 DeepSeek V2/V3 架構。指出 V3 總計 671B 對比 37B 活躍(僅 ~5.5%)[11],使用無輔助損失的負載平衡[15],以及通過專家分割達到的每個 token 14 名專家[13]。強調了 V3 的穩定性和相對於 V2.5 巨大的代碼能力躍升(超過 30%)[22]。
· Cerebras 部落格,MoE 基礎:稀疏模型(2025 年 7 月)——討論為何 <10% 的激活(如在 DeepSeek 中)是萬億級模型的特徵[1]。顯示即使是 32 個專家也可以使訓練速度提高 3 倍或在相同計算下獲得 5% 更好的損失[43],而 DeepSeek 的 256 專家設計是此效率的典範[44]。說明 MoE 如何在固定計算下超越密集型(Chinchilla-optimal)[45]。
· Spectrum AI Labs (Paras), DeepSeek V4 vs Qwen3-Max vs GPT-5 (2025年11月) – 比較最新的中國模型。報告指出,DeepSeek V3 的 89.3% GSM8K 和 61.6% MATH,預期 V4 在數學推理上將「匹敵/超越 GPT-5」[3]。注意到,Qwen 2.5-Max 的 HumanEval 92.7% 在編碼基準中領先[25],而 DeepSeek V3 為 88.9%。強調 DeepSeek 的成本優勢(開源,比 OpenAI 便宜約 30 倍)[46][47]。
· Reddit DeepSeek 社群帖子 (2025) – 突出顯示 R1 的成本:「性能等同於 OpenAI-o1,價格僅為其 1/27」[48]. 也注意到 V4 擁有 1M token 上下文窗口的傳聞(未確認)[49],以及使用 「V3.2 稀疏注意力」 作為 V4 之前長上下文的測試平台。社群反饋顯示 API 使用成本極低(每百萬 token 僅幾分錢),支持豐富的長對話[50]。
· Moonshot AI,Kimi K2 思維——架構與性能(2025 年 11 月)——描述了一個當代的 1T 參數 MoE 模型。K2 使用 256K 上下文,總計 1T 並啟動 32B[5] 和 INT4 量化以提高效率[51]。展示了強大的長期工具使用能力(200+ 順序調用)和最先進的代理基準[52],展示了將 MoE 規模與 agentic 推理迴路結合的潛力。K2 的訓練成本約為 460 萬美元[20],展示了萬億參數訓練的新經濟性。
[1] [10] [21] [33] [34] [43] [44] [45] MoE 基礎知識:為什麼稀疏模型是 AI 的未來
https://www.cerebras.ai/blog/moe-guide-why-moe
[2] [17] [18] [41] [2412.19437] DeepSeek-V3 技術報告
https://arxiv.org/abs/2412.19437
[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 對比 Qwen3-Max-Thinking:擊敗 GPT-5 的中國 AI 模型 | Spectrum AI Labs
https://spectrumailab.com/blog/deepseek-v4-vs-qwen3-max-thinking-chinese-ai-models-beating-gpt5
[4] [7] [22] [30] [31] [48] 生成式AI大模型動態周報 | jax
[5] [6] [19] [23] [24] [39] [51] [52] Kimi K2 思維:256K 情境下的長期規劃 | 作者 My Social | . | 2025 年 11 月 | Medium
https://medium.com/aimonks/kimi-k2-thinking-long-horizon-planning-with-256k-context-67cd1277fb72
[9] 大型語言模型 DeepSeek 的基準評估在 ...
https://www.nature.com/articles/s41591-025-03727-2
[11] [13] [14] [15] [16] Deepseek 4 官方論文概述:Deepseek MoE、MLA、MTP、蒸餾 | 作者:Joyce Birkins | Medium
[12] [42] [2401.06066] DeepSeekMoE:邁向專家專精化的極致,在專家混合語言模型中的應用
https://arxiv.org/abs/2401.06066
[20] Kimi K2 思維:46萬美元模型改變 AI 敘事
https://recodechinaai.substack.com/p/kimi-k2-thinking-the-46m-model-shifting
[49] [50] Deepseek V4:r/DeepSeek
https://www.reddit.com/r/DeepSeek/comments/1nwvnmb/deepseek_v4/