DeepSeek-V4 MoE:內幕揭秘 1 兆參數的開源突破

作者:Boxu Li

引言:將稀疏模型推向兆級規模

DeepSeek-V4 作為迄今為止最大的開源專家混合(MoE)語言模型,席捲了 AI 社群。這篇詳述 1 兆參數模型的 arXiv 預印本在網上引發熱議,突顯了我們在擴展 AI 規模方式上的範式轉變。與每個標記都激活所有權重的密集模型不同,像 DeepSeek 這樣的 MoE 模型每次只激活一小部分參數——通常每個標記少於 10%[1]。這種稀疏激活是使兆參數模型成為可能的關鍵特徵[1]。在 DeepSeek-V4 的情況下,大約 320 億個參數(約占總數的 3%)用於任何給定的輸入標記,憑藉巨大的容量,其計算成本遠低於同樣大的密集模型。

為什麼這麼熱門?首先,DeepSeek-V4 是目前最大的開放存取 MoE 模型,超越了之前的 DeepSeek-V3(671B 參數),甚至在許多任務中與封閉模型相媲美[2]。其在寬鬆的開源許可下發布,意味著任何人都可以實驗或部署與 GPT-5 規模相當的模型——這是在頂級模型通常是專有的時代中的一個重大變革。此外,早期基準測試顯示,DeepSeek-V4 在數學和編碼等專業領域提供了尖端性能(MoE 的專家專業化發揮了作用),成本僅為先前大型模型的一小部分[3][4]。所有這些因素的結合使得 DeepSeek-V4 成為研究人員和工程師間的熱門話題。

最大開放 MoE 模型:關鍵規格與創新

要欣賞 DeepSeek-V4,了解其關鍵技術細節以及與其他前沿模型的比較是有幫助的:

型號 (2025)
架構
參數 (總數 / 活躍)
上下文窗口
可用性
DeepSeek-V4
MoE (稀疏, ~16 專家/代幣)
~1 兆 / ~320 億 (估計)[5]
128K (擴展,傳聞達到 1M)
開源 (MIT 授權)[4]
Moonshot Kimi K2
MoE (稀疏)
1 兆 / 320 億[5]
256K[6]
開源 (MIT 授權)
Alibaba Qwen3-Max
MoE (稀疏)
>1 兆 / ~220 億[7][8]
256K
開源 (Apache-2.0)
OpenAI GPT-5 (估計)
Dense (完全激活)
~1.8 兆 / ~1.8 兆 (100% 活躍)[9]
32K
閉源 (專有)

表格:DeepSeek-V4 的 1T 參數 MoE 在與類似次世代模型的上下文中。“Active” 指的是每個 token 使用的參數(MoE 模型將每個 token 通過部分專家路由)。上下文 = 模型能處理的最大序列長度。

如上所述,DeepSeek-V4 加入了兆參數模型的精英俱樂部,與其他最近宣布的中國模型如 Kimi K2 和 Qwen3-Max 並肩。這些模型都利用稀疏門控 MoE 架構,使得同時“active”的參數僅維持在數百億[5]。相比之下,一個密集模型(如 GPT-5)每次需要使用所有權重——這種方法在超過 500B–1T 規模時變得難以承受[10]。值得注意的是,據報導,DeepSeek-V4 的設計使用了16 專家路徑,意味著每個 token 在每個 MoE 層中由多達 16 個專家子網處理,這些專家是從數百個可用專家中選出的。這是對早期 MoE 模型(通常使用 Top-2 或 Top-4 專家)的重大提升,旨在通過更精細的專家路徑來最大化模型的表達能力。

具有 16 專家路徑架構的稀疏路由

Figure: Mixture-of-Experts architecture (conceptual). Instead of every input going through the same feed-forward network, MoE models have multiple expert FFN sublayers – here Expert1–4 – and a learned router activates only a subset (highlighted) relevant for each token. This “sparse” model greatly expands total capacity without proportional compute cost.

DeepSeek-V4 建立在 DeepSeek 的 MoE 架構之上,該架構在 V2/V3 中首次引入[11],並通過 DeepSeekMoE 研究系列進行了改進。其核心是模型用一組並行的專家網絡取代了標準的 Transformer 前饋層。對於每個傳入的標記,門控路由器會動態選擇最適合處理該標記內容的專家(例如,有些專家可能專精於代碼,有些專精於數學,有些專精於常見語法)。只有那些被選中的專家網絡會執行該標記,從而使計算變得稀疏。

關鍵是,DeepSeek 在 MoE 路由上進行了創新,以改善專家專精化和利用率。DeepSeekMoE 架構引入了兩個關鍵策略[12]

  • 細緻的專家分割: 與其使用少數大型專家,DeepSeek 將每個前饋網路拆分為多個較小的專家(在 V3 中,每個 MoE 層有 256 個專家)。這使得每個 token 可以啟用更多專家(m×K 而非 K),而不增加每個 token 的成本[12]。在早期的 MoE 如 GShard 中,一個 token 可能只會到達前兩名專家;DeepSeek V3 通過將專家細分成更小的部分,將其有效提升到前 14 名[13]DeepSeek-V4 更進一步推進——使用 16 專家路徑,每個 token 平行處理 16 個專家,提供豐富的專業計算組合。透過保持每個專家相對較小,即便總專家數量(及總參數)顯著增加,每個 token 的整體計算仍然可控[12]
  • 共享「通才」專家: DeepSeek 也將部分專家設為共享專家,每個 token 都會啟用這些專家[14]。這些專家作為一般知識池來處理普遍模式(如通用語言、一般推理),確保每個 token 都能進行一些通用處理。同時,其他專家可以專注於利基或複雜模式,無需重複學習基本知識[14]。這項創新緩解了「專家冗餘」問題,否則多個專家可能會趨同於相似技能。透過隔離 $K_s$ 共享專家來負責常識,DeepSeek-V4 可以將其餘專家完全專注於專業知識領域[12]

精細分割和共享專家的結合有助於避免專家重疊和崩潰,這是 MoEs 中一個臭名昭著的挑戰。在傳統的 MoEs 中,如果路由器沒有得到妥善管理,可能會過度使用少數專家而使其他專家訓練不足(“路由崩潰”)。DeepSeek-V3/V4 通過不需要輔助損失的負載平衡路由策略[15]解決了這個問題。與 Switch Transformer 使用額外的損失項來強制專家利用不同,DeepSeek 的路由器使用具有自適應容量限制的動態路由來自然平衡負載[16]。V3 的無輔助損失策略證明有效——訓練穩定且所有專家均得到了良好利用[17]。我們可以預期 V4 將延續這一方法,使數百名專家無崩潰地平穩訓練

總結來說,DeepSeek-V4 的架構體現了最先進的 MoE 設計:稀疏專家路由大幅擴展了容量,16 個專家激活路徑為每個 token 提供更豐富的專業組合,以及專屬技術確保專家們專精(通過精細分割和共享通才)並穩定訓練。這是一個通過專家「橫向擴展」而不是通過層數「縱向擴展」的模型——這是與密集 GPT 系列截然不同的擴展策略。

成本效益:大規模訓練與推理

DeepSeek-V4 最吸引人的方面之一是其在訓練和部署上的成本效益。擴展到 1 萬億參數可能聽起來極其昂貴,但 MoE 的稀疏計算將實際成本遠低於密集的萬億參數模型。

  • 訓練運算: DeepSeek 團隊在大規模訓練中反覆展現經濟效益。例如,DeepSeek-V3(671B 參數)在 14.8 兆個 token 上進行預訓練,並以監督學習和 RLHF 階段進行微調,總訓練成本僅為 2.788 百萬 H800 GPU 小時[18]。考慮到像 GPT-4 這樣的模型可能消耗數千萬 GPU 小時,這個成本顯著低廉。訓練 DeepSeek-V3 也非常穩定,無需重啟或發生損失峰值[17]——對於 MoE 來說,這是一項令人印象深刻的壯舉,歸功於其穩健的路由方法。雖然 V4 的具體訓練數據尚未公開,但可能繼續保持這種高效擴展的趨勢。MoE 的優勢顯而易見:參數數量可以增加 10 倍,但計算成本可能僅增加 2–3 倍,前提是保持相同的激活比例[10]。業界分析指出,MoE 可以在固定運算下實現 ~3 倍更快的訓練,相比於密集模型,因為其稀疏利用特性[10]
  • 推論與使用成本: DeepSeek 因以極低的使用成本提供 GPT 級別的性能而備受矚目。先前的模型 DeepSeek-R1(V3 的指令版本)在每個 token 的輸出成本上比 OpenAI 的 text-davinci(o1)便宜 30 倍[4]。這直接來自 MoE 的效率——在推論時,V4 每個 token 僅計算大約 30B 參數的前向傳遞,這比 1T 密集前向傳遞更容易運行。實際上,這意味著即使是兆參數的 MoE 也可用中等 GPU 集群甚至單一機器來提供服務,尤其是經過優化的部署後。(值得注意的是,Moonshot 的 1T Kimi K2 模型使用 4-bit 量化進一步減少了記憶體/運算需求[19]。)用戶已報告 DeepSeek 的 API 對於大上下文查詢來說非常經濟,能夠實現封閉 API 將無法承受的成本案例。開放發布也意味著組織可以自我託管 V4 完全避免 API 成本。基本上,DeepSeek-V4 提供了可能僅需幾分之一美元的“開放 GPT-5”,相較於 OpenAI 是一個巨大的勝利。
  • 訓練預算: 從絕對意義上說,訓練一個 1T 模型不再是科技巨頭的專利。MoE 的效率加上越來越強大的硬體大大降低了門檻。例如,Moonshot AI 據報僅用 $4.6 百萬 的雲端運算成本訓練了 Kimi K2(1T MoE)[20]。DeepSeek 的成本應在類似的範圍內。雖然不便宜,但與 2025 年可比較能力的密集模型訓練成本相比,這少了數個數量級。稀疏模型有效地實現了極端規模 AI 的民主化,允許初創公司和學術實驗室在兆參數規模上進行實驗。

總結來說,DeepSeek-V4 透過巧妙地在充分利用與稀疏利用之間進行取捨,實現了接近最先進的性能但計算量大幅降低。這體現了 MoE 的承諾:「擴展模型,而非成本。」這種效率是許多專家認為 MoE 架構是大型 AI 模型未來的關鍵原因[21][10]

性能亮點:專業化優勢

撇開原始大小不談,DeepSeek-V4 實際上能做什麼?早期跡象表明,它在專家專精最有利的領域中表現出色——尤其是在複雜推理(數學、邏輯)和編碼方面——同時保持與最佳模型相當的強大一般能力。

  • 數學和推理: DeepSeek 模型因其卓越的數學推理能力而聞名。DeepSeek-V3 在 GSM8K(小學數學)中達到 89.3%,在 MATH 基準(競賽級數學)中達到 61.6%[3]——這些結果與 GPT-4 和其他頂級模型相媲美。這歸功於一種特殊的「思考」訓練模式和專注於數學技能的 MoE 專家。預計 DeepSeek-V4 將在數學推理任務中媲美或超越 GPT-5 的水準[3],基本上縮小了與這一領域最新封閉模型的差距。這種在數學文字問題和逐步邏輯上的強大表現意義重大,因為這些任務從專家混合方法中受益(例如,一些專家可以內化代數,另一些則專注於幾何等,分割問題空間)。實際而言,對於任何需要複雜計算或符號推理的應用,V4 都是首選。
  • 編碼和除錯: MoE 同樣提升了編碼能力。在 DeepSeek V2.5 和 V3 之間,代碼生成性能從 17.8% 跳升至 48.4%[22]——絕對增益約為 30%,主要歸因於專家數量和訓練的擴展。雖然尚未發布 V4 的具體編碼指標,但它可能會繼續這一上升趨勢。競爭的 MoE 模型如 Kimi K2 報導的代碼推理分數達到領先水準(在具有挑戰性的多步代碼基準上約為 71%)[23][24],這表明稀疏模型在編碼相關智能方面已經領先。DeepSeek-V4 已被定位為“AI 編碼助手 2025”用例的首選模型[25][26]。其保持 256K 或更大的上下文的能力意味著它可以整合整個代碼庫或多個文件並全面推理——這是 GPT-4(32K 最大值)難以應對的。用戶可以期待比以前的開放模型更可靠的代碼生成、更好的除錯建議以及更出色的長期、複雜編碼任務處理能力[27][28]
  • 通用知識和基準: 在廣泛的 NLP 和知識基準中,預計 DeepSeek-V4 的表現將與其他尖端模型相當。DeepSeek-V3 已超過其他開源 LLM 並在許多評估中可媲美領先的封閉模型[2]。V4 的額外容量和微調應該只會進一步提高其性能。它可能會與同時代的Qwen-3(在中文和多語任務上領先)和Claude 3.5緊密競爭,同時在主流英語基準上接近 GPT-4/GPT-5。值得注意的優勢是 V4 的極大上下文窗口(據報導有 128K 以上的標記)。這使得可用於諸如吸收長篇研究論文、冗長合同或多輪代理計畫等案例。例如,Qwen-3 的 256K 上下文演示可以處理整個代碼庫和長對話[29];DeepSeek-V4 應提供類似或更大的上下文長度,對於涉及跨參考或推理長文檔的任務大有裨益。
  • 人類對齊和實用性: 據 R1,DeepSeek 顯示它可以微調模型以對一般用戶有幫助且無害,達到與 OpenAI 早期 GPT-4o 模型對齊的同等水準,且成本更低[4]。我們可以預期 DeepSeek-R2(V4 的指導調整版本)將被發布或正在開發中,可能會經歷人類反饋增強學習(RLHF)以優化其輸出。開放的 MIT 許可和強大的性能已經導致 DeepSeek-R1 被集成到許多平台(從 Microsoft Azure 到 Hugging Face 到本地助手)[30][31]。如果 V4 保持這種開放和可適應的精神,它將迅速在生態系統中傳播——從聊天機器人到生產力工具——為廣泛的應用提供一個可行的免費替代方案。

總的來說,DeepSeek-V4 展現了其在 MoE 方面的優勢:它是一個數學天才、熟練的程式碼撰寫者,以及全面的對話式 AI。它可能不會在每個任務上都大幅超越像 GPT-5 這樣的模型(GPT-5 在某些「通用」領域或多模態理解方面可能仍有優勢),但 V4 可以在幾個關鍵領域中領先或位居第二,同時還更易於獲得。對於許多特定的使用案例——特別是那些需要大量背景或領域特定推理的情況——它提供了性能卓越且成本低廉的無敵組合。

影響和展望

DeepSeek-V4 的首次亮相不僅僅是一家公司的成就,還代表了 AI 未來向稀疏專家模型的更廣泛轉變。正如一位分析所說,要實現可訓練和可部署的萬億參數模型,透過 MoE 的稀疏性正在成為唯一可行的方法。DeepSeek 已經證明了這一點,提供了一個實際可用的萬億級模型。傳統的密集擴展(只是把模型做大並強行運算)正面臨嚴重的報酬遞減和成本障礙。像 DeepSeek-V4 這樣的稀疏模型指出了一條前進的道路,我們可以在不成比例增加計算需求的情況下繼續擴展 AI 的能力。

從市場角度來看,開放的中國模型如今已經能與西方實驗室的最佳模型媲美。DeepSeek-V4及其同伴(Qwen3,Kimi K2)已在媒體和基準測試中與GPT-5進行了直接比較[35][36]。它們在專業領域(編碼、推理)中經常超越GPT-4級別的模型,並以更低的成本實現[37][38]。這迫使競爭者重新思考:OpenAI等可能感到壓力,必須採用MoE技術或大幅降低成本。對終端用戶和開發者來說,這是一個巨大的勝利——我們在AI前沿有了更多選擇,其中許多選擇是開源且經濟實惠的。像DeepSeek這樣的模型促使中國AI生態系統的創新步伐驚人;它推動成本下降和性能提高,造福全球社群。

最後,值得注意的是,DeepSeek-V4的方法與另一種新興途徑——強化學習 + 記憶增強模型形成對比。 MoE策略通過擴展模型的容量(參數)並依賴路由來處理複雜性,而一些其他研究則專注於通過外部工具、長期記憶或類代理推理迴圈來提升模型的能力。例如,像Kimi K2「Thinking」這樣的模型結合了工具使用和具有256K上下文的代理性迴圈,以實現顯著的長期規劃[5][39]。同樣,新興系統正在探索顯式記憶模塊或神經檢索,讓較小的模型通過查詢信息來超越較大的模型。DeepSeek的理念至今一直是在模型參數中儲存盡可能多的知識(實際上,V4可能會在微調中加入多步思考)。這兩種方法——通過MoE擴展和通過記憶/強化學習增強——是互補的。我們可能很快會看到將大型MoE網絡與動態記憶或工具接口相結合的混合體。不管怎樣,V4的成功樹立了一個高標準:任何替代方法都必須在性能和效率上與之匹敵,才能被認真對待。

結論

DeepSeek-V4 MoE 在 AI 發展中樹立了一個里程碑 —— 一個擁有一兆參數的開放模型,實現了 MoE "擴大規模保持效率"的承諾。這表明稀疏專家模型能夠在具有挑戰性的任務中達到最先進的成果,經常超過訓練和運行成本更高的密集模型。通過在 MIT 許可下開源 V4,DeepSeek-AI 也確保了這一突破能夠廣泛被獲取,促進全球的研究和應用開發。該模型在網絡上的病毒式反響證明了社群的興奮:我們見證了開放模型和最佳封閉模型之間質量差距的縮小,而在某些領域,開放模型正處於領先地位[40][38]

展望未來,DeepSeek-V4 的技術創新——從16專家路由到無輔助平衡——可能會影響許多未來的架構。作為AI研究人員,我們現在有證據顯示,擴展寬度(專家)可能與擴展深度或數據一樣強大,甚至在某些問題上更為有效。同時,下一個挑戰正逐漸明朗:如何在百萬字元上下文中保持一致性,如何整合即時學習或記憶,如何進一步改善MoE模型的「路由器」核心。DeepSeek-V4 在這個故事中開啟了新篇章,其影響將在AI系統工程和AI部署經濟(更便宜、更開放的模型)中感受到。

總而言之,DeepSeek-V4 是稀疏模型設計的勝利——通過專家軍團而非一個巨大獨石提供類似GPT-5的能力。這強調了AI的前沿不僅僅是誰擁有更多數據或TPU集群,還有巧妙的架構和開放性。當我們將這種MoE方法與其他路徑(如即將推出的強化學習+記憶策略)進行對比時,有一點是清楚的:通往AGI的競賽現在有多條可行的路徑。感謝如DeepSeek-V4這樣的創新,這場競賽正在以開放、成本意識和極其激動人心的方式加速進行。

來源:

·      DeepSeek-AI,DeepSeek-V3 技術報告,arXiv(2025 年)——引入 671B 參數 MoE(37B 活動);在 14.8T 代幣上穩定訓練[18]。展示了開放模型性能與封閉 GPT-4 級模型相當[2],僅使用 2.788M H800 小時訓練[41]

·      DeepSeek-AI,DeepSeekMoE:終極專家專業化,arXiv(2024 年)——提出精細的專家分割和共享專家以解決 MoE 重疊[12],使 m·K 專家處於活動狀態(DeepSeekMoE 2B 匹配密集 2B 性能使用一半計算量)[42]。驗證擴展到 145B,顯著超過 GShard MoE。

· Joyce Birkins,《DeepSeek 官方文件概覽》,Medium(2025 年 2 月)—— 解釋了 DeepSeek V2/V3 架構。指出 V3 總計 671B 對比 37B 活躍(僅 ~5.5%)[11],使用無輔助損失的負載平衡[15],以及通過專家分割達到的每個 token 14 名專家[13]。強調了 V3 的穩定性和相對於 V2.5 巨大的代碼能力躍升(超過 30%)[22]

·      Cerebras 部落格,MoE 基礎:稀疏模型(2025 年 7 月)——討論為何 <10% 的激活(如在 DeepSeek 中)是萬億級模型的特徵[1]。顯示即使是 32 個專家也可以使訓練速度提高 3 倍或在相同計算下獲得 5% 更好的損失[43],而 DeepSeek 的 256 專家設計是此效率的典範[44]。說明 MoE 如何在固定計算下超越密集型(Chinchilla-optimal)[45]

· Spectrum AI Labs (Paras), DeepSeek V4 vs Qwen3-Max vs GPT-5 (2025年11月) – 比較最新的中國模型。報告指出,DeepSeek V3 的 89.3% GSM8K 和 61.6% MATH,預期 V4 在數學推理上將「匹敵/超越 GPT-5」[3]。注意到,Qwen 2.5-Max 的 HumanEval 92.7% 在編碼基準中領先[25],而 DeepSeek V3 為 88.9%。強調 DeepSeek 的成本優勢(開源,比 OpenAI 便宜約 30 倍)[46][47]

· Reddit DeepSeek 社群帖子 (2025) – 突出顯示 R1 的成本:「性能等同於 OpenAI-o1,價格僅為其 1/27」[48]. 也注意到 V4 擁有 1M token 上下文窗口的傳聞(未確認)[49],以及使用 「V3.2 稀疏注意力」 作為 V4 之前長上下文的測試平台。社群反饋顯示 API 使用成本極低(每百萬 token 僅幾分錢),支持豐富的長對話[50]

· Moonshot AI,Kimi K2 思維——架構與性能(2025 年 11 月)——描述了一個當代的 1T 參數 MoE 模型。K2 使用 256K 上下文,總計 1T 並啟動 32B[5] 和 INT4 量化以提高效率[51]。展示了強大的長期工具使用能力(200+ 順序調用)和最先進的代理基準[52],展示了將 MoE 規模與 agentic 推理迴路結合的潛力。K2 的訓練成本約為 460 萬美元[20],展示了萬億參數訓練的新經濟性。


[1] [10] [21] [33] [34] [43] [44] [45] MoE 基礎知識:為什麼稀疏模型是 AI 的未來

https://www.cerebras.ai/blog/moe-guide-why-moe

[2] [17] [18] [41] [2412.19437] DeepSeek-V3 技術報告

https://arxiv.org/abs/2412.19437

[3] [8] [25] [26] [27] [28] [29] [32] [35] [36] [37] [38] [40] [46] [47] DeepSeek V4 對比 Qwen3-Max-Thinking:擊敗 GPT-5 的中國 AI 模型 | Spectrum AI Labs

https://spectrumailab.com/blog/deepseek-v4-vs-qwen3-max-thinking-chinese-ai-models-beating-gpt5

[4] [7] [22] [30] [31] [48] 生成式AI大模型動態周報 | jax

https://cdjax.com/?p=680

[5] [6] [19] [23] [24] [39] [51] [52] Kimi K2 思維:256K 情境下的長期規劃 | 作者 My Social | . | 2025 年 11 月 | Medium

https://medium.com/aimonks/kimi-k2-thinking-long-horizon-planning-with-256k-context-67cd1277fb72

[9] 大型語言模型 DeepSeek 的基準評估在 ...

https://www.nature.com/articles/s41591-025-03727-2

[11] [13] [14] [15] [16] Deepseek 4 官方論文概述:Deepseek MoE、MLA、MTP、蒸餾 | 作者:Joyce Birkins | Medium

https://medium.com/@joycebirkins/deepseek-4-official-papers-overview-deepseek-moe-mla-mtp-distillation-49a97b3b90a8

[12] [42] [2401.06066] DeepSeekMoE:邁向專家專精化的極致,在專家混合語言模型中的應用

https://arxiv.org/abs/2401.06066

[20] Kimi K2 思維:46萬美元模型改變 AI 敘事

https://recodechinaai.substack.com/p/kimi-k2-thinking-the-46m-model-shifting

[49] [50] Deepseek V4:r/DeepSeek

https://www.reddit.com/r/DeepSeek/comments/1nwvnmb/deepseek_v4/

Boxu 在埃默里大學獲得了定量經濟學專業的學士學位。在加入 Macaron 之前,Boxu 的職業生涯大部分時間都在美國的私募股權和風險投資領域度過。他現在是 Macaron AI 的首席參謀和市場營銷副總裁,負責管理財務、物流和運營,並監督市場營銷。

申請成為 Macaron 的第一批朋友