Mistral 的 Devstral 2：多極 AI 世界中的開源編碼 AI

作者： Boxu Li

歐洲 AI 初創公司 Mistral AI 推出了 Devstral 2，一款最先進的專注於編碼的語言模型。於 2025 年 12 月發布，Devstral 2 作為完全開放權重模型面世，這意味著其權重在寬鬆的許可下公開提供[1]。這一推出強調了 Mistral 在編碼任務上挑戰 AI 巨頭的決心，為開發者提供了開源替代方案，取代專有模型如 OpenAI 的 Codex 和 Anthropic 的 Claude。以下我們深入探討 Devstral 2 的架構、能力、實際應用及其在全球 AI 版圖變遷中的意義。

模型概述：架構、發布格式及開放狀態

Devstral 2 代表 Mistral 的下一代編碼模型家族，推出了兩個變體[1]：

· Devstral 2 (123B 參數) – 一個擁有 1,230 億 參數和龐大 256,000 字元上下文窗口的密集 Transformer 模型[2]。此大型模型專為高端部署和複雜任務設計，需要至少四個 H100 GPU（NVIDIA 的旗艦 AI 加速器）才能進行即時推理[3]。

· Devstral Small 2 (24B 參數) – 一個縮小版的 24B 模型，保留了 256K 的上下文長度，但輕巧到可以在消費者硬體或單一 GPU 上運行[4][5]。此「Small」版本使本地和邊緣部署成為可能，以部分性能換取實用性。

架構與功能： 與一些使用大型專家混合技術 (MoE) 的競爭對手模型不同，Devstral 2 是一個密集型 Transformer，意味著在每次推理中可以利用全部 123B 參數。儘管捨棄了 MoE 分片，它憑藉高效的訓練和上下文管理，性能可匹敵甚至超越更大規模的 MoE 模型[6]。Devstral 2 和它的小型版本都支持多模態輸入——特別是，它們可以接受圖像與代碼一起使用，使得可以在軟體任務中分析圖表或截圖等視覺與代碼使用場景[7]。它們還支持業界標準的功能，如聊天完成、函數調用和內嵌代碼編輯（如支持中間填充進行代碼插入），這些功能是 Mistral 的 API 的一部分[8][9]。

訓練數據： 雖然Mistral尚未公開完整的訓練配方，但Devstral 2顯然是針對代碼密集型任務進行了優化。它被描述為「一個企業級文本模型，擅長使用工具來探索代碼庫[和]編輯多個文件」，調整以支持自主軟體工程代理[10]。我們可以推測，訓練過程中使用了數兆個代碼、文檔和技術文本的標記，可能來自開源庫（類似於競爭模型訓練時使用了80-90%代碼和其他自然語言的混合[11]）。結果是一個精通數百種程式語言並且擅長理解大型代碼專案的模型。

發佈格式與開源授權： 重要的是，Mistral 繼續其「開放權重」的理念[12]。Devstral 2 的模型權重已公開釋出，任何人都可以下載並運行。主要的 123B 模型是根據修改過的 MIT 授權提供，而 24B Devstral Small 則使用 Apache 2.0 授權[13][1]。這兩種授權都非常寬鬆，允許商業使用和修改（修改過的 MIT 授權可能增加了一些使用說明）。通過開源這些模型，Mistral 旨在*「加速分布式智能」*並確保廣泛獲得尖端 AI 技術[1]。開發者可以自行託管這些模型或使用 Mistral 自家的 API。在初期階段，Devstral 2 的 API 是免費的，供測試使用，之後的定價為每百萬個輸入代幣 $0.40，每百萬個輸出代幣 $2.00（對於 Small 模型甚至更低）[14][15]。權重的開放可用性意味著社群也可以微調和整合模型，而不會被供應商鎖定。

編碼能力與效能基準測試

Devstral 2 是專為編碼和「agentic」開發工作流程而設計的。它不僅能生成代碼，還能透過工具使用自主導航、編輯和調試整個代碼庫。該模型專為多文件項目設計：它可以從多個源文件加載上下文，追蹤整個項目的依賴關係，甚至在重構時協調跨文件的變更[16]。例如，Devstral 可以定位函數定義的位置，將更新傳播到所有調用，並修復由此產生的錯誤——就像一個了解整個存儲庫的聰明初級開發人員。它能檢測執行中的錯誤，完善其輸出，並重複此過程直到測試通過[17]。這種上下文感知和迭代改進的能力是所謂「vibe coding」助手的核心，使 Devstral 2 與專業編碼 AI 如 OpenAI 的 Codex、Meta 的 Code Llama，以及更新的 agentic 編碼器如 DeepSeek-Coder 和 Kimi K2 競爭。

基準表現： 在編碼基準測試中，Devstral 2 是全球表現最出色的模型之一。Mistral 報告顯示，Devstral 2 在 SWE-Bench (Verified) 套件上得分 72.2%[2]。SWE-Bench 是一組嚴格的真實世界編程任務，解決方案需驗證正確性，類似於 OpenAI 的 HumanEval 測試的高級版本。作為背景，OpenAI 的原版 Codex (2021) 只解決了更簡單的 HumanEval 問題的 ~28.8% pass@1[18] ——這證明了編碼 AI 的進步。即便是 Meta 的 Code Llama 34B (2023)，當時最好的開放模型之一，也只在 HumanEval 上達到 ~53.7%[19]。Devstral 2 在更具挑戰性的 SWE-Bench 上的 72% 表現表明它大大超越了那些前身。事實上，Devstral 的準確性正在接近當今專有巨頭的水平；Anthropic 最新的 Claude Sonnet 4.5（一個專注於編碼的模型）和 Google 的 Gemini 在類似的編碼基準上達到中高 70%[20]。

開源與專有編碼模型性能比較： 在 SWE-Bench Verified 測試中，Devstral 2 (72.2%) 及其 24B 同系列 (68.0%) 名列頂尖開源模型之列。它們縮小了與專有領導者如 Claude Sonnet 4.5 和 GPT-5.1 Codex（Anthropic 和 OpenAI 的最新版本，約 77%）的差距。令人印象深刻的是，Devstral 2 僅用 一小部分的參數 就達到了這一成就。例如，中國的 DeepSeek V3.2（一種 MoE 模型，總參數約 236B）在準確性上稍微領先 Devstral（約 73.1%），但 Devstral 僅使用其 1/5 的總參數。同樣地，Moonshot 的 Kimi K2（來自中國的 1 兆參數 MoE）得分約 71-72%，激活了 32B 專家，而 Devstral 2 用密集的 123B 模型與其匹敵，規模大大縮小。這種效率在上圖中得以反映：Devstral 2（紅色條）在精確度上接近最先進水準，同時比 DeepSeek 小 5 倍，比 Kimi K2 小 8 倍。換言之，Mistral 證明了 緊湊的模型可以媲美更大的模型，這對於具成本效益的部署是個好兆頭。

在並排比較中，Devstral 2 已經在質量測試中勝過一些開源競爭者。在由獨立評估者主持的正面交鋒的編碼挑戰中，Devstral 2 的勝率為 42.8%，而僅有 28.6% 的敗率，相較於 DeepSeek V3.2[23] ——展現了在代碼生成質量上的明顯優勢。然而，對上 Anthropic 的 Claude Sonnet 4.5 時，Devstral 仍然輸多於贏[23]，顯示出開源模型與最佳封閉模型之間仍存在差距。Anthropic 甚至宣稱 Claude Sonnet 4.5 是「全球最佳編碼模型」，具備卓越的能力來構建複雜的軟體代理[24]。對於開源愛好者來說，好消息是 Devstral 2 大幅縮小了這個差距。Mistral 指出，Devstral 在工具使用成功率上與最佳封閉模型相當，這意味著它能夠像競爭對手一樣熟練地決定何時調用 API、運行命令或搜尋文件[25]。這種代理能力對於自動化超越靜態代碼完成的編碼任務至關重要。

值得注意的是 Devstral 2 的成本效益。由於其較小的尺寸和經過優化的設計，Mistral 聲稱 Devstral 在實際編碼任務中相較於 Anthropic 的 Claude Sonnet 成本效益高達 7 倍[26]。這裡的效益指的是每次成功結果所需的計算量——Devstral 能夠以更少的 FLOPs 或更低的雲端成本達到類似結果，這對於新創公司和精打細算的團隊來說是個吸引人的特點。

開發者、新創公司及企業應用

Devstral 2 不僅僅是一項研究成果；它被包裝成對各類軟體開發者立即有用的工具，從獨立程式員到大型企業團隊皆適用。Mistral 將這個模型與 Mistral Vibe CLI 配對，這是一個新的命令行助手，將 Devstral 變成實際的編碼夥伴[27]。此 CLI（可作為 IDE 擴展和開源工具使用）允許開發者與 AI 討論其代碼庫，請求更改，甚至執行命令，這一切都在他們的編程環境中完成[28][29]。在實踐中，Vibe CLI 可以閱讀您的專案文件，理解 git 狀態，並保持 持久記憶 以避免重複上下文[30]。例如，開發者可以輸入：「新增一個用戶認證模組」，而 Vibe 會生成所需的文件，修改配置，運行 npm install 以安裝依賴，甚至執行測試 —— 基本上透過自然語言指令自動化多步驟的編碼任務。這種整合的開發助手可以透過自主處理樣板和重構工作來 將 pull-request 週期時間減半[31]。

對於個人開發者和小型團隊來說，Devstral 2（透過 Vibe CLI 或編輯器如 VS Code）能顯著提升生產力。它提供即時的代碼自動完成和除錯建議，類似於 GitHub Copilot，但更能應對整個專案的變更。它還支持智能代碼搜索：使用嵌入模型和自然語言，可以找出函數的使用地點或建議相關代碼片段（Mistral 早前開發了一個名為「Codestral Embed」的代碼搜索模型用於此目的[32]）。模型的持久會話記憶意味著它可以在一個會話中回憶起早期關於錯誤或功能的討論[30]，讓體驗感覺像是與一位從頭到尾都在的專家進行配對編程。而且因為Devstral Small 2可以在本地運行（即使沒有 GPU 也可以運行）[5]，愛好者和獨立開發者可以在沒有雲端成本或網絡訪問的情況下進行實驗——例如，在黑客松期間用筆記本電腦進行離線開發，完全依賴於設備上的 AI 助手。

對於新創公司，採用 Devstral 2 提供了一種不依賴於大科技公司 API 的方式來構建先進的 AI 編碼功能。許多新創公司正急於將 AI 程式員或代碼自動化整合到他們的開發管道中。透過 Devstral 的開放模型，他們可以在自己的伺服器上託管，或使用社群運營的推理服務，避免高昂的 API 費用。寬鬆的授權意味著他們可以在自己的專有代碼庫上微調模型，並深度整合到產品中（這是因使用限制而無法在像 Codex 或 Claude 這樣的閉源模型中做到的事情）。該模型支援本地部署和自訂微調[33]。Mistral 編碼技術的早期採用者包括 Capgemini 和 SNCF（法國國鐵），他們已經使用 Mistral 的 AI 來協助軟體項目[34]。新創公司可以類似地使用 Devstral 來自動化代碼審查，生成新微服務的樣板代碼，甚至構建自然語言測試案例生成器，且所有這些都能在內部保留敏感代碼。

企業將因為Mistral專注於「生產級工作流程」而獲益匪淺。大型組織通常擁有遺留系統和龐大的代碼庫。Devstral 2的擴展上下文窗口（256K個標記）意味著它可以一次性讀取數百頁的代碼或文件，使其能夠一次理解企業的整個代碼庫結構或大型API規範。這對於像現代化遺留代碼這樣的任務至關重要——該模型可以建議將一個模組從過時的框架重構到現代框架，並一致地更改數十個文件[17]。企業可以在其防火牆後部署Devstral 2（Mistral甚至為NVIDIA的DGX和即將推出的NIM系統進行了優化，以便更輕鬆地在本地擴展[35]）。這減輕了對數據隱私和合規性的擔憂，因為不需要將代碼移出公司的基礎設施。

此外，可靠性和控制對企業 IT 部門來說至關重要。Mistral 的聯合創辦人 Guillaume Lample 強調，依賴外部 AI API（例如 OpenAI 的）可能存在風險：「如果你是一家大公司，無法承受每兩週就有半小時的 API 中斷」[36]。通過自有模型部署，企業可以獲得穩定的運行時間，並根據需求調整性能。Mistral 還為其編碼平台提供管理控制台，提供細緻的控制、使用分析和團隊管理功能[37] —— 對於大型組織來說，這些功能對監控和管理 AI 使用至關重要。簡而言之，Devstral 2 加強了企業工具組：從自動化代碼維護，到作為博學的編碼助手，透過回答關於公司代碼庫的問題來幫助新開發者上手。

戰略定位：Mistral 在全球 AI 版圖的崛起

Mistral AI，常被譽為「歐洲的冠軍 AI 實驗室」，已迅速成長為一個強大的玩家。該公司最近由半導體巨頭 ASML 領投的融資回合後，估值達到 117 億歐元（約 138 億美元），顯示出歐洲對擁有自己的 AI 領導地位的戰略重要性。與資金充裕的美國實驗室不同（據報 OpenAI 已經籌集了 570 億美元，估值高達 5000 億美元），Mistral 的運作資金相對來說是「微不足道」的。這種財務對比影響了 Mistral 的策略：開放權重模型與效率優於規模。Mistral 的理念是，與 GPT-4 或 GPT-5 的參數競賽相比，更大的不一定更好，尤其是對企業應用案例而言。正如 Lample 所解釋，許多企業任務可以由較小、精調的模型以更低的成本和更快速度處理。Devstral 2 正是這一策略的完美例證：它比封閉源代碼的前沿模型更小，但在企業關心的編碼任務上高度優化。

透過開源高效能模型，Mistral 將自己定位為由矽谷主導的封閉 AI 範式的「反命題」。OpenAI 和 Anthropic 的旗艦模型雖然功能強大，但都是專有的，只能通過 API 訪問。Mistral 明確拒絕這種封閉的方法：「我們不希望 AI 只被幾個大實驗室控制」，Lample 說。相反，Mistral 希望通過釋出權重來實現先進 AI 的民主化，讓任何人都能運行和修改這些模型。這一立場迅速使 Mistral 成為 AI 開源生態系統中的核心角色。他們早期的模型套件（Mistral 3 系列於 2025 年 12 月 2 日推出）包括一個 6750 億參數的多模 MoE「Large 3」和九個較小的模型，全部開放發布。Devstral 2 現在在此基礎上構建，針對重要的編碼領域。每次發布都鞏固了 Mistral 作為開放且高質量 AI 先驅的聲譽，以及提供與封閉模型在能力上相媲美的「前沿」模型。

從策略上來看，Devstral 2 也讓 Mistral 能夠建立產業夥伴關係和開發者生態系統。除了模型之外，Mistral 還宣佈與 像 Kilo Code 和 Cline 這樣的代理工具（自主編碼代理的熱門框架）進行整合，以確保 Devstral 能夠在這些系統中輕鬆使用[45]。他們還在 Zed IDE 中提供了 Vibe CLI 擴展[46]，表明了一種聰明的市場進入策略，讓開發者能夠在他們已經工作的地方使用這些工具。透過將技術嵌入工作流程並促進社區貢獻（CLI 是開源的 Apache 2.0[47]），Mistral 正在加強其在生態系統中的地位。這與美國大型實驗室的做法不同——強調社區採用和信任。這不僅將 Mistral 定位為 AI 模型供應商，更是一個 AI 輔助開發的平台建設者，隨著更多用戶和組織採用他們的工具，可能產生網路效應。

向 AI 多極化轉變：美國、中國和歐盟的旗艦模型

Devstral 2 的發佈強調了一個正在發生的向多極 AI 世界的轉變，領導權不再由單一地區主導，而是分散在美國、中國和歐洲。這些領域中的每一個都在迅速開發旗艦 AI 模型，通常具有不同的理念：

· 美國 – 封閉前沿模型： 美國仍然在最先進的模型能力方面領先，由 OpenAI 和 Anthropic 引領潮流。OpenAI 的 GPT-4（以及預期的 GPT-5 系列）為許多基準設定了標準，但仍然是完全專有的。Anthropic 的 Claude 4 和 Claude Sonnet 專注於更安全的、以推理為重點的 AI，同樣是閉源的，但越來越針對編碼工作流程（例如，Sonnet 4.5 具有 1M-token 的代碼上下文）[48]。這些公司偏好控制的 API 訪問，且擁有龐大的計算預算——這一趨勢在國外引起了對過度依賴美國 AI 的擔憂。有趣的是，即使在美國，像 Meta 這樣的公司也打破了趨勢，開源了 Llama 模型，但許多最先進的系統仍然是封閉的。

· 中國——開放創新浪潮： 在過去兩年中，中國的 AI 實驗室策略性地轉向開源發布，部分是為了獲得全球採用，部分是為了減少對西方技術的依賴。例如，百度最近在 Apache 2.0 下開源了一個多模態模型（ERNIE 4.5-VL），聲稱其在視覺語言任務上可與 Google 和 OpenAI 的最新模型匹敵[49][50]。百度的模型使用 MoE 架構來達到極高的效率——一次只激活其 280 億參數中的約 30 億，允許其在單一 80GB GPU 上運行[51][52]。這顯示了中國對實際可部署性和開放訪問的重視，與西方公司嚴密保護其最強模型的做法形成對比。智樸 AI（一家知名的中國 AI 初創公司）同樣採取開放的方式：其 DeepSeek-Coder 系列是開源的，並在大量雙語代碼數據集上訓練[53]。DeepSeek 的最新版本可以處理338 種編程語言和 128K 上下文[54]，並聲稱在代碼任務上的性能可媲美 GPT-4 Turbo——這一大膽的聲明得到了其基準結果的支持，在某些編碼和數學挑戰中超過了 GPT-4[55]。此外，Moonshot AI 的 Kimi K2，擁有 1 兆參數（MoE），是另一個中國開放模型，專為代碼生成和自主問題解決而設計[56]。這些努力表明，中國正在快速生產自身的 GPT-4 級別模型，通常是開放或半開放的，旨在促進本土生態系統並通過利用開放合作的力量在全球競爭。

· 歐盟——Mistral 的開放權重進攻： 歐洲通過 Mistral 和其他一些倡議，正在建立人工智能領導力的第三支柱。Mistral 的模型——從大型 3 MoE 到新的 Devstral 編碼系列——被明確定位為歐洲對海外封閉模型的回應。歐盟的方針非常依賴開放性和信任。歐洲決策者表示支持開放的人工智能研究，視其為確保技術主權的一種方式（使歐盟公司不完全依賴美國的 API 或中國的技術）。Mistral 在籌集資金（獲得來自 ASML 等歐洲行業領導者的支持）和提供高性能開放模型方面的成功證明了世界級的人工智能可以在矽谷之外建立。這也補充了強調透明度的歐盟法規：開放模型允許更容易的審核和適應當地規範。有了 Devstral 2，歐洲現在有了一個可以與美國（Claude、基於 GPT 的編碼器）和中國（DeepSeek、Kimi）的最佳模型抗衡的旗艦代碼模型。這體現了一種多邊的人工智能進步方法，在協作和開放創新與純粹的性能並重。

這種 AI 的多極趨勢可能會全球範圍內惠及開發者和企業。競爭推動每一位玩家創新——OpenAI 將努力使 GPT-5 更加強大，Anthropic 將專注於巨大的上下文和安全性，中國的實驗室將繼續通過新的技術開放模型（如百度的高效 MoE 視覺模型所見），而 Mistral 將在保持開放的最先進狀態的同時推動廣泛的使用。例如，在 Mistral 的開放發佈之後，我們看到「百度採用了寬鬆的 Apache 許可作為競爭性舉措」[50]，反過來，Mistral 現在正在整合中國開創的先進技術（例如長上下文窗口、其他模型中的 MoE 路由）。

在一個多極化的 AI 世界中，開發者有更多選擇。他們可以選擇歐洲的開源模型來保護隱私，選擇中國的模型來降低成本，或者選擇美國的 API 以追求強大功能——或是混合搭配使用。這減少了任何單一公司或國家對 AI 技術的支配。正如 Mistral 團隊所說，他們的使命就是確保 AI 不會只被少數大型實驗室控制[42]。隨著 Devstral 2 的發布，這一願景向前邁進了一大步。AI 創新正成為一種全球合作的努力，就像開源軟體一樣，氛圍明顯偏向開放和多元化。

結論

Mistral Devstral 2 在 AI 發展的關鍵時刻到來——這是一個開放性和協作性戰勝封閉型競爭者的時刻。對開發者來說，這意味著擁有一個他們可以真正掌控、調整和信任的強大新編碼助手。對於組織來說，這提供了一個利用頂級 AI 編碼能力的途徑，同時對成本和數據有更大的控制權。對整個行業而言，Devstral 2 是一個提醒，AI 的進步不再被矽谷壟斷所局限。歐洲的 Mistral，秉持開放權重的精神，正在乘著“氛圍編碼”的浪潮前進，推動開放模型在生產中的潛力[57][58]。隨著 AI 越來越多極化，真正的贏家將是那些使用這些模型進行創建的人。我們將擁有一套豐富的 AI 模型和代理工具——從 Devstral 及更廣泛的領域——以提升軟體開發及其他領域的創新能力。Devstral 2 的發布不僅鞏固了 Mistral 的地位，也賦予全球開發者社群能夠在自己的條件下使用最先進的編碼 AI 的能力。AI 的下一章似乎將由許多人共同撰寫，而 Mistral 剛剛為我們提供了一支非常強大的筆。

來源： Mistral AI 公告[1][2][23]；TechCrunch 報導[57][4][38]；基準數據和模型比較[20][6][18][19]；Anthropic 和 DeepSeek 參考[59][48]；VentureBeat 報導百度[50][51]；TechCrunch 對 Mistral 的訪談[40][42]。