
作者: Boxu Li
欧洲 AI 初创公司 Mistral AI 推出了 Devstral 2,这是一款前沿的专注于编码的语言模型。于 2025 年 12 月发布的 Devstral 2 是一个完全开源权重的模型,这意味着其权重在宽松许可下公开可用[1]。这一发布强调了 Mistral 在编码任务上挑战 AI 巨头的决心,为开发者提供了一个开源替代方案,相比于 OpenAI 的 Codex 和 Anthropic 的 Claude 等专有模型。以下,我们深入探讨 Devstral 2 的架构、能力、实际应用及其在全球 AI 格局转变中的重要性。
Devstral 2 代表了Mistral 的下一代编码模型家族,以两种版本推出[1]:
· Devstral 2(123B 参数)——这是一个密集的 Transformer 模型,具有1230 亿参数和巨大的 256,000 令牌上下文窗口[2]。这个大型模型专为高端部署和复杂任务而设计,实时推断至少需要四个 H100 GPU(NVIDIA 的旗舰 AI 加速器)[3]。
· Devstral Small 2(24B 参数)——这是一个缩小版的 24B 模型,保留了 256K 的上下文长度,但足够轻量级,可以在消费级硬件或单个 GPU 上运行[4][5]。这个“Small”版本使本地和边缘部署成为可能,在一定程度上牺牲了一些峰值性能以换取实用性。
架构与功能: 与一些使用大规模专家混合(MoE)技术的竞争对手模型不同,Devstral 2 是一个密集型 Transformer,这意味着每次推理都可以利用所有 1230 亿参数。尽管没有使用 MoE 分片技术,它通过专注于高效的训练和上下文管理,性能可以媲美甚至超越更大规模的 MoE 模型[6]。无论是 Devstral 2 还是其小型版本都支持多模态输入——尤其是,它们可以接受图像和代码,从而实现视觉与代码结合的应用场景,如在软件任务中分析图表或截图[7]。它们还支持行业标准功能,如对话补全、函数调用和内联代码编辑(例如支持中间插入代码的填充功能),作为 Mistral API 的一部分[8][9]。
训练数据: 虽然 Mistral 尚未公开详述其整个训练配方,但 Devstral 2 显然是为代码密集型任务优化的。据描述,它是“一个企业级文本模型,擅长使用工具探索代码库和编辑多个文件”,旨在为自主软件工程代理提供动力[10]。我们可以推测,训练中使用了数万亿个标记的源代码、文档和技术文本,可能来自开源代码库(类似于竞争对手模型在 80–90% 的代码和其余自然语言的混合上进行训练[11])。结果是一个在数百种编程语言中流利并擅长理解大型代码项目的模型。
发布格式和开源许可: 重要的是,Mistral 继续其“开放权重”理念[12]。Devstral 2 的模型权重已公开发布,任何人都可以下载和运行。主要的 123B 模型在修改后的 MIT 许可下提供,而 24B Devstral Small 使用Apache 2.0 许可[13][1]。两种许可都非常宽松,允许商业使用和修改(修改后的 MIT 可能增加了一些使用说明)。通过开源这些模型,Mistral 旨在*“加速分布式智能”*并确保广泛获取前沿 AI[1]。开发者可以自托管这些模型或使用 Mistral 自有的 API。在初期阶段,Devstral 2 的 API 免费供测试使用,之后的定价为每百万输入令牌 $0.40 和每百万输出令牌 $2.00(Small model 的价格更低)[14][15]。权重的开放可用性意味着社区也可以微调和集成模型,而不受厂商锁定。

Devstral 2 专为编码和「代理式」开发工作流程而设计。它不仅能生成代码,还能通过工具自主导航、编辑和调试整个代码库。该模型旨在处理多文件项目:它可以从许多源文件加载上下文,跟踪项目范围的依赖关系,甚至在重构中协调跨文件的更改[16]。例如,Devstral 可以定位函数定义的位置,将更新传播到所有调用,并修复由此产生的错误——表现得像一个了解整个代码库的聪明初级开发者。它能够检测执行中的错误,优化输出,并重复此过程直到测试通过[17]。这种上下文感知和迭代优化的水平是所谓「vibe coding」助手的核心,使得 Devstral 2 可以与专门的编码 AI 如OpenAI 的 Codex、Meta 的 Code Llama以及更新的代理式编码工具如DeepSeek-Coder和Kimi K2竞争。
基准性能: 在编码基准测试中,Devstral 2 是全球表现最好的模型之一。Mistral 报告称,Devstral 2 在 SWE-Bench(已验证)套件 上得分 72.2%[2]。SWE-Bench 是一组严格的真实世界编程任务,解决方案经过正确性验证,类似于 OpenAI 的 HumanEval 测试的高级版本。作为对比,OpenAI 最初的 Codex(2021) 仅解决了更简单的 HumanEval 问题的 ~28.8% pass@1[18] —— 证明了编码 AI 的进步程度。即使是 Meta 的 Code Llama 34B(2023),当时最佳的开源模型之一,在 HumanEval 上也只达到了 ~53.7%[19]。Devstral 2 在更难的 SWE-Bench 上的 72% 表明其大幅度超越了这些前辈。事实上,Devstral 的准确性正在接近当今的专有巨头;Anthropic 最新的 Claude Sonnet 4.5(专为编码设计的模型)和 Google 的 Gemini 在类似编码基准测试上得分在 70% 中至高位[20]。
开放与专有编码模型性能比较:在SWE-Bench Verified测试中,**Devstral 2(72.2%)**及其24B版本(68.0%)位列顶级开源模型之中。他们缩小了与专有领导者如Claude Sonnet 4.5和GPT-5.1 Codex(Anthropic和OpenAI的最新产品,约77%)的差距。令人印象深刻的是,Devstral 2仅用一部分参数就达到了这些成绩。例如,中国的DeepSeek V3.2(一个MoE模型,总参数约236B)在准确度上略胜Devstral(约73.1%),但Devstral仅使用了其1/5的总参数。同样,中国的Moonshot的Kimi K2(一个1万亿参数的MoE模型)在激活32B专家时得分约为71-72%——而Devstral 2通过一个密集的123B模型达到了相同的水平,规模小得多。这种效率在上图中得到了体现:Devstral 2(红色条)在体积比DeepSeek小5倍,比Kimi K2小8倍的情况下,提供了接近最先进的准确度。换句话说,Mistral已经证明紧凑模型可以媲美远大于它们的模型,这对成本效益的部署是个好兆头。
在并排比较中,Devstral 2 在定性测试中已经优于一些开源对手。在一个由独立评估机构主持的正面对决编程挑战中,Devstral 2 的胜率为 42.8%,而输率仅为 28.6%,与 DeepSeek V3.2 相比,显示出其在代码生成质量上的明显优势。然而,在与 Anthropic 的 Claude Sonnet 4.5 的对抗中,Devstral 仍然输多赢少,表明开源模型与顶级封闭模型之间仍存在差距。Anthropic 甚至宣称 Claude Sonnet 4.5 是“世界上最好的编程模型”,具备构建复杂软件代理的卓越能力。对于开源爱好者来说,值得庆幸的是,Devstral 2 显著缩小了这一差距。Mistral 指出,Devstral 在工具使用成功率上与最好的封闭模型相当——这意味着它可以同样熟练地决定何时调用 API、运行命令或搜索文档。这种自主能力对于超越静态代码完成的自动化编程任务至关重要。
值得注意的是 Devstral 2 的成本效益。由于其更小的尺寸和优化的设计,Mistral 声称 Devstral 在实际编码任务中比 Anthropic 的 Claude Sonnet 成本效益高达 7 倍。这里的效率指的是每个成功结果所需的计算量——Devstral 可以用更少的 FLOPs 或更低的云成本实现类似结果,这对初创公司和预算有限的团队来说是一个吸引人的特性。
Devstral 2 不仅是一个研究成果;它被包装成对各种软件开发者立即有用的工具——从独立编码员到大型企业团队。Mistral 将该模型与 Mistral Vibe CLI 配对,这是一个新的命令行助手,将 Devstral 转变为实用的编码伙伴[27]。此 CLI(作为 IDE 扩展和开源工具提供)允许开发者与 AI 对其代码库进行对话,询问更改,甚至直接在他们的编程环境中执行命令[28][29]。在实践中,Vibe CLI 可以读取项目文件,理解 git 状态,并保持会话的持久记忆以避免重复上下文[30]。例如,开发者可以输入:“添加用户认证模块”,而 Vibe 将生成必要的文件,修改配置,运行 npm install 以获取依赖项,甚至执行测试——基本上通过自然语言指令自动化多步骤编码任务。这种集成开发助手可以通过自动处理样板代码和重构任务,将拉取请求周期时间减半[31]。
对于个人开发者和小型团队,Devstral 2(通过 Vibe CLI 或 VS Code 等编辑器)可以显著提升生产力。它提供即时代码补全和调试建议,类似于 GitHub Copilot,但更能处理整个项目的变更。它还支持智能代码搜索:使用嵌入模型和自然语言,可以找到函数的使用位置或建议相关片段(Mistral 早期开发了一个代码搜索模型「Codestral Embed」用于此目的[32])。模型的持久对话记忆意味着在会话中可以回忆起关于 bug 或功能的早期讨论[30],让体验如同与一直在场的专家进行结对编程。而且由于Devstral Small 2可以在本地运行(即使在没有 GPU 的情况下也可[5]),爱好者和独立开发者可以在不承担云成本或无需互联网接入的情况下进行实验——例如,在黑客马拉松期间在笔记本电脑上与完全在设备上的 AI 助手一起编码。
对于初创公司,采用 Devstral 2 提供了一种无需依赖大科技公司的 API 来构建先进 AI 编码功能的方法。许多初创公司正在竞相将 AI 配对程序员或代码自动化融入他们的开发运维管道。通过 Devstral 的开放模型,他们可以在自己的服务器上托管,或使用社区运行的推理服务,从而避免高额的 API 费用。宽松的许可证意味着他们可以在专有代码库上微调模型,并将其深度集成到他们的产品中(而这在 Codex 或 Claude 等封闭模型中由于使用限制是无法做到的)。该模型支持本地部署和定制微调[33]。Mistral 编码技术的早期采用者包括像 Capgemini 和 SNCF(法国国家铁路)这样的公司,他们已经使用 Mistral 的 AI 来协助软件项目[34]。初创公司也可以类似地使用 Devstral 来自动化代码审查,为新微服务生成样板代码,甚至构建自然语言测试用例生成器,同时将敏感代码保留在内部。
企业 将从 Mistral 对“生产级工作流程”的关注中获益匪浅。大型组织通常拥有 遗留系统和庞大的代码库。Devstral 2 的扩展上下文窗口(256K 令牌)意味着它可以一次性摄取 数百页的代码或文档,因此能够理解企业的整个代码库结构或大型 API 规范。这对于 现代化遗留代码 的任务至关重要——该模型可以建议将模块从过时的框架重构到现代框架,持续更改数十个文件[17]。企业可以在其防火墙后部署 Devstral 2(Mistral 甚至为 NVIDIA 的 DGX 和即将推出的 NIM 系统进行了优化,以便更轻松地在本地扩展[35])。这减轻了对数据隐私和合规性的担忧,因为不需要将代码离开公司的基础设施。
此外,可靠性和控制对企业 IT 部门至关重要。Mistral 的联合创始人 Guillaume Lample 强调,依赖外部 AI API(如 OpenAI 的)可能存在风险:「如果你是一家大公司,你无法承受每两周宕机半小时的 [API]」[36]。通过拥有模型部署,企业可以获得持续的正常运行时间,并根据需要调整性能。Mistral 还为其编码平台提供了一个管理控制台,提供细粒度控制、使用分析和团队管理功能[37]——这对大型组织监控和管理 AI 使用至关重要。简而言之,Devstral 2 加强了企业工具箱:从自动化代码维护到作为知识渊博的编码助手,通过回答有关公司代码库的问题来帮助新开发人员入职。
Mistral AI,常被称为「欧洲的冠军AI实验室」,已迅速成长为一个强大的参与者。公司最近在半导体巨头ASML主导的一轮融资后,估值达到117亿欧元(约138亿美元),显示出欧洲对拥有自己AI领导地位的战略重要性。与资金充足的美国实验室(据报道OpenAI已筹集了570亿美元,估值高达5000亿美元)不同,Mistral以相对较少的资金运营。这种财务对比影响了Mistral的战略:开放权重模型和效率优先于规模。Mistral的理念是:更大不一定更好——尤其是在企业应用场景中,而不是与GPT-4或GPT-5等进行参数竞赛。正如Lample所解释的,许多企业任务可以通过更小的、精调的模型更便宜、更快速地处理。Devstral 2完美地体现了这一方法:它比闭源的前沿模型更小,但在企业关心的编码任务上高度优化。
通过开源高性能模型,Mistral 正在将自己定位为由硅谷主导的封闭 AI 范式的「对立面」。OpenAI 和 Anthropic 的旗舰模型虽然功能强大,但都是专有的,仅通过 API 访问。Mistral 明确拒绝这种封闭的方法:「我们不希望 AI 仅由少数几个大实验室控制」,Lample 说[42]。相反,Mistral 希望通过发布权重并让任何人都可以运行和修改模型来民主化先进 AI。这一立场迅速使 Mistral 成为 AI 开源生态系统中的核心角色。他们早期的模型套件(Mistral 3 系列 于 2025 年 12 月 2 日推出)包括一个 6750 亿参数的多模态 MoE “Large 3”和九个更小的模型,全部公开发布[43][44]。Devstral 2 现已在此基础上建立,目标是重要的编码领域。每一次发布都巩固了 Mistral 作为「开放、高质量 AI 先锋」的声誉,并提供与封闭模型在能力上相媲美的「前沿」模型[44]。
战略上,Devstral 2 还使 Mistral 能够建立行业合作伙伴关系和开发者生态系统。除了模型外,Mistral 还宣布与 Kilo Code 和 Cline 等代理工具(自主编码代理的流行框架)进行集成,以确保 Devstral 在这些系统中易于使用[45]。他们还在 Zed IDE 中提供了 Vibe CLI 扩展[46],表明了一种聪明的市场推广策略,即在开发者已经工作的地方与他们相遇。通过将技术嵌入工作流程并促进社区贡献(CLI 是开源的 Apache 2.0[47]),Mistral 正在加强其在生态系统中的地位。这与美国大型实验室的策略不同——强调社区接受和信任。这使得 Mistral 不仅仅是 AI 模型供应商,而是 AI 辅助开发的平台构建者,随着更多用户和组织采用他们的工具,这可能产生网络效应。
Devstral 2 的发布强调了向多极 AI 世界的持续转变,领导权分布在美国、中国和欧洲,而不再由某个地区主导。每个地区都在快速开发旗舰 AI 模型,通常具有不同的理念:
· 美国 – 封闭前沿模型: 美国在尖端模型能力方面仍然领先,OpenAI 和 Anthropic 处于前沿。OpenAI 的 GPT-4(以及预期的 GPT-5 系列)为许多基准设定了标准,但仍完全是专有的。Anthropic 的 Claude 4 和 Claude Sonnet 专注于更安全、以推理为中心的 AI,也属于闭源,但越来越多地针对编码工作流程(例如,Sonnet 4.5 提供 100 万 token 的代码上下文)[48]。这些公司倾向于控制 API 访问,并拥有巨大的计算预算——这引发了国外对过度依赖美国 AI 的担忧。有趣的是,即便在美国,也有像 Meta 这样的公司打破常规,开放了 Llama 模型,但许多最先进的系统仍然是封闭的。
· 中国——开放创新浪潮: 在过去两年中,中国的 AI 实验室已战略性地转向开源发布,部分是为了获得全球采纳,部分是为了减少对西方科技的依赖。例如,百度 最近在 Apache 2.0 许可下开源了一个多模态模型 (ERNIE 4.5-VL),声称在视觉-语言任务上可与谷歌和 OpenAI 的最新产品相媲美[49][50]。百度的模型采用 MoE 架构,极为高效——每次仅激活其 280 亿参数中的约 30 亿个,使其能够在单个 80GB GPU 上运行[51][52]。这显示了中国对实用性部署和开放访问的重视,与西方公司保护其最强模型的做法形成对比。智谱 AI(一家著名的中国 AI 初创公司)同样采取开放方法:其 DeepSeek-Coder 系列是开源的,并在海量双语代码数据集上进行了训练[53]。DeepSeek 的最新版本可以处理 338 种编程语言和 128K 上下文[54],并声称在代码任务上的性能可与 GPT-4 Turbo 相媲美[11]——这一大胆声明得到了其基准测试结果的支持,在某些编码和数学挑战中超过了 GPT-4[55]。此外,Moonshot AI 的 Kimi K2,拥有 1 万亿参数(MoE),是另一个中国开源模型,专为代码生成和智能问题解决而设计[56]。这些努力表明,中国正在迅速生产其自己的 GPT-4 级模型,通常是开放或半开放的,通过利用开放合作的力量来培育本土生态系统并在全球竞争。
· 欧盟 – Mistral 的开放权重进攻: 欧洲通过 Mistral 和其他几个项目,正在建立 AI 领导力的第三支柱。Mistral 的模型——从大型 3 MoE 到新的 Devstral 编码系列——明确定位为欧洲对海外封闭模型的回应。欧盟的方法高度依赖于开放性和信任。欧洲政策制定者对开放的 AI 研究表示支持,认为这是确保技术主权的一种方式(以便欧盟公司不完全依赖于美国的 API 或中国的技术)。Mistral 在筹集资金方面的成功(得到欧洲行业领导者如 ASML 的支持)以及交付高性能开放模型,证明了世界级的 AI 可以在硅谷之外构建。这也补充了强调透明度的欧盟法规:开放模型允许更容易的审计和适应本地规范。随着 Devstral 2 的推出,欧洲现在拥有一个旗舰代码模型,可以与美国(Claude、基于 GPT 的编码器)和中国(DeepSeek、Kimi)的最佳产品抗衡。它体现了一种多边的 AI 进步方法,在这种方法中,合作和开放创新与原始性能同等重要。
这种人工智能的多极化趋势可能会使全球的开发者和企业受益。竞争促使每个参与者进行创新——OpenAI 将加速使 GPT-5 更加强大,Anthropic 将专注于庞大的上下文和安全性,中国的实验室将继续通过新颖的技术开放模型(如百度的高效 MoE 视觉模型),而 Mistral 将不断推进开放的最新技术,同时实现广泛的访问。例如,在 Mistral 开放发布后,我们看到 百度采用宽松的 Apache 许可作为竞争策略[50],反过来,Mistral 现在正在整合中国开创的先进技术(例如长上下文窗口、其他模型中的 MoE 路由)。
在一个多极化的AI世界中,开发者有了更多选择。他们可以选择一个开源的欧洲模型以保护隐私,选择一个中国模型以节约成本,或者选择一个美国API以获得强大功能,或者混合使用。这减少了任何单一公司或国家对AI技术的主导地位。正如Mistral团队所说,他们的使命是确保AI不被少数大型实验室控制[42]。随着Devstral 2的发布,这一愿景向前迈出了重要一步。AI创新正成为全球性的合作努力,就像开源软件一样,“氛围”明显倾向于开放性和多样性。
Mistral Devstral 2 在 AI 发展的关键时刻到来——这是一个开放和合作正展示其相对于封闭竞争者的价值的时刻。对于开发者而言,这意味着他们可以真正拥有、调整和信任的强大新编码助手。对于组织来说,它提供了一条路径,可以在更好地控制成本和数据的情况下利用顶级 AI 编码能力。对整个行业而言,Devstral 2 是一个提醒,AI 的进步不再局限于硅谷的垄断。欧洲的 Mistral 以其开放权重的精神,正在乘着“氛围编码”的浪潮,推动开放模型在生产中的应用边界[57][58]。随着 AI 越来越多极化,真正的赢家将是那些与这些模型一起构建的人。我们将拥有丰富的 AI 模型和代理工具箱——从 Devstral 到其他——以增强软件开发及其他领域的创新。Devstral 2 的发布不仅加强了 Mistral 的地位,也在全球开发者社区中以他们的方式赋予了最先进的编码 AI。AI 的下一个篇章,似乎将由许多人书写,而 Mistral 刚刚递给我们一支非常有能力的笔。
来源: Mistral AI 公告[1][2][23];TechCrunch 报道[57][4][38];基准数据和模型比较[20][6][18][19];Anthropic 和 DeepSeek 参考资料[59][48];VentureBeat 关于百度的报道[50][51];TechCrunch 对 Mistral 的采访[40][42]。
[1] [2] [5] [6] [7] [15] [16] [17] [20] [22] [23] [25] [26] [29] [31] [33] [35] [45] [46] [47] 介绍:Devstral 2 和 Mistral Vibe CLI。| Mistral AI
https://mistral.ai/news/devstral-2-vibe-cli
[3] [4] [13] [14] [27] [28] [30] [38] [57] [58] Mistral AI 乘风破浪,利用新的编程模型驾驭趋势 | TechCrunch
https://techcrunch.com/2025/12/09/mistral-ai-surfs-vibe-coding-tailwinds-with-new-coding-models/
[8] [9] [10] Devstral 2 - Mistral AI | Mistral 文档
https://docs.mistral.ai/models/devstral-2-25-12
[11] [54] [55] [59] deepseek-ai/DeepSeek-Coder-V2-Instruct · Hugging Face
https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct
[12] [36] [39] [40] [41] [42] [43] [44] Mistral推出新的开放权重前沿和小型模型,逼近大型AI竞争对手 | TechCrunch
[18] HumanEval:当机器学会编程 - Runloop
https://runloop.ai/blog/humaneval-when-machines-learned-to-code
[19] Code Llama:开放基础代码模型 - alphaXiv
https://www.alphaxiv.org/overview/2308.12950v3
[21] [56] 中国的Moonshot AI发布了一万亿参数模型Kimi K2
https://www.hpcwire.com/2025/07/16/chinas-moonshot-ai-releases-trillion-parameter-model-kimi-k2/
[24] 介绍 Claude Sonnet 4.5 - Anthropic
https://www.anthropic.com/news/claude-sonnet-4-5
[32] [34] [37] Mistral 发布 Vibe 编码客户端,Mistral Code | TechCrunch
https://techcrunch.com/2025/06/04/mistral-releases-a-vibe-coding-client-mistral-code/
[48] Claude 4.5 的新功能
https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-5
[49] [50] [51] [52] 百度刚刚发布了一个开源多模态AI,声称其性能超越了GPT-5和Gemini | VentureBeat
[53] [2401.14196] DeepSeek-Coder: 当大型语言模型...