
作者:Boxu Li
ChatGPT问世三年后,一个新的开源竞争者作为生日礼物来到了AI社区。DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale——这两个新发布的大型语言模型正在推动开源AI系统的界限。由中国AI实验室DeepSeek开发,这些模型旨在提供GPT-5级推理性能,与谷歌的Gemini-3.0-Pro等尖端闭源模型相媲美[1][2]。这两个模型以及一份详细的技术报告已经开源,给予研究人员和开发者更深入的了解开源模型的进展。
DeepSeek-V3.2 被设计为一个平衡的「日常驱动」模型——适用于在实际应用中进行常规问答、代码辅助和 AI 代理任务。根据 DeepSeek 的基准测试,V3.2 的推理能力在公开推理测试中与 GPT-5 的水平相当,仅稍逊于 Gemini-3.0-Pro[1]。实际上,这意味着 V3.2 能够几乎与现今最好的封闭模型一样出色地处理复杂的逻辑和分析问题。值得注意的是,V3.2 的输出比一些早期的开放模型(如 Kimi-K2-Thinking)更为精简,在不失推理深度的情况下减少了 token 的使用量和用户等待时间[3]。
在引擎盖下,DeepSeek-V3.2 每个标记激活6850 亿个参数(在一个 670B MoE 架构中)——但它经过优化,具有高效性和长上下文使用能力。它支持扩展的128K 标记上下文窗口,能够一次性分析数百页的文本。尽管规模庞大,V3.2 已经过微调,能够将推理与外部工具使用相结合。事实上,这是 DeepSeek 的首个模型能够在调用工具的过程中“思考”。它在使用工具时支持思维链模式和标准模式,允许它通过多步骤工具增强任务(如使用计算器、代码解释器或搜索引擎)进行结构化推理。这使得 V3.2 对于代理应用尤其强大——从运行代码的编码助手到浏览网页的对话代理。
对于需要更强推理能力的用户,DeepSeek 发布了 V3.2-Speciale 与标准模型同时推出。Speciale 变体将开源推理推向极致,包括一个扩展的“思考”机制,甚至集成了一个专用的数学定理证明模块(来自 DeepSeek-Math-V2 模型)。结果是一个针对高度复杂问题解决的模型——正如开发者所说,“探索模型能力的边界。”[4]。在严格的逻辑和数学基准测试中,DeepSeek-V3.2-Speciale 的表现可与 Gemini-3.0-Pro 相媲美[4],基本上在这些领域达到了最先进的水平。
这一说法得到了 Speciale 在各大知名比赛中成就的支持:据称,它在国际数学奥林匹克竞赛(IMO 2025)、中国数学奥林匹克竞赛(CMO 2025)、ICPC 2025 世界总决赛(编程)和 IOI 2025(信息学)中均达到了「金牌水平」[5]。事实上,在 ICPC 编程竞赛中,V3.2-Speciale 的表现与「人类银牌选手(第二名)」相当,而在 IOI 中则与「前十名人类竞争者」水平相当[5]。对于一个 AI 模型来说,这些成就是非凡的,展示了其在推理和解决问题方面达到了人类精英水平。
值得注意的是,「Speciale」是一个专注于专家的模型。它在长篇推理(例如详细的证明、多步骤逻辑、复杂编程挑战)方面表现出色,但不适合闲聊或创意写作。运行成本也更高——Speciale 往往需要消耗更多的 Tokens 来得出答案[6]。目前,DeepSeek 仅通过有限的研究 API 提供 V3.2-Speciale(不支持工具使用),并提醒该模型适用于学术或高风险推理任务,而非日常对话。
使 DeepSeek-V3.2 性能得以提升的关键创新之一是名为 DeepSeek 稀疏注意 (DSA) 的新注意机制。传统的 Transformer 模型在上下文长度增长时,成本呈二次增长,因为每个标记都需要关注其他所有标记。DSA 通过使用细粒度稀疏注意模式打破了这一瓶颈[7]。它引入了一个*“闪电索引器”*组件,快速估算当前标记与过去标记之间的相关性得分,然后仅选择前 $k$ 个最相关的标记进行关注[7]。本质上,模型学会忽略不相关的上下文,只专注于长序列中重要的部分。
这种稀疏注意力设计将长序列所需的计算从 O(L²) 降低到 O(L·k),其中 k 远小于 L。在 DeepSeek 的实现中,第二阶段训练时使用了 k=2048(每个标记关注 2048 个选择的过去标记)。团队为 DSA 采用了两阶段训练策略:首先是一个 密集预热,在此期间闪电索引器与完整注意力一起训练了数十亿个标记,以确保它学习到完整注意力的行为。然后,模型切换到稀疏模式,并在数千亿个标记上进行训练,同时施加 top-$k$ 限制。结果是实现了巨大的效率提升而不损失准确性。事实上,V3.2-Exp(最终模型的实验前身)在一系列基准测试中表现与 V3.1-Terminus 相当,尽管使用了新的稀疏注意力[8]。
实际上,DSA 意味着长文档不再是负担。内部测试显示,在 128K 长度输入上,处理速度提高了 2–3 倍,内存使用量降低了约 30–40%[9]。成本也大幅下降。DeepSeek 报告称,在他们的 H800 集群上,对于 128K 上下文,每百万个 tokens 的预填充成本从约 $0.70 降至约 $0.20,生成成本从约 $2.40 降至约 $0.80 ——长上下文推理成本减少了 3 倍。在公共 API 中,这些节省使用户的定价降低了超过 50%[10]。简而言之,DSA 使 V3.2 能以之前模型的一小部分时间和成本处理极长的输入,同时不影响输出质量。
DeepSeek-V3.2 强大性能的另一个主要因素是其投入的大规模强化学习 (RL) 微调。DeepSeek 团队在训练后 RL 上投入了前所未有的计算资源——超过了预训练所用计算的 10%(对于一个 670B 规模的模型来说,这已经是巨大的)。这在开源 AI 中是非常罕见的,因为 RL 微调的预算通常要小得多。其理由是,虽然预训练教授广泛的知识,但通过将模型与复杂目标(如解决多步骤问题、使用工具或在约束条件下遵循指令)对齐,密集的 RL 可以解锁高级功能 [2]。
为了安全地扩大 RL 规模,DeepSeek 基于其定制的群组相对策略优化 (GRPO) 算法。在这个 RL 管道中,他们引入了若干稳定性和效率的改进:
· 无偏 KL 估计: 团队修正了用于 KL 散度惩罚的原始 K3 估计器中的问题,消除了可能导致无界梯度更新的系统偏差。这防止了当策略偏离参考策略太远时可能发生的训练不稳定性。
· 离线序列屏蔽: 由于RL训练通常生成大批量的“回滚”数据,这些数据在多个梯度更新中被重复使用(一个off-policy场景),DeepSeek为每个样本计算了回滚策略与当前策略之间的KL散度。如果生成的序列的策略偏离了当前模型太远,该序列就会被屏蔽(排除)在训练更新之外[11][12]。这个巧妙的技巧确保模型主要从on-policy或接近on-policy的数据中学习,从而提高稳定性,并防止不良轨迹影响学习。
· **保持 MoE 路由:**DeepSeek 的模型使用专家混合架构,这意味着不同的“专家”(子网络)处理不同的标记。这里的一个挑战是推理和训练实现之间的细微差异可能导致为相同输入选择不同的专家,从而导致不一致。DeepSeek 通过在推理过程中捕获专家路由决策,并在 RL 更新期间强制保持相同的专家路由来解决这个问题。这种“保持路由”方法确保了在 RL 中调整的参数与推理时使用的专家一致,避免了由于专家洗牌而带来的意外问题。
除了这些算法上的调整之外,RL 的数据方案也非常雄心勃勃。DeepSeek 训练了一系列专家模型——每个模型专注于特定领域或技能——然后将所有这些模型的知识提炼到 V3.2 中。例如,他们为数学(证明)、编程、逻辑推理、通用工具增强任务、基于代码的代理和基于搜索的代理等领域的专家进行了微调。这些专家模型中的每一个都根据需要在*“思考”(思维链)模式和“非思考”*模式中进行训练。利用这些专家,DeepSeek 生成了一个巨大的合成数据集,每个领域都有高质量的示范,然后用来监督最终的 V3.2 模型。这一专家提炼流程为 V3.2 提供了丰富的训练信号,涵盖了 85,000 多个复杂指令,从逐步数学证明到软件调试会话。
DeepSeek-V3.2 的一大亮点是其大幅提升的代理能力——本质上是模型在多步骤循环中计划、推理和使用工具以解决问题的能力。早期版本的 DeepSeek 推理模型存在一个主要限制:如果模型处于“思考模式”(即产生思维链),它无法调用外部工具,反之亦然。V3.2 消除了这一障碍。这是首个完全将思考与工具使用相结合的 DeepSeek 模型,意味着它可以在内部维持推理链的同时,在对话中途发出工具调用(例如运行代码、搜索网络)[13]。这带来了更强大和灵活的代理行为。
为支持这一点,DeepSeek 团队重新构想了模型的上下文管理如何在多轮任务中运作。在 V3.2 中,模型的推理轨迹(即「思维」)在一系列工具调用中得以保留,而不是在每一步都被清除。只有当新的用户查询到来时,系统才会重置推理上下文(同时保留会话中的相关工具交互历史)[14][15]。这种方法节省了许多 tokens,并让模型在迭代调用工具时建立起持续的思维链。例如,如果用户提出一个复杂的编码问题,模型可以思考步骤,调用 Python 解释器测试一些代码,基于结果继续思考,可能调用文档搜索工具,等等——只有在验证出正确的解决方案后才最终确定答案。所有中间推理在任务完成前对模型都是可用的。
DeepSeek 还为模型提供了一个**「冷启动」提示**,明确鼓励这种行为。系统指令引导模型在揭示最终答案之前,先输出详细的推理过程(用特殊标记标出),特别是对于编程挑战等复杂任务。这种提示工程确保 V3.2 知道它应该在面对困难问题时,运用其思维链和工具能力,而不是直接给出一个(通常有缺陷的)答案。
V3.2 代理技能集中最令人印象深刻的方面可能来自于其训练方式。团队构建了一个自动环境合成管道,以创造真实且具有挑战性的场景供模型学习。他们生成了1,827 个互动任务环境,并配对了85,000+ 条复杂指令供模型解决[16]。关键是,这些任务被设计为*“难于解决,易于验证。”* 换句话说,模型面临的问题有着大型搜索空间(难以随便找到解决方案),但有清晰的标准来检查解决方案。这一特性使其非常适合强化学习:模型可以通过尝试(或使用工具)来提出解决方案,然后迅速验证是否满足所有给定约束。
例如,有一个合成任务是三天旅行行程规划问题,包含多个约束条件(不重复城市、根据酒店成本动态调整预算等)。由于这些约束条件形成了一个组合问题,模型很难仅靠“猜测”来生成有效的行程。但如果模型提出一个候选行程,就可以很容易地验证所有约束是否满足。通过在许多这样的任务上进行训练(涵盖旅行规划、日程安排、逻辑谜题等领域),V3.2学会了更好地处理需要搜索、优化或多步骤推理的问题。这种训练方式大大提高了模型对新的、未见过的代理任务的泛化能力。
在编码代理的领域,DeepSeek 探索了 GitHub,从中挖掘了数百万个实际问题线程和拉取请求。他们从这些数据中自动构建了数万个可执行的编码挑战环境。模型可以练习阅读错误报告或功能请求,然后在工具的帮助下浏览代码库以实现修复或功能。这些环境涵盖了多种编程语言(Python、Java、JavaScript 等),使模型接触到各种软件问题。一个单独的管道处理基于搜索的 QA 代理:通过多代理模拟,DeepSeek 生成了一个数据集,其中一个代理提出关于长尾实体的棘手问题,另一个代理(借助搜索工具)必须找到并验证答案。这个多步骤生成(问题构建 → 网页搜索 → 答案验证)为教导 V3.2 如何成为有效的“研究助理”提供了高质量的训练示例。
多亏了这些努力,DeepSeek-V3.2 在工具使用代理任务上取得了突破。在内部评估中,V3.2 在一组代理基准测试中获得了任何开放模型的最高分,显著缩小了与封闭模型的差距[17]。开发者强调,V3.2 并未针对这些测试中的特定工具进行显式调优——这表明其代理技能不仅限于狭窄的基准测试,还可以转移到现实场景中[18]。换句话说,该模型学习了如何推理和使用工具,而不是过拟合于特定任务。

DeepSeek 的新模型如何与市场上最好的 AI 系统相抗衡?技术报告和早期分析提供了一些答案。总体而言,DeepSeek-V3.2 在数学推理和编码任务中表现出色,而 V3.2-Speciale 在复杂推理方面甚至可与最佳相媲美——但在某些领域(如开放式工具使用)封闭模型仍然占据优势。以下是选定基准测试结果的快照,展示了竞争格局:
表 1:样本推理基准性能(准确率%)
<small>来源: DeepSeek 技术报告[4]. GPT-5.1 和 Gemini 的结果是报告图表中的近似值。Speciale 在数学任务上通常与 Gemini 相当或更优,而标准 V3.2 达到 GPT-5 水平,略低于 Gemini。</small>
正如我们所见,DeepSeek-V3.2 在学术推理挑战中兑现了其承诺。在 AIME 和 HMMT 等数学竞赛中,V3.2 的准确性与高级 GPT-5 模型大致相当,仅比 Gemini 的最先进得分低几个点。Speciale 模型甚至在这些数学基准测试中超过了 Gemini,展示了其增强的“长时间思考”方法的成效。这些结果令人瞩目——数学和正式推理曾被认为是开放模型的弱点,但 V3.2 展示了开源系统在该领域可以达到前沿水平的表现。
在编码方面,尽管竞争激烈,DeepSeek-V3.2 依然表现出色。在 SWE-Bench Verified 测试中(该测试检查模型是否能生成通过单元测试的错误修复代码差异),V3.2 获得了 ~73% 的成绩,显著超过其前身(V3.1 得分约为 ~66%[20])并且与其他顶级开源模型如 Moonshot 的 Kimi K2 和阿里巴巴的 Qwen-3 基本持平。事实上,这些开源模型在这个编码基准测试中略微优于 OpenAI 较旧的 120B 基线[21][22]。这表明开源模型在实际编码能力方面取得了多大进展。DeepSeek V3.2 能够可靠地修复真实错误并生成可运行的代码,使其对开发人员的帮助极大。
然而,与绝对最好的封闭模型相比,情况是喜忧参半的。在某些编码任务上,GPT-5.1 仍然具有优势。例如,在更复杂的 Terminal-Bench 2.0 中(该测试评估多步骤 CLI 工具使用和代理循环中的编码),早期报告显示 GPT-5 甚至 Anthropic 的 Claude 在长时间工具使用会话中的持续可靠性方面都胜过 DeepSeek[23]。DeepSeek-V3.2 在这些复杂的多步骤代理任务中的准确性下降,这表明虽然它非常有能力,但在完全自主编码代理或长时间问题解决方面,它还不是最佳表现者。同样,在全面的工具使用基准测试如 MCP-Universe 和 Tool-Decathlon 中,V3.2 远远落后于 GPT-5 和 Gemini[24]。OpenAI 和 Google 的系统在执行复杂的多工具计划方面仍然更为一致。差距已经缩小——V3.2 在这些测试中为开放模型达到了新的高度[17]——但在开放模型能够真正匹敌封闭模型的一般工具使用能力之前,仍然存在相当大的差距。
总结来说,DeepSeek-V3.2在许多领域表现出接近前沿的性能。在实际的编码任务中,它与GPT-5竞争力相当,甚至在高级数学推理上能与Gemini媲美[19]。同时,它并不是GPT-5或Gemini在所有方面的全面替代品,尤其是在涉及复杂工具协调的超复杂“代理”场景中,这些封闭模型仍然具有优势[25][24]。这一平衡观点对于设定期望至关重要:V3.2在其优化领域(高效的推理和编码)中表现卓越,而Speciale变体展示了在推理极限上可能达到的能力。
尽管取得了令人印象深刻的成就,DeepSeek 团队仍坦诚 V3.2 系列的某些局限性。首先,由于总训练 FLOPs(浮点运算)仍然少于一些超大型封闭模型,V3.2 的世界知识广度和对稀有事实的记忆可能落后于像 GPT-5 这样的领导者。换句话说,它可能不知道一些晦涩的琐事或特定领域的信息,这些信息被更大的专有模型吸收。这是开放模型中常见的权衡,因为它们往往需要在略小或多样性较低的语料库上进行训练。
另一个挑战是令牌效率。DeepSeek 指出,V3.2 和 Speciale 有时需要生成更长的推理链,才能达到像 Gemini-3.0-Pro 这样模型能够以更简洁的响应实现的相同答案质量[6]。实际上,这意味着在“思考模式”下使用 V3.2 可能需要更高的令牌成本(和延迟)来解决极其困难的问题——模型在处理步骤时会显得冗长。特别是 Speciale,尽管能力非凡,却是个令牌大户:它可能会生成非常详细的证明或解释,而人类专家或精炼的封闭模型则可给出更简洁的答案。虽然这种详尽的推理有时是有价值的,但确实让某些使用场景变得更为昂贵。
DeepSeek-V3.2目前在开放式对话的灵活性或创意写作方面仍缺乏精细调整。其训练重点显然是结构化问题解决和代理。用户观察到其风格逻辑性强且信息丰富,但在休闲对话中,可能不如GPT-4或Claude那样自然地聊天或富有想象力。这是一个有意识的选择:DeepSeek在本次发布中优先考虑了研究任务、编码和数学能力,即使这意味着在整体聊天性上有所下降。
展望未来,DeepSeek团队已暗示将继续取得进展。V3.2技术报告公开讨论了这些缺陷,作为未来改进的目标。社区已经期待潜在的DeepSeek-R2模型——如果命名不变,它可能是下一个以推理为中心的模型,建立在R1和V3.2的基础上。(DeepSeek的追随者半开玩笑地在V3.2发布时问道:“R2何时到来?!”)如果R2出现,预期是它可能会进一步缩小差距,也许通过更大规模的训练、更丰富的知识注入和改进的词元效率技术来实现。
目前,DeepSeek-V3.2 在开源 AI 世界中代表了一个里程碑。它展示了通过巧妙的工程设计——从稀疏注意力到大规模的强化学习微调和合成任务生成——一个开源模型可以在推理和编码方面达到前沿表现,这些领域曾被认为是万亿参数封闭模型的独占领域。正如一位分析师所说,V3.2 是一个*“强大且低成本的思考和编码模型,能够在大多数开发者实际工作的地方提供前沿级别的结果:代码和数学”*[26]。它可能不会取代 GPT-5 或 Gemini 成为通用 AI 解决方案,但在其专业领域,DeepSeek-V3.2 表现得非常出色[27],而且关键是,它作为一个免费可用的模型做到了这一点。在更广泛的 AI 生态系统中,这确实是 ChatGPT 周年纪念日上的一份无价之礼。
来源: 本文中的信息和引述来自 DeepSeek 的官方发布说明和技术报告[1][4][13][17],AI 出版物中的新闻报道和分析[2],以及早期用户对 DeepSeek-V3.2 的独立评估[19][24] 和社区专家[7][8]。所有基准和比较均反映了模型在各自任务上的当前性能状态(2025 年 12 月)。
[1] [3] [4] [5] [6] [13] [14] [15] [16] [17] [18] DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理 | DeepSeek API Docs
https://api-docs.deepseek.com/zh-cn/news/news251201
[2] DeepSeek 发布新推理模型以匹敌 GPT-5,挑战 Gemini 3 Pro
[7] [8] [9] [10] [11] [12] [21] [22] DeepSeek V3.2-Exp 评测。DeepSeek 的最新实验模型… | 由 Barnacle Goose 撰写 | 2025年10月 | Medium
https://medium.com/@leucopsis/deepseek-v3-2-exp-review-49ba1e1beb7c
[19] [23] [24] [25] [26] [27] DeepSeek V3.2 vs Gemini 3.0 vs Claude 4.5 vs GPT-5 | 作者 Mehul Gupta | 你的口袋数据科学 | 2025年12月 | Medium
[20] deepseek-ai/DeepSeek-V3.1 - Hugging Face