马卡龙分析：Kimi K2「思考」模型：推进开放代理AI！

简介

Moonshot AI 的 Kimi K2 是一款突破性的开源大型语言模型（LLM），它推动了“代理型”AI 的界限——不仅仅是聊天，还能思考和行动。Kimi K2 于 2025 年中期发布，是一种专家混合（MoE）模型，总参数量达到了空前的1 万亿（每次推理 320 亿活动参数）。如此庞大的规模，加上创新的训练技术，使 Kimi K2 在多个复杂基准测试中超越了领先的专有模型，如 OpenAI 的 GPT-4.1 和 Anthropic 的 Claude（Opus 4）。与许多早期专注于简单问答或对话的 LLM 不同，Kimi K2 旨在实现自主问题解决——编写代码、使用工具并执行多步骤计划以完成任务。在这篇文章中，我们深入探讨 Kimi K2 更新的“思维”模型架构、其训练创新，以及它与类似模型的比较。我们还将联系 Macaron 技术博客中讨论的概念（如混合推理栈和指令跟随框架），并暗示 Macaron 自身研发方向的如何与这些进步对齐——包括一个新的 RL+扩散文本模型。

架构创新：万亿级 MoE 与 MuonClip

Kimi K2 的核心是一个「专家混合」变压器架构。与单一的密集网络不同，MoE 将模型分成多个专业的“专家”，每个 token 只激活其中一部分。Kimi K2 使用 384 个专家，并采用前 2 路由，这意味着每个 token 会通过 384 个专家中的 8 个选定专家（加一个共享专家）。这实现了 1 万亿参数模型的效果，同时每个 token 只保持 32B 参数活跃，是一种高效的扩展方式。该架构有 61 层，注意力维度为 7168，初始上下文窗口可达 128K 个 token（在行业标准中是巨大的）。特别是，Kimi K2 减少了注意力头的数量，以提高长上下文的稳定性，这是避免深度网络训练发散的实用调整。

实现如此规模的模型需要克服重大的优化挑战。Moonshot 引入了一种新的优化器，称为 MuonClip，这是第二阶优化器 Muon 的改进版。MuonClip 使用了一种新颖的 QK-clipping 技术，动态缩放查询/键投影矩阵，以防止 transformer 中臭名昭著的“激增 logits”问题。得益于此，Kimi K2 能够在高达 15.5 万亿个标记上进行预训练，无任何损失峰值——这在传统的 AdamW 优化下几乎是不可能实现的。换句话说，该模型在远超以往大型语言模型的规模上稳定收敛，从而挤出更多的训练数据，以获得更好的知识和技能。MuonClip 和其他训练技巧（如适应损失几何的高阶更新）的使用，使 K2 在标记效率上具有优势，这意味着它从每个标记中学到的东西比早期模型更多。这种对训练稳定性和效率的关注也与 Macaron 的研究主题相呼应——例如，Macaron 的 Mind Labs 已经探索了替代的强化学习优化器和微调策略，以驾驭超大型模型。（详见 Macaron 技术博客：“使用 DAPO 和 LoRA 进行全同步 RL 扩展”了解 Macaron 如何通过自定义优化在使用 10 倍更少 GPU 的情况下微调一个 6710 亿参数的模型。)

具备代理能力的后训练：合成技能和联合强化学习

预训练为 Kimi K2 打下了坚实的基础，但其真正的差异化在于预训练之后的过程。Moonshot 对 K2 进行了多阶段的后训练过程，旨在灌输推理能力、工具使用和对齐。其中一个关键阶段是大规模的代理数据合成管道。在这里，团队生成了大量的多步骤任务示例：模型必须自主分解问题、调用工具、编写和调试代码，并产生经过验证的正确解决方案。数以千计的真实和模拟工具参与其中，每个任务都有可机器检查的评分标准或测试来验证成功。重要的是，基于 LLM 的“验证器”会审查模型的操作和输出，过滤掉失败。这种方法——Moonshot 团队称之为“验证经济”的一部分——确保只有高质量的推理路径成为训练反馈。这有点像在大规模上为模型配备了一个自动化代码审查员或数学证明检查员。有趣的是，Macaron 自身的系统设计也强调可验证推理的类似理念：例如，Macaron 的自主代码合成管道结合了神经生成与符号检查和测试，这种混合方法提高了纯神经输出的可靠性。

在合成工具使用训练之后，Moonshot 进一步通过联合强化学习（RL）阶段改进了 K2。在 RL 微调期间，Kimi K2 被允许与真实和模拟环境互动，完成任务后会获得奖励。独特的是，Moonshot 并不单单依赖静态奖励模型；相反，他们在训练 K2 的同时训练了一个评论模型来评估其反应。该评论模型首先在客观任务上进行训练（如通过单元测试等明确成功的任务），然后才用于评分主观方面（如有用性、语气）。通过这种方式，他们减少了奖励作弊的可能性，并且在风格或偏好之前保持模型的激励与可验证的正确性一致。RL 阶段还包含了稳定长篇生成的措施：K2 被规整性地返回到其预训练目标（以避免遗忘基础技能），并使用奖励封顶和温度衰减等技术，以防止 RL 调整后的模型出现漂移和冗长的输出。经过这一严格的后期训练，Kimi K2 在多步推理和工具使用方面变得非常精通，同时保持可靠——本质上成为一个可以计划和执行的**“代理”，而不仅仅是聊天**。Kimi K2 的训练方案可以视作多种最佳实践的结合：大规模监督学习、专注的代理数据，以及小心的 RL 微调以完善模型的决策能力。

性能基准：Kimi K2 的表现

那么这些创新在实际性能上带来了什么呢？在许多方面，Kimi K2 为开放模型设定了新的高标准。根据 Moonshot 的技术报告和独立评估，K2-Instruct（经过指令调优的变体）在复杂编码、推理和多步骤任务中，在开源大型语言模型中提供了最先进的结果。事实上，在几个基准上，K2 不仅领先于开放模型，还匹敌甚至超越了一些知名的封闭模型。例如，在 SWE-Bench（验证版）——一个具有挑战性的编程基准，衡量模型是否能在工具协助下修复代码——Kimi K2 的准确率为 65.8%，远远超过了 GPT-4.1 的 54.6%。它甚至略胜于 Anthropic 的 Claude 2（在类似条件下，Claude “Sonnet 4” 得分为 54.2%），并接近 Claude 的最佳“启用思考”得分（72.7%）。通过一些额外的测试时计算（例如并行多次尝试），K2 可以将该基准的得分提高到 71.6%，基本上缩小了与 Claude 专门性能的差距。

Kimi K2 在纯编码任务中也表现出色。在 LiveCodeBench，一项端到端的编码挑战中，K2 取得了 53.7% 的准确率，击败了 GPT-4.1 (44.7%)、Claude Opus 4 (47.4%) 和 DeepSeek-V3 (46.9%)，这证明了其编码实力medium.com。这表明，K2 在代码和调试方面的训练（包括所有的验证器）取得了成效，生成正确、可执行代码的能力超过其他模型。另一个令人瞩目的结果来自 MATH-500，一个高级数学问题的基准测试：Kimi K2 达到了 97.4% 的准确率，超过了 GPT-4.1（得分为 92.4%）medium.com。在近 97% 的成功率下解决数学问题是非凡的，这表明该模型在一个通常需要逐步逻辑思考的领域中具有强大的推理能力。K2 在 GPQA-Diamond（通用问题解决） 和各种编码比赛中也有同样出色的得分。它在 OJBench（一个经典的编程挑战集）中的得分为 27.1%，是开放模型中最高的，显示出它能够在传统算法编码中表现出色medium.com。在一个要求严格的知识密集型基准测试 Tau2 中，Kimi K2 取得了 65.8% 的成绩，轻松 超越了 GPT-4.1 (38.6%) 和 Claude 2 (45.2%)medium.com —— 在这里，K2 使用工具（如网页浏览或计算器）的能力可能在回答与电信相关的问题时提供了强大的优势。

值得注意的是，虽然 Kimi K2 在这些领域表现出色，但它并不是在所有方面都严格优于其他模型——保持公正的看法很重要。例如，Claude 2 在允许“逐步思考”时，在最难的 SWE-Bench 编码基准测试上仍然略有领先（72.7% 对比 K2 的 65.8%）。而像 GPT-4 这样的模型仍然拥有 K2 所缺乏的能力——特别是多模态理解（GPT-4 能够识别图像，而 K2 目前无法做到）以及可能的一些对话技巧。Moonshot 有意将 K2 专注于代理的、基于文本的任务，牺牲了诸如思维链透明性和多模态输入等方面，以换取速度和专业化。然而，Kimi K2 的开源性质赋予了它独特的优势：任何人都可以使用或微调它，而无需支付专有 API 的高昂费用。Moonshot 提供的 K2 API 费用只是 OpenAI 的一小部分（大约每百万个 token 收费 2.50 美元，而 GPT-4 则是 8 美元）。这种成本效益，加上在编码和推理方面的一流性能，使 K2 成为 GPT-4 级别模型的一个引人注目的开放替代品。确实，有观察者称 Kimi K2 是“今年开放领域最重要的 AI 模型发布”，标志着中国对西方 AI 巨头的回应。它紧随像阿里巴巴的 DeepSeek 这样的模型之后，并且在许多方面超越了 DeepSeek 的表现（K2 在关键编码基准测试中比最新的 DeepSeek 版本高出约 20 多分）。结论是，Kimi K2 为开放模型实现了新的能力水平，在一系列实际任务中匹敌或超过现有模型——这是快速发展的 LLM 领域中的一个重要进步。

新的「思考」模式：K2 与连锁思维

Kimi K2 最令人兴奋的更新之一也许是引入了一个专门的 K2「思考」模型——本质上是一个版本的 K2，能够慢下来并进行深入推理。原版的 K2-Instruct 被描述为*“反射级别，没有长时间思考”——它被调校为能够快速产生有用的答案，非常适合低延迟场景，但不总是适合复杂问题的解决。意识到这一点，Moonshot 最近发布了 Kimi-K2-Thinking，这是一个专门设计用于多步骤推理和跨多轮工具使用的变体。在 K2-Thinking 模式下，模型可以自主计划一系列行动，进行更长时间的内部思考链，并调用外部工具或 API 收集信息，然后再最终确定答案。从技术上讲，它支持高达256K 令牌上下文窗口（非常大，以保留中间计算）并能输出一个特殊的reasoning_content字段来追踪其思考过程。例如，如果被问到一个复杂的研究问题，K2-Thinking 可能会生成一个计划：将查询分解为子问题，进行网络搜索（其工具调用之一），总结结果，执行计算，然后综合出最终答案——在此过程中，将这些步骤记录在 reasoning_content 中。早期报告显示，K2-Thinking 可以自主分解指令，分析数据（例如，通过工具处理 CSV 文件或 JSON），甚至生成结构化报告。这有效地弥补了基础 K2 的一个限制：缺乏明确的思考链支持。通过 K2-Thinking，Moonshot 的模型更接近于像 GPT-4 的*“计划与解决”**方法或 Claude 的宪法 AI 推理，其中 AI 可以大声思考并迭代解决困难问题。这是一个重要的进步，因为它结合了 K2 的原始能力（庞大的知识库和编码技能）与一种代理式的认知过程，用于处理那些无法一次性完成的任务。

K2-Thinking 的引入与我们在 Macaron 自身背景中探索的想法产生了共鸣。在 Macaron 的混合推理架构中，强调根据任务的不同，在快速反射反应和更深层次的审慎推理之间取得平衡——本质上是在“系统 1”和“系统 2”认知之间切换。K2 现在以两种模式体现这一原则：原始反射模式用于快速回答，思考模式用于复杂问题。此外，Macaron 的指令跟随框架强调了 AI 助手在执行操作前正确解析并分解用户指令的重要性（为了安全和准确）。K2-Thinking 明显与此相符：通过明确地将任务分解为子任务和工具调用，减少了误解请求或跳过重要步骤的可能性。此外，K2-Thinking 集成外部工具 API 的能力呼应了 Macaron 的理念，即个人 AI 应该与世界（如日历、网络数据、应用程序）互联，而不是孤立运行。从某种意义上说，Kimi K2 正在从一个强大的“大脑”转变为更像一个完整的认知代理，这正是许多 AI 社区成员（包括 Macaron）认为未来的发展方向。

与其他前沿模型的比较

手握 Kimi K2（以及新思维模式），Moonshot 的产品与其他尖端模型如 OpenAI GPT-4、Anthropic Claude 2 或 Google 的传闻中的 Gemini 相比如何？我们已经看到 K2 在编码和推理基准测试中能与 GPT-4.1 和 Claude 2 匹敌——鉴于这些模型拥有封闭数据和更长开发时间的优势，这是一项惊人的成就。需要注意的是，GPT-4 仍然在视觉输入和可能更精细的自然语言调优方面具备优势。Claude 2（例如 Claude Sonnet 4.5）以其长篇「宪法式」对齐的响应和长时间自主性（处理非常长的会话）而闻名，确实，Claude 在某些深度代理任务中允许无限思考时表现出略高的通过率。然而，K2 通过思维模式获得类似的长远能力，缩小了这一差距。在原始知识和数学方面，K2 甚至可能占据优势（其 MATH-500 近乎完美的得分就是证明）。Google 的 Gemini，截至本文撰写时尚未发布，预计将是一个多模态、高度优化的模型，可能超过 GPT-4。Kimi K2 尚未具备多模态功能（没有图像或音频理解），因此在这方面可能落后于下一代模型。但 K2 的模块化工具使用方法可能通过使其能作为工具插入到视觉或其他模型中进行补偿（可以想象将 K2 与图像字幕工具配对以模拟多模态推理）。

还必须考虑部署和成本。Kimi K2 由于是开源的（带有宽松的许可），任何人都可以自托管或调整使用。其 MoE 设计意味着运行成本不低——您至少需要多个 A100 GPU 或类似设备才能以低延迟运行它。Moonshot 确实提供了量化版本（例如 GGUF 量化），可以在较小的设置中进行实验，但要在生产中充分利用其 1T 的规模，需要强大的硬件。这是一个权衡：GPT-4 只能通过 API 访问（无法自托管），但复杂的工作隐藏在云端；而使用 K2，您需要处理基础设施，但可以获得控制权。对于关注数据隐私或定制化的企业，K2 提供了封闭模型所没有的独立性。Macaron 的工程博客经常在集成模型时突出类似观点——在模型的原始能力与实际考虑因素（如延迟、成本和可控性）之间取得平衡。在 Macaron 的案例中，他们尝试了**封闭 API（如 Claude）**和开放模型（如 DeepSeek）来支持不同功能。一个可能的趋势正在出现：混合部署，在某些任务（如编码，它擅长的领域）中使用像 K2 这样的开放模型，而在其他任务中使用专业模型（可能是用于休闲聊天的小型对话模型，或用于图像的视觉模型）。

结论与展望

Moonshot的Kimi K2（以及K2-Thinking更新）代表了AI模型的重大进步——不仅仅因为更大的规模，而是因为它们在开放平台上将规模与真正的推理能力相结合。从技术上讲，K2证明了专家混合架构是实现万亿规模的可行路径，并且新的优化方法（MuonClip）可以在不导致灾难性训练失败的情况下驯服这些模型。模型在编码和推理基准测试中的卓越表现表明，巨大的规模和创新的训练确实转化为实际的问题解决能力。或许最重要的是，Kimi K2展示了一种**“代理”范式**：它被明确训练为使用工具、验证其工作并通过交互（RL）来改进。这与过去纯粹静态的一次性预测模型有所不同。它缩小了与人类问题解决的差距——例如将任务分解为步骤、使用外部资源、仔细检查结果——这些都在一个单一的AI系统中实现。对于开源AI社区，K2的发布（包括基础和指令检查点）是一个福音，使研究人员能够基于一个可以行动而不仅仅是聊天的模型进行构建。它为开放模型的能力设立了新的标杆，可能迫使甚至封闭模型的领导者提高自己的水平或降低价格。

从 Macaron 的角度来看，Kimi K2 的出现肯定了我们在研发中所朝的许多方向。我们在博客中讨论的分层推理、可验证的动作链和丰富的指令跟随在 K2 的设计中找到了一个现实例子。看到这些想法在大规模实践中得以应用，令人鼓舞。当然，总有改进的空间。K2 仍然缺乏多模态，其思维模型中的链式思维是一个新加入的部分，肯定会不断发展。对齐和安全性仍然是挑战——可以问 1T 模型在其奖励模型未涵盖的对抗性或开放性场景中的表现如何。这些领域是 ongoing 研究（包括在 Macaron 这里）将继续探讨的。事实上，Macaron 的团队正在探索一种将强化学习与基于扩散的文本生成相结合的新方法——本质上是一种新的后训练文本扩散模型——以实现对 AI 输出的更精细控制。虽然细节尚待公布，但我们设想这将使 AI 能够通过控制的方式“扩散思考”多种可能性，潜在地减少幻觉等问题，同时保持创造力。这微妙地暗示了下一次飞跃可能发生的地方：结合 Transformer 大型语言模型（如 K2）的优势与扩散模型技术和严格的 RL 调优。

总之，Kimi K2 的 K2-Thinking 模型引领了一个新的开放 AI 时代，能够深入推理并自主行动。这证明了我们领域的快速进步——仅仅一两年前，开放模型达到这种性能似乎还遥不可及（绝无双关）。现在它已经出现，并挑战我们所有人去思考更大的可能性。随着我们整合这些进步并尝试我们自己的混合模型（无论是通过混合推理栈还是扩散-RL 混合模型），前沿技术与可获取性之间的界限不断模糊。对于开发者和用户来说，带来的好处是令人兴奋的：更强大、透明且可控的 AI 系统即将到来，无论是来自 Moonshot、OpenAI 还是 Macaron 的实验室。这意味着 AI 不仅能更好地理解我们，还能与我们协作完成复杂任务——真正迎来了 AI 代理和协作智能的时代。