馬卡龍分析：Kimi K2「思考」模型：推進開放代理 AI！

介紹

Moonshot AI 的 Kimi K2 是一個突破性的開源大型語言模型（LLM），它推動了「自主」AI 的界限——不僅僅是聊天，而是能夠思考和行動的模型。在 2025 年中期亮相，Kimi K2 是一個專家混合（MoE）模型，擁有前所未有的總計 1 兆個參數（每次推理有 320 億個活躍參數）。這種龐大的規模，加上創新的訓練技術，使得 Kimi K2 能夠在多項複雜的基準測試中超越領先的專有模型，如 OpenAI 的 GPT-4.1 和 Anthropic 的 Claude（Opus 4）。與許多早期專注於簡單問答或對話的 LLM 不同，Kimi K2 被設計為用於自主問題解決——編寫程式碼、使用工具和執行多步驟計劃以完成任務。在這篇文章中，我們深入探討 Kimi K2 更新的「思維」模型架構、其訓練創新以及它與類似模型的比較。我們還將連結到 Macaron 技術博客上討論的概念（例如混合推理堆疊和指令跟隨框架），並暗示 Macaron 自身的研發方向——包括新的 RL+擴散文本模型——如何與這些進展保持一致。

架構創新：兆級規模的 MoE 和 MuonClip

Kimi K2 的核心是 Mixture-of-Experts transformer 架構。MoE 並非單一密集網路，而是將模型分成許多專門的「專家」，每個標記只會激活部分專家。Kimi K2 使用 384 個專家並採用 top-2 routing，這意味著每個標記會通過 384 個專家中選出的 8 個專家（加上一個共享專家）。這種方法能達到 1 兆參數模型的效果，但每個標記僅啟用 32B 參數，是一種有效的擴展方式。該架構有 61 層，注意力維度為 7168，最初的上下文視窗可達 128K 個標記（在業界標準中屬於巨大）。值得注意的是，Kimi K2 減少了注意力頭的數量，以提高長上下文的穩定性，這是一個避免深層網路訓練發散的實際調整。

要實現這麼大規模的模型，需要克服重大的優化挑戰。Moonshot 引入了一種新的優化器，名為 MuonClip，這是改良版的二階 Muon 優化器。MuonClip 使用了一種新穎的 QK-clipping 技術，該技術可以動態縮放查詢/鍵投影矩陣，以防止 transformer 中臭名昭著的「爆炸 logits」問題。由於這一點，Kimi K2 能夠在沒有損失峰值的情況下預訓練於驚人的 15.5 兆個 tokens——這是使用傳統 AdamW 優化幾乎不可能完成的壯舉。換句話說，該模型在遠超過過去 LLMs 的規模上穩定收斂，從而擠出更多的訓練數據以獲得更好的知識和技能。MuonClip 和其他訓練技巧（如適應損失幾何的高秩更新）的使用，給 K2 帶來了 token 效率的優勢，意味著它從每個 token 中學到的比早期模型更多。這種對訓練穩定性和效率的關注回響了 Macaron 的一些研究主題——例如，Macaron 的 Mind Labs 探索了替代的 RL 優化器和微調策略，以駕馭非常大的模型。(請參閱 Macaron 技術博客：「使用 DAPO 和 LoRA 擴展全同步 RL」以了解 Macaron 如何使用自定義優化在 10 倍少的 GPU 上微調一個 671B 參數模型。)

代理後訓練：合成技能和聯合 RL

前期訓練為 Kimi K2 打下了堅實的基礎，但其真正的差異化在於前期訓練之後的內容。Moonshot 對 K2 進行了一個多階段後期訓練過程，旨在灌輸推理能力、工具使用和對齊。其中一個關鍵階段是大規模代理數據合成管道。在這裡，團隊生成了大量多步驟任務範例：模型需要自主分解問題、調用工具、撰寫和除錯程式碼，並產生經過驗證的正確解決方案。數以千計的真實和模擬工具涉入其中，每個任務都附有機器可檢查的標準或測試來驗證成功。重要的是，基於 LLM 的「驗證者」審查模型的行為和輸出，過濾掉失敗之處。Moonshot 團隊將這一方法描述為「驗證者經濟」的一部分，確保只有高質量的推理軌跡成為訓練反饋。這有點像在模型旁邊有一個自動化的程式碼審查員或數學證明檢查員，以大規模運行。有趣的是，Macaron 自身的系統設計強調了類似的可驗證推理理念：例如，Macaron 的自主程式碼合成管道結合了神經生成與符號檢查和測試，這種混合方法提升了純神經輸出的可靠性。

在合成工具使用訓練之後，Moonshot 進一步對 K2 進行了聯合強化學習（RL）階段的精細化調整。在 RL 微調期間，Kimi K2 可以與真實和模擬環境互動，並因完成任務而獲得獎勵。獨特的是，Moonshot 不僅依賴於靜態獎勵模型；相反地，他們訓練了一個與 K2 並行的評判模型來評估其反應。這個評判模型首先在客觀任務上進行訓練（例如通過單元測試等明確成功的任務），然後才允許它評分主觀方面（如幫助性、語氣）。通過這樣做，他們減少了獎勵作弊的可能性，並確保模型的激勵在風格或偏好之前與可驗證的正確性保持一致。RL 階段還包含了穩定長篇生成的措施：K2 短暫回到其預訓練目標進行正則化（以避免忘記基本技能），並使用獎勵上限和溫度衰減等技術來防止 RL 微調模型常見的漂移和冗長輸出。這一嚴格的後期訓練的最終結果是，Kimi K2 變得非常擅長多步推理和工具使用，同時保持可靠性——基本上是一個可以計畫和執行的**“代理”**，而不僅僅是聊天。Kimi K2 的訓練體系可以看作是多種最佳實踐的結合體現：大規模監督學習，加上專注的代理數據，再加上謹慎的 RL 微調來完善模型的決策能力。

性能基準：Kimi K2 如何表現

這些創新帶來了哪些實際性能提升？在許多方面，Kimi K2 為開放模型設立了新的高標準。根據 Moonshot 的技術報告和獨立評估，K2-Instruct（經過指令調整的變體）在複雜的編碼、推理和多步驟任務上，在開源 LLM 中提供了最先進的結果。事實上，在多項基準上，K2 不僅領先於開放模型，甚至匹敵或超越了一些知名的封閉模型。例如，在 SWE-Bench（Verified）——一個衡量模型能否使用工具協助修復代碼的具有挑戰性的代理編碼基準上，Kimi K2 取得了**65.8%**的準確率，遠遠超過 GPT-4.1（54.6%）。它甚至超過了 Anthropic 的 Claude 2（在類似條件下，Claude “Sonnet 4” 的得分為 54.2%），並接近 Claude 的最佳“思考增強”得分（72.7%）。通過一些額外的測試時計算（例如多次平行嘗試），K2 可以將該基準的得分提高到 71.6%，基本上縮小了與 Claude 專業表現的差距。

Kimi K2 在純粹的編碼任務中也表現出色。在 LiveCodeBench，這是一項端到端的編碼挑戰，K2 取得了 53.7% 的準確率，擊敗 GPT-4.1（44.7%）、Claude Opus 4（47.4%）和 DeepSeek-V3（46.9%）——這證明了其編碼能力medium.com。這表明 K2 在代碼和除錯上的訓練（以及所有那些驗證器）已經取得了成果，使其能夠比其他模型更常生成正確、可執行的代碼。另一個令人驚訝的結果來自 MATH-500，這是一個高等數學問題的基準測試：Kimi K2 達到 97.4% 的準確率，超過 GPT-4.1（得分 92.4%）medium.com。以接近 97% 的成功率解決數學問題是令人矚目的，這表明模型在通常需要逐步邏輯思考的領域中具有強大的推理能力。K2 在 GPQA-Diamond（一般問題解決） 和各種編碼競賽中的得分也同樣令人印象深刻。其在 OJBench（一個經典的編程挑戰集）中的得分為 27.1%，是開放模型中最高的，顯示它能夠在傳統算法編碼中應對自如medium.com。在一項名為 Tau2 的嚴苛知識密集型基準測試中，Kimi K2 取得了 65.8%，輕鬆超越 GPT-4.1（38.6%）和 Claude 2（45.2%）medium.com——這裡 K2 使用工具（如網頁瀏覽或計算器）的能力可能在回答電信相關問題中給予了它巨大的優勢。

值得注意的是，儘管 Kimi K2 在這些領域表現出色，但它並非在所有方面都絕對優越——保持客觀的看法是重要的。例如，當允許逐步「思考」時，Claude 2 在最難的 SWE-Bench 編碼基準測試中仍略有領先（72.7% 對 K2 的 65.8%）。而像 GPT-4 這樣的模型仍然具有 K2 所缺乏的能力——特別是多模態理解（GPT-4 能看圖像，而 K2 目前不能）以及可能在某些對話技巧上更勝一籌。Moonshot 刻意將 K2 聚焦於自主的文本任務，以速度和專業化為代價，捨棄了例如思維鏈透明性和多模態輸入。Kimi K2 的開源特性賦予了其獨特的優勢：任何人都可以使用或微調它，而無需支付專有 API 的高額費用。Moonshot 提供的 K2 API 價格僅為 OpenAI 的一小部分（每百萬個 token 價格約為 2.50 美元，而 GPT-4 為 8 美元）。這種成本效益，加上在編碼和推理方面的一流性能，使得 K2 成為與 GPT-4 級別模型相抗衡的開放替代方案。的確，觀察者稱 Kimi K2 是開放領域中*「今年最重要的 AI 模型發布」*，標誌著中國對西方 AI 巨頭的回應。它緊隨像阿里巴巴的 DeepSeek 這樣的模型之後，並且在很多方面超越了 DeepSeek 的性能（K2 在關鍵編碼基準測試中比最新的 DeepSeek 版本高出約 20 多分）。結論是，Kimi K2 為開放模型實現了新的能力水平，在許多實際任務中與現有模型匹敵或超越它們——這是快速發展的 LLM 領域中的重大進展。

全新「思考」模式：K2 與連鎖思維

Kimi K2 最令人興奮的更新之一，或許就是引入了專門的 K2「思考」模型——基本上，這是一個放慢速度並深入推理的 K2 版本。原本的 K2-Instruct 被形容為*「反射級，無需長時間思考」——它經過調整，可以快速產生有幫助的答案，這對於延遲來說是很棒的，但不總是適合複雜的問題解決。認識到這一點，Moonshot 最近發布了 Kimi-K2-Thinking，這是一個專門設計用於多步推理和多輪工具使用的變體。在 K2-Thinking 模式中，模型可以自動計劃一系列行動，進行更長的內部思維鏈，並在最終確定答案前調用外部工具或 API 以收集信息。技術上，它支持高達 256K 的 token 上下文窗口（極大，以保留中間計算），並且可以輸出一個特殊的 reasoning_content 字段來追溯其思考過程。例如，若被詢問一個複雜的研究問題，K2-Thinking 可能會生成一個計劃：將查詢拆分為子問題，進行網絡搜索（其工具調用之一），總結結果，進行計算，然後綜合出最終答案——同時將這些步驟記錄在 reasoning_content 中。早期報告顯示，K2-Thinking 可以自我分解指令，分析數據（例如 CSV 文件或通過工具的 JSON），甚至自主生成結構化報告。這有效地彌補了基礎 K2 的一個限制：缺乏明確的思維鏈支持。隨著 K2-Thinking 的推出，Moonshot 的模型更接近於 GPT-4 的 **「計劃與解決」**方法或 Claude 的 憲法 AI 推理，其中 AI 可以大聲思考*並對棘手問題進行迭代。這是重要的一步，因為它結合了 K2 的原始力量（那龐大的知識庫和編碼技能）與類似代理的認知過程，來解決那些無法一蹴而就的任務。

K2-Thinking 的引入與我們在 Macaron 自身情境中探討的理念相呼應。在 Macaron 的混合推理架構中，根據任務的不同，強調在快速反射反應和深入審慎推理之間取得平衡——本質上是在「系統 1」和「系統 2」認知間切換。K2 現在以兩種模式體現這一原則：用於快速解答的原始反射模式，以及用於複雜問題的思維模式。此外，Macaron 的指令遵循框架強調了 AI 助手在行動前正確解析和分解用戶指令的重要性（為了安全和準確性）。K2-Thinking 明顯與此一致：通過明確地將任務分解為子任務和工具調用，更不容易誤解請求或漏掉重要步驟。更甚者，K2-Thinking 整合外部工具 API 的能力，呼應了 Macaron 的理念，即個人 AI 應該與世界（如日曆、網絡數據、應用程式）互動，而非孤立運作。某種意義上，Kimi K2 正從一個強大的「大腦」進化為更像是一個完整的認知代理，這正是許多 AI 社群（包括 Macaron）認為的未來方向。

與其他前沿模型的比較

手持 Kimi K2（以及新的思考模式），Moonshot 的產品如何與其他尖端模型如OpenAI GPT-4、Anthropic Claude 2或傳聞中的 Google Gemini相比？我們已經看到K2 在編碼和推理基準測試中能與 GPT-4.1 和 Claude 2 匹敵——這是一個驚人的成就，因為那些模型擁有封閉數據和更長開發時間的優勢。值得注意的是，GPT-4 仍然擁有視覺輸入和可能更精細的自然語言調校等優勢。Claude 2（例如 Claude Sonnet 4.5）以其長篇幅的「憲法式」對話和長時間自治能力著稱（能處理非常長的會話），而且在某些深度代理任務中，Claude 在給予無限思考時間時，顯示出稍高的通過率。然而，K2 透過思考模式取得了類似的長期能力，縮小了這個差距。在純知識和數學方面，K2 或許甚至佔有優勢（其 MATH-500 接近滿分的成績便是證據）。尚未發布的Google 的 Gemini，預期為一個多模態、高度優化的模型，可能超越 GPT-4。Kimi K2 尚未具備多模態功能（沒有圖像或音頻理解），因此在這一點上可能落後於次世代模型。但 K2 的模組化工具使用方法可能通過讓其插入視覺或其他模型作為工具來彌補（可以想像將 K2 與一個圖像說明工具配對，以模仿多模態推理）。

還必須考慮部署和成本。Kimi K2 作為開源項目（具有寬鬆的許可證），可以由任何人自我託管或進行調整。其 MoE 設計意味著運行成本不低——您至少需要多個 A100 GPU 或類似設備來提供低延遲服務。Moonshot 確實提供了量化版本（如 GGUF 量化），可以在較小的設置上運行以進行實驗，但要在生產中充分利用 1T 規模需要強大的硬體。這是一個權衡：GPT-4 只能通過 API 訪問（不能自我託管），但繁重的運算則隱藏在雲端；使用 K2，您需要處理基礎設施，但可以獲得控制權。對於關心數據隱私或定制化的企業來說，K2 提供了一種封閉模型無法提供的獨立性。Macaron 的工程博客經常在整合模型時強調類似要點——在模型的原始能力和實際考慮因素（如延遲、成本和可控性）之間取得平衡。在 Macaron 的案例中，他們同時嘗試了**封閉 API（如 Claude）**和開放模型（如 DeepSeek）來支持不同功能。一個可能的趨勢正在浮現：混合部署，使用像 K2 這樣的開放模型來處理某些任務（如編程，它在這方面表現出色），而對於其他任務則使用專門的模型（可能是用於日常聊天的小型對話模型，或用於圖像的視覺模型）。

結論與展望

Moonshot 的 Kimi K2（以及 K2-Thinking 更新）代表了 AI 模型的重大進展——不僅僅是因為數字更大，而是因為它們在開放平台上結合了規模和真正的推理能力。從技術上講，K2 展示了專家混合架構是達到萬億級別規模的可行途徑，並且新的優化方法（MuonClip）可以在不發生災難性訓練失敗的情況下駕馭此類模型。該模型在編碼和推理基準測試中的頂級表現證明了大規模和創新訓練轉化為真正的解決問題能力。或許最重要的是，Kimi K2 展示了一個**“代理”範式**：它被明確訓練來使用工具，驗證其工作，並通過互動（強化學習）進行改進。這是對過去純粹靜態、單次預測模型的一種改變。它在某些方面接近了類人類的問題解決——例如將任務分解為步驟、使用外部資源、雙重檢查結果——所有這些都在一個 AI 系統中實現。對於開源 AI 社區來說，K2 的發布（提供基礎和指導檢查點）是一大福音，使研究人員能夠建立在一個能夠行動的模型上，而不僅僅是聊天。它為開放模型能夠做到的事情設置了一個新標準，可能會給封閉模型的領導者施加壓力，迫使他們提高競爭力或降低價格。

從 Macaron 的角度來看，Kimi K2 的出現肯定了我們在研發中的許多方向。我們在部落格中討論的層次推理、可驗證的行動鏈和豐富的指令跟隨在 K2 的設計中找到了現實的例子。看到這些想法被大規模實踐是令人鼓舞的。當然，仍有改進的空間。K2 仍然缺乏多模態功能，其思維鏈（儘管現在在思考模型中存在）是一個新的補充，必將進一步發展。對齊和安全仍然是挑戰——有人可能會問 1T 模型在對抗性或開放性場景中（未被其獎勵模型涵蓋）會如何表現。這些是持續研究的領域（包括在 Macaron）。事實上，Macaron 的團隊正在探索使用強化學習與基於擴散的文本生成相結合的新方法——基本上是一種新的後訓練文本擴散模型——以實現對 AI 輸出的更精細控制。儘管細節尚待揭曉，我們設想這可以讓 AI 通過可控的方式「擴散思考」各種可能性，潛在地減少幻覺問題，同時保持創造力。這是一個微妙的暗示，下一次飛躍可能會在哪裡發生：結合變壓器 LLM（如 K2）的優勢與擴散模型技術和嚴格的強化學習調整。

總而言之，Kimi K2 的 K2-Thinking 模型開創了一個新的開放式 AI 時代，這種 AI 不僅能深入推理，還能自主行動。這是我們領域快速進步的證明——就在一兩年前，開放模型有如此性能還被視為遙不可及的目標（無意雙關）。而現在它已經成為現實，並挑戰我們去思考更遠大的目標。隨著我們整合這些進步並嘗試自己的混合模型（無論是混合推理堆疊還是擴散-RL 混合體），尖端技術與可接觸性之間的界線不斷模糊。對開發者和用戶而言，這意味著更強大、透明且可控的 AI 系統即將到來，無論是來自 Moonshot、OpenAI 還是 Macaron 的實驗室。這也意味著 AI 不僅能更好地理解我們，還能在複雜任務中與我們並肩工作，真正開啟 AI 代理和協作智能的時代。