
作者:Boxu Li
Kimi K2思考是Moonshot AI最新的大型語言模型(LLM),被設計為一個「思考代理」,能夠逐步推理並自主調用外部工具。本質上,Kimi K2是一個開源代理推理模型,推動深度推理和長期任務執行的界限。於2025年末發布,它擁有龐大的1萬億參數架構,但通過專家混合(MoE)設計,每次推斷僅激活320億參數,從而高效運行[1]。這使得K2在不需要不切實際的硬件的情況下,能夠在複雜任務中提供頂級性能。作為一個開源模型(在修改的MIT許可下發布),Kimi K2對AI社群免費開放,這與OpenAI的GPT-5系列和Anthropic的Claude等專有系統形成鮮明對比。
在 Kimi K2 的架構下,結合了先進的 Transformer 主幹與每個區塊中的 MoE(專家混合)層。總共有 61 層和 384 個專家,使用 64 個注意力頭和 SwiGLU 激活函數[8]。每個 token 僅有 8 個專家是活躍的,由引導網路將每個查詢路由到最相關的「專家」。這種設計賦予 K2 一種模組化推理的能力:不同的專家可以專精於不同的子任務(數學、程式碼、語言等),並且模型在處理輸入時動態組裝出專家路徑的**「推理圖」**。換言之,每個複雜的查詢會穿越一個專家節點的圖,實現比單一模型更具多樣性和準確性的推理能力。
這個想法符合新興研究,將思維鏈表現為圖形而非線性路徑,這可以提高模型的理解和穩健性。K2 的訓練可能鼓勵了這種分支和合併的行為,為每個查詢產生隱式推理圖。結果是一個靈活解決問題的 LLM,在收斂到答案之前,內部探索多個解決方案路徑。這可能有助於其在推理基準測試中的高分。儘管技術複雜,K2 仍然易於使用:測試者報告其在雙 M3-Ultra 設置(Apple 的 SOC)上以約 15 tokens/sec 速度運行,並且完整的 1T 模型在經壓縮後適合約 600 GB 的 VRAM。[12][13]。對於一個開源社區模型來說,考慮到其規模,這是相當可及的。
Moonshot 的 Kimi K2 已經與 2025 年的最佳模型進行了測試。在許多 2025 年的 AI 基準測試 中,K2 的結果引人注目。它在幾個推理挑戰中創下新的最先進分數,常常超越其封閉源代碼的競爭對手[2][14]。以下是主要基準比較的快照(越高 = 性能越好):
表格: Kimi K2 思考與頂尖模型比較 – 在複雜推理(HLE)和網頁研究任務中,K2 領先群雄,甚至超越了 GPT-5.1。它在代理工具增強型基準測試如 BrowseComp 中表現出色,遠遠超過了在工具使用上表現掙扎的 Claude 4.5[15]。GPQA 顯示 K2 在困難的問答上與 GPT-5.1 匹敵,而在編碼基準測試(SWE-Bench)中,K2 代表了開放模型的前沿[11][20]。K2 唯一表現平平的類別是在某些知識密集型任務中,GPT-5.1 或 Claude 仍然略佔優勢[14] – 例如,GPT-5.1 在某些高級語言任務上得分稍高,而 Claude 4.5 據報在一些高階創意寫作評估中保持優勢。然而,Kimi K2 已經大幅縮小了差距。這是開放模型在整體能力上最接近封閉“前沿”模型的一次[22]。
值得注意的是,人類最後的考驗 (HLE)——一項橫跨多個領域的殘酷綜合測試——成為了K2的展示舞台。在啟用工具的情況下,Kimi K2獲得了44.9%的成績,超越了GPT-5.1的41.7%[18]。這是一個重大事件:HLE實質上是一個類圖靈測試的知識和推理挑戰,因此一個開放模型在這裡超越了一個OpenAI的旗艦模型是值得關注的。在BrowseComp,一個具挑戰性的網頁研究基準上,K2達到了60.2%,而GPT-5.1是54.9%,Claude 4.5則遠遠落後,僅有24%[15]。這強調了像Kimi K2這樣使用工具的“代理”模型如何能在需要主動檢索和多步推理的任務中佔據優勢。儘管Anthropic的Claude在“Sonnet 4.5”推理模式下運行,但它並未針對這類互動任務進行優化,而K2則是專為此設計的。
值得注意的是,不是每個分數都是 K2 的勝利。在某些領域(例如一些常識測驗和創意任務),GPT-5.1 或 Claude 4.5 脫穎而出[14]。例如,GPT-5.1 在某些高階學術基準測試中略有領先,而 Claude 的廣泛微調有時能幫助其在細緻的對話質量上佔優。然而,差距很小,K2 經常在範圍內獲勝或打平。考慮到一年前最佳的開源模型還遠遠落後於 GPT-4 之類的模型,這代表了開源 LLMs 的巨大飛躍。
OpenAI 的 GPT-5.1-Codex-Max 是 GPT-5.1 的專門版本,旨在處理長篇編程和代理任務。這是個封閉的模型,但根據現有資訊,GPT-5.1 使用了密集(完全激活)的架構,參數可能達到數百億(OpenAI 並未披露準確大小)。在比較中,Kimi K2 與 GPT-5.1 不相上下。在像 HLE 這樣的推理基準測試中,K2 實際上略微超過了 GPT-5.1,並在複雜問答中幾乎達到相同的表現(K2 的 85.7% 對 GPT-5.1 的 84.5% 在一套困難的問答測試中)[18]。GPT-5.1 在某些領域仍略佔優勢——例如,GPT-5.1 在多步編程和數學的訓練使其在某些數學/編碼測試中獲得接近完美的分數(OpenAI 報告稱 GPT-5.1 在 AIME 數學測試中使用工具達到 99.6%,略高於 K2 的 99.1%[23])。但這些差異是微不足道的。
一個大的對比是上下文處理:Kimi K2 有一個固定的 256K 字元窗口,而 GPT-5.1 Codex-Max 使用一種稱為 compaction 的「多上下文」策略。OpenAI 的模型可以跨多個上下文窗口工作,有效地在單一擴展任務中處理數百萬個字元[21]**。它不是一個巨大的窗口,而是根據需要對上下文進行分區和壓縮。這使得 GPT-5.1 能夠在一個任務中處理整個代碼庫。K2 不能原生地同時處理數百萬個字元——它一次只能處理 256K——但它仍然可以一次性處理大量文檔。因此,對於像大規模代碼重構這樣的任務,GPT-5.1 可能在其聰明的上下文處理方面有優勢。另一方面,Kimi K2 的優勢是可及性:它是開源的並且可以自我托管,而 GPT-5.1 是一項專有服務。開發人員可以通過 OpenAI 兼容的 API 集成 K2,或在自己的硬件上運行它[24],避免供應商鎖定。總而言之,Kimi K2 和 GPT-5.1 在推理基準上不相上下,但在理念上有所不同——一個是開放社區的規模勝利,另一個是擁有尖端專有技巧的封閉模型。
Anthropic 的 Claude 4.5,代號「Claude Sonnet 4.5」,是一個更新版本,強調更長的推理鏈和更具「對話思維」的風格。Claude 4.5 引入了 交錯思維標記——基本上,Claude 有時會在內部自我對話以解決問題,這種方法曾是 Anthropic 所獨有的[25]。有趣的是,這與 Kimi K2 和其他代理模型執行連鎖思維的方式相似,儘管 Claude 歷史上是不用工具的。在直接比較中,Kimi K2 在大多數工具增強任務上大幅超越 Claude 4.5。如上所示,在 BrowseComp(網頁瀏覽/搜尋挑戰)中,K2 達到了 60%,而 Claude 4.5 僅達到 24%[15]。這表明當需要積極的工具使用或網頁互動時,Claude 的推理能力會下降——這可能是因為 Claude 並非專為自主工具調用而設計。Claude 4.5 在純知識基準測試中仍保持競爭力。例如,在擴展的 MMLU 知識測試中,Claude 的得分在 80 多分,與 K2 大致相當[26]。
在**創意寫作和「氛圍」**方面,Claude 以其友好且不那麼決定性的風格而聞名。早期用戶指出,Kimi K2 保留了其前代型號的獨特寫作品質,因此也能產生類似人類且引人入勝的回應。Claude 和 K2 都支持 100K+ 的上下文(Claude 可達 100K,K2 則遠遠超過),這意味著它們可以很好地處理長篇對話或文檔。K2 的優勢在於其在決定性、目標導向的任務中脫穎而出——它能保持正軌,不會在數百步中迷失,而用戶有時報告 Claude 可能會偏離主題或在非常複雜的查詢中需要偶爾的指導。
另一個因素是開放性:Claude 4.5 是封閉源代碼並通過 API 訪問(有成本和保護措施),而 K2 是開放的。如果開發者或研究人員需要檢查或微調模型,K2 提供了這種靈活性。總結來說,Claude 4.5 在自然對話 AI 方面的優勢受到認可,但 Kimi K2 在結構化推理和工具使用場景中更為強大,使其可以說是兩者中更**強大的「思考」代理人**。
AI 領域正在迅速發展,常與 Kimi K2 並列提及的兩個名字是 DeepSeek 和 Gemini。中國的 DeepSeek 實驗室即將推出的旗艦產品是 DeepSeek V4(預計 2025 年末),該實驗室以積極推動上下文長度和效率著稱。預覽表明,DeepSeek V4 將支持 百萬字元上下文窗口——足以容納《戰爭與和平》兩遍[6]。這遠遠超過了 K2 的上下文,表明其強調一次性攝取大量數據(如整個代碼庫或資料庫)。V4 的早期測試者也報告說,其逐步解決問題的能力比 V3 提升了 40%,且推理錯誤大幅減少[27]。如果這些數據得以保持,DeepSeek V4 可能在系統性推理任務上挑戰 Kimi K2。然而,DeepSeek 模型歷來專注於“基準最大化” ——主導基準測試分數——有時以犧牲真實世界的細緻度為代價[28]。V4 是否能匹敵 K2 的全面代理行為仍有待觀察。Kimi K2,憑藉其 MoE 和工具使用訓練,是一個更全面的代理,而 DeepSeek 可能需要額外的工具插件或提示來達成相同的效果。
另一方面,Google 的 Gemini 3 Pro 是這家科技巨頭對下一代 AI 的回應。Gemini 3 Pro 被描述為一個**「推理優先」的多模態模型,具有先進的智能代理功能**,並且顯著地具備1M 代幣上下文窗口[7]。它的構建目的是在複雜問題解決上表現卓越,甚至可以處理圖像和其他模態,這反映出與僅限文字的 Kimi K2 略有不同的重點。在內部基準測試中,Gemini 3 據說在推理、編碼和多模態任務中表現優於先前的模型[29][30]。作為一個封閉的模型,Gemini 將通過 Google 的服務(例如 Vertex AI)而不是可下載的權重提供。謠言指出,Gemini 3 可能會超越 K2 的一些成績,但在公開的基準測試之前,Kimi K2 在公開報導的智能代理 LLM 中仍然佔據首位。
值得注意的是,開放和封閉模型之間的差距正在迅速縮小。Nathan Lambert 指出,Kimi K2 是*「開放模型有史以來最接近封閉性能前沿的模型」* [22]。像 DeepSeek 和 Kimi 這樣的開放模型現在達到了只有一年前專有模型才能達到的水平。對於 AI 實務者而言,這意味著更多的選擇和更快的進步。 現在可以通過 Hugging Face 或 Moonshot API 利用 Kimi K2,並在許多情況下享受與 GPT-5.1 相當的結果,而不受封閉生態系統的限制。同樣,來自 DeepSeek V4、Gemini 3 和其他模型的競爭可能會促使 OpenAI 和 Anthropic 進一步創新(社群如所說,他們「將不得不努力」 [31])。
Q: 什麼是 Kimi K2 Thinking 模型? A: Kimi K2 Thinking 是由 Moonshot AI 開發的大型語言模型,設計為自主推理代理。這是一個1 兆參數模型(專家混合架構),可以逐步解決複雜問題,並在推理過程中調用外部工具(如網頁搜索或 Python)。Kimi K2 是開源的,任何人都可以使用或部署它,並且在許多 2025 年 AI 基準測試中達到最先進的性能。
Q: Kimi K2 是開源且免費使用嗎? A: 是的。Kimi K2 已經以社群的名義(基於修改版 MIT 授權)公開發布[1]。你可以從 Hugging Face 下載模型權重,或者通過 Moonshot 的 API 使用[24]。作為開源模型,意味著研究人員和開發人員可以在自己的硬體上運行 K2,進行微調,或將其整合到應用中而不需要支付許可費(至少對於小型部署而言)。這種可及性是相較於像 GPT-5.1 或 Claude 這類僅透過付費 API 提供的封閉模型的重大優勢。
問:Kimi K2 如何與 GPT-5.1 和 Claude 4.5 比較? **答:**Kimi K2 在許多推理領域上與最新的 GPT-5.1 和 Claude 4.5 相當,甚至在某些基準上表現更佳[15][14]。例如,K2 在一個困難的考試基準(HLE with tools)中得分高於 GPT-5.1[18],並且在一項網路研究任務(BrowseComp)中大幅超越 Claude 4.5[15]。GPT-5.1 在某些任務上仍然略勝一籌(並具有像多窗口上下文處理這樣的專有功能[21]),而 Claude 4.5 在對話和創意任務中表現優異。但總的來說,Kimi K2 在能力上基本上已經與頂級的封閉模型相匹敵——這對於一個開放模型來說是個了不起的成就。
Q: 運行 Kimi K2 需要哪些硬體? A: Kimi K2 規模龐大:擁有 1 兆個參數(每個 token 啟動 320 億)。完整模型在 FP16 精度下需要大約 500–600 GB 的 VRAM 才能加載。不過,得益於 4 位元量化,如果使用 INT4 權重,則只需約 >150 GB 的 VRAM 就能運行[12][13]。這讓其能在高階伺服器或叢集上運行(例如,8× A100 GPU 可以承載它)。對於個人使用,你也可以運行較小的蒸餾版本或使用雲端服務。一位 Reddit 用戶使用兩個 Apple M3 Ultra 晶片運行 K2,速度約為每秒 15 個 token(使用量化模型)[12]。總之,儘管不簡單,K2 的高效設計使得在合理的多 GPU 設置下能夠實驗兆參數規模變得可能。
問:Kimi K2 在一個會話中可以使用多少工具? 答: Kimi K2 可以在單一會話中協調大量的工具調用——大約 200 到 300 次連續工具使用,無需人工干預[2][3]。這意味著 K2 可以在達成目標的過程中持續進行數百步的搜尋、計算、編碼等循環操作。在這些調用過程中,K2 能保持上下文,使用特別的格式將「思考」和工具執行交錯結合。這種能力是它被稱為「思考」模型的一部分原因——它基本上是在內部運行一個自主代理循環。相比之下,大多數早期模型在使用幾十次工具後就會偏離軌道或遺忘目標。
Kimi K2 的出現標誌著代理推理模型的一個關鍵時刻。我們現在擁有一個開源系統,在複雜推理和自主任務執行方面可媲美最好的封閉模型。這模糊了專有 AI 巨頭與社群驅動項目之間的界限。對於 AI 領域來說,這意味著長期上下文、工具整合和大規模等關鍵進展不再僅限於擁有數兆美元資源的公司。開源模型更快發布並縮小性能差距,迫使封閉實驗室在不僅僅擴大參數規模上進行創新。我們可能會看到一個快速的超越循環,開源模型以與企業模型同樣快甚至更快的速度採用新研究。這種競爭動態使最終用戶和研究人員受益,因為模型變得更強大、透明且可定制。
對於 Macaron 的記憶擴散及類似的努力,Kimi K2 的成功是一種驗證。記憶擴散——Macaron 採用的賦予 AI 代理 長期持久記憶 的方法——與 K2 所體現的趨勢一致。Kimi K2 展示了超長上下文和穩定的長期推理在實踐中是可實現的,這正是記憶擴散旨在提供的能力。將豐富的長期記憶整合到代理模型中,可能進一步促成 “終身學習” AI 代理,能夠隨時間保留和完善知識。K2 通過保持長時間使用工具的會話一致性暗示了這一未來;下一步或許是能夠跨會話記憶的模型,不斷將新資訊擴散到持久的知識儲存中。Macaron 的記憶擴散項目準備利用這些進步,可能結合類似 K2 的推理圖和長程記憶機制,創造真正的 持續學習 AI。
總結來說,Kimi K2 Thinking 不僅僅是另一個大型模型,它是 AI 發展方向的藍圖。它證明了開源的 LLM 可以通過正確的架構和訓練達到頂尖的推理能力。當我們將這些想法融入新的系統中(無論是 OpenAI 的下一個模型、Google 的 Gemini,還是 Macaron 自己的代理),我們都更接近於能夠在無限期的視野中可靠地思考、記憶和行動的 AI。對於任何關注 AI 的人來說,Kimi K2 的表現是一個明確的信號:強大開源代理 AI 的時代已經到來,並且其連鎖反應——更多的創新、更多的合作,還有更多的內部記憶擴散——將塑造下一代的智能代理。
[1] [11] [12] [13] [15] [18] [20] [24] 我對 Kimi K2 Thinking 的實際體驗:改變遊戲規則的開源 AI : r/LocalLLaMA
https://www.reddit.com/r/LocalLLaMA/comments/1oqi4qp/my_handson_review_of_kimi_k2_thinking_the/
[2] [4] [8] [16] [17] [19] [23] [26] moonshotai/Kimi-K2-Thinking · Hugging Face
https://huggingface.co/moonshotai/Kimi-K2-Thinking
[3] [5] [9] [10] [14] [22] [25] [28] [31] 5 個關於 Kimi K2 思維的想法 - Nathan Lambert 撰寫
https://www.interconnects.ai/p/kimi-k2-thinking-what-it-means
[6] [27] DeepSeek V4 預覽:百萬標記上下文窗口和推理加速 | 由 AI Engineering 撰寫 | 2025 年 9 月 | Medium
[7] Google 模型 | Vertex AI 上的生成式 AI | Google Cloud 文檔
https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models
[21] 構建更多 GPT-5.1-Codex-Max | OpenAI
https://openai.com/index/gpt-5-1-codex-max/
[29] Gemini 3 現已可供企業使用 | Google Cloud Blog
https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-is-available-for-enterprise
[30] 從 GPT-3 到 Gemini 3 的三年 - 作者:Ethan Mollick
https://www.oneusefulthing.org/p/three-years-from-gpt-3-to-gemini