マカロン分析: Kimi K2「思考」モデル：オープンエージェンティックAIの進化

はじめに

Moonshot AI の Kimi K2 は、エージェント的な AI の境界を押し広げる画期的なオープンソースの大規模言語モデル (LLM) です。これらのモデルは単なる会話だけでなく、考え、行動することができるものです。2025年中頃に発表された Kimi K2 は、前例のない 1兆個のパラメータ（1推論あたり320億個がアクティブ） を持つ 専門家の混合 (MoE) モデルです。この巨大な規模と革新的なトレーニング技術により、Kimi K2 は OpenAI の GPT-4.1 や Anthropic の Claude (Opus 4) などの主要な独自モデルを複数の複雑なベンチマークで凌駕しています。多くの初期の LLM が単純な Q&A や対話に焦点を当てていたのに対し、Kimi K2 は自律的な問題解決のために設計されており、コードを書く、ツールを使う、タスクを完了するための複数ステップのプランを実行することができます。この投稿では、Kimi K2 の更新された「思考」モデルアーキテクチャ、そのトレーニングの革新、そして類似モデルとの比較について詳しく探ります。また、Macaron の技術ブログで議論されている概念（例えば、ハイブリッド推論スタック や命令追従フレームワーク）との関連性を示し、Macaron 自身の R&D の方向性（新しい RL+拡散テキストモデルを含む）がこれらの進歩とどのように一致しているかを示唆します。

アーキテクチャの革新: ムオンクリップを用いた兆スケールの MoE

Kimi K2 の中核にあるのは Mixture-of-Experts トランスフォーマー アーキテクチャです。単一の密なネットワークではなく、MoE はモデルを多くの専門化された「エキスパート」に分割し、トークンごとにサブセットのみが活性化します。Kimi K2 は トップ2ルーティング で384のエキスパートを使用し、各トークンは384のうち8つの選択されたエキスパート（共有エキスパート1つを含む）を通過します。これにより、1兆パラメータのモデルの効果を得つつ、トークンごとに32Bパラメータのみをアクティブに保つ効率的なスケーリングが可能です。アーキテクチャは61層で、注目次元は7168、初期のコンテキストウィンドウは業界標準を大きく超える128Kトークンまでです。特に、Kimi K2 は長いコンテキストでの安定性を向上させるために注意ヘッドの数を減らし、深いネットワークでのトレーニング発散を避けるための実用的な調整を行いました。

この規模のモデルを達成するためには、大きな最適化の課題を克服する必要がありました。Moonshotは、新しいオプティマイザーであるMuonClipを導入しました。これは、二次オーダーのMuonオプティマイザーの改良版です。MuonClipは、新しいQKクリッピング技術を使用しており、クエリ/キー投影行列を動的にスケールして、トランスフォーマーにおける悪名高い「ロジットの爆発」問題を防ぎます。これにより、Kimi K2は15.5兆トークンという驚異的な量のトークンで事前学習を行い、損失スパイクがゼロになることができました。これは、従来のAdamW最適化ではほぼ不可能な偉業です。つまり、このモデルは過去のLLMが達成した規模をはるかに超えたスケールで安定的に収束し、より多くのトレーニングデータを圧縮して優れた知識とスキルを得ることができました。MuonClipやその他のトレーニングテクニック（損失ジオメトリに適応した高ランクアップデートなど）の使用により、K2はトークン効率の面で優位性を持ち、以前のモデルよりも各トークンから多くを学ぶことができました。このトレーニングの安定性と効率性への注力は、Macaronの研究からのいくつかのテーマを反映しています。たとえば、MacaronのMind Labsでは、非常に大きなモデルを制御するために代替RLオプティマイザーやファインチューニング戦略を探求しています。（Macaron Tech Blog: 「Scaling All-Sync RL with DAPO and LoRA」で、Macaronがカスタム最適化を使用して10倍少ないGPUで671Bパラメータモデルをファインチューニングする方法をご覧ください。）

エージェント的ポストトレーニング: 合成スキルとジョイントRL

プレトレーニングはKimi K2に強固な基盤を築きましたが、その真の差別化要因はプレトレーニングの後にあります。MoonshotはK2に対して、推論能力、ツールの使用、整合性を植え付けることを目指した多段階のポストトレーニングプロセスを実施しました。重要な段階の一つは、大規模なエージェンティックデータ合成パイプラインでした。ここでは、チームが膨大な数のマルチステップのタスク例を生成しました。モデルは自律的に問題を分解し、ツールを呼び出し、コードを書いてデバッグし、正しい解決策を検証する必要がありました。数千の実際のツールとシミュレーションされたツールが関与し、各タスクには成功を検証するための機械検証可能なルーブリックやテストが付いていました。重要なのは、LLMベースの「検証者」がモデルの行動と出力をレビューし、失敗を排除したことです。このアプローチは、Moonshotのチームが「検証者経済」の一部として説明するもので、高品質な推論の軌跡のみがトレーニングフィードバックとして残ることを保証しました。それは、膨大な規模でモデルのそばに自動化されたコードレビュアーや数学の証明チェッカーがいるようなものです。興味深いことに、Macaronの独自のシステム設計も検証可能な推論のアイデアを強調しています。例えば、Macaronの自律コード合成パイプラインは、ニューラル生成とシンボリックチェックおよびテストを組み合わせたハイブリッドアプローチであり、純粋なニューラル出力よりも信頼性を向上させます。

合成ツールの使用トレーニングの後、MoonshotはK2を共同強化学習（RL）ステージでさらに洗練させました。RL微調整の間、Kimi K2は実際の環境とシミュレーション環境でのインタラクションが許可され、タスクを達成することで報酬を受け取りました。ユニークなのは、Moonshotが静的な報酬モデルにだけ頼らなかったことです。代わりに、彼らはK2と並行して批評モデルを訓練し、その応答を評価させました。この批評モデルは、最初に客観的なタスク（ユニットテストを通過するなど成功が明確なもの）で訓練され、その後、主観的な側面（助けになるか、トーンなど）を評価できるようになりました。これにより、報酬ハッキングを軽減し、スタイルや好みの前に検証可能な正確性にモデルのインセンティブを合わせることができました。RLステージには、長文生成を安定化させる対策も取り入れられました。K2は基礎スキルを忘れないように、事前トレーニング目標に短期間戻ることで正則化され、報酬の上限設定や温度減衰などの技術が使用され、RL調整モデルにありがちな漂流しがちな冗長な出力を防ぎました。この厳格なポストトレーニングの結果、Kimi K2はマルチステップの推論とツールの使用に非常に熟達し、かつ信頼性が高く、単なるチャットではなく**計画し実行できる「エージェント」**となりました。Kimi K2のトレーニングレジメンは、多くのベストプラクティスが収束した具現化と見なすことができます。巨大な教師あり学習、集中したエージェントデータ、そしてモデルの意思決定を磨くための慎重なRL微調整が融合したものです。

パフォーマンスベンチマーク：Kimi K2の実力

これらの革新が実際のパフォーマンスにどのような影響を与えるのでしょうか。多くの指標で、Kimi K2はオープンモデルの新たな基準を打ち立てました。Moonshotの技術報告書や独立した評価によると、K2-Instruct（指示調整バリアント）は、複雑なコーディング、推論、マルチステップタスクにおいて、オープンソースのLLMの中で最先端の結果を出しています。実際、いくつかのベンチマークでは、K2はオープンモデルをリードするだけでなく、一部の有名なクローズドモデルに匹敵またはそれを超える結果を示しています。例えば、SWE-Bench（Verified） – ツールの補助を受けてコードを修正できるかどうかを測る挑戦的なエージェント的コーディングベンチマーク – において、Kimi K2は65.8% の精度を記録し、GPT-4.1（54.6%）を大きく上回る結果を出しています。さらに、AnthropicのClaude 2（Claude「Sonnet 4」は同様の条件下で54.2%を記録）を僅かに上回り、Claudeの最高「思考対応」スコア（72.7%）にも手が届く位置にあります。追加のテスト時計算（例：複数回の並行試行）を行うことで、K2はそのベンチマークスコアを71.6% まで向上させ、Claudeの専門的なパフォーマンスにほぼ追いつくことができます。

Kimi K2は、純粋なコーディングタスクでもその実力を発揮します。LiveCodeBenchというエンドツーエンドのコーディングチャレンジでは、K2は**53.7%の精度を達成し、GPT-4.1 (44.7%)、Claude Opus 4 (47.4%)、DeepSeek-V3 (46.9%)を上回りました。これはK2のコーディング能力の証ですmedium.com。この結果は、コードとデバッグに関するK2のトレーニング（多くのバリファイアを使った）のおかげで、正しい実行可能なコードを他のモデルよりも頻繁に生成できることを示唆しています。さらに注目すべき結果は、MATH-500という高度な数学問題のベンチマークで、Kimi K2は97.4%**の精度を達成し、GPT-4.1（92.4%）を上回りましたmedium.com。数学を97%近い成功率で解くことは非常に優れており、このモデルの論理的思考能力が強いことを示しています。K2は、**GPQA-Diamond（一般問題解決）やさまざまなコーディングコンペティションでも同様に優れたスコアを持っています。OJBench（古典的なプログラミングチャレンジセット）での27.1%というスコアは、オープンモデルの中で最高であり、伝統的なアルゴリズムコーディングをこなす能力を示していますmedium.com。また、Tau2と呼ばれる知識集約型の厳しいベンチマークでは、Kimi K2は65.8%**を達成し、**GPT-4.1 (38.6%)**やClaude 2 (45.2%)を大幅に上回りましたmedium.com。ここで、K2のツール（ウェブブラウジングや計算機など）の使用能力が、テレコム関連のクエリに答える際の強力な利点となったと思われます。

Kimi K2はこれらの分野で優れていますが、すべてにおいて厳密に優れているわけではないことに注意が必要です。公平な視点が重要です。たとえば、SWE-Benchの最難関バージョンのコーディングベンチマークでは、ステップバイステップで「考える」ことを許可された場合、Claude 2が依然としてわずかにリードを保っていました（72.7%対K2の65.8%）。また、GPT-4のようなモデルにはK2が欠いている機能がまだあります。特にマルチモーダルの理解（GPT-4は画像を見ることができますが、現時点でK2はできません）や、一部の会話の洗練さです。ムーンショットは意図的にK2をエージェント的でテキストベースのタスクに集中させ、思考の透明性やマルチモーダル入力のようなものをスピードと特化のために犠牲にしています。しかし、Kimi K2のオープンソースの性質がユニークな優位性を与えます：誰でも使用したり微調整したりでき、独自APIの高額な料金がありません。ムーンショットはK2のAPIをOpenAIのコストの一部で提供しています（GPT-4の100万トークンあたり8ドルに対して約2.50ドルのオーダーです）。このコスト効率と、コーディングや推論におけるトップクラスのパフォーマンスを組み合わせることで、K2はGPT-4クラスのモデルに対する魅力的なオープンな代替案としての位置を占めています。実際、観察者はKimi K2をオープンな領域で*「今年最も重要なAIモデルのリリース」*と呼んでおり、西洋のAIの巨人に対する中国の答えを示しています。これは、アリババのDeepSeekのようなモデルの後に続くものであり、多くの点でDeepSeekのパフォーマンスを飛び越えています（K2は主要なコーディングベンチマークで最新のDeepSeekバージョンを20ポイント以上上回りました）。この結論として、Kimi K2はオープンモデルに新たなレベルの能力を達成し、多くの実用的なタスクで既存のモデルに匹敵または上回る成果を上げています。これは急速に進化するLLMの分野における重要な進展です。

新しい「思考」モード: K2と連鎖思考

Kimi K2における最もエキサイティングなアップデートの1つは、専門的なK2「Thinking」モデルの導入です。これは、K2のバージョンであり、ゆっくりと詳細に考えるものです。元のK2-Instructは*「反射的で、長い思考なし」と説明されており、単一のショットで迅速に有用な答えを生成するよう調整されていましたが、複雑な問題解決には必ずしも適していませんでした。これを認識して、Moonshotは最近、Kimi-K2-Thinkingをリリースしました。これは、マルチステップの推論と複数回のツール使用に明示的に設計されたバリアントです。K2-Thinkingモードでは、モデルが自律的に一連のアクションを計画し、長い内部の思考プロセスに従事し、外部のツールやAPIを呼び出して情報を収集し、答えを完成させることができます。技術的には、256Kトークンのコンテキストウィンドウ（中間計算を保持するために非常に大きい）をサポートし、その思考プロセスを追跡する特別なreasoning_contentフィールドを出力できます。例えば、複雑な研究質問を受けた場合、K2-Thinkingは次のような計画を生成するかもしれません：クエリをサブ質問に分割し、ウェブ検索を実行（ツール呼び出しの一つ）、結果を要約し、計算を行い、最終的な答えを合成する—これらのステップをすべてreasoning_contentに記録しながら。初期の報告によると、K2-Thinkingは指示を自己分解し、データを分析し（例えば、CSVファイルやツール経由のJSON）、構造化されたレポートを自律的に生成することができます。これは、ベースのK2の制限である明示的な思考チェーンのサポートの欠如を効果的に克服します。K2-Thinkingにより、MoonshotのモデルはGPT-4の*「Plan-and-Solve」**アプローチやClaudeのConstitutional AI reasoningに近づき、AIが声に出して考え、難しい問題に反復して取り組むことができます。これは、K2の膨大な知識ベースとコーディングスキルという生の力を、単一のショットでは対応できないタスクに取り組むためのエージェントのような認知プロセスと組み合わせた重要なステップです。

K2-シンキングの導入は、マカロンが独自のコンテキストで探求してきたアイデアと共鳴しています。マカロンのハイブリッド推論アーキテクチャでは、タスクに応じて速い反射的な応答と深い熟考的な推論をバランスさせることが強調されており、これは「システム1」と「システム2」の認知を切り替えることを意味します。K2は今、この原則を二つのモードで体現しています。元の反射モードは迅速な回答のため、思考モードは複雑な回答のためです。また、マカロンの指示追従フレームワークは、AIアシスタントがユーザーの指示を正確に解析し分解することがどれほど重要かを強調してきました（安全性と精度のために）。K2-シンキングはそれと明らかに一致しています。タスクを明確にサブタスクとツールコールに分解することで、要求を誤解したり重要なステップを飛ばしたりする可能性が低くなります。さらに、K2-シンキングの外部ツールAPIの統合能力は、パーソナルAIがカレンダーやウェブデータ、アプリといった世界と連携すべきであり、孤立して動作すべきではないというマカロンの哲学に反響しています。ある意味、Kimi K2は強力な「脳」から、より完全な認知エージェントへと進化しており、これはAIコミュニティの多く（マカロンを含む）が未来であると考えている方向性とまさに一致しています。

他のフロンティアモデルとの比較

Kimi K2（および新しいシンキングモード）を手にした今、Moonshotの提供は、OpenAI GPT-4、Anthropic Claude 2、または噂されているGoogleのGeminiなどの最先端モデルとどのように比較されるでしょうか？すでに、K2がコーディングや推論のベンチマークでGPT-4.1やClaude 2に匹敵する実力を持つことがわかっています。これらのモデルが閉じたデータと長い開発期間の利点を持っていることから考えると、驚くべき成果です。GPT-4には、ビジョン入力や、より洗練された自然言語チューニングの可能性など、まだ強みがあります。Claude 2（例：Claude Sonnet 4.5）は、長文の「憲法上」整合した応答と長い自律性（非常に長いセッションを処理する能力）で知られており、実際、無制限の思考が許可された場合、いくつかの深くエージェント的なタスクでわずかに高い合格率を示しました。しかし、K2はシンキングモードを活用して、同様の長期的な能力を獲得することで、このギャップを縮めています。生の知識や数学に関しては、K2は（MATH-500でのほぼ完璧なスコアにより）優位性を持っているかもしれません。執筆時点ではまだ未発売のGoogleのGeminiは、マルチモーダルで高度に最適化されたモデルで、GPT-4を超える可能性があると予想されています。Kimi K2にはまだマルチモダリティはありません（画像や音声の理解はありません）が、次世代モデルに遅れをとる可能性があるのはその点です。しかし、K2のモジュラーなツール使用アプローチは、ビジョンや他のモデルをツールとして組み込むことで補償するかもしれません（K2を画像キャプションツールと組み合わせてマルチモーダルな推論を模倣することを想像できます）。

展開とコストも考慮する必要があります。Kimi K2はオープンソース（寛容なライセンス付き）であるため、誰でもセルフホストしたり適応したりできます。そのMoEデザインは、運用が安価ではなく、複数のA100 GPUまたはそれに類するものが必要で、低遅延で提供するための条件です。Moonshotは小規模なセットアップでの実験用に量子化バージョン（例えば、GGUF量子化）を提供しましたが、完全な1Tスケールで本番環境で活用するには本格的なハードウェアが必要です。これはトレードオフです：GPT-4はAPIを介してのみアクセス可能で（セルフホスト不可）、重作業はクラウド上で隠されていますが、K2ではインフラを管理する代わりにコントロールを得ます。データプライバシーやカスタマイズを重視する企業にとって、K2はクローズドモデルでは得られない独立性を提供します。Macaronのエンジニアリングブログでも、モデルを統合する際に同様のポイントが強調されています。つまり、モデルの生の能力と遅延、コスト、制御可能性といった実用的な考慮事項とのバランスです。Macaronの場合、彼らは**クローズドAPI（Claudeなど）**とオープンモデル（DeepSeekなど）の両方で異なる機能を強化する実験を行いました。今後の傾向として、K2のようなオープンモデルが特定のタスク（例えば、得意とするコーディング）に使用され、他のタスクには専門モデル（例えば、カジュアルチャット用の小規模対話モデルや画像用のビジョンモデル）が使われるハイブリッド展開が見られるでしょう。

結論と展望

MoonshotのKimi K2（およびK2-Thinkingアップデート）は、AIモデルにおける重要な進歩を象徴しています。単に数値が大きいだけではなく、スケールと真の推論能力をオープンプラットフォームで結びつけたことがその理由です。技術的には、K2はMixture-of-Expertsアーキテクチャが兆単位のスケールにおいて有効な道であることを示し、新しい最適化手法（MuonClip）が破滅的なトレーニング失敗なしにこれらのモデルを制御できることを証明しています。このモデルのコーディングと推論のベンチマークにおけるトップクラスのパフォーマンスは、大規模なスケールと革新的なトレーニングが実際の問題解決能力に転化したことの証です。おそらく最も重要なのは、Kimi K2が**「エージェント的」パラダイム**を示していることです。これは、ツールを使用し、作業を確認し、対話を通じて改善するように明示的にトレーニングされています（RL）。これは過去の純粋に静的でワンショットの予測モデルからの脱却です。人間のような問題解決能力において、タスクをステップに分け、外部リソースを使用し、結果を再確認するなど、いくつかのギャップを埋めています。オープンソースのAIコミュニティにとって、K2のリリース（ベースと指示付きのチェックポイントの両方が利用可能）は恩恵であり、研究者が単にチャットするだけでなく行動するモデルを基に構築できるようにします。これはオープンモデルができることの新しいベンチマークを設定し、クローズドモデルのリーダーたちにゲームを向上させるか、価格を下げるよう圧力をかける可能性があります。

マカロンの視点から見ると、Kimi K2の登場は、私たちの研究開発が進んでいる方向性を多く肯定するものです。階層的推論、検証可能なアクションチェーン、充実した指示フォローについてのブログの議論が、K2の設計において現実の例を見出しています。これらのアイデアが大規模に実践されるのを見るのは励みになります。もちろん、改善の余地は常にあります。K2は依然としてマルチモーダル性に欠けており、その思考モデルにおいて新たに追加されたチェーン・オブ・ソートは、今後進化することが確実です。アライメントと安全性は依然として課題であり、1Tモデルがその報酬モデルでカバーされていない敵対的またはオープンエンドなシナリオでどのように振る舞うかを問うことができます。これらは、マカロンを含む現在進行中の研究領域です。実際、マカロンのチームは、拡散型テキスト生成と連携した強化学習を用いた新しいアプローチを探求しており、AIの出力をより細かく制御するための新しいポストトレーニングテキスト拡散モデルを実現しようとしています。詳細は今後発表予定ですが、これによりAIが可能性を「拡散しながら考える」ことができるようになり、創造性を保ちながら幻覚の問題を軽減する可能性があります。次の飛躍がどこで起こるかの微妙なヒントを提供しています。それは、トランスフォーマーLLM（K2のような）と拡散モデル技術、および厳密なRLチューニングの強みを組み合わせることです。

要するに、Kimi K2のK2-Thinkingモデルは、深く考えられると同時に自律的に動作できるオープンAIの新しい時代を切り開きます。これは私たちの分野における急速な進歩の証です。1、2年前には、オープンモデルからこのような性能が得られるとは思いもよらなかったでしょう。今、それが現実となり、私たち全員により大きな考えを持つよう促しています。これらの進歩を統合し、自分たちのハイブリッド（ハイブリッド推論スタックや拡散-RLハイブリッドなど）を試す中で、最先端と手に届くものとの境界は曖昧になり続けています。開発者とユーザーにとっての利点はわくわくするものです。より強力で透明かつ制御可能なAIシステムが、Moonshot、OpenAI、またはMacaronのラボから登場する可能性があるのです。それは、AIが私たちをよりよく理解するだけでなく、複雑なタスクにおいてともに働くことができることを意味し、まさにAIエージェントと協調知能の時代を切り開くのです。