
著者: Boxu LI
人工知能の進化する風景の中で、極端なスケールでの事前トレーニングが強力な静的能力をもたらした現在、その最前線はますます大きな静的モデルを構築することから、エージェンティックシステム—深く推論し、ツールを使用し、見て記憶し、経験から継続的に学習するAIエージェントを作成することへとシフトしています[1]。
Thinking Machines LabのTinkerプラットフォームは、2025年12月12日の一般利用可能性の発表と共に、インフラストラクチャの重要な飛躍を表し、1兆パラメーターモデルのファインチューニングとマルチモーダル拡張へのアクセスを民主化します。同時に、Macaron AIの研究部門であるMind Labは、モデルが知識の凍結されたリポジトリから実世界のフィードバックを通じて自らを洗練させる動的プロセスへと移行する「経験的知能」に関する哲学的および技術的枠組みを明確にしています。この融合は、研究と製品の共同設計を洗練し、アルゴリズムの革新と展開された適応の間のループを閉じるという深い機会を提供します。
Tinkerの更新における主要な革新
この投稿では、Tinker の新しい Kimi K2 推論モデル、OpenAI 互換インターフェース、および Qwen3-VL 視覚モデルについて詳しく解説し、Mind Lab の経験的知能の哲学、兆パラメーター強化学習(RL)のブレークスルー、メモリ拡散アプローチ、および次世代 AI システム構築への戦略的影響を探ります。
Tinker は、研究者がインフラについて心配することなく、最先端のモデルを微調整しデプロイできるように設計されたAIトレーニングプラットフォームです[2][3]。2025年12月に、TinkerはAIモデルの推論能力、ツールの利用、視覚理解を強化するいくつかの大規模なアップデートを発表しました[4]:
[15] 限られたラベル付き例での画像分類タスクにおける、微調整されたQwen3-VL-235B(ビジョン・ランゲージモデル)とDINOv2(ビジョンオンリーベースライン)の比較。Qwen3-VLは、特に少データの状況(左端)で、言語に基づく視覚理解のおかげでより高い精度を達成します。
クラスごとに1つの例しかなくても、235B Qwen3-VLモデルは合理的な精度を達成し、この極端な低データ環境でDINOv2を大きく上回りました[15]。例の数が増えるにつれ、両モデルとも改善しましたが、Qwen3-VLは優位性を保ち、強力な少数ショット一般化を示しました[16]。この優位性は、モデルの組み込みの言語と世界の知識に由来します。例えば、Qwen3-VLは「ひまわり」や「ゴールデンレトリバー」がどのように見えるか、またはどのように説明されるかの概念を、マルチモーダル事前学習によって既に持っています[16]。これは、最小限の新しい例で新しい画像を認識または分類できることを意味します。実際には、Tinkerのユーザーは、これらの大規模な視覚言語モデルを活用することで、非常に小さなデータセットで視覚タスクにおいて高い精度を達成できます。このデータ効率の良い視覚機能は、ラベル付きデータが不足している現実のシナリオで重要です。また、ツール拡張推論の力を示唆しています。「見る」ことができるモデルは、視覚的手がかりと言語的コンテキストの両方を活用でき、より多用途なエージェントになります(例えば、図を読み説明する、あるいは画像を推論チェーンの一部として使用するなど)。全体として、Qwen3-VLのTinkerへの追加は、プラットフォームの範囲を純粋なテキストから視覚の領域に拡張し、同じ統一されたトレーニングAPIでマルチモーダル推論ワークフローを可能にします。
研究の最前線では、Macaron AI に関連する新しいフロンティア研究所 Mind Lab が、AI エージェントを真に適応的で体験的にするという課題に取り組んでいます。Mind Lab の理念は、「本当の知性は単なる大規模な事前学習ではなく、実際の経験から生まれる」というものです[17]。言い換えれば、静的なデータセットでモデルを単に拡張するだけでは不十分であり、AI の次の飛躍は、人間が経験を積み重ねるように、相互作用から継続的に学ぶシステムから来るということです。Mind Lab は、このビジョンを Experiential Intelligence として位置づけています。静的な「脳」から適応的な「心」へと移行し、内部の世界モデルを形成し、フィードバックを通じて知識を更新し、明確な目標や価値観を持ち、自分の行動を振り返ることさえできるシステムです[18]。これは、事前学習後に強力だが固定された現在の LLM の限界に対する直接的な対応です[18]。本物の適応を可能にするメカニズムを導入することで、例えば継続的な強化学習や動的メモリなど、Mind Lab は使用とともに進化するエージェントを作り出すことを目指しています。
Mind Labの活動の2つの柱は、(1) 大規模モデルの効率的なRLファインチューニングによって新しい行動を植え付けること、そして**(2) エージェントが長期的な知識を保持・活用できるようにする高度なメモリシステムです。これらはどちらも、AIをよりエージェント的**(自律的に決定し改善する)にし、研究の進展を製品展開と緊密に結びつけることを目的としています。
Mind Labの主要な成果の一つは、強化学習を兆単位のパラメータ規模で実現し、それを実用的かつコスト効率の良い方法で行ったことです。2025年12月、彼らは1.04兆パラメータのKimi K2推論モデルにおいて、通常のトレーニングに必要なGPUリソースの約10%で初のエンドツーエンドのRLパイプラインを発表しました[19]。これはどのようにして可能になったのでしょうか?チームは、モデルのMixture-of-Experts構造全体でパラメータ効率の良い微調整(LoRA) とハイブリッド並列化を組み合わせた専門のトレーニングエンジンを構築したのです[20][21]。
すべてのトリリオンウェイトをチューニングする代わりに、Mind Labのアプローチでは、選択されたKimi K2の層(高密度バックボーンおよびエキスパート層の両方)に低ランク適応行列を注入し、RLの間にそれらのみを更新します。この方法により学習可能なパラメータの数が劇的に削減されます(例えば、フルマトリックスの代わりに層ごとに数十から数百のLoRAランク)。その結果として、メモリと計算の使用量が一桁減少します。同時に、この規模のモデルをトレーニングするには、多くのGPUに効率的に負荷を分散する必要があります。チームはハイブリッドパラレル戦略を採用しました:テンソル並列、パイプライン並列、エキスパート並列(MoEエキスパート用)、および長いシーケンストレーニング用のシーケンス並列を調整し、分割されたLoRA更新と互換性を持たせました。実際には、既存の大規模モデルトレーニングフレームワーク(NVIDIAのMegatronおよびByteDanceのVolcEngine RL)を利用し、MoEでのLoRAを処理するように拡張し、クラスター内の64 GPUに計算を慎重にバランスさせました。その結果、完全なKimi K2モデルでの安定したオンポリシーRLトレーニング(PPOスタイルのアルゴリズムに似ています)が実現し、推論の品質にフィードバックを提供する報酬モデルが使われました。これは、コストのためにほとんどのチームにとって実現不可能と考えられていたことです。
同様に重要なのは、うまくいったことです。LoRAで微調整されたKimi K2は、長期的な推論タスクで顕著な改善を達成し、学習曲線は滑らかで発散しませんでした[25]。重要なのは、適応されたモデルがベースモデルの一般スキルを維持しながら(わずかな、焦点を絞った重みの変更のおかげで)、新しいタスク固有の行動を獲得したことです[26]。これは、ベースモデルの膨大な事前知識が上書きされず、拡張されたことを意味します。これはLoRA微調整の大きな利点です。実際、Mind Labの実験では、大規模モデルはRLのより強力な土台を提供することが確認されました。固定されたトレーニング予算の下で、大規模なモデルと小さなLoRAアダプターは、完全な調整で訓練された小さなモデルよりも、ドメイン内タスクおよび新しいタスクへの転送の両方で優れた結果を示しました[27]。チームが言うように、RLは*「事前制限」*されています。ベースモデルが初めから高品質の軌道を生成できない場合、RLには増幅する信号がほとんどありません[27]。Kimi K2のような強力な事前学習済みの事前知識は、RLに磨きをかける豊富な行動セットを提供しますが、小さなモデルをゼロから訓練する場合、それらの行動を新たに発明しなければなりません。この洞察は従来の知恵を覆します: 大規模モデルでRLを行う方が(強力な事前知識とLoRAの効率性を持って)小規模モデルでRLを行うよりも計算効率が良い場合があります[28]。Mind Labの貢献は単なるアルゴリズムではなく、インフラストラクチャ戦略です。最大のモデルで継続的な学習を可能にする青写真です。彼らはその方法をオープンソースプロジェクト(Megatron-Bridge、VERL)に取り入れたので、コミュニティはこの作業を再現し、構築し続けることができ、多くのグループが控えめなハードウェア予算で兆パラメータエージェントを微調整することを可能にする可能性があります。

Mind Labが探求しているもう一つのフロンティアは、AIエージェントがそのインタラクションの長期記憶をどのように扱うかです。多くの現在のシステムは、過去の会話の断片を取り出すためにベクターデータベースを追加したり、履歴を圧縮するための要約技術を使用したりしています。Mind Labは、より統合された**「モデルネイティブ」な記憶システムとしてメモリーディフュージョンを提案しています[30]。このアイデアは、エージェントの対話や軌跡の全体のシーケンスを、外部に保存するものではなく、モデルのコンテキスト内の編集可能な記憶として扱うことです。メモリーディフュージョンは、マスク–アロケート–リフィルループを通じて、固定サイズのコンテキストウィンドウを反復的に維持することで機能します[30]。各ステップで、モデルはどのトークン(過去の会話の一部)を保持するか(マスク)し、どれを削除するかを決定し、次に新しく到着したコンテンツで空いたスペースを補充します。その際、コンテキストの長さに対する厳密なトークン予算を尊重します[30]。本質的に、モデルは自分自身のコンテキストを管理する方法を学んでおり、インタラクションが進むにつれて、あまり関連性のない詳細を圧縮または忘却し、重要な事実を保持します。これはインテリジェント忘却**に似ており、すべてを無期限に覚えることが目的ではなく(コンテキストの長さに制限があるため現実的ではない)、有用に記憶することで現実の制約下で機能します[30]。
トークンシーケンスレベルで動作することにより、メモリーディフュージョンは外部埋め込みや類似検索の必要性を回避し、「メモリー」はモデルの作業コンテキストと同じ表現空間に存在します。Mind Lab はこのアプローチが 最先端の長期メモリパフォーマンス を達成していると報告しており、エージェントは関連情報を失うことなく、長時間の会話やタスクを続けることができます。すべては学習されたモデル内メカニズムによって実現されます[31]。また、コンテキストサイズに対して 一定時間 で動作し、履歴が増えるにつれて取得コストが爆発することはありません。コンテキストの長さは固定され、マスク/補充操作によって管理されます[31]。実用的には、メモリーディフュージョンを備えたエージェントは数千ターンにわたる会話を行うことができ、すべての詳細を明示的に保持することはできませんが、何を記憶するかを継続的に決定します。重要なユーザーの好みや未解決の質問は残り、はるか以前の些細な雑談は取り除かれる可能性があります。このアプローチは記憶をモデルの認知の 主要な構成要素 として扱い、記憶は受動的なデータストアではなく、システムの能動的で学習する部分であるべきだという Mind Lab の見解と一致しています[30]。
ティンカーのインフラストラクチャの特性とマインドラボのアルゴリズム効率性は自然な共生を形成します。ティンカーは、マインドラボのハイブリッドLoRA RLをKimi K2およびQwen3-VLに直接適用し、マルチモーダルなエージェントループを促進します。
リサーチ・プロダクト共創において—マインドラボの核心理念—これは以下のように現れます:
戦略的に、このパラダイムは反復を加速します: プロダクトは実験的なテストベッドとなり、高精度のデータを生成し、研究の仮説を洗練します。例えば、ティンカーからの少数ショットビジョンクラス分類が展開された視覚エージェントでのRL目標を種付けし、知覚方針をユーザーの好みに徐々に一致させます。
伝統的に、AI研究はモデルやアルゴリズムを作成し、その後別の製品チームがそれをどのように展開するかを考えるというもので、両者の間の反復は比較的遅かったです。Mind Labは「研究と製品の共同設計」という哲学を掲げています。新しい技術はすぐに実際のエージェント設定でテストされ、実際のユーザーとのインタラクションが研究を洗練するためのデータを生成します[32]。
「研究と製品はもはや別々のトラックではありません。それらは閉じたフィードバックループ:ユーザー体験 → データ → RLトレーニング → デプロイメント → より良いUX → より豊かなデータ → 繰り返し。」[33]。実際には、Mind LabがRLアルゴリズムやメモリシステムを改善する際、それを実際のユーザー向けエージェント(例えば、MacaronのパーソナルAIアシスタント)に統合し、実際のユーザーとのパフォーマンスを観察します。その使用データ—ユーザーが質問する内容、エージェントの成功や失敗、明示的なフィードバック—は次のモデル更新のためのトレーニング信号としてフィードバックされます(教師付き微調整や強化学習を通じて)。この緊密なループは学習を大いに加速します:製品が実験そのものです。
一つの意味は、ストリーミング報酬モデルとオンラインRLHF(人間のフィードバックからの強化学習)の使用です。静的な人間の好みの比較データセットを収集して一度報酬モデルを訓練するのではなく、Mind Labのフレームワークでは、デプロイ中に新しいフィードバックが入るたびに報酬モデルを継続的に更新することを想定しています。例えば、エージェントがユーザーのタスクを解決しているときに、時々「低評価」や訂正が入った場合、そのシグナルをストリーミングして報酬モデルに取り込み、「良い」行動の概念を即座に洗練します。次回RLが実行されるとき(これはスケジュールされたタイミングでも非同期でも可能です)、更新された報酬モデルがポリシーを導き、ユーザーの好みによりよく合わせます。このストリーミングRLのパラダイムは、デプロイを訓練の延長に変えます。エージェントが実世界で動作する時間が長くなるほど、より多くの経験を積み、より優れたものになります。Tinkerが提供するOpenAI互換インターフェースは実際にこの戦略を補完します。これにより、これらの継続的に学習されたモデルを既存の製品やツールに簡単に組み込むことができるため、研究所は新しいモデルバージョンを迅速に製品に反映し、結果を観察することができ、毎回統合を再構築する必要がありません。
Tinkerの側では、プラットフォームがモデルのトレーニング中にサンプリングできる能力が、中間評価や詳細な調整決定を可能にし、反復ループを促進する可能性があります。Mind Labの側では、共設計ループが彼らの革新(例えば、トリリオン規模のRLやメモリ拡散)が実際の使用事例でストレステストされることを保証します。このアプローチは、実用的な課題(例えば、遅延や予期しないユーザーの入力の処理方法など)を早期に表面化させ、最先端の研究とユーザー向けAI製品とのギャップを埋めます。戦略的な利益は、改善が現実世界のニーズによって駆動され、現実世界の使用に対して直接検証されることにあります。Mind Labが述べているように、「ユーザーと製品の相互作用からの継続的な学習」から本当の進歩が生まれ、現場で適応できるエージェントは、展開時に固定されたものよりもはるかに良いユーザー体験を提供します。
TinkerとMind Labからの進歩を総合すると、AIシステムの構築方法における深遠なシフト—静的モデルから環境と共設計された適応エージェントへ—が浮き彫りになります。いくつかの重要な意味が浮き彫りになります:
静的なスケーリング法則が頭打ちになる中、Tinkerのアクセス可能な兆スケールのカスタマイズとMind Labの効率的な経験的強化学習が示すように、変革の時代が到来しています。製品ループに適応を組み込むことで、脆弱な脳を超えて環境と共に成長する強靭な心へと進化します。これにより、最前線のレベルで推論や認識を行うだけでなく、環境と共に共進化し、人間のニーズや現実の世界の複雑さにますます調和するAIが期待されます。
[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence
https://ar5iv.labs.arxiv.org/html/2507.20534
[2] [3] [8] [9] Tinker - Thinking Machines Lab
https://thinkingmachines.ai/tinker/
[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: 一般公開とビジョン入力 - Thinking Machines Lab
https://thinkingmachines.ai/blog/tinker-general-availability/
[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] どのようにして、10%のGPUで1兆のパラメータを持つ推論RLを構築するのか
[17] [30] [33] Macaron AI | LinkedIn
https://www.linkedin.com/company/macaronaiofficial