静的モデルから適応型エージェントへ：TinkerとMind Labの革新

著者： Boxu LI

人工知能の進化する風景の中で、極端なスケールでの事前トレーニングが強力な静的能力をもたらした現在、その最前線はますます大きな静的モデルを構築することから、エージェンティックシステム—深く推論し、ツールを使用し、見て記憶し、経験から継続的に学習するAIエージェントを作成することへとシフトしています[1]。

Thinking Machines LabのTinkerプラットフォームは、2025年12月12日の一般利用可能性の発表と共に、インフラストラクチャの重要な飛躍を表し、1兆パラメーターモデルのファインチューニングとマルチモーダル拡張へのアクセスを民主化します。同時に、Macaron AIの研究部門であるMind Labは、モデルが知識の凍結されたリポジトリから実世界のフィードバックを通じて自らを洗練させる動的プロセスへと移行する「経験的知能」に関する哲学的および技術的枠組みを明確にしています。この融合は、研究と製品の共同設計を洗練し、アルゴリズムの革新と展開された適応の間のループを閉じるという深い機会を提供します。

Tinkerの更新における主要な革新

Thinking Machines Lab の Tinker プラットフォームが一般提供を達成し、Moonshot AI の兆パラメーターを持つ「Kimi K2 Thinking」MoE モデルのファインチューニング、OpenAI 互換の推論、および Alibaba の「Qwen3-VL」シリーズを通じたマルチモーダル入力をサポートします。
これにより、最先端の推論および視覚言語モデルの効率的なカスタマイズが可能となり、画像分類における優れた少数ショット性能が実証されています。
Mind Lab（Macaron AI の研究部門）は、同様の兆スケールの MoE モデルにおけるスケーラブルな LoRA ベースの強化学習（RL）を進展させ、経験的適応を重視しています。

この投稿では、Tinker の新しい Kimi K2 推論モデル、OpenAI 互換インターフェース、および Qwen3-VL 視覚モデルについて詳しく解説し、Mind Lab の経験的知能の哲学、兆パラメーター強化学習（RL）のブレークスルー、メモリ拡散アプローチ、および次世代 AI システム構築への戦略的影響を探ります。

Tinker の最新イノベーション：推論、ツール、ビジョン

Tinker は、研究者がインフラについて心配することなく、最先端のモデルを微調整しデプロイできるように設計されたAIトレーニングプラットフォームです[2][3]。2025年12月に、TinkerはAIモデルの推論能力、ツールの利用、視覚理解を強化するいくつかの大規模なアップデートを発表しました[4]：

Kimi K2 思考モデル: ユーザーは今や Kimi K2 思考、Tinkerのラインアップで最大の1兆パラメータモデルを微調整できます[5]。Kimi K2は、長い思考の連鎖や道具の使用に特化したMixture-of-Experts (MoE) トランスフォーマーです[6]。その規模にもかかわらず、パラメータの一部（約32B）のみが常時活動し、最新の推論性能を維持しながら効率的な推論を実現します[7]。このオープンモデルは「オープン・エージェンティック・インテリジェンス」として説明され、複雑な推論ベンチマークで多くのクローズドモデルに匹敵または優れています[7]。TinkerでのKimi K2のサポートにより、Thinking Machinesは研究者が多段階の論理、計画、外部ツールの呼び出しを必要とするタスクに高度な推論エンジンを活用することを可能にします。重要なのは、Tinkerが**LoRA（低ランク適応）**を使用してこのようなモデルを微調整し、すべての1兆の重みを更新する代わりに小さなアダプタ行列を訓練することです[8]。このアプローチにより、カスタマイズに必要なメモリと計算が大幅に削減されます。実際、内部研究によれば、適切な設定をすれば、LoRAはリソースをはるかに少なく使用しながら完全な微調整の学習性能に匹敵することがわかっています[9]。実際には、Kimi K2のような巨大なモデルを新しいタスクやドメインに適応させることが、コストを抑えて可能であり、より効率的な推論ワークフローのための重要なステップとなります。
OpenAI API互換の推論: 研究と製品の統合を加速するために、TinkerはOpenAIのAPIと互換性のある推論インターフェースを導入しました[10]。基本的に、OpenAIのプラットフォームが使用するのと同じAPIコールを使用して、tinker:// URIを使用してモデルパスを指定することで、Tinkerにホストされたモデルをクエリできます。たとえば、開発者は、モデル、プロンプト、max_tokensなどのOpenAIに似た構文でTinkerモデルの完成APIを呼び出し、openai.Completion.createを呼び出しているかのように結果を得ることができます[10]。このプラグアンドプレイの互換性により、OpenAI APIを中心に構築されたツールやアプリケーションが、Tinkerのモデルをシームレスに統合できます[10]。これにより、実際の製品で高度なオープンモデルを採用する際の摩擦が低減されます: TinkerでKimi K2を微調整し、最小限のコード変更で既存の思考エージェントやチャットボットフレームワークに組み込むことができます。さらに、TinkerのAPIスキャフォルディングにより、モデルがトレーニング中でもサンプリングが可能です[10] – モデルを適応させながらテストし、使用するツール強化トレーニングループを可能にします。このアップデートは、より効率的なエージェント開発ワークフローをサポートし、研究者が現実的な設定でモデルの改善を継続的に統合し、テストすることを可能にします。
Qwen3-VL ビジョン–言語モデル: Tinkerのもう一つの大きな追加は、マルチモーダルビジョンと言語モデルのサポートです。プラットフォームは、テキストと一緒に画像入力を受け入れることができるQwen3-VL-30BとQwen3-VL-235Bという2つのビジョン対応モデルを追加しました[11]。これらのモデル（それぞれ30億と235億パラメータ、両方ともMoEアーキテクチャ）は、画像を含むプロンプトに従うように指示チューニングされています。たとえば、図についての質問に答えたり、写真を解釈したりすることができます。簡単なAPIコールにより、今やユーザーはテキストと一緒に画像（ImageChunkとして）をモデルに入力し、言語応答を得ることができます[12]。これにより、スクリーンショットやチャートの分析から、見て話すマルチモーダルアシスタントまで、さまざまなビジョン情報を活用したアプリケーションが可能になります。注目すべきは、Qwen3-VLモデルがデータ効率の良いビジョン機能を念頭に設計されていることです。これを示すために、Thinking Machinesは235B Qwen3-VLモデルを、いくつかの古典的な画像分類タスク（Caltech101、Oxford Flowersなど）で効率的にLoRAアダプタを使用して微調整しました[13]。彼らは、クラスあたりのトレーニングデータの量を変えて、強力なビジョンのみのベースライン（DINOv2 ViTモデルと分類ヘッド）とその性能を比較しました[14]。

[15] 限られたラベル付き例での画像分類タスクにおける、微調整されたQwen3-VL-235B（ビジョン・ランゲージモデル）とDINOv2（ビジョンオンリーベースライン）の比較。Qwen3-VLは、特に少データの状況（左端）で、言語に基づく視覚理解のおかげでより高い精度を達成します。

クラスごとに1つの例しかなくても、235B Qwen3-VLモデルは合理的な精度を達成し、この極端な低データ環境でDINOv2を大きく上回りました[15]。例の数が増えるにつれ、両モデルとも改善しましたが、Qwen3-VLは優位性を保ち、強力な少数ショット一般化を示しました[16]。この優位性は、モデルの組み込みの言語と世界の知識に由来します。例えば、Qwen3-VLは「ひまわり」や「ゴールデンレトリバー」がどのように見えるか、またはどのように説明されるかの概念を、マルチモーダル事前学習によって既に持っています[16]。これは、最小限の新しい例で新しい画像を認識または分類できることを意味します。実際には、Tinkerのユーザーは、これらの大規模な視覚言語モデルを活用することで、非常に小さなデータセットで視覚タスクにおいて高い精度を達成できます。このデータ効率の良い視覚機能は、ラベル付きデータが不足している現実のシナリオで重要です。また、ツール拡張推論の力を示唆しています。「見る」ことができるモデルは、視覚的手がかりと言語的コンテキストの両方を活用でき、より多用途なエージェントになります（例えば、図を読み説明する、あるいは画像を推論チェーンの一部として使用するなど）。全体として、Qwen3-VLのTinkerへの追加は、プラットフォームの範囲を純粋なテキストから視覚の領域に拡張し、同じ統一されたトレーニングAPIでマルチモーダル推論ワークフローを可能にします。

Mind Labの適応システム: 体験的知能の実践

研究の最前線では、Macaron AI に関連する新しいフロンティア研究所 Mind Lab が、AI エージェントを真に適応的で体験的にするという課題に取り組んでいます。Mind Lab の理念は、「本当の知性は単なる大規模な事前学習ではなく、実際の経験から生まれる」というものです[17]。言い換えれば、静的なデータセットでモデルを単に拡張するだけでは不十分であり、AI の次の飛躍は、人間が経験を積み重ねるように、相互作用から継続的に学ぶシステムから来るということです。Mind Lab は、このビジョンを Experiential Intelligence として位置づけています。静的な「脳」から適応的な「心」へと移行し、内部の世界モデルを形成し、フィードバックを通じて知識を更新し、明確な目標や価値観を持ち、自分の行動を振り返ることさえできるシステムです[18]。これは、事前学習後に強力だが固定された現在の LLM の限界に対する直接的な対応です[18]。本物の適応を可能にするメカニズムを導入することで、例えば継続的な強化学習や動的メモリなど、Mind Lab は使用とともに進化するエージェントを作り出すことを目指しています。

Mind Labの活動の2つの柱は、(1) 大規模モデルの効率的なRLファインチューニングによって新しい行動を植え付けること、そして**(2) エージェントが長期的な知識を保持・活用できるようにする高度なメモリシステムです。これらはどちらも、AIをよりエージェント的**（自律的に決定し改善する）にし、研究の進展を製品展開と緊密に結びつけることを目的としています。

LoRAベースの兆パラメータRLが10%のGPUで

どのように達成したのか？

Mind Labの主要な成果の一つは、強化学習を兆単位のパラメータ規模で実現し、それを実用的かつコスト効率の良い方法で行ったことです。2025年12月、彼らは1.04兆パラメータのKimi K2推論モデルにおいて、通常のトレーニングに必要なGPUリソースの約10％で初のエンドツーエンドのRLパイプラインを発表しました[19]。これはどのようにして可能になったのでしょうか？チームは、モデルのMixture-of-Experts構造全体でパラメータ効率の良い微調整（LoRA） とハイブリッド並列化を組み合わせた専門のトレーニングエンジンを構築したのです[20][21]。

すべてのトリリオンウェイトをチューニングする代わりに、Mind Labのアプローチでは、選択されたKimi K2の層（高密度バックボーンおよびエキスパート層の両方）に低ランク適応行列を注入し、RLの間にそれらのみを更新します。この方法により学習可能なパラメータの数が劇的に削減されます（例えば、フルマトリックスの代わりに層ごとに数十から数百のLoRAランク）。その結果として、メモリと計算の使用量が一桁減少します。同時に、この規模のモデルをトレーニングするには、多くのGPUに効率的に負荷を分散する必要があります。チームはハイブリッドパラレル戦略を採用しました：テンソル並列、パイプライン並列、エキスパート並列（MoEエキスパート用）、および長いシーケンストレーニング用のシーケンス並列を調整し、分割されたLoRA更新と互換性を持たせました。実際には、既存の大規模モデルトレーニングフレームワーク（NVIDIAのMegatronおよびByteDanceのVolcEngine RL）を利用し、MoEでのLoRAを処理するように拡張し、クラスター内の64 GPUに計算を慎重にバランスさせました。その結果、完全なKimi K2モデルでの安定したオンポリシーRLトレーニング（PPOスタイルのアルゴリズムに似ています）が実現し、推論の品質にフィードバックを提供する報酬モデルが使われました。これは、コストのためにほとんどのチームにとって実現不可能と考えられていたことです。

同様に重要なのは、うまくいったことです。LoRAで微調整されたKimi K2は、長期的な推論タスクで顕著な改善を達成し、学習曲線は滑らかで発散しませんでした[25]。重要なのは、適応されたモデルがベースモデルの一般スキルを維持しながら（わずかな、焦点を絞った重みの変更のおかげで）、新しいタスク固有の行動を獲得したことです[26]。これは、ベースモデルの膨大な事前知識が上書きされず、拡張されたことを意味します。これはLoRA微調整の大きな利点です。実際、Mind Labの実験では、大規模モデルはRLのより強力な土台を提供することが確認されました。固定されたトレーニング予算の下で、大規模なモデルと小さなLoRAアダプターは、完全な調整で訓練された小さなモデルよりも、ドメイン内タスクおよび新しいタスクへの転送の両方で優れた結果を示しました[27]。チームが言うように、RLは*「事前制限」*されています。ベースモデルが初めから高品質の軌道を生成できない場合、RLには増幅する信号がほとんどありません[27]。Kimi K2のような強力な事前学習済みの事前知識は、RLに磨きをかける豊富な行動セットを提供しますが、小さなモデルをゼロから訓練する場合、それらの行動を新たに発明しなければなりません。この洞察は従来の知恵を覆します: 大規模モデルでRLを行う方が（強力な事前知識とLoRAの効率性を持って）小規模モデルでRLを行うよりも計算効率が良い場合があります[28]。Mind Labの貢献は単なるアルゴリズムではなく、インフラストラクチャ戦略です。最大のモデルで継続的な学習を可能にする青写真です。彼らはその方法をオープンソースプロジェクト（Megatron-Bridge、VERL）に取り入れたので、コミュニティはこの作業を再現し、構築し続けることができ、多くのグループが控えめなハードウェア予算で兆パラメータエージェントを微調整することを可能にする可能性があります。

メモリ拡散: エージェントメモリの再考 - ベクターデータベースを超えて

メモリ拡散ライブデモ

Mind Labが探求しているもう一つのフロンティアは、AIエージェントがそのインタラクションの長期記憶をどのように扱うかです。多くの現在のシステムは、過去の会話の断片を取り出すためにベクターデータベースを追加したり、履歴を圧縮するための要約技術を使用したりしています。Mind Labは、より統合された**「モデルネイティブ」な記憶システムとしてメモリーディフュージョンを提案しています[30]。このアイデアは、エージェントの対話や軌跡の全体のシーケンスを、外部に保存するものではなく、モデルのコンテキスト内の編集可能な記憶として扱うことです。メモリーディフュージョンは、マスク–アロケート–リフィルループを通じて、固定サイズのコンテキストウィンドウを反復的に維持することで機能します[30]。各ステップで、モデルはどのトークン（過去の会話の一部）を保持するか（マスク）し、どれを削除するかを決定し、次に新しく到着したコンテンツで空いたスペースを補充します。その際、コンテキストの長さに対する厳密なトークン予算を尊重します[30]。本質的に、モデルは自分自身のコンテキストを管理する方法を学んでおり、インタラクションが進むにつれて、あまり関連性のない詳細を圧縮または忘却し、重要な事実を保持します。これはインテリジェント忘却**に似ており、すべてを無期限に覚えることが目的ではなく（コンテキストの長さに制限があるため現実的ではない）、有用に記憶することで現実の制約下で機能します[30]。

トークンシーケンスレベルで動作することにより、メモリーディフュージョンは外部埋め込みや類似検索の必要性を回避し、「メモリー」はモデルの作業コンテキストと同じ表現空間に存在します。Mind Lab はこのアプローチが 最先端の長期メモリパフォーマンス を達成していると報告しており、エージェントは関連情報を失うことなく、長時間の会話やタスクを続けることができます。すべては学習されたモデル内メカニズムによって実現されます[31]。また、コンテキストサイズに対して 一定時間 で動作し、履歴が増えるにつれて取得コストが爆発することはありません。コンテキストの長さは固定され、マスク/補充操作によって管理されます[31]。実用的には、メモリーディフュージョンを備えたエージェントは数千ターンにわたる会話を行うことができ、すべての詳細を明示的に保持することはできませんが、何を記憶するかを継続的に決定します。重要なユーザーの好みや未解決の質問は残り、はるか以前の些細な雑談は取り除かれる可能性があります。このアプローチは記憶をモデルの認知の 主要な構成要素 として扱い、記憶は受動的なデータストアではなく、システムの能動的で学習する部分であるべきだという Mind Lab の見解と一致しています[30]。

技術ブログでさらに詳しく読む

リサーチ・プロダクト共創: 継続的な学習ループ

ティンカーのインフラストラクチャの特性とマインドラボのアルゴリズム効率性は自然な共生を形成します。ティンカーは、マインドラボのハイブリッドLoRA RLをKimi K2およびQwen3-VLに直接適用し、マルチモーダルなエージェントループを促進します。

リサーチ・プロダクト共創において—マインドラボの核心理念—これは以下のように現れます:

フィードバックのための計測: ティンカー提供のモデルを通じて展開されたエージェントが、ユーザーのインタラクション、ツールの結果、修正から構造化されたエピソードを生成します。
オンラインRLパイプライン: ハイブリッド並列処理がライブ信号での継続的な更新をサポートし、オフラインバッチなしで価値関数と方針を進化させます。
マルチモーダル適応: ビジョン入力が知覚タスクでのRLを可能にし、GUIナビゲーション、ドキュメント理解、視覚的推論のための世界モデルを洗練させます。
安全性と安定性: 同一場所でのロールアウトが分布シフトを最小限に抑え、ストリーミング報酬（マインドラボのHTML美学の例のように）が報酬の不正操作を防ぎます。

戦略的に、このパラダイムは反復を加速します: プロダクトは実験的なテストベッドとなり、高精度のデータを生成し、研究の仮説を洗練します。例えば、ティンカーからの少数ショットビジョンクラス分類が展開された視覚エージェントでのRL目標を種付けし、知覚方針をユーザーの好みに徐々に一致させます。

伝統的に、AI研究はモデルやアルゴリズムを作成し、その後別の製品チームがそれをどのように展開するかを考えるというもので、両者の間の反復は比較的遅かったです。Mind Labは「研究と製品の共同設計」という哲学を掲げています。新しい技術はすぐに実際のエージェント設定でテストされ、実際のユーザーとのインタラクションが研究を洗練するためのデータを生成します[32]。

「研究と製品はもはや別々のトラックではありません。それらは閉じたフィードバックループ：ユーザー体験 → データ → RLトレーニング → デプロイメント → より良いUX → より豊かなデータ → 繰り返し。」[33]。実際には、Mind LabがRLアルゴリズムやメモリシステムを改善する際、それを実際のユーザー向けエージェント（例えば、MacaronのパーソナルAIアシスタント）に統合し、実際のユーザーとのパフォーマンスを観察します。その使用データ—ユーザーが質問する内容、エージェントの成功や失敗、明示的なフィードバック—は次のモデル更新のためのトレーニング信号としてフィードバックされます（教師付き微調整や強化学習を通じて）。この緊密なループは学習を大いに加速します：製品が実験そのものです。

一つの意味は、ストリーミング報酬モデルとオンラインRLHF（人間のフィードバックからの強化学習）の使用です。静的な人間の好みの比較データセットを収集して一度報酬モデルを訓練するのではなく、Mind Labのフレームワークでは、デプロイ中に新しいフィードバックが入るたびに報酬モデルを継続的に更新することを想定しています。例えば、エージェントがユーザーのタスクを解決しているときに、時々「低評価」や訂正が入った場合、そのシグナルをストリーミングして報酬モデルに取り込み、「良い」行動の概念を即座に洗練します。次回RLが実行されるとき（これはスケジュールされたタイミングでも非同期でも可能です）、更新された報酬モデルがポリシーを導き、ユーザーの好みによりよく合わせます。このストリーミングRLのパラダイムは、デプロイを訓練の延長に変えます。エージェントが実世界で動作する時間が長くなるほど、より多くの経験を積み、より優れたものになります。Tinkerが提供するOpenAI互換インターフェースは実際にこの戦略を補完します。これにより、これらの継続的に学習されたモデルを既存の製品やツールに簡単に組み込むことができるため、研究所は新しいモデルバージョンを迅速に製品に反映し、結果を観察することができ、毎回統合を再構築する必要がありません。

Tinkerの側では、プラットフォームがモデルのトレーニング中にサンプリングできる能力が、中間評価や詳細な調整決定を可能にし、反復ループを促進する可能性があります。Mind Labの側では、共設計ループが彼らの革新（例えば、トリリオン規模のRLやメモリ拡散）が実際の使用事例でストレステストされることを保証します。このアプローチは、実用的な課題（例えば、遅延や予期しないユーザーの入力の処理方法など）を早期に表面化させ、最先端の研究とユーザー向けAI製品とのギャップを埋めます。戦略的な利益は、改善が現実世界のニーズによって駆動され、現実世界の使用に対して直接検証されることにあります。Mind Labが述べているように、「ユーザーと製品の相互作用からの継続的な学習」から本当の進歩が生まれ、現場で適応できるエージェントは、展開時に固定されたものよりもはるかに良いユーザー体験を提供します。

エージェンティックAIと将来の共設計システムへの影響

TinkerとMind Labからの進歩を総合すると、AIシステムの構築方法における深遠なシフト—静的モデルから環境と共設計された適応エージェントへ—が浮き彫りになります。いくつかの重要な意味が浮き彫りになります：

基盤モデルから基盤エージェントへ： Kimi K2のようなエージェントモデルの導入（ツールの使用や推論を組み込んだもの）や、それらを継続的に微調整する技術の進展により、大規模言語モデルは単なる知識の模倣にとどまらず、行動のプラットフォームへと進化しています。一度だけ訓練されたテキスト模倣モデルではなく、計画し、行動し、フィードバックを取り入れることができるエージェントが誕生します。これにより、AIモデルとAI製品の境界線が曖昧になります。モデルそのものがあなたと対話するエージェントであり、自らを更新してより良いサービスを提供できるようになります。このようなエージェントを構築するには、**モデル中心の研究（新しいアーキテクチャや訓練方法）と製品中心の思考（ユーザー経験や展開制約）**を統合した開発サイクルが必要です。
ツールを活用した推論が常態化： TinkerのOpenAI互換インターフェースとツール使用を明示的に組み込んだモデルにより、AIエージェントが外部ツールやAPI、データベースを推論プロセスの一部としてシームレスに呼び出すことが予見されます。Kimi K2の設計やMind Labのエージェント実験は、複雑なタスクを解決するにはAIがツールを参照したり環境をシミュレートしたりする必要があることを強調しています。将来のシステムは、モデルの訓練の中心にツールAPIを統合し（Kimiの大規模なエージェントデータ合成がそうであったように）、即座にツールを使用できる能力を持つでしょう。戦略的には、AI製品は単なる一つのモデルではなく、ツール調整プラットフォームとして、モデルが他のサービスを呼び出すタイミングと方法を知る頭脳として機能します。Tinkerモデルを使ったAPIの統合の容易さにより、開発者が実際にツールを使用するAIワークフローを作成するハードルが下がります。
状態を保持したインタラクションと個別化されたAI： メモリの革新であるMemory Diffusionは、AIがインタラクションに関する長期的な状態を保持できる方向に向かっています。各セッションやクエリを独立して扱うのではなく、将来のエージェントは前のインタラクション、好み、コンテキストを原則的に、制約された方法で記憶することができます。これにより、より個別化され、コンテキストに応じたAIアシスタントが可能になり、毎回リセットされるのではなく、誰と対話しているか、何が起こっているかを本当に学習します。重要なことに、Mind Labのアプローチは、無限のコンテキストウィンドウなしでこれが可能であることを示しています。学習されたメモリ管理を通じて、エージェントは何を記憶すべきかについて賢くなります。ユーザーにとっては、過去の会話を覚えている個人的なAIは、連続した使用ではなく、進行中の対話や一貫したアシスタントのように感じられるでしょう。また、どの情報を記憶し、どれを忘れるべきかをどう保証するかという新たなデザインの質問も生じます。この答えは、人間のような忘却と強調を取り入れたメモリーディフュージョンのような技術にあるでしょう。
ハイブリッドインフラストラクチャが競争優位に： これらのプロジェクトによって築かれた技術的基盤（たとえば、ハイブリッド並列訓練、LoRA-on-MoE、分散RL）は、AI開発チームにとって画期的なものです。これらの方法を採用するグループは、比較的控えめなコンピュートで最大のモデルを微調整でき、このことは専門化された高性能AIエージェントの構築能力を民主化する可能性があります。大手テクノロジー企業だけがトリリオンパラメーターモデルを展開できるのではなく、どんな研究所やスタートアップもKimi K2のようなオープンモデルを活用し、LoRAを使って小規模なGPUクラスターで適応させることができます。これにより競争の舞台が平等化され、大規模モデルをニッチな領域で実験することが奨励されます（コストがそれほど高くないため）。医療の推論に特化したもの、法律の研究に特化したもの、クリエイティブデザインに特化したものなど、トリリオン規模のエージェントの爆発的な増加が見られるかもしれません。オープンソースの統合（Megatronなど）は、これらの革新が迅速に広がることをさらに保証します。さらに、ハイブリッド並列アプローチにより、特定のハードウェア予算で、スマートなスケジューリングと並列化によってより効果的な訓練が可能となり、単に小さなモデルを受け入れるのではありません。これは、モデルがより多くのモダリティと長いコンテキストを取り入れるように推進するにつれて、計算需要がさらに増加するため、重要です。
継続的な学習と人間とAIのインタラクション： 最後に、クローズドループ学習システムの概念は、AIの進化におけるユーザーの役割を変革します。すべてのユーザーインタラクションが潜在的な訓練例となり、すべての展開が実験となります。実際には、AIサービスが前日のデータを再学習することで劇的に改善されることにつながるかもしれません。ソフトウェアの更新が展開されるのと同様に。ユーザーは、今日AIを訂正すれば、明日同じ間違いを繰り返さないことを期待し始めるかもしれません。これにより、より良い製品がより多くの使用を引きつけ、その結果として学ぶためのより多くのデータが得られ、それが製品の改善につながる好循環が生まれます。ただし、エージェントが自らのインタラクションから学習する場合、評価と安全性の共同設計が求められます。Mind Labの人間の好みに基づく報酬と自己批判をRLに組み込む作業は、その初期のテンプレートです。長期的には、このような研究と製品の共同設計が標準的な慣行となるかもしれません。「モデルを微調整してXを達成した」という研究論文の終わりではなく、「適応型エージェントをユーザーに展開し、時間をかけてその性能/有用性をY%持続的に向上させた」という成功基準が一般的になるでしょう。

適応する心へ：結びのビジョン

静的なスケーリング法則が頭打ちになる中、Tinkerのアクセス可能な兆スケールのカスタマイズとMind Labの効率的な経験的強化学習が示すように、変革の時代が到来しています。製品ループに適応を組み込むことで、脆弱な脳を超えて環境と共に成長する強靭な心へと進化します。これにより、最前線のレベルで推論や認識を行うだけでなく、環境と共に共進化し、人間のニーズや現実の世界の複雑さにますます調和するAIが期待されます。

[1] [34] [35] [36] [2507.20534] Kimi K2: Open Agentic Intelligence

https://ar5iv.labs.arxiv.org/html/2507.20534

[2] [3] [8] [9] Tinker - Thinking Machines Lab

https://thinkingmachines.ai/tinker/

[4] [5] [6] [10] [11] [12] [13] [14] [15] [16] Tinker: 一般公開とビジョン入力 - Thinking Machines Lab

https://thinkingmachines.ai/blog/tinker-general-availability/

[7] [20] [21] [22] [23] [24] [25] [26] [27] [28] [37] どのようにして、10%のGPUで1兆のパラメータを持つ推論RLを構築するのか

https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus?trk=article-ssr-frontend-pulse_little-text-block

[17] [30] [33] Macaron AI | LinkedIn

https://www.linkedin.com/company/macaronaiofficial

[18] [19] [29] [31] [32] Mind Lab の紹介 — Macaron AI の研究部門

https://www.linkedin.com/pulse/introducing-mind-lab-macaron-ais-research-arm-macaronaiofficial-tkz2e?trk=organization_guest_main-feed-card_feed-article-content