
著者: Boxu Li
大規模な事前学習が支配的だった10年を経て、AIコミュニティは「AI開発の後半戦」と呼ばれる段階に入っています[1][2]。前半戦では、新しいモデルアーキテクチャとトレーニング手法によって進歩が促進され、畳み込みニューラルネットワークやLSTM、トランスフォーマーに至るまで、ベンチマークをひたすらクリアしてきました[3]。これらは静的データセットを用いた教師あり学習や自己教師あり学習によって最適化されてきました。しかし、今日の最前線のモデル、例えばGPT-4は、基本的に多くのベンチマークを飽和状態にしており、単にデータやパラメータを拡大するだけでは効果が薄れてきています[2]。このシフトは、AIからさらなる知性と有用性を引き出す方法の再評価を促しています。
新たに浮上している共通認識の一つは、強化学習(RL) が次のフェーズで大きな役割を果たすということです。RLは長らくAIの「最終目標」とされており、長期的な報酬を最適化することで任意のタスクに勝つことができる強力なフレームワークと考えられてきました。実際、AlphaGo や AlphaStar のような超人的なシステムをRLなしで想像するのは難しいでしょう。現在、多くの研究者は、大規模な事前学習モデルを基盤とし、「事前学習の時代は終わった」と主張しています。未来のブレークスルーは、RLを通じてインタラクティブな環境でこれらのモデルを事後学習することで生まれるでしょう。最近のあるエッセイでは、大規模な事前学習モデル(「先行モデル」)と適切な環境を手に入れたら、「RLアルゴリズムは高度なエージェントを構築する上で最も些細な部分になるかもしれない」 と述べられています。言い換えれば、事前学習でケーキを焼いたので、強化学習はそれに推論と主体性というフロスティングを施す鍵なのです。
シュンユウ・ヤオは『The Second Half』でこの精神を表現しています。彼は、現代のAIは既に「実用的なレシピ」—大規模言語モデルの事前学習+スケーリング+推論—を提供しており、新しいアルゴリズムなしで多くのタスクを解決できると述べています。したがって、ゲームは変わりました。単に別のアーキテクチャを発明するだけでは、かつてのような飛躍は得られません。代わりに、評価と環境に注力する必要があります。つまり、AIが単に次のトークンを予測するのではなく、真に考え行動することを強いるタスクにフォーカスする必要があります。そして、それは必然的に強化学習(RL)の使用を意味します。ヤオはRLを「AIのエンドゲーム」と呼び、事前学習からの強力な先行情報と、言語やツールを含む豊かな環境を持った今、「レシピがこの後半でゲームを完全に変えている」と主張しています。私たちは、静的なベンチマークからインタラクティブなタスクへの転換、一度きりの評価から野外での継続的な学習への移行を期待すべきです。要するに、強化学習はこれからのAIの進歩にとって中心的な役割を果たすようになってきています。
なぜ強化学習に再び注目が集まっているのでしょうか? 簡単に言えば、強化学習は、教師あり学習だけでは簡単に達成できない能力を可能にするからです。大規模言語モデル(LLM)がその一例です。GPT-4のようなトランスフォーマーは、インターネットのテキストを事前に学習して、膨大な知識と言語パターン認識を習得しますが、それだけでは真の主体性には欠けています。事前学習は「どのように話すか」を教えますが、必ずしもインタラクティブな設定でどのような決定を下すべきかを教えるわけではありません。それに対し、強化学習は、AIにどの目標を追求し、それを達成するためにどのように行動すべきかを教えることができます。これは、その目標を反映した報酬を最大化することで実現されます。この受動的な予測から能動的な実験とフィードバックの受け取りへの転換は、推論、計画、整合性にとって重要です。
最近のLLMベースのエージェントに関する研究では、RLが新たなパフォーマンスのレベルを解き放つ方法を示しています。例えば、オープンソースのKimi K2モデルは、強化学習を用いてエンドツーエンドでファインチューニングされ、「モデルが計画し、反応し、長い推論の連鎖を通じて自己修正することを教える。これは、単に監督された後処理に頼るだけではない」ことを学びます[9]。RLを通じて、K2は自律的な推論パターンを獲得し、事実をクロスチェックし、仮説を反復し、たとえ簡単に見える質問でも慎重に対応することを学びます[10]。その結果、単にトレーニングデータを吐き出すのではなく、新しい問題を解決する方法を積極的に見つけ出すモデルが生まれました。同様に、K2プロジェクトは信頼性を重視しており、エージェントは最終回答を出す前に答えを確認することを好み、これはRL訓練によって正確性を速度よりも重視する傾向を反映しています[11]。本質的に、強化学習はモデルに計画と反省の「エージェント的」なループを与え、次のトークン予測の限界を超えて進化させました。
このパターンは他の高度なシステムでも見られます。ChatGPT自身の改善は、GPT-3から主に人間のフィードバックによる強化学習(RLHF)を通じて行われました。モデルをテキストで事前訓練した後、OpenAIは人間のフィードバックと報酬モデルで微調整を行い、その結果、モデルの有用性と指示に対する適応性が劇的に向上しました。ChatGPTの主要研究者であるジョン・シュルマンは、そのプロセスを次のように説明しています:人間のテスターが報酬信号を提供し、それによりモデルは一貫した会話を維持し、目的に沿った形で動作し、望ましくない出力を避けることができるようになりました[12]。言い換えれば、RLHFはモデルを人間の好みや会話の規範に調整したのです。この技術は、生のLLMを有用なアシスタントに変える事実上の標準となっています。WIREDの記事が指摘するように、強化学習はモデルを微調整するための「ますます人気のある」方法であり、フィードバックベースの報酬を与えて最適化します[13]。チャットボットに指示を従わせるためであれ、大規模なモデルに問題解決能力を持たせるためであれ、事前訓練がすべての役割を果たした後には、RLが選ばれる手段です。
RL の重要性は、単に礼儀正しさの微調整に留まらず、モデルに意思決定を教えることにあります。Macaron AI の Mind Labs の最近の技術ブログではこの点が要約されています。「LLMは事前学習を超えて体験学習へと進化する中で、強化学習が高度な推論能力を解き放つ鍵となっている。」[14] 強化学習を後から考えるのではなく、最先端のプロジェクトではこれを**「エージェントの行動における第一級の設計要素と捉え、単なる最終的な仕上げのステップとしない」**としています。[15]. 実際には、AI システムを訓練するためには、ツールを閲覧する LLM エージェントやナビゲートを学ぶロボットなどが、行動し、フィードバックを受け、改善するシミュレートされた環境や実際の環境に配置することを意味します。強化学習による体験学習は、静的なデータセットでは捉えられないスキルを AI が獲得する方法です。
新しいAIラボがこの哲学のもとに形成されているのは示唆的です。Thinking Machines Labは、元OpenAIリーダーによって設立されたスタートアップで、最前線のモデルをRLやその他の技術で微調整するためのツールを構築するために、20億ドルの大規模なシード評価で立ち上げられました。彼らの主力製品「Tinker」は、大規模モデルのRL微調整を自動化することを目指しており、多くの人々が**「強化学習を活用して大規模モデルから新たな能力を引き出す」ことがAIの次の大きな動きになると予測しています[16][17]。同様に、Macaron AI(新しい研究ベンチャー)は、RLをトリリオンパラメータのモデルにスケールするためのカスタムRLオプティマイザーとインフラを設計しています[18][19]。このような取り組みは、AIコミュニティがRLに大きな機会を見出し、モデルを新たなフロンティアへと押し進めることを示しています。それが、Kimi K2やMacaronのエージェントのように、モデルをよりツールを活用し、推論するものにするのか、ChatGPTやTinkerのように、より整合し、カスタマイズされたものにするのかにかかわらず、RLは今や過去10年間に築かれた基盤モデルの可能性を最大限に引き出すための鍵となる技術**と見なされています。

RL(強化学習)の台頭が注目される最も説得力のある理由は、静的データセットのサンドボックスを超えた問題に取り組む成功にあります。しばしば長い間手の届かなかった偉業を達成しています。ゲームプレイのマイルストーンは最初の劇的な証拠でした。DeepMindのAlphaGo、AlphaZero、OpenAIのFiveは、囲碁、チェス、さらには複雑なビデオゲームを深層強化学習を通じて攻略しました。これらのシステムは、ゲームに勝つことのような明確な報酬が与えられた場合、RLエージェントが純粋な練習と最適化を通じて人間のチャンピオンを超えることができることを示しました。特に、OpenAI Fiveが2019年に世界チャンピオンのDota-2チームを打ち破ったことは、純粋に自己対戦のRLを前例のないスケールで訓練することによって達成され、「今日のRLアルゴリズムの驚くべき力」を示しました。十分な経験が提供されると、RLがどれほど強力であるかが分かります。そのプロジェクトは、RLの可能性と課題の両方を浮き彫りにしました。膨大なシミュレーション(数百年分のゲームプレイに相当)が必要であり、巧妙なエンジニアリングが求められましたが、それは実現し、ルールベースのAIができないチームワークと戦略を生み出しました。
ADCSボックス(姿勢決定と制御システム)がInnoCube衛星の認定モデルに取り付けられています。
重要なのは、RLがもはやゲームに限定されていないことです。2022年の画期的な成果として、DeepMindが深層RLを使用して核融合プラズマをリアルタイムで制御することに成功しました。これは手動コントローラーでは不可能だったことです。シミュレーターで訓練し、その後トカマク炉に展開することで、エージェントは磁気コイルを操作してプラズマを閉じ込めることを学び、自律的に核融合反応を安定させることを習得しました[21]。これにより、RLが物理学における高次元で動的な制御問題を処理できることが示され、正確な逐次意思決定を必要とする科学研究に新たな道が開かれました[21]。
RLが現実世界でその価値を証明している別の領域は、マルチエージェント相互作用とゲーム理論です。注目すべき例は、ゲームディプロマシーで人間レベルのパフォーマンスを達成した最初のAIであるMetaのCICEROです。このゲームでは、複数のプレイヤー間での交渉と同盟構築が求められます。CICEROは、言語用のLLMとRLで訓練された計画モジュールを組み合わせています。戦略を考案し、他のプレイヤーの意図をモデル化し、説得力のある対話を行わなければなりません。その結果、画期的な成果が生まれました。CICEROは、人間と協力し競争することに成功し、嘘やブラフが存在する状況でも効果的に対応しました。観察者は、「複数のプレイヤーと信頼、交渉、協力を必要とする戦略ゲームであるディプロマシーで、人間レベルのパフォーマンスを達成した最初のAI」と指摘しています。[22] これはボードゲームの戦術を超え、RLエージェントが社会的戦略や動的なゲーム理論環境を扱える可能性を示唆しています。このような能力は、将来的に経済、交渉、複雑な組織決定をナビゲートするAIにとって欠かせないものです。
ついに、そしておそらく最も劇的に、強化学習(RL)は地球外へ進出しています。過去1年間で、研究者たちはまさにSFが現実になったと言える成果を達成しました。それは、強化学習によって制御される自律衛星やロボットが軌道上で活動しているということです。国際宇宙ステーションでの米国海軍研究所の実験では、シミュレーションで訓練されたRLアルゴリズムがAstrobeeという自由飛行ロボットを制御し、微小重力環境で自律的な動きを成功させました[23][24]。NRLのチームは、これが*「強化学習アルゴリズムを用いた宇宙での初の自律ロボット制御」であり、RLが宇宙での過酷な条件に対応できる自信を高めたと述べています[23]。さらに最近、2025年10月30日に、ヴュルツブルク大学のチームが世界初の軌道上デモンストレーションを達成しました。彼らの小型InnoCube衛星は、搭載されたRLエージェントの制御下で完全な姿勢調整マヌーバを実行しました[25][26]。主任研究者は、「深層強化学習を用いて訓練された衛星姿勢制御器が軌道上で正常に動作するという世界初の実用的証明を達成した」*と述べています[26]。これは重要な瞬間であり、RLがシミュレーションやラボから卒業し、宇宙で物理システムを制御する段階に進んだことを示しています。AIコントローラーは高精度シミュレーターで学習され、衛星にアップロードされ、人間の介入なしに正確な方向制御を行いました[27][28]。通常、数ヶ月かかる衛星制御アルゴリズムの手動調整プロセスが、リアルタイムで適応できるRLエージェントによって置き換えられました[29]。宇宙ロボティクスでのこれらの成功は、RLが現実世界の不確実性の下で適応し、一般化する政策を生み出す能力を示しており、地球上でのより自律的な車両、ドローン、ロボットに向けた重要なステップとなります。
これらの例はすべて、重要なポイントを強調しています。それは、強化学習が最も必要とされる時期に成熟しつつあるということです。AIが「第二段階」に移行する中で、課題は単に予測することではなく、実行することになります。RL(強化学習)は、実験、適応、長期的最適化のための枠組みを提供します。過去のデータに縛られる教師あり学習とは異なり、RLはシステムが自身の経験から学び、試行錯誤を通じて改善することを可能にします。これは、新しいユーザーのクエリを解決するアシスタントや、予期せぬ障害に対処するロボットなど、構造化されていない新しい状況で動作しなければならないAIにとって不可欠です。
AIにおける進展を測る方法にも、より深い意味合いがあることが分かってきました。モデルの知能を評価するために、もはや静的なベンチマークだけに頼ることはできません。代わりに、研究者は現実世界を反映した新しい評価設定を提案しています:連続タスク、人間を介したインタラクション、非独立同分布(non-i.i.d.)シナリオなどです。こうした豊かな環境をRLトレーニングと組み合わせることで、モデルがより強靭で一般化可能な行動を発達させることを促します。Yao氏の言葉を借りれば、「後半」はベンチマークのループを抜け出し、実際に現実世界での有用性をもたらすエージェントを創ることに焦点が当てられます。RL中心のラボへの投資の急増や業界におけるRLHFの急速な採用は、今こそこの飛躍を遂げる時であるという認識を反映しています。
とはいえ、RLを受け入れることには課題が伴います。RLのトレーニングは不安定でリソースを多く必要とすることがあります(OpenAI Fiveの高額なトレーニングがその一例です)。また、高リスクの領域では、ミスが安価である必要がある速いシミュレーションや環境が求められることが多く、これが常に利用できるわけではありません。しかし、これらの分野でも進展が見られます。新しいアルゴリズムやフレームワーク(MacaronのAll-Sync RL with DAPO最適化のような)により、大規模なRLトレーニングの効率が劇的に向上しています。sim2real transfer、報酬モデリング、安全な探索戦略などの技術が、RLシステムを大きな失敗なく実際の展開に進出させるのに役立っています。重要なのは、コミュニティがRLを他のパラダイムとどのように融合させるかを学んでいる点です。例えば、言語モデルを批評家やプランナーとして使用し、人間のデモンストレーションをRLに導入する(ハイブリッド模倣学習の一種)などです。これらのハイブリッドアプローチは、事前トレーニングの知識と強化学習の意思決定を両立させることが多いです。
結論として、今、強化学習に焦点を当てることは、単なる流行ではなく、必要性と機会がどこにあるのかを認識することです。私たちは、AIシステムが(事前学習のおかげで)広大な潜在能力を持っている地点に立っていますが、その能力を活性化する方法は、目標指向の学習を通じて行われます。AIの行動を人間の価値観に合わせる、ロボットに真の自律性を与える、新しい科学技術の問題を解決するためにAIを推進する、これらすべてにおいて、RLはフィードバックを通じてAIを反復的に洗練し改善するツールを提供します。私たちは、受動的な学習の時代から能動的な学習と実行の時代への移行を目撃しています。ことわざにもあるように、*「ここまで来た方法では、ここから先へは行けない。」*表現学習の重労働は、巨大なモデルによって大部分が完了したかもしれませんが、それらのモデルを有用で適応性があり、信頼できるエージェントに変えること—それが強化学習の仕事です。今、RLの研究と応用に投資することで、私たちは本質的に困難な問題に正面から取り組んでいるのです:AIが段階的に考え、選択肢を探り、誤りから回復し、最終的にオープンエンドのタスクをマスターできるようにすること。AIの大きな進化の軌跡において、この変化は2010年代の深層学習革命と同じくらい重要です。後半が始まったばかりであり、強化学習はその原動力となるでしょう。
参考文献:[4][1][2][13][12][9][15][18][23][22][25][26][19][21]
[1] [2] [3] [4] [5] [6] [7] [8] [30] [31] [32] セカンドハーフ – Shunyu Yao – 姚順雨
https://ysymyth.github.io/The-Second-Half/
[9] [10] [11] [15] Kimi K2 Thinkingの紹介 | ブログ
https://kimik2thinking.org/blog/introducing-kimi-k2-thinking
[12] [13] [16] [17] 独占: ミラ・ムラティのステルスAIラボ、最初の製品を発表 | WIRED
https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/
[14] [19] MIND LABS | DAPOとLoRAでオールシンクRLをスケーリング
[18] マカロン分析: Kimi K2 「シンキング」モデル: オープンエージェンティックAIの進化 - マカロン
https://macaron.im/blog/kimi-k2-thinking
[20] OpenAI Five、Dota 2世界チャンピオンを撃破 | OpenAI
https://openai.com/index/openai-five-defeats-dota-2-world-champions/
[21] 学習したプラズマ制御による融合科学の加速 - Google DeepMind
https://deepmind.google/blog/accelerating-fusion-science-through-learned-plasma-control/
[22] CICERO: 外交と関係におけるAI | blog_posts – Weights & Biases
https://wandb.ai/vincenttu/blog_posts/reports/CICERO-AI-In-Diplomacy-and-Relations--VmlldzozMzIzNDQ5
[23] [24] [34] [35] 宇宙で注目を集める強化学習 > アメリカ海軍研究所 > NRLニュース
[25] [26] [27] [28] [29] 宇宙での世界初演: ヴュルツブルクのAIが衛星を制御 -
https://www.uni-wuerzburg.de/en/news-and-events/news/detail/news/world-premiere-ai-control/