スケーリングから体験型インテリジェンスへ:イリヤ・スツケヴァーのビジョンとマカロンのアプローチ

著者: 李博旭

「スケーリング」時代の終わりと研究への回帰

最近のドワケシュ・パテルとの対談で、OpenAIの共同創設者であり現在はスタートアップ「Safe Superintelligence(SSI)」のトップであるイリヤ・スツケヴァーが、AIの現状とその未来について考察しました。スツケヴァーは、AI業界が「とにかく大きくすればいい」というスケーリングの時代を超え、再び基礎研究の時代に戻りつつあると主張しています。2012年から2020年にかけて、ディープラーニングの進展は新しいアイデアによって推進され(「研究の時代」)、2020年から2025年にはデータやパラメータのスケーリングアップに注力されました(「スケーリングの時代」)。しかし現在では、単にモデルサイズやデータセットサイズを増やすだけでは成果が減少しています。スツケヴァーが率直に述べるように、「もし単に100倍スケールアップしても、すべてが変わるわけではない...再び研究の時代に戻るのだ、ただし大規模なコンピュータを使って。」つまり、今後のブレークスルーは、単純な力任せのスケールではなく、新しいトレーニング方法やより賢いアルゴリズムから生まれるでしょう。

この変化を促進する核心的な問題は、スツケヴァーが「一般化のギャップ」と呼ぶものです。今日の大規模モデルはベンチマークで高得点を取ることができますが、実務的なタスクではまだつまずくことがあります。これはますます明らかになっているパラドックスです。*「これらのモデルは、なぜか人間よりも劇的に一般化が劣っている。それは非常に明白だ。非常に根本的なことのようだ」とスツケヴァーは指摘します。コーディングコンペティションや言語試験で高得点を取るモデルでさえ、同じバグ修正を繰り返したり、簡単な常識的判断を誤ったりするという奇妙なエラーを犯すことがあります。これは、有能な人間が決してしないことです。これにより、神経ネットワークは、人間のように真に理解したり、適応したりするわけではないという脆弱性が浮き彫りになります。その優れた限定的なスキルにもかかわらずです。スツケヴァーの講演の要約が説明しているように、評価で良い結果を出すモデルを構築しても、現実世界での信頼性は依然として脆弱です。「評価での高性能と対照的に現実世界でのエラーによって示される脆弱性」*が存在するのです。

なぜ現在のモデルは一般化において不十分なのでしょうか?Sutskeverは、それが私たちのトレーニングパラダイムの一部の産物であると示唆しています。大規模な事前トレーニングの時代には、モデルにあらゆるもの(インターネット規模のテキスト)を与え、データの幅広さが広範な能力をもたらすことを期待しました。それはある程度は成功しました。しかし、事前トレーニングの後、企業は特定のベンチマークやユーザー指示に基づいて強化学習(RL)でモデルを微調整します。Sutskeverは、このRL段階がしばしばモデルをテストでの成功に過度に特化させ、本当に理解を深めることができていないと疑っています。彼の会話の中で、彼は鮮やかなアナロジーを示しています。「学生」(AIモデルに例えられる)が1万時間競技プログラミング問題を練習し、コーディングコンテストの天才になる一方で、別の学生はより控えめに練習し、広範なコンピュータサイエンスの直感に焦点を当てます。前者はコンテストで勝利するかもしれませんが、後者は現実世界でより多才なエンジニアになります。今日のモデルは過剰に準備された専門家のようなもので、調整された狭い条件下で卓越していますが、新しい複雑な問題にスキルを適応させる**「それ」**が欠けています。要するに、私たちのAIはまだ、人間が生涯の経験を通じて得る堅牢で流動的な一般化を実現していません。

人間が学習をより効率的にする理由: サンプル効率と継続学習

スツケバーの議論の主要なテーマの一つは、人間の学習の「サンプル効率」です。人間は複雑なタスクを学ぶのに驚くほど少ないデータしか必要としません。例えば、ヤン・ルカンは、ティーンエイジャーが車を運転する技術を身につけるのに、もしかしたら10時間程度の練習で済むと指摘しています。これはAIの基準から見ると極めて少ないデータセットです。幼い子供たちは、日常生活の中で車(および他の数千もの概念)を認識することを学びます。それに対して、現在のAIモデルは巨大なトレーニングセットを必要とし、それでもなお人間の柔軟性に及びません。スツケバーは、進化が我々にいくつかの有用な帰納的バイアスを事前に与えていると指摘しています。例えば、何百万年もの視覚や運動機能が我々の脳を形作ってきましたが、それだけでは全てを説明できません。進化によって研ぎ澄まされていない分野(例えば、読書、数学、プログラミング)においても、人間は今日のアルゴリズムを迅速に上回ります。これは、「人々が学習に優れている理由」が単なる先天的な知識を超えていることを示唆しており、我々には根本的により効率的な「学習アルゴリズム」があることを示しています。

そのアルゴリズムは何か?一つの手がかりとして、スツケバーは、人間は一度に大量のデータを学ぶのではなく、継続的かつ対話的に学習すると主張しています。私たちはテラバイトものテキストを摂取して脳を固定するのではなく、継続的な経験から学び、常に知識を更新しています。彼は、15歳の人間は巨大な言語モデルのコーパスに比べて遥かに少ないデータを取り込んでいるが、それでも15歳までに深い理解を達成し、明らかな間違いをはるかに少なくしていると指摘しています[16][17]。違いは、人間は生涯を通じて学び続けることであり、思春期で「訓練フェーズ」が終わったとは考えません。「人間はAGIではなく…私たちは *継続的な学習に依存している」とスツケバーは言い、超知能AIであっても、全知の神託のようにではなく、15歳の神童として展開する必要があることを強調しています[18][19]。そのようなAIは強固な基盤を持っていますが、初めは「膨大な知識が不足している」*とし、さまざまな役割で実地で学ぶことになります。これは、明るい若者が医者やエンジニアとして訓練するために社会に出るのと同様です[19][20]。実際、スツケバーの安全な超知能のビジョンは、「すべての仕事を知っている」静的なモデルではなく、**「すべての仕事を学べる」**システムであり、継続的に向上します[20][21]。言い換えれば、真のAIの成功は、固定されたタスクの達人を作るのではなく、学習の達人を作ることかもしれません。

人間の学習のもう一つの側面は、私たちに組み込まれたフィードバックメカニズムです。人間には、感情や直感が内的な報酬信号として働き、新しいスキルを学ぶ際に私たちを導くのです。スツケヴァーは印象的なケースを語ります。脳の損傷により感情を感じる能力を失った男性が、意思決定が壊滅的に下手になり、どの靴下を履くかさえ選ぶのに苦労したというのです[22][23]。感情的な手がかりがなければ、彼は何が重要かを内的に感じることができなかったのです。これは、私たちの脳がある種の価値関数を利用していることを示唆しています。つまり、物事がどれだけうまくいっているかの進行中の評価を通じて、効率的に学習し、意思決定を行うのです[24][25]。強化学習の用語で言えば、私たちは経験の最後まで報酬を待つのではなく、中間段階で内的報酬(喜び、挫折、好奇心など)を生成し、それが学習を大いに加速させるのです。スツケヴァーは、今日のRLアルゴリズムがこの豊かさに欠けていると主張します。それらはしばしば最終スコアを待ち、長期的な課題において非常に非効率的です[26][27]。*「長時間続くことをしていると、[終わりまで]まったく学習しない」*と彼はナイーブなRLについて説明しています[28]。解決策は、AIエージェントに進捗感を与え、フィードバックの遅延を短絡させる価値関数を提供することです[29][30]。このような内的フィードバックを組み込むことで、トレーニングがはるかに効率的になる可能性があります。スツケヴァーはこれを人間の感情の機能と比較し、「コンピュートをより生産的に使用する」有望な方向性と呼んでいます[31]。要するに、継続的な学習とより豊かな自己監督(価値信号)の組み合わせが、一般化のギャップを埋める鍵となるかもしれません。

Key insight: Current AI models need far more data than humans and still aren’t as adaptable. Humans learn efficiently by continuously gathering experience and by using internal feedback (our “emotional” value function) to guide learning. Building AI that learns in a similar interactive, incremental way – and that can judge its own progress – could dramatically improve generalization[32][4].

Beyond Pre-Training: Toward Experiential Intelligence

これらの洞察は、Macaron AIの哲学と深く共鳴しています。私たちはしばしば一言でこう表現します:「本当の知性は、実際の経験から学ぶ。」より大きなモデルや大量のオフラインデータセットに頼るのではなく、Macaronの研究は経験学習に焦点を当てています。これは、人間が時間をかけてスキルを習得するように、AIを積極的な対話、フィードバック、長期間の記憶を通じて訓練することです。このアプローチを私たちは経験知能と呼び、AIモデルが学ぶ経験の質と多様性から能力を成長させることを目指しています。単にデータの量ではなく、経験の質に重きを置くのです。これは、盲目的なスケーリングの時代からの意識的な脱却を意味します。Sutskever氏自身が強調したように、単にデータやパラメータを増やすだけでは限界があり、次の飛躍は、適切な経験を活用してより少ないものからより多くを学ぶアルゴリズムから生まれるでしょう。

具体的には、MacaronのMind Lab研究部門は、大規模モデルでの継続的でフィードバック駆動の学習を可能にする技術を先駆けています。私たちは、基礎モデルを捨てて、すべてのアップグレードごとに新しいものをゼロから事前トレーニングし直すことはしません。代わりに、強力な基盤モデルを拡張し、反復的なポストトレーニングを行います。これには、実際のタスクでの強化学習、人間が介在するフィードバック、長期記憶の統合が含まれます。たとえば、私たちのチームは最近、パラメーター効率の良いLoRAアダプターを使用して、1兆パラメーターのオープンソースモデルで高性能なRLファインチューニングを実行した世界初のチームとなりました。これにより、通常のGPU予算の約10%だけを消費しました。これは、大規模なポストトレーニングを実現可能にする突破口でした。要するに、巨大なモデルに新しい経験を与え、それから学ぶことが、素朴な方法よりも桁違いに効率的にできることを示しました。その結果は?静的データで少しだけ低いパープレキシティを搾り出す代わりに、モデルにインタラクションを通じて新しいスキルを教え、しかもそれを実行可能で費用対効果の高い方法で行いました。(注目すべきことに、この技術をオープンソース化し、NVIDIAのMegatronやByteDanceのVEGAのような人気のあるトレーニングフレームワークに貢献しましたので、より広いコミュニティがそれを基に構築できるようにしました。)

メモリー: 賢く忘れることを学ぶ

Macaronのアプローチのもう一つの柱は記憶です。それは単なるチャット履歴のウィンドウではなく、時間とともに知識を蓄積しキュレーションするモデルの学習コンポーネントとしての記憶です。人間はすべての入力を均等には扱いません。重要な出来事を覚え、残りはすぐに忘れます。この賢く忘れる能力は、過負荷なく長期的な依存関係を処理するために重要です。この点に着目して、我々の研究者はMemory Diffusionという新しいメモリーシステムを開発しました。単なるキャッシュや検索とは異なり、Memory Diffusionは、長い会話や使用履歴を通じて情報がどのように進化すべきかをモデルに教えます。モデルは、文脈が成長するにつれて関連性のない詳細を「拡散」させ、重要な事実を際立たせることを学びます。経験的に、この方法は、固定長コンテキストやヒューリスティックな検索のような古典的なメモリベースラインを凌駕し、長期的な一貫性を維持するのに優れています。より直感的には、モデルに何が重要かを優先する作業記憶のようなものを与えます。それはまるで、通勤中に通り過ぎた看板をすぐに忘れ、どこへ向かっているのか、なぜそこへ行くのかを覚えているあなたの脳のようです。モデルにどの信号を保持すべきか、どれを手放すべきかを学ばせることで、一つのタスクから次のタスクへと重要な学びを引き継ぎ、より継続的な学習を可能にします。このメモリ機構は、思考力と道具の使用の進化と共に、Macaronのエージェントアーキテクチャの重要な要素となっています。これは、単にコンテキストウィンドウを100万トークンに拡張する(効率が悪い)代わりに、モデルに自身の経験から知識を賢く圧縮し、記憶する方法を与えるという、生の規模よりも建築的な賢さを重視するもう一つの例です。

現実世界のフィードバックループ

重要なことに、Macaronの研究は製品から孤立して行われるわけではありません。私たちは、密接な研究↔製品ループを信じています。つまり、ラボでの改善はユーザーエクスペリエンスによって直接検証され、製品からの洞察が新たな研究に役立ちます。例えば、MacaronのパーソナルAIアプリは、AIの応答が不十分だったり、ユーザーが不満を感じたときに、匿名化されたフィードバックを積極的に記録します。これらのシグナルは、強化学習のトレーニングに追加の報酬シグナルとして活用されます。私たちは、実際のユーザーフィードバックを基にトレーニングすることが、単にインターネット上のテキストをプレトレーニングに追加するよりも、大きな能力向上をもたらすことが多いと分かりました。これは、Sutskeverの観察と一致しており、何をトレーニングするかがどれだけトレーニングするかよりも重要である場合がある - 少量のターゲットを絞った経験が、数十億の静的トークンが教えられないことをモデルに教えることができる[7]。デプロイメントと研究の間のループを閉じることで、私たちのAIが実際に人々が関心を持つタスクで改善されることを保証しています。Sutskeverの言葉を借りれば、私たちはモデルに、世界を経験することから得られる「それらしさ」を与えているのです。

収束: AIの新しいパラダイム

AIリーダーの間で、継続的で体験的な学習が前進する道であるという合意が広がっていることは心強いです。スツケヴァーの、人間のように学習する超知能のビジョン – 絶え間なく適応する – は、まさにマカロンが追求している道です。このシフトにおいて私たちは一人ではありません。例えば、Googleの最近のPathways戦略も、多くのタスクやモダリティで1つのモデルをトレーニングすることを提唱しており、それにより時間とともに新たなスキルを学び、単一目的のモデルを超えて進化することができます。また、ジェイソン・ウェイジェフ・ディーンのような研究者たちは、巨大な一度きりのトレーニングランに頼るのではなく、知識をインクリメンタルに効率的に蓄積できるアーキテクチャの必要性を議論しています。これは、今日のモデル中心のAIとは対照的に、**「学習中心のAI」**と呼ばれるかもしれない、より広範な業界の動きを表しています。この新しいパラダイムでは、AIが新しい能力を獲得したり、新しい状況に適応したりするのにどれだけ迅速にできるかという問題が浮上します。それは、AIがどれだけのパラメーターを持っているかや、それを事前にトレーニングするのにどれだけのデータが使用されたかという問題ではありません。その基準で言えば、人間がまだ王冠を保持しています。しかし、その差は縮まっています。

マカロンAIでは、実体験から学ぶAIである「体験型インテリジェンス」が、次のパフォーマンスと信頼性の波を引き起こすと考えています。すでに証拠が見え始めています。強化学習と人間のフィードバックで訓練された我々のモデルは、ベンチマークでの性能が向上しているだけでなく、実際にはユーザーのニーズにより一致していると感じられます。これらのモデルは、突飛なエラーを減らし、ミスからの回復もよりスムーズです。というのも、彼らの訓練がミスを「気づいて修正する」ことを教えているからです(まるで人間のように)。私たちのメモリーメカニズムも同様に、純粋なトランスフォーマーにはない連続性を提供し、会話やタスクがリセットされることなく数か月にわたって続くことができます。これらすべての利点は、知性を静的なものではなく「プロセス」として扱うことから生まれています。Sutskever氏が言ったように、展開されたAIは展開中に「試行錯誤の学習期間」を経るかもしれませんが、それはコントロールされ、整合されている限り、バグではなく特徴です。

AIが自ら学習する際のアラインメントはもちろん最重要です。興味深いことに、Sutskeverは、時間をかけて本当に学び理解するAI、つまり生命を尊重し、世界や他者を共感的にモデル化できるAIをアラインメントすることは、閉じた環境で訓練された静的な超天才をアラインメントするよりも簡単かもしれないと示唆しています。AIが人間と交流しながら成長するなら、その開発過程で人間の価値観を植え付ける機会が生まれます(そして誤りを観察して修正することができます)。これは、透明性と段階的な展開が安全なAIにとって鍵であるという我々の見解を反映しています。Macaronのプラットフォームは、ユーザーと直接関わりながら学ぶことで、この段階的アプローチのための自然な実験場を提供します。私たちは意図的に、新しい学習能力を段階的に展開し、行動を監視しフィードバックを集めることで、真空状態で訓練されたブラックボックスモデルを解き放つのではなく、AIを進化させています。要するに、経験による学習はAIを賢くするだけでなく、より安全で人間に適合したものにすることができます。

結論: 経験的知性を受け入れる

イリヤ・サツケヴァーの未来志向の視点とマカロンの開発の旅は、同じ結論に向かっています。次の画期的なAIは、ただの大きな記憶装置ではなく、マスター学習者になるということです。経験から学び、フィードバックを内面化し、長期にわたって記憶し適応することができるAI、つまり成長できるAIこそが、現実世界の複雑さに一般化できるAIです。これは、以前の年々からの大きな考え方の変化を示しています。モデルが最初にどれだけの知識を持っているかではなく、新しい知識をどれだけ効果的に獲得できるかが重要です。サツケヴァーが想像する「超知能の15歳」は、この考えを具現化しています[18][19]。マカロンでは、ユーザーコミュニティと共に、そういった継続的に学習するAIの構築に取り組んでいます。

体験的で継続的な学習AIの影響は広範です。技術的には、サンプル効率が高い、つまり少ないデータで多くのことを成し遂げることを意味し、どんな分野や分布にも迅速に適応できるモデルを実現します。経済的には、迅速に再訓練できるAI労働者を約束し、革新と生産性を大幅に加速させることが期待されます(Sutskeverは、こうしたAIが普及すると急速な成長が見込まれると予測しています[34][35])。社会にとっては、AIシステムがより理解しやすくなることを意味します。なぜなら、私たちはAIが学ぶ様子を見て、その発展を形づくることができるからです。完成された謎ではなく、途中で学ぶプロセスを目の当たりにするのです。

これを達成するのは容易ではありません。アルゴリズム、システム、学習の理論的理解の進展が求められます。しかし、価値関数や高度なRLから生涯記憶アーキテクチャ、人間参加型トレーニングまで、必要な要素が揃いつつあります。これらの要素を統合することで、本当に自ら考え学ぶAIに近づいていきます。これはMacaronの研究推進の精神であり、Sutskeverのようなリーダーたちが描くビジョンと緊密に一致しています。拡大の時代から多くを学びましたが、体験的知能の時代が今、幕を開けようとしています。この新時代において、境界は単に大きなモデルではありません。より賢く、適応力があり、 人間らしい 学習者 です。そして、それこそが私たちが目指しているものです。

出典:

· イリヤ・サツケバーのドワケシュ・パテルとのインタビュー(2025年11月)– ドワケシュ・ポッドキャスト: 「スケーリングの時代から研究の時代へ」 ハイライトはドワケシュのブログで利用可能[1][4][18][19].

· ベスト・オブ・AI ダイジェストによるサツケバーの主要ポイントの要約[36].

· サツケバーが言及したルカンの人間の運転効率に関する観察[12].

· マカロンAIマインドラボ – 体験知能と記憶に関する内部研究ブリーフ(2025年)。

· マカロンAIの大規模RLトレーニングに関するオープンソース貢献(メガトロン・ブリッジとVEGAの統合、2025年)。


[1] [2] [3] [4] [5] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [32] [34] [35] イリヤ・サツケバー – 私たちはスケーリングの時代から研究の時代へと移行しています

https://www.dwarkesh.com/p/ilya-sutskever-2

[6] [31] [33] [36] AIの原動力: 2025年以降へのスケーリング (Jason Wei, OpenAI) by Best AI papers explained

https://creators.spotify.com/pod/profile/ehwkang/episodes/Driving-Forces-in-AI-Scaling-to-2025-and-Beyond-Jason-Wei--OpenAI-e30rd59

Boxuはエモリー大学で定量経済学を専攻し、学士号を取得しました。Macaronに参加する前は、アメリカのプライベート・エクイティとベンチャー・キャピタル分野でキャリアを積んでいました。現在、彼はMacaron AIの参謀長兼マーケティング副社長として、財務、物流、運営を管理しつつ、マーケティングを監督しています。

応募する Macaron の最初の友達