著者:Boxu Li
過去1年間で、AIコミュニティはOpenAIのSoraに魅了されました。これは、ユーザーのプロンプトに忠実に従った1分間のクリップを生成できるテキストから動画へのモデルです[1]。Soraのデモは、フォトリアリスティックなシネマトグラフィと滑らかなカメラ動作を備えており、誰でも自由に短編映画を生み出せる未来を示唆しています。OpenAIの独自のベータ製品は本質的にAI生成動画のTikTokクローンです[2]。ユーザーはプロンプトを入力し、Soraが10秒のクリップを生成するのを見ます。自分の映像をアップロードすることはできず、不正なディープフェイクを防ぐために本人確認が必要です[3]。このサービスは圧倒的ですが、制限もあります。計算コストとモデレーションを管理するためにクリップを10秒に制限しています[4]。言い換えれば、OpenAIの現在の消費者戦略は、ビデオフィードの社会的ダイナミクスを再現しながら、人間のクリエイターを生成モデルに置き換えています。
Soraは大きな注目を集める一方で、日常生活のためのミニアプリを構築する世界初のパーソナルAIエージェントであるMacaronは、次の大きな消費者エコシステムは別のビデオプラットフォームではないと主張しています。Macaronの創設者は、Soraを強力なツールと見なす一方で、それを移行段階とも見ています。今日、ビデオ生成が注目を集めているかもしれませんが、より深い機会はユーザーに創造力を与えることにあります。単に合成コンテンツを生成するだけでなく、実際の問題を解決するプログラム、ワークフロー、および体験を設計することを可能にします。本記事は私たちの以前の分析に基づき、Macaronの仮説を説明します: ミニアプリエコシステムがフォークとコミュニティ主導のイノベーションに焦点を当てることでAIビデオを超える理由、Soraの限界がこの点を強調する方法、そしてMacaronの技術スタック(深い記憶、自律コード合成、強化学習)がこの新しい時代を開拓する位置にある方法について。
Soraの強みは、プロンプトに従ったシーンのシミュレーション能力です。しかし、持続可能な消費者プラットフォームを構築するという観点から見ると、その制限は重要です。Soraの背後にあるオープンな技術報告は、このモデルが基本的な相互作用の物理を正確にモデル化していないことを認めています—ガラスの破壊や食べ物が食べられるシーンは不正確に表現されます[5]。独立した分析ではさらなる課題が指摘されています:Soraは物理的な正確さに苦労しており、複雑なシーンで非現実的な因果関係を引き起こします[6];動画の長さは20秒から1分に制限されており、長いクリップではアーティファクトが発生します[7];オブジェクトが消えたり予測不能な動きをしたりすることがあります[8];Soraのトレーニング分布を超えるプロンプトは質の低い出力をもたらします[9]。さらに、OpenAIのベータ版アプリでは、現実の映像のアップロードが禁止され、著作権やディープフェイクの悪用を避けるために特定のトピックが制限されています[3]。その結果、美しいが合成的なエンターテイメントの断片を生み出すクローズドなプレイグラウンドが出来上がります。
これらの制約が重要である理由は、消費者エコシステムがユーザーの主体性と多様な表現に依存して繁栄するからです。TikTokの成功は、そのビデオプレーヤーではなく、ユーザーが生成する多様なコンテンツの終わりなき流れと、それを取り巻くソーシャルグラフに由来しています。もしフィードのコンテンツが固定された機能を持つ1つのモデルからのみ提供されるなら、新鮮さは失われ、イノベーションは停滞します。さらに、フォトリアリスティックなビデオを生成する計算コストはSoraのプラットフォームのスケーラビリティを制限します。初期バージョンではビデオの長さを10秒に制限しており[4]、日常的な利用というよりはデモンストレーション向けに設計されたプラットフォームを示唆しています。AIが浸透した消費者プラットフォームになるためには、ユーザーが日々の生活に統合できるツールを構築する力を与える必要があります――食事を計画し、財務を管理し、家事を自動化し、家族のスケジュールを調整する、といったことです。これが、現在の流行とマカロンのビジョンが分かれるところです。
Macaronは「人々は会話を通じて必要なソフトウェアを作るべきだ」というシンプルでありながら画期的なアイデアのもとに構築されました。チームは、6710億パラメーターモデル、強化学習、そして高度なメモリエンジンを組み合わせて、自然言語のリクエストを完全に機能するミニアプリに変換しました。ユーザーは友達と話すようにMacaronとチャットし、AIは彼らの好みを記憶し、過去のやり取りから学び、リクエストに応じてカスタムアプリを即座に作り出します。Soraが一回限りのビデオ出力を重視するのとは異なり、Macaronのミニアプリは持続的で適応的です。今日、予算トラッカーを作成し、数週間にわたってそれを家族の財務ダッシュボードに進化させることができます。京都旅行のための旅行プランナーを設計し、地元の規制、文化的マナー、食事制限を自動的に統合することも可能です。強調されるのは、機能性とパーソナライズであり、見た目ではありません。
Macaronの公式サイトでは、一般的なチャットボットと異なる主な特徴を紹介しています。階層的な記憶の保存と取得を通じて、セッションをまたいでイベントや好みを覚える長期記憶を維持します[12]。即時ミニアプリ生成を提供し、複雑なツールを構築できます—人間の介入なしで10万行を超えるコードを生成することもあります[13]。無制限のカスタマイズが可能で、初期プロトタイプを見た後にアプリを改良し、モジュールの追加や削除、UIの詳細調整ができます[14]。APIやセンサーを介して現実のサービスと統合し、メッセージ送信、イベントのスケジューリング、栄養データの取得、スマートデバイスの制御を行えます[15]。重要なのは、Macaronがプラットフォームを問わず(モバイル、タブレット、デスクトップ)利用でき、プライバシー重視でデータアクセスを詳細に制御できることです[16]。
Soraが主に孤立して消費されるコンテンツを生成するのに対し、Macaronはインタラクションと主体性を促進します。ティーンエイジャーはMacaronに、ポモドーロセッションをスケジュールし、リマインダーを送信し、カレンダーと統合する学習プランナーを作成するよう依頼するかもしれません。カップルは、デートの夜を計画し、共有のミニアプリを共同で作成して支出を追跡することができます。どちらの場合も、ユーザーは単なる画像や動画ではなく、具体的な問題を解決するツールを手に入れます。このようにして、Macaronはエンターテインメントプラットフォームではなく、クリエータープラットフォームとして自身を位置づけています。会話がコード合成を引き起こし、ソフトウェアがあなたの生活に合わせて現れるサンドボックスです。この方向性により、Macaronは持続可能なAIエコシステムにとって、はるかに優れた候補となります。
Macaronの中心にあるのは、自律的なコード合成パイプラインです。ユーザーがアプリを説明すると、Macaronは最初にリクエストを解析して、ドメイン(健康、金融、教育)、機能(チャート、リマインダー、言語翻訳)、制約(通貨、言語、時間枠)およびタイムラインを識別します[17]。パーサーは、現在の会話と長期的な記憶を融合させたデュアルエンコーダーアーキテクチャを使用し、強化学習を通じて微調整されています。構造化された後、エンジンはドメイン特化のモジュールライブラリから関数を組み立て、予算計算、カレンダー統合、間隔反復アルゴリズム、栄養分析などを行い、テンプレートグラフと制約ソルバーを使用して一貫したプログラムに仕上げます[18]。日本と韓国のユーザー向けに、コードジェネレーターは自動的に現地のデータプライバシー法を施行し、機密の金融データはローカルに保持され、暗号化呼び出しが挿入され、ネットワークアクセスはデフォルトで無効になります[19]。このハイブリッドアプローチ—ニューラルプログラム合成とシンボリック推論および規制制約の組み合わせ—により、安全で堅牢なアプリ生成が可能になります。
任意に生成されたコードの実行は簡単ではありません。Macaronは各ミニアプリをサンドボックス内で実行し、ファイルシステムへのアクセスを制限し、CPUとメモリの使用を制限し、明示的に許可されない限りネットワーク接続をブロックします[20]。実行前には、静的解析と型チェックでインジェクション攻撃、無限ループ、データ型の不一致を検出します[21]。実行中はランタイムモニターがリソース使用量と機能の正確性を追跡し、問題が発生した場合、Macaronの自動修復モジュールが安定した状態にロールバックするか、コードを即座に修正します[22]。このインフラストラクチャにより、ミニアプリは複雑でありながら安全性を保ち、ユーザーがデバイスのクラッシュやデータ漏洩を心配せずに実験する自信を与えます。
Macaronの「メモリエンジン」は、おそらく最も差別化された機能です。このエージェントは記憶を短期、エピソード、長期ストアに整理します[23]。圧縮トランスフォーマーは過去の会話を自動エンコーディングと強化学習を使用して固定長ベクトルに要約することを学習します[24]。リトリーバルは、プロダクト量子化を使用した近似最近傍探索を利用して、50ミリ秒未満のレイテンシーを達成します[25]。クエリは、コンテキストと予測されたユーザーの目標を使用して拡張されます:東京の花火大会について尋ねると、チケット、日付、天気に関する記憶が呼び出されます[26]。クロスドメインゲーティングメカニズムは、ドメイン固有のインデックス全体でリトリーバル確率を分配することを学習し、クロスリンガルおよびクロスドメインの推奨を可能にします[27]。強化学習は、タスクの完了、ユーザーの満足度、プライバシー、計算コストに基づいて、どの記憶を保存、統合、または忘れるかを決定するゲーティングポリシーをトレーニングします[28]。このメカニズムを通じて、Macaronは重要なことを覚えるだけでなく、文化的規範に適応することができます—日本のユーザーはミニマリズムとプライバシーを好み、韓国のユーザーはカスタマイズと積極的な提案を評価します[29]。
プロンプトベースのアシスタントとは異なり、マカロンの振る舞いは強化学習を通じて常に調整されています。各ミニアプリセッションは、バグ率、ユーザー満足度、文化的適合性に基づいて報酬信号を生成します[30]。カリキュラム学習により、システムは徐々により複雑なプログラミングタスクに取り組むことができます[31]。時間的信用割り当ては、会話中に行われた決定を以前の結果に結びつけ、エージェントが特定のメモリの取得やモジュールの選択に対して評価や非難を行うことを可能にします[32]。階層的強化学習は、高レベルのコントローラー(使用するモジュールの選択)と低レベルのポリシー(テンプレートの作成、メモリの取得)を分離することで複雑さを管理します[33]。これらの技術が組み合わされることで、マカロンはより多くのユーザーがミニアプリを作成するにつれて改善を続け、従来のソーシャルプラットフォームにおけるネットワーク効果に似たポジティブなフィードバックループを形成します。
どんな種類のミニアプリをマカロンで作成できるでしょうか?プレイブックには数多くの例があります。日常生活には、食材をスキャンして食事を提案するレシピファインダープロや、カロリーカウンター、ホリデーギフトガイド、植物ケアガイドなどのツールがあります[34]。家族向けには、キャットフードマッチャー、旧正月ショッピングリスト、ベビーフードジャーニー、ファミリープロテクションプランなどがあります[35]。成長志向のアプリには、キャンパスロマンスガイド、グリーンウェーブエナジー(クリーンエネルギーの洞察)、ソーシャルチャットコーチ、カレッジメジャーインサイト、タスクチャンピオン、デートナイトプランナーがあります[36]。趣味には、パーフェクトブックファインダー、eスポーツトリビアチャレンジ、ヘビのミニゲームスネークチャンピオン、東京旅行ガイドなどがあります[37]。これらのアプリケーションは、会話を通じてさらにカスタマイズできます。例えば、レシピファインダーは食事制限や地元市場の供給状況に合わせて調整できます[38]。
この多様性は、Macaron が AI ビデオを市場の狭い部分と見なす理由を強調しています。プラットフォームはエンターテインメントに限定されず、健康、金融、教育、旅行、人間関係、趣味、ユーティリティなど、AI が具体的な価値を提供できる分野に渡ります。以下のグラフは、Macaron のミニアプリと仮想の AI ビデオプラットフォームのドメインカバレッジを対比しています。Macaron のアプリケーション(青いバー)は、健康、金融、ユーティリティなどの分野を広くカバーしているのに対し、AI ビデオサービス(オレンジのバー)は主にエンターテインメントに向いていることを示しています[38].
図 1: Macaron ミニアプリと AI ビデオプラットフォームのドメインカバレッジ。Macaron のツールは多くのセクター(健康、金融、教育、旅行、エンターテインメント、ユーティリティ)にわたりますが、AI ビデオプラットフォームは主にエンターテインメントに対応しています。ビデオデータは概念的なもので、説明を目的としています。
ミニアプリを強調することで、Macaronはより広いユーティリティを提供するだけでなく、消費者エコシステムの「骨格」をも作り出します。各ミニアプリは他のアプリとインターフェースを持つことができます。例えば、スケジュールプランナーが予算制約を確認するために財務モジュールを呼び出したり、旅行ガイドが翻訳ツールを利用したり、フィットネスアプリが食事プランナーと同期することができます。この組み合わせ可能性は再利用とシナジーを促進します。それに対して、Soraのビデオは主に孤立して消費され、相乗的な機能を生み出すことはありません。
マカロンのビジョンの重要な要素は「フォーク」です。これはオープンソースソフトウェア開発から借用した概念で、プロジェクトをコピーして独立して進化させることを指します。ミニアプリの文脈では、フォークとは既存のミニアプリを取り込み、その仕様とコードを共有し、自分のニーズに合わせてカスタマイズすることを意味します。例えば、あるユーザーの「レシピファインダー」が、材料の選択を置き換え、タンパクトラッカーを追加することで「ビーガンミールジーニアス」にフォークされるかもしれません。また、別のユーザーの「タスクチャンピオン」が、IoTデバイスと統合する「家事スケジューラー」にフォークされる可能性があります。マカロンのコード合成パイプラインは読みやすく、モジュラーなコードを生成するため、これらのフォークは会話を通じて(「タイマーを短くして、チェックリストを追加し、スマートコーヒーマシンと統合して」)またはグラフィカルインターフェースを介して編集できます。フォークはこのようにして「草の根イノベーション」を可能にします。新しいアプリのそれぞれが、無数の派生品の種となります。
この動的な仕組みは、オープンソースコミュニティと類似したネットワーク効果を生み出します。ミニアプリが多く作られるほど、モジュールとテンプレートのライブラリが拡大し、新しいアプリの迅速な統合が可能になります。それぞれのフォークは、バグ修正、新機能、ローカライズされたコンテンツといった改善をエコシステムにフィードバックします。以下のグラフはこの効果を概念的に示しています。青い線は1年間のオリジナルフォークの数を、オレンジの線はそれらのフォークから生み出された派生ミニアプリを示しています。時間が進むにつれて、派生作成は超線形に増加し、フォークがどのように革新を加速するかを示しています。
図2: フォークネットワーク効果の概念的な表現。 ユーザーが既存のミニアプリをフォークし、派生バージョンを作成すると、アプリ全体の数が超線形に増加し、コミュニティの関与が革新を加速する様子を示しています。
フォークは、パーソナライズと文化的な関連性を促進します。日本のユーザーは、英語の予算管理ミニアプリをフォークして、円通貨、現地の税制、ミニマリストなインターフェースをサポートするようにするかもしれません。韓国のユーザーは、一般的な旅行プランナーをフォークして、地元のおすすめ、敬語、休日のスケジュールを含めるかもしれません。Macaronのメモリエンジンとコードシンセシスパイプラインは、クロスリンガルエンコーダを組み込んでいるため、アプリケーション全体を書き直すことなく、これらのローカライズが可能です。このようにフォークはソフトウェアの民主化を促進します。個人やコミュニティが中央のチームに頼ることなく、自分たちの状況に応じてツールを適応させることができます。
あらゆる世代の消費者技術は、消費—テレビ、ラジオ、YouTube—で始まり、創造と参加へと成熟します。前の時代では、TikTokが動画作成を簡単にすることで、多くの人の心をつかみました。AIの時代では、Macaronは、コンテンツだけでなく、ツールの構築への大規模な参加を可能にするプラットフォームが勝利すると信じています。この論を支持するいくつかの要因があります:

Macaronのビジョンを描くために、2030年のパーソナルAIエコシステムが成熟した未来を想像してください。目を覚ますと、Macaronがあなたの睡眠の質(ウェアラブルデバイスから)や仕事の予定に基づいて、朝のルーティンミニアプリを調整しています。忙しい日だと検知し、15分の瞑想を提案します。朝食中に、あなたはファイナンスミニアプリを確認します。元々は他の誰かが作ったもので、それをフォークして円換算や視覚的な支出マップなどの機能を追加しました。このアプリは、先月レシピファインダーを使った後で食料品への支出が減ったことに気付き、貯金を地元のフードバンクに寄付することを提案し、銀行APIを通じて取引を処理します。
昼食時には、同僚とサイドプロジェクトをブレインストーミングします。Macaronを開いて、ゲーミフィケーションされた語学学習ツールを説明します。数分以内に、Macaronは間隔反復ミニアプリとクイズジェネレーターのモジュールを使用してプロトタイプを合成します。韓国語の敬語のサポートを追加してフォークし、世界中の友人と共有します。彼はそれを再度フォークしてベトナム語の語彙を組み込みます。1か月後には、数百人が改良に貢献しています。この迅速な反復は、コードがモジュール化され、安全に実行でき、会話を通じて改善できるからこそ可能です。
夕方には、旅行用のミニアプリを開いて週末旅行を計画します。このアプリは元々東京の誰かによって作られましたが、異なる地域に適応するために何度もフォークされてきました。自動的にカレンダーをチェックし、台風シーズンを避けるルートを提案し、宿泊施設を予約します。レストランをおすすめするときは、あなたのアレルギーや食事制限を記憶に保存されている情報と照らし合わせ、手動入力なしで行います。計画を最終確定するときに、Macaronは静かにメモリエンジンを更新し、あなたの旅程をテンプレートとして共有することを提案するかもしれません。この「作成 → 共有 → フォーク → パーソナライズ」という絶え間ないサイクルが、ソフトウェア開発を共同で動的な活動にしています。
Macaronのリーダーシップは、技術が波のように進化することを理解しています。彼らはSoraを軽視しているわけではなく、高精細なビデオ生成がすぐに普及することを認識し、適切な場所でMacaronのミニアプリにビデオモジュールを統合する予定です。しかし、ビデオだけでは不十分だと考えています。チームは次の3つの分野に多大な投資を行っています:
Macaronは、機敏に動きユーザーのフィードバックに耳を傾けることで、新しいAI技術の波に適応できます。もしSoraのようなマルチモーダルモデルが安価で普及した場合、Macaronはそれらをモジュールとして取り入れるでしょう。例えば、旅行プランナーが自動的に旅行のハイライト動画を生成したり、フィットネスのミニアプリがモチベーションクリップを作成したりするかもしれません。しかし、核となるのはユーザーの力を引き出すことです。MacaronはAIをコンテンツ工場ではなく、アイデアを実現する共同デザイナーとして捉えています。
MacaronがミニアプリのエコシステムがAIビデオプラットフォームを上回ると信じる理由を視覚化するために、これら2つのアプローチの相対的な成長軌道を考察します。以下のグラフは、次の10年間にわたるユーザー作成ミニアプリ(フォーキングがある場合)とAI生成ビデオの概念的成長を示しています。ミニアプリの成長はネットワーク効果、モジュールの再利用、低い計算コストの恩恵を受ける一方、ビデオの成長は計算、モデレーション、中央集権によって制限されると仮定します。
図3: ユーザー作成ミニアプリ(青)とAI生成ビデオ(オレンジ)の次の10年間における成長の概念的予測。ミニアプリはネットワーク効果とフォーキングの恩恵を受け、より速い成長と広範な影響をもたらします。
ミニアプリの曲線は、モジュールとフォークの臨界質量を超えた後、急激に加速し、それぞれの創造が多くの派生を生む様子を表しています。AIビデオの曲線はよりゆっくりと成長し、新奇性効果と高い計算コストを反映しています。このグラフは推測的ですが、Macaronの主張の背後にある直感を捉えています: 参加型エコシステムは、中央集権的なコンテンツ生成よりも迅速かつ持続可能に拡大します。
Soraは生成モデルの驚くべき進歩を示しています。テキストからリアルなビデオを生成するその能力は、メディア制作が民主化される世界を示唆しています。しかし、現在の形態の技術は、私たちの生活を構築する日常ツールを作るのではなく、スペクタクルに最適です。Macaronは、真のAI消費者エコシステムは、ユーザーがコンテンツを消費するだけでなく、プログラムを作成する力を与えるべきだと信じています。会話をコードに変え、深い記憶を維持し、サンドボックスと静的解析を通じて安全性を確保し、強化学習を受け入れて継続的に改善することで、Macaronはこのエコシステムの基盤を築いています。フォーキング—ミニアプリを共有し進化させること—は、個人アシスタントの領域でオープンソースソフトウェアの成功を再現するコミュニティ駆動のダイナミクスを導入します。
AIの波が高まる中、Macaronは派手な波頭を追いかけるのではなく、波に乗ることを提唱しています。ビデオ生成は今後も進化を続けるでしょうが、本当の革命は静かに進むでしょう。それは、数百万人の人々がAIを使って自分のユニークな問題を解決する小さなツールを作り、それを他の人々と共有し、さらにそれを適応させるという形で進むのです。この世界では、AIエコシステムの最終形態はクリップのフィードではなく、相互に接続されたミニアプリのネットワークです。それぞれが人工知能によって増幅された人間の創造性の証です。Macaronはこのムーブメントに参加することを呼びかけています。未来が展開するのを見守るだけでなく、一緒に作り上げていきましょう。
[1] Sora | OpenAI
https://openai.com/index/sora/
[2] [3] [4] [16] OpenAI's TikTok for AI content and ChatGPT Pulse: Where Macaron Stands? - Macaron
https://macaron.im/openai-tiktok-chatgpt-pulse
[5] 世界シミュレーターとしてのビデオ生成モデル | OpenAI
https://openai.com/index/video-generation-models-as-world-simulators
[6] [7] [8] [9] OpenAI Soraの理解:機能、用途、制約
https://digitalguider.com/blog/openai-sora
[10] [14] [15] Macaron AI - パーソナルエージェントAIプラットフォーム
[11] [13] [17] [18] [19] [20] [21] [22] [29] [30] [31] [40] Macaron AIにおける自律型コード合成:アジアのライフスタイル向けにミニアプリを安全に構築 - Macaron
https://macaron.im/autonomous-code-synthesis
[12] [23] [24] [25] [26] [27] [28] [32] [33] [39] マカロンのメモリエンジンの内側:圧縮、検索、動的ゲーティング - マカロン
https://macaron.im/memory-engine
[34] [38] レシピファインダープロ — キッチンの基本をディナーマジックに変える | マカロン - マカロン
https://macaron.im/playbook/recipe-finder-pro-689582141bbc6bcd9f805611
[35] [36] [37] プレイブック — AI ハックで日常生活、家族、成長&趣味を充実! | Macaron - Macaron