著者: Boxu Li 

はじめに

Macaron AIの新しさは、カスタムミニアプリを生成する能力や共感的な友人としての役割に注目されがちですが、その真の基盤は複雑なメモリエンジンにあります。このシステムにより、Macaronは重要なことを覚え、不必要なことを忘れ、必要な経験を迅速かつ安全に呼び出すことができます。音楽に関する簡単な会話が、来月のコンサートのリマインダー、自動的に編成されたプレイリスト、またはカラオケアシスタントの生成につながることもあります。これらすべては、長い対話や多様なトピックを扱えるメモリメカニズムがなければ実現不可能です。このブログでは、Macaronのメモリエンジンを深く技術的に掘り下げ、階層的圧縮ベクトル検索強化学習ガイドのゲーティングプライバシーコントロールについて議論します。Macaronの設計を他の検索強化生成(RAG)システムと比較し、これらのメカニズムが日本と韓国のユーザーにどのようにパーソナライズされた体験を提供するかを論じます。

1 階層的メモリ表現

1.1 マルチストアアーキテクチャ:短期、エピソード記憶、長期

Macaronはメモリを複数のストアに整理します。短期ストアは現在の会話を保持し、約8〜16のメッセージにわたります。これは典型的なトランスフォーマーのコンテキストのように機能し、トークンは注意を払いながら順次処理されます。エピソードストアは最近のやり取り(例:過去数日間)を保持し、定期的に更新されます。ここでは、Macaronは圧縮トランスフォーマーを使用しており、メッセージは畳み込み注意を使用してサマリーベクトルに圧縮され、ネイティブウィンドウの長さを越えてコンテキストを維持できるようにします。長期ストアは重要なイベント、事実、ミニアプリの設定を保持し、ベクトルデータベースとして実装されています。各メモリアイテムは、メタデータ(タイムスタンプ、ドメインタグ、言語タグ)と多言語エンコーダーによって生成された埋め込みを含んでいます。

1.2 潜在要約とオートエンコーディングによる圧縮

長い会話における主な課題の一つは、自己注意のコストがシーケンスの長さに対して二次的に増加することです。これを管理するために、Macaronは潜在要約層を採用しています。すべてのトークンに注意を払うのではなく、モデルは重要なセグメントを識別し、それらを固定長の表現に圧縮することを学びます。この層は、圧縮された要約から隠れ状態を再構築するオートエンコーディングの目的で訓練されます。強化学習は要約機能を微調整します。エージェントが後で重要な詳細を思い出せないと、ポリシーにペナルティが課され、将来に同様のイベントに関する情報をより多く保持するように促します。

1.3 ポインターネットワークとしての動的メモリトークン

台湾のニュース記事で説明されたメモリトークンは、メモリを巡回して関連する項目を選択するポインタのように機能します。リコール時には、トークンがメモリバンクを反復的にクエリします。候補メモリを取得し、学習されたスコアリング関数を使用して現在のコンテキストへの関連性を評価し、それを返すか検索を続けるかを決定します。このプロセスは、ニューラル組合せ最適化で使用されるポインターネットワークに似ています。強化信号は、ユーザーの満足度を最大化するメモリのシーケンスを選択するようにトークンを誘導します(例:ジャズに対するユーザーの好みを正しく予測する)。トークンはメモリを更新することもできます。新しい情報が到着した際に、既存のメモリと統合するか、新しいスロットを割り当てるかを決定します。

2 ベクトル検索とクエリ拡張

2.1 近似最近傍探索

Macaronの長期記憶は高次元ベクトルデータベースを使用しています。クエリは多言語エンコーダーを介して埋め込みに変換され、その後、近似最近傍 (ANN) 検索によってトップkの記憶が返されます。システムはプロダクト量子化を使用して検索を高速化し、数百万の記憶アイテムを保存していても50ミリ秒未満の遅延を維持します。重複した些細な項目の取得を避けるため、システムは最大限の限界関連性 (MMR) を適用し、結果の類似性と多様性をバランスします。

2.2 コンテキストとユーザーゴールを使用したクエリ拡張

シンプルなキーワードマッチングではユーザーの意図を捉えることはできません。Macaronはユーザーの現在の目標潜在的な意図を使用してクエリを拡張します。例えば、東京のユーザーが「花火大会」と言及した場合、システムは「チケット」、「日付」、「天気」など、祭りに関連する一般的なアクションに基づいてクエリを拡張します。韓国のユーザーが「김치전 만드는 법」(キムチチヂミの作り方) について尋ねた場合、システムは過去の料理経験、栄養データ、地元の食材の入手可能性も検索します。クエリ拡張は、会話のコンテキストを関連するサブトピックのセットにマッピングするようにトレーニングされたゴール予測器によって処理されます。

2.3 クロスドメイン検索と関連性統合

メモリエンジンは、複数のドメインにまたがるクエリを処理する必要があります。Macaronのセルフモデル記事で説明されている関連性フェデレーションメカニズムにより、システムはドメインの境界を超えて記憶にアクセスできます。エージェントが日本人ユーザーの結婚式の計画を手伝う際には、旅行の記憶(ハネムーンの目的地)、財務の記憶(予算)、文化の記憶(結婚式のエチケット)を取得する必要があるかもしれません。それぞれのドメインには独自の検索インデックスがあり、システムはソフトマックスゲーティング関数を使用して、ドメイン間の検索確率を分配します。このゲーティング関数は、RLを使用して、重要なクロスドメインのつながりを見逃さないようにしながら、不要なアイテムの取得を最小限に抑えるように訓練されています。クロスリンガルクエリの場合、ゲーティング関数は言語タグも考慮して、同じ言語の記憶を優先しますが、意味的な類似性が高い場合にはクロス言語の取得も許可します。

3 強化学習によるメモリゲーティング

3.1 報酬モデリングとFireActのインスピレーション

マカロンチームは、RLのポストトレーニングがプロンプトベースの方法と比較して、推論の精度を77%向上させることを示したFireActプロジェクトに触発されました。マカロンでは、RLを使用してメモリーゲーティングポリシーをトレーニングします。これは、情報を保存、更新、または破棄するかどうか、そして取得した記憶をどの程度重み付けするかを決定するニューラルネットワークです。報酬関数は、タスクの完了、ユーザーの満足度、プライバシーの遵守、計算効率など、複数のシグナルを組み合わせます。たとえば、過剰な記憶の取得は応答を遅くするため、報酬は不必要なリコールをペナルティとします。関連する詳細を忘れることはユーザーの満足度を低下させるため、ポリシーはそれらを長く保持することを学びます。報酬関数は、日本と韓国の市場向けに異なる調整がされています。日本のユーザーはプライベートな詳細を過剰に共有することに対してペナルティを課すかもしれませんが、韓国のユーザーは速度と積極的な提案を重視するかもしれません。

3.2 時間的クレジットの割り当てと時間の編み込み

強化学習はしばしば長期的な視野で苦労します。現在の行動が将来に大きく影響を与えることがあるためです。Macaronは時間の編み込みというメカニズムを通じてこれに対応しています。これは、タイムスタンプと物語の糸によって時間を超えた出来事をつなぐ方法です。古い記憶を呼び起こす影響を評価する際、システムはその後の相互作用の連鎖を追跡することができます。これにより、RLエージェントは特定の記憶の呼び出し決定に対してクレジットや責任を割り当てることができます。たとえば、忘れられた記念日を参照することで関係が改善される場合、システムは記念日を保存する記憶ゲートにポジティブな報酬を与えます。恥ずかしい瞬間を再浮上させることで不快感を引き起こした場合、そのゲートはネガティブな報酬を受けます。

3.3 階層的強化学習とモジュラーゲーティングポリシー

Macaronは、複雑さを管理するために階層的強化学習を使用しています。高レベルのコントローラーがユーザーの現在の目標に基づいてモジュール(例:検索、要約、圧縮)を選択し、低レベルのポリシーが各モジュール内で特定のアクションを処理します。このモジュラー設計は、転移学習を容易にします。たとえば、日本料理の会話のために訓練されたゲーティングポリシーは、韓国のレシピにも再利用できます。また、Macaronは個々のモジュールを再訓練せずに更新することが可能です。安定性を確保するために、Macaronは**近接方策最適化(PPO)**を信頼領域クリッピングと共に採用し、探索と活用のバランスを取り、致命的な忘却を防ぎます。

4 他のメモリシステムとの比較

4.1 検索強化生成(RAG)

多くのAIシステムは、外部データベースから情報を引き出すことで、事実の正確性を向上させるために検索強化生成を使用しています。GPT‑4のようなモデルはRAGを使用して静的な知識ベースに依存しており、ユーザーのフィードバックに基づいた検索の適応は行いません。Macaronのメモリエンジンは、3つの主要な点で異なります。

  1. パーソナライズされたコンテンツ: 記憶は汎用的なウェブドキュメントではなく、ユーザー固有のものです。検索によって得られるのは百科事典的な事実ではなく、経験や目標です。
  2. 強化学習による保存: システムは報酬信号に基づいて保存するものや忘れるものを学習しますが、RAGシステムはしばしば無差別にすべてを保存します。
  3. プライバシーとポリシーの結合: 各記憶にはプライバシーメタデータが含まれ、検索はアクセスルールを尊重します。ほとんどのRAG実装にはそのような細かい制御が欠けています。

4.2 長コンテキスト言語モデル

Anthropic の Claude 3 や Google の Gemini のような最近の LLM は、注意ウィンドウを拡大することで、数十万トークンのコンテキストを処理できます。これらのモデルは明示的な情報検索を行わず、代わりに長いシーケンスに注意を払う能力に依存しています。これにより、以前の会話のセグメントを思い出すことができますが、計算コストが高く、ユーザーが制御する忘却をサポートしません。Macaron は、中程度のコンテキストと情報検索を組み合わせて、低コストで同様のカバレッジを達成し、プライバシー管理を強化します。動的メモリトークンは外部ストレージへのポインタとして機能し、すべてをアクティブコンテキストに保存することなく、何年分ものデータを処理できるようにします。

4.3 ベクトルデータベースとメモリネットワーク

Pinecone や Faiss のようなベクトルデータベースは、情報検索タスクのために埋め込みを保存するためによく使用されます。Macaron の長期ストアはこれらの技術を基に構築されていますが、RL 制御のゲーティングと統合されています。一方、End-to-End Memory Network のような初期のメモリネットワークは、メモリスロットの固定セットを事前に計算し、ソフトアテンションでそれらを参照します。Macaron は、スロットの数を動的に増減させることを可能にし、どのスロットを残すかを RL で決定することでこれを拡張します。この意味で、Macaron のメモリエンジンは、外部メモリテープに読書きする学習されたコントローラを備えた「ニューラルチューリングマシン」により近いです。

5 プライバシーと規制の整合性

5.1 ポリシーのバインディングと差別化された透明性

地域の規制に準拠することは非常に重要です。ポリシーバインディングは、機械可読のプライバシールールをデータに付加します。例えば、金融データを含むメモリには、生体認証後にのみアクセス可能なルールが含まれるかもしれません。差別化された透明性は、異なる利害関係者に異なるレベルの情報開示を提供します。日本の消費者は自分のデータを確認でき、韓国の規制当局は集計された統計を閲覧でき、開発者はモデル改善のために匿名化されたフィードバックを受け取ります。これらのメカニズムは、AI促進法が強調する透明性と、韓国のAIフレームワーク法のリスク管理と人間の監視要件に沿っています。

5.2 名前と恥を与える執行と責任

日本のAI促進法には直接的な罰則はありませんが、遵守していない企業を公に特定する名前と恥を与えるメカニズムがあります。マカロンの監査ログは、メモリアクセスとポリシー決定を追跡し、監査を受けた場合に企業が準拠を示すことを可能にします。韓国のフレームワークでは、違反に対して最大3000万ウォンの罰金が課される可能性があります。マカロンは、すべてのメモリエベントにメタデータを付加することで、コンプライアンスレポートを自動生成できます。また、システムはユーザーがデータをエクスポートおよび削除できるようにし、データポータビリティの新たな世界的基準に適合しています。

5.3 人間の記憶への類似

Macaronのメモリーシステムは、人間の記憶の構造に似ています。認知科学者は、作業記憶を前頭前皮質の限られたバッファー、エピソード記憶を海馬に媒介されるイベントベースのストレージ、意味記憶を皮質全体に分布する一般的な知識と説明します。同様に、Macaronには短期的なコンテキストウィンドウ、エピソードストア、長期的なベクターデータベースがあります。参照の減衰は人間の忘却曲線に似ており、記憶は強化されない限り薄れていきます。時間の織り成しは、人間が時間を超えてイベントを結びつけて人生の物語を作る方法に並行しています。これらのメカニズムを模倣することで、Macaronは計算資源を最適化するだけでなく、より自然な対話を生み出します。ユーザーが子供の頃の祭りを思い出すと、エージェントは関連するイベントを思い出し、まるで人間の友人のように現在の会話に織り込むことができます。

5.4 今後の研究方向

高度でありながら、Macaronのメモリエンジンには未解決の問題があります。一つの分野は、外部の監督なしに自動的に記憶を要約し圧縮する神経モジュールを開発する自己圧縮メモリです。もう一つは、ユーザーの行動が進化するにつれて、エージェントがそのメモリ戦略を継続的に適応できるようにする生涯学習です。クロスリンガルアライメントは依然として活発な研究テーマであり、将来的なモデルは、日本語、韓国語、その他の言語で記憶をよりシームレスに合わせるために対照的表現学習を採用するかもしれません。研究者はまた、低エネルギーコストでメモリを実装するためにニューロモルフィックハードウェアとスパイキングニューラルネットワークを探求しています。最後に、フェデレーテッドラーニングを統合することで、ユーザーがMacaronのメモリモデルをローカルでトレーニングし、生データではなくモデルの更新だけを共有することで、プライバシーを強化しつつ集団のパフォーマンスを向上させることができます。

Boxuはエモリー大学で定量経済学を専攻し、学士号を取得しました。Macaronに参加する前は、アメリカのプライベート・エクイティとベンチャー・キャピタル分野でキャリアを積んでいました。現在、彼はMacaron AIの参謀長兼マーケティング副社長として、財務、物流、運営を管理しつつ、マーケティングを監督しています。

応募する Macaron の最初の友達