著者: Boxu Li
強化学習(RL)は現代AIの礎となり、エージェントが試行錯誤を通じて最適なポリシーを学習することを可能にしています。しかし、パーソナルAIの文脈では、RLは独自の課題に直面します。報酬は主観的であり、環境は非定常で、倫理的考慮も多く存在します。Macaron AIのデザイナーたちはこれらの課題に真正面から取り組み、メモリ管理やコード生成、会話スタイルなどを統括する多層的なRLシステムを構築しました。このブログでは、Macaronがどのように階層型RL、報酬モデリング、信用割当、および公平性の制約を適用して、真に個別化されたエージェントを作り上げているかを検証します。また、他の分野でのRLとの対比や将来の方向性についても探ります。
ボードゲームやシミュレーテッド環境とは異なり、パーソナルエージェントはタスクの成功だけでは報酬を得られないオープンエンドの空間で動作します。Macaron は、暗黙的なフィードバック(会話の長さ、使用頻度、ユーザーの反応のトーン)と明示的なフィードバック(評価、いいね/よくないね)を集めて報酬シグナルを構築します。例えば、日本のユーザーが丁寧な言葉遣いを使った後に長い会話をする場合、このポジティブな相関関係は同様の行動に対する報酬を高めます。韓国のユーザーがデザインが煩雑であるために生成されたミニアプリを低評価した場合、そのUIパターンに対する報酬は下がります。これらのシグナルは、ある状態と行動に対するユーザーの満足度を予測する報酬モデルに組み込まれます。
マカロンのRLはマルチオブジェクティブです。ユーザー満足度に加えて、報酬にはプライバシー、コンプライアンス、リソース使用、倫理の項目が含まれます。適切な同意なしに機密情報を共有するとペナルティが発生し、メモリを効果的に圧縮するとボーナスが得られます。コード生成においては、効率性とメンテナンス性が報酬に影響します。過度な複雑さ(例: 不必要に100,000行を生成すること)は負の報酬を招きます。報酬の重みは地域ごとに調整されています。日本ではプライバシーと透明性が重視され、プライバシー違反に対するペナルティが増加しますが、韓国ではイノベーションに重点が置かれ、速度や独創性に重みが置かれることがあります。これらの目標をバランスするには慎重な設計が必要で、マカロンはスカラー化関数を使用して、複数の目標を重み付き和と動的スケーリングにより単一の報酬に変換します。
AI システムを価値観に合わせるには、人間のフィードバックが重要です。Macaron は、選好の引き出し を実施し、代替の応答やミニアプリのデザインを提示して、ユーザーがどちらを好むかを尋ねます。このデータは、可能なアクションに対する潜在的な効用関数を学習する 推論モデル に供給されます。このアプローチは、大規模な言語モデルのトレーニングに使用される RLHF(人間のフィードバックによる強化学習)に似ていますが、Macaron は 文化的注釈 を取り入れることでそれを拡張します。日本の注釈者は礼儀や文脈についてコメントし、韓国の注釈者は共同体的か個人主義的な表現を指摘します。この結果として得られる報酬モデルは、文化にまたがる微妙な好みを反映しています。
Macaron のタスクは、カジュアルなチャットから複雑なソフトウェアの生成まで多岐にわたります。この多様性を管理するため、システムは 階層的 RL を採用しています。上位レベルでは、メタコントローラー が会話マネージャー、メモリーマネージャー、合成エンジン、感情調整器などのモジュールを選択します。各モジュールはそれ自体が別の RL ポリシーによって制御されています。例えば、メモリーマネージャーは、何を保存するか忘れるかを決定するために RL を使用し、合成エンジンはコードテンプレートを選択するために RL を使用します。メタコントローラーは、すべてのモジュールの報酬を組み合わせた高レベルの報酬を受け取り、タスクを委任するタイミングを学びます。この分解により、探索空間が縮小し、サンプル効率が向上します。
モジュール内では、Macaronは再利用可能なサブポリシーを表現するためにオプションフレームワークを使用します。「オプション」は、例えば「先月の支出を要約する」や「バイリンガル学習プランを推薦する」といったサブゴールを達成する一連のアクションに対応します。日本のドメインで発見されたオプションは、基礎構造が一致する場合、韓国のドメインに転送できます。Macaronがある言語でユーザーのリクエストを効果的に処理する方法を学べば、その概念が別の言語に現れたときに同じオプションを適用でき、適応が加速されます。
時間的抽象化により、RLエージェントは異なる時間スケールで推論できます。Macaronは、マルチターンの対話や長時間の計算をカプセル化するマクロアクションを定義します。例えば、韓国への家族旅行を計画する際には、目的地の選択、交通手段、宿泊、旅程のデザインを含むマクロアクションが必要です。RLエージェントは、短期的なシグナルではなく累積報酬に基づいてマクロアクションを評価します。これにより、旅行が学校の休暇に合うかどうか、スケジュールの競合を避けるかどうかなど、長期的な満足度を考慮するようエージェントを促します。

特定の行動に対してクレジットを割り当てることは、報酬が遅れて到着する場合には困難です。Macaronは時間の織り込みを利用し、時間を超えたイベントを物語の糸でつなげます。このエージェントは、ノードが記憶を表し、エッジが因果関係を表す相互作用のグラフを構築します。結果を評価する際、システムはグラフを逆にたどり、どの取得や行動が貢献したかを特定します。たとえば、数週間後に日本の祭りを推薦したことでユーザーの幸福度が向上した場合、エージェントは祭りの記憶を取得し対応するミニアプリを生成したことに対する報酬の一部を帰属させます。この明確な因果分析は、RLポリシーが効果的な情報取得戦略を学ぶのに役立ちます。
クレジットの割り当てを改善するために、Macaronは反事実的アンカリングを使用します。エージェントは取り得た代替行動を考慮し、結果の差を推定します。韓国人ユーザーに家族のイベントを思い出させないことで恥ずかしい思いをすることが避けられた場合、実際のリマインダーは肯定的な反事実的報酬を受け取ります。これは、情報を忘れたり思い出したりすることの結果を予測するようエージェントを促します。反事実的推論は過剰適合も回避します。エージェントは成功した行動を繰り返すだけで常に同じ報酬が得られると自動的に仮定せず、その行動が本当に結果を引き起こすかどうかを確認します。
Macaron の RL 実装には、報酬に先立つ状態やアクションにクレジットを割り当てるメカニズムであるエリジビリティトレースが組み込まれています。エージェントが遅延報酬(例:ミニアプリを数週間使用した後のユーザーの満足度)を受け取ると、トレースは信号をメモリ選択、会話のトーン、コードモジュールの選択などの以前の決定に戻すのに役立ちます。エリジビリティトレースは減衰係数で重み付けされ、報酬に近い状態ほど高いクレジットを受け取ります。このメカニズムは、短期的な利益よりも長期的な満足を最適化するようにエージェントを促します。
強化学習はフィードバックデータから意図せずにバイアスを学習する可能性があります。Macaron は報酬関数に公平性制約を組み込むことでこれを緩和します。例えば、エージェントが要求されていないのにジェンダー特有の活動を一貫して推奨する場合、ペナルティが課されます。システムは人口統計グループ間の推薦パターンを監視し、機会を平等にするために報酬を調整します。金融や健康などのセンシティブなトピックを扱う際には、文化的規範や法的要件をエンコードした倫理ポリシーライブラリを参照します。これらのガイドラインに違反すると、ネガティブな報酬が発生するか、アクションが完全にブロックされます。
韓国のAIフレームワーク法は、影響が大きいシステムと生成AIの通知に対する人間の監督を要求しています。Macaronは、財務計画や医療アドバイスなどの重要な決定に人間を介在させることで対応しています。韓国のユーザーが重要なミニアプリを生成する場合、システムは行動を確認し承認するよう促します。日本のAI促進法は透明性を重視しており、MacaronはRLの決定を記録し、特定のメモリやモジュールが選ばれた理由をユーザーに説明します。これらの措置は信頼を築き、責任を確保します。
日本のAI法は、非遵守に対する名前と恥のメカニズムを実施しています。MacaronのRLログには、報酬だけでなく、決定の背後にある理由も含まれています。規制当局が調査する場合、会社は偏見が解消され、プライバシー規則が尊重されたことを証明できます。これらのログはユーザーの監査もサポートしており、個人は自分のフィードバックがエージェントの行動にどのように影響したかを確認できます。このような透明性はRLの悪用を防ぎ、倫理的なイノベーションを促進します。
RLはゲーム(AlphaGo、Dota 2)、ロボット工学、推薦システムで印象的な成果を上げています。しかし、これらの環境は明確な目標(ゲームに勝つこと、誤差を最小限に抑えること)と明確な報酬を提供します。それに対して、パーソナルAIは混乱したデータから目標を推測し、人間の価値観に合わせる必要があります。ゲームでは、探索がしばしば制約されておらず、エージェントが位置的な優位性を得るためにポーンを犠牲にすることがあります。パーソナルAIでは、短期的なエンゲージメントのためにユーザーの信頼を犠牲にすることは許されません。Macaronの報酬モデルは、信頼を損ねる行動を明示的にペナルティ化し、必要に応じてシステムを慎重にします。
一部のオープンソースプロジェクトは、タスクをスケジュールしたりワークフローを自動化したりするRL駆動のパーソナルアシスタントを提供しています。これらのシステムはしばしばユーザーからの継続的なフィードバックを前提とし、タスクを独立したものと見なします。Macaronは、そのメモリエンジンを通じてタスクを統合し、階層的なRLを使用してインタラクションを管理することで異なります。そのRLモデルは文化的コンテクスト、プライバシールールおよびコード生成と深く絡み合っており、より複雑でありながらもより能力があります。他のエージェントがリスニング履歴に基づいて曲を推薦するためにRLを使用するかもしれませんが、Macaronは、ギフトの推薦を生成する前に母親に電話することを思い出させるかどうかを決定するためにRLを使用します。
研究者たちは、RLHFや教師なし環境設計などの大規模言語モデルを制御するためのRLメソッドを提案しています。Macaronは、実世界の多領域クロスリンガルな環境でのRLを示すことで、この文献に貢献しています。FireActプロジェクトは以前、RLがプロンプトベースのエージェントに対して推論の正確性を77%向上させることを確立しました。Macaronはこのアイデアを拡張し、推論タスクだけでなく、メモリ管理、コード生成、対話スタイルにもRLポリシーを訓練します。個人エージェントにRLをスケーリングする際の階層設計、クレジット割り当て、公平性制約の重要性を強調しています。
強化学習は報酬を最適化しますが、報酬関数は文化によって異なる人間の価値をエンコードします。メタ倫理的な疑問が生じます。エージェントは幸福を最大化すべきか、義務倫理に従うべきか、公平性と自律性をバランスさせるべきか? マカロンは文化データから規範的な事前情報を学ぶことでこれに対処します。日本では、調和と社会秩序の尊重が重視されているため、報酬モデルは礼儀、合意、微妙さを強調します。韓国ではコミュニティの回復力と大胆な革新が評価されており、モデルは積極的な支援と透明性を報いるように設計されています。これらの規範的な枠組みは固定されたものではなく、ユーザーは倫理的スライダーを調整でき、マカロンは制約の下で価値空間を探求します。現在進行中の研究の方向性として、功利主義、義務論、徳倫理などの正式な倫理理論をRLエージェントに統合し、行動の背後にある道徳的トレードオフを説明できるようにすることがあります。これは、金融計画や医療推奨などの高影響な意思決定において特に重要です。
パーソナルエージェントは、家庭、チーム、コミュニティ内の交流をますます仲介するようになっています。ソーシャル強化学習は、RLをマルチエージェント環境に拡張し、エージェントが複数の利害関係者の福祉を考慮することを要求します。例えば、家族イベントをスケジュールする際、Macaronは個々の好み(プライバシー、作業量)と集団の満足度をバランスさせる必要があります。グループ報酬は、パレート効率性を使用して形成されることがあります。これは、一人の結果を改善しても他の人に害を与えないことを保証するものです。または、公平な分配原則を用いることもあります。クロスリンガルな文脈では、グループコミュニケーションが複数の言語で行われることがあるため、エージェントは文化的な規範を尊重しつつ、言語の壁を越えて報酬を統一しなければなりません。将来の研究では、周縁化された声により重みを置くことで包括性を確保する公平なRLが探求されます。他の道としては、エージェント間の相互作用をシミュレートするセルフプレイや、新しいグループダイナミクスに適応するためのメタラーニング、社会的フィードバックにおける相関と因果関係を区別する因果推論があります。これらの進展により、Macaronや同様のパーソナルAIは、一対一の対話から社会的体験を調整する方向へと進化し、日本や韓国社会において貴重なパートナーとなるでしょう。