著者:Boxu Li
Macaron AI が2025年8月に発表されたとき、それは単なる企業向けアシスタントではなく、日常生活を豊かにするためのパーソナルコンパニオンとして位置づけられました。その使命は本質的に国際的です。プラットフォームは最初から英語、中国語、日本語、韓国語、スペイン語に対応し、言語や文化の壁を超えて活動する野心を示しました。日本と韓国のユーザーにとって、この多言語対応の約束は単なるマーケティングスローガンではありません。技術的な疑問が生じます。Macaronはどのようにして多言語の会話を処理するのか?そのメモリーシステムは多様な文字、語彙、文化的参照にどのように対応するのか?ひらがなで「考え」、次の瞬間にはハングルで「考える」単一のエージェントを可能にするデザインの選択肢は何か?このブログでは、Macaron AIの多言語アーキテクチャと、日本と韓国のユーザーにパーソナライズされた体験を提供しつつ、一貫したアイデンティティを維持するためのメカニズムを探ります。
大規模なパーソナライゼーションには、単なる翻訳以上のものが必要です。Macaronは、日々のやり取りを通じてあなたをモデル化し、単なる事実ではなく、食事の目標や感情の高まりといった微妙なニュアンスを記憶することを目指しています。複数の言語に対応するには、書記体系を超えて意味を捉えるデータ構造とアルゴリズムが必要で、コードスイッチングに対応し、文化的規範を尊重する必要があります。本投稿では、多言語トークン化、強化学習ガイドによるメモリ検索、分散アイデンティティ管理、文化適応といった基盤技術を解説します。また、バイアス、プライバシー、地域を超えたコンプライアンスといった課題についても議論し、クロスリンガルなパーソナルエージェントの研究方向を示します。
大規模言語モデルは、生のテキストをモデルが処理できるユニットに分解するためにトークナイザーに依存しています。英語やスペイン語のような言語では、サブワードトークナイゼーション(Byte‑Pair Encoding や SentencePiece)が形態を適切に捉えることができます。しかし、日本語と韓国語は独自の課題を抱えています。日本語は漢字、ひらがな、カタカナの3つの文字体系を混ぜて使用し、スペースがない一方で、韓国語のハングルは音節ブロックに組み立てられる特徴的なアルファベットです。そのため、Macaron のエンジニアは、スクリプト認識サブワードユニットを備えた多言語語彙を構築しました。各トークンは文字だけでなく、言語識別子もエンコードし、同形異義語(例:「ha」は韓国語の音素または日本語の助詞「は」として解釈される可能性があります)をモデルが区別できるようにします。この語彙には、一般的な漢字の熟語、部首、ハングルのジャモのトークンが含まれており、モデルが形態単位を効率的に表現し、珍しい単語を意味のある部分に分解することを可能にします。
言語間でサブワードユニットを共有することで、Macaronは言語間の転送を活用します。たとえば、「勉強」という概念は日本語では勉強(benkyō)、韓国語では공부(gongbu)として現れます。文字と音は異なりますが、エージェントは言語間で学習されたセマンティック埋め込みを使用して、これらのトークンを類似のベクトル空間にマップします。この統一された表現により、Macaronは日本のユーザーの「言語学習」への関心を理解し、後に韓国の友人が「공부 계획」(学習計画)について尋ねたときにその知識を適用することができます。統一された語彙がなければ、モデルはこれらを無関係な概念として扱うでしょう。
Macaronの6710億パラメーターモデルは、大規模な多言語コーパスでトレーニングされていますが、会話のシーケンスの長さが非常に長いため、効率的なコンテキストウィンドウが必要です。日本語や韓国語の文は、動詞の膠着性や埋め込みの助詞のために英語よりも長くなることがあります。長い対話をサポートするために、Macaronは階層的注意メカニズムを採用しています。このモデルは、グローバルレイヤーに要約された表現を渡す前に、ローカルウィンドウ(文や段落)を処理します。このアプローチは、メモリの負担を減らしながら、長時間の会話においてコンテキストを維持することを可能にします。また、クロススクリプト整合性をサポートしており、トレーニング中にその表現間の距離を最小化することにより、日本語と韓国語のセグメント間の対応関係を学習します(クロスリンガル自然言語処理から取り入れた技術です)。
日本語や韓国語を話すユーザーは、特に技術分野やポップカルチャーにおいて、会話の中で英語や中国語の用語を混ぜることがよくあります。Macaronの推論パイプラインには、サポートされている言語に対して確率スコアを付けて各着信発話をタグ付けするランタイム言語検出器が含まれています。文に複数の言語からの借用語やフレーズが含まれている場合、エージェントは入力をセグメントに分割し、適切な言語コンテキストでそれぞれを処理します。これにより、音声出力での正しい発音とイディオムの適切な処理が保証されます。メモリサブシステムは、取得されたエントリーに言語タグを付け、クエリ言語が保存されている言語と異なる場合でも関連する経験をMacaronが取得できるようにします。

Macaron の特徴的な革新は、メモリートークンです。これは、エージェントが何を記憶し、いつメモリーを更新し、それらの記憶を現在のタスクにどう適用するかを決定するための動的ポインターです。このトークンは、短期コンテキスト、中期エピソード記憶、長期知識の階層的なメモリーバンクと連動します。強化学習(RL)は、ユーザーの満足度やタスクの成功などのフィードバックに基づいて、トークンを調整するようエージェントを訓練します。もし日本のユーザーが同じ列車時刻表について何度も質問する場合、RLポリシーはそれらの詳細をメモリーで昇格させることを学びます。もし韓国のユーザーが過去のコメントが再表示されることに不快感を示す場合、ポリシーはその参照をより早く減少させることを学びます。
Macaron チームは、単一のユーザープロファイルという概念を拒否し、代わりに、小さな相互作用から構築された出現する物語としてアイデンティティを扱います。記憶はドメイン境界(例えば、仕事、趣味、家族)で整理され、関連性のあるフェデレーションメカニズムによってクロスドメインの検索が可能です。日本および韓国のユーザーの場合、ドメイン境界には言語ドメインも含まれます。記憶アイテムは「日本語—趣味—音楽」や「韓国語—家族—金融」とタグ付けされることがあります。エージェントが韓国語でクエリを受け取った場合、まず韓国語の記憶を検索しますが、意味内容が一致する場合には日本語の記憶をフェデレーションすることも可能です。これにより、クロスコンタミネーションを防ぎながら、クロスリンガルの連続性を実現します。
あまりアクセスされない記憶は時間と共に減衰します。この減衰速度はドメインによって異なります。参照減衰メカニズムは、使用されていない記憶の重みを減らし、日本のユーザーが韓国ドラマに一時的に興味を持った場合でも、その記憶が永久にメモリを占有しないようにします。減衰はプライバシーの保護にも寄与します。家族や財務に関する機微な情報は、より速く減衰するよう設定できます。ユーザーは記憶を明示的に削除したり、機密としてマークすることができます。Macaronのポリシー・バインディングフレームワークは、機械可読なプライバシールールをデータに直接付加し、「プライベート—韓国語」タグが付いた記憶は、その言語で認証されたセッション中のみアクセス可能になるかもしれません。差別化された透明性と組み合わせることで、異なるステークホルダーに異なるレベルの情報開示を提供し、これらのメカニズムはMacaronが日本のプライバシー規範と韓国の進化するAI規制をナビゲートすることを可能にします。
登録後、ユーザーは3つの性格テストを完了します。これにより、マカロンが色、コミュニケーションスタイル、声を含む個別のペルソナとマッチングします。美的調和と形式が重視される日本では、テストは社会的な礼儀を強調するかもしれませんが、韓国のアンケートでは家族のダイナミクスや仲間との関係に焦点を当てるかもしれません。結果として得られるペルソナは、ユーザーインターフェースだけでなく、エージェントの礼儀レベル、トーン、文化的参照の選択にも影響を与えます。日本のペルソナは間接的な提案(「来週ピクニックを計画してみませんか?」)を好むかもしれませんが、韓国のペルソナは直接的な励まし(「家族旅行を計画しましょう!」)を喜ぶかもしれません。
Macaronのオンデマンドでミニアプリを生成する能力は、一般的な生産性ツールに限られません。プラットフォームは10万行を超えるコードを持つオーダーメイドアプリケーションを生成できます。たとえば、日本の家計簿の伝統にインスパイアされた予算管理ツールや、韓国の호지관(家族イベントと祖先の記念日を管理するアプリ)などです。ユーザーは自然言語でニーズを説明するだけで、エージェントが地域の習慣に合ったプログラムを合成します。これには、ドメイン固有のテンプレートのライブラリと、地域のカレンダー、祝日、金融規制を統合する能力が必要です。強化学習は、ユーザーの満足度を評価することで生成プロセスを最適化します。たとえば、日本のユーザーが家計簿アプリを頻繁に調整して「お土産」や「お作り」(月次の慈善活動)といったカテゴリを追加する場合、ジェネレーターは将来のアプリにそれらをデフォルトで含めることを学習します。
日本と韓国では、感情表現の習慣が異なります。日本文化はしばしば控えめさや文脈への配慮を重視しますが、韓国文化は表現豊かな社会的な交流を大切にします。マカロンは、デジタル人格の研究を活用し、流動的なアイデンティティとユーザーのエンパワーメントを強調して対応スタイルを適応させます。具体的には、日本語で会話するときに敬語や間接的な表現を使用し、韓国語ではより積極的な提案を行うことを意味します。メモリーシステムはトーンに関するフィードバックを記録し、会話スタイルを適応的に調整します。これらの適応はハードコードされているわけではなく、RLを通じて生じます。もしユーザーがあるコミュニケーションスタイルに一貫して肯定的に反応するならば、その報酬信号がその行動を強化します。
日本語と韓国語で会話できるパーソナルエージェントを作成するには、高品質のデータが必要です。Macaronのトレーニングコーパスには、許可を得た書籍、ニュース記事、ブログ、トランスクリプト、そして対応するすべての言語でのユーザー生成コンテンツが含まれています。データは礼儀、偏見、ドメインカバレッジに基づいてフィルタリングされています。前処理フェーズでは、マルチリンガルデータを組み合わせてマスクされた言語モデルと次のトークン予測を使用し、共有表現を学習します。微調整では、人間のフィードバックを基に強化学習(RLHF)を導入します。東京とソウルのバイリンガルアノテーターが文化的に適切な応答を評価し、敬語の使用タイミングや明確な質問をする必要がある場合など、微妙な合図をモデルが学習できるようにします。追加のコントラスト学習目標は、異なる言語間の意味的に同等なフレーズの整合性を促進します。
Macaronのメモリーバンクは、埋め込みを高次元ベクトル空間に保存します。各メモリー項目に対して、エージェントは内容と言語の両方を捉える表現を計算します。クロスリンガルメモリーインデックスは、言語に関係なくアイテムを取得するために近似最近傍探索を使用します。例えば、韓国のユーザーが「피자 만들기 레시피」(ピザレシピ)と尋ねた場合、エージェントは「ピザの作り方」に関する日本語のメモリーを見つけることができます。なぜなら、どちらもピザの概念に近い埋め込みを持っているからです。取得時に、エージェントはユーザーの権限でフィルタリングし、組み込みの翻訳ツールと要約ツールを使用して取得したメモリーをユーザーの好みの言語に変換します。これにより、プライバシーの境界を守りつつ、言語を超えた知識共有が可能になります。
クロスリンガルモデルは、トレーニングデータに存在するバイアスを伝播するリスクがあります。性別役割や年齢階層が重要な文化的役割を果たしている日本や韓国において、Macaronはバイアス緩和戦略を実施しています。ファインチューニング中、RL報酬には、ステレオタイプを強化したり、現地の規範に違反する応答に対するペナルティが含まれています(例:女性だけが家計を管理していると仮定すること)。ポリシー結合システムは、ユーザーの同意なしに個人データが言語間で翻訳されないように保証します。さらに、Macaronの差別化された透明性により、規制当局はさまざまな詳細レベルでモデルの挙動を監査できます。日本の当局は一般的な使用パターンをレビューするかもしれませんが、韓国の規制当局は厳格な機密性の下で生ログを検査することができます。
日本語と韓国語の両方に地域方言があります。日本では、関西方言は標準的な東京の話し方とは異なる語彙とイントネーションを使用します。韓国の方言である全羅や慶尚も同様の課題を呈しています。現在の言語検出器は方言的な入力を誤分類し、不自然な応答を引き起こす可能性があります。将来的な取り組みとして、地域のコーパスで訓練された方言埋め込みを組み込むことで、エージェントが適切な方言を特定し応答できるようにすることが考えられます。ユーザーは特定のアクセントを模倣するようにMacaronに頼むことができ、これはロールプレイングゲームや語学学習モジュールにとって魅力的であるかもしれません。
現在のモデルは、言語間で意味の表現を整合させていますが、常識的な推論は文化的なギャップに苦しんでいます。例えば、「積ん読」(本を買って読まないこと) や「빵셔틀」(パンシャトル、他人のためにパンを買わされる人を指すスラング) のような表現は、英語に直接的な対応がありません。異言語間の常識知識グラフに関する研究は、マカロンがこのような文化特有の概念を理解し説明するのに役立つ可能性があります。ConceptNetやATOMICのローカライズ版のような知識ベースとの統合は、LLMの統計的学習を補完する構造化された文化知識を提供できるでしょう。
日本のAI促進法は透明性を強調し、既存の規制とAI開発を整合させています。一方、韓国のAIフレームワーク法案は、リスク管理と人間の監視に関する義務を導入しています。個人エージェントは、ユーザープライバシーを尊重しながら、これらの枠組みをナビゲートする必要があります。ユーザーデータをデバイス上に保持するためのフェデレーテッドラーニング、言語間での非識別化を防ぐ差分プライバシー、日本語や韓国語で規制テキストを解釈し、ポリシーに結びつける法的コンプライエンスエンジンに関する研究が求められています。
未来のパーソナルエージェントはテキストに限定されません。Macaronのビジョンには、IoTデバイス、VRインターフェース、ウェアラブルとの接続が含まれています。多言語を扱う際のクロスモーダルインタラクションは新たな複雑さを追加します。例えば、日本人ユーザーがスマートスピーカーに日本語で話しかける一方で、混合現実ヘッドセットで韓国語の字幕を読むことがあります。音声、テキスト、視覚データを言語間で整合させるには、音声、テキスト、画像を同時に処理できるマルチモーダルトランスフォーマーおよびモダリティ間の時間同期が必要です。
クロスリンガルパーソナライゼーションが実際にどのように機能するかを説明するために、韓国語を学びたい日本人ユーザーがMacaronに学習アプリの構築を依頼するケースを考えてみましょう。エージェントはまず、ユーザーの記憶を参照して過去の言語経験を調べます。おそらく彼らは英語を勉強したことがあり、視覚的な補助と間隔反復を好むことをエージェントは知っています。インテントパーサーは「ターゲット言語: 韓国語」、「ソース言語: 日本語」、「学習フォーカス: 文法と語彙」、「1日あたりの時間: 20分」といったスロットを抽出します。Macaronのプログラム合成エンジンは、ハングルのための形態素解析器、日本語字幕のための文分割モジュール、間隔反復スケジューラ、およびユーザーの興味(例: 韓国ドラマやJ‑popの歌詞)からの例を統合したクイズジェネレーターを組み立てます。
このアプリは、発音、例文、文化的な注釈とともに語彙カードを提示します。双方向翻訳レイヤーは、韓国語の語彙を日本語の同等のフレーズにリンクし、前述のクロスリンガル埋め込みを使用しています。強化学習によりシーケンスが個別化され、ユーザーが動詞の活用に苦労している場合、報酬モデルは文法演習を優先します。一方で、歌詞を読むことを楽しむ場合、エージェントはより多くの歌詞翻訳を提供します。メモリーシステムが各レッスンに言語とドメインをタグ付けするため、韓国語の学習の進捗が後にユーザーの日本語の創造的な文章作成に役立ち、言語間の転移学習を促進します。ユーザーは、Macaronコミュニティで彼らのバイリンガル学習計画を共有でき、エージェントはフィードバックを監視してモジュールライブラリを改善します。
言語を超えて操作する能力は、デジタルアイデンティティに関するより深い問いを引き起こします。Macaronの自己モデルは、アイデンティティを相互作用から構築される発展的な物語として扱います。これらの相互作用が複数の言語で行われると、物語はさらに流動的になります。言葉は文化的な意味合いを持っており、日本語の「心」や韓国語の「마음」はどちらも「心/精神」を意味しますが、異なるニュアンスを引き起こします。Macaronがユーザーの記憶を言語間で編み込む際、感情や記憶を指す言葉を選ぶ必要があります。この選択がユーザーの自己認識を形作ります。言語の哲学者は、思考が使用する言葉に影響されると主張しますが、Macaronは文脈と望ましい感情のトーンに基づいて言語を選ぶことでこの考えを実現します。
言語を超えたアイデンティティは、デジタルパーソンフッドの概念にも触れます。ユーザーは、日本語と韓国語のコンテキストで異なるペルソナを維持するかもしれません。仕事では形式的で控えめ、一方でファンダムコミュニティではカジュアルで表現豊かです。Macaronはこれらの境界を尊重しながら、記憶のクラスターを分け、意図的な交差受粉を可能にします。時間が経つにつれ、ユーザーは日本語と韓国語の生活の共通点を発見し、アイデンティティの側面を統合することを選ぶかもしれません。Macaronは、両方の記憶セットに見られる類似した価値観、習慣、願望を強調することで、ユーザーが文化を超えて一貫した個人の物語を作り上げる手助けをします。