作者: Boxu Li 

介紹

雖然 Macaron AI 的新奇之處經常在於其生成自定義迷你應用或作為一位具有同理心的朋友,但它的真正支柱是一個錯綜複雜的 記憶引擎。這個系統使 Macaron 能夠記住重要的事情,忘記不重要的,並快速且安全地檢索相關經驗。一次簡單的音樂對話可能引導你想起下個月的演唱會,自動編輯播放列表,或生成一個卡拉 OK 助手。如果沒有能夠處理長對話和多樣主題的記憶機制,這一切都是不可能的。本文深入探討 Macaron 的記憶引擎技術,包括 分層壓縮向量檢索強化引導閘控隱私控制。我們將 Macaron 的設計與其他檢索增強生成 (RAG) 系統進行比較,並討論這些機制如何讓日本和韓國用戶享受個性化體驗。

1 分層記憶表示

1.1 多重存儲架構:短期、情節性和長期

Macaron 將記憶組織成多個儲存區。短期儲存區維持當前的對話,大約涵蓋 8 至 16 則訊息。它的作用類似於典型的轉換器上下文:訊息會依次處理且具備注意力機制。情節儲存區保存最近的互動(例如,過去幾天的對話)並定期更新。在這裡,Macaron 使用壓縮轉換器:訊息會使用卷積注意力壓縮成摘要向量,讓模型能維持超出原生視窗長度的上下文。長期儲存區保存重要事件、事實和迷你應用配置,並實現為向量資料庫。每個記憶項目包括元數據(時間戳、領域標籤、語言標籤)以及由多語言編碼器生成的嵌入。

1.2 通過潛在摘要和自編碼進行壓縮

在長篇對話中,一個主要挑戰是自注意力的成本隨著序列長度呈二次方增長。為了應對這一挑戰,Macaron 採用了 潛在摘要層:模型不再對每個標記進行注意,而是學會識別重要片段,並將其壓縮成固定長度的表示。這一層是通過自編碼目標進行訓練的,該目標從壓縮的摘要中重建隱藏狀態。強化學習進一步微調摘要器:如果代理後來未能回憶起重要細節,策略會被懲罰,這促使其未來更好地保留類似事件的信息。

1.3 動態記憶標記作為指針網絡

台灣新聞文章中描述的 記憶標記 功能類似於指針,能夠遍歷記憶來挑選相關項目。在回憶過程中,標記迭代地查詢記憶庫:它檢索候選記憶,使用學習到的評分函數評估其與當前上下文的相關性,並決定是返回還是繼續搜索。這一過程類似於在神經組合優化中使用的 指針網絡。強化信號引導標記選擇最大化用戶滿意度的記憶序列(例如,正確預測用戶對爵士樂的偏好)。標記還可以更新記憶:當新信息到達時,它決定是將其與現有記憶合併還是分配新槽位。

2 向量檢索與查詢擴展

2.1 近似最近鄰搜尋

Macaron 的長期記憶使用高維度向量數據庫。查詢經過多語言編碼器轉換為嵌入,然後通過近似最近鄰 (ANN) 搜尋返回前 k 個記憶。系統使用產品量化來加速搜索,即使儲存數百萬個記憶項目,延遲仍保持在 50 毫秒以下。為避免檢索到重複的瑣碎內容,系統應用最大邊際相關性 (MMR),在結果中平衡相似性與多樣性。

2.2 使用上下文和用戶目標的查詢擴展

簡單的關鍵詞匹配不足以捕捉用戶意圖。Macaron 使用用戶的當前目標潛在意圖來擴展查詢。例如,如果東京的用戶提到「花火大会」(煙火大會),系統會根據與節日相關的典型行動將查詢擴展為包括「門票」、「日期」和「天氣」。如果韓國用戶詢問「김치전 만드는 법」(如何製作泡菜煎餅),系統還會搜索過去的烹飪經驗、營養數據和當地食材供應。查詢擴展由目標預測器處理,訓練其將對話上下文映射到一組相關子題目。

2.3 跨域檢索與相關性聯合

記憶引擎必須處理跨多個領域的查詢。Macaron 自我模型文章中描述的相關性聯邦機制允許系統跨越領域邊界訪問記憶。當代理幫助日本用戶規劃婚禮時,可能需要檢索旅行記憶(蜜月目的地)、財務記憶(預算)和文化記憶(婚禮禮儀)。每個領域都有其自己的檢索索引,系統使用softmax 閘控函數在各個領域分配檢索概率。閘控函數通過強化學習訓練,以最小化不相關項目的檢索,同時確保不錯過重要的跨領域連結。對於跨語言查詢,閘控函數還考慮語言標籤,優先選擇同語言的記憶,但在語義相似性高時允許跨語言檢索。

3 強化學習引導的記憶閘控

3.1 獎勵建模與 FireAct 的啟發

Macaron 團隊受到了「FireAct」專案的啟發,該專案展示了相比於基於提示的方法,RL 後訓練可使推理準確性提高 77%。在 Macaron 中,RL 用於訓練「記憶閘控策略」:一個神經網絡,用來決定是否儲存、更新或丟棄資訊,以及如何強化檢索記憶的權重。獎勵函數結合了多重信號:任務完成度、用戶滿意度、隱私合規性和計算效率。例如,檢索過多記憶會減慢響應速度,因此獎勵會懲罰不必要的回憶。忘記相關細節會降低用戶滿意度,因此策略學會更長時間保留這些細節。獎勵函數在日本和韓國市場有不同的調整:日本用戶可能會懲罰過度分享私人細節,而韓國用戶可能更重視速度和主動建議。

3.2 時間信用分配與時間編織

強化學習經常面臨長期視野的挑戰:現在採取的行動可能會在未來很久之後才影響結果。Macaron 通過時間編織解決這個問題,這是一種通過時間戳和敘述線索將不同行為事件相連的機制。在評估回憶舊記憶的影響時,系統可以追溯隨後的互動鏈條。這使得強化學習代理可以將功勞或責備歸因於特定的檢索決策。例如,如果提及遺忘的週年紀念日能改善關係,系統會將正面獎勵賦予保存週年紀念日記憶的記憶閘。如果重新浮現令人尷尬的時刻造成不適,那麼記憶閘會得到負面獎勵。

3.3 分層強化學習和模塊化閘控策略

Macaron 使用分層強化學習來管理複雜性。高階控制器根據用戶的當前目標選擇模塊(例如,檢索、總結、壓縮),而低階策略則在每個模塊中處理具體行動。這種模塊化設計促進了遷移學習:為日式烹飪對話訓練的閘控策略可以用於韓國食譜。它還允許 Macaron 更新個別模塊而無需重新訓練整個系統。為了確保穩定性,Macaron 採用了近端策略優化 (PPO),並使用信任區間裁剪,平衡探索和利用,防止災難性遺忘。

4 與其他記憶系統的比較

4.1 檢索增強生成(RAG)

許多 AI 系統使用檢索增強生成來提高事實準確性,透過從外部資料庫中提取資訊。像是使用 RAG 的 GPT‑4 等模型依賴靜態知識庫,並不會根據用戶反饋來調整檢索。Macaron 的記憶引擎在三個關鍵方面有所不同:

  1. 個性化內容:記憶是針對用戶特定的,而非通用的網頁文檔。檢索結果是經驗和目標,而非百科全書式的事實。
  2. 強化指導的存儲:系統根據獎勵信號學習什麼應該存儲或忘記,而 RAG 系統通常不分青紅皂白地存儲所有內容。
  3. 隱私和政策綁定:每個記憶都包含隱私元數據,檢索時會遵循存取規則。大多數 RAG 實作缺乏這種細緻的控制。

4.2 長上下文語言模型

最近的 LLM,例如 Anthropic 的 Claude 3 和 Google 的 Gemini,可以透過擴大注意力窗口來處理數十萬個標記的上下文。這些模型不進行顯式檢索,而是依賴於處理長序列的能力。雖然這使它們能夠回憶起早期的對話片段,但計算成本高且不支持用戶控制的遺忘。Macaron 結合了中等上下文和檢索,以較低的成本和更大的隱私控制實現類似的覆蓋。動態記憶標記充當外部存儲的指針,使模型能夠處理多年的數據而不需將所有內容存儲在活動上下文中。

4.3 向量數據庫和記憶網絡

像 Pinecone 和 Faiss 這樣的向量數據庫經常用於存儲檢索任務的嵌入。Macaron 的長期存儲基於這些技術,但將它們與 RL 控制的閘門相結合。同時,早期的記憶網絡如端到端記憶網絡預先計算一組固定的記憶槽並使用軟注意力進行處理。Macaron 擴展了這一點,允許槽的數量動態增減,並使用 RL 決定哪些槽保留。在這個意義上,Macaron 的記憶引擎更類似於具有學習控制器的神經圖靈機,該控制器可以讀寫外部記憶帶。

5 隱私和法規對齊

5.1 政策綁定和差異化透明度

遵守地區法規是至關重要的。政策綁定將機器可讀的隱私規則附加到數據上。例如,包含金融數據的記憶可能包含一條規則,要求在生物辨識認證後才能訪問。差異化透明度為不同的利益相關者提供不同層次的披露:日本消費者可以查看自己的數據,韓國監管機構可以看到匯總的統計數據,而開發者則獲得匿名的反饋以改進模型。這些機制符合AI促進法對透明度的強調,以及韓國AI框架法對風險管理和人為監督的要求。

5.2 名譽懲罰和問責制

日本的AI促進法缺乏直接的處罰,但採用名譽懲罰機制來公開識別不合規的公司。Macaron的審計日誌記錄了記憶訪問和政策決策,允許公司在審核時展示合規性。韓國的框架可能對違規行為處以適度罰款(最高達3000萬韓元)。通過在每個記憶事件中附加元數據,Macaron可以自動生成合規報告。該系統還允許用戶匯出和刪除他們的數據,這符合新興的數據可攜性全球標準。

5.3 與人類記憶的類比

Macaron 的記憶系統反映了人類記憶的架構。認知科學家將工作記憶描述為前額葉皮質中的有限緩衝區,情節記憶則是由海馬體調節的事件性儲存,語義記憶則是分佈在皮質上的一般知識。同樣地,Macaron 擁有短期上下文窗口、情節存儲和長期向量數據庫。參考衰減類似於人類的遺忘曲線:記憶會逐漸消退,除非加以強化。時間編織則類似於人類通過連結不同時間的事件來創造生命敘事的方式。通過模仿這些機制,Macaron 不僅優化了計算資源,還能產生更自然的互動。當用戶回憶童年節日時,這個代理可以回憶相關事件,並將其編織進當前對話中,就像一位人類朋友一樣。

5.4 未來研究方向

儘管 Macaron 的記憶引擎相當先進,但仍存在一些未解的問題。其中一個是自壓縮記憶:開發能夠自動摘要和壓縮記憶的神經模組,且不需外部監督。另一個則是終身學習:使代理能隨著使用者行為的變化,不斷調整其記憶策略。跨語言對齊仍然是一個活躍的研究主題;未來的模型可能會採用對比表示學習,更無縫地對齊日語、韓語及其他語言的記憶。研究人員也在探索類腦硬體和脈衝神經網路,以更低的能耗實現記憶。最後,整合聯邦學習將允許使用者在本地訓練 Macaron 的記憶模型,僅分享模型更新而非原始數據,從而在提升整體性能的同時加強隱私保護。

Boxu 在埃默里大學獲得了定量經濟學專業的學士學位。在加入 Macaron 之前,Boxu 的職業生涯大部分時間都在美國的私募股權和風險投資領域度過。他現在是 Macaron AI 的首席參謀和市場營銷副總裁,負責管理財務、物流和運營,並監督市場營銷。

申請成為 Macaron 的第一批朋友