作者:Boxu Li
強化學習(RL)已成為現代 AI 的基石,使代理能夠透過反覆試驗學習最優策略。然而,在個人 AI 的背景下,RL 面臨著獨特的挑戰:獎勵是主觀的,環境是不穩定的,且存在諸多倫理考量。Macaron AI 的設計者正面應對這些挑戰,構建了一個多層次的 RL 系統,管理記憶體、代碼生成、對話風格等。這篇部落格將探討 Macaron 如何應用階層式 RL、獎勵建模、信貸賦值和公平性約束來打造真正個性化的代理。我們還將對比 Macaron 的 RL 方法與其他領域的 RL 並探索未來的方向。
與桌遊或模擬環境不同,個人代理在開放式空間中運作,獎勵無法僅從任務成功中獲得。Macaron 收集隱性反饋(如對話長度、使用頻率、用戶反應語氣)和顯性反饋(如評分、點讚/踩)來構建獎勵信號。例如,若日本用戶在代理使用禮貌語言後進行更長時間的對話,這種正相關性會提高類似行為的獎勵。若韓國用戶因為設計雜亂而對生成的小應用給予差評,則該 UI 模式的獎勵會降低。這些信號被輸入到獎勵模型中,預測給定狀態和行動的用戶滿意度。
Macaron 的強化學習是多目標的。除了用戶滿意度,獎勵還包括隱私、合規、資源使用和倫理等因子。未經適當同意分享敏感信息會受到懲罰,而有效壓縮記憶則會獲得獎勵。在代碼生成中,效率和可維護性會影響獎勵:過度複雜(例如,不必要地生成 100,000 行代碼)將導致負獎勵。獎勵權重會根據不同地區進行調整。日本重視隱私和透明度,因而對隱私違規的懲罰更嚴重,而韓國對創新的重視可能會更看重速度和新穎性。平衡這些目標需要精心設計;Macaron 使用標量化函數,通過加權和動態縮放將多個目標轉化為單一獎勵。
人類回饋對於使 AI 系統符合價值觀至關重要。Macaron 通過提供替代回應或小型應用設計,並詢問用戶他們的偏好來實施偏好引出。這些數據用於訓練一個推斷模型,該模型學習潛在效用函數,以應對可能的行動。這種方法類似於用於訓練大型語言模型的 RLHF(從人類反饋中強化學習),但 Macaron 通過結合文化註釋來擴展它:日本註釋員對禮貌和語境進行評論,而韓國註釋員則記錄集體與個人化的措辭。最終的獎勵模型反映了不同文化中的細微偏好。
Macaron 的任務範圍從隨意聊天到生成複雜軟體。為了管理這種多樣性,系統採用分層強化學習。在最高層次上,一個元控制器在模組間進行選擇:對話管理器、記憶管理器、合成引擎、情感調節器等。每個模組本身都由一個單獨的強化學習政策控制。例如,記憶管理器使用強化學習來決定儲存或忘記什麼,而合成引擎則使用強化學習來選擇程式碼模板。元控制器接收一個結合所有模組獎勵的高層獎勵,並學習何時委派任務。這種分解減少了搜尋空間,提高了樣本效率。
在模組中,Macaron 使用 選項框架 來表示可重用的子政策。一個「選項」對應於一系列實現子目標的行動,例如「總結上個月的支出」或「推薦雙語學習計畫」。在日本領域發現的選項可以在結構一致的情況下轉移到韓國領域。當 Macaron 學會在一種語言中有效處理用戶請求的方法時,如果在另一種語言中出現相同概念,則可以應用相同的選項,加速適應。
時間抽象允許強化學習代理在不同時間尺度上進行推理。Macaron 定義了 宏動作,這些動作封裝了多輪對話或長時間計算。例如,規劃一次韓國家庭度假涉及一個包含目的地選擇、交通、住宿和行程設計的宏動作。強化學習代理根據累積獎勵而非短期信號來評估宏動作。這鼓勵代理考慮長期滿意度,例如確保旅行與學校假期一致或避免安排衝突。

將信用分配給具體行動是具有挑戰性的,特別是當獎勵延遲到達時。Macaron 使用 時間編織,通過敘事線串聯跨時間的事件。代理建立了一個互動圖,其中節點代表記憶,邊代表因果關係。在評估結果時,系統逆向遍歷該圖以識別哪些檢索或行動有貢獻。例如,如果推薦日本節日數週後增加了用戶的幸福感,代理會將部分獎勵歸因於檢索節日記憶和生成相應的迷你應用。這種明確的因果分析有助於強化學習策略學習有效的檢索策略。
為了改善信用分配,Macaron 使用 反事實錨定。代理考慮它可能採取的替代行動並估計結果的差異。如果不提醒韓國用戶家庭活動會導致尷尬,那麼實際的提醒就會獲得正面的反事實獎勵。這鼓勵代理預測遺忘或回憶信息的後果。反事實推理還有助於避免過度擬合:代理不會自動假定重複成功行動總是會帶來相同的獎勵;相反,它會測試該行動是否真正導致了結果。
Macaron 的 RL 實現中包含了 資格痕跡,這是一種將信譽歸於獎勵之前的狀態和行動的機制。當代理接收到延遲獎勵(例如使用小應用程序數週後用戶的滿意度)時,這個痕跡有助於將信號傳回到更早的決策,比如記憶選擇、對話語氣和代碼模組選擇。資格痕跡根據衰減因子加權;越接近獎勵的狀態獲得更高的信譽。這一機制鼓勵代理優化長期滿意度而不是短期收益。
強化學習可能無意中從反饋數據中學習偏見。Macaron 通過在獎勵函數中加入 公平約束 來減輕這一問題。例如,如果代理在未被詢問的情況下始終推薦特定性別的活動,則會受到懲罰。系統監控各人口群體的推薦模式,並調整獎勵以平等化機會。在處理如財務或健康等敏感話題時,代理會查閱編碼了文化規範和法律要求的 倫理政策庫。違反這些指導方針會觸發負獎勵或完全阻止該行動。
韓國的《人工智慧框架法》要求對高影響系統和生成式 AI 通知進行人類監督。Macaron 通過在財務規劃或健康建議等重大決策中加入人類參與來遵守此規定。當韓國用戶生成高風險小應用時,系統會提示他們審核並批准動作。日本的《人工智慧促進法》強調透明度;因此,Macaron 記錄強化學習決策並向用戶提供選擇特定記憶或模組的原因說明。這些措施建立信任並確保問責。
日本的人工智慧法律對不合規行為實施公開點名機制。Macaron 的強化學習日誌不僅包括獎勵,還有決策背後的理由。如果監管機構調查,公司可以證明已處理偏見並遵守隱私規則。日誌也支持用戶審計;個人可以看到他們的反饋如何影響代理的行為。這種透明度防止強化學習的濫用並促進道德創新。
RL 在遊戲 (AlphaGo、Dota 2)、機器人和推薦系統中取得了令人印象深刻的成果。然而,這些環境提供了明確的目標(贏得遊戲、最小化錯誤)和明確的獎勵。相比之下,個人 AI 必須從混亂的數據中推斷目標並與人類價值觀對齊。在遊戲中,探索往往是無拘束的;代理可能犧牲一隻棋子以獲得位置優勢。在個人 AI 中,犧牲用戶信任以換取短期互動是不可接受的。Macaron 的獎勵模型明確懲罰那些損害信任的行為,使系統在必要時保持保守。
一些開源項目提供了以 RL 驅動的個人助理,能夠安排任務或自動化工作流。這些系統通常假設持續的用戶反饋,並將任務視為獨立的。Macaron 通過其記憶引擎整合任務,並使用分層 RL 管理互動,從而與眾不同。其 RL 模型深深交織在文化背景、隱私規則和代碼生成中,使其更加複雜但也更具能力。雖然其他代理可能使用 RL 根據聽歌歷史推薦歌曲,Macaron 則使用 RL 決定是否提醒您在生成禮物推薦之前給母親打電話。
研究人員提出了用於控制大型語言模型的強化學習方法,例如RLHF和無監督環境設計。Macaron通過展示在現實世界、多領域、跨語言環境中的強化學習,為這一領域的研究作出貢獻。FireAct項目先前已證實,強化學習比基於提示的代理提高了77%的推理準確性;Macaron進一步擴展了這一理念,不僅在推理任務上訓練強化學習策略,還包括記憶管理、代碼合成和對話風格。它強調了層次設計、信用分配和公平性約束在將強化學習擴展到個人代理中的重要性。
強化學習優化獎勵,但獎勵函數編碼的人類價值觀在不同文化中有所不同。出現了元倫理問題:代理應該最大化幸福,遵循義務倫理,還是平衡公平與自主?Macaron透過學習文化數據中的規範先驗來解決這個問題。在日本,重視和諧與社會秩序的尊重,獎勵模型強調禮貌、共識和細膩。在韓國,重視社區韌性和大膽創新,模型獎勵主動協助和透明度。這些規範框架並非靜態;用戶可以調整倫理滑桿,Macaron在約束下探索價值空間。持續的研究方向是將形式倫理理論——效益主義、義務論、美德倫理——整合到RL代理中,使其能夠解釋行動背後的道德取捨。這對於財務規劃或醫療建議等高影響決策尤為重要。
個人代理越來越多地在家庭、團隊和社區內調解互動。社會強化學習將強化學習擴展到多代理環境,在這種環境中,代理必須考慮多個利益相關者的福利。例如,在安排家庭活動時,Macaron 必須在個人偏好(隱私、工作量)與集體滿意度之間取得平衡。可以使用帕累托效率來塑造群體獎勵,確保改善一個成員的結果不會損害其他成員,或者使用公平分配原則。在跨語境中,群體交流可能以多種語言進行;代理必須在尊重文化規範的同時,在語言邊界內統一獎勵。未來的研究將探索公平強化學習,其中邊緣化的聲音被賦予更大的權重,以確保包容性。其他途徑包括使用自我對弈來模擬代理之間的互動,使用元學習來適應新的群體動態,以及使用因果推斷來區分社會反饋中的相關性和因果關係。這些進展將使 Macaron 和類似的個人 AI 從一對一的互動轉向組織社交體驗,成為日本和韓國社會中無價的夥伴。