作者:Boxu Li
强化学习(RL)已成为现代 AI 的基石,使代理通过试错来学习最优策略。然而,在个人 AI 的背景下,RL 面临独特的挑战:奖励具有主观性,环境非静态,且道德考量无处不在。Macaron AI 的设计者们迎难而上,构建了一个多层次的 RL 系统,管理记忆管理、代码合成、对话风格等。本文探讨了 Macaron 如何应用分层 RL、奖励建模、信用分配和公平约束来打造真正个性化的代理。我们还对比了 Macaron 的 RL 方法与其他领域的 RL,并探讨了未来的发展方向。
与棋盘游戏或模拟环境不同,个人助手在开放空间中运作,奖励不能仅仅通过任务成功来获得。Macaron 收集隐性反馈(对话时长、使用频率、用户回应的语气)和显性反馈(评分、点赞/点踩)来构建奖励信号。例如,如果日本用户在助手使用礼貌语言后进行更长的对话,这种正相关性会增加类似行为的奖励。如果韩国用户因设计混乱而对生成的小应用给予低分,则该界面模式的奖励减少。这些信号进入一个奖励模型,预测在给定状态和动作下的用户满意度。
Macaron 的强化学习是多目标的。除了用户满意度外,奖励还包括隐私、合规性、资源使用和伦理等条款。在未经适当同意的情况下共享敏感信息会受到处罚,而有效压缩内存则会获得奖励。对于代码生成,效率和可维护性会影响奖励:过度复杂(例如不必要地生成 100,000 行代码)会导致负面奖励。奖励权重根据不同地区进行调整。日本对隐私和透明度的重视加大了对隐私违规的处罚,而韩国对创新的关注可能更重视速度和新颖性。平衡这些目标需要精心设计;Macaron 使用一种标量化函数,通过加权求和和动态缩放将多个目标转化为单一奖励。
人类反馈对于使 AI 系统与价值观保持一致至关重要。Macaron 通过呈现替代响应或迷你应用设计并询问用户更喜欢哪个,来实现「偏好引导」。这些数据会输入一个「推理模型」,该模型学习一个潜在的效用函数,以应对可能的行动。这种方法类似于用于训练大型语言模型的 RLHF(从人类反馈中学习的强化学习),但 Macaron 通过结合「文化注释」进行了扩展:日本注释者会评论礼貌和上下文,而韩国注释者则会记录集体主义与个体主义的措辞。最终的奖励模型反映了跨文化的细微偏好。
Macaron 的任务范围从随意聊天到生成复杂的软件。为了管理这种多样性,系统采用「分层 RL」。在顶层, 一个「元控制器」在不同模块之间进行选择:对话管理器、记忆管理器、合成引擎、情感调节器等。每个模块本身由单独的 RL 策略控制。例如,记忆管理器使用 RL 决定存储或忘记什么,而合成引擎使用 RL 选择代码模板。元控制器接收结合所有模块奖励的高层奖励,并学习何时委派任务。这种分解减少了搜索空间并提高了样本效率。
在模块中,Macaron 使用 选项框架 来表示可重用的子策略。一个「选项」对应于实现子目标的一系列动作,例如「总结上个月的开支」或「推荐双语学习计划」。如果底层结构相符,在日语领域发现的选项可以转移到韩语领域。当 Macaron 学会了一种有效处理用户请求的方法后,可以在另一个语言中出现相同概念时应用相同选项,从而加速适应。
时间抽象允许强化学习代理在不同时间尺度上进行推理。Macaron 定义了 宏动作,它们封装了多轮对话或长期计算。例如,规划一次韩国家庭度假涉及一个涵盖目的地选择、交通、住宿和行程设计的宏动作。强化学习代理根据累积奖励而不是短期信号来评估宏动作。这鼓励代理考虑长期满意度,例如确保旅行与学校假期一致或避免日程冲突。

当奖励延迟到达时,将功劳分配给特定动作是具有挑战性的。Macaron 采用 时间编织,通过叙述线将事件跨时间连接。代理构建了一个互动图,其中节点代表记忆,边代表因果关系。在评估结果时,系统向后遍历图以识别哪些检索或动作做出了贡献。例如,如果推荐一个日本节日几周后增加了用户的幸福感,代理会将部分奖励归因于检索节日记忆和生成相应的迷你应用。这个明确的因果分析帮助RL策略学习有效的检索策略。
为了改善功劳分配,Macaron 使用 反事实锚定。代理考虑它可能采取的替代动作,并估计结果差异。如果不提醒韩国用户家庭活动会导致尴尬,实际的提醒会获得正面的反事实奖励。这鼓励代理预见忘记或回忆信息的后果。反事实推理还帮助避免过拟合:代理不会自动假设重复成功的动作总能获得相同的奖励,而是测试该动作是否真正引起了结果。
Macaron 的 RL 实现中融入了「资格迹」,这是一种将奖励归因于先前状态和动作的机制。当代理收到延迟奖励(例如用户在使用小程序数周后感到满意)时,资格迹有助于将信号传播回更早的决策,如记忆选择、对话语气和代码模块选择。资格迹由衰减因子加权;离奖励越近的状态获得的信用越高。这一机制鼓励代理优化长期满意度而非短期收益。
强化学习可能会无意中从反馈数据中学习偏见。Macaron 通过在奖励函数中加入「公平约束」来缓解这一问题。例如,如果代理在未被要求的情况下持续推荐性别特定的活动,则会受到惩罚。系统监控不同人口群体的推荐模式,并调整奖励以平等化机会。在处理诸如财务或健康等敏感话题时,代理会参考包含文化规范和法律要求的「伦理政策库」。违反这些准则会触发负奖励或完全阻止该行为。
韩国的《人工智能框架法》要求对高影响系统和生成式人工智能通知进行人工监督。Macaron通过在财务规划或医疗建议等重大决策中加入人类参与来遵守这一规定。当韩国用户生成高风险的迷你应用程序时,系统会提示他们审查并批准操作。日本的《人工智能促进法》强调透明性,因此,Macaron记录RL决策并向用户提供关于为何选择特定记忆或模块的解释。这些措施建立信任并确保问责。
日本的人工智能法实施了不合规行为的点名批评机制。Macaron的RL日志不仅包括奖励,还包括决策背后的理由。如果监管机构进行调查,公司可以证明已解决偏见问题并遵守隐私规则。日志还支持用户审计;个人可以看到他们的反馈如何影响代理的行为。这种透明性可以防止RL的滥用,并促进道德创新。
RL 在游戏(AlphaGo、Dota 2)、机器人和推荐系统中取得了令人印象深刻的成果。然而,这些环境提供了明确的目标(赢得比赛、最小化错误)和清晰的奖励。相比之下,个人 AI 必须从混乱的数据中推断目标,并与人类价值观对齐。在游戏中,探索往往是无限制的;代理可能会牺牲一个棋子以获得位置优势。在个人 AI 中,为了短期参与而牺牲用户信任是不可接受的。Macaron 的奖励模型明确惩罚那些损害信任的行为,使系统在必要时保持谨慎。
一些开源项目提供了基于 RL 的个人助手,用于安排任务或自动化工作流程。这些系统通常假设用户反馈是持续的,并将任务视为独立的。Macaron 则通过其记忆引擎整合任务,并使用分层 RL 来管理交互。其 RL 模型与文化背景、隐私规则和代码生成深度结合,使其更复杂但也更具能力。其他代理可能使用 RL 根据听歌历史推荐歌曲,而 Macaron 使用 RL 来决定是否提醒你给母亲打电话,然后再生成礼物推荐。
研究人员提出了用于控制大型语言模型的强化学习方法,如RLHF和无监督环境设计。Macaron通过在真实世界、多领域、跨语言环境中展示强化学习,为这一领域做出了贡献。FireAct项目之前证实,强化学习在推理准确性上比基于提示的代理提高了77%;Macaron通过不仅在推理任务上,还在记忆管理、代码合成和对话风格上训练RL策略,扩展了这一理念。它强调了在将强化学习扩展到个人代理时,层次设计、信用分配和公平约束的重要性。
强化学习以奖励为目标进行优化,但奖励函数编码了不同文化的人类价值观。出现了元伦理问题:代理应最大化幸福感,遵循基于职责的伦理,还是在公平与自主之间取得平衡?Macaron通过从文化数据中学习规范性先验来解决这个问题。在日本,重视和谐与对社会秩序的尊重,奖励模型强调礼貌、共识和微妙。在韩国,注重社区韧性和大胆创新,模型奖励积极的协助和透明度。这些规范性框架并非静态;用户可以调整伦理滑块,Macaron在约束条件下探索价值空间。一个持续的研究方向是将形式伦理理论——效益主义、义务论、美德伦理——整合到强化学习代理中,以便它们可以解释其行动背后的道德权衡。这对于财务规划或医疗建议等高影响决策尤为重要。
个人代理越来越多地在家庭、团队和社区内部的互动中起到调解作用。社会强化学习将强化学习扩展到多智能体环境中,在这种环境下,智能体必须考虑多个利益相关者的福祉。例如,在安排家庭活动时,Macaron必须在个人偏好(隐私、工作负担)和集体满意度之间取得平衡。可以使用帕累托效率来塑造群体奖励,确保改善一个成员的结果不会损害其他成员,或者使用公平分配原则。在跨语言环境中,群体沟通可能会以多种语言进行;代理需要在尊重文化规范的同时统一跨语言的奖励。未来的研究将探索公平的强化学习,在其中边缘化的声音被赋予更大的权重,以确保包容性。其他方向包括使用自我对弈来模拟智能体之间的互动,使用元学习适应新的群体动态,以及使用因果推断来区分社会反馈中的相关性与因果关系。这些进步将使Macaron和类似的个人AI从一对一的互动转变为协调社会体验,使它们成为日本和韩国社会中无价的伙伴。