作者: Boxu Li
尽管 Macaron AI 的新奇之处常常引起人们对其生成自定义迷你应用或充当共情朋友能力的关注,但其真正的核心是一种复杂的 记忆引擎。该系统让 Macaron 能够记住重要的事情,忘记不重要的,并快速且安全地检索相关经验。一次简单的音乐对话可以引导出下个月音乐会的提醒、自动编制的播放列表或生成卡拉 OK 助手。如果没有能够处理长对话和多样话题的记忆机制,这一切都无法实现。这篇博客深入探讨了 Macaron 的记忆引擎,从技术层面分析 分层压缩、向量检索、强化引导门控 和 隐私控制。我们将 Macaron 的设计与其他增强检索生成(RAG)系统进行比较,并讨论这些机制如何使日本和韩国用户享受个性化体验。
Macaron 将记忆组织成多个存储。短期存储保持当前对话,跨度大约为 8 到 16 条消息。它的作用类似于典型的 transformer 上下文:序列地处理 tokens,并进行注意力操作。情节存储保存最近的互动(例如,过去几天的对话),并定期刷新。在这里,Macaron 使用压缩 transformer:通过卷积注意力将消息压缩成摘要向量,使模型能够保持超出原生窗口长度的上下文。长期存储保存重要事件、事实和小程序配置,并实现为向量数据库。每个记忆项都包括元数据(时间戳、领域标签、语言标签)和由多语言编码器生成的嵌入。
在长对话中,一个关键挑战是自注意力的成本随着序列长度成二次增长。为了解决这个问题,Macaron 采用了一个潜在摘要层:模型不是关注每一个标记,而是学习识别突出的片段,并将其压缩成一个固定长度的表示。这个层通过自动编码目标进行训练,从压缩的摘要中重建隐藏状态。强化学习用于微调摘要器:如果代理在后续无法回忆起重要细节,策略会受到惩罚,从而鼓励其在未来保留更多关于类似事件的信息。
台湾新闻文章中描述的记忆标记像一个指针,遍历记忆以挑选相关项。在回忆过程中,标记迭代地查询记忆库:它检索候选记忆,使用学习的评分函数评估其与当前上下文的相关性,并决定是返回它还是继续搜索。这个过程类似于用于神经组合优化的指针网络。强化信号引导标记选择最大化用户满意度的记忆序列(例如,正确预测用户对爵士乐的偏好)。标记还可以更新记忆:当有新信息到达时,它决定是将其与现有记忆合并还是分配一个新槽。
Macaron 的长期记忆使用高维向量数据库。查询通过多语言编码器转换为嵌入,然后进行近似最近邻 (ANN) 搜索,返回前 k 条记忆。系统使用产品量化来加速搜索,即使存储数百万条记忆项,也能将延迟保持在 50 毫秒以下。为避免检索到无关紧要的重复项,系统应用最大边际相关性 (MMR),在结果中平衡相似性和多样性。
简单的关键词匹配不足以捕捉用户意图。Macaron 使用用户的当前目标和潜在意图来扩展查询。例如,如果在东京的用户提到“花火大会”(烟花大会),系统会根据与节日相关的典型操作扩展查询以包括“门票”、“日期”和“天气”。如果韩国用户询问“김치전 만드는 법”(如何制作泡菜煎饼),系统还会搜索过去的烹饪经验、营养数据和当地食材的可用性。查询扩展由一个目标预测器处理,该预测器经过训练可将对话上下文映射到一组相关子主题。
记忆引擎必须处理跨多个领域的查询。Macaron 的自我模型文章中描述的「相关性联合」机制允许系统跨领域边界访问记忆。当助手帮助日本用户策划婚礼时,它可能需要检索旅行记忆(蜜月目的地)、财务记忆(预算)和文化记忆(婚礼礼仪)。每个领域都有自己的检索索引,系统使用「softmax 门控函数」在各个领域间分配检索概率。门控函数通过强化学习进行训练,以最小化无关条目的检索,同时确保重要的跨领域连接不被遗漏。对于跨语言查询,门控函数还会考虑语言标签,以偏好同语言记忆,但在语义相似度高时允许跨语言检索。
Macaron 团队受到 FireAct 项目的启发,该项目表明 RL 后训练比基于提示的方法提高了 77% 的推理准确性。在 Macaron 中,RL 用于训练 记忆门控策略:一个决定是否存储、更新或丢弃信息以及如何加权检索到的记忆的神经网络。奖励函数结合了多种信号:任务完成度、用户满意度、隐私合规性和计算效率。例如,检索太多记忆会减慢响应速度,因此奖励会对不必要的回忆进行惩罚。遗忘相关细节会降低用户满意度,因此策略会学习更长时间地保留这些细节。奖励函数针对日本和韩国市场进行了不同的调整:日本用户可能会对过多分享私人信息进行惩罚,而韩国用户可能更看重速度和主动建议。
强化学习常常在长远视野上遇到困难:现在采取的行动可能会对未来的结果产生影响。Macaron 通过时间编织来解决这一问题,这是一种通过时间戳和叙述线将不同时期的事件连接起来的机制。在评估回忆旧记忆的影响时,系统可以追踪随后的互动链。这使得RL代理能够将功劳或过错归于特定的检索决策。例如,如果提到一个被遗忘的纪念日改善了关系,系统会给保存该纪念日记忆的记忆门赋予正向奖励。如果重现令人尴尬的时刻引起了不适,则该记忆门会收到负向奖励。
Macaron 使用层次化强化学习来管理复杂性。一个高层控制器根据用户的当前目标选择模块(例如,检索、总结、压缩),而低层策略则在每个模块内处理具体的动作。这种模块化设计促进了迁移学习:为日式烹饪对话训练的门控策略可以用于韩式食谱。它还允许 Macaron 更新单个模块而无需重新训练整个系统。为了确保稳定性,Macaron 采用近端策略优化 (PPO) 与信任区域裁剪,平衡探索与利用,并防止灾难性遗忘。
许多 AI 系统使用检索增强生成来通过从外部数据库提取信息来提高事实准确性。像 GPT-4 这样的模型使用 RAG 依赖于静态知识库,并且不会根据用户反馈调整检索。Macaron 的记忆引擎在三个关键方面有所不同:
最近,Anthropic 的 Claude 3 和 Google 的 Gemini 等大型语言模型通过扩展注意力窗口来处理数十万的上下文。这些模型不执行显式检索;相反,它们依赖于处理长序列的能力。虽然这使它们能够回忆起早期的对话片段,但计算成本高且不支持用户控制的遗忘。Macaron 结合了中等上下文和检索,以更低的成本和更高的隐私控制实现类似的覆盖。动态记忆令牌充当外部存储的指针,使模型能够处理多年的数据,而无需将所有内容存储在活动上下文中。
像 Pinecone 和 Faiss 这样的向量数据库常用于存储嵌入以进行检索任务。Macaron 的长期存储建立在这些技术之上,但将它们与 RL 控制的门控相结合。同时,早期的记忆网络如端到端记忆网络预先计算一组固定的记忆槽,并通过软注意力进行关注。Macaron 通过允许槽的数量动态增长或缩小,并使用 RL 决定保留哪些槽来扩展这一点。在这个意义上,Macaron 的记忆引擎更类似于一个具有学习控制器的神经图灵机,该控制器读写外部记忆磁带。
遵守地区法规至关重要。政策绑定为数据附加机器可读的隐私规则。例如,包含财务数据的记忆可能会附加一条规则,规定只有在通过生物识别认证后才能访问。差异化透明度为不同的利益相关者提供不同层次的信息披露:日本消费者可以查看自己的数据,韩国监管机构可以查看汇总统计数据,开发者则获得匿名反馈以改进模型。这些机制与《AI促进法》对透明度的强调以及韩国《AI框架法》对风险管理和人类监督的要求保持一致。
日本的《AI促进法》缺乏直接处罚,但采用点名批评的机制来公开识别不合规的公司。Macaron的审计日志追踪记忆访问和政策决策,使公司在被审计时能够证明合规性。韩国的框架可能对违规行为处以适度罚款(最高可达3000万韩元)。通过将元数据附加到每个记忆事件,Macaron可以自动生成合规报告。系统还允许用户导出和删除他们的数据,这与全球数据可移植性的新兴规范一致。
Macaron 的记忆系统与人类记忆的架构相呼应。认知科学家将 工作记忆 描述为前额叶皮层中的有限缓冲区,情景记忆 则是由海马体调节的事件存储,而 语义记忆 则是分布在皮层的常识。同样,Macaron 具有短期上下文窗口、情景存储和长期向量数据库。参考衰退 类似于人类的遗忘曲线:记忆会逐渐消退,除非得到强化。时间编织 则与人类通过跨时间连接事件来创造生活叙事的方式相似。通过模拟这些机制,Macaron 不仅优化了计算资源,还能产生更自然的互动。当用户回忆童年节日时,代理人可以像人类朋友一样,回忆相关事件并将其编织到当前对话中。
尽管 Macaron 的记忆引擎很复杂,但仍然存在一些未解的问题。其中一个领域是自压缩记忆:开发无需外部监督即可自动总结和压缩记忆的神经模块。另一个是终身学习:让代理能够随着用户行为的变化不断调整其记忆策略。跨语言对齐仍然是一个活跃的研究课题;未来的模型可能会采用对比表示学习,以更无缝地对齐日语、韩语和其他语言的记忆。研究人员还在探索神经形态硬件和尖峰神经网络,以更低的能耗实现记忆。最后,整合联邦学习将允许用户在本地训练 Macaron 的记忆模型,仅共享模型更新而非原始数据,从而在提高集体性能的同时增强隐私保护。