深入Macaron记忆引擎:压缩、检索与动态门控

作者:Boxu Li at Macaron


引言

虽然Macaron AI因其能够生成自定义小程序或充当富有同情心的朋友而备受关注,但其真正的核心是一个复杂的记忆引擎。该系统使Macaron能够记住重要事项,忘记无关紧要的内容,并快速安全地检索相关体验。关于音乐的简单对话可能会导致下月音乐会的提醒、自动编译的播放列表或卡拉OK助手的生成。如果没有能够处理长对话和多样化主题的记忆机制,这一切都是不可能的。本文深入探讨Macaron的记忆引擎,讨论分层压缩向量检索强化学习引导的门控隐私控制。我们将Macaron的设计与其他检索增强生成(RAG)系统进行比较,并讨论这些机制如何使日本和韩国用户享受个性化体验。

1 分层记忆表示

1.1 多存储架构:短期、情景和长期

Macaron将记忆组织成多个存储。短期存储维护当前对话,大约包含8-16条消息。它的作用类似于典型的变换器上下文:令牌按顺序处理并带有注意力。情景存储保存最近的交互(例如,最近几天)并定期刷新。在这里,Macaron采用压缩变换器:消息使用卷积注意力压缩成摘要向量,使模型能够在超出原生窗口长度的情况下保持上下文。长期存储保存重要事件、事实和小程序配置,并作为向量数据库实现。每个记忆项目都包含元数据(时间戳、域标签、语言标签)和由多语言编码器生成的嵌入。

1.2 通过潜在摘要和自编码进行压缩

长对话中的一个关键挑战是自注意力的成本随序列长度呈二次方增长。为了管理这一点,Macaron采用潜在摘要层:模型学习识别显著片段并将它们压缩成固定长度表示,而不是关注每个令牌。该层使用自编码目标进行训练,从压缩摘要中重建隐藏状态。强化学习微调摘要器:如果代理稍后未能回忆起重要细节,策略将受到惩罚,鼓励它在未来保留更多关于类似事件的信息。

1.3 动态记忆令牌作为指针网络

台湾新闻文章中描述的记忆令牌的功能类似于遍历记忆以选择相关项目的指针。在召回期间,令牌迭代查询记忆库:它检索候选记忆,使用学习的评分函数评估其与当前上下文的相关性,并决定是返回它还是继续搜索。这个过程类似于神经组合优化中使用的指针网络。强化信号引导令牌选择最大化用户满意度的记忆序列(例如,正确预测用户对爵士乐的偏好)。令牌还可以更新记忆:当新信息到达时,它决定是否将其与现有记忆合并或分配新槽。

2 向量检索和查询扩展

2.1 近似最近邻搜索

Macaron的长期记忆使用高维向量数据库。查询通过多语言编码器转换为嵌入;然后近似最近邻(ANN)搜索返回前k个记忆。系统使用乘积量化来加速搜索并保持低于50毫秒的延迟,即使存储数百万记忆项目也是如此。为了避免检索琐碎的重复项,系统应用最大边际相关性(MMR),平衡结果之间的相似性和多样性。

2.2 使用上下文和用户目标进行查询扩展

简单的关键字匹配不足以捕获用户意图。Macaron使用用户的当前目标潜在意图扩展查询。例如,如果东京用户提到"花火大会"(烟花节),系统会根据与节日相关的典型操作将查询扩展为包括"门票"、"日期"和"天气"。如果韩国用户询问"김치전 만드는 법"(如何制作泡菜煎饼),系统还会搜索过去的烹饪体验、营养数据和当地食材可用性。查询扩展由目标预测器处理,该预测器经过训练,可以将对话上下文映射到一组相关子主题。

2.3 跨域检索和相关性联合

记忆引擎必须处理跨越多个域的查询。Macaron的自我模型文章中描述的相关性联合机制允许系统跨域边界访问记忆。当代理帮助日本用户策划婚礼时,它可能需要检索旅行记忆(蜜月目的地)、财务记忆(预算)和文化记忆(婚礼礼仪)。每个域都有自己的检索索引,系统使用softmax门控函数在域之间分配检索概率。门控函数使用强化学习进行训练,以最小化无关项目的检索,同时确保不会错过重要的跨域连接。对于跨语言查询,门控函数还会考虑语言标签,以偏好相同语言的回忆,但在语义相似性很高时允许跨语言检索。

3 强化学习引导的记忆门控

3.1 奖励建模和FireAct灵感

Macaron团队受到FireAct项目的启发,该项目证明了强化学习后期训练比基于提示的方法提高了77%的推理准确性。在Macaron中,强化学习用于训练记忆门控策略:一个神经网络,决定是存储、更新还是丢弃信息,以及如何对检索到的记忆进行加权。奖励函数结合了多个信号:任务完成、用户满意度、隐私合规性和计算效率。例如,检索太多记忆会减慢响应速度,因此奖励会惩罚不必要的召回。忘记相关细节会导致用户满意度降低,因此策略学会将它们保留更长时间。奖励函数针对日本和韩国市场进行了不同的调整:日本用户可能会惩罚过度分享私人细节,而韩国用户可能更看重速度和主动建议。

3.2 时间信用分配和时间编织

强化学习经常在长视野方面遇到困难:现在采取的行动可能会影响遥远的未来结果。Macaron通过时间编织解决了这个问题,这是一种通过时间戳和叙述线索连接跨时间事件的机制。在评估召回旧记忆的影响时,系统可以追踪随后的交互链。这使强化学习代理能够将信用或责任分配给特定的检索决策。例如,如果引用被遗忘的周年纪念日改善了关系,系统会将正奖励分配给保留周年纪念日记忆的记忆门。如果重新浮现尴尬时刻引起不适,门控会收到负奖励。

3.3 分层强化学习和模块化门控策略

Macaron使用分层强化学习来管理复杂性。高级控制器根据用户当前目标选择模块(例如,检索、摘要、压缩),而低级策略处理每个模块中的特定操作。这种模块化设计有助于迁移学习:为日语烹饪对话训练的门控策略可以重用于韩国食谱。它还允许Macaron更新单个模块,而无需重新训练整个系统。为了确保稳定性,Macaron采用带有信任区域裁剪的近端策略优化(PPO),平衡探索和利用并防止灾难性遗忘。

4 与其他记忆系统的比较

4.1 检索增强生成(RAG)

许多AI系统使用检索增强生成通过从外部数据库提取信息来提高事实准确性。像GPT-4 with RAG这样的模型依赖于静态知识库,不会根据用户反馈调整检索。Macaron的记忆引擎在三个关键方面有所不同:

  1. 个性化内容:记忆是用户特定的,而不是通用的网络文档。检索产生体验和目标,而不是百科全书式的事实。

  2. 强化学习引导的存储:系统根据奖励信号学习存储或忘记什么,而RAG系统通常不加选择地存储所有内容。

  3. 隐私和策略绑定:每个记忆都包含隐私元数据,检索尊重访问规则。大多数RAG实现缺乏这种细粒度的控制。

4.2 长上下文语言模型

最近的大型语言模型,如Anthropic的Claude 3和Google的Gemini,可以通过扩展注意力窗口来处理数十万个令牌的上下文。这些模型不执行显式检索;相反,它们依赖于关注长序列的能力。虽然这允许它们回忆早期的对话片段,但它的计算成本很高,并且不支持用户控制的遗忘。Macaron将中等上下文与检索相结合,以更低的成本和更大的隐私控制实现类似的覆盖范围。动态记忆令牌充当外部存储的指针,使模型能够在不将所有内容存储在活动上下文中的情况下处理多年的数据。

4.3 向量数据库和记忆网络

Pinecone和Faiss等向量数据库通常用于存储嵌入以进行检索任务。Macaron的长期存储建立在这些技术之上,但将它们与强化学习控制的门控相结合。同时,像端到端记忆网络这样的早期记忆网络预先计算一组固定的记忆槽,并使用软注意力对它们进行关注。Macaron通过允许槽的数量动态增长或缩小,以及使用强化学习来决定哪些槽保持来扩展这一点。从这个意义上说,Macaron的记忆引擎更类似于具有学习控制器的神经图灵机,该控制器读取和写入外部记忆磁带。

5 隐私和监管一致性

5.1 策略绑定和差异化透明度

遵守区域法规至关重要。策略绑定将机器可读的隐私规则附加到数据。例如,包含财务数据的记忆可能包含一条规则,即只能在生物识别认证后访问。差异化透明度为不同的利益相关者提供不同级别的披露:日本消费者可以查看自己的数据,韩国监管机构可以查看汇总统计数据,开发人员可以获得匿名反馈以进行模型改进。这些机制符合AI促进法对透明度的强调和韩国AI框架法对风险管理和人工监督的要求。

5.2 点名羞辱执法和问责制

日本的AI促进法缺乏直接处罚,但使用点名羞辱机制公开识别不合规的公司。Macaron的审计日志跟踪记忆访问和政策决策,使公司能够在被审计时证明合规性。韩国的框架可能会对违规行为处以适度的罚款(最高3000万韩元)。通过将元数据附加到每个记忆事件,Macaron可以自动生成合规报告。该系统还允许用户导出和删除他们的数据,符合新兴的数据可移植性全球规范。

5.3 与人类记忆的类比

Macaron的记忆系统呼应了人类记忆的架构。认知科学家将工作记忆描述为前额叶皮层中的有限缓冲区,情景记忆为由海马体介导的基于事件的存储,以及语义记忆为分布在皮层中的一般知识。同样,Macaron有短期上下文窗口、情景存储和长期向量数据库。参考衰减类似于人类遗忘曲线:除非得到加强,否则记忆会消失。时间编织类似于人类通过跨时间链接事件来创建生活叙述的方式。通过模仿这些机制,Macaron不仅优化了计算资源,还产生了更自然的交互。当用户回忆童年的节日时,代理可以回忆相关事件并将它们编织到当前的对话中,就像人类朋友一样。

5.4 未来研究方向

尽管其复杂性,Macaron的记忆引擎仍留下了未解之谜。一个领域是自压缩记忆:开发无需外部监督即可自动总结和压缩记忆的神经模块。另一个是终身学习:使代理能够随着用户行为的发展不断调整其记忆策略。跨语言对齐仍然是一个活跃的研究主题;未来的模型可能会采用对比表征学习来更无缝地跨日语、韩语和其他语言对齐记忆。研究人员还在探索神经形态硬件和尖峰神经网络,以更低的能源成本实现记忆。最后,集成联邦学习将允许用户在本地训练Macaron的记忆模型,仅共享模型更新而不是原始数据,从而在提高集体性能的同时增强隐私。

相关文章

Loading related articles...

申请成为 Macaron 的首批朋友