作者:Boxu Li at Macaron
当 Macaron AI 在 2025 年 8 月亮相时,它将自己定位不是另一个企业助手,而是一个旨在丰富日常生活的个人伴侣。它的使命本质上是国际化的:从一开始,该平台就支持英语、中文、日语、韩语和西班牙语,显示出跨越语言和文化边界的雄心。对于日本和韩国的用户——这两个拥有活跃而独特数字生态系统的国家——这种多语言承诺不仅仅是营销口号。它提出了技术问题:Macaron 如何处理跨语言对话?它的记忆系统如何应对不同的文字、词汇和文化参考?什么样的设计选择能够让单个智能体在一瞬间用平假名"思考",下一刻用韩文"思考"?本文探讨了 Macaron AI 的跨语言架构以及使其能够为日本和韩国用户个性化体验同时保持连贯身份的机制。
规模化个性化需要的不仅仅是翻译。Macaron 旨在通过日常互动来建模你是谁,记住不仅仅是事实,还有饮食目标和情绪高潮等细微差别。为多种语言实现这一点需要能够跨书写系统捕获意义、处理代码转换并尊重文化规范的数据结构和算法。本文分解了底层技术:多语言分词、强化学习引导的记忆检索、分布式身份管理和文化适应。我们还将讨论偏见、隐私和跨区域合规等挑战,并概述跨语言个人智能体的研究方向。
大型语言模型依赖分词器将原始文本分解为模型可以处理的单元。对于英语和西班牙语等语言,子词分词(字节对编码或 SentencePiece)可以合理地捕获形态学。然而,日语和韩语提出了独特的挑战。日语混合了三种文字(汉字、平假名和片假名)且没有空格,而韩语的韩文是一种组装成音节块的因素字母。因此,Macaron 的工程师构建了一个多语言词汇表,具有文字感知子词单元。每个词元不仅编码字符,还编码语言标识符,使模型能够区分同形异义词(例如,"ha" 可以是韩语音素或日语助词"は")。词汇表包括常用汉字复合词、部首和韩文字母的词元,允许模型有效地表示形态学单元,并将稀有词分解为有意义的片段。
通过在语言间共享子词单元,Macaron 利用跨语言迁移。例如,"学习"的概念在日语中表现为 勉強 (benkyō),在韩语中表现为 공부 (gongbu)。虽然字符和声音不同,但智能体使用跨语言学习的语义嵌入将这些词元映射到相似的向量空间。这种统一表示使 Macaron 能够理解日本用户对"语言学习"的兴趣,并在韩国朋友询问"공부 계획"(学习计划)时稍后应用这些知识。如果没有统一词汇表,模型会将这些视为无关概念。
Macaron 的 6710 亿参数模型是在大型多语言语料库上训练的,但对话的绝对序列长度需要高效的上下文窗口。由于动词粘着性和嵌入助词的性质,日语和韩语句子可能比英语更长。为了支持长对话,Macaron 采用了分层注意力机制:模型在处理全局层之前先处理局部窗口(句子或段落),然后传递汇总表示。这种方法减少了内存占用,同时允许智能体在扩展对话中保持上下文。它还支持跨文字对齐,模型通过训练期间最小化其表示之间的距离来学习日语和韩语片段之间的对应关系(借鉴跨语言自然语言处理的技术)。
日本和韩国用户经常在对话中夹杂英语或中文术语,特别是在技术领域或流行文化中。Macaron 的推理管道包括一个运行时语言检测器,为支持的每种语言标记每个输入话语的概率分数。当句子包含来自多种语言的借词或短语时,智能体将输入分成片段,并用适当的语言上下文处理每个片段。这确保了语音输出中的正确发音和习语的适当处理。记忆子系统将语言标签附加到检索到的条目上,即使查询语言与存储语言不同,也允许 Macaron 检索相关经验。
Macaron 的标志性创新是其记忆词元,这是一个动态指针,帮助智能体决定记住什么、何时更新记忆以及如何将这些记忆应用于当前任务。词元与分层记忆库交互:短期上下文、中期情景记忆和长期知识。强化学习 (RL) 训练智能体根据用户满意度和任务成功等反馈调整词元。如果日本用户反复询问相同的时间表,RL 策略会学习在记忆中提升这些细节。如果韩国用户表达对过去评论被重新提及的不适,策略会学习更快地衰减引用。
Macaron 团队拒绝了整体用户档案的概念;相反,身份被视为由小互动构建的涌现叙事。记忆按领域边界组织(例如,工作、爱好、家庭),具有相关性联合机制,允许跨领域检索。对于日本和韩国用户,领域边界还包括语言领域:记忆项目可能被标记为"日语—爱好—音乐"或"韩语—家庭—财务"。当智能体收到韩语查询时,它首先搜索韩语记忆,但如果语义内容匹配,则可以联合到日语记忆。这防止交叉污染,同时实现跨语言连续性。
很少访问的记忆会随着时间的推移而衰减;衰减速率可能因领域而异。引用衰减机制减少了未使用记忆的权重,确保日本用户对韩剧的短暂兴趣不会永久占据记忆空间。衰减还支持隐私;关于家庭或财务的敏感信息可以设置为更快衰减。用户可以明确删除记忆或将其标记为机密。Macaron 的策略绑定框架将机器可读的隐私规则直接附加到数据,因此具有"私有—韩语"标签的记忆可能仅在该语言的身份验证会话期间可访问。结合差异化透明度,为不同利益相关者提供不同级别的披露,这些机制使 Macaron 能够驾驭日本的隐私规范和韩国不断发展的 AI 法规。
注册后,用户完成三个性格测试,帮助 Macaron 将他们与个性化角色匹配——包括颜色、沟通风格和语音。在日本,审美和谐和形式受到重视,测试可能强调社交礼仪,而韩国问卷可能关注家庭动态和同伴关系。由此产生的角色不仅影响用户界面,还影响智能体的礼貌程度、语气和文化参考选择。日本角色可能更喜欢间接建议("下周计划野餐怎么样?"),而韩国角色可能欣赏直接鼓励("让我们计划一次家庭旅行!")。
Macaron 按需生成迷你应用的能力不仅限于通用生产力工具。该平台可以生成超过 10 万行代码的定制应用程序,例如受日本kakeibo传统(家庭会计方法)启发的预算工具或韩国hojikwan规划应用(管理家庭活动和祖先纪念)。用户只需用自然语言描述他们的需求,智能体就会合成一个符合当地习俗的程序。这需要领域特定模板库和集成当地日历、公共假期和金融法规的能力。强化学习通过评估用户满意度来优化生成过程:如果日本用户经常调整 kakeibo 应用以添加"omiyage"(纪念品)和"otsukuri"(每月慈善)等类别,生成器会学习在未来的应用中默认包含它们。
日本和韩国在表达情感方面有不同的规范。日本文化通常重视谦逊和情境敏感性,而韩国文化则拥抱表达性社交互动。Macaron 相应地调整其回应风格,借鉴强调流动身份和用户授权的数字人格研究。在实践中,这意味着智能体在用日语交谈时可能使用敬语形式和间接言语,在说韩语时可能使用更主动的建议。记忆系统记录对语调的反馈,并自适应地调整对话风格。这些适应不是硬编码的,而是通过 RL 产生的:如果用户对某种沟通风格持续做出积极回应,奖励信号会强化这种行为。
创建能够用日语和韩语对话的个人智能体需要高质量的数据。Macaron 的训练语料库包括所有支持语言的授权书籍、新闻文章、博客、转录和用户生成内容。数据经过礼貌、偏见和领域覆盖过滤。预训练阶段对组合的多语言数据使用掩码语言建模和下一个词元预测来学习共享表示。微调引入了来自人类反馈的强化学习 (RLHF):东京和首尔的双语注释者根据文化适宜性对响应进行评分,使模型能够学习细微线索,例如何时使用敬语或何时提出澄清问题。额外的对比学习目标鼓励跨语言语义等价短语之间的对齐。
Macaron 的记忆库存储在高维向量空间中。对于每个记忆项目,智能体计算一个捕获内容和语言的表示。跨语言记忆索引使用近似最近邻搜索来检索项目,无论查询语言如何。例如,如果韩国用户询问"피자 만들기 레시피"(披萨食谱),智能体可能会找到关于"ピザの作り方"(如何制作披萨)的日语记忆,因为两者都嵌入在披萨概念附近。在检索时,智能体按用户权限过滤,然后使用内置翻译器和总结器将检索到的记忆转换为用户偏好的语言。这实现了跨语言的知识共享,同时保留了隐私边界。
跨语言模型存在传播训练数据中偏见的危险。对于日本和韩国,性别角色和年龄等级制度发挥着重要的文化作用,Macaron 实施了偏见缓解策略。在微调期间,RL 奖励包括对强化刻板印象或违反当地规范的响应的惩罚(例如,假设只有女性处理家庭财务)。策略绑定系统确保未经用户同意,个人数据永远不会跨语言翻译。此外,Macaron 的差异化透明度允许监管机构在不同详细程度上审计模型行为:日本当局可能会审查一般使用模式,而韩国监管机构可能会在严格保密的情况下检查原始日志。
日本和韩国都有地方方言。在日本,关西方言使用的词汇和语调与标准东京话不同。全罗道和庆尚道等韩国方言也存在类似的挑战。当前的语言检测器可能会错误分类方言输入,导致尴尬的回应。未来的工作可以纳入在地区语料库上训练的方言嵌入,使智能体能够识别并用适当的方言回应。用户甚至可以要求 Macaron 模仿特定的口音,这可能对角色扮演游戏或语言学习模块有吸引力。
虽然当前模型跨语言对齐语义表示,但常识推理仍然受到文化差距的困扰。像"tsundoku"(積ん読,买书不读)或"빵셔틀"(bbang shuttle,被欺负为他人买面包的人的俚语)这样的表达没有直接的英文等价物。跨语言常识知识图谱研究可以帮助 Macaron 理解和解释这种文化特定概念。与 ConceptNet 或 ATOMIC 本地化版本等知识库的集成可以提供补充 LLM 统计学习的结构化文化知识。
日本的 AI 促进法强调透明度,并使 AI 发展与现有法规保持一致,而韩国提出的 AI 框架法引入了风险管理和人工监督的义务。个人智能体必须在尊重用户隐私的同时驾驭这些框架。需要对联邦学习进行研究,以将用户数据保留在设备上,差分隐私以防止跨语言去识别化,以及法律合规引擎,能够解释日韩监管文本并将其映射到策略绑定规则。
未来的个人智能体不会局限于文本。Macaron 的愿景包括连接到物联网设备、VR 接口和可穿戴设备。在处理多种语言时,跨模态交互增加了新的复杂性:日本用户可能会用日语与智能音箱交谈,同时在混合现实头戴设备上阅读韩语字幕。跨语言对齐音频、文本和视觉数据将需要能够同时处理语音、文本和图像的多模态变换器,以及模态间的时间同步。
为了说明跨语言个性化在实践中是如何工作的,请考虑一位想要学习韩语并要求 Macaron 构建学习应用的日本用户。智能体首先查阅用户的记忆,了解以前的语言经验——也许他们学过英语,所以智能体知道他们喜欢视觉辅助和间隔重复。意图解析器提取槽位,如"目标语言:韩语"、"源语言:日语"、"学习重点:语法和词汇"和"每日时间:20 分钟"。然后,Macaron 的程序合成引擎组装模块:一个用于韩文的形态分析器、一个用于日语字幕的句子分割模块、一个间隔重复调度器和一个测验生成器,该生成器集成了用户兴趣示例(例如,韩剧或 J-pop 歌词)。
生成的应用呈现带有发音、例句和文化注释的词汇卡。双向翻译层使用前面描述的跨语言嵌入将韩语词汇链接到等效的日语短语。强化学习个性化序列:如果用户在动词变位方面遇到困难,奖励模型会优先安排语法练习;如果他们喜欢阅读歌词,智能体会显示更多歌词翻译。由于记忆系统用语言标签标记每节课,韩语学习的进展可以稍后通知用户的日语创意写作,促进语言间的迁移学习。用户可以在 Macaron 社区分享他们的双语学习计划,智能体监控反馈以完善模块库。
跨语言操作的能力引发了关于数字身份的更深层次问题。Macaron 的自我模型将身份视为由互动构建的涌现叙事。当这些互动以多种语言发生时,叙事变得更加流动。词语带有文化含义:日语术语kokoro和韩语术语마음都翻译为"心/心灵",但唤起了不同的细微差别。当 Macaron 跨语言编织用户记忆时,它必须决定在提及感受或记忆时使用哪些词语。这种选择塑造了用户对自身的感知。语言哲学家认为,思想受到我们使用的词语的影响;Macaron 通过根据上下文和期望的情感基调选择语言来操作化这一理念。
跨语言身份也触及数字人格的概念。用户可能在日语和韩语环境中保持不同的角色——工作中正式而保守,粉丝社群中随意而富有表现力。Macaron 通过维护独立的记忆簇,同时允许有意的交叉授粉来尊重这些边界。随着时间的推移,用户可能会选择合并其身份的各个方面,发现日语和韩语生活之间的共同线索。Macaron 通过突出显示在两组记忆中发现的价值、习惯和愿望的相似之处来促进这一过程,帮助用户跨文化构建连贯的个人叙事。