Macaron AI 中的自主代码合成：安全构建亚洲生活方式的迷你应用

作者：Boxu Li at Macaron

引言

Macaron AI 最引人注目的功能之一是它能够即时生成自定义迷你应用程序。在一次普通的聊天中，用户可以描述一个需求——追踪家庭预算、规划节日行程、学习新语言——Macaron 会在几分钟内组装一个功能齐全的工具。其中一些迷你应用超过10 万行代码，但它们都是在无人干预的情况下生成的。对于日本和韩国用户来说，这意味着能够收到针对当地习俗和法规进行个性化调整的工具。本文剖析了为 Macaron 迷你应用提供支持的自主代码合成管道，涵盖意图理解、程序合成、沙箱执行、错误处理和安全措施。我们将研究系统如何管理复杂性、与外部 API 集成、尊重地区法律，并利用强化学习来完善其输出。

1 从自然语言到程序规范

1.1 意图解析和槽位提取

当用户请求应用时，Macaron 首先解析自然语言输入以构建结构化的意图规范。这涉及识别槽位，例如领域（金融、教育、烹饪）、所需功能（预算类别、提醒）、约束条件（货币、语言）和时间线。对于日语和韩语，解析器会处理敬语和省略。例如，日语请求"家計簿を作りたいんだけど、食費を細かく分けて"（我想创建一个详细分类食物支出的家庭账本）会产生领域"预算"、功能"详细的食物分类"和约束条件"日元"。韩语请求"가족 여행 일정을 계획해줘, 한식 식당 추천도"（规划家庭旅行日程并推荐韩式餐厅）会产生领域"旅行规划"、功能"餐厅推荐"和文化约束条件。

Macaron 使用双编码器架构：一个编码器处理当前对话，另一个编码器处理用户的记忆。这两个向量通过注意力机制组合，产生统一的意图表示。强化学习对解析器进行微调以提取正确的槽位。反馈来自生成的迷你应用是否满足用户期望；如果不满足，则更新解析器的参数。

1.2 使用领域库和模板进行程序合成

一旦意图结构化，Macaron 的合成引擎通过组合领域特定模块库中的函数来生成代码。模块包括预算功能（计算费用、生成图表）、调度功能（日历集成、冲突解决）、语言学习算法（间隔重复）和烹饪辅助（成分转换、营养分析）。引擎选择模块、配置它们，并将它们拼接成一个连贯的程序。模板包含定义模块间数据流的图结构（DAG），允许并发和异步操作。例如，日本预算应用可能会并行运行月度汇总和每周提醒任务。

合成引擎使用在开源代码和专有示例上训练的神经程序合成模型。它还利用符号推理：诸如"不超预算"之类的约束被表示为线性不等式并输入约束求解器。这种混合方法比纯神经生成提高了可靠性。强化学习监控用户满意度和错误率，以调整模块的选择和排序。

1.3 本地化需求和法规约束

日本和韩国的法规对金融和个人数据处理提出了具体要求。例如，日本的隐私法规定，未经同意不得将家庭会计数据传输给第三方。韩国《个人信息保护法》对数据匿名化有严格要求。在生成预算工具时，Macaron 会查阅其策略绑定规则，以确保敏感数据本地存储，永不发送到外部服务器。代码生成器会插入对加密库的调用，并默认禁用网络访问。对于医疗保健应用，Macaron 会交叉检查AI 框架法案，以确保涉及医疗指导的决策有人工监督。

2 安全执行环境

2.1 沙箱和资源限制

执行按需生成的任意代码会带来重大安全风险。因此，Macaron 在现代代码解释器风格的沙箱环境中运行迷你应用。沙箱将文件系统访问限制在虚拟目录内，限制 CPU 和内存使用，并阻止网络连接，除非明确允许。程序在具有只读基础镜像的容器内执行。当韩国烹饪应用请求获取营养数据时，请求会通过代理路由，代理会检查允许的域。如果程序尝试在未经许可的情况下访问外部站点，沙箱会终止操作并向用户返回错误消息。

2.2 静态分析和类型检查

在执行之前，Macaron 对合成代码进行静态分析，以检测诸如无限循环、注入攻击和未经授权的系统调用等漏洞。类型检查器确保模块正确组合：返回数字的函数不能连接到文本处理模块。检查器还验证对本地数据类型的符合性；例如，货币值使用十进制类型表示，以避免浮点错误。如果静态分析失败，Macaron 会提供简化请求的功能或建议将应用拆分为更小的模块。

2.3 运行时监控和自动修复

在执行期间，Macaron 监控性能指标（CPU 使用率、内存占用）、功能正确性（测试用例、断言）和用户交互（点击、停留时间）。如果程序偏离预期行为——例如超出时间限制或抛出异常——Macaron 的自动修复模块会进行干预。它可能会回滚到最后一个稳定状态、应用即时生成的补丁，或优雅地降级功能。例如，如果日本园艺应用的天气 API 失败，程序可以切换到备用数据源或通知用户临时中断。

3 强化学习和持续改进

3.1 来自用户反馈和任务成功的奖励信号

每个迷你应用会话都提供丰富的反馈。用户通过继续使用应用或明确评分体验来隐含地表示满意度。Macaron 将这些信号聚合成一个奖励函数，指导未来的代码生成。奖励惩罚错误、混乱的界面和缓慢的性能，同时奖励可靠性、文化适宜性和新颖性。随着时间的推移，合成引擎了解到日本用户重视极简主义和易用性，而韩国用户可能更喜欢自定义选项和鲜艳的视觉效果。这些偏好在选择模块和用户界面模式的 RL 策略中进行编码。

3.2 课程学习和元学习

为了处理日益复杂的用户请求，Macaron 采用课程学习：合成引擎首先生成简单的程序（例如计算器、待办事项列表），然后逐渐处理更复杂的任务（例如多用户预算平台）。当系统遇到新领域时，它会使用元学习来加速适应。当引擎看到来自日本和韩国用户的类似请求时——比如规划学校活动或管理老年人护理——它可以跨任务泛化。元学习还有助于智能体适应法律或文化的变化；如果 AI 促进法案引入了新的合规要求，Macaron 会快速将它们集成到其代码模板中。

3.3 社区贡献和模块市场

Macaron 鼓励社区参与。开发者可以向市场贡献新模块。模块在纳入之前会经过安全性和合规性审查。这促进了本地生态系统：日本开发者可能会创建茶道调度或动漫推荐模块，而韩国开发者可能会贡献学习 K-pop 舞蹈或管理家庭仪式的模块。贡献者将获得杏仁（Macaron 的应用内货币）奖励，激励平台持续改进。

4 与外部 API 和服务集成

4.1 数据源本地化

日本和韩国用户依赖不同的数据提供商。Macaron 与日本的银行 API（例如通过 J-Debit）集成用于金融应用，与日本日历集成用于公共假期（黄金周、盂兰盆节），并与本地新闻源集成用于活动规划。在韩国，智能体连接到 KOSPI 股票 API、Naver 的天气服务和 KakaoTalk 的消息 API。每次集成都被包装在一个模块中，该模块强制执行速率限制、缓存和错误处理。相关时代码生成器会自动插入这些模块。

4.2 API 配置的自然语言界面

Macaron 不是要求用户手动输入 API 密钥，而是通过对话引导他们。如果日本用户想从银行导入交易，智能体会解释同意过程、获取必要的令牌并安全地存储它们。同样，韩国用户可能会要求 Macaron 连接到孩子的学校日程安排；智能体使用 OAuth 授权访问，并确保应用仅读取所需数据。这些交互会被记录并可以查看，符合差异化透明度原则。

4.3 边缘计算和离线支持

在日本和韩国的许多地区，即使连接断断续续，用户也希望获得可靠性。Macaron 的迷你应用支持边缘计算，尽可能在本地执行计算。智能体可以生成渐进式 Web 应用 (PWA)，这些应用会缓存数据，并在网络可用时与服务器同步。例如，使用山地步道规划器的韩国徒步旅行者可以在离线状态下继续追踪路线，下降后再与云同步。离线功能对隐私尤为重要；敏感数据保留在设备上，直到用户选择共享。

5 安全、合规和文化敏感性

5.1 代码生成中的法规一致性

迷你应用必须遵守当地法规。日本《AI 促进法》强调透明度；因此，预算应用包括清晰的数据流日志，并向用户解释支出如何分类。韩国 AI 法规要求对高影响力决策进行人工监督；因此，健康相关应用会提示用户在根据建议采取行动之前咨询专业人士。Macaron 的代码生成器会插入警告，并对敏感操作获得明确同意。如果用户尝试生成税务申报应用，Macaron 会提醒他们当地税法的更新，并建议咨询注册会计师。

5.2 文化规范和 UI 本地化

文化美学影响用户界面设计。在日本，极简主义和对空白空间的尊重受到推崇；因此，Macaron 为日本用户使用微妙的颜色和简单的图标。韩国界面可以更加生动，并可能包括动画。Macaron 的 UI 模块会根据入职期间确定的用户偏好自动适应这些样式。智能体还会根据文化规范定制帮助消息：日本帮助屏幕可能包括上下文解释，而韩国帮助屏幕可能强调分步说明。

5.3 灾难恢复能力和道德考量

日本和韩国容易发生地震和台风等自然灾害。生成应急响应应用的个人智能体必须是值得信赖的。Macaron 包含一个灾难恢复模块，该模块与政府警报系统集成，并确保应急说明是最新的。在道德方面，系统避免在金融工具中使用操纵性设计（例如"黑暗模式"），并遵守公平准则。例如，在推荐餐厅时，智能体会考虑饮食限制，并避免偏向某些地区或连锁店，除非用户表示偏好。

5.4 案例研究：Hanami 规划器和 K-pop 粉丝管理器

两个案例研究突出了 Macaron 代码合成的能力和细微差别。Hanami 规划器是日本家庭想要体验樱花观赏的季节性应用。用户询问："桜の見頃と混雑を避けるプランを作って"（创建一个在盛开期观赏樱花同时避开人群的计划）。Macaron 从日本气象 API 检索天气和盛开预报，交叉引用历史数据，并预测附近公园的盛开日期。然后，它合成一个多模块应用：日历调度器来阻止日期；路线规划器，考虑交通和公共交通；预算追踪器，用于野餐用品（结合 kakeibo 类别）；以及文化礼仪指南，提醒用户垃圾处理和公园规则。强化学习个性化建议：如果家庭有老年人，智能体会优先考虑有无障碍通道的公园；如果他们带孩子，它会推荐适合家庭的景点。该应用还会生成双语邀请，以便只会说韩语或英语的朋友可以加入，展示 Macaron 的跨语言功能。

K-pop 粉丝管理器案例针对关注多个音乐团体的韩国用户。用户可能会说："다음 커백 스케줄과 팬미팅 일정 관리 앱을 만들어줘"（制作一个管理即将到来的回归日程和粉丝会议的应用）。智能体从娱乐公司 API 获取发布时间表，根据排行榜算法计算流媒体目标，并显示倒计时小部件。模块包括票务购买助手（检查当地转售法律）、数字剪贴簿（用于收集照片卡）和社交模块（用于协调粉丝项目）。为了避免用通知使用户过载，RL 奖励模型平衡紧急性（例如，粉丝会议门票截止日期）与认知负荷。当粉丝与日语朋友协调时，跨语言功能会发挥作用：应用会自动将日程安排和消息翻译成日语和英语，记忆标签确保跨语言保留上下文。这些案例研究展示了 Macaron 将当地文化、法规意识和技术复杂性融合到自定义工具中的能力。

5.5 技术挑战：并发、版本控制和调试

即时生成大型程序会带来工程挑战。当迷你应用需要同时执行多项任务时，就会出现并发，例如获取数据同时更新 UI。Macaron 的代码生成器构建有向无环图 (DAG)，定义依赖关系，并使用异步编程结构（例如 JavaScript Promise 或 Python asyncio）来避免阻塞操作。版本控制变得至关重要，因为 Macaron 的模块库不断发展。生成的应用包括记录模块版本的清单文件；当有更新可用时，Macaron 会比较版本，并提示用户升级或继续使用已知的稳定版本。调试可能是最具挑战性的：自动生成的代码可能包含微妙的错误或边缘情况。Macaron 通过基于属性的测试（生成随机输入以测试程序不变量）和符号执行（探索执行路径）来解决这个问题。当错误在野外出现时，智能体会收集匿名错误跟踪，并应用程序修复技术，将修复合并到未来的合成中。这些工程实践确保了无代码编程的承诺转化为可靠、可维护的迷你应用。