作者:Boxu Li
Macaron AI 不仅仅是一个生产力工具,而是一个将我们对话转化为管理日历、计划旅行和探索爱好的迷你应用的平台。在友好的外表下,是一个复杂的强化学习 (RL) 系统和一个记忆引擎,能记住重要的事情,忘记不重要的事[1]。随着 Macaron 准备整合 Claude Sonnet 4.5 和 DeepSeek V3.2‑Exp,以及 Claude Agent SDK/Code 2.0,本博客探讨这些新模型和工具如何提高 Macaron 的输出质量,缩短迷你应用的创建时间并减少错误。我们结合了 Anthropic 的开发者更新、DeepSeek 的研究和 Macaron 自己的工程博客中的技术见解,勾勒出未来的清晰图景。
在比较模型之前,了解 Macaron 的独特之处会有所帮助。Macaron 使用一个多层次强化学习系统将日常对话转换为任务和代码。该系统将问题分解为几个模块——对话管理、记忆选择、代码合成和模拟反馈,并应用分层强化学习(HRL)来协调它们[2]。一个高级的元控制器决定下一个激活哪个模块,而低级的强化学习策略则决定具体的动作,如检索记忆、调用 API 或执行生成的代码[2]。这种设计使 Macaron 能够将复杂目标——从规划旅行到整理财务——分解成可管理的子任务。
在个人 AI 中,没有单一的「胜利条件」;用户满意度、隐私、时效性和文化细微差异都很重要。Macaron 通过结合 隐性和显性反馈 构建其奖励函数。隐性信号包括对话长度、使用频率和语气,而显性评分和点赞/点踩则有助于校准偏好[3]。Macaron 还使用 偏好引导,展示备选的回应或小程序设计,并询问用户更喜欢哪个。然后,一个推理模型学习可能动作的潜在效用函数,类似于从人类反馈中进行强化学习(RLHF),但扩展了文化注释——日本评估者强调礼貌和上下文,而韩国评估者则强调集体与个人措辞的区别[4]。这些信号输入到一个奖励模型中,预测用户满意度并鼓励代理遵循当地规范。
为了管理多样化的用户任务,Macaron 利用 HRL 来选择模块和子策略。在模块内,它使用 选项框架:一系列实现子目标的动作被视为一个单一选项(例如「总结上个月的开支」或「推荐双语学习计划」)[3]。如果基础结构一致,在一个领域发现的选项可以转移到另一个领域。Macaron 还定义了 宏动作,这些动作涵盖多回合对话或长时间计算,如计划家庭度假(目的地、交通、住宿和行程)[3]。RL 代理根据累积奖励而非短期信号来评估宏动作,鼓励代理优化长期满意度。
在奖励延迟到达时,将其归功于特定行动是很困难的。Macaron 使用时间编织,通过叙述线索连接跨越时间的事件。系统构建了一个交互图,其中节点代表记忆,边代表因果关系;在评估结果时,系统会向后遍历图,识别出哪些检索或行为做出了贡献[2]。反事实推理有助于评估如果采取了替代行动会发生什么,防止代理自动假设重复成功的行为总能获得相同的奖励[2]。Macaron 还使用延迟奖励和资格痕迹,将信号传递回更早的决策——比如记忆选择或对话语气——鼓励代理优化长远满意度[5]。
个人 AI 代理必须避免偏见并遵守法规。Macaron 将「公平限制」纳入奖励函数;例如,如果代理在未被要求的情况下持续推荐性别特定的活动,就会受到惩罚[5]。「伦理政策库」编码文化规范和法律要求,违反这些准则会触发负面奖励或完全阻止行动[5]。在人类监督下,涉及高影响力的决策,如财务规划或医疗建议,符合韩国 AI 框架法和日本的 AI 促进法[5]。Macaron 记录强化学习决策,并向用户提供为何选择特定记忆或模块的解释,支持审计和透明度[5]。
Macaron 的记忆引擎是个性化的支柱。它将记忆组织为短期、情景和长期存储。短期存储保留当前对话(8–16 条信息);情景存储通过卷积注意力压缩最近的交互;长期存储使用带元数据标签(时间戳、域、语言)的高维向量数据库[6]。为了控制成本,Macaron 采用潜在摘要来识别显著片段,并将其压缩为固定长度的向量;自编码目标从压缩摘要中重建隐藏状态,并通过强化学习微调摘要器,以保留对后续回忆重要的信息[7]。一个动态记忆令牌作为指针网络:它检索候选记忆,评估相关性,并决定是返回还是继续搜索[8]。
检索涉及使用产品量化和最大边际相关性进行近似最近邻搜索,以平衡相似性和多样性[9]。查询扩展利用用户的目标和潜在意图;例如,日本的"花火大会"(烟花节)请求会扩展以包括门票、日期和天气[10]。相关性联合处理跨域查询,使用softmax门控函数在不同领域和语言间分配检索概率[11]。这些组件通过强化学习训练,并通过时间编织进行信用分配,确保代理学习哪些记忆至关重要[12]。Macaron的记忆系统与传统的检索增强生成(RAG)不同,因为记忆是用户特定的,存储和检索由强化学习指导,每个记忆都包含隐私元数据来管理访问[13]。
虽然 Macaron 的内部架构非常强大,但构建迷你应用程序仍然需要读取和写入文件、执行代码、使用版本控制并与 Web API 交互。Anthropic 的 Claude Agent SDK 提供了这些功能,公开相同的代理框架来支持 Claude Code 的终端助手[14]。它打包了精细的工具:文件操作(读取、写入、grep、glob)、bash 命令、Web 获取、多语言代码执行和 Git 操作[15]。与预先索引代码库的助手不同,Claude 代理可以按需使用 grep/find/glob 搜索以查找文件,使其在动态资源库中更加灵活[16]。该 SDK 包含 大上下文窗口,具有自动压缩和摘要功能,允许代理在不触及令牌限制的情况下持有大量代码上下文[17]。开发人员可以指定允许的工具和权限模式,并添加安全挂钩,在提供自主性的同时设置保护措施[18]。
Claude Code 2.0 带来了对开发者友好的更新:检查点 让开发者可以保存进度,并在代理出错时回滚[24]。一个 VS Code 扩展 将代理嵌入 IDE,而焕然一新的终端界面提升了状态管理[25]。Claude API 增加了 上下文编辑和记忆工具,帮助代理通过自动清除上下文和检索相关信息来运行更长时间[26]。Claude 的应用和 API 现在可以执行代码、创建文件和分析数据[27],将 LLM 转变为完整的编程助手。这些功能对于 Macaron 的小型应用程序管道尤其重要,因为它涉及生成程序代码、在沙箱中测试、纠正错误以及与外部服务交互。
Claude Sonnet 4.5 是 Anthropic 在编码、代理任务和计算机使用方面最强大的模型。DevOps.com 报道称,Sonnet 4.5 能够自主运行 超过 30 小时,远远超过其前代产品的七小时。它在遵循指令、代码重构和生产级输出方面表现出色,并在现实编码任务的 SWE‑Bench Verified 基准测试中领先。在实际部署中,这些改进显而易见:Replit 的内部基准测试显示,代码编辑错误从 Sonnet 4 的 9% 降至 Sonnet 4.5 的 0%,而网络安全团队则将漏洞处理时间缩短了 44%,准确性提高了 25%。Netflix 工程师将 Sonnet 4.5 描述为“在软件开发任务中表现出色,学习我们的代码库模式以提供精确的实现”。
Sonnet 4.5 的开发者工具和内存功能与 Agent SDK 协同工作。该模型支持上下文编辑和内存管理,可自动清除旧上下文并将相关内容重新带入焦点[24]。它可以通过点击、输入和与菜单互动来导航 GUI,实现无需 API 的工具自动化。结合 SDK 的子代理架构和检查点,这意味着 Macaron 可以在多日会话中构建小应用程序而不丢失上下文,并在必要时回滚错误。
虽然 Sonnet 4.5 专注于质量和自主性,但 DeepSeek V3.2‑Exp 强调 效率。该模型引入了 DeepSeek 稀疏注意力 (DSA),在注意力过程中只选择最重要的标记。这将复杂度从二次 O(n²) 降低到 O(nk),在长文本推理中提供 2–3× 的速度提升,30–40% 的内存使用减少,以及 API 价格降低 50%+[28]。尽管有这些节省,V3.2‑Exp 在大多数基准测试中与之前的 V3.1‑Terminus 模型保持一致[29]。开源发布允许 Macaron 本地运行该模型,进行微调并探索新架构[30]。路透社指出,DeepSeek 将此视为其下一代架构的中间步骤;DSA 机制在降低计算成本的同时提升某些类型的性能[31],并且服务会自动升级到 V3.2‑Exp,为用户提供大幅降价[32]。
DeepSeek V3.2‑Exp 继承了专家混合设计,并添加了混合精度和多头潜在注意力[33]。然而,由于是实验性的,它在复杂推理任务上显示出轻微的回归[34],并且缺乏 Claude 生态系统的集成代理工具。对于 Macaron 来说,这意味着 V3.2‑Exp 更适合于对成本敏感的任务或原型开发,在这些场景中,速度和吞吐量比最高编码准确性更为重要。
Macaron 决定连接这两个模型,这引发了对其优劣势的比较。下表总结了关键属性:
从这个比较中,我们可以得出一个混合策略。Macaron 可以使用 DeepSeek V3.2‑Exp 进行初稿的创作,受益于其低延迟和低成本,然后使用 Sonnet 4.5 进行精细化或验证,以确保正确性和安全性。对于需要深度推理的复杂小应用程序,Sonnet 4.5 仍然是最佳选择,而 V3.2‑Exp 在快速迭代或大批量生成方面表现出色。
Macaron 的核心问题是 Sonnet 4.5 和 DeepSeek V3.2‑Exp 是否能提高质量、缩短开发时间和减少漏洞。我们在 Macaron 的流水线背景下分析每个因素:
Sonnet 4.5 提供更高的代码质量和更少的错误。根据 Replit 的数据,从 Sonnet 4 升级到 Sonnet 4.5 后,代码编辑错误率从 9% 降至零。这意味着由 Macaron 生成的迷你应用将更可靠地编译,语法错误或缺少导入的情况减少。模型改进的指令跟随能力帮助 Macaron 更准确地理解用户规范;增强的代码重构确保生成的模块干净且模块化。在金融和网络安全任务中,Sonnet 4.5 的准确性提高了 25% 到 44%,这表明 Macaron 的旅行和健康应用也会有类似的提升。尽管 DeepSeek V3.2-Exp 在复杂推理上稍显逊色,但其性能仍然与 V3.1 相当,且效率更高 [29];在 Macaron 的领域进行微调时,它可以为简单的迷你应用提供足够高的准确性。
Sonnet 4.5 能够自主运行超过 30 小时,这意味着 Macaron 可以在一个连续的会话中生成端到端的小应用程序而无需手动重置。结合 Agent SDK 的上下文管理和检查点,这减少了重新启动任务或重新加载上下文所花费的时间。子代理架构允许 Macaron 并行处理任务:一个代理可以处理 UI 生成,而另一个代理负责 API 集成,每个代理都有自己的上下文和工具。同时,DeepSeek V3.2-Exp 的2–3 倍更快的推理速度和更低的内存使用转化为更快的响应[28]。例如,如果生成旅行行程需要使用 Sonnet 4.5 花费 30 秒,V3.2-Exp 可以在 10–15 秒内生成一个粗略草案;然后由 Sonnet 4.5 进行优化。净效果是缩短了首次可用版本的时间,促进快速用户反馈循环。
自动化减少了人为错误,但如果管理不当,自主性可能引入新的漏洞。Agent SDK 的「检查点」让开发者能够保存并回滚代理的状态[24]。如果 Macaron 在生成小型应用时错误调用 API 或写入错误文件,开发者可以回到之前的检查点,而不需要重新开始。「上下文编辑」防止令牌耗尽,确保只保留相关上下文,减少幻想。对于 DeepSeek 的开源发布,Macaron 团队可以检查和修改模型,集成自定义安全检查,并针对特定领域任务进行微调。此外,Macaron 自身的强化学习机制——时间编织、反事实推理和公平性约束——继续监控用户满意度,并惩罚有害行为[2][5],降低漏洞和伦理违规的风险。
高质量的模型需要付出代价。Sonnet 4.5 的 token 定价与 Sonnet 4 保持不变(输入 token 为 $3/M,输出 token 为 $15/M)[37]。DeepSeek V3.2‑Exp 将 API 调用的成本减半[38],并且由于它是开源的,可以自托管。因此,Macaron 可以通过使用 V3.2‑Exp 进行初步草稿或低风险任务(例如,生成 UI 组件或简单计算器),而将 Sonnet 4.5 保留用于高风险任务(例如,财务规划、医疗建议),在这些任务中,正确性和合规性至关重要。通过更快的推理速度和减少的 GPU 使用量(下文讨论)带来的节省也可以抵消计算成本。
改进模型只是故事的一部分;训练效率影响 Macaron 在 RL 策略上迭代的速度。MIND LABS 描述了一个系统,该系统结合了 解耦剪辑与动态采样策略优化 (DAPO) 和 低秩适应 (LoRA),在一个 全同步 RL 架构中使用仅 48 台 H800 GPU 训练 671B DeepSeek 模型——与标准 RL 所需的 512 台 GPU 相比减少了 10 倍[39]。使用 Coati 和 SGLang 的流水线并行,加速的 LoRA 合并和量化,消除了 GPU 空闲等待推理的“GPU 泡泡”现象[40]。结果是将单个训练步骤的时钟时间从 9 小时减少到 1.5 小时[41]。这些进展意味着 Macaron 可以更快地重新训练其奖励模型或记忆门,更快速地整合反馈,并更快地向用户推出改进。
图 1 – 使用 All‑Sync RL 和 LoRA 时,GPU 使用量从 512 个 H800 降至 48 个,使得 RL 研究更易于访问并加快实验速度[39]。
除了效率之外,LoRA 的低秩更新降低了模型权重的通信成本,动态采样通过过滤提示和塑造奖励来稳定训练[42]。对于 Macaron,这些技术意味着未来的内存和策略更新可以快速训练,而不会产生高昂的计算成本。
使用 Macaron 创建一个小应用程序涉及几个阶段:
通过集成 Sonnet 4.5 和 DeepSeek V3.2‑Exp,Macaron 可以定制此工作流程。例如,一个旅行规划应用程序可能会使用 DeepSeek 的 UI 生成器代理快速提出布局建议,而行程逻辑和日程优化则使用 Sonnet 4.5 来确保准确性和正确处理日历。一个预算应用程序可能依赖 DeepSeek 生成初始图表和表格,但使用 Sonnet 4.5 进行复杂的财务计算和法规合规性。
为了展示这些技术的实际好处,下列图表总结了关键指标。
图2 – Sonnet 4.5 和 DeepSeek V3.2‑Exp 在编码准确性、相对速度、成本和自主性方面的对比视图。更高的柱状图代表更好的准确性和自主性值;更低的柱状图表明在效率和成本上具有更好的(更快或更便宜的)性能。
图 3 – Replit 的内部基准测试显示,代码编辑错误从使用 Sonnet 4 的 9% 降至使用 Sonnet 4.5 的 0%。改进的指令遵循和代码重构提高了小型应用的可靠性。
图 4 – 在 All‑Sync RL 管道中结合 DAPO 和 LoRA 将训练步骤的时间从 9 小时缩短到 1.5 小时[41],从而加快了奖励模型和记忆策略的更新速度。
这些可视化图表强调了这些好处并非理论上的。降低的 GPU 需求、更快的训练速度、更高的准确性和更低的成本都为更顺畅、更高效的小型应用管道做出贡献。
展望未来,Anthropic 和 DeepSeek 都暗示了更具雄心的架构。Sonnet 4.5 的继任者可能会扩展上下文窗口、提升多语言推理能力,并支持更复杂的工具交互。预计 DeepSeek 的下一代架构将基于稀疏注意力实现更高的性能,同时降低成本[31]。对于 Macaron,进一步研究自压缩记忆、终身学习和跨语言对齐可能会增强个性化和隐私保护[43]。整合联邦学习可以让用户在本地训练记忆模型,仅共享模型更新,从而在保护隐私的同时提升集体性能[43]。在强化学习方面,Macaron 的方法可以结合规范理论——功利主义、道义论、美德伦理学——为其行为提供解释[44]。
总之,Macaron 决定连接 Claude Sonnet 4.5 和 DeepSeek V3.2‑Exp,通过 Claude Agent SDK 驱动,使其处于个人 AI 的前沿。Sonnet 4.5 提供无与伦比的质量、扩展的自主性和丰富的开发工具;而 DeepSeek 则提供速度、高效和开源的灵活性。结合 Macaron 的创新 RL 训练技术和内存引擎,这些模型将帮助 Macaron 更快速、顺畅地构建迷你应用,并减少错误。随着个人 AI 的不断演进,Macaron 在自主性、安全性、伦理和效率方面的融合为负责任的创新提供了蓝图。
[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] 探索 Macaron 的记忆引擎:压缩、检索和动态门控 - Macaron
https://macaron.im/memory-engine
https://macaron.im/reinforcement-learning
[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] 使用 Claude Code 的 SDK 构建代理
https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/
[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5:功能、定价和比较 - Dataconomy
https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/
[28] [29] [30] [32] [33] [34] [35] AI对AI:DeepSeek-3.2-Exp和DSA – Champaign Magazine
https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/
[31] [38] 中国的 DeepSeek 发布了面向下一代的“中间”AI模型 | 路透社