作者:Boxu Li at Macaron
Macaron AI 不仅仅是一款生产力工具 —— 它是一个将我们的对话转化为迷你应用的平台,这些应用可以管理日历、规划旅行和探索兴趣爱好。在友好界面的背后,是一个复杂的强化学习(RL)系统和一个能记住重要信息、忘记无关内容的记忆引擎[1]。随着 Macaron 准备集成 Claude Sonnet 4.5 和 DeepSeek V3.2‑Exp,以及 Claude Agent SDK/Code 2.0,本文将探讨这些新模型和工具如何提升 Macaron 的输出质量、缩短迷你应用的创建时间并减少错误。我们将结合 Anthropic 的开发者更新、DeepSeek 的研究成果和 Macaron 自身的工程博客,为您勾勒出一幅清晰的未来蓝图。
在比较模型之前,我们先来了解是什么让 Macaron 与众不同。Macaron 使用多层强化学习系统将日常对话转化为任务和代码。系统将问题分解为多个模块 —— 对话管理、记忆选择、代码合成和模拟器反馈 —— 并应用分层强化学习(HRL)来协调它们[2]。高层的元控制器决定下一步激活哪个模块,而低层的 RL 策略则决定具体行动,如检索记忆、调用 API 或执行生成的代码[2]。这种设计使 Macaron 能够将复杂目标 —— 从规划旅行到管理财务 —— 分解为可管理的子任务。
在个人 AI 领域,没有单一的"胜利条件";用户满意度、隐私、及时性和文化细节都很重要。Macaron 通过结合隐式和显式反馈来构建其奖励函数。隐式信号包括对话长度、使用频率和语气,而显式评分和点赞/点踩则帮助校准偏好[3]。Macaron 还使用偏好启发技术,提供备选回应或迷你应用设计,并询问用户更喜欢哪个。推理模型随后学习一个潜在的效用函数来评估可能的行动,这类似于来自人类反馈的强化学习(RLHF),但扩展了文化注释 —— 日本评分者强调礼貌和语境,而韩国评分者则强调集体与个人表达的平衡[4]。这些信号被输入到奖励模型中,用于预测用户满意度并鼓励代理遵循本地规范。
为了管理多样化的用户任务,Macaron 利用 HRL 来选择模块和子策略。在模块内部,它使用选项框架:实现子目标的一系列动作被视为单个选项(例如"总结上月支出"或"推荐双语学习计划")[3]。如果底层结构相似,在一个领域发现的选项可以迁移到另一个领域。Macaron 还定义了宏观动作,用于封装多轮对话或长期计算,比如规划家庭度假(目的地、交通、住宿和行程)[3]。RL 代理基于累积奖励而不是短期信号来评估宏观动作,这鼓励代理优化长期满意度。
当奖励延迟到达时,很难将功劳分配给具体的行动。Macaron 采用时间编织技术,用叙事线索连接跨时间的事件。系统构建了一个交互图,其中节点代表记忆,边代表因果关系;在评估结果时,它会向后遍历图来识别哪些检索或行动做出了贡献[2]。反事实推理帮助评估如果采取其他行动会发生什么,防止代理机械地认为重复一个成功的行动总能得到相同的奖励[2]。Macaron 还使用延迟奖励和资格迹来将信号传播回早期决策 —— 如记忆选择或对话语气 —— 鼓励代理优化长期满意度[5]。
个人 AI 代理必须避免偏见并遵守法规。Macaron 在奖励函数中加入了公平性约束;例如,如果代理在未被要求的情况下持续推荐性别特定的活动,就会受到惩罚[5]。伦理政策库编码了文化规范和法律要求,违反这些准则会触发负面奖励或完全阻止行动[5]。人类监督被内置到高影响力的决策中,如财务规划或健康建议,以满足韩国 AI 框架法和日本 AI 促进法的要求[5]。Macaron 记录 RL 决策,并向用户解释为什么选择某些记忆或模块,支持审计和透明度[5]。
Macaron 的记忆引擎是个性化的支柱。它将记忆组织为短期、情景和长期存储。短期存储保留当前对话(8–16 条消息);情景存储通过卷积注意力压缩保存最近的交互;而长期存储使用带有元数据标签(时间戳、领域、语言)的高维向量数据库[6]。为了管理成本,Macaron 使用潜在摘要来识别显著片段并将其压缩为固定长度的向量;自编码目标从压缩摘要中重建隐藏状态,而 RL 微调摘要器以保留对后续回忆重要的信息[7]。动态记忆令牌充当指针网络:它检索候选记忆,评估相关性,并决定是返回结果还是继续搜索[8]。
检索涉及使用乘积量化和最大边际相关性的近似最近邻搜索,以平衡相似性和多样性[9]。查询扩展利用用户的目标和潜在意图;例如,日语请求"花火大会"(烟花节)会扩展到包括门票、日期和天气[10]。相关性联邦处理跨域查询,使用 softmax 门控函数在不同领域和语言之间分配检索概率[11]。这些组件通过 RL 训练,通过时间编织的功劳分配确保代理学习哪些记忆是关键的[12]。Macaron 的记忆系统与传统的检索增强生成(RAG)不同,因为记忆是用户特定的,存储和检索由 RL 引导,每个记忆都包含控制访问的隐私元数据[13]。
虽然 Macaron 的内部架构很健壮,但构建迷你应用仍然需要读写文件、执行代码、使用版本控制和与网络 API 交互。Anthropic 的 Claude Agent SDK 正好提供了这些能力,它暴露了与 Claude Code 终端助手相同的代理工具集[14]。它打包了细粒度的工具:文件操作(读、写、grep、glob)、bash 命令、网络获取、多语言代码执行和 Git 操作[15]。与预先索引代码库的助手不同,Claude 代理使用 grep/find/glob 按需搜索文件,这使它们在动态仓库中更加灵活[16]。SDK 包含带有自动压缩和摘要的大型上下文窗口,允许代理保持大量代码上下文而不会触及令牌限制[17]。开发者可以指定允许的工具和权限模式,并添加安全钩子,实现带有护栏的自主性[18]。
工具 – SDK 让工程师选择哪些工具(文件 I/O、bash、网络获取、代码执行)可供代理使用[19]。
MCP 扩展 – 与模型上下文协议的集成允许外部服务器(数据库、邮件搜索、向量搜索)扩展工具集[20]。
子代理 – 在 .claude/agents 中定义的代理有自己的系统提示词、受限工具集和可选的模型选择;任务可以委托给这些子代理[21]。
记忆与项目上下文 – 持久化草稿本(CLAUDE.md)维护跨会话的上下文,并遵守仓库级配置[22]。
上下文管理与运行时 – 自动上下文压缩、流式响应和类型化错误处理简化了长时运行任务[23]。
Claude Code 2.0 带来了对开发者友好的更新:检查点让开发者可以保存进度,并在代理出错时回滚[24]。VS Code 扩展将代理嵌入到 IDE 中,同时改进的终端界面提升了状态管理[25]。Claude API 获得了上下文编辑和记忆工具,通过自动清理上下文和检索相关片段来帮助代理运行更长时间[26]。Claude 的应用和 API 现在可以执行代码、创建文件和分析数据[27],将 LLM 转变为完整的编码助手。这些特性对 Macaron 的迷你应用流水线特别重要,因为它涉及生成程序代码、在沙箱中测试、纠正错误和与外部服务交互。
Claude Sonnet 4.5 是 Anthropic 在编码、代理任务和计算机使用方面最强大的模型。DevOps.com 报道称 Sonnet 4.5 可以自主运行超过 30 小时,远超其前身的七小时。它在遵循指令、代码重构和生产就绪输出方面表现出色,并在真实编码任务的 SWE‑Bench Verified 基准测试中领先。在实际部署中,改进是显而易见的:Replit 的内部基准测试显示代码编辑错误率从 Sonnet 4 的 9% 降至 Sonnet 4.5 的 0%,同时网络安全团队将漏洞处理时间缩短了 44%,准确率提高了 25%。Netflix 工程师将 Sonnet 4.5 描述为"在软件开发任务中表现出色,能够学习我们的代码库模式以提供精确的实现"。
Sonnet 4.5 的开发者工具和记忆特性与 Agent SDK 产生协同效应。模型支持上下文编辑和记忆管理,可以自动清理旧的上下文并将相关片段重新聚焦[24]。它可以通过点击、输入和与菜单交互来导航图形界面,实现无需 API 的工具自动化。结合 SDK 的子代理架构和检查点,这意味着 Macaron 可以在多日会话中构建迷你应用而不会丢失上下文,并在必要时回滚错误。
虽然 Sonnet 4.5 专注于质量和自主性,但 DeepSeek V3.2‑Exp 强调效率。该模型引入了 DeepSeek 稀疏注意力(DSA),在注意力计算时只选择最重要的令牌。这将复杂度从二次方 O(n²) 降低到 O(nk),实现了长上下文推理速度提升 2–3 倍、内存使用降低 30–40% 以及 API 价格降低 50% 以上[28]。尽管有这些节省,V3.2‑Exp 在大多数基准测试中仍与之前的 V3.1‑Terminus 模型保持同等水平[29]。开源发布允许 Macaron 在本地运行模型、进行微调并探索新颖的架构[30]。路透社指出,DeepSeek 将此视为迈向下一代架构的中间步骤;DSA 机制在降低计算成本的同时提升了某些类型的性能[31],并且服务会自动升级到 V3.2‑Exp,为用户带来大幅降价[32]。
DeepSeek V3.2‑Exp 继承了专家混合设计,并添加了混合精度和多头潜在注意力[33]。然而,由于其实验性质,它在复杂推理任务上显示出轻微的退步[34],并且缺乏 Claude 生态系统的集成代理工具。对 Macaron 来说,这意味着 V3.2‑Exp 更适合成本敏感的任务或原型设计,在这些场景中速度和吞吐量比最高的编码准确性更重要。
Macaron 决定连接这两个模型,这让我们有必要比较它们的优势和劣势。下表总结了关键特性:
特性 | Sonnet 4.5 | DeepSeek V3.2‑Exp |
---|---|---|
重点 | 高质量编码、代理任务、长期自主性 | 高效的长上下文处理[35] |
架构 | 专有模型,具有长期自主性(>30 小时)和强大的指令遵循能力 | 专家混合与稀疏注意力降低计算量[28] |
记忆与上下文 | 大型上下文窗口;通过记忆工具自动管理记忆[24] | 通过稀疏注意力支持长上下文;降低内存使用[28] |
开发者工具 | 具有子代理、检查点、VS Code 集成的 Agent SDK[36][24] | 无官方 SDK;开源代码允许自定义集成但缺乏内置记忆工具 |
成本 | 与 Sonnet 4 相同;输入令牌 $3/M,输出令牌 $15/M[37] | API 价格降低 50%+ [38];可免费自托管 |
优势 | 最高的编码准确率(SWE‑Bench Verified 77–82%)、延长的自主性、强大的安全性 | 卓越的效率;推理速度提升 2–3 倍且内存使用更低[28];开源 |
劣势 | 更高的令牌成本;专有 API;可能需要仔细的提示词管理 | 实验性状态;复杂推理任务上有轻微退步[34];缺乏集成工具 |
从这个比较中,我们可以得出一个混合策略。Macaron 可以使用 DeepSeek V3.2‑Exp 进行初始草稿,从低延迟和低成本中受益,然后使用 Sonnet 4.5 进行优化或验证以确保正确性和安全性。对于需要深度推理的复杂迷你应用,Sonnet 4.5 仍然是最佳选择,而 V3.2‑Exp 则在快速迭代或大批量生成方面表现出色。
对 Macaron 来说,核心问题是 Sonnet 4.5 和 DeepSeek V3.2‑Exp 能否提高质量、缩短开发时间和减少错误。我们在 Macaron 流水线的背景下分析每个因素:
Sonnet 4.5 提供了更高的代码质量和更少的错误。根据 Replit 的数据,从 Sonnet 4 升级到 Sonnet 4.5 后,代码编辑错误从 9% 降至零。这意味着 Macaron 生成的迷你应用将更可靠地编译,减少语法错误或缺失导入。模型改进的指令遵循能力帮助 Macaron 更准确地理解用户需求;其增强的代码重构确保生成的模块清晰且模块化。在金融和网络安全任务中,Sonnet 4.5 将准确率提高了 25% 到 44%,这表明 Macaron 的旅行和健康应用也可能获得类似的提升。DeepSeek V3.2‑Exp 虽然在复杂推理方面略有不足,但仍然保持着与 V3.1 相当的性能,并且效率更高[29];当在 Macaron 的领域进行微调后,它可以为较简单的迷你应用提供足够高的准确性。
Sonnet 4.5 能够自主运行超过 30 小时,这意味着 Macaron 可以在单个连续会话中生成端到端的迷你应用,无需手动重置。结合 Agent SDK 的上下文管理和检查点,这减少了重启任务或重新加载上下文所花费的时间。子代理架构允许 Macaron 并行处理任务:一个代理可以处理 UI 生成,而另一个管理 API 集成,每个代理都有自己的上下文和工具。同时,DeepSeek V3.2‑Exp 的推理速度提升 2–3 倍和更低的内存使用转化为更快的响应[28]。例如,如果使用 Sonnet 4.5 生成旅行行程需要 30 秒,V3.2‑Exp 可以在 10–15 秒内生成初稿;然后由 Sonnet 4.5 进行优化。最终效果是缩短了首个可用版本的时间,实现快速的用户反馈循环。
自动化减少了人为错误,但如果管理不当,自主性也可能引入新的错误。Agent SDK 的检查点让开发者可以保存和回滚代理的状态[24]。如果 Macaron 在生成迷你应用时进行了错误的 API 调用或写入了错误的文件,开发者可以恢复到之前的检查点,而不是重新开始。上下文编辑防止令牌耗尽,并确保只保留相关上下文,最小化幻觉。对于 DeepSeek,开源发布允许 Macaron 团队检查和修改模型,集成自定义安全检查,并针对特定领域的任务进行微调。此外,Macaron 自己的 RL 机制 —— 时间编织、反事实推理和公平性约束 —— 继续监控用户满意度并惩罚有害行为[2][5],降低错误和伦理违规的风险。
高质量的模型是有代价的。Sonnet 4.5 的令牌定价与 Sonnet 4 保持不变(输入令牌 $3/M,输出令牌 $15/M)[37]。DeepSeek V3.2‑Exp 将 API 调用成本减半[38],而且由于它是开源的,可以自托管。因此,Macaron 可以通过在初始草稿或低风险任务(如生成 UI 组件或简单计算器)中使用 V3.2‑Exp,而在正确性和合规性至关重要的高风险任务(如财务规划、医疗建议)中使用 Sonnet 4.5 来优化成本。更快的推理和减少的 GPU 使用(下文讨论)带来的节省也抵消了计算成本。
改进模型只是故事的一部分;训练效率影响着 Macaron 迭代 RL 策略的速度。MIND LABS 描述了一个系统,它在全同步 RL架构中结合了解耦裁剪和动态采样策略优化(DAPO)与低秩适应(LoRA),仅使用 48 个 H800 GPU 就能训练 671B DeepSeek 模型 —— 与标准 RL 需要的 512 个 GPU 相比减少了 10 倍[39]。使用 Coati 和 SGLang 的流水线并行,加上加速的 LoRA 合并和量化,消除了 GPU 等待推理时的"气泡"[40]。结果是单个训练步骤的实际时间从9 小时减少到 1.5 小时[41]。这些进展意味着 Macaron 可以更快地重新训练其奖励模型或记忆门,更快地整合反馈,并更早地向用户推出改进。
图 1 – 使用带 LoRA 的全同步 RL 时,GPU 使用量从 512 个降至 48 个 H800 GPU,使 RL 研究更易获得且实验更快[39]。
除了效率之外,LoRA 的低秩更新减少了模型权重通信成本,而动态采样通过过滤提示词和塑造奖励来稳定训练[42]。对 Macaron 来说,这些技术意味着未来的记忆和策略更新可以快速训练,而不会产生过高的计算成本。
使用 Macaron 创建迷你应用涉及几个阶段:
意图理解 – Macaron 解析用户的请求并识别必要的组件(如数据源、UI 元素、外部 API)。Sonnet 4.5 改进的指令遵循能力帮助准确提取意图并规划执行步骤,而 V3.2‑Exp 可以快速原型化潜在意图供用户选择。
程序合成 – 代理使用 Claude Agent SDK 生成代码、搜索仓库、读取模板和写入新文件。子代理可以专门负责前端(React)或后端(Python),而上下文管理确保在不超载内存的情况下提供正确的代码。Sonnet 4.5 的长上下文和代码重构能力产生更清晰、更易维护的程序,而 V3.2‑Exp 加速初稿生成。
沙箱执行 – 生成的代码在安全环境中执行。代理读取日志、捕获错误并迭代修复错误。检查点提供安全回退,RL 奖励信号惩罚测试失败的代码。Macaron 还可以使用 Agent SDK 的 bash 和网络获取工具对外部服务进行集成测试。
交互和优化 – 代理通过 Macaron 的对话界面向用户展示迷你应用。记忆引擎存储对话,并使用 RL 决定在未来交互中回忆哪些记忆。来自用户的反馈更新奖励模型并影响未来的生成。
通过集成 Sonnet 4.5 和 DeepSeek V3.2‑Exp,Macaron 可以定制这个工作流程。例如,旅行规划应用可能让 UI 生成器代理使用 DeepSeek 快速提出布局方案,而行程逻辑和日程优化则使用 Sonnet 4.5 来确保准确性和正确处理日历。预算应用可能依赖 DeepSeek 生成初始图表和表格,但使用 Sonnet 4.5 进行复杂的财务计算和合规性检查。
为了说明这些技术带来的切实好处,以下图表总结了关键指标。
图 2 – Sonnet 4.5 和 DeepSeek V3.2‑Exp 在编码准确性、相对速度、成本和自主性方面的比较视图。对于准确性和自主性,更高的柱状表示更好的值;对于效率和成本,更低的柱状表示更好(更快或更便宜)的性能。
图 3 – Replit 的内部基准测试显示代码编辑错误从 Sonnet 4 的 9% 降至 Sonnet 4.5 的零。改进的指令遵循和代码重构带来更可靠的迷你应用。
图 4 – 在全同步 RL 流水线中结合 DAPO 和 LoRA 将训练步骤的实际时间从 9 小时减少到 1.5 小时[41],实现更快的奖励模型和记忆策略更新。
这些可视化强调了这些好处不仅仅是理论上的。降低的 GPU 需求、更快的训练、更高的准确性和更低的成本都有助于实现更流畅、更高效的迷你应用流水线。
展望未来,Anthropic 和 DeepSeek 都暗示了更具雄心的架构。Sonnet 4.5 的继任者可能会扩展上下文窗口、改进多语言推理并支持更复杂的工具交互。DeepSeek 的下一代架构预计将在稀疏注意力的基础上实现更高性能和更低成本[31]。对于 Macaron 来说,对自压缩记忆、终身学习和跨语言对齐的进一步研究可以增强个性化和隐私[43]。集成联邦学习将允许用户在本地训练记忆模型,只共享模型更新,从而在保护隐私的同时提高集体性能[43]。在 RL 方面,Macaron 的方法可以纳入规范理论 —— 功利主义、义务论、美德伦理 —— 来为其行为提供解释[44]。
总之,Macaron 决定连接到由 Claude Agent SDK 驱动的 Claude Sonnet 4.5 和 DeepSeek V3.2‑Exp,使其处于个人 AI 的前沿。Sonnet 4.5 提供无与伦比的质量、延长的自主性和丰富的开发者工具;DeepSeek 提供速度、效率和开源灵活性。结合 Macaron 创新的 RL 训练技术和记忆引擎,这些模型将帮助 Macaron 更快、更流畅、更少错误地构建迷你应用。随着个人 AI 的不断发展,Macaron 在自主性、安全性、伦理和效率方面的融合为负责任的创新提供了蓝图。
[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Macaron 的记忆引擎内部:压缩、检索与动态门控 - Macaron
https://macaron.im/memory-engine
https://macaron.im/reinforcement-learning
[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] 使用 Claude Code SDK 构建代理
https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/
[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5:特性、定价与比较 - Dataconomy
https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/
[28] [29] [30] [32] [33] [34] [35] AI 评 AI:DeepSeek-3.2-Exp 与 DSA – Champaign Magazine
https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/
[31] [38] 中国 DeepSeek 发布"中间步骤"AI 模型,迈向下一代 | 路透社