催化 Macaron 的 Claude 和 DeepSeek 更新能力

作者：Boxu Li

Macaron AI 不仅仅是一个生产力工具，而是一个将我们对话转化为管理日历、计划旅行和探索爱好的迷你应用的平台。在友好的外表下，是一个复杂的强化学习 (RL) 系统和一个记忆引擎，能记住重要的事情，忘记不重要的事[1]。随着 Macaron 准备整合 Claude Sonnet 4.5 和 DeepSeek V3.2‑Exp，以及 Claude Agent SDK/Code 2.0，本博客探讨这些新模型和工具如何提高 Macaron 的输出质量，缩短迷你应用的创建时间并减少错误。我们结合了 Anthropic 的开发者更新、DeepSeek 的研究和 Macaron 自己的工程博客中的技术见解，勾勒出未来的清晰图景。

1 Macaron 的内部引擎：RL、记忆和伦理

在比较模型之前，了解 Macaron 的独特之处会有所帮助。Macaron 使用一个多层次强化学习系统将日常对话转换为任务和代码。该系统将问题分解为几个模块——对话管理、记忆选择、代码合成和模拟反馈，并应用分层强化学习（HRL）来协调它们[2]。一个高级的元控制器决定下一个激活哪个模块，而低级的强化学习策略则决定具体的动作，如检索记忆、调用 API 或执行生成的代码[2]。这种设计使 Macaron 能够将复杂目标——从规划旅行到整理财务——分解成可管理的子任务。

1.1 奖励建模和人类反馈

在个人 AI 中，没有单一的「胜利条件」；用户满意度、隐私、时效性和文化细微差异都很重要。Macaron 通过结合 隐性和显性反馈 构建其奖励函数。隐性信号包括对话长度、使用频率和语气，而显性评分和点赞/点踩则有助于校准偏好[3]。Macaron 还使用 偏好引导，展示备选的回应或小程序设计，并询问用户更喜欢哪个。然后，一个推理模型学习可能动作的潜在效用函数，类似于从人类反馈中进行强化学习（RLHF），但扩展了文化注释——日本评估者强调礼貌和上下文，而韩国评估者则强调集体与个人措辞的区别[4]。这些信号输入到一个奖励模型中，预测用户满意度并鼓励代理遵循当地规范。

1.2 分层强化学习与宏观动作

为了管理多样化的用户任务，Macaron 利用 HRL 来选择模块和子策略。在模块内，它使用 选项框架：一系列实现子目标的动作被视为一个单一选项（例如「总结上个月的开支」或「推荐双语学习计划」）[3]。如果基础结构一致，在一个领域发现的选项可以转移到另一个领域。Macaron 还定义了 宏动作，这些动作涵盖多回合对话或长时间计算，如计划家庭度假（目的地、交通、住宿和行程）[3]。RL 代理根据累积奖励而非短期信号来评估宏动作，鼓励代理优化长期满意度。

1.3 信用分配和时间编织

在奖励延迟到达时，将其归功于特定行动是很困难的。Macaron 使用时间编织，通过叙述线索连接跨越时间的事件。系统构建了一个交互图，其中节点代表记忆，边代表因果关系；在评估结果时，系统会向后遍历图，识别出哪些检索或行为做出了贡献[2]。反事实推理有助于评估如果采取了替代行动会发生什么，防止代理自动假设重复成功的行为总能获得相同的奖励[2]。Macaron 还使用延迟奖励和资格痕迹，将信号传递回更早的决策——比如记忆选择或对话语气——鼓励代理优化长远满意度[5]。

1.4 公平性、安全性和伦理

个人 AI 代理必须避免偏见并遵守法规。Macaron 将「公平限制」纳入奖励函数；例如，如果代理在未被要求的情况下持续推荐性别特定的活动，就会受到惩罚[5]。「伦理政策库」编码文化规范和法律要求，违反这些准则会触发负面奖励或完全阻止行动[5]。在人类监督下，涉及高影响力的决策，如财务规划或医疗建议，符合韩国 AI 框架法和日本的 AI 促进法[5]。Macaron 记录强化学习决策，并向用户提供为何选择特定记忆或模块的解释，支持审计和透明度[5]。

1.5 记忆引擎：压缩、检索和门控

Macaron 的记忆引擎是个性化的支柱。它将记忆组织为短期、情景和长期存储。短期存储保留当前对话（8–16 条信息）；情景存储通过卷积注意力压缩最近的交互；长期存储使用带元数据标签（时间戳、域、语言）的高维向量数据库[6]。为了控制成本，Macaron 采用潜在摘要来识别显著片段，并将其压缩为固定长度的向量；自编码目标从压缩摘要中重建隐藏状态，并通过强化学习微调摘要器，以保留对后续回忆重要的信息[7]。一个动态记忆令牌作为指针网络：它检索候选记忆，评估相关性，并决定是返回还是继续搜索[8]。

检索涉及使用产品量化和最大边际相关性进行近似最近邻搜索，以平衡相似性和多样性[9]。查询扩展利用用户的目标和潜在意图；例如，日本的"花火大会"（烟花节）请求会扩展以包括门票、日期和天气[10]。相关性联合处理跨域查询，使用softmax门控函数在不同领域和语言间分配检索概率[11]。这些组件通过强化学习训练，并通过时间编织进行信用分配，确保代理学习哪些记忆至关重要[12]。Macaron的记忆系统与传统的检索增强生成（RAG）不同，因为记忆是用户特定的，存储和检索由强化学习指导，每个记忆都包含隐私元数据来管理访问[13]。

2 Claude Agent SDK 和 Claude Code 2.0

虽然 Macaron 的内部架构非常强大，但构建迷你应用程序仍然需要读取和写入文件、执行代码、使用版本控制并与 Web API 交互。Anthropic 的 Claude Agent SDK 提供了这些功能，公开相同的代理框架来支持 Claude Code 的终端助手[14]。它打包了精细的工具：文件操作（读取、写入、grep、glob）、bash 命令、Web 获取、多语言代码执行和 Git 操作[15]。与预先索引代码库的助手不同，Claude 代理可以按需使用 grep/find/glob 搜索以查找文件，使其在动态资源库中更加灵活[16]。该 SDK 包含 大上下文窗口，具有自动压缩和摘要功能，允许代理在不触及令牌限制的情况下持有大量代码上下文[17]。开发人员可以指定允许的工具和权限模式，并添加安全挂钩，在提供自主性的同时设置保护措施[18]。

SDK 的核心构建模块

工具 - SDK 允许工程师选择哪些工具（文件 I/O、bash、网页获取、代码执行）可供代理使用[19]。
MCP 扩展 - 与模型上下文协议的集成允许外部服务器（数据库、电子邮件搜索、向量搜索）扩展工具集[20]。
子代理 - 在 .claude/agents 中定义的代理有自己的系统提示、受限工具集和可选的模型选择；任务可以委派给这些子代理[21]。
内存和项目上下文 - 持久的记事本 (CLAUDE.md) 在会话间保持上下文，并遵循库级配置[22]。
上下文管理和运行时 - 自动上下文压缩、流式响应和类型化错误处理简化了长时间运行的任务[23]。

Claude Code 2.0 的新功能

Claude Code 2.0 带来了对开发者友好的更新：检查点 让开发者可以保存进度，并在代理出错时回滚[24]。一个 VS Code 扩展 将代理嵌入 IDE，而焕然一新的终端界面提升了状态管理[25]。Claude API 增加了 上下文编辑和记忆工具，帮助代理通过自动清除上下文和检索相关信息来运行更长时间[26]。Claude 的应用和 API 现在可以执行代码、创建文件和分析数据[27]，将 LLM 转变为完整的编程助手。这些功能对于 Macaron 的小型应用程序管道尤其重要，因为它涉及生成程序代码、在沙箱中测试、纠正错误以及与外部服务交互。

3 Claude Sonnet 4.5：长续航与更高品质

Claude Sonnet 4.5 是 Anthropic 在编码、代理任务和计算机使用方面最强大的模型。DevOps.com 报道称，Sonnet 4.5 能够自主运行 超过 30 小时，远远超过其前代产品的七小时。它在遵循指令、代码重构和生产级输出方面表现出色，并在现实编码任务的 SWE‑Bench Verified 基准测试中领先。在实际部署中，这些改进显而易见：Replit 的内部基准测试显示，代码编辑错误从 Sonnet 4 的 9% 降至 Sonnet 4.5 的 0%，而网络安全团队则将漏洞处理时间缩短了 44%，准确性提高了 25%。Netflix 工程师将 Sonnet 4.5 描述为“在软件开发任务中表现出色，学习我们的代码库模式以提供精确的实现”。

Sonnet 4.5 的开发者工具和内存功能与 Agent SDK 协同工作。该模型支持上下文编辑和内存管理，可自动清除旧上下文并将相关内容重新带入焦点[24]。它可以通过点击、输入和与菜单互动来导航 GUI，实现无需 API 的工具自动化。结合 SDK 的子代理架构和检查点，这意味着 Macaron 可以在多日会话中构建小应用程序而不丢失上下文，并在必要时回滚错误。

4 DeepSeek V3.2‑Exp：通过稀疏注意力提高效率

虽然 Sonnet 4.5 专注于质量和自主性，但 DeepSeek V3.2‑Exp 强调效率。该模型引入了 DeepSeek 稀疏注意力 (DSA)，在注意力过程中只选择最重要的标记。这将复杂度从二次 O(n²) 降低到 O(nk)，在长文本推理中提供 2–3× 的速度提升，30–40% 的内存使用减少，以及 API 价格降低 50%+[28]。尽管有这些节省，V3.2‑Exp 在大多数基准测试中与之前的 V3.1‑Terminus 模型保持一致[29]。开源发布允许 Macaron 本地运行该模型，进行微调并探索新架构[30]。路透社指出，DeepSeek 将此视为其下一代架构的中间步骤；DSA 机制在降低计算成本的同时提升某些类型的性能[31]，并且服务会自动升级到 V3.2‑Exp，为用户提供大幅降价[32]。

DeepSeek V3.2‑Exp 继承了专家混合设计，并添加了混合精度和多头潜在注意力[33]。然而，由于是实验性的，它在复杂推理任务上显示出轻微的回归[34]，并且缺乏 Claude 生态系统的集成代理工具。对于 Macaron 来说，这意味着 V3.2‑Exp 更适合于对成本敏感的任务或原型开发，在这些场景中，速度和吞吐量比最高编码准确性更为重要。

5 比较 Sonnet 4.5 和 DeepSeek V3.2‑Exp 对于 Macaron 的优势

Macaron 决定连接这两个模型，这引发了对其优劣势的比较。下表总结了关键属性：

功能

Sonnet 4.5

DeepSeek V3.2‑Exp

重点

高质量编码，代理任务，长时间自主性

高效的长上下文处理[35]

架构

专有模型，具有长时间自主性（>30小时）和强指令跟随能力

专家混合模型，使用稀疏注意力减少计算[28]

内存与上下文

大上下文窗口；通过内存工具[24]自动内存管理

通过稀疏注意力支持长上下文；降低内存使用[28]

开发者工具

提供代理 SDK，包含子代理、检查点、VS Code 集成[36][24]

无官方 SDK；开源代码允许自定义集成，但缺乏内置内存工具

成本

与 Sonnet 4 相同；输入代币 $3/M，输出代币 $15/M[37]

API 价格降低 50%+[38]；可免费自托管

优势

最高编码准确性（SWE‑Bench 验证 77–82%），扩展自主性，强大的安全性

卓越的效率；推理速度提高 2–3 倍，内存使用更低[28]；开源

弱点

较高的代币成本；专有 API；可能需要仔细的提示管理

实验状态；复杂推理上有轻微回归[34]；缺乏集成工具

从这个比较中，我们可以得出一个混合策略。Macaron 可以使用 DeepSeek V3.2‑Exp 进行初稿的创作，受益于其低延迟和低成本，然后使用 Sonnet 4.5 进行精细化或验证，以确保正确性和安全性。对于需要深度推理的复杂小应用程序，Sonnet 4.5 仍然是最佳选择，而 V3.2‑Exp 在快速迭代或大批量生成方面表现出色。

6 新模型如何提升 Macaron 的小应用程序流水线

Macaron 的核心问题是 Sonnet 4.5 和 DeepSeek V3.2‑Exp 是否能提高质量、缩短开发时间和减少漏洞。我们在 Macaron 的流水线背景下分析每个因素：

6.1 代码和输出的质量

Sonnet 4.5 提供更高的代码质量和更少的错误。根据 Replit 的数据，从 Sonnet 4 升级到 Sonnet 4.5 后，代码编辑错误率从 9% 降至零。这意味着由 Macaron 生成的迷你应用将更可靠地编译，语法错误或缺少导入的情况减少。模型改进的指令跟随能力帮助 Macaron 更准确地理解用户规范；增强的代码重构确保生成的模块干净且模块化。在金融和网络安全任务中，Sonnet 4.5 的准确性提高了 25% 到 44%，这表明 Macaron 的旅行和健康应用也会有类似的提升。尽管 DeepSeek V3.2-Exp 在复杂推理上稍显逊色，但其性能仍然与 V3.1 相当，且效率更高 [29]；在 Macaron 的领域进行微调时，它可以为简单的迷你应用提供足够高的准确性。

6.2 迷你应用的创建速度

Sonnet 4.5 能够自主运行超过 30 小时，这意味着 Macaron 可以在一个连续的会话中生成端到端的小应用程序而无需手动重置。结合 Agent SDK 的上下文管理和检查点，这减少了重新启动任务或重新加载上下文所花费的时间。子代理架构允许 Macaron 并行处理任务：一个代理可以处理 UI 生成，而另一个代理负责 API 集成，每个代理都有自己的上下文和工具。同时，DeepSeek V3.2-Exp 的2–3 倍更快的推理速度和更低的内存使用转化为更快的响应[28]。例如，如果生成旅行行程需要使用 Sonnet 4.5 花费 30 秒，V3.2-Exp 可以在 10–15 秒内生成一个粗略草案；然后由 Sonnet 4.5 进行优化。净效果是缩短了首次可用版本的时间，促进快速用户反馈循环。

6.3 更顺畅的流程和更少的错误

自动化减少了人为错误，但如果管理不当，自主性可能引入新的漏洞。Agent SDK 的「检查点」让开发者能够保存并回滚代理的状态[24]。如果 Macaron 在生成小型应用时错误调用 API 或写入错误文件，开发者可以回到之前的检查点，而不需要重新开始。「上下文编辑」防止令牌耗尽，确保只保留相关上下文，减少幻想。对于 DeepSeek 的开源发布，Macaron 团队可以检查和修改模型，集成自定义安全检查，并针对特定领域任务进行微调。此外，Macaron 自身的强化学习机制——时间编织、反事实推理和公平性约束——继续监控用户满意度，并惩罚有害行为[2][5]，降低漏洞和伦理违规的风险。

6.4 成本考虑

高质量的模型需要付出代价。Sonnet 4.5 的 token 定价与 Sonnet 4 保持不变（输入 token 为 $3/M，输出 token 为 $15/M）[37]。DeepSeek V3.2‑Exp 将 API 调用的成本减半[38]，并且由于它是开源的，可以自托管。因此，Macaron 可以通过使用 V3.2‑Exp 进行初步草稿或低风险任务（例如，生成 UI 组件或简单计算器），而将 Sonnet 4.5 保留用于高风险任务（例如，财务规划、医疗建议），在这些任务中，正确性和合规性至关重要。通过更快的推理速度和减少的 GPU 使用量（下文讨论）带来的节省也可以抵消计算成本。

7 Macaron 的 RL 训练创新：DAPO、LoRA 和 All‑Sync RL

改进模型只是故事的一部分；训练效率影响 Macaron 在 RL 策略上迭代的速度。MIND LABS 描述了一个系统，该系统结合了 解耦剪辑与动态采样策略优化 (DAPO) 和 低秩适应 (LoRA)，在一个 全同步 RL 架构中使用仅 48 台 H800 GPU 训练 671B DeepSeek 模型——与标准 RL 所需的 512 台 GPU 相比减少了 10 倍[39]。使用 Coati 和 SGLang 的流水线并行，加速的 LoRA 合并和量化，消除了 GPU 空闲等待推理的“GPU 泡泡”现象[40]。结果是将单个训练步骤的时钟时间从 9 小时减少到 1.5 小时[41]。这些进展意味着 Macaron 可以更快地重新训练其奖励模型或记忆门，更快速地整合反馈，并更快地向用户推出改进。

图 1 – 使用 All‑Sync RL 和 LoRA 时，GPU 使用量从 512 个 H800 降至 48 个，使得 RL 研究更易于访问并加快实验速度[39]。

除了效率之外，LoRA 的低秩更新降低了模型权重的通信成本，动态采样通过过滤提示和塑造奖励来稳定训练[42]。对于 Macaron，这些技术意味着未来的内存和策略更新可以快速训练，而不会产生高昂的计算成本。

8 开发者工作流程：将 Sonnet 4.5 和 DeepSeek 集成到 Macaron 中

使用 Macaron 创建一个小应用程序涉及几个阶段：

意图理解 - Macaron 解析用户请求，识别必要的组件（例如数据源、UI 元素、外部 API）。Sonnet 4.5 改进的指令跟随功能有助于提取准确的意图并规划执行步骤，而 V3.2‑Exp 可以快速创建潜在意图供用户选择。
程序合成 - 代理使用 Claude Agent SDK 生成代码、搜索库、读取模板并编写新文件。子代理可能专注于前端（React）或后端（Python），上下文管理确保可用的代码不会超出内存负荷。Sonnet 4.5 的长上下文和代码重构功能生成更清晰、更易维护的程序，而 V3.2‑Exp 加快了初稿的速度。
沙盒执行 - 在安全环境中执行生成的代码。代理读取日志、捕获错误并迭代修复错误。检查点提供安全的回退，而 RL 奖励信号对未通过测试的代码进行惩罚。Macaron 还可以使用 Agent SDK 的 bash 和 web fetch 工具对外部服务执行集成测试。
交互和优化 - 代理通过 Macaron 的对话界面向用户展示小型应用程序。记忆引擎存储对话，并使用 RL 决定在未来交互中回忆哪些记忆。用户的反馈更新奖励模型并影响未来的生成。

通过集成 Sonnet 4.5 和 DeepSeek V3.2‑Exp，Macaron 可以定制此工作流程。例如，一个旅行规划应用程序可能会使用 DeepSeek 的 UI 生成器代理快速提出布局建议，而行程逻辑和日程优化则使用 Sonnet 4.5 来确保准确性和正确处理日历。一个预算应用程序可能依赖 DeepSeek 生成初始图表和表格，但使用 Sonnet 4.5 进行复杂的财务计算和法规合规性。

9 改进的可视化

为了展示这些技术的实际好处，下列图表总结了关键指标。

图2 – Sonnet 4.5 和 DeepSeek V3.2‑Exp 在编码准确性、相对速度、成本和自主性方面的对比视图。更高的柱状图代表更好的准确性和自主性值；更低的柱状图表明在效率和成本上具有更好的（更快或更便宜的）性能。

图 3 – Replit 的内部基准测试显示，代码编辑错误从使用 Sonnet 4 的 9% 降至使用 Sonnet 4.5 的 0%。改进的指令遵循和代码重构提高了小型应用的可靠性。

图 4 – 在 All‑Sync RL 管道中结合 DAPO 和 LoRA 将训练步骤的时间从 9 小时缩短到 1.5 小时[41]，从而加快了奖励模型和记忆策略的更新速度。

这些可视化图表强调了这些好处并非理论上的。降低的 GPU 需求、更快的训练速度、更高的准确性和更低的成本都为更顺畅、更高效的小型应用管道做出贡献。

10 未来方向

展望未来，Anthropic 和 DeepSeek 都暗示了更具雄心的架构。Sonnet 4.5 的继任者可能会扩展上下文窗口、提升多语言推理能力，并支持更复杂的工具交互。预计 DeepSeek 的下一代架构将基于稀疏注意力实现更高的性能，同时降低成本[31]。对于 Macaron，进一步研究自压缩记忆、终身学习和跨语言对齐可能会增强个性化和隐私保护[43]。整合联邦学习可以让用户在本地训练记忆模型，仅共享模型更新，从而在保护隐私的同时提升集体性能[43]。在强化学习方面，Macaron 的方法可以结合规范理论——功利主义、道义论、美德伦理学——为其行为提供解释[44]。

总之，Macaron 决定连接 Claude Sonnet 4.5 和 DeepSeek V3.2‑Exp，通过 Claude Agent SDK 驱动，使其处于个人 AI 的前沿。Sonnet 4.5 提供无与伦比的质量、扩展的自主性和丰富的开发工具；而 DeepSeek 则提供速度、高效和开源的灵活性。结合 Macaron 的创新 RL 训练技术和内存引擎，这些模型将帮助 Macaron 更快速、顺畅地构建迷你应用，并减少错误。随着个人 AI 的不断演进，Macaron 在自主性、安全性、伦理和效率方面的融合为负责任的创新提供了蓝图。

[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] 探索 Macaron 的记忆引擎：压缩、检索和动态门控 - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [标题未知]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] 使用 Claude Code 的 SDK 构建代理

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5：功能、定价和比较 - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] AI对AI：DeepSeek-3.2-Exp和DSA – Champaign Magazine

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] 中国的 DeepSeek 发布了面向下一代的“中间”AI模型 | 路透社

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/