催化 Macaron 的功能：Claude 與 DeepSeek 更新

作者： Boxu Li

Macaron AI 不僅僅是生產力工具——它是一個平台，將我們的對話轉化為管理日曆、規劃旅行和探索興趣的小型應用程式。在這個友好的表面之下，是一個複雜的強化學習（RL）系統和記憶引擎，記住重要的事情，忘記不重要的[1]。隨著 Macaron 準備整合 Claude Sonnet 4.5 和 DeepSeek V3.2‑Exp，以及 Claude Agent SDK/Code 2.0，本文探討這些新模型和工具如何提高 Macaron 的輸出質量，縮短小型應用創建時間並減少錯誤。我們結合來自 Anthropic 開發者更新、DeepSeek 研究和 Macaron 自身工程博客的技術見解，勾勒出未來的清晰圖景。

1 Macaron 的內部引擎：RL、記憶與倫理

在比較模型之前，了解 Macaron 的獨特之處很有幫助。Macaron 使用多層次強化學習系統將日常對話轉化為任務和代碼。該系統將問題分解為幾個模塊——對話管理、記憶選擇、代碼合成和模擬器反饋——並應用層次強化學習（HRL）來協調這些模塊[2]。一個高層級的元控制器決定下一個要激活的模塊，而低層級的RL策略則決定具體動作，例如檢索記憶、調用API或執行生成的代碼[2]。這種設計使 Macaron 能夠將複雜目標——從規劃旅行到組織財務——分解為可管理的子任務。

1.1 獎勵建模與人類反饋

在個人 AI 領域中，沒有單一的「勝利條件」；用戶滿意度、隱私、及時性和文化差異都很重要。Macaron 透過結合隱性和顯性反饋來構建其獎勵功能。隱性信號包括對話長度、使用頻率和語氣，而顯性評分和讚/踩有助於校準偏好[3]。Macaron 還使用偏好引導，提供替代回應或小應用設計，並詢問用戶偏好哪一種。推理模型隨即學習潛在效用函數，類似於從人類反饋中學習的強化學習 (RLHF)，但擴展了文化註釋——日本評估者強調禮貌和語境，而韓國評估者則注重集體與個人表達[4]。這些信號被輸入獎勵模型，預測用戶滿意度並鼓勵代理遵循當地規範。

1.2 層級強化學習和宏動作

為了管理多樣化的用戶任務，Macaron 利用 HRL 選擇模組和子策略。在模組內，它使用 選項框架：一系列實現子目標的行動被視為單一選項（例如「總結上個月的支出」或「推薦雙語學習計劃」）[3]。如果底層結構一致，在一個領域中發現的選項可以轉移到另一個領域。Macaron 也定義了 宏動作，這些動作封裝了多輪對話或長時間計算，如規劃家庭度假（目的地、交通、住宿和行程）[3]。RL 代理根據累積獎勵而非短期信號來評估宏動作，鼓勵代理優化長期滿意度。

1.3 信用分配與時間編織

當獎勵延遲到達時，將其歸因於特定行動是困難的。Macaron 採用時間編織，用敘事線將跨時間事件連接起來。系統建立了一個互動圖，其中節點代表記憶，邊緣代表因果關係；在評估結果時，系統會向後遍歷圖表，以識別哪些檢索或行動有貢獻[2]。反事實推理有助於評估如果採取替代行動會發生什麼，防止代理自動假設重複成功的行動總是能獲得相同的獎勵[2]。Macaron 還使用延遲獎勵和合格性痕跡將信號傳回到較早的決策，例如記憶選擇或對話語氣，鼓勵代理優化長期滿意度[5]。

1.4 公平性、安全性與倫理

個人 AI 代理必須避免偏見並遵守法規。Macaron 在獎勵功能中納入了「公平限制」；例如，如果代理不斷推薦性別特定的活動而未被要求，就會受到懲罰[5]。「道德政策庫」編碼了文化規範和法律要求，違反這些準則會觸發負面獎勵或完全阻止該行動[5]。在人類監督下，AI 進行財務規劃或醫療建議等高影響力的決策，以滿足韓國 AI 框架法和日本的 AI 推廣法[5]。Macaron 記錄增強學習決策並為用戶提供選擇某些記憶或模組的原因解釋，支持審計和透明度[5]。

1.5 記憶引擎：壓縮、檢索與門控

Macaron 的記憶引擎是個人化的支柱。它將記憶組織成 短期、情節性和長期儲存。短期儲存保留當前對話（8–16 條消息）；情節性儲存透過卷積注意力壓縮最近的互動；長期儲存使用高維向量資料庫和元數據標籤（時間戳、領域、語言）[6]。為了管理成本，Macaron 使用 潛在摘要化 來識別重要片段並將其壓縮成固定長度的向量；自編碼目標從壓縮摘要中重建隱藏狀態，並利用強化學習微調摘要器，以保留對後續回憶重要的信息[7]。一個 動態記憶標記 充當指針網絡：它檢索候選記憶，評估相關性並決定是返回還是繼續搜索[8]。

檢索涉及使用產品量化和最大邊際相關性進行近似最近鄰搜尋，以平衡相似性和多樣性[9]。查詢擴展使用用戶的目標和潛在意圖；例如，對於「花火大会」（煙火節）的日文請求會擴展為包括門票、日期和天氣[10]。相關性聯盟處理跨域查詢，使用softmax門控功能在不同領域和語言中分配檢索概率[11]。這些組件通過RL進行訓練，並通過時間編織的方式進行信用分配，確保代理學習哪些記憶至關重要[12]。Macaron的記憶系統與傳統的檢索增強生成（RAG）不同，因為記憶是用戶專屬的，儲存和檢索由RL指導，每個記憶都包含隱私元數據以管理訪問[13]。

2 Claude代理SDK和Claude Code 2.0

雖然 Macaron 的內部架構非常穩健，但構建小型應用程式仍需要讀取和寫入文件、執行代碼、使用版本控制以及與網路 API 互動。Anthropic 的 Claude Agent SDK 提供了這些功能，並公開了支持 Claude Code 終端助手的相同代理框架[14]。它打包了精細的工具：文件操作（讀取、寫入、grep、glob）、bash 命令、網路獲取、多語言代碼執行和 Git 操作[15]。與預先索引代碼庫的助手不同，Claude 代理使用 grep/find/glob 即時搜索來定位文件，使其在動態代碼庫中更具靈活性[16]。SDK 包含 大型上下文窗口，具有自動壓縮和摘要功能，允許代理在不達到令牌限制的情況下保留大量代碼上下文[17]。開發者可以指定允許的工具和許可模式，並添加安全掛鉤，實現具有保護措施的自主性[18]。

SDK 的核心構建模塊

工具 - SDK 讓工程師可以選擇代理可用的工具（文件 I/O、bash、web 抓取、代碼執行）[19]。
MCP 擴展 - 與模型上下文協議的集成允許外部服務器（數據庫、電子郵件搜索、向量搜索）擴展工具集[20]。
子代理 - 定義在 .claude/agents 中的代理有自己的系統提示、受限工具集和可選的模型選擇；任務可以委派給這些子代理[21]。
記憶與項目上下文 - 一個持久的草稿本（CLAUDE.md）在會話之間保持上下文並遵循倉庫級別的配置[22]。
上下文管理與運行時 - 自動上下文壓縮、流式響應和類型化錯誤處理簡化了長時間運行的任務[23]。

Claude Code 2.0 的新功能

Claude Code 2.0 帶來了對開發者友好的更新：檢查點讓開發者能夠保存進度，並在代理發生錯誤時回滾[24]。一個 VS Code 擴展將代理嵌入 IDE，而全新的終端介面改善了狀態管理[25]。Claude API 增加了上下文編輯和記憶工具，幫助代理通過自動清理上下文和檢索相關片段來運行更長時間[26]。Claude 的應用和 API 現在可以執行代碼、創建文件和分析數據[27]，將一個 LLM 轉變為完整的編碼助手。這些功能對於 Macaron 的小程序管道特別有用，因為其涉及生成程序代碼，在沙盒中測試，糾正錯誤並與外部服務互動。

3 Claude Sonnet 4.5：長效自主與更高品質

Claude Sonnet 4.5 是 Anthropic 最強大的模型，適用於編碼、代理任務和電腦使用。DevOps.com 報導稱，Sonnet 4.5 能夠自主運行 超過 30 小時，遠超過其前代的七小時。它在指令跟隨、代碼重構和生產級輸出方面表現出色，並在 SWE-Bench Verified 基準測試中領先於真實的編碼任務。在實際部署中，改進是顯而易見的：Replit 的內部基準測試顯示，代碼編輯錯誤從 Sonnet 4 的 9% 降至 Sonnet 4.5 的 0%，而網絡安全團隊將漏洞處理時間減少了 44%，精確度提高了 25%。Netflix 的工程師形容 Sonnet 4.5 在軟件開發任務上表現「優異，能學習我們的代碼庫模式以提供精確的實現」。

Sonnet 4.5 的開發者工具和記憶體功能與 Agent SDK 相輔相成。該模型支持上下文編輯和記憶體管理，能自動清除舊的上下文並將相關部分重新聚焦[24]。它能夠通過點擊、輸入和與菜單互動來導航 GUI，從而實現無需 API 的工具自動化。結合 SDK 的子代理架構和檢查點，這意味著 Macaron 可以在多日會話中構建小型應用而不會丟失上下文，並在必要時回滾錯誤。

4 DeepSeek V3.2‑Exp：通過稀疏注意力提高效率

雖然 Sonnet 4.5 著重於品質和自主性，但DeepSeek V3.2‑Exp強調效率。這個模型引入了DeepSeek 稀疏注意力 (DSA)，在注意力過程中只選擇最重要的標記。這使得複雜度從二次方O(n²)降至O(nk)，在長上下文中提供2–3 倍更快的推理速度、30–40% 更低的記憶體使用量，以及50% 以上的 API 價格減少[28]。儘管有這些節省，V3.2‑Exp 在大多數基準測試中仍與先前的 V3.1‑Terminus 模型保持一致[29]。開源版本允許 Macaron 在本地運行模型，進行微調並探索新穎的架構[30]。路透社指出，DeepSeek 將此視為邁向下一代架構的中間步驟；DSA 機制在降低計算成本的同時提升某些性能[31]，而且服務會自動升級到 V3.2‑Exp，並為用戶大幅降價[32]。

DeepSeek V3.2‑Exp 繼承了混合專家的設計，並增加了混合精度和多頭潛在注意力[33]。然而，作為實驗性版本，它在複雜推理任務中顯示出一些小的回退[34]，並且缺乏 Claude 生態系統中的整合代理工具。對於 Macaron 來說，這意味著 V3.2‑Exp 更適合於成本敏感的任務或原型開發，速度和吞吐量比編碼準確性更重要。

5 比較 Macaron 的 Sonnet 4.5 和 DeepSeek V3.2‑Exp

Macaron 決定連接這兩個模型，這使得比較它們的優勢和劣勢成為可能。下表總結了關鍵屬性：

功能

Sonnet 4.5

DeepSeek V3.2‑Exp

特色

高品質編碼、代理任務、長時間自主性

高效的長上下文處理[35]

架構

專有模型，具有超過 30 小時的長時間自主性和強大的指令遵循

使用稀疏注意力的專家混合模型，降低計算需求[28]

記憶與上下文

大型上下文窗口；透過記憶工具自動記憶管理[24]

支援長上下文，透過稀疏注意力降低記憶體使用量[28]

開發者工具

代理 SDK，包含子代理、檢查點與 VS Code 整合[36][24]

無官方 SDK；開源代碼允許自訂整合，但缺乏內建記憶工具

成本

與 Sonnet 4 相同；輸入代幣每百萬個 $3，輸出代幣每百萬個 $15[37]

API 價格降低 50 %+[38]；可免費自行託管

優勢

最高編碼準確度（SWE‑Bench 驗證 77–82 %），延長的自主性，強大的安全性

卓越的效率；推理速度快 2–3 倍且記憶體使用量較低[28]；開源

弱點

代幣成本較高；專有 API；可能需要仔細的提示管理

試驗性狀態；在複雜推理上有輕微回歸[34]；缺乏整合工具

從這個比較中，我們可以得出一個混合策略。Macaron 可以使用 DeepSeek V3.2‑Exp 來進行初稿，受益於低延遲和低成本，然後使用 Sonnet 4.5 來精煉或驗證，以確保正確性和安全性。對於需要深層推理的複雜 mini‑apps，Sonnet 4.5 仍然是最佳選擇，而 V3.2‑Exp 則在快速迭代或大批量生成中表現出色。

6 新模型將如何改善 Macaron 的 mini‑app 流程

Macaron 的核心問題是 Sonnet 4.5 和 DeepSeek V3.2‑Exp 是否能改善質量、縮短開發時間和減少錯誤。我們在 Macaron 的流程背景下分析每個因素：

6.1 代碼和輸出的質量

Sonnet 4.5 提供了更高的代碼質量和更少的錯誤。根據 Replit 的資料，從 Sonnet 4 升級到 Sonnet 4.5 後，代碼編輯錯誤從 9 % 降至零。這意味著由 Macaron 生成的迷你應用將更可靠地編譯，並且語法錯誤或缺少導入的情況會更少。模型改進的指令跟隨能力幫助 Macaron 更準確地理解用戶的規範；增強的代碼重構功能確保生成的模塊乾淨且模塊化。在金融和網絡安全任務中，Sonnet 4.5 的準確性提高了 25 % 至 44 %，這表明 Macaron 的旅行和健康應用也會有類似的增益。DeepSeek V3.2-Exp 雖然在複雜推理方面略弱，但仍保持了與 V3.1 可比的性能和更高的效率[29]；當在 Macaron 的領域進行微調時，它可以為較簡單的迷你應用提供足夠高的準確性。

6.2 迷你應用創建速度

Sonnet 4.5 能夠自動運行超過 30 小時，這意味著 Macaron 可以在單一連續會話中生成端到端的小應用，而無需手動重置。結合 Agent SDK 的上下文管理和檢查點，這減少了重新啟動任務或重新加載上下文所花費的時間。子代理架構允許 Macaron 並行執行任務：一個代理可以處理 UI 生成，而另一個則負責 API 集成，每個代理都有自己的上下文和工具。同時，DeepSeek V3.2‑Exp 的 2–3 倍更快推理 和 更低的記憶體使用 意味著回應更快[28]。例如，如果使用 Sonnet 4.5 生成旅行行程需要 30 秒，V3.2‑Exp 可以在 10–15 秒內生成草稿；然後 Sonnet 4.5 再進行精細化。淨效果是縮短到達第一個可用版本的時間，從而加快用戶反饋循環。

6.3 更順暢的流程和更少的漏洞

自動化減少了人為錯誤，但如果管理不當，自主性可能會引入新的漏洞。Agent SDK 的 檢查點 讓開發者可以儲存和回滾代理的狀態[24]。如果 Macaron 在生成迷你應用時發生錯誤 API 調用或寫入錯誤檔案，開發者可以還原到之前的檢查點，而不必重新開始。上下文編輯 防止令牌耗盡，確保只保留相關上下文，從而減少幻覺。在 DeepSeek 中，開源版本允許 Macaron 團隊檢查和修改模型，整合自定義安全檢查並針對特定領域任務進行微調。此外，Macaron 自身的強化學習機制——時間編織、反事實推理和公平性約束——持續監控用戶滿意度並懲罰有害行為[2][5]，降低漏洞和倫理違規的風險。

6.4 成本考量

高品質模型通常價格不菲。Sonnet 4.5 的 token 價格與 Sonnet 4 保持不變（輸入 token 每百萬個 3 美元，輸出 token 每百萬個 15 美元）[37]。DeepSeek V3.2‑Exp 將 API 調用成本減半[38]，而且由於它是開源的，可以自行託管。因此，Macaron 可以通過在初步草稿或低風險任務（例如生成 UI 元件或簡單計算器）中使用 V3.2‑Exp，並將 Sonnet 4.5 保留用於高風險任務（例如財務規劃、醫療建議），在這些任務中正確性和合規性至關重要來優化成本。透過更快的推理速度和減少 GPU 使用量（如下所述）節省的資源也能抵消計算成本。

7 Macaron 的 RL 訓練創新：DAPO、LoRA 和 All‑Sync RL

改善模型只是故事的一部分；訓練效率影響了 Macaron 如何快速迭代 RL 策略。MIND LABS 描述了一個系統，該系統將 Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) 與 Low‑Rank Adaptation (LoRA) 結合在一個 All‑Sync RL 架構中，使用僅 48 個 H800 GPU 訓練一個 671B DeepSeek 模型，與標準 RL 所需的 512 個 GPU 相比，減少了 10 倍[39]。使用 Coati 和 SGLang 的流水線並行處理，加速的 LoRA 合併和量化，消除了“GPU 泡沫”，即 GPU 閒置等待推理的情況[40]。結果是將單次訓練步驟的壁鐘時間從 9 小時減少到 1.5 小時[41]。這些進展意味著 Macaron 可以更快地重新訓練其獎勵模型或記憶閘，快速整合反饋，並更快地向用戶推出改進。

圖 1 – 使用 All‑Sync RL 與 LoRA 時，GPU 使用量從 512 H800 降至 48 H800，讓強化學習研究更易於進行並加速實驗[39]。

除了提高效率，LoRA 的低秩更新減少了模型權重的通信成本，動態採樣通過篩選提示和塑造獎勵來穩定訓練[42]。對於 Macaron，這些技術意味著未來的記憶和策略更新可以快速訓練，而不會產生高昂的計算成本。

8 開發者工作流程：將 Sonnet 4.5 和 DeepSeek 整合到 Macaron 中

使用 Macaron 創建迷你應用包括幾個階段：

意圖理解 – Macaron 解析用戶的請求並識別必要的組件（例如，資料來源、UI 元素、外部 API）。Sonnet 4.5 改善的指令遵循能力有助於提取準確的意圖並規劃執行步驟，而 V3.2‑Exp 可以快速原型化潛在意圖供用戶選擇。
程式合成 – 代理使用 Claude Agent SDK 生成代碼、搜尋庫、讀取模板並撰寫新檔案。子代理可能專注於前端（React）或後端（Python），而上下文管理確保適當的代碼可用而不會超載記憶體。Sonnet 4.5 的長上下文和代碼重構能力產生更清晰、更易維護的程序，而 V3.2‑Exp 加快了初稿速度。
沙箱執行 – 生成的代碼在安全環境中執行。代理讀取日誌、捕捉錯誤並迭代修復漏洞。檢查點提供安全備份，RL 獎勵信號會懲罰未通過測試的代碼。Macaron 也可以使用 Agent SDK 的 bash 和網絡提取工具對外部服務進行整合測試。
互動和改進 – 代理通過 Macaron 的對話界面向用戶展示迷你應用。記憶引擎存儲對話並使用 RL 決定在未來互動中召回哪些記憶。用戶的反饋會更新獎勵模型，並影響未來的生成。

通過整合 Sonnet 4.5 和 DeepSeek V3.2‑Exp，Macaron 可以量身定制這個工作流程。例如，一個旅行規劃應用程式可能會讓 UI 生成代理使用 DeepSeek 來快速提議佈局，同時行程邏輯和時間表優化則使用 Sonnet 4.5 來確保準確性和妥善處理日曆。一個預算應用程式可能會依賴 DeepSeek 來生成初步圖表和表格，但使用 Sonnet 4.5 來進行複雜的財務計算並符合法規。

9 改進的可視化

為了說明這些技術的實際好處，以下圖表總結了關鍵指標。

圖 2 – Sonnet 4.5 和 DeepSeek V3.2‑Exp 在編碼準確性、相對速度、成本和自主性方面的比較視圖。較高的柱狀代表準確性和自主性更好；較低的柱狀則表示在效率和成本上的表現更佳（更快或更便宜）。

圖 3 – Replit 的內部基準測試顯示，使用 Sonnet 4.5 將代碼編輯錯誤從 Sonnet 4 的 9% 降至零。改進的指令遵循和代碼重構導致更可靠的小型應用程序。

圖 4 – 在 All‑Sync RL 管道中結合 DAPO 和 LoRA 可將訓練步驟的實際時鐘時間從 9 小時減少到 1.5 小時[41]，從而加快對獎勵模型和記憶政策的更新。

這些可視化圖表強調了這些好處並非理論上的。降低 GPU 要求、更快的訓練、更高的準確性和更低的成本都促成了一個更順暢、更高效的小型應用程序管道。

10 未來方向

展望未來，Anthropic 和 DeepSeek 都暗示會推出更具野心的架構。Sonnet 4.5 的後續版本可能會擴大上下文窗口、改善多語言推理能力，並支持更複雜的工具互動。預計 DeepSeek 的下一代架構將利用稀疏注意力，以更低成本達到更高效能[31]。對於 Macaron，進一步研究自我壓縮記憶、終身學習和跨語言調整可能會增強個性化和隱私保護[43]。整合聯邦學習將允許用戶在本地訓練記憶模型，僅共享模型更新，從而在保護隱私的同時提高集體性能[43]。在增強學習方面，Macaron 的方法可能會結合規範理論——效益主義、義務論、美德倫理學——以提供其行動的解釋[44]。

總而言之，Macaron 決定連接到 Claude Sonnet 4.5 和 DeepSeek V3.2‑Exp，並由 Claude Agent SDK 提供支持，這使其處於個人 AI 的前沿。Sonnet 4.5 提供無與倫比的質量、延長的自主性和豐富的開發工具；DeepSeek 提供速度、高效和開源的靈活性。結合 Macaron 創新的 RL 訓練技術和記憶引擎，這些模型將幫助 Macaron 更快、更順暢且減少錯誤地構建迷你應用程式。隨著個人 AI 的不斷發展，Macaron 在自主性、安全性、倫理和效率方面的融合為負責任的創新提供了藍圖。

[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] 深入了解 Macaron 的記憶引擎：壓縮、檢索和動態門控 - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [標題未知]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] 使用 Claude Code 的 SDK 構建代理

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: 功能、定價與比較 - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] AI對AI：DeepSeek-3.2-Exp和DSA - 香檳雜誌

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] 中國的 DeepSeek 發布「中間」AI 模型，邁向下一代 | 路透社

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/