作者: Boxu Li

Macaron AI 不僅僅是生產力工具——它是一個平台,將我們的對話轉化為管理日曆、規劃旅行和探索興趣的小型應用程式。在這個友好的表面之下,是一個複雜的強化學習(RL)系統和記憶引擎,記住重要的事情,忘記不重要的[1]。隨著 Macaron 準備整合 Claude Sonnet 4.5DeepSeek V3.2‑Exp,以及 Claude Agent SDK/Code 2.0,本文探討這些新模型和工具如何提高 Macaron 的輸出質量,縮短小型應用創建時間並減少錯誤。我們結合來自 Anthropic 開發者更新、DeepSeek 研究和 Macaron 自身工程博客的技術見解,勾勒出未來的清晰圖景。

1 Macaron 的內部引擎:RL、記憶與倫理

在比較模型之前,了解 Macaron 的獨特之處很有幫助。Macaron 使用多層次強化學習系統將日常對話轉化為任務和代碼。該系統將問題分解為幾個模塊——對話管理、記憶選擇、代碼合成和模擬器反饋——並應用層次強化學習(HRL)來協調這些模塊[2]。一個高層級的元控制器決定下一個要激活的模塊,而低層級的RL策略則決定具體動作,例如檢索記憶、調用API或執行生成的代碼[2]。這種設計使 Macaron 能夠將複雜目標——從規劃旅行到組織財務——分解為可管理的子任務。

1.1 獎勵建模與人類反饋

在個人 AI 領域中,沒有單一的「勝利條件」;用戶滿意度、隱私、及時性和文化差異都很重要。Macaron 透過結合隱性和顯性反饋來構建其獎勵功能。隱性信號包括對話長度、使用頻率和語氣,而顯性評分和讚/踩有助於校準偏好[3]。Macaron 還使用偏好引導,提供替代回應或小應用設計,並詢問用戶偏好哪一種。推理模型隨即學習潛在效用函數,類似於從人類反饋中學習的強化學習 (RLHF),但擴展了文化註釋——日本評估者強調禮貌和語境,而韓國評估者則注重集體與個人表達[4]。這些信號被輸入獎勵模型,預測用戶滿意度並鼓勵代理遵循當地規範。

1.2 層級強化學習和宏動作

為了管理多樣化的用戶任務,Macaron 利用 HRL 選擇模組和子策略。在模組內,它使用 選項框架:一系列實現子目標的行動被視為單一選項(例如「總結上個月的支出」或「推薦雙語學習計劃」)[3]。如果底層結構一致,在一個領域中發現的選項可以轉移到另一個領域。Macaron 也定義了 宏動作,這些動作封裝了多輪對話或長時間計算,如規劃家庭度假(目的地、交通、住宿和行程)[3]。RL 代理根據累積獎勵而非短期信號來評估宏動作,鼓勵代理優化長期滿意度。

1.3 信用分配與時間編織

當獎勵延遲到達時,將其歸因於特定行動是困難的。Macaron 採用時間編織,用敘事線將跨時間事件連接起來。系統建立了一個互動圖,其中節點代表記憶,邊緣代表因果關係;在評估結果時,系統會向後遍歷圖表,以識別哪些檢索或行動有貢獻[2]。反事實推理有助於評估如果採取替代行動會發生什麼,防止代理自動假設重複成功的行動總是能獲得相同的獎勵[2]。Macaron 還使用延遲獎勵和合格性痕跡將信號傳回到較早的決策,例如記憶選擇或對話語氣,鼓勵代理優化長期滿意度[5]

1.4 公平性、安全性與倫理

個人 AI 代理必須避免偏見並遵守法規。Macaron 在獎勵功能中納入了「公平限制」;例如,如果代理不斷推薦性別特定的活動而未被要求,就會受到懲罰[5]。「道德政策庫」編碼了文化規範和法律要求,違反這些準則會觸發負面獎勵或完全阻止該行動[5]。在人類監督下,AI 進行財務規劃或醫療建議等高影響力的決策,以滿足韓國 AI 框架法和日本的 AI 推廣法[5]。Macaron 記錄增強學習決策並為用戶提供選擇某些記憶或模組的原因解釋,支持審計和透明度[5]

1.5 記憶引擎:壓縮、檢索與門控

Macaron 的記憶引擎是個人化的支柱。它將記憶組織成 短期、情節性和長期儲存。短期儲存保留當前對話(8–16 條消息);情節性儲存透過卷積注意力壓縮最近的互動;長期儲存使用高維向量資料庫和元數據標籤(時間戳、領域、語言)[6]。為了管理成本,Macaron 使用 潛在摘要化 來識別重要片段並將其壓縮成固定長度的向量;自編碼目標從壓縮摘要中重建隱藏狀態,並利用強化學習微調摘要器,以保留對後續回憶重要的信息[7]。一個 動態記憶標記 充當指針網絡:它檢索候選記憶,評估相關性並決定是返回還是繼續搜索[8]

檢索涉及使用產品量化和最大邊際相關性進行近似最近鄰搜尋,以平衡相似性和多樣性[9]。查詢擴展使用用戶的目標和潛在意圖;例如,對於「花火大会」(煙火節)的日文請求會擴展為包括門票、日期和天氣[10]相關性聯盟處理跨域查詢,使用softmax門控功能在不同領域和語言中分配檢索概率[11]。這些組件通過RL進行訓練,並通過時間編織的方式進行信用分配,確保代理學習哪些記憶至關重要[12]。Macaron的記憶系統與傳統的檢索增強生成(RAG)不同,因為記憶是用戶專屬的,儲存和檢索由RL指導,每個記憶都包含隱私元數據以管理訪問[13]

2 Claude代理SDK和Claude Code 2.0

雖然 Macaron 的內部架構非常穩健,但構建小型應用程式仍需要讀取和寫入文件、執行代碼、使用版本控制以及與網路 API 互動。Anthropic 的 Claude Agent SDK 提供了這些功能,並公開了支持 Claude Code 終端助手的相同代理框架[14]。它打包了精細的工具:文件操作(讀取、寫入、grep、glob)、bash 命令、網路獲取、多語言代碼執行和 Git 操作[15]。與預先索引代碼庫的助手不同,Claude 代理使用 grep/find/glob 即時搜索來定位文件,使其在動態代碼庫中更具靈活性[16]。SDK 包含 大型上下文窗口,具有自動壓縮和摘要功能,允許代理在不達到令牌限制的情況下保留大量代碼上下文[17]。開發者可以指定允許的工具和許可模式,並添加安全掛鉤,實現具有保護措施的自主性[18]

SDK 的核心構建模塊

  1. 工具 - SDK 讓工程師可以選擇代理可用的工具(文件 I/O、bash、web 抓取、代碼執行)[19]
  2. MCP 擴展 - 與模型上下文協議的集成允許外部服務器(數據庫、電子郵件搜索、向量搜索)擴展工具集[20]
  3. 子代理 - 定義在 .claude/agents 中的代理有自己的系統提示、受限工具集和可選的模型選擇;任務可以委派給這些子代理[21]
  4. 記憶與項目上下文 - 一個持久的草稿本(CLAUDE.md)在會話之間保持上下文並遵循倉庫級別的配置[22]
  5. 上下文管理與運行時 - 自動上下文壓縮、流式響應和類型化錯誤處理簡化了長時間運行的任務[23]

Claude Code 2.0 的新功能

Claude Code 2.0 帶來了對開發者友好的更新:檢查點讓開發者能夠保存進度,並在代理發生錯誤時回滾[24]。一個 VS Code 擴展將代理嵌入 IDE,而全新的終端介面改善了狀態管理[25]。Claude API 增加了上下文編輯和記憶工具,幫助代理通過自動清理上下文和檢索相關片段來運行更長時間[26]。Claude 的應用和 API 現在可以執行代碼、創建文件和分析數據[27],將一個 LLM 轉變為完整的編碼助手。這些功能對於 Macaron 的小程序管道特別有用,因為其涉及生成程序代碼,在沙盒中測試,糾正錯誤並與外部服務互動。

3 Claude Sonnet 4.5:長效自主與更高品質

Claude Sonnet 4.5 是 Anthropic 最強大的模型,適用於編碼、代理任務和電腦使用。DevOps.com 報導稱,Sonnet 4.5 能夠自主運行 超過 30 小時,遠超過其前代的七小時。它在指令跟隨、代碼重構和生產級輸出方面表現出色,並在 SWE-Bench Verified 基準測試中領先於真實的編碼任務。在實際部署中,改進是顯而易見的:Replit 的內部基準測試顯示,代碼編輯錯誤從 Sonnet 4 的 9% 降至 Sonnet 4.5 的 0%,而網絡安全團隊將漏洞處理時間減少了 44%,精確度提高了 25%。Netflix 的工程師形容 Sonnet 4.5 在軟件開發任務上表現「優異,能學習我們的代碼庫模式以提供精確的實現」。

Sonnet 4.5 的開發者工具和記憶體功能與 Agent SDK 相輔相成。該模型支持上下文編輯和記憶體管理,能自動清除舊的上下文並將相關部分重新聚焦[24]。它能夠通過點擊、輸入和與菜單互動來導航 GUI,從而實現無需 API 的工具自動化。結合 SDK 的子代理架構和檢查點,這意味著 Macaron 可以在多日會話中構建小型應用而不會丟失上下文,並在必要時回滾錯誤。

4 DeepSeek V3.2‑Exp:通過稀疏注意力提高效率

雖然 Sonnet 4.5 著重於品質和自主性,但DeepSeek V3.2‑Exp強調效率。這個模型引入了DeepSeek 稀疏注意力 (DSA),在注意力過程中只選擇最重要的標記。這使得複雜度從二次方O(n²)降至O(nk),在長上下文中提供2–3 倍更快的推理速度30–40% 更低的記憶體使用量,以及50% 以上的 API 價格減少[28]。儘管有這些節省,V3.2‑Exp 在大多數基準測試中仍與先前的 V3.1‑Terminus 模型保持一致[29]。開源版本允許 Macaron 在本地運行模型,進行微調並探索新穎的架構[30]。路透社指出,DeepSeek 將此視為邁向下一代架構的中間步驟;DSA 機制在降低計算成本的同時提升某些性能[31],而且服務會自動升級到 V3.2‑Exp,並為用戶大幅降價[32]

DeepSeek V3.2‑Exp 繼承了混合專家的設計,並增加了混合精度和多頭潛在注意力[33]。然而,作為實驗性版本,它在複雜推理任務中顯示出一些小的回退[34],並且缺乏 Claude 生態系統中的整合代理工具。對於 Macaron 來說,這意味著 V3.2‑Exp 更適合於成本敏感的任務或原型開發,速度和吞吐量比編碼準確性更重要。

5 比較 Macaron 的 Sonnet 4.5 和 DeepSeek V3.2‑Exp

Macaron 決定連接這兩個模型,這使得比較它們的優勢和劣勢成為可能。下表總結了關鍵屬性:

功能
Sonnet 4.5
DeepSeek V3.2‑Exp
特色
高品質編碼、代理任務、長時間自主性
高效的長上下文處理[35]
架構
專有模型,具有超過 30 小時的長時間自主性和強大的指令遵循
使用稀疏注意力的專家混合模型,降低計算需求[28]
記憶與上下文
大型上下文窗口;透過記憶工具自動記憶管理[24]
支援長上下文,透過稀疏注意力降低記憶體使用量[28]
開發者工具
代理 SDK,包含子代理、檢查點與 VS Code 整合[36][24]
無官方 SDK;開源代碼允許自訂整合,但缺乏內建記憶工具
成本
與 Sonnet 4 相同;輸入代幣每百萬個 $3,輸出代幣每百萬個 $15[37]
API 價格降低 50 %+[38];可免費自行託管
優勢
最高編碼準確度(SWE‑Bench 驗證 77–82 %),延長的自主性,強大的安全性
卓越的效率;推理速度快 2–3 倍且記憶體使用量較低[28];開源
弱點
代幣成本較高;專有 API;可能需要仔細的提示管理
試驗性狀態;在複雜推理上有輕微回歸[34];缺乏整合工具

從這個比較中,我們可以得出一個混合策略。Macaron 可以使用 DeepSeek V3.2‑Exp 來進行初稿,受益於低延遲和低成本,然後使用 Sonnet 4.5 來精煉或驗證,以確保正確性和安全性。對於需要深層推理的複雜 mini‑apps,Sonnet 4.5 仍然是最佳選擇,而 V3.2‑Exp 則在快速迭代或大批量生成中表現出色。

6 新模型將如何改善 Macaron 的 mini‑app 流程

Macaron 的核心問題是 Sonnet 4.5 和 DeepSeek V3.2‑Exp 是否能改善質量縮短開發時間減少錯誤。我們在 Macaron 的流程背景下分析每個因素:

6.1 代碼和輸出的質量

Sonnet 4.5 提供了更高的代碼質量和更少的錯誤。根據 Replit 的資料,從 Sonnet 4 升級到 Sonnet 4.5 後,代碼編輯錯誤從 9 % 降至零。這意味著由 Macaron 生成的迷你應用將更可靠地編譯,並且語法錯誤或缺少導入的情況會更少。模型改進的指令跟隨能力幫助 Macaron 更準確地理解用戶的規範;增強的代碼重構功能確保生成的模塊乾淨且模塊化。在金融和網絡安全任務中,Sonnet 4.5 的準確性提高了 25 % 至 44 %,這表明 Macaron 的旅行和健康應用也會有類似的增益。DeepSeek V3.2-Exp 雖然在複雜推理方面略弱,但仍保持了與 V3.1 可比的性能和更高的效率[29];當在 Macaron 的領域進行微調時,它可以為較簡單的迷你應用提供足夠高的準確性。

6.2 迷你應用創建速度

Sonnet 4.5 能夠自動運行超過 30 小時,這意味著 Macaron 可以在單一連續會話中生成端到端的小應用,而無需手動重置。結合 Agent SDK 的上下文管理和檢查點,這減少了重新啟動任務或重新加載上下文所花費的時間。子代理架構允許 Macaron 並行執行任務:一個代理可以處理 UI 生成,而另一個則負責 API 集成,每個代理都有自己的上下文和工具。同時,DeepSeek V3.2‑Exp 的 2–3 倍更快推理更低的記憶體使用 意味著回應更快[28]。例如,如果使用 Sonnet 4.5 生成旅行行程需要 30 秒,V3.2‑Exp 可以在 10–15 秒內生成草稿;然後 Sonnet 4.5 再進行精細化。淨效果是縮短到達第一個可用版本的時間,從而加快用戶反饋循環。

6.3 更順暢的流程和更少的漏洞

自動化減少了人為錯誤,但如果管理不當,自主性可能會引入新的漏洞。Agent SDK 的 檢查點 讓開發者可以儲存和回滾代理的狀態[24]。如果 Macaron 在生成迷你應用時發生錯誤 API 調用或寫入錯誤檔案,開發者可以還原到之前的檢查點,而不必重新開始。上下文編輯 防止令牌耗盡,確保只保留相關上下文,從而減少幻覺。在 DeepSeek 中,開源版本允許 Macaron 團隊檢查和修改模型,整合自定義安全檢查並針對特定領域任務進行微調。此外,Macaron 自身的強化學習機制——時間編織、反事實推理和公平性約束——持續監控用戶滿意度並懲罰有害行為[2][5],降低漏洞和倫理違規的風險。

6.4 成本考量

高品質模型通常價格不菲。Sonnet 4.5 的 token 價格與 Sonnet 4 保持不變(輸入 token 每百萬個 3 美元,輸出 token 每百萬個 15 美元)[37]。DeepSeek V3.2‑Exp 將 API 調用成本減半[38],而且由於它是開源的,可以自行託管。因此,Macaron 可以通過在初步草稿或低風險任務(例如生成 UI 元件或簡單計算器)中使用 V3.2‑Exp,並將 Sonnet 4.5 保留用於高風險任務(例如財務規劃、醫療建議),在這些任務中正確性和合規性至關重要來優化成本。透過更快的推理速度和減少 GPU 使用量(如下所述)節省的資源也能抵消計算成本。

7 Macaron 的 RL 訓練創新:DAPO、LoRA 和 All‑Sync RL

改善模型只是故事的一部分;訓練效率影響了 Macaron 如何快速迭代 RL 策略。MIND LABS 描述了一個系統,該系統將 Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO)Low‑Rank Adaptation (LoRA) 結合在一個 All‑Sync RL 架構中,使用僅 48 個 H800 GPU 訓練一個 671B DeepSeek 模型,與標準 RL 所需的 512 個 GPU 相比,減少了 10 倍[39]。使用 Coati 和 SGLang 的流水線並行處理,加速的 LoRA 合併和量化,消除了“GPU 泡沫”,即 GPU 閒置等待推理的情況[40]。結果是將單次訓練步驟的壁鐘時間從 9 小時減少到 1.5 小時[41]。這些進展意味著 Macaron 可以更快地重新訓練其獎勵模型或記憶閘,快速整合反饋,並更快地向用戶推出改進。

圖 1 – 使用 All‑Sync RL 與 LoRA 時,GPU 使用量從 512 H800 降至 48 H800,讓強化學習研究更易於進行並加速實驗[39]

除了提高效率,LoRA 的低秩更新減少了模型權重的通信成本,動態採樣通過篩選提示和塑造獎勵來穩定訓練[42]。對於 Macaron,這些技術意味著未來的記憶和策略更新可以快速訓練,而不會產生高昂的計算成本。

8 開發者工作流程:將 Sonnet 4.5 和 DeepSeek 整合到 Macaron 中

使用 Macaron 創建迷你應用包括幾個階段:

  • 意圖理解 – Macaron 解析用戶的請求並識別必要的組件(例如,資料來源、UI 元素、外部 API)。Sonnet 4.5 改善的指令遵循能力有助於提取準確的意圖並規劃執行步驟,而 V3.2‑Exp 可以快速原型化潛在意圖供用戶選擇。
  • 程式合成 – 代理使用 Claude Agent SDK 生成代碼、搜尋庫、讀取模板並撰寫新檔案。子代理可能專注於前端(React)或後端(Python),而上下文管理確保適當的代碼可用而不會超載記憶體。Sonnet 4.5 的長上下文和代碼重構能力產生更清晰、更易維護的程序,而 V3.2‑Exp 加快了初稿速度。
  • 沙箱執行 – 生成的代碼在安全環境中執行。代理讀取日誌、捕捉錯誤並迭代修復漏洞。檢查點提供安全備份,RL 獎勵信號會懲罰未通過測試的代碼。Macaron 也可以使用 Agent SDK 的 bash 和網絡提取工具對外部服務進行整合測試。
  • 互動和改進 – 代理通過 Macaron 的對話界面向用戶展示迷你應用。記憶引擎存儲對話並使用 RL 決定在未來互動中召回哪些記憶。用戶的反饋會更新獎勵模型,並影響未來的生成。

通過整合 Sonnet 4.5 和 DeepSeek V3.2‑Exp,Macaron 可以量身定制這個工作流程。例如,一個旅行規劃應用程式可能會讓 UI 生成代理使用 DeepSeek 來快速提議佈局,同時行程邏輯和時間表優化則使用 Sonnet 4.5 來確保準確性和妥善處理日曆。一個預算應用程式可能會依賴 DeepSeek 來生成初步圖表和表格,但使用 Sonnet 4.5 來進行複雜的財務計算並符合法規。

9 改進的可視化

為了說明這些技術的實際好處,以下圖表總結了關鍵指標。

圖 2 – Sonnet 4.5 和 DeepSeek V3.2‑Exp 在編碼準確性、相對速度、成本和自主性方面的比較視圖。較高的柱狀代表準確性和自主性更好;較低的柱狀則表示在效率和成本上的表現更佳(更快或更便宜)。

圖 3 – Replit 的內部基準測試顯示,使用 Sonnet 4.5 將代碼編輯錯誤從 Sonnet 4 的 9% 降至零。改進的指令遵循和代碼重構導致更可靠的小型應用程序。

圖 4 – 在 All‑Sync RL 管道中結合 DAPO 和 LoRA 可將訓練步驟的實際時鐘時間從 9 小時減少到 1.5 小時[41],從而加快對獎勵模型和記憶政策的更新。

這些可視化圖表強調了這些好處並非理論上的。降低 GPU 要求、更快的訓練、更高的準確性和更低的成本都促成了一個更順暢、更高效的小型應用程序管道。

10 未來方向

展望未來,Anthropic 和 DeepSeek 都暗示會推出更具野心的架構。Sonnet 4.5 的後續版本可能會擴大上下文窗口、改善多語言推理能力,並支持更複雜的工具互動。預計 DeepSeek 的下一代架構將利用稀疏注意力,以更低成本達到更高效能[31]。對於 Macaron,進一步研究自我壓縮記憶終身學習跨語言調整可能會增強個性化和隱私保護[43]。整合聯邦學習將允許用戶在本地訓練記憶模型,僅共享模型更新,從而在保護隱私的同時提高集體性能[43]。在增強學習方面,Macaron 的方法可能會結合規範理論——效益主義、義務論、美德倫理學——以提供其行動的解釋[44]

總而言之,Macaron 決定連接到 Claude Sonnet 4.5DeepSeek V3.2‑Exp,並由 Claude Agent SDK 提供支持,這使其處於個人 AI 的前沿。Sonnet 4.5 提供無與倫比的質量、延長的自主性和豐富的開發工具;DeepSeek 提供速度、高效和開源的靈活性。結合 Macaron 創新的 RL 訓練技術和記憶引擎,這些模型將幫助 Macaron 更快、更順暢且減少錯誤地構建迷你應用程式。隨著個人 AI 的不斷發展,Macaron 在自主性、安全性、倫理和效率方面的融合為負責任的創新提供了藍圖。


[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] 深入了解 Macaron 的記憶引擎:壓縮、檢索和動態門控 - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [標題未知]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] 使用 Claude Code 的 SDK 構建代理

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: 功能、定價與比較 - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] AI對AI:DeepSeek-3.2-Exp和DSA - 香檳雜誌

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] 中國的 DeepSeek 發布「中間」AI 模型,邁向下一代 | 路透社

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/

[39] [40] [41] [42] MIND LABS | 使用 DAPO 和 LoRA 擴展全同步 RL

https://mindlabs.macaron.im/

Boxu 在埃默里大學獲得了定量經濟學專業的學士學位。在加入 Macaron 之前,Boxu 的職業生涯大部分時間都在美國的私募股權和風險投資領域度過。他現在是 Macaron AI 的首席參謀和市場營銷副總裁,負責管理財務、物流和運營,並監督市場營銷。

申請成為 Macaron 的第一批朋友