著者: Boxu Li 

Macaron AIは単なる生産性ツールではなく、会話をカレンダー管理、旅行計画、趣味の探索を行うミニアプリに変えるプラットフォームです。親しみやすい外観の裏には、何が重要かを記憶し、何が重要でないかを忘れる洗練された強化学習(RL)システムとメモリエンジンがあります[1]。MacaronがClaude Sonnet 4.5DeepSeek V3.2‑Exp、さらにClaude Agent SDK/Code 2.0を統合する準備を進める中で、このブログでは新しいモデルとツールがMacaronの成果物の質をどのように向上させ、ミニアプリの作成時間を短縮し、バグを減らすかを探ります。Anthropicの開発者向けアップデート、DeepSeekの研究、Macaron自身のエンジニアリングブログからの技術的な洞察を組み合わせ、今後の展望を明確に描きます。

1 Macaronの内部エンジン: RL、メモリ、倫理

モデルを比較する前に、Macaron が何で特別なのかを理解すると役立ちます。Macaron は、日常会話をタスクやコードに変換するために、多層 RL システムを使用しています。このシステムは、会話管理、メモリ選択、コード合成、シミュレータフィードバックといったいくつかのモジュールに問題を分解し、それらを調整するために階層型強化学習(HRL)を適用します[2]。高レベルのメタコントローラーが次にどのモジュールを起動するかを決定し、低レベルの RL ポリシーがメモリの取得、API の呼び出し、生成されたコードの実行といった具体的なアクションを決定します[2]。この設計により、Macaron は旅行計画から財務整理まで、複雑な目標を管理可能なサブタスクに分解することができます。

1.1 報酬モデリングと人間フィードバック

個人用AIにおいて、単一の「勝利条件」は存在しません。ユーザーの満足度、プライバシー、タイミング、文化的なニュアンスがすべて重要です。Macaronは、暗黙的および明示的なフィードバックを組み合わせて報酬関数を構築します。暗黙的なシグナルには、会話の長さ、使用頻度、トーンが含まれ、明示的な評価や賛成/反対の評価は、好みの調整に役立ちます[3]。Macaronはまた、好みの引き出しを行い、代替の応答やミニアプリのデザインを提示し、ユーザーにどちらを好むかを尋ねます。その後、推論モデルが可能な行動に対する潜在的な効用関数を学習し、人間からのフィードバックによる強化学習(RLHF)に似ていますが、文化的な注釈で拡張されています。日本の評価者は礼儀正しさと文脈を重視し、韓国の評価者は共同体的な表現と個人主義的な表現の違いを強調します[4]。これらのシグナルは、ユーザーの満足度を予測し、エージェントが地域の規範に従うよう促す報酬モデルにフィードされます。

1.2 階層的RLとマクロアクション

多様なユーザータスクを管理するために、MacaronはHRLを活用してモジュールとサブポリシーを選択します。モジュール内では、オプションフレームワークを使用します。サブゴールを達成する一連のアクションが単一のオプションとして扱われます(例えば「先月の経費を要約する」や「バイリンガルの学習プランを推奨する」など)。一つのドメインで発見されたオプションは、基礎構造が一致する場合、他のドメインに転送できます。Macaronはまた、家族旅行の計画(目的地、交通手段、宿泊、旅程など)のようなマルチターンの対話や長期の計算をカプセル化したマクロアクションも定義します。RLエージェントは、短期的なシグナルよりも累積報酬に基づいてマクロアクションを評価し、長期的な満足度を最適化するようにエージェントを促します。

1.3 クレジット割り当てと時間織り

報酬が遅れて到着した際に特定のアクションにクレジットを割り当てるのは難しいです。Macaronは時間織りを活用し、物語の糸で時間を越えてイベントをつなげます。このシステムは、ノードが記憶を表し、エッジが因果関係を表す相互作用のグラフを構築します。結果を評価する際には、そのグラフを逆にたどり、どの取得やアクションが貢献したかを特定します[2]。反事実的推論は、他の行動を取った場合に何が起こったかを評価するのに役立ち、エージェントが成功した行動を繰り返すことで常に同じ報酬が得られると自動的に仮定するのを防ぎます[2]。Macaronはまた、遅延報酬と適格性痕跡を使用して、記憶の選択や会話のトーンなど、以前の決定にシグナルを遡って伝播させ、エージェントが長期的な満足を最適化するよう促します[5]

1.4 公平性、安全性、倫理

パーソナルAIエージェントは、バイアスを避け、規制に準拠する必要があります。Macaronは報酬関数に公正性の制約を組み込み、例えば、性別に特化した活動を求められていないのに一貫して推奨した場合にエージェントがペナルティを受けるようにしています[5]倫理的ポリシーライブラリは文化的規範や法的要件を符号化し、これらのガイドラインに違反すると負の報酬が発生したり、行動が完全にブロックされたりします[5]。財務計画や医療アドバイスのような高影響の決定には人間による監視が組み込まれており、韓国のAIフレームワーク法や日本のAI促進法を満たしています[5]。MacaronはRLの決定をログに記録し、なぜ特定の記憶やモジュールが選択されたのかをユーザーに説明し、監査と透明性を支援しています[5]

1.5 メモリエンジン:圧縮、検索、ゲーティング

Macaronのメモリエンジンは、パーソナライズのバックボーンです。記憶を短期、エピソード、長期ストアに整理します。短期ストアは現在の会話(8~16メッセージ)を保持し、エピソードストアは畳み込み注意を通じて圧縮された最近のやり取りを保持します。そして、長期ストアはメタデータタグ(タイムスタンプ、ドメイン、言語)付きの高次元ベクトルデータベースを使用します[6]。コストを管理するために、Macaronは潜在要約を使用して顕著なセグメントを特定し、固定長のベクトルに圧縮します。自己符号化の目的は圧縮された要約から隠れた状態を再構築し、RLが後のリコールに重要な情報を保持するよう要約を微調整します[7]ダイナミックメモリトークンはポインタネットワークとして機能し、候補メモリを取得し、関連性を評価し、返すかさらに検索を続けるかを決定します[8]

検索には、プロダクト量子化と最大限の限界関連性を使用した近似最近傍探索が含まれ、類似性と多様性のバランスを取ります[9]。クエリ拡張は、ユーザーの目標と潜在的な意図を利用します。例えば、「花火大会」という日本語のリクエストは、チケット、日付、天気を含むように拡張されます[10]関連性の統合は、ソフトマックスゲーティング関数を使用して、ドメインや言語を超えたクエリの取り扱いを行い、さまざまなドメインと言語にわたって検索確率を分配します[11]。これらのコンポーネントはRLで訓練され、時間織りによるクレジット割り当てにより、エージェントがどの記憶が重要であったかを学習します[12]。Macaronのメモリシステムは、記憶がユーザー固有であり、保存と検索がRLによって導かれ、各メモリにはアクセスを管理するプライバシーメタデータが含まれているため、従来の検索強化生成(RAG)とは異なります[13]

2 クロードエージェントSDKとクロードコード2.0

マカロンの内部アーキテクチャは堅牢ですが、ミニアプリを構築するにはファイルの読み書き、コードの実行、バージョン管理の使用、Web APIとのやり取りが必要です。AnthropicのClaude Agent SDKは、これらの機能を正確に提供し、Claude Codeのターミナルアシスタントを支える同じエージェントハーネスを公開しています[14]。ファイル操作(読み取り、書き込み、grep、glob)、bashコマンド、Webフェッチ、多言語コード実行、Git操作といった細かいツールがパッケージされています[15]。コードベースを事前にインデックスするアシスタントとは異なり、Claudeエージェントはgrep/find/globを使用してファイルを検索し、動的なリポジトリでより柔軟に対応します[16]。SDKには自動圧縮と要約を備えた大規模コンテキストウィンドウが含まれており、トークン制限に達することなく、エージェントが大量のコードコンテキストを保持できます[17]。開発者は許可されたツールと許可モードを指定し、安全のためのフックを追加し、ガードレール付きで自律性を実現できます[18]

SDKのコア構成要素

  1. ツール – SDKはエンジニアがエージェントに利用可能なツール(ファイルI/O、bash、ウェブフェッチ、コード実行)を選択できるようにします[19]
  2. MCP拡張 – モデルコンテキストプロトコルとの統合により、外部サーバー(データベース、メール検索、ベクトル検索)がツールセットを拡張できます[20]
  3. サブエージェント – .claude/agentsで定義されたエージェントは、独自のシステムプロンプト、制限されたツールセット、オプションのモデル選択を持ち、これらのサブエージェントにタスクを委任できます[21]
  4. メモリとプロジェクトコンテキスト – 永続的なスクラッチパッド(CLAUDE.md)がセッション間でコンテキストを維持し、リポジトリレベルの設定を尊重します[22]
  5. コンテキスト管理とランタイム – 自動コンテキスト圧縮、ストリーミングレスポンス、型付きエラーハンドリングが長時間実行タスクを簡素化します[23]

Claude Code 2.0の新機能

Claude Code 2.0は開発者に優しいアップデートを提供します。チェックポイント機能により、開発者は進行状況を保存し、エージェントがミスをした際に元に戻すことができます[24]VS Codeの拡張機能は、エージェントをIDEに組み込み、改良されたターミナルインターフェースが状態管理を向上させます[25]。Claude APIには、エージェントがより長く実行できるように自動的にコンテキストをクリアし、関連する情報を取得するコンテキスト編集とメモリツールが追加されました[26]。ClaudeのアプリとAPIは、コードの実行、ファイルの作成、データの分析が可能となり、LLMをフル機能のコーディングアシスタントに変えます[27]。これらの機能は、プログラムコードの生成、サンドボックスでのテスト、エラーの修正、外部サービスとのやり取りを含むMacaronのミニアプリパイプラインにとって特に重要です。

3 Claude Sonnet 4.5: 長時間の稼働と高品質

Claude Sonnet 4.5は、Anthropicの最も優れたモデルで、コーディング、エージェントタスク、コンピュータの使用に対応しています。DevOps.comによると、Sonnet 4.5は前身の7時間を大きく超えて、30時間以上自律的に稼働することができます。指示のフォロー、コードのリファクタリング、そしてプロダクションレディの出力に優れ、現実的なコーディングタスクにおいてSWE‑Bench Verifiedベンチマークをリードしています。実際の導入でも改善は明白で、Replitの内部ベンチマークでは、コード編集エラーが**Sonnet 4で9%からSonnet 4.5で0%に減少し、サイバーセキュリティチームは脆弱性の取り込み時間を44%削減し、精度を25%**向上させました。NetflixのエンジニアはSonnet 4.5を「ソフトウェア開発タスクに優れており、私たちのコードベースパターンを学習して正確な実装を提供する」と評価しています。

Sonnet 4.5の開発ツールとメモリ機能は、Agent SDKとシナジーを発揮します。このモデルはコンテキスト編集とメモリ管理をサポートし、古いコンテキストを自動的にクリアし、関連する部分を再び焦点に戻します[24]。GUIをクリック、入力、メニューと対話することでナビゲートし、APIなしでツールの自動化を可能にします。SDKのサブエージェントアーキテクチャとチェックポイントと組み合わせることで、Macaronは複数日のセッションにわたってコンテキストを失うことなくミニアプリを構築し、必要に応じてミスを元に戻すことができます。

4 DeepSeek V3.2‑Exp: 効率を高めるスパースアテンション

ソネット4.5が品質と自律性に焦点を当てる一方で、DeepSeek V3.2-Exp効率性を強調しています。このモデルは、注目時に最も重要なトークンのみを選択するDeepSeek Sparse Attention (DSA)を導入しています。これにより、複雑さが二乗の*O(n²)からO(nk)*に低減され、長いコンテキストでの2〜3倍の高速推論30〜40 %のメモリ使用量の削減、およびAPI価格の50 %以上の削減を実現しています[28]。これらの節約にもかかわらず、V3.2-Expはほとんどのベンチマークで以前のV3.1-Terminusモデルと同等の性能を維持しています[29]。オープンソースリリースにより、Macaronはローカルでモデルを実行し、微調整し、新しいアーキテクチャを探索することができます[30]。ロイターは、DeepSeekがこれを次世代アーキテクチャへの中間ステップと見なしていると述べています。DSAメカニズムは計算コストを削減し、一部の性能を向上させています[31]、そしてサービスは自動的にV3.2-Expにアップグレードされ、ユーザーに対して大幅な価格削減を提供しています[32]

DeepSeek V3.2-Expは、専門家の混合設計を継承し、混合精度とマルチヘッド潜在注意を追加しています。しかし、実験的であるため、複雑な推論タスクで小さな退行を示し、Claudeエコシステムの統合エージェントツールが欠けています。Macaronにとって、V3.2-Expは高精度のコーディングよりも速度とスループットが重要なコスト重視のタスクやプロトタイピングに適しています。

5 MacaronにおけるSonnet 4.5とDeepSeek V3.2-Expの比較

Macaronが両モデルに接続する決定を下したことで、それぞれの長所と短所の比較が可能になります。以下の表は主な属性をまとめたものです:

機能
Sonnet 4.5
DeepSeek V3.2‑Exp
フォーカス
高品質なコーディング、エージェントタスク、長期間の自律性
効率的な長文脈処理[35]
アーキテクチャ
長時間の自律性(30時間以上)と強力な指示追従を持つ独自モデル
計算量を削減するスパースアテンションを組み合わせた専門家の集まり[28]
メモリとコンテキスト
大きなコンテキストウィンドウ; メモリツールによる自動メモリ管理[24]
スパースアテンションを通じて長いコンテキストをサポート; メモリ使用量を削減[28]
開発者ツール
サブエージェント、チェックポイント、VS Code統合を備えたエージェントSDK[36][24]
公式SDKなし; オープンソースコードによりカスタム統合が可能だが、組み込みメモリツールが欠如
コスト
Sonnet 4から変更なし; 入力トークン$3/M、出力トークン$15/M[37]
API価格50%+の値下げ[38]; 自己ホスト無料
強み
最高のコーディング精度(SWE-Bench検証済み77–82 %)、拡張された自律性、堅牢な安全性
卓越した効率性; 推論が2–3倍速く、メモリ使用量が低い[28]; オープンソース
弱み
トークンコストが高い; 独自API; 慎重なプロンプト管理が必要な場合も
実験的なステータス; 複雑な推論における軽微な退行[34]; 統合ツールが欠如

この比較から、私たちはハイブリッド戦略を導き出すことができます。Macaronは、初期のドラフト作成において低遅延とコストの恩恵を受けるためにDeepSeek V3.2‑Expを使用し、その後Sonnet 4.5で修正や検証を行い、正確性とセキュリティを確保することができます。深い推論を必要とする複雑なミニアプリにはSonnet 4.5が最適であり、V3.2‑Expは迅速な反復や大規模なバッチ生成に優れています。

6 新しいモデルがMacaronのミニアプリパイプラインをどのように改善するか

Macaronにとっての核心的な問題は、Sonnet 4.5とDeepSeek V3.2‑Expが品質を向上させる開発時間を短縮する、そしてバグを減らすことができるかどうかです。Macaronのパイプラインの文脈で各要素を分析します:

6.1 コードと出力の品質

Sonnet 4.5は、コードの質を高め、エラーを減少させます。Replitによると、Sonnet 4からSonnet 4.5に移行することで、コード編集エラーが9%からゼロに減少しました。これは、Macaronが生成するミニアプリが、より信頼性高くコンパイルされ、構文ミスやインポート漏れが減少することを意味します。このモデルの指示に従う能力の向上により、Macaronはユーザーの仕様をより正確に理解でき、コードリファクタリングの強化により生成されたモジュールがクリーンでモジュール化されています。金融やサイバーセキュリティのタスクでは、Sonnet 4.5の精度が25%から44%向上し、Macaronの旅行やウェルネスアプリにも同様の向上をもたらすことが示唆されています。DeepSeek V3.2-Expは、複雑な推論に関してはやや劣るものの、V3.1と比較して効率が向上し、パフォーマンスを維持しています[29]; Macaronのドメインに微調整されると、よりシンプルなミニアプリに対して十分に高い精度を提供する可能性があります。

6.2 ミニアプリ作成のスピード

ソネット4.5は30時間以上自律的に動作できるため、Macaronは手動リセットなしでエンドツーエンドのミニアプリを1つの連続セッションで生成できます。エージェントSDKのコンテキスト管理とチェックポイントと組み合わせることで、タスクの再起動やコンテキストの再ロードに費やす時間を削減します。サブエージェントアーキテクチャにより、Macaronはタスクを並列化できます。1つのエージェントはUI生成を担当し、別のエージェントはAPI統合を管理し、それぞれが独自のコンテキストとツールを持ちます。一方、DeepSeek V3.2-Expの2〜3倍の高速推論低メモリ使用量は、より迅速な応答に繋がります。[28] 例えば、旅行日程を生成するのにソネット4.5を使用して30秒かかった場合、V3.2-Expは10〜15秒で大まかな草案を作成でき、ソネット4.5がそれを改良します。その結果、最初の実用バージョンまでの時間が短縮され、迅速なユーザーフィードバックループが可能になります。

6.3 滑らかなプロセスとバグの減少

オートメーションは人的エラーを減らしますが、適切に管理されないと自律性が新たなバグを引き起こす可能性があります。Agent SDKのチェックポイントを使用すると、開発者はエージェントの状態を保存してロールバックすることができます[24]。Macaronがミニアプリ生成中に誤ったAPIコールを行ったり、誤ったファイルに書き込んだ場合でも、開発者は最初からやり直すのではなく、以前のチェックポイントに戻ることができます。コンテキスト編集により、トークンの枯渇を防ぎ、関連するコンテキストのみを保持することで、幻覚を最小限に抑えます。DeepSeekのオープンソースリリースにより、Macaronのチームはモデルを検査および修正し、カスタムの安全性チェックを統合し、ドメイン固有のタスクに合わせて微調整することができます。また、Macaron独自のRLメカニズムである時間織り、反事実推論、公平性制約は、ユーザーの満足度を監視し、有害な行動を罰することで[2][5]、バグや倫理違反のリスクを低減します。

6.4 コストに関する考慮事項

高品質のモデルにはコストがかかります。Sonnet 4.5のトークンプライシングは、Sonnet 4と変わらず(入力トークン$3/M、出力トークン$15/M)です[37]。DeepSeek V3.2‑ExpはAPIコールのコストを半分にします[38]、さらにオープンソースであるため、自分でホストすることが可能です。したがって、Macaronは初期のドラフトや低リスクのタスク(例: UIコンポーネントの生成やシンプルな計算機)にV3.2‑Expを使用し、正確さやコンプライアンスが重要な高リスクのタスク(例: 財務計画、医療アドバイス)にはSonnet 4.5を予約してコストを最適化することができます。高速な推論とGPU使用量の削減からの節約(下記で説明)は、計算コストを相殺します。

7 MacaronのRLトレーニングイノベーション: DAPO、LoRA、All‑Sync RL

モデルの改善はストーリーの一部に過ぎません。トレーニング効率は、MacaronがRLポリシーをどれだけ早く反復できるかに影響します。MIND LABSは、Decoupled ClipとDynamic Sampling Policy Optimization (DAPO)Low‑Rank Adaptation (LoRA)と組み合わせたAll‑Sync RLアーキテクチャを使用して、671B DeepSeekモデルをわずか48台のH800 GPUでトレーニングするシステムを説明しています。これは、標準のRLで必要な512台のGPUと比較して10倍の削減です[39]。CoatiとSGLangを使用したパイプライン並列化、LoRAのマージと量子化の加速により、GPUが推論を待ってアイドル状態になる「GPUバブル」を排除します[40]。その結果、単一のトレーニングステップの壁時計時間が9時間から1.5時間に短縮されました[41]。これらの進歩により、Macaronは報酬モデルやメモリゲートをより迅速に再トレーニングし、フィードバックをより迅速に取り入れ、ユーザーへの改善をより早く展開できます。

図1 – All-Sync RLとLoRAを使用すると、GPUの使用が512 H800 GPUsから48 H800 GPUsに減少し、RL研究がよりアクセスしやすくなり、実験が速くなります[39].

効率性に加えて、LoRAの低ランク更新はモデルの重み通信コストを削減し、動的サンプリングはプロンプトをフィルタリングし、報酬を形成することでトレーニングを安定化させます[42]。Macaronにとって、これらの技術は、将来のメモリおよびポリシー更新が高い計算コストをかけずに迅速にトレーニングできることを意味します。

8 開発者ワークフロー: Sonnet 4.5とDeepSeekのMacaronへの統合

Macaronでのミニアプリ作成には、いくつかのステージが含まれます:

  • 意図の理解 – Macaronはユーザーのリクエストを解析し、必要なコンポーネント(例:データソース、UI要素、外部API)を特定します。Sonnet 4.5の改善された指示遵守により、正確な意図を抽出し、実行ステップを計画するのに役立ちます。また、V3.2-Expはユーザーが選択できる潜在意図を迅速にプロトタイプ化します。
  • プログラム合成 – エージェントはClaude Agent SDKを使用してコードを生成し、リポジトリを検索し、テンプレートを読み込み、新しいファイルを書きます。サブエージェントはフロントエンド(React)やバックエンド(Python)に特化することがあり、コンテキスト管理によりメモリを過負荷にすることなく適切なコードが利用可能になります。Sonnet 4.5の長いコンテキストとコードリファクタリング能力により、よりクリーンで保守しやすいプログラムが作成され、V3.2-Expは初稿のスピードアップを図ります。
  • サンドボックス実行 – 生成されたコードは安全な環境で実行されます。エージェントはログを読み、エラーをキャプチャし、バグを反復的に修正します。チェックポイントは安全なフォールバックを提供し、RLの報酬信号はテストに失敗したコードをペナルティします。MacaronはAgent SDKのbashやウェブフェッチツールを使用して外部サービスに対する統合テストも行うことがあります。
  • 対話と改善 – エージェントはMacaronの会話インターフェースを通じてミニアプリをユーザーに提示します。メモリエンジンは会話を保存し、将来の対話でどの記憶を呼び出すかをRLで決定します。ユーザーからのフィードバックは報酬モデルを更新し、将来の生成に影響を与えます。

Sonnet 4.5とDeepSeek V3.2-Expを統合することで、Macaronはこのワークフローをカスタマイズできます。例えば、旅行計画アプリでは、UIジェネレーターエージェントがDeepSeekを使ってレイアウトを迅速に提案し、旅程のロジックとスケジュールの最適化にはSonnet 4.5を使用して、カレンダーの正確な処理を保証します。予算管理アプリでは、初期のチャートやテーブルにDeepSeekを使用し、複雑な財務計算や規制遵守にはSonnet 4.5を使用するかもしれません。

9 改善の視覚化

これらの技術の具体的な利点を示すために、以下のチャートが主要な指標を要約しています。

図2 – コーディングの正確さ、相対速度、コストおよび自律性におけるSonnet 4.5とDeepSeek V3.2-Expの比較ビュー。バーが高いほど正確さと自律性が優れており、バーが低いほど効率とコストが優れている(速いまたは安い)ことを示します。

図3 – Replitの内部ベンチマークでは、Sonnet 4でのコード編集エラーが9%からSonnet 4.5でゼロに減少しました。命令の従順性とコードリファクタリングの改善により、より信頼性の高いミニアプリが実現します。

図4 – DAPOとLoRAをAll-Sync RLパイプラインで組み合わせることで、トレーニングステップのウォールクロック時間が9時間から1.5時間に短縮され[41]、報酬モデルとメモリポリシーの更新が迅速になります。

これらのビジュアライゼーションは、利点が理論的なものではないことを示しています。GPU要件の削減、トレーニングの高速化、精度の向上、コストの低下はすべて、よりスムーズで効率的なミニアプリパイプラインに貢献します。

10 今後の方向性

今後、Anthropic と DeepSeek の両者は、より野心的なアーキテクチャを示唆しています。Sonnet 4.5 の後継モデルは、コンテキストウィンドウを拡大し、多言語推論を改善し、より複雑なツールとの相互作用をサポートする可能性があります。DeepSeek の次世代アーキテクチャは、スパースアテンションを基盤として、より低コストでさらに高いパフォーマンスを実現することが期待されています[31]。Macaron にとっては、自己圧縮メモリ生涯学習、および クロスリンガルアラインメント に関するさらなる研究が、パーソナライズとプライバシーを向上させる可能性があります[43]フェデレーテッドラーニング を統合することで、ユーザーはモデルの更新のみを共有し、集団的なパフォーマンスを向上させつつプライバシーを保護しながら、メモリモデルをローカルでトレーニングすることができます[43]。RL の側面では、Macaron のアプローチは、功利主義、義務論、徳倫理学といった規範理論を取り入れて、その行動に対する説明を提供する可能性があります[44]

要約すると、MacaronがClaude Sonnet 4.5DeepSeek V3.2‑Expに接続する決定をしたことは、Claude Agent SDKによって強化され、パーソナルAIの最前線に位置づけられます。Sonnet 4.5は無比の品質、拡張された自律性、豊富な開発者ツールを提供し、DeepSeekはスピード、効率、オープンソースの柔軟性を提供します。Macaronの革新的なRLトレーニング技術とメモリエンジンと組み合わせることで、これらのモデルはMacaronがミニアプリをより速く、よりスムーズに、そしてバグが少なく構築するのに役立ちます。パーソナルAIが進化し続ける中、Macaronの自律性、安全性、倫理、効率のブレンドは責任あるイノベーションの手本となります。


[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] マカロンのメモリエンジンの内側:圧縮、検索、動的ゲーティング - マカロン

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [タイトル不明]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Claude CodeのSDKでエージェントを構築する

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: 機能、価格、比較 - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] AI on AI: DeepSeek-3.2-Exp and DSA – Champaign Magazine

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] 中国のDeepSeekが次世代に向けた「中間」AIモデルを発表 | ロイター

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/

[39] [40] [41] [42] MIND LABS | DAPOとLoRAによるオールシンクRLのスケーリング

https://mindlabs.macaron.im/

Boxuはエモリー大学で定量経済学を専攻し、学士号を取得しました。Macaronに参加する前は、アメリカのプライベート・エクイティとベンチャー・キャピタル分野でキャリアを積んでいました。現在、彼はMacaron AIの参謀長兼マーケティング副社長として、財務、物流、運営を管理しつつ、マーケティングを監督しています。

応募する Macaron の最初の友達