Claude & DeepSeek 업데이트로 마카롱의 역량 촉진

작성자: Boxu Li

Macaron AI는 단순한 생산성 도구가 아니라, 대화를 통해 캘린더를 관리하고 여행을 계획하며 취미를 탐색하는 미니 애플리케이션으로 변환하는 플랫폼입니다. 친숙한 외관 아래에는 중요한 것은 기억하고 중요하지 않은 것은 잊어버리는 정교한 강화 학습(RL) 시스템과 메모리 엔진이 있습니다[1]. Macaron이 Claude Sonnet 4.5와 DeepSeek V3.2‑Exp를 Claude Agent SDK/Code 2.0과 함께 통합할 준비를 하면서, 이 블로그에서는 이러한 새로운 모델과 도구들이 Macaron의 출력 품질을 향상시키고, 미니 앱 생성 시간을 단축하며 버그를 줄이는 방법을 탐구합니다. 우리는 Anthropic의 개발자 업데이트, DeepSeek 연구 및 Macaron의 자체 엔지니어링 블로그에서 기술적 통찰을 결합하여 앞으로의 방향을 명확히 제시합니다.

1 Macaron의 내부 엔진: RL, 메모리 및 윤리

모델을 비교하기 전에, Macaron의 고유한 점을 이해하는 것이 도움이 됩니다. Macaron은 일상 대화를 작업과 코드로 변환하기 위해 다층 RL 시스템을 사용합니다. 이 시스템은 문제를 여러 모듈로 나누어 처리합니다 – 대화 관리, 메모리 선택, 코드 합성 및 시뮬레이터 피드백 – 그리고 이를 조정하기 위해 계층적 강화 학습(HRL)을 적용합니다[2]. 고수준의 메타 컨트롤러는 다음에 어느 모듈을 활성화할지를 결정하며, 하위 수준의 RL 정책은 메모리 검색, API 호출 또는 생성된 코드 실행과 같은 특정 작업을 결정합니다[2]. 이러한 설계는 여행 계획에서 재정 관리까지 복잡한 목표를 관리 가능한 하위 작업으로 분해할 수 있게 합니다.

1.1 보상 모델링 및 인간 피드백

개인 AI에서는 단일한 “승리 조건”이 없습니다. 사용자 만족도, 프라이버시, 적시성 및 문화적 뉘앙스가 모두 중요합니다. Macaron은 암시적 및 명시적 피드백을 결합하여 보상 함수를 구성합니다. 암시적 신호에는 대화 길이, 사용 빈도 및 톤이 포함되며, 명시적 평점과 좋아요/싫어요는 선호도를 조정하는 데 도움이 됩니다[3]. Macaron은 또한 선호도 추출을 사용하여 대체 응답이나 미니 앱 디자인을 제시하고 사용자가 선호하는 것을 묻습니다. 추론 모델은 가능한 행동에 대한 잠재적 효용 함수를 학습하며, 이는 인간 피드백에서 강화 학습(RLHF)과 유사하지만 문화적 주석이 추가됩니다 – 일본 평가자는 예의와 문맥을 강조하고, 한국 평가자는 공동체적 표현과 개인주의적 표현을 강조합니다[4]. 이러한 신호는 사용자 만족도를 예측하고 에이전트가 지역 규범을 따르도록 장려하는 보상 모델에 반영됩니다.

1.2 계층적 강화 학습 및 매크로 액션

다양한 사용자 작업을 관리하기 위해, Macaron은 HRL을 활용하여 모듈과 하위 정책을 선택합니다. 모듈 내에서는 옵션 프레임워크를 사용하여 하위 목표를 달성하는 일련의 동작을 단일 옵션으로 처리합니다 (예: '지난달 지출 요약하기' 또는 '이중 언어 학습 계획 추천하기').[3] 한 도메인에서 발견된 옵션은 기본 구조가 일치할 경우 다른 도메인으로 전이될 수 있습니다. Macaron은 또한 가족 휴가 계획(목적지, 교통편, 숙박 및 일정)과 같은 다중 대화 또는 장기 계산을 포함하는 매크로 동작을 정의합니다.[3] RL 에이전트는 매크로 동작을 단기 신호보다 누적 보상을 기반으로 평가하여, 에이전트가 장기적인 만족을 최적화하도록 권장합니다.

1.3 신용 할당과 시간 짜기

보상이 늦게 도착할 때 특정 행동에 대한 신용을 할당하는 것은 어렵습니다. Macaron은 시간 엮기를 사용하여 이야기를 통해 시간에 걸쳐 이벤트를 연결합니다. 시스템은 노드가 기억을 나타내고 간선이 인과 관계를 나타내는 상호작용 그래프를 구축합니다. 결과를 평가할 때 그래프를 역으로 탐색하여 어떤 검색이나 행동이 기여했는지 식별합니다[2]. 반사실적 추론은 대안적인 행동이 취해졌을 때 어떤 일이 일어났을지를 평가하여 에이전트가 성공적인 행동을 반복하면 항상 같은 보상을 받을 것이라고 자동으로 가정하지 않도록 도와줍니다[2]. Macaron은 또한 지연된 보상과 적합성 흔적을 사용하여 신호를 초기 결정으로 되돌려 전파합니다. 이렇게 하면 기억 선택이나 대화 톤과 같은 초기 결정에 영향을 주어 에이전트가 장기적인 만족을 최적화하도록 장려합니다[5].

1.4 공정성, 안전 및 윤리

개인 AI 에이전트는 편향을 피하고 규정을 준수해야 합니다. Macaron은 공정성 제약을 보상 함수에 통합합니다. 예를 들어, 에이전트가 성별에 특정한 활동을 지속적으로 추천할 경우 페널티를 받습니다[5]. 윤리 정책 라이브러리는 문화적 규범과 법적 요구 사항을 인코딩하며, 이러한 지침을 위반하면 부정적인 보상이 주어지거나 행동이 완전히 차단됩니다[5]. 재정 계획이나 의료 상담과 같은 고영향 결정에는 인간 감독이 포함되어 있으며, 이는 한국 AI 프레임워크 법과 일본의 AI 촉진법을 충족합니다[5]. Macaron은 강화 학습 결정을 기록하고 사용자가 특정 기억 또는 모듈이 선택된 이유를 설명하여 감사와 투명성을 지원합니다[5].

1.5 메모리 엔진: 압축, 검색 및 게이팅

Macaron의 메모리 엔진은 개인화를 위한 핵심 요소입니다. 메모리를 단기, 에피소드, 장기 저장소로 정리합니다. 단기 저장소는 현재 대화(8–16개의 메시지)를 보관하며, 에피소드 저장소는 최근 상호작용을 합성적 주의로 압축합니다. 장기 저장소는 메타데이터 태그(타임스탬프, 도메인, 언어)와 함께 고차원 벡터 데이터베이스를 사용합니다[6]. 비용 관리를 위해 Macaron은 잠재 요약을 사용하여 중요한 부분을 식별하고 고정 길이 벡터로 압축합니다. 자동 인코딩 목표는 압축된 요약에서 숨겨진 상태를 재구성하고, RL은 요약자가 나중에 중요한 정보를 기억할 수 있도록 미세 조정합니다[7]. 동적 메모리 토큰은 포인터 네트워크로 작용합니다: 후보 메모리를 검색하고 관련성을 평가하여 반환할지 계속 검색할지를 결정합니다[8].

검색은 제품 양자화와 최대 여백 관련성을 사용하여 유사성과 다양성을 균형 있게 맞추는 근사 최근접 이웃 검색을 포함합니다[9]. 쿼리 확장은 사용자의 목표와 잠재적 의도를 사용하며, 예를 들어 일본어로 "花火大会" (불꽃놀이 축제)를 요청하면 티켓, 날짜, 날씨를 포함하도록 확장됩니다[10]. 관련성 연합은 도메인 간 쿼리를 처리하며, 소프트맥스 게이팅 기능을 사용하여 검색 확률을 도메인과 언어에 걸쳐 분배합니다[11]. 이러한 구성 요소는 강화 학습(RL)로 훈련되며, 시간 직조를 통한 신용 할당은 에이전트가 중요한 기억을 학습하는 데 도움을 줍니다[12]. Macaron의 메모리 시스템은 사용자별 메모리를 포함하고, 저장 및 검색이 RL에 의해 안내되며, 각 메모리에 액세스를 관리하는 개인 정보 메타데이터가 포함되어 있기 때문에 전통적인 검색 강화 생성(RAG)과 다릅니다[13].

2 Claude 에이전트 SDK 및 Claude Code 2.0

Macaron의 내부 아키텍처는 견고하지만, 미니 앱을 구축하려면 여전히 파일을 읽고 쓰고, 코드를 실행하며, 버전 관리를 사용하고 웹 API와 상호작용해야 합니다. Anthropic의 Claude Agent SDK는 이러한 기능을 정확히 제공하며, Claude Code의 터미널 어시스턴트를 구동하는 동일한 에이전트 하네스를 노출합니다[14]. 이 SDK는 세밀한 도구들을 패키징합니다: 파일 작업(읽기, 쓰기, grep, glob), bash 명령어, 웹 가져오기, 다국어 코드 실행 및 Git 작업[15]. 코드베이스를 사전에 인덱싱하는 어시스턴트와 달리, Claude 에이전트는 grep/find/glob을 사용하여 파일을 찾아 동적 저장소에서 더 유연하게 동작합니다[16]. SDK에는 자동 압축 및 요약 기능이 있는 대규모 컨텍스트 창이 포함되어 있어 에이전트가 토큰 제한에 걸리지 않고 상당한 코드 컨텍스트를 유지할 수 있습니다[17]. 개발자는 허용된 도구와 권한 모드를 지정하고 안전을 위한 훅을 추가할 수 있어, 가드레일이 있는 자율성을 가능하게 합니다[18].

SDK의 핵심 구성 요소

도구 – SDK는 엔지니어가 에이전트에서 사용할 수 있는 도구(파일 입출력, bash, 웹 가져오기, 코드 실행)를 선택할 수 있게 합니다[19].
MCP 확장 – 모델 컨텍스트 프로토콜과의 통합을 통해 외부 서버(데이터베이스, 이메일 검색, 벡터 검색)가 도구 세트를 확장할 수 있습니다[20].
하위 에이전트 – .claude/agents에 정의된 에이전트는 자체 시스템 프롬프트, 제한된 도구 세트 및 선택적 모델 선택을 가지고 있으며, 작업을 이러한 하위 에이전트에 위임할 수 있습니다[21].
메모리 및 프로젝트 컨텍스트 – 지속적인 스크래치패드(CLAUDE.md)는 세션 간 컨텍스트를 유지하고 저장소 수준 구성을 준수합니다[22].
컨텍스트 관리 및 런타임 – 자동 컨텍스트 압축, 스트리밍 응답 및 유형별 오류 처리는 장기 실행 작업을 간소화합니다[23].

Claude Code 2.0의 새로운 기능

Claude Code 2.0은 개발자 친화적인 업데이트를 제공합니다. 체크포인트는 개발자가 진행 상황을 저장하고 에이전트가 실수를 했을 때 롤백할 수 있게 해줍니다[24]. VS Code 확장 프로그램은 에이전트를 IDE에 내장시키며, 새로워진 터미널 인터페이스는 상태 관리를 향상시킵니다[25]. Claude API는 컨텍스트 편집 및 메모리 도구를 추가하여 에이전트가 자동으로 컨텍스트를 지우고 관련 정보를 검색함으로써 더 오래 실행될 수 있도록 돕습니다[26]. Claude의 앱과 API는 이제 코드를 실행하고, 파일을 생성하며, 데이터를 분석할 수 있어 LLM을 완전한 코딩 어시스턴트로 변환합니다[27]. 이러한 기능은 프로그램 코드를 생성하고, 샌드박스에서 테스트하며, 오류를 수정하고 외부 서비스와 상호작용하는 Macaron의 미니 앱 파이프라인에 특히 중요합니다.

3 Claude Sonnet 4.5: 긴 자율성과 높은 품질

Claude Sonnet 4.5는 Anthropic의 가장 뛰어난 모델로, 코딩, 에이전트 작업, 컴퓨터 사용에 적합합니다. DevOps.com은 Sonnet 4.5가 30시간 이상 자율적으로 작동할 수 있다고 보고하며, 이는 이전 모델의 7시간보다 훨씬 깁니다. 이 모델은 지침을 잘 따르고, 코드 리팩토링 및 생산 준비된 출력을 잘 수행하며, 현실적인 코딩 작업에서 SWE-Bench Verified 벤치마크를 선도합니다. 실제 배포에서는 개선이 확연히 드러납니다: Replit의 내부 벤치마크에 따르면 Sonnet 4의 코드 편집 오류가 9%에서 Sonnet 4.5로 0%로 감소했으며, 사이버 보안 팀은 취약점 수집 시간을 44% 줄이고 정확도를 25% 향상시켰습니다. Netflix 엔지니어들은 Sonnet 4.5를 “소프트웨어 개발 작업에 뛰어나며, 코드베이스 패턴을 학습하여 정확한 구현을 제공합니다”라고 설명합니다.

Sonnet 4.5의 개발자 도구와 메모리 기능은 Agent SDK와 시너지를 발휘합니다. 이 모델은 컨텍스트 편집 및 메모리 관리를 지원하여 오래된 컨텍스트를 자동으로 지우고 관련된 부분을 다시 초점에 맞춥니다[24]. GUI를 클릭하고, 입력하고, 메뉴와 상호작용하여 API 없이 도구를 자동화할 수 있습니다. SDK의 하위 에이전트 아키텍처와 체크포인트와 결합하면, Macaron이 멀티데이 세션 동안 컨텍스트를 잃지 않고 미니 앱을 구축하며 필요할 때 실수를 되돌릴 수 있습니다.

4 DeepSeek V3.2‑Exp: 희소 주의를 통한 효율성

Sonnet 4.5가 품질과 자율성에 중점을 두는 반면, DeepSeek V3.2‑Exp는 효율성을 강조합니다. 이 모델은 주의 집중 중 가장 중요한 토큰만 선택하는 **DeepSeek Sparse Attention (DSA)**를 도입하여 복잡도를 이차 *O(n²)*에서 *O(nk)*로 줄입니다. 이를 통해 긴 컨텍스트에서 2–3배 더 빠른 추론, 30–40% 낮은 메모리 사용량, API 가격 50% 이상 절감을 제공합니다[28]. 이러한 절감에도 불구하고 V3.2‑Exp는 대부분의 벤치마크에서 이전 V3.1‑Terminus 모델과 동등한 성능을 유지합니다[29]. 오픈 소스 릴리스를 통해 Macaron은 모델을 로컬에서 실행하고, 미세 조정하며, 새로운 아키텍처를 탐색할 수 있습니다[30]. Reuters는 DeepSeek이 이를 차세대 아키텍처로 가는 중간 단계로 보고 있으며, DSA 메커니즘이 컴퓨팅 비용을 절감하면서 일부 성능을 향상시킨다고 언급합니다[31]. 또한 서비스는 자동으로 V3.2‑Exp로 업그레이드되어 사용자에게 대폭적인 가격 인하를 제공합니다[32].

DeepSeek V3.2‑Exp는 전문가 혼합 설계를 계승하며, 혼합 정밀도와 다중 헤드 잠재 주의력을 추가합니다[33]. 그러나 실험적이기 때문에 복잡한 추론 작업에서 약간의 퇴보를 보입니다[34] 그리고 Claude 생태계의 통합 에이전트 도구가 부족합니다. Macaron에게 V3.2‑Exp는 최고 코딩 정확도보다 속도와 처리량이 더 중요한 비용 민감 작업이나 프로토타이핑에 더 적합하다는 것을 의미합니다.

5 Macaron을 위한 Sonnet 4.5와 DeepSeek V3.2‑Exp의 비교

Macaron은 두 모델 모두와 연결하기로 결정함으로써 그들의 강점과 약점을 비교해 볼 수 있습니다. 아래 표는 주요 속성을 요약합니다:

기능

Sonnet 4.5

DeepSeek V3.2‑Exp

초점

고품질 코딩, 에이전트 작업, 긴 자율성

효율적인 긴 문맥 처리[35]

아키텍처

긴 지속 시간 자율성(>30시간)과 강력한 지침 준수를 갖춘 독점 모델

희소 주의로 계산을 줄이는 전문가 혼합 모델[28]

메모리 및 문맥

큰 문맥 창; 메모리 도구를 통한 자동 메모리 관리[24]

희소 주의를 통해 긴 문맥 지원; 메모리 사용량 감소[28]

개발자 도구

하위 에이전트, 체크포인트, VS 코드 통합을 포함한 에이전트 SDK[36][24]

공식 SDK 없음; 오픈 소스 코드는 사용자 정의 통합을 허용하지만 내장 메모리 도구는 없음

비용

Sonnet 4와 동일; 입력 토큰당 $3, 출력 토큰당 $15[37]

API 가격 50%+ 인하[38]; 자체 호스팅 무료

강점

최고 수준의 코딩 정확도(SWE-Bench 인증 77–82 %), 확장된 자율성, 강력한 안전성

탁월한 효율성; 2–3배 빠른 추론 및 낮은 메모리 사용[28]; 오픈 소스

약점

높은 토큰 비용; 독점 API; 신중한 프롬프트 관리가 필요할 수 있음

실험적 상태; 복잡한 추론에서의 사소한 퇴보[34]; 통합 도구 부족

이 비교를 통해 우리는 하이브리드 전략을 도출할 수 있습니다. Macaron은 초기 초안 작성에 낮은 지연 시간과 비용의 이점을 제공하는 DeepSeek V3.2‑Exp를 사용하고, 이후 Sonnet 4.5로 정제하거나 검증하여 정확성과 보안을 보장할 수 있습니다. 깊은 사고가 필요한 복잡한 미니 앱의 경우 Sonnet 4.5가 여전히 최고의 선택이며, V3.2‑Exp는 빠른 반복이나 대량 생성에 뛰어납니다.

6 새로운 모델이 Macaron의 미니 앱 파이프라인을 어떻게 개선할 것인가

Macaron의 핵심 질문은 Sonnet 4.5와 DeepSeek V3.2‑Exp가 품질을 향상시키고, 개발 시간을 단축하며, 버그를 줄일 수 있는지입니다. 우리는 Macaron의 파이프라인 맥락에서 각 요소를 분석합니다:

6.1 코드와 출력의 품질

Sonnet 4.5는 더 높은 코드 품질과 적은 오류를 제공합니다. Replit에 따르면, Sonnet 4에서 Sonnet 4.5로 이동하면서 코드 편집 오류가 9%에서 제로로 감소했습니다. 이는 Macaron이 생성한 미니 앱이 더 신뢰성 있게 컴파일되고, 문법 오류나 누락된 임포트가 줄어드는 것을 의미합니다. 모델의 향상된 명령어 이해력 덕분에 Macaron은 사용자의 요구 사항을 더 정확하게 이해하며, 개선된 코드 리팩토링으로 생성된 모듈이 깔끔하고 모듈화됩니다. 금융 및 사이버 보안 작업에서 Sonnet 4.5는 정확성이 25%에서 44%까지 향상되어, Macaron의 여행 및 웰니스 앱에서도 유사한 향상을 기대할 수 있습니다. DeepSeek V3.2‑Exp는 복잡한 추론에서는 약간 약하지만, 여전히 V3.1과 비슷한 성능을 유지하며 효율성이 향상되었습니다[29]; Macaron의 도메인에 맞춰 미세 조정되면, 더 간단한 미니 앱에 충분히 높은 정확성을 제공할 수 있습니다.

6.2 미니 앱 생성 속도

Sonnet 4.5는 30시간 이상 자율적으로 작동할 수 있어 Macaron이 수동 재설정 없이 하나의 연속적인 세션에서 처음부터 끝까지 미니 앱을 생성할 수 있습니다. 에이전트 SDK의 컨텍스트 관리 및 체크포인트와 결합하면 작업을 다시 시작하거나 컨텍스트를 다시 로드하는 데 걸리는 시간이 줄어듭니다. 하위 에이전트 아키텍처는 Macaron이 작업을 병렬 처리할 수 있게 해줍니다: 한 에이전트는 UI 생성을 처리하는 동안 다른 에이전트는 API 통합을 관리하며, 각각 고유의 컨텍스트와 도구를 사용합니다. 그동안 DeepSeek V3.2-Exp의 2–3배 빠른 추론 및 낮은 메모리 사용량은 더 빠른 응답으로 이어집니다[28]. 예를 들어, 여행 일정 생성에 Sonnet 4.5를 사용해 30초가 걸렸다면, V3.2-Exp는 10–15초 만에 초안을 작성할 수 있고, Sonnet 4.5가 이를 다듬습니다. 그 결과 첫 번째 사용 가능한 버전까지의 시간이 단축되어 빠른 사용자 피드백 루프가 가능합니다.

6.3 매끄러운 프로세스와 적은 버그

자동화는 인간의 오류를 줄여주지만, 자율성은 적절히 관리되지 않으면 새로운 버그를 유발할 수 있습니다. Agent SDK의 체크포인트는 개발자가 에이전트의 상태를 저장하고 롤백할 수 있게 해줍니다[24]. Macaron이 미니 앱 생성 중 잘못된 API 호출을 하거나 잘못된 파일에 기록하면, 개발자는 처음부터 다시 시작하지 않고 이전 체크포인트로 되돌릴 수 있습니다. 컨텍스트 편집은 토큰 소모를 방지하고 관련 있는 컨텍스트만 유지하여 환상 최소화에 기여합니다. DeepSeek의 오픈 소스 릴리스 덕분에 Macaron 팀은 모델을 검사하고 수정하여, 맞춤형 안전 점검을 통합하고 도메인별 작업에 맞게 조정할 수 있습니다. 또한, Macaron 자체의 강화 학습 메커니즘인 시간 직조, 반사실적 추론, 공정성 제약은 사용자 만족을 지속적으로 모니터링하고 유해한 행동을 벌하여[2][5] 버그와 윤리적 위반의 위험을 줄입니다.

6.4 비용 고려사항

고품질 모델은 비용이 듭니다. Sonnet 4.5의 토큰 가격은 Sonnet 4와 동일하게 유지됩니다($3/M 입력 토큰, $15/M 출력 토큰)[37]. DeepSeek V3.2‑Exp는 API 호출 비용을 절반으로 줄입니다[38] 그리고 오픈 소스이므로 자체 호스팅이 가능합니다. 따라서 Macaron은 V3.2‑Exp를 초기 초안이나 중요도가 낮은 작업(예: UI 구성 요소 생성 또는 간단한 계산기)에 사용하고, Sonnet 4.5는 정확성과 준수가 중요한 고난도 작업(예: 재정 계획, 의료 조언)에 예약하여 비용을 최적화할 수 있습니다. 빠른 추론과 GPU 사용량 감소(아래에서 다룸)로 인한 절감도 컴퓨팅 비용을 상쇄합니다.

7 Macaron의 RL 훈련 혁신: DAPO, LoRA 및 All‑Sync RL

모델 개선은 이야기의 일부일 뿐이며, 훈련 효율성은 Macaron이 RL 정책을 얼마나 빨리 반복할 수 있는지에 영향을 미칩니다. MIND LABS는 **Decoupled Clip 및 Dynamic Sampling Policy Optimization (DAPO)**를 **Low‑Rank Adaptation (LoRA)**와 결합하여 All‑Sync RL 아키텍처에서 671B DeepSeek 모델을 단 48개의 H800 GPU만으로 훈련하는 시스템을 설명합니다. 이는 표준 RL에 필요한 512개의 GPU와 비교하여 10배 감소입니다[39]. Coati와 SGLang을 사용한 파이프라인 병렬 처리, 가속화된 LoRA 병합 및 양자화는 GPU가 추론을 기다리며 유휴 상태로 있는 "GPU 버블"을 제거합니다[40]. 결과적으로 단일 훈련 단계의 벽 시계 시간이 9시간에서 1.5시간으로 줄어듭니다[41]. 이러한 발전 덕분에 Macaron은 보상 모델이나 메모리 게이트를 더 빠르게 재훈련하고, 피드백을 더 빨리 통합하며, 사용자에게 개선을 더 빨리 제공할 수 있게 됩니다.

그림 1 – All‑Sync RL과 LoRA를 사용하면 GPU 사용량이 512 H800 GPU에서 48 H800 GPU로 감소하여 RL 연구가 더 쉽게 접근 가능하고 실험 속도가 빨라집니다[39].

효율성 외에도, LoRA의 저랭크 업데이트는 모델 가중치 통신 비용을 줄이고, 동적 샘플링은 프롬프트를 필터링하고 보상을 조정하여 훈련을 안정화합니다[42]. 마카롱의 경우, 이러한 기술은 미래의 메모리 및 정책 업데이트가 과도한 컴퓨팅 비용 없이 빠르게 훈련될 수 있음을 의미합니다.

8 개발자 워크플로우: Sonnet 4.5와 DeepSeek을 마카롱에 통합하기

마카롱으로 미니 앱을 만드는 것은 여러 단계를 포함합니다:

의도 이해 – Macaron은 사용자의 요청을 해석하고 필요한 구성 요소(예: 데이터 소스, UI 요소, 외부 API)를 식별합니다. Sonnet 4.5의 개선된 명령어 추적 기능은 정확한 의도를 추출하고 실행 단계를 계획하는 데 도움을 주며, V3.2‑Exp는 사용자가 선택할 수 있는 잠재적 의도를 빠르게 프로토타입화할 수 있습니다.
프로그램 합성 – 에이전트는 Claude Agent SDK를 사용하여 코드 생성, 저장소 검색, 템플릿 읽기 및 새 파일 작성을 수행합니다. 서브 에이전트는 프론트엔드(React) 또는 백엔드(Python) 전문화가 가능하며, 컨텍스트 관리는 메모리를 과부하하지 않고 올바른 코드를 사용할 수 있도록 보장합니다. Sonnet 4.5의 긴 컨텍스트 및 코드 리팩토링 기능은 더 깔끔하고 유지 관리하기 쉬운 프로그램을 생성하며, V3.2‑Exp는 초안을 신속하게 작성합니다.
샌드박스 실행 – 생성된 코드는 안전한 환경에서 실행됩니다. 에이전트는 로그를 읽고 오류를 캡처하며 반복적으로 버그를 수정합니다. 체크포인트는 안전한 복귀 지점을 제공하며, RL 보상 신호는 테스트에 실패한 코드를 페널티합니다. Macaron은 Agent SDK의 bash 및 웹 가져오기 도구를 사용하여 외부 서비스에 대한 통합 테스트도 수행할 수 있습니다.
상호작용 및 개선 – 에이전트는 Macaron의 대화형 인터페이스를 통해 미니 앱을 사용자에게 제공합니다. 메모리 엔진은 대화를 저장하고 향후 상호작용에서 어떤 메모리를 회상할지 RL을 통해 결정합니다. 사용자 피드백은 보상 모델을 업데이트하고 향후 생성에 영향을 미칩니다.

Sonnet 4.5와 DeepSeek V3.2‑Exp를 통합함으로써, Macaron은 이 워크플로우를 맞춤화할 수 있습니다. 예를 들어, 여행 계획 앱은 UI 생성 에이전트가 DeepSeek을 사용하여 빠르게 레이아웃을 제안할 수 있으며, 일정 논리와 최적화는 Sonnet 4.5를 사용하여 정확성과 캘린더 처리의 적절성을 보장합니다. 예산 관리 앱은 초기 차트와 테이블 생성을 위해 DeepSeek에 의존할 수 있지만, 복잡한 금융 계산과 규정 준수를 위해 Sonnet 4.5를 사용합니다.

9 개선 사항 시각화

이 기술들의 실질적인 혜택을 설명하기 위해, 다음 차트는 주요 지표를 요약합니다.

그림 2 – Sonnet 4.5와 DeepSeek V3.2‑Exp의 코딩 정확도, 상대 속도, 비용 및 자율성 비교 뷰. 더 높은 막대는 정확도와 자율성에서 더 나은 가치를 나타내며, 낮은 막대는 효율성과 비용에서 더 나은(더 빠르거나 저렴한) 성능을 나타냅니다.

그림 3 – Replit의 내부 벤치마크에 따르면 Sonnet 4에서는 코드 편집 오류가 9%였으나, Sonnet 4.5에서는 0으로 감소했습니다. 향상된 명령어 처리와 코드 리팩토링으로 더욱 신뢰할 수 있는 미니 앱을 제공합니다.

그림 4 – All‑Sync RL 파이프라인에서 DAPO와 LoRA를 결합하면 훈련 단계의 실시간 소요 시간이 9시간에서 1.5시간으로 줄어듭니다[41]. 이를 통해 보상 모델과 메모리 정책의 업데이트가 더욱 빨라집니다.

이 시각 자료들은 이러한 이점들이 이론적이지 않음을 보여줍니다. GPU 요구 사항 감소, 빠른 훈련, 높은 정확도 및 비용 절감은 모두 더 원활하고 효율적인 미니 앱 파이프라인에 기여합니다.

10 미래 방향

앞을 내다보면, Anthropic과 DeepSeek 모두 더 야심 찬 아키텍처를 암시하고 있습니다. Sonnet 4.5의 후속작은 컨텍스트 윈도우를 확장하고, 다국어 추론을 개선하며 더 복잡한 도구 상호작용을 지원할 수 있습니다. DeepSeek의 차세대 아키텍처는 희소 주의를 기반으로 하여 더 낮은 비용으로 더 높은 성능을 달성할 것으로 예상됩니다[31]. Macaron은 자기 압축 메모리, 평생 학습, 다국어 정렬에 대한 추가 연구를 통해 개인화와 프라이버시를 향상시킬 수 있습니다[43]. 연합 학습을 통합하면 사용자가 메모리 모델을 로컬에서 훈련하고 모델 업데이트만 공유함으로써 프라이버시를 유지하면서 집단적 성능을 향상시킬 수 있습니다[43]. 강화 학습 측면에서 Macaron의 접근 방식은 공리주의, 의무론, 덕 윤리와 같은 규범적 이론을 통합하여 행동에 대한 설명을 제공할 수 있습니다[44].

요약하자면, Macaron이 Claude Sonnet 4.5와 DeepSeek V3.2‑Exp에 연결하기로 한 결정은 Claude Agent SDK에 의해 지원되어 개인 AI의 최전선에 서게 했습니다. Sonnet 4.5는 뛰어난 품질, 확장된 자율성 및 풍부한 개발자 도구를 제공합니다. DeepSeek는 속도, 효율성 및 오픈 소스 유연성을 제공합니다. Macaron의 혁신적인 RL 훈련 기법과 메모리 엔진과 결합하여, 이러한 모델들은 Macaron이 미니 앱을 더 빠르고 부드럽게, 버그 없이 개발하는 데 도움을 줄 것입니다. 개인 AI가 계속 발전함에 따라, Macaron의 자율성, 안전성, 윤리 및 효율성의 조합은 책임 있는 혁신의 청사진이 됩니다.

[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Macaron의 메모리 엔진 내부: 압축, 검색 및 동적 게이팅 - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [제목 미상]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Claude Code의 SDK로 에이전트 구축하기

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: 특징, 가격 및 비교 - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] AI 대 AI: DeepSeek-3.2-Exp 및 DSA – Champaign Magazine

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] 중국의 DeepSeek, 차세대 모델로 가는 '중간 단계' AI 모델 발표 | Reuters

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/