Autor: Boxu Li
O Macaron AI não é apenas uma ferramenta de produtividade – é uma plataforma que transforma nossas conversas em mini-aplicações que gerenciam calendários, planejam viagens e exploram hobbies. Por trás da superfície amigável, há um sistema sofisticado de aprendizado por reforço (RL) e um mecanismo de memória que lembra o que importa e esquece o que não importa[1]. Enquanto o Macaron se prepara para integrar o Claude Sonnet 4.5 e o DeepSeek V3.2‑Exp, juntamente com o Claude Agent SDK/Code 2.0, este blog explora como esses novos modelos e ferramentas podem elevar a qualidade da saída do Macaron, encurtar a criação de mini-aplicativos e reduzir bugs. Combinamos insights técnicos das atualizações de desenvolvedores da Anthropic, pesquisas do DeepSeek e blogs de engenharia do próprio Macaron para construir um quadro claro do que está por vir.
Antes de comparar modelos, é útil entender o que torna o Macaron único. O Macaron usa um sistema de RL em camadas múltiplas para converter conversas do dia a dia em tarefas e código. O sistema divide o problema em vários módulos – gerenciamento de conversas, seleção de memória, síntese de código e feedback do simulador – e aplica aprendizado por reforço hierárquico (HRL) para coordená-los[2]. Um meta-controlador de alto nível decide qual módulo ativar em seguida, enquanto políticas de RL de nível inferior decidem sobre ações específicas, como recuperar uma memória, chamar uma API ou executar código gerado[2]. Este design permite que o Macaron decomponha objetivos complexos – desde planejar uma viagem até organizar finanças – em subtarefas gerenciáveis.
Na IA pessoal, não há uma única "condição de vitória"; satisfação do usuário, privacidade, pontualidade e nuances culturais são importantes. O Macaron constrói sua função de recompensa combinando feedback implícito e explícito. Sinais implícitos incluem duração da conversa, frequência de uso e tom, enquanto classificações explícitas e polegares para cima/baixo ajudam a calibrar preferências[3]. O Macaron também utiliza eliciação de preferências, apresentando respostas alternativas ou designs de miniaplicativos e perguntando aos usuários quais eles preferem. Um modelo de inferência então aprende uma função de utilidade latente sobre possíveis ações, semelhante ao aprendizado por reforço com feedback humano (RLHF), mas ampliado com anotações culturais – avaliadores japoneses enfatizam polidez e contexto, enquanto avaliadores coreanos destacam frases comunitárias versus individualistas[4]. Esses sinais alimentam um modelo de recompensa que prevê a satisfação do usuário e encoraja o agente a seguir as normas locais.
Para gerenciar diversas tarefas de usuários, Macaron utiliza HRL para selecionar módulos e sub-políticas. Dentro dos módulos, ele usa o framework de opções: uma sequência de ações que atinge um sub-objetivo é tratada como uma única opção (por exemplo, "resumir as despesas do mês passado" ou "recomendar um plano de estudos bilíngue")[3]. Opções descobertas em um domínio podem ser transferidas para outro se as estruturas subjacentes estiverem alinhadas. Macaron também define macro-ações que encapsulam diálogos de múltiplas etapas ou cálculos prolongados, como planejar férias em família (destino, transporte, acomodação e itinerário)[3]. Agentes de RL avaliam macro-ações com base na recompensa acumulada em vez de sinais de curto prazo, incentivando o agente a otimizar a satisfação a longo prazo.
Atribuir crédito a ações específicas quando as recompensas chegam tarde é difícil. O Macaron emprega tecelagem temporal, conectando eventos ao longo do tempo com fios narrativos. O sistema constrói um gráfico de interações onde os nós representam memórias e as arestas representam relações causais; ao avaliar um resultado, ele percorre o gráfico para trás para identificar quais recuperações ou ações contribuíram[2]. O raciocínio contrafactual ajuda a avaliar o que teria acontecido se ações alternativas fossem tomadas, impedindo que o agente presuma automaticamente que repetir uma ação bem-sucedida sempre resulta na mesma recompensa[2]. O Macaron também utiliza recompensas atrasadas e traços de elegibilidade para propagar o sinal de volta para decisões anteriores – como seleção de memória ou tom de conversa – incentivando o agente a otimizar a satisfação a longo prazo[5].
Agentes de IA pessoais devem evitar preconceitos e cumprir com as regulamentações. Macaron incorpora restrições de equidade na função de recompensa; por exemplo, o agente é penalizado se recomendar consistentemente atividades específicas de gênero sem ser solicitado[5]. Uma biblioteca de políticas éticas codifica normas culturais e requisitos legais, e violar essas diretrizes aciona uma recompensa negativa ou bloqueia a ação completamente[5]. A supervisão humana está embutida em decisões de alto impacto, como planejamento financeiro ou aconselhamento de saúde, atendendo ao Ato de Estrutura de IA da Coreia e ao Ato de Promoção de IA do Japão[5]. O Macaron registra decisões de RL e fornece aos usuários explicações sobre por que certas memórias ou módulos foram selecionados, apoiando auditorias e transparência[5].
O motor de memória do Macaron é a espinha dorsal da personalização. Ele organiza memórias em armazenamentos de curto prazo, episódico e longo prazo. O armazenamento de curto prazo mantém a conversa atual (8–16 mensagens); o armazenamento episódico guarda interações recentes comprimidas por meio de atenção convolucional; e o armazenamento de longo prazo usa um banco de dados vetorial de alta dimensão com tags de metadados (timestamp, domínio, idioma)[6]. Para gerenciar custos, o Macaron utiliza sumarização latente para identificar segmentos salientes e comprimi-los em vetores de comprimento fixo; um objetivo de auto-codificação reconstrói estados ocultos a partir de resumos comprimidos, e RL ajusta o sumário para reter informações importantes para lembranças futuras[7]. Um token de memória dinâmica atua como uma rede de ponteiros: ele recupera memórias candidatas, avalia a relevância e decide se retorna ou continua procurando[8].
A recuperação envolve a busca aproximada do vizinho mais próximo com quantização de produto e relevância marginal máxima para equilibrar similaridade e diversidade[9]. A expansão de consulta usa o objetivo do usuário e a intenção latente; por exemplo, um pedido japonês para "花火大会" (festival de fogos de artifício) se expande para incluir ingressos, data e clima[10]. A federação de relevância lida com consultas entre domínios, usando uma função de gate softmax para distribuir probabilidades de recuperação entre domínios e idiomas[11]. Esses componentes são treinados com RL, e a atribuição de crédito via entrelaçamento temporal garante que o agente aprenda quais memórias foram cruciais[12]. O sistema de memória do Macaron difere da geração tradicional aumentada por recuperação (RAG) porque as memórias são específicas do usuário, o armazenamento e a recuperação são guiados por RL, e cada memória inclui metadados de privacidade que regulam o acesso[13].
Embora a arquitetura interna do Macaron seja robusta, a construção de miniapps ainda requer leitura e escrita de arquivos, execução de código, uso de controle de versão e interação com APIs web. O Claude Agent SDK da Anthropic fornece exatamente essas capacidades, expondo o mesmo sistema de agentes que alimenta o assistente de terminal do Claude Code[14]. Ele oferece ferramentas detalhadas: operações de arquivo (leitura, escrita, grep, glob), comandos bash, fetch web, execução de código multi-linguagem e operações Git[15]. Ao contrário dos assistentes que pré-indexam uma base de código, os agentes Claude pesquisam sob demanda usando grep/find/glob para localizar arquivos, tornando-os mais flexíveis em repositórios dinâmicos[16]. O SDK inclui janelas de contexto grandes com compactação e sumarização automáticas, permitindo que os agentes mantenham um contexto substancial de código sem ultrapassar os limites de tokens[17]. Os desenvolvedores podem especificar ferramentas permitidas e modos de permissão e adicionar ganchos para segurança, permitindo autonomia com regras de segurança[18].
O Claude Code 2.0 traz atualizações amigáveis para desenvolvedores: checkpoints permitem que desenvolvedores salvem progresso e voltem atrás quando o agente comete erros[24]. Uma extensão para VS Code incorpora o agente no IDE, enquanto uma interface de terminal renovada melhora o gerenciamento de estado[25]. A API do Claude ganha edição de contexto e uma ferramenta de memória que ajudam os agentes a funcionarem por mais tempo, limpando automaticamente o contexto e recuperando informações relevantes[26]. O aplicativo e a API do Claude agora podem executar código, criar arquivos e analisar dados[27], transformando um LLM em um assistente de codificação completo. Esses recursos são particularmente relevantes para o pipeline de mini-aplicativos do Macaron, que envolve a geração de código de programa, testá-lo em um ambiente seguro, corrigir erros e interagir com serviços externos.
Claude Sonnet 4.5 é o modelo mais capaz da Anthropic para codificação, tarefas agentivas e uso de computadores. O DevOps.com relata que o Sonnet 4.5 pode operar autonomamente por mais de 30 horas, muito mais do que as sete horas de seu antecessor. Ele se destaca em seguir instruções, refatorar código e gerar saídas prontas para produção, liderando o benchmark SWE‑Bench Verified em tarefas realistas de codificação. Em implantações no mundo real, as melhorias são tangíveis: os benchmarks internos da Replit viram os erros de edição de código caírem de 9% com o Sonnet 4 para 0% com o Sonnet 4.5, enquanto as equipes de segurança cibernética reduziram o tempo de resposta a vulnerabilidades em 44% e melhoraram a precisão em 25%. Os engenheiros da Netflix descrevem o Sonnet 4.5 como "excelente em tarefas de desenvolvimento de software, aprendendo nossos padrões de base de código para entregar implementações precisas".
As ferramentas de desenvolvimento e recursos de memória do Sonnet 4.5 se sinergizam com o Agent SDK. O modelo suporta edição de contexto e gerenciamento de memória, que limpa automaticamente o contexto antigo e traz peças relevantes de volta ao foco[24]. Ele pode navegar por GUIs clicando, digitando e interagindo com menus, permitindo a automação de ferramentas sem APIs. Combinado com a arquitetura de sub-agentes e checkpoints do SDK, isso significa que o Macaron pode construir mini-apps ao longo de sessões de vários dias sem perder o contexto e reverter erros quando necessário.
Enquanto o Sonnet 4.5 foca na qualidade e autonomia, o DeepSeek V3.2‑Exp enfatiza a eficiência. O modelo introduz a DeepSeek Sparse Attention (DSA), selecionando apenas os tokens mais importantes durante a atenção. Isso reduz a complexidade de quadrática O(n²) para O(nk), proporcionando 2–3× mais rapidez na inferência em contextos longos, 30–40% menos uso de memória e uma redução de mais de 50% nos preços da API[28]. Apesar dessas economias, o V3.2‑Exp mantém paridade com o modelo anterior V3.1‑Terminus na maioria dos benchmarks[29]. O lançamento de código aberto permite que Macaron execute o modelo localmente, ajuste-o conforme necessário e explore novas arquiteturas[30]. A Reuters observa que a DeepSeek vê isso como um passo intermediário em direção à sua próxima geração de arquitetura; o mecanismo DSA reduz os custos de computação ao mesmo tempo que melhora alguns tipos de desempenho[31], e o serviço atualiza automaticamente para o V3.2‑Exp com uma grande redução de preço para os usuários[32].
DeepSeek V3.2‑Exp herda o design de mistura de especialistas e adiciona precisão mista e atenção latente multi-cabeça[33]. No entanto, por ser experimental, apresenta pequenas regressões em tarefas de raciocínio complexo[34] e carece das ferramentas de agente integradas do ecossistema Claude. Para Macaron, isso significa que o V3.2‑Exp é mais adequado para tarefas sensíveis a custos ou protótipos, onde a velocidade e a capacidade de processamento são mais importantes do que a precisão máxima de codificação.
A decisão da Macaron de se conectar a ambos os modelos convida a uma comparação de seus pontos fortes e fracos. A tabela abaixo resume os principais atributos:
A partir desta comparação, podemos derivar uma estratégia híbrida. O Macaron poderia usar o DeepSeek V3.2‑Exp para rascunhos iniciais, beneficiando-se de baixa latência e custo, e depois refinar ou validar com o Sonnet 4.5 para garantir correção e segurança. Para miniapps complexas que exigem raciocínio profundo, o Sonnet 4.5 continua sendo a melhor escolha, enquanto o V3.2‑Exp se destaca em iterações rápidas ou geração em lotes grandes.
A questão central para o Macaron é se o Sonnet 4.5 e o DeepSeek V3.2‑Exp podem melhorar a qualidade, encurtar o tempo de desenvolvimento e reduzir bugs. Analisamos cada fator no contexto do pipeline do Macaron:
Sonnet 4.5 oferece maior qualidade de código e menos erros. Segundo a Replit, os erros de edição de código caíram de 9% para zero ao passar do Sonnet 4 para o Sonnet 4.5. Isso significa que mini-apps gerados pela Macaron serão compilados de forma mais confiável, com menos erros de sintaxe ou imports ausentes. A melhoria na capacidade do modelo em seguir instruções ajuda a Macaron a entender as especificações dos usuários com mais precisão; seu aprimorado refatoramento de código garante que os módulos gerados sejam limpos e modulares. Em tarefas financeiras e de cibersegurança, o Sonnet 4.5 melhorou a precisão de 25% para 44%, sugerindo ganhos semelhantes para os apps de viagem e bem-estar da Macaron. O DeepSeek V3.2-Exp, embora ligeiramente mais fraco em raciocínios complexos, ainda mantém um desempenho comparável ao V3.1 com melhor eficiência[29]; quando ajustado ao domínio da Macaron, pode oferecer precisão suficientemente alta para mini-apps mais simples.
A capacidade do Sonnet 4.5 de funcionar autonomamente por mais de 30 horas permite que o Macaron gere miniapps de ponta a ponta em uma única sessão contínua sem reinicializações manuais. Combinado com o gerenciamento de contexto e checkpoints do Agent SDK, isso reduz o tempo gasto reiniciando tarefas ou recarregando contexto. A arquitetura de Sub‑agente permite que o Macaron paralelize tarefas: um agente pode lidar com a geração de UI enquanto outro gerencia a integração de API, cada um com seu próprio contexto e ferramentas. Enquanto isso, a inferência 2–3× mais rápida e menor uso de memória do DeepSeek V3.2‑Exp traduzem-se em respostas mais rápidas[28]. Por exemplo, se gerar um itinerário de viagem exigisse 30 segundos usando o Sonnet 4.5, o V3.2‑Exp poderia produzir um rascunho em 10–15 segundos; o Sonnet 4.5 então o refinaria. O efeito líquido é um tempo menor para a primeira versão utilizável, permitindo ciclos rápidos de feedback do usuário.
A automação reduz erros humanos, mas a autonomia pode introduzir novos bugs se não for gerida adequadamente. Os checkpoints do Agent SDK permitem que os desenvolvedores salvem e revertam o estado do agente[24]. Se o Macaron fizer uma chamada de API incorreta ou gravar no arquivo errado durante a geração de mini-apps, o desenvolvedor pode reverter para um checkpoint anterior em vez de começar do zero. A edição de contexto evita o esgotamento de tokens e garante que apenas o contexto relevante seja mantido, minimizando alucinações. Para o DeepSeek, a liberação de código aberto permite que a equipe do Macaron inspecione e modifique o modelo, integre verificações de segurança personalizadas e faça ajustes finos para tarefas específicas de domínio. Além disso, os próprios mecanismos de RL do Macaron – tecelagem temporal, raciocínio contrafactual e restrições de equidade – continuam a monitorar a satisfação do usuário e penalizar comportamentos nocivos[2][5], reduzindo o risco de bugs e violações éticas.
Modelos de alta qualidade têm seu preço. A precificação por token do Sonnet 4.5 permanece inalterada em relação ao Sonnet 4 ($3/M tokens de entrada, $15/M tokens de saída)[37]. O DeepSeek V3.2‑Exp reduz pela metade o custo das chamadas de API[38] e, por ser de código aberto, pode ser hospedado internamente. O Macaron pode, portanto, otimizar custos usando o V3.2‑Exp para rascunhos iniciais ou tarefas de baixo risco (por exemplo, gerar componentes de UI ou calculadoras simples) e reservar o Sonnet 4.5 para tarefas de alto risco (por exemplo, planejamento financeiro, aconselhamento médico) onde precisão e conformidade são críticas. Economias com inferência mais rápida e uso reduzido de GPU (discutido abaixo) também compensam os custos de computação.
A melhoria do modelo é apenas parte da história; a eficiência do treinamento afeta a rapidez com que o Macaron pode iterar nas políticas de RL. O MIND LABS descreve um sistema que combina Otimização de Política de Amostragem Dinâmica (DAPO) e Clip Desacoplado com Adaptação de Baixa Classificação (LoRA) em uma arquitetura All‑Sync RL para treinar um modelo DeepSeek de 671B usando apenas 48 GPUs H800 - uma redução de 10× em comparação com as 512 GPUs necessárias para o RL padrão[39]. O paralelismo de pipeline usando Coati e SGLang, além da fusão e quantização aceleradas do LoRA, eliminam "bolhas de GPU" onde as GPUs ficam ociosas aguardando pela inferência[40]. O resultado é uma redução do tempo de relógio de parede para uma única etapa de treinamento de 9 horas para 1,5 horas[41]. Esses avanços significam que o Macaron pode retreinar seus modelos de recompensa ou portas de memória mais rapidamente, incorporar feedback mais rapidamente e implementar melhorias para os usuários mais cedo.
Figura 1 – O uso de GPU cai de 512 para 48 GPUs H800 ao usar All‑Sync RL com LoRA, tornando a pesquisa de RL mais acessível e permitindo experimentação mais rápida[39].
Além da eficiência, as atualizações de baixa classificação do LoRA reduzem os custos de comunicação de peso do modelo, e a amostragem dinâmica estabiliza o treinamento ao filtrar prompts e modelar recompensas[42]. Para a Macaron, essas técnicas significam que futuras atualizações de memória e política podem ser treinadas rapidamente sem incorrer em custos de computação proibitivos.
Criar um mini-app com o Macaron envolve várias etapas:
Ao integrar o Sonnet 4.5 e o DeepSeek V3.2‑Exp, o Macaron pode personalizar este fluxo de trabalho. Por exemplo, um aplicativo de planejamento de viagens pode ter o agente gerador de UI usando o DeepSeek para propor layouts rapidamente, enquanto a lógica do itinerário e a otimização do cronograma usam o Sonnet 4.5 para garantir precisão e manejo adequado dos calendários. Um aplicativo de orçamento pode depender do DeepSeek para gráficos e tabelas iniciais, mas usar o Sonnet 4.5 para cálculos financeiros complexos e conformidade com regulamentações.
Para ilustrar os benefícios tangíveis dessas tecnologias, os gráficos a seguir resumem métricas chave.
Figura 2 – Uma visão comparativa do Sonnet 4.5 e do DeepSeek V3.2‑Exp em termos de precisão de codificação, velocidade relativa, custo e autonomia. Barras mais altas representam melhores valores para precisão e autonomia; barras mais baixas indicam melhor desempenho (mais rápido ou mais barato) em eficiência e custo.
Figura 3 – As análises internas da Replit mostram que os erros de edição de código caíram de 9% com o Sonnet 4 para zero com o Sonnet 4.5. Melhor seguimento das instruções e refatoração de código levam a mini‑apps mais confiáveis.
Figura 4 – Combinar DAPO e LoRA em um pipeline All‑Sync RL reduz o tempo de relógio de parede de uma etapa de treinamento de 9 horas para 1,5 horas[41], permitindo atualizações mais rápidas para modelos de recompensa e políticas de memória.
Essas visualizações destacam que os benefícios não são teóricos. Requisitos reduzidos de GPU, treinamento mais rápido, maior precisão e custos mais baixos contribuem para um pipeline de mini‑app mais suave e eficiente.
Olhando para o futuro, tanto a Anthropic quanto a DeepSeek sugeriram arquiteturas mais ambiciosas. O sucessor do Sonnet 4.5 pode expandir janelas de contexto, melhorar o raciocínio multilíngue e suportar interações de ferramentas mais complexas. Espera-se que a próxima geração de arquitetura da DeepSeek se baseie em atenção esparsa para alcançar um desempenho ainda maior a um custo menor[31]. Para o Macaron, pesquisas adicionais em memória auto-compressiva, aprendizado ao longo da vida e alinhamento translinguístico podem aprimorar a personalização e a privacidade[43]. A integração do aprendizado federado permitiria que os usuários treinassem modelos de memória localmente, compartilhando apenas atualizações de modelos, melhorando assim o desempenho coletivo enquanto preserva a privacidade[43]. No lado do RL, a abordagem do Macaron poderia incorporar teorias normativas – utilitarismo, deontologia, ética da virtude – para fornecer explicações para suas ações[44].
Em resumo, a decisão do Macaron de se conectar ao Claude Sonnet 4.5 e ao DeepSeek V3.2‑Exp, impulsionada pelo Claude Agent SDK, posiciona-o na vanguarda da IA pessoal. O Sonnet 4.5 oferece qualidade incomparável, autonomia estendida e ferramentas ricas para desenvolvedores; o DeepSeek fornece velocidade, eficiência e flexibilidade de código aberto. Combinados com as técnicas inovadoras de treinamento RL do Macaron e seu motor de memória, esses modelos ajudarão o Macaron a construir mini-aplicativos mais rapidamente, de forma mais suave e com menos bugs. À medida que a IA pessoal continua a evoluir, a mistura de autonomia, segurança, ética e eficiência do Macaron serve como um modelo para a inovação responsável.
[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Dentro do Motor de Memória do Macaron: Compressão, Recuperação e Controle Dinâmico - Macaron
https://macaron.im/memory-engine
[2] [3] [4] [5] [44] [título desconhecido]
https://macaron.im/reinforcement-learning
[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Construindo Agentes com o SDK do Claude Code
https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/
[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: Características, Preços e Comparação - Dataconomy
https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/
[28] [29] [30] [32] [33] [34] [35] AI on AI: DeepSeek-3.2-Exp and DSA – Champaign Magazine
https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/
[31] [38] DeepSeek da China lança modelo de IA 'intermediário' no caminho para a próxima geração | Reuters
[39] [40] [41] [42] MIND LABS | Escalonando All-Sync RL com DAPO e LoRA