Dentro do Motor de Memória do Macaron: Compressão, Recuperação e Controle Dinâmico

Introdução

Embora a novidade do Macaron AI frequentemente chame atenção por sua capacidade de gerar mini-apps personalizados ou atuar como um amigo empático, seu verdadeiro alicerce é um intricado motor de memória. Este sistema permite que o Macaron lembre-se do que importa, esqueça o que não importa e recupere experiências relevantes de maneira rápida e segura. Uma conversa simples sobre música pode levar a lembretes sobre um concerto no próximo mês, uma lista de reprodução automaticamente compilada ou a geração de um assistente de karaokê. Nada disso é possível sem mecanismos de memória capazes de lidar com longos diálogos e tópicos diversos. Este blog oferece um mergulho técnico profundo no motor de memória do Macaron, discutindo compressão hierárquica, recuperação por vetor, controle por reforço e controle de privacidade. Comparamos o design do Macaron com outros sistemas de geração aumentada por recuperação (RAG) e discutimos como esses mecanismos permitem que usuários japoneses e coreanos desfrutem de experiências personalizadas.

1 Representação de Memória Hierárquica

1.1 Arquitetura de múltiplas lojas: curto prazo, episódica e longo prazo

Macaron organiza a memória em múltiplos armazenamentos. O armazenamento de curto prazo mantém a conversa atual e abrange aproximadamente 8 a 16 mensagens. Ele funciona como um contexto típico de transformador: os tokens são processados sequencialmente com atenção. O armazenamento episódico mantém interações recentes (por exemplo, dos últimos dias) e é atualizado periodicamente. Aqui, o Macaron emprega um transformador compressivo: as mensagens são comprimidas em vetores de resumo usando atenção convolucional, permitindo que o modelo mantenha o contexto além do comprimento nativo da janela. O armazenamento de longo prazo mantém eventos importantes, fatos e configurações de mini-aplicativos e é implementado como um banco de dados vetorial. Cada item de memória inclui metadados (carimbo de data/hora, tags de domínio, tags de idioma) e um embedding produzido por um codificador multilíngue.

1.2 Compressão via sumarização latente e auto codificação

Um dos principais desafios em conversas longas é que o custo da autoatenção cresce quadraticamente com o comprimento da sequência. Para gerenciar isso, o Macaron emprega uma camada de sumarização latente: em vez de prestar atenção a cada token, o modelo aprende a identificar segmentos relevantes e comprimi-los em uma representação de comprimento fixo. Esta camada é treinada usando um objetivo de auto-codificação que reconstrói estados ocultos a partir de resumos comprimidos. O aprendizado por reforço ajusta o sumarizador: se o agente falhar em lembrar detalhes importantes posteriormente, a política é penalizada, incentivando-o a reter mais informações sobre eventos semelhantes no futuro.

1.3 Token de memória dinâmica como uma rede de ponteiros

O token de memória descrito no artigo de notícias de Taiwan funciona como um ponteiro que percorre a memória para escolher itens relevantes. Durante a recuperação, o token consulta iterativamente o banco de memória: ele recupera uma memória candidata, avalia sua relevância para o contexto atual usando uma função de pontuação aprendida e decide se retorna ou continua pesquisando. Este processo é semelhante a uma rede de ponteiros usada na otimização combinatória neural. Sinais de reforço guiam o token para selecionar sequências de memórias que maximizam a satisfação do usuário (por exemplo, prevendo corretamente a preferência de um usuário por jazz). O token também pode atualizar a memória: quando novas informações chegam, ele decide se as funde com memórias existentes ou aloca um novo slot.

2 Recuperação de Vetores e Expansão de Consultas

2.1 Pesquisa de vizinhos mais próximos aproximada

A memória de longo prazo do Macaron utiliza um banco de dados de vetores de alta dimensão. As consultas são convertidas em embeddings através de um codificador multilíngue; em seguida, uma busca de vizinhos mais próximos aproximada (ANN) retorna as principais memórias. O sistema usa quantização de produto para acelerar a busca e manter uma latência abaixo de 50 ms, mesmo ao armazenar milhões de itens de memória. Para evitar a recuperação de duplicatas triviais, o sistema aplica relevância marginal máxima (MMR), equilibrando similaridade e diversidade entre os resultados.

2.2 Expansão de consultas usando contexto e metas do usuário

A correspondência simples de palavras-chave não é suficiente para capturar a intenção do usuário. O Macaron expande consultas usando a meta atual e a intenção latente do usuário. Por exemplo, se o usuário em Tóquio menciona "花火大会" (festival de fogos de artifício), o sistema expande a consulta para incluir "ingressos", "data" e "clima" com base em ações típicas relacionadas a festivais. Se um usuário coreano pergunta sobre "김치전 만드는 법" (como fazer panquecas de kimchi), o sistema também busca experiências de culinária passadas, dados nutricionais e disponibilidade de ingredientes locais. A expansão de consultas é gerida por um previsor de metas treinado para mapear o contexto da conversa para um conjunto de subtópicos relevantes.

2.3 Recuperação entre domínios e federação de relevância

O mecanismo de memória deve lidar com consultas que abrangem múltiplos domínios. O mecanismo de relevância federada descrito no artigo de auto-modelo do Macaron permite que o sistema acesse memórias através dos limites de domínio. Quando o agente ajuda um usuário japonês a planejar um casamento, pode ser necessário recuperar memórias de viagem (destinos de lua de mel), memórias financeiras (orçamento) e memórias culturais (etiqueta de casamento). Cada domínio tem seu próprio índice de recuperação, e o sistema usa uma função de porta softmax para distribuir probabilidades de recuperação entre os domínios. A função de porta é treinada com RL para minimizar a recuperação de itens irrelevantes, garantindo que conexões importantes entre domínios não sejam perdidas. Para consultas interlinguísticas, a função de porta também considera etiquetas de idioma para preferir memórias do mesmo idioma, mas permite recuperação entre idiomas quando a similaridade semântica é alta.

3 Portas de Memória Guiadas por Reforço

3.1 Modelagem de recompensa e inspiração FireAct

A equipe da Macaron se inspirou no projeto FireAct, que demonstrou que o pós-treinamento de RL melhora a precisão do raciocínio em 77% em comparação com métodos baseados em prompts. No Macaron, RL é usado para treinar a política de gerenciamento de memória: uma rede neural que decide se deve armazenar, atualizar ou descartar informações e como ponderar fortemente as memórias recuperadas. A função de recompensa combina múltiplos sinais: conclusão de tarefas, satisfação do usuário, conformidade com a privacidade e eficiência computacional. Por exemplo, recuperar muitas memórias desacelera as respostas, então a recompensa penaliza recordações desnecessárias. Esquecer detalhes relevantes resulta em menor satisfação do usuário, então a política aprende a mantê-los por mais tempo. A função de recompensa é ajustada de forma diferente para os mercados japonês e coreano: usuários japoneses podem penalizar o compartilhamento excessivo de detalhes privados, enquanto usuários coreanos podem valorizar a rapidez e sugestões proativas.

3.2 Atribuição de crédito temporal e tecelagem do tempo

O aprendizado por reforço muitas vezes enfrenta dificuldades com horizontes longos: ações tomadas agora podem afetar resultados no futuro distante. O Macaron aborda isso através de tecelagem temporal, um mecanismo onde eventos ao longo do tempo são conectados por carimbos de tempo e fios narrativos. Ao avaliar o impacto de recordar uma memória antiga, o sistema pode rastrear a cadeia de interações que se seguiram. Isso permite que o agente de RL atribua crédito ou culpa a decisões específicas de recuperação. Por exemplo, se referenciar um aniversário esquecido melhora um relacionamento, o sistema atribui uma recompensa positiva ao portal de memória que preserva a memória do aniversário. Se trazer à tona um momento embaraçoso causou desconforto, o portal recebe uma recompensa negativa.

3.3 Aprendizado por Reforço Hierárquico e Políticas de Portais Modulares

O Macaron usa aprendizado por reforço hierárquico para gerenciar a complexidade. Um controlador de alto nível seleciona módulos (por exemplo, recuperação, sumarização, compressão) com base no objetivo atual do usuário, enquanto políticas de baixo nível lidam com ações específicas dentro de cada módulo. Este design modular facilita o aprendizado por transferência: uma política de portais treinada para conversas sobre culinária japonesa pode ser reutilizada para receitas coreanas. Isso também permite que o Macaron atualize módulos individuais sem re-treinar todo o sistema. Para garantir a estabilidade, o Macaron emprega otimização de política proximal (PPO) com recorte de região de confiança, equilibrando exploração e exploração e prevenindo o esquecimento catastrófico.

4 Comparação com Outros Sistemas de Memória

4.1 Geração Aumentada por Recuperação (RAG)

Muitos sistemas de IA utilizam geração aumentada por recuperação para melhorar a precisão factual ao extrair informações de bases de dados externas. Modelos como o GPT-4 com RAG dependem de bases de conhecimento estáticas e não adaptam a recuperação com base no feedback do usuário. O motor de memória do Macaron difere em três aspectos principais:

Conteúdo personalizado: as memórias são específicas do usuário em vez de documentos genéricos da web. A recuperação resulta em experiências e objetivos, não em fatos enciclopédicos.
Armazenamento guiado por reforço: o sistema aprende o que armazenar ou esquecer com base em sinais de recompensa, enquanto os sistemas RAG frequentemente armazenam tudo indiscriminadamente.
Privacidade e vinculação de políticas: cada memória inclui metadados de privacidade, e a recuperação respeita as regras de acesso. A maioria das implementações de RAG carece de tal controle detalhado.

4.2 Modelos de linguagem de longo contexto

LLMs recentes, como o Claude 3 da Anthropic e o Gemini do Google, podem lidar com contextos de centenas de milhares de tokens ao expandir a janela de atenção. Esses modelos não realizam recuperação explícita; em vez disso, confiam na capacidade de atender a sequências longas. Embora isso lhes permita lembrar de segmentos anteriores de conversação, é computacionalmente caro e não suporta o esquecimento controlado pelo usuário. O Macaron combina um contexto médio com recuperação para alcançar cobertura semelhante a um custo menor e com maior controle de privacidade. O token de memória dinâmica atua como um ponteiro para armazenamento externo, permitindo que o modelo lide com anos de dados sem armazenar tudo no contexto ativo.

4.3 Bancos de dados vetoriais e redes de memória

Bancos de dados vetoriais como Pinecone e Faiss são frequentemente usados para armazenar embeddings para tarefas de recuperação. O armazenamento de longo prazo do Macaron baseia-se nessas tecnologias, mas as integra com controle de portão regulado por RL. Enquanto isso, redes de memória iniciais como a Rede de Memória End-to-End pré-computam um conjunto fixo de slots de memória e os atendem com atenção suave. O Macaron estende isso permitindo que o número de slots cresça ou diminua dinamicamente e usando RL para decidir quais slots permanecem. Nesse sentido, o mecanismo de memória do Macaron é mais parecido com uma máquina de Turing neural com um controlador aprendido que lê e escreve em uma fita de memória externa.

5 Privacidade e Alinhamento Regulatório

5.1 Vinculação de política e transparência diferenciada

A conformidade com as regulamentações regionais é crucial. A vinculação de políticas anexa regras de privacidade legíveis por máquina aos dados. Por exemplo, uma memória contendo dados financeiros pode incluir uma regra de que só pode ser acessada após autenticação biométrica. Transparência diferenciada oferece níveis variados de divulgação para diferentes partes interessadas: um consumidor japonês pode revisar seus próprios dados, um regulador coreano pode ver estatísticas agregadas e os desenvolvedores recebem feedback anonimizado para melhoria do modelo. Esses mecanismos estão alinhados com a ênfase da Lei de Promoção da IA na transparência e com os requisitos da Lei-Quadro de IA da Coreia para gestão de riscos e supervisão humana.

5.2 Aplicação e responsabilização por meio de nomeação e vergonha

A Lei de Promoção da IA do Japão não possui penalidades diretas, mas utiliza um mecanismo de nomeação e vergonha para identificar publicamente empresas não conformes. Os registros de auditoria da Macaron rastreiam o acesso à memória e as decisões de políticas, permitindo que a empresa demonstre conformidade se auditada. O quadro da Coreia pode impor multas moderadas (até KRW 30 milhões) por violações. Ao anexar metadados a cada evento de memória, a Macaron pode gerar relatórios de conformidade automaticamente. O sistema também permite que os usuários exportem e excluam seus dados, alinhando-se à norma global emergente de portabilidade de dados.

5.3 Analogias à memória humana

O sistema de memória do Macaron ecoa a arquitetura da memória humana. Cientistas cognitivos descrevem a memória de trabalho como um buffer limitado no córtex pré-frontal, a memória episódica como um armazenamento baseado em eventos mediado pelo hipocampo, e a memória semântica como conhecimento geral distribuído pelo córtex. Da mesma forma, o Macaron possui uma janela de contexto de curto prazo, um armazenamento episódico e um banco de dados vetorial de longo prazo. A decadência de referência se assemelha à curva de esquecimento humano: memórias se desvanecem a menos que sejam reforçadas. A tecelagem do tempo é paralela à maneira como os humanos criam narrativas de vida ligando eventos ao longo do tempo. Ao imitar esses mecanismos, o Macaron não apenas otimiza recursos computacionais, mas também produz interações mais naturais. Quando um usuário se lembra de um festival de infância, o agente pode recordar eventos relacionados e entrelaçá-los na conversa atual, assim como um amigo humano faria.

5.4 Direções futuras de pesquisa

Apesar de sua sofisticação, o motor de memória do Macaron deixa questões em aberto. Uma área é a memória autocompressiva: desenvolver módulos neurais que resumem e comprimem automaticamente memórias sem supervisão externa. Outra é o aprendizado contínuo: capacitar o agente a adaptar continuamente suas estratégias de memória à medida que o comportamento do usuário evolui. O alinhamento multilíngue continua sendo um tópico de pesquisa ativo; modelos futuros podem empregar aprendizado de representação contrastiva para alinhar memórias de maneira mais fluida entre japonês, coreano e outros idiomas. Pesquisadores também estão explorando hardware neuromórfico e redes neurais de picos para implementar memória com menor custo de energia. Finalmente, integrar aprendizado federado permitirá que os usuários treinem os modelos de memória do Macaron localmente, compartilhando apenas atualizações do modelo em vez de dados brutos, melhorando a privacidade enquanto aprimora o desempenho coletivo.