Author: Boxu Li
While the novelty of Macaron AI often draws attention to its ability to generate custom mini‑apps or to act as an empathetic friend, its true backbone is an intricate memory engine. This system allows Macaron to remember what matters, forget what doesn't, and retrieve relevant experiences quickly and safely. A simple conversation about music can lead to reminders about a concert next month, an automatically compiled playlist, or the generation of a karaoke assistant. None of this is possible without memory mechanisms capable of handling long dialogues and diverse topics. This blog provides a deep technical dive into Macaron's memory engine, discussing hierarchical compression, vector retrieval, reinforcement‑guided gating and privacy control. We compare Macaron's design with other retrieval‑augmented generation (RAG) systems and discuss how these mechanisms enable Japanese and Korean users to enjoy personalized experiences.
Macaron organiza la memoria en múltiples almacenes. El almacén a corto plazo mantiene la conversación actual y abarca aproximadamente de 8 a 16 mensajes. Actúa como un contexto típico de transformador: los tokens se procesan secuencialmente con atención. El almacén episódico guarda interacciones recientes (por ejemplo, los últimos días) y se actualiza periódicamente. Aquí, Macaron emplea un transformador compresivo: los mensajes se comprimen en vectores resumen utilizando atención convolucional, lo que permite al modelo mantener el contexto más allá de la longitud de ventana nativa. El almacén a largo plazo conserva eventos importantes, hechos y configuraciones de mini-aplicaciones, y se implementa como una base de datos vectorial. Cada elemento de memoria incluye metadatos (marca de tiempo, etiquetas de dominio, etiquetas de idioma) y un embedding producido por un codificador multilingüe.
Uno de los desafíos clave en las conversaciones largas es que el costo de la autoatención crece cuadráticamente con la longitud de la secuencia. Para gestionar esto, Macaron emplea una capa de resumen latente: en lugar de atender a cada token, el modelo aprende a identificar segmentos destacados y comprimirlos en una representación de longitud fija. Esta capa se entrena usando un objetivo de auto-codificación que reconstruye estados ocultos a partir de resúmenes comprimidos. El aprendizaje por refuerzo ajusta el resumidor: si el agente no recuerda detalles importantes más tarde, la política es penalizada, alentando a retener más información sobre eventos similares en el futuro.
El token de memoria descrito en el artículo de noticias de Taiwán funciona como un puntero que recorre la memoria para seleccionar elementos relevantes. Durante la recuperación, el token consulta iterativamente el banco de memoria: recupera un candidato de memoria, evalúa su relevancia para el contexto actual usando una función de puntuación aprendida y decide si devolverlo o continuar buscando. Este proceso es similar a una red de punteros utilizada en la optimización combinatoria neural. Las señales de refuerzo guían al token para seleccionar secuencias de memorias que maximicen la satisfacción del usuario (por ejemplo, predecir correctamente la preferencia de un usuario por el jazz). El token también puede actualizar la memoria: cuando llega nueva información, decide si fusionarla con memorias existentes o asignar un nuevo espacio.
La memoria a largo plazo de Macaron utiliza una base de datos de vectores de alta dimensión. Las consultas se convierten en embeddings a través de un codificador multilingüe; luego, una búsqueda de vecinos más cercanos aproximada (ANN) devuelve las principales memorias. El sistema utiliza cuantificación de productos para acelerar la búsqueda y mantener una latencia por debajo de 50 ms, incluso al almacenar millones de elementos de memoria. Para evitar recuperar duplicados triviales, el sistema aplica relevancia marginal máxima (MMR), equilibrando la similitud y la diversidad entre los resultados.
La simple coincidencia de palabras clave no es suficiente para captar la intención del usuario. Macaron amplía las consultas utilizando el objetivo actual del usuario y la intención latente. Por ejemplo, si un usuario en Tokio menciona "花火大会" (festival de fuegos artificiales), el sistema amplía la consulta para incluir "entradas", "fecha" y "clima" basándose en acciones típicas relacionadas con festivales. Si un usuario coreano pregunta sobre "김치전 만드는 법" (cómo hacer panqueques de kimchi), el sistema también busca experiencias culinarias pasadas, datos nutricionales y disponibilidad de ingredientes locales. La expansión de consultas es manejada por un predictor de objetivos entrenado para mapear el contexto de la conversación a un conjunto de subtemas relevantes.
El motor de memoria debe manejar consultas que abarcan múltiples dominios. El mecanismo de federación de relevancia descrito en el artículo de auto-modelo de Macaron permite al sistema acceder a recuerdos a través de límites de dominio. Cuando el agente ayuda a un usuario japonés a planificar una boda, podría necesitar recuperar recuerdos de viajes (destinos de luna de miel), recuerdos financieros (presupuesto) y recuerdos culturales (etiqueta de bodas). Cada dominio tiene su propio índice de recuperación, y el sistema utiliza una función de compuerta softmax para distribuir probabilidades de recuperación entre los dominios. La función de compuerta se entrena con RL para minimizar la recuperación de elementos irrelevantes mientras se asegura de no perder conexiones importantes entre dominios. Para consultas multilingües, la función de compuerta también considera etiquetas de idioma para preferir recuerdos en el mismo idioma pero permite la recuperación entre idiomas cuando la similitud semántica es alta.
El equipo de Macaron se inspiró en el proyecto FireAct, que demostró que el entrenamiento posterior con RL mejora la precisión del razonamiento en un 77% en comparación con los métodos basados en prompts. En Macaron, se utiliza RL para entrenar la política de compuerta de memoria: una red neuronal que decide si almacenar, actualizar o descartar información y cómo ponderar las memorias recuperadas. La función de recompensa combina múltiples señales: finalización de tareas, satisfacción del usuario, cumplimiento de la privacidad y eficiencia computacional. Por ejemplo, recuperar demasiadas memorias ralentiza las respuestas, por lo que la recompensa penaliza los recuerdos innecesarios. Olvidar detalles relevantes resulta en una menor satisfacción del usuario, por lo que la política aprende a mantenerlos por más tiempo. La función de recompensa se ajusta de manera diferente para los mercados japonés y coreano: los usuarios japoneses pueden penalizar el exceso de compartir detalles privados, mientras que los usuarios coreanos pueden valorar la velocidad y las sugerencias proactivas.
El aprendizaje por refuerzo a menudo tiene dificultades con horizontes largos: las acciones tomadas ahora pueden afectar los resultados en un futuro lejano. Macaron aborda esto a través de entrelazado temporal, un mecanismo donde los eventos a lo largo del tiempo están conectados por marcas de tiempo e hilos narrativos. Al evaluar el impacto de recordar una memoria antigua, el sistema puede rastrear la cadena de interacciones que siguieron. Esto permite al agente de RL asignar crédito o culpa a decisiones de recuperación específicas. Por ejemplo, si referenciar un aniversario olvidado mejora una relación, el sistema asigna una recompensa positiva a la puerta de memoria que preserva el recuerdo del aniversario. Si resurgir un momento embarazoso causó incomodidad, la puerta recibe una recompensa negativa.
Macaron utiliza aprendizaje por refuerzo jerárquico para gestionar la complejidad. Un controlador de alto nivel selecciona módulos (por ejemplo, recuperación, resumen, compresión) basándose en el objetivo actual del usuario, mientras que las políticas de bajo nivel manejan acciones específicas dentro de cada módulo. Este diseño modular facilita el aprendizaje por transferencia: una política de compuerta entrenada para conversaciones de cocina japonesa puede reutilizarse para recetas coreanas. También permite a Macaron actualizar módulos individuales sin reentrenar todo el sistema. Para asegurar estabilidad, Macaron emplea optimización de políticas proximales (PPO) con recorte de región de confianza, equilibrando exploración y explotación y previniendo el olvido catastrófico.
Muchos sistemas de IA utilizan la generación aumentada por recuperación para mejorar la precisión factual al extraer información de bases de datos externas. Modelos como GPT‑4 con RAG dependen de bases de conocimiento estáticas y no adaptan la recuperación basada en la retroalimentación del usuario. El motor de memoria de Macaron se diferencia en tres aspectos clave:
Los LLM recientes como Claude 3 de Anthropic y Gemini de Google pueden manejar contextos de cientos de miles de tokens ampliando la ventana de atención. Estos modelos no realizan recuperación explícita; en cambio, confían en la capacidad de atender a largas secuencias. Aunque esto les permite recordar segmentos anteriores de la conversación, es computacionalmente costoso y no admite el olvido controlado por el usuario. Macaron combina un contexto medio con recuperación para lograr una cobertura similar a menor costo y con mayor control de privacidad. El token de memoria dinámica actúa como un puntero a un almacenamiento externo, permitiendo al modelo manejar años de datos sin almacenar todo en el contexto activo.
Las bases de datos vectoriales como Pinecone y Faiss se utilizan a menudo para almacenar incrustaciones para tareas de recuperación. El almacenamiento a largo plazo de Macaron se basa en estas tecnologías pero las integra con un control de compuerta gestionado por RL. Mientras tanto, las primeras redes de memoria como la End-to-End Memory Network precomputan un conjunto fijo de ranuras de memoria y atienden sobre ellas con atención suave. Macaron amplía esto permitiendo que el número de ranuras crezca o se reduzca dinámicamente y utilizando RL para decidir qué ranuras permanecen. En este sentido, el motor de memoria de Macaron se asemeja más a una máquina de Turing neural con un controlador aprendido que lee y escribe en una cinta de memoria externa.
Cumplir con las regulaciones regionales es crucial. La vinculación de políticas adjunta reglas de privacidad legibles por máquina a los datos. Por ejemplo, una memoria que contiene datos financieros podría incluir una regla que indique que solo se puede acceder después de la autenticación biométrica. La transparencia diferenciada ofrece diferentes niveles de divulgación a diferentes partes interesadas: un consumidor japonés puede revisar sus propios datos, un regulador coreano puede ver estadísticas agregadas y los desarrolladores reciben comentarios anonimizados para mejorar el modelo. Estos mecanismos se alinean con el énfasis del Acta de Promoción de la IA en la transparencia y los requisitos de la Ley Marco de IA de Corea para la gestión de riesgos y supervisión humana.
El Acta de Promoción de la IA de Japón carece de sanciones directas pero utiliza un mecanismo de nombrar y avergonzar para identificar públicamente a las empresas no conformes. Los registros de auditoría de Macaron rastrean el acceso a la memoria y las decisiones políticas, permitiendo a la empresa demostrar cumplimiento si es auditada. El marco de Corea puede imponer multas modestas (hasta KRW 30 millones) por violaciones. Al adjuntar metadatos a cada evento de memoria, Macaron puede generar informes de cumplimiento automáticamente. El sistema también permite a los usuarios exportar y eliminar sus datos, alineándose con la norma global emergente de portabilidad de datos.
El sistema de memoria de Macaron refleja la arquitectura de la memoria humana. Los científicos cognitivos describen la memoria de trabajo como un buffer limitado en la corteza prefrontal, la memoria episódica como un almacenamiento basado en eventos mediado por el hipocampo y la memoria semántica como conocimiento general distribuido a lo largo de la corteza. De manera similar, Macaron tiene una ventana de contexto a corto plazo, un almacenamiento episódico y una base de datos vectorial a largo plazo. La decadencia de referencia se asemeja a la curva de olvido humana: los recuerdos se desvanecen a menos que se refuercen. El tejido temporal es paralelo a la forma en que los humanos crean narrativas de vida al vincular eventos a través del tiempo. Al imitar estos mecanismos, Macaron no solo optimiza los recursos computacionales, sino que también produce interacciones más naturales. Cuando un usuario rememora un festival de su infancia, el agente puede recordar eventos relacionados e integrarlos en la conversación actual, tal como lo haría un amigo humano.
A pesar de su sofisticación, el motor de memoria de Macaron deja preguntas abiertas. Un área es la memoria auto-comprimida: desarrollar módulos neuronales que resuman y compriman automáticamente los recuerdos sin supervisión externa. Otra es el aprendizaje continuo: permitir que el agente adapte continuamente sus estrategias de memoria a medida que evoluciona el comportamiento del usuario. La alineación multilingüe sigue siendo un tema de investigación activo; los modelos futuros pueden emplear el aprendizaje de representación contrastiva para alinear los recuerdos en japonés, coreano y otros idiomas de manera más fluida. Los investigadores también están explorando el hardware neuromórfico y las redes neuronales de picos para implementar la memoria con un costo energético menor. Finalmente, la integración del aprendizaje federado permitirá a los usuarios entrenar los modelos de memoria de Macaron localmente, compartiendo solo actualizaciones del modelo en lugar de datos sin procesar, mejorando así la privacidad al tiempo que se mejora el rendimiento colectivo.