Aprendizaje por Refuerzo en Agentes Personales: Modelos de Recompensa y Adaptación Jerárquica de Macaron AI

Introducción

El aprendizaje por refuerzo (RL) se ha convertido en un pilar fundamental de la IA moderna, permitiendo a los agentes aprender políticas óptimas a través de la prueba y error. En el contexto de la IA personal, sin embargo, el RL enfrenta desafíos únicos: las recompensas son subjetivas, los entornos no son estacionarios y abundan las consideraciones éticas. Los diseñadores de Macaron AI enfrentaron estos desafíos de frente, construyendo un sistema RL multinivel que gestiona la administración de la memoria, la síntesis de código, el estilo de conversación y más. Este blog examina cómo Macaron aplica RL jerárquico, modelado de recompensas, asignación de crédito y restricciones de equidad para crear un agente verdaderamente personalizado. También contrastamos el enfoque de RL de Macaron con el RL en otros dominios y exploramos direcciones futuras.

1 Modelado de Recompensas: Capturando Preferencias Humanas

1.1 Señales de retroalimentación implícitas y explícitas

A diferencia de los juegos de mesa o los entornos simulados, los agentes personales operan en espacios abiertos donde la recompensa no puede derivarse únicamente del éxito de la tarea. Macaron recopila comentarios implícitos (duración de la conversación, frecuencia de uso, tono de las respuestas del usuario) y comentarios explícitos (calificaciones, pulgares arriba/abajo) para construir una señal de recompensa. Por ejemplo, si un usuario japonés participa en conversaciones más largas después de que el agente utiliza un lenguaje cortés, esta correlación positiva aumenta la recompensa por un comportamiento similar. Si un usuario coreano califica mal una miniaplicación generada debido a un diseño desordenado, la recompensa por ese patrón de interfaz de usuario disminuye. Estas señales alimentan un modelo de recompensa que predice la satisfacción del usuario para un estado y acción dados.

1.2 Funciones de recompensa multiobjetivo

El RL de Macaron es multiobjetivo. Además de la satisfacción del usuario, la recompensa incluye términos para privacidad, cumplimiento, uso de recursos y ética. Compartir información sensible sin el debido consentimiento conlleva una penalización, mientras que comprimir la memoria de manera efectiva otorga un bono. Para la generación de código, la eficiencia y el mantenimiento influyen en la recompensa: la complejidad excesiva (por ejemplo, generar 100,000 líneas innecesariamente) resulta en recompensas negativas. Los pesos de recompensa están ajustados para diferentes regiones. El énfasis de Japón en la privacidad y la transparencia aumenta la penalización por violaciones de privacidad, mientras que el enfoque de Corea en la innovación puede dar más peso a la velocidad y la novedad. Balancear estos objetivos requiere un diseño cuidadoso; Macaron utiliza una función de escalarización que convierte múltiples objetivos en una sola recompensa mediante sumas ponderadas y escalado dinámico.

1.3 Elicitación de preferencias y humano en el bucle

La retroalimentación humana es crucial para alinear los sistemas de IA con los valores. Macaron implementa la elicitación de preferencias presentando respuestas alternativas o diseños de miniapps y preguntando a los usuarios cuál prefieren. Estos datos alimentan un modelo de inferencia que aprende una función de utilidad latente sobre posibles acciones. El enfoque es similar a RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana) utilizado para entrenar grandes modelos de lenguaje, pero Macaron lo amplía incorporando anotaciones culturales: los anotadores japoneses comentan sobre la cortesía y el contexto, mientras que los anotadores coreanos señalan frases comunales frente a individualistas. El modelo de recompensa resultante refleja preferencias matizadas entre culturas.

2 RL Jerárquico: Descomponiendo la Complejidad

2.1 Política de alto nivel sobre módulos

Las tareas de Macaron van desde charlas casuales hasta la generación de software complejo. Para gestionar esta diversidad, el sistema emplea RL jerárquico. En el nivel superior, un metacontrolador selecciona entre módulos: gestor de conversaciones, gestor de memoria, motor de síntesis, regulador de emociones, etc. Cada módulo está controlado por una política de RL separada. Por ejemplo, el gestor de memoria utiliza RL para decidir qué almacenar o olvidar, mientras que el motor de síntesis utiliza RL para elegir plantillas de código. El metacontrolador recibe una recompensa de alto nivel que combina todas las recompensas de los módulos y aprende cuándo delegar tareas. Esta descomposición reduce el espacio de búsqueda y mejora la eficiencia del muestreo.

2.2 Descubrimiento de opciones y aprendizaje por transferencia

Dentro de los módulos, Macaron utiliza el marco de opciones para representar subpolíticas reutilizables. Una "opción" corresponde a una secuencia de acciones que logran un subobjetivo, como "resumir los gastos del mes pasado" o "recomendar un plan de estudio bilingüe". Las opciones descubiertas en el dominio japonés pueden transferirse al dominio coreano si la estructura subyacente se alinea. Cuando Macaron aprende una manera efectiva de manejar una solicitud del usuario en un idioma, puede aplicar la misma opción cuando el concepto aparece en otro idioma, acelerando la adaptación.

2.3 Abstracción temporal y macroacciones

La abstracción temporal permite a los agentes de RL razonar sobre diferentes escalas de tiempo. Macaron define macroacciones que encapsulan diálogos de múltiples turnos o cálculos prolongados. Por ejemplo, planear unas vacaciones familiares en Corea implica una macroacción que abarca la selección del destino, el transporte, el alojamiento y el diseño del itinerario. Los agentes de RL evalúan la macroacción en función de la recompensa acumulada en lugar de señales a corto plazo. Esto fomenta que el agente considere la satisfacción a largo plazo, como asegurar que el viaje coincida con las vacaciones escolares o evitar conflictos de programación.

3 Asignación de Créditos y Tejido Temporal

3.1 Trazado de cadenas causales

Asignar crédito a acciones específicas es un desafío cuando las recompensas llegan tarde. Macaron emplea entrelazado temporal, conectando eventos a través del tiempo con hilos narrativos. El agente construye un gráfico de interacciones donde los nodos representan recuerdos y los bordes representan relaciones causales. Al evaluar un resultado, el sistema recorre el gráfico hacia atrás para identificar qué recuperaciones o acciones contribuyeron. Por ejemplo, si recomendar un festival japonés aumentó la felicidad del usuario semanas después, el agente atribuye parte de la recompensa a recuperar la memoria del festival y a generar una mini‑app correspondiente. Este análisis causal explícito ayuda a la política de RL a aprender estrategias de recuperación efectivas.

3.2 Razonamiento contrafactual

Para mejorar la asignación de crédito, Macaron utiliza anclaje contrafactual. El agente considera acciones alternativas que podría haber tomado y estima la diferencia en el resultado. Si no recordar a un usuario coreano sobre un evento familiar hubiera resultado en vergüenza, el recordatorio real recibe una recompensa contrafactual positiva. Esto incentiva al agente a anticipar las consecuencias de olvidar o recordar información. El razonamiento contrafactual también ayuda a evitar el sobreajuste: el agente no asume automáticamente que repetir una acción exitosa siempre dará la misma recompensa; en su lugar, prueba si la acción realmente causa el resultado.

3.3 Recompensas retrasadas y trazas de elegibilidad

La implementación de RL de Macaron incorpora trazas de elegibilidad, un mecanismo que asigna crédito a los estados y acciones que preceden las recompensas. Cuando el agente recibe una recompensa retrasada (por ejemplo, la satisfacción de un usuario después de usar una mini-aplicación durante semanas), la traza ayuda a propagar la señal hacia decisiones anteriores como la selección de memoria, el tono de la conversación y las elecciones de módulos de código. Las trazas de elegibilidad están ponderadas por un factor de decaimiento; los estados más cercanos a la recompensa reciben mayor crédito. Este mecanismo incentiva al agente a optimizar la satisfacción a largo plazo en lugar de beneficios a corto plazo.

4 Consideraciones de Justicia, Seguridad y Ética

4.1 Evitar sesgos y discriminación

El aprendizaje por refuerzo puede aprender inadvertidamente sesgos de los datos de retroalimentación. Macaron mitiga esto incorporando restricciones de equidad en la función de recompensa. Por ejemplo, se penaliza al agente si recomienda consistentemente actividades específicas de género sin haber sido solicitado. El sistema monitorea los patrones de recomendación entre grupos demográficos y ajusta las recompensas para igualar las oportunidades. Al tratar temas sensibles como finanzas o salud, el agente consulta una biblioteca de políticas éticas que codifica normas culturales y requisitos legales. El incumplimiento de estas directrices desencadena una recompensa negativa o bloquea la acción por completo.

4.2 Supervisión humana y cumplimiento normativo

La Ley Marco de IA de Corea requiere supervisión humana para sistemas de alto impacto y notificaciones de IA generativa. Macaron cumple con esto al incluir a un humano en el bucle para decisiones importantes, como planificación financiera o asesoramiento médico. Cuando un usuario coreano genera una mini-aplicación de alto riesgo, el sistema les solicita que revisen y aprueben las acciones. La Ley de Promoción de IA de Japón enfatiza la transparencia; por lo tanto, Macaron registra decisiones de RL y proporciona a los usuarios explicaciones sobre por qué se seleccionaron ciertos recuerdos o módulos. Estas medidas generan confianza y aseguran responsabilidad.

4.3 Aplicación mediante la vergüenza pública y trazabilidad de auditorías

La ley de IA de Japón implementa un mecanismo de vergüenza pública para el incumplimiento. Los registros de RL de Macaron incluyen no solo recompensas, sino también la razón detrás de las decisiones. Si los reguladores investigan, la empresa puede demostrar que se abordaron los sesgos y se respetaron las reglas de privacidad. Los registros también apoyan auditorías de usuarios; los individuos pueden ver cómo su retroalimentación influyó en el comportamiento del agente. Tal transparencia disuade el mal uso de RL y fomenta la innovación ética.

5 Análisis Comparativo: Macaron vs Otros Agentes Impulsados por RL

5.1 Juegos, robótica y sistemas de recomendación

RL ha entregado resultados impresionantes en juegos (AlphaGo, Dota 2), robótica y sistemas de recomendación. Sin embargo, estos entornos ofrecen metas explícitas (ganar un juego, minimizar errores) y recompensas claras. La IA personal, en cambio, debe inferir metas a partir de datos desordenados y alinearse con los valores humanos. En los juegos, la exploración suele ser ilimitada; un agente puede sacrificar un peón para obtener una ventaja posicional. En la IA personal, sacrificar la confianza del usuario por un compromiso a corto plazo es inaceptable. El modelo de recompensas de Macaron penaliza explícitamente acciones que degradan la confianza, haciendo que el sistema sea conservador cuando es necesario.

5.2 Marcos de asistentes personales de código abierto

Algunos proyectos de código abierto ofrecen asistentes personales impulsados por RL que programan tareas o automatizan flujos de trabajo. Estos sistemas a menudo asumen una retroalimentación constante del usuario y tratan las tareas como independientes. Macaron se diferencia al integrar las tareas a través de su motor de memoria y al usar RL jerárquico para gestionar las interacciones. Su modelo de RL está profundamente entrelazado con el contexto cultural, las reglas de privacidad y la generación de código, lo que lo hace más complejo pero también más capaz. Mientras que otros agentes podrían usar RL para recomendar canciones basadas en el historial de escucha, Macaron utiliza RL para decidir si recordarte llamar a tu madre antes de generar una recomendación de regalo.

5.3 Investigación académica emergente

Investigadores han propuesto métodos de RL para controlar modelos de lenguaje grandes, como RLHF y diseño de entornos no supervisados. Macaron contribuye a esta literatura demostrando RL en un entorno real, multidominio y multilingüe. El proyecto FireAct estableció previamente que RL mejora la precisión del razonamiento en un 77% sobre agentes basados en prompts; Macaron extiende esta idea entrenando políticas de RL no solo en tareas de razonamiento, sino también en gestión de memoria, síntesis de código y estilo de diálogo. Destaca la importancia del diseño jerárquico, la asignación de crédito y las restricciones de equidad en la ampliación de RL para agentes personales.

5.4 Metaética y marcos normativos

El aprendizaje por refuerzo se optimiza para la recompensa, pero las funciones de recompensa codifican valores humanos que difieren entre culturas. Surgen preguntas metaéticas: ¿Debería el agente maximizar la felicidad, adherirse a una ética basada en el deber o equilibrar la equidad con la autonomía? Macaron aborda esto aprendiendo prioris normativos a partir de datos culturales. En Japón, donde se valora la armonía y el respeto por el orden social, el modelo de recompensa enfatiza la cortesía, el consenso y la sutileza. En Corea, que valora la resiliencia comunitaria y la innovación audaz, el modelo recompensa la asistencia proactiva y la transparencia. Estos marcos normativos no son estáticos; los usuarios pueden ajustar deslizadores éticos, y Macaron explora el espacio de valores bajo restricciones. Una dirección de investigación en curso es integrar teorías éticas formales—utilitarismo, deontología, ética de la virtud—en agentes de RL para que puedan explicar los compromisos morales detrás de sus acciones. Esto es especialmente importante para decisiones de alto impacto, como planificación financiera o recomendaciones de atención médica.

5.5 Direcciones futuras: RL social y recompensas grupales

Los agentes personales cada vez más median las interacciones dentro de familias, equipos y comunidades. El aprendizaje por refuerzo social extiende RL a entornos multiagente, donde los agentes deben considerar el bienestar de múltiples partes interesadas. Por ejemplo, al programar un evento familiar, Macaron debe equilibrar las preferencias individuales (privacidad, carga de trabajo) con la satisfacción colectiva. Las recompensas grupales pueden formarse utilizando la eficiencia de Pareto, asegurando que mejorar el resultado de un miembro no perjudique a otros, o principios de división justa. En contextos multilingües, la comunicación grupal puede ocurrir en varios idiomas; el agente debe unificar las recompensas a través de las fronteras lingüísticas respetando las normas culturales. La futura investigación explorará el RL equitativo, donde las voces marginadas tienen un peso mayor, asegurando la inclusividad. Otras vías incluyen el auto-juego para simular interacciones entre agentes, el meta-aprendizaje para adaptarse a nuevas dinámicas grupales y la inferencia causal para distinguir la correlación de la causalidad en la retroalimentación social. Estos avances permitirán a Macaron y a IA personales similares pasar de interacciones uno a uno a orquestar experiencias sociales, convirtiéndose en socios invaluables tanto en la sociedad japonesa como en la coreana.