Aprendizado por Reforço em Agentes Pessoais: Modelos de Recompensa e Adaptação Hierárquica da Macaron AI

Introdução

O aprendizado por reforço (RL) tornou-se um pilar da IA moderna, permitindo que agentes aprendam políticas ótimas através de tentativa e erro. No contexto da IA pessoal, no entanto, o RL enfrenta desafios únicos: as recompensas são subjetivas, os ambientes são não estacionários e as considerações éticas são abundantes. Os designers do Macaron AI enfrentaram esses desafios de frente, construindo um sistema RL em camadas que governa a gestão de memória, a síntese de código, o estilo de conversa e mais. Este blog examina como o Macaron aplica RL hierárquico, modelagem de recompensas, atribuição de crédito e restrições de equidade para criar um agente verdadeiramente personalizado. Também contrastamos a abordagem de RL do Macaron com RL em outros domínios e exploramos direções futuras.

1 Modelagem de Recompensas: Capturando Preferências Humanas

1.1 Sinais de feedback implícitos e explícitos

Ao contrário dos jogos de tabuleiro ou ambientes simulados, os agentes pessoais operam em espaços abertos onde a recompensa não pode ser derivada apenas do sucesso da tarefa. O Macaron reúne feedback implícito (duração da conversa, frequência de uso, tom das respostas do usuário) e feedback explícito (avaliações, positivo/negativo) para construir um sinal de recompensa. Por exemplo, se um usuário japonês se envolve em conversas mais longas após o agente usar uma linguagem educada, essa correlação positiva aumenta a recompensa para comportamentos semelhantes. Se um usuário coreano avalia mal um mini-app gerado devido ao design confuso, a recompensa para esse padrão de UI diminui. Esses sinais alimentam um modelo de recompensa que prevê a satisfação do usuário para um determinado estado e ação.

1.2 Funções de recompensa multiobjetivo

O RL do Macaron é multi-objetivo. Além da satisfação do usuário, a recompensa inclui termos para privacidade, conformidade, uso de recursos e ética. Compartilhar informações sensíveis sem o devido consentimento acarreta uma penalidade, enquanto comprimir a memória de forma eficaz gera um bônus. Para a geração de código, a eficiência e a manutenibilidade influenciam a recompensa: complexidade excessiva (por exemplo, gerar 100.000 linhas desnecessariamente) resulta em recompensas negativas. Os pesos das recompensas são ajustados para diferentes regiões. A ênfase do Japão em privacidade e transparência aumenta a penalidade para violações de privacidade, enquanto o foco da Coreia em inovação pode dar maior peso à velocidade e à novidade. Equilibrar esses objetivos requer um design cuidadoso; o Macaron usa uma função de escalarização que converte múltiplos objetivos em uma única recompensa por meio de somas ponderadas e escalonamento dinâmico.

1.3 Elicitação de preferências e humano-no-loop

O feedback humano é crucial para alinhar os sistemas de IA com os valores. O Macaron implementa a elicitação de preferências apresentando respostas alternativas ou designs de mini-aplicativos e perguntando aos usuários qual eles preferem. Esses dados alimentam um modelo de inferência que aprende uma função de utilidade latente sobre possíveis ações. A abordagem é semelhante ao RLHF (Reinforcement Learning from Human Feedback) usado para treinar grandes modelos de linguagem, mas o Macaron o expande incorporando anotações culturais: anotadores japoneses comentam sobre a polidez e o contexto, enquanto anotadores coreanos observam a formulação comunal versus individualista. O modelo de recompensa resultante reflete preferências sutis entre culturas.

2 RL Hierárquico: Decompondo a Complexidade

2.1 Política de alto nível sobre módulos

As tarefas do Macaron variam de bate-papo casual a geração de software complexo. Para gerenciar essa diversidade, o sistema emprega RL hierárquico. No nível superior, um meta-controlador seleciona entre módulos: gerente de conversa, gerente de memória, motor de síntese, regulador de emoção, etc. Cada módulo é controlado por uma política RL separada. Por exemplo, o gerente de memória usa RL para decidir o que armazenar ou esquecer, enquanto o motor de síntese usa RL para escolher modelos de código. O meta-controlador recebe uma recompensa de alto nível combinando todas as recompensas do módulo e aprende quando delegar tarefas. Essa decomposição reduz o espaço de busca e melhora a eficiência de amostragem.

2.2 Descoberta de opções e aprendizado de transferência

Dentro dos módulos, o Macaron usa a estrutura de opções para representar sub-políticas reutilizáveis. Uma "opção" corresponde a uma sequência de ações que atingem um subobjetivo, como "resumir as despesas do mês passado" ou "recomendar um plano de estudos bilíngue". Opções descobertas no domínio japonês podem ser transferidas para o domínio coreano se a estrutura subjacente estiver alinhada. Quando o Macaron aprende uma maneira eficaz de lidar com um pedido de usuário em uma língua, ele pode aplicar a mesma opção quando o conceito aparece em outra língua, acelerando a adaptação.

2.3 Abstração temporal e macro-ações

A abstração temporal permite que agentes de RL raciocinem em diferentes escalas de tempo. O Macaron define macro-ações que encapsulam diálogos de múltiplas etapas ou cálculos prolongados. Por exemplo, planejar umas férias em família na Coreia envolve uma macro-ação que abrange seleção de destino, transporte, acomodação e design do itinerário. Agentes de RL avaliam a macro-ação com base na recompensa acumulada, em vez de sinais de curto prazo. Isso incentiva o agente a considerar a satisfação a longo prazo, como garantir que a viagem esteja alinhada com as férias escolares ou evitar conflitos de agenda.

3 Atribuição de Crédito e Tecelagem do Tempo

3.1 Rastreando cadeias causais

Atribuir crédito a ações específicas é desafiador quando as recompensas chegam tardiamente. O Macaron utiliza tecelagem temporal, conectando eventos ao longo do tempo com fios narrativos. O agente constrói um gráfico de interações onde os nós representam memórias e as arestas representam relações causais. Ao avaliar um resultado, o sistema percorre o gráfico de trás para frente para identificar quais recuperações ou ações contribuíram. Por exemplo, se recomendar um festival japonês aumentou a felicidade do usuário semanas depois, o agente atribui parte da recompensa à recuperação da memória do festival e à geração de um mini-app correspondente. Essa análise causal explícita ajuda a política de RL a aprender estratégias eficazes de recuperação.

3.2 Raciocínio contrafactual

Para melhorar a atribuição de crédito, o Macaron usa ancoragem contrafactual. O agente considera ações alternativas que poderia ter tomado e estima a diferença no resultado. Se não lembrar um usuário coreano sobre um evento familiar resultaria em constrangimento, o lembrete real recebe uma recompensa contrafactual positiva. Isso incentiva o agente a antecipar as consequências de esquecer ou lembrar informações. O raciocínio contrafactual também ajuda a evitar o sobreajuste: o agente não assume automaticamente que repetir uma ação bem-sucedida sempre gerará a mesma recompensa; em vez disso, testa se a ação realmente causa o resultado.

3.3 Recompensas atrasadas e traços de elegibilidade

A implementação de RL do Macaron incorpora traços de elegibilidade, um mecanismo que atribui crédito a estados e ações que precedem recompensas. Quando o agente recebe uma recompensa atrasada (por exemplo, a satisfação de um usuário após usar um mini-app por semanas), o traço ajuda a propagar o sinal de volta para decisões anteriores, como seleção de memória, tom de conversa e escolhas de módulos de código. Os traços de elegibilidade são ponderados por um fator de decaimento; estados mais próximos da recompensa recebem maior crédito. Este mecanismo incentiva o agente a otimizar a satisfação a longo prazo em vez de ganhos a curto prazo.

4 Considerações de Justiça, Segurança e Ética

4.1 Evitando preconceito e discriminação

O aprendizado por reforço pode, inadvertidamente, aprender preconceitos a partir dos dados de feedback. O Macaron mitiga isso incorporando restrições de justiça na função de recompensa. Por exemplo, o agente é penalizado se recomendar consistentemente atividades específicas de gênero sem ter sido solicitado. O sistema monitora padrões de recomendação entre grupos demográficos e ajusta recompensas para equalizar oportunidades. Ao lidar com tópicos sensíveis como finanças ou saúde, o agente consulta uma biblioteca de políticas éticas que codifica normas culturais e requisitos legais. A violação dessas diretrizes aciona uma recompensa negativa ou bloqueia a ação completamente.

4.2 Supervisão humana e conformidade regulatória

A Lei do Quadro de IA da Coreia exige supervisão humana para sistemas de alto impacto e notificações de IA generativa. O Macaron cumpre isso incluindo um humano no loop para decisões importantes, como planejamento financeiro ou aconselhamento de saúde. Quando um usuário coreano gera um mini-app de alto risco, o sistema solicita que ele revise e aprove as ações. A Lei de Promoção de IA do Japão enfatiza a transparência; assim, o Macaron registra decisões de RL e fornece aos usuários explicações sobre por que certas memórias ou módulos foram selecionados. Essas medidas constroem confiança e garantem responsabilidade.

4.3 Aplicação e trilhas de auditoria de nome e vergonha

A lei de IA do Japão implementa um mecanismo de nome e vergonha para não conformidade. Os registros de RL do Macaron incluem não apenas recompensas, mas também a justificativa por trás das decisões. Se os reguladores investigarem, a empresa pode demonstrar que os preconceitos foram abordados e as regras de privacidade foram respeitadas. Os registros também suportam auditorias de usuários; indivíduos podem ver como seu feedback influenciou o comportamento do agente. Tal transparência desencoraja o uso indevido de RL e promove a inovação ética.

5 Análise Comparativa: Macaron vs Outros Agentes Baseados em RL

5.1 Jogos, robótica e sistemas de recomendação

RL tem apresentado resultados impressionantes em jogos (AlphaGo, Dota 2), robótica e sistemas de recomendação. No entanto, esses ambientes oferecem objetivos explícitos (vencer um jogo, minimizar erros) e recompensas claras. A IA pessoal, por outro lado, deve inferir objetivos a partir de dados desorganizados e alinhar-se com os valores humanos. Nos jogos, a exploração muitas vezes não é restrita; um agente pode sacrificar uma peça para ganhar vantagem posicional. Na IA pessoal, sacrificar a confiança do usuário por um engajamento de curto prazo é inaceitável. O modelo de recompensas do Macaron penaliza explicitamente ações que degradam a confiança, tornando o sistema conservador quando necessário.

5.2 Frameworks de assistente pessoal de código aberto

Alguns projetos de código aberto oferecem assistentes pessoais orientados por RL que agendam tarefas ou automatizam fluxos de trabalho. Esses sistemas muitas vezes assumem feedback constante do usuário e tratam as tarefas como independentes. O Macaron se diferencia ao integrar tarefas através de seu mecanismo de memória e ao usar RL hierárquico para gerenciar interações. Seu modelo de RL está profundamente entrelaçado com o contexto cultural, regras de privacidade e geração de código, tornando-o mais complexo, mas também mais capaz. Enquanto outros agentes podem usar RL para recomendar músicas com base no histórico de escuta, o Macaron usa RL para decidir se deve lembrá-lo de ligar para sua mãe antes de gerar uma recomendação de presente.

5.3 Pesquisa acadêmica emergente

Pesquisadores propuseram métodos de RL para controlar grandes modelos de linguagem, como RLHF e design de ambientes não supervisionados. O Macaron contribui para essa literatura ao demonstrar RL em um ambiente real, multidomínio e multilíngue. O projeto FireAct já estabeleceu que RL melhora a precisão do raciocínio em 77% em relação a agentes baseados em prompt; o Macaron expande essa ideia ao treinar políticas de RL não apenas em tarefas de raciocínio, mas também em gestão de memória, síntese de código e estilo de diálogo. Destaca a importância do design hierárquico, atribuição de crédito e restrições de justiça na expansão do RL para agentes pessoais.

5.4 Metaética e estruturas normativas

O aprendizado por reforço otimiza para recompensas, mas as funções de recompensa codificam valores humanos que diferem entre culturas. Surgem questões metaéticas: o agente deve maximizar a felicidade, aderir a uma ética baseada no dever ou equilibrar justiça com autonomia? O Macaron aborda isso aprendendo princípios normativos a partir de dados culturais. No Japão, onde a harmonia e o respeito pela ordem social são valorizados, o modelo de recompensa enfatiza a polidez, o consenso e a sutileza. Na Coreia, que valoriza a resiliência comunitária e a inovação ousada, o modelo recompensa a assistência proativa e a transparência. Esses frameworks normativos não são estáticos; os usuários podem ajustar controles éticos, e o Macaron explora o espaço de valores sob restrições. Uma direção de pesquisa contínua é integrar teorias éticas formais—utilitarismo, deontologia, ética das virtudes—em agentes de RL para que possam explicar os dilemas morais por trás de suas ações. Isso é especialmente importante para decisões de alto impacto, como planejamento financeiro ou recomendações de saúde.

5.5 Direções futuras: aprendizado por reforço social e recompensas em grupo

Agentes pessoais estão cada vez mais mediando interações dentro de famílias, equipes e comunidades. O aprendizado por reforço social estende o RL para ambientes multiagente, nos quais os agentes devem considerar o bem-estar de múltiplos stakeholders. Por exemplo, ao agendar um evento familiar, o Macaron deve equilibrar preferências individuais (privacidade, carga de trabalho) com a satisfação coletiva. As recompensas em grupo podem ser moldadas usando eficiência de Pareto — garantindo que melhorar o resultado de um membro não prejudique os outros — ou princípios de divisão justa. Em contextos multilíngues, a comunicação em grupo pode ocorrer em vários idiomas; o agente deve unificar recompensas através das barreiras linguísticas respeitando normas culturais. Pesquisas futuras explorarão o RL equitativo, onde vozes marginalizadas são mais ponderadas, garantindo inclusão. Outras avenidas incluem auto-jogo para simular interações entre agentes, meta-aprendizagem para se adaptar a novas dinâmicas de grupo e inferência causal para desmembrar correlação de causalidade no feedback social. Esses avanços permitirão que Macaron e AIs pessoais semelhantes passem de interações um-a-um para orquestrar experiências sociais, tornando-os parceiros inestimáveis tanto na sociedade japonesa quanto na coreana.