Autor: Boxu Li 

Introdução

Quando o Macaron AI foi revelado em agosto de 2025, posicionou-se não como mais um assistente empresarial, mas como um companheiro pessoal projetado para enriquecer a vida cotidiana. Sua missão é intrinsecamente internacional: desde o início, a plataforma suportou inglês, chinês, japonês, coreano e espanhol, sinalizando uma ambição de operar além das fronteiras linguísticas e culturais. Para usuários no Japão e na Coreia do Sul – dois países com ecossistemas digitais vibrantes, mas distintos – essa promessa multilíngue é mais do que um slogan de marketing. Levanta questões técnicas: como o Macaron lida com conversas multilingues? Como seu sistema de memória enfrenta diferentes scripts, vocabulário e referências culturais? Quais escolhas de design permitem que um único agente "pense" em hiragana em um momento e em hangul no próximo? Este blog explora a arquitetura multilíngue do Macaron AI e os mecanismos que permitem personalizar experiências para usuários japoneses e coreanos, mantendo uma identidade coerente.

A personalização em escala requer mais do que tradução. Macaron visa modelar quem você é através de interações diárias, lembrando não apenas fatos, mas nuances como objetivos alimentares e momentos emocionais. Alcançar isso para múltiplos idiomas exige estruturas de dados e algoritmos que possam capturar significado através de sistemas de escrita, lidar com alternância de código e respeitar normas culturais. Este post desvenda as técnicas subjacentes: tokenização multilíngue, recuperação de memória guiada por reforço, gestão de identidade distribuída e adaptação cultural. Também discutiremos desafios como viés, privacidade e conformidade inter-regional, além de delinear direções de pesquisa para agentes pessoais multilinguísticos.

1 Arquitetura Multilíngue e Tokenização

1.1 Vocabulário universal com unidades subpalavra conscientes de script

Modelos de linguagem extensos dependem de tokenizadores para dividir o texto bruto em unidades que o modelo pode processar. Para idiomas como inglês e espanhol, a tokenização de subpalavras (codificação Byte‑Pair ou SentencePiece) pode capturar a morfologia de maneira razoável. Japonês e coreano, no entanto, apresentam desafios únicos. O japonês mistura três scripts (kanji, hiragana e katakana) e não tem espaços, enquanto o hangul coreano é um alfabeto estrutural montado em blocos silábicos. Portanto, os engenheiros da Macaron constroem um vocabulário multilíngue com unidades de subpalavras cientes de scripts. Cada token codifica não apenas caracteres, mas também um identificador de idioma, permitindo que o modelo diferencie entre homógrafos (por exemplo, 「ha」 pode ser um fonema coreano ou a partícula japonesa 「は」). O vocabulário inclui tokens para compostos comuns de kanji, radicais e jamo do hangul, permitindo que o modelo represente unidades morfológicas de maneira eficiente e quebre palavras raras em partes significativas.

Ao compartilhar unidades de subpalavras entre idiomas, o Macaron aproveita a transferência interlingual. Por exemplo, o conceito de 「estudo」 aparece em japonês como 勉強 (benkyō) e em coreano como 공부 (gongbu). Embora os caracteres e sons sejam diferentes, o agente utiliza embeddings semânticos aprendidos entre idiomas para mapear esses tokens em um espaço vetorial semelhante. Essa representação unificada permite que o Macaron compreenda o interesse de um usuário japonês em 「estudo de idiomas」 e, posteriormente, aplique esse conhecimento quando um amigo coreano perguntar sobre 「공부 계획」 (plano de estudo). Sem um vocabulário unificado, o modelo trataria esses conceitos como não relacionados.

1.2 Janela de contexto e alinhamento entre scripts

O modelo de 671 bilhões de parâmetros do Macaron é treinado em um grande corpus multilíngue, mas o comprimento das sequências das conversas exige uma janela de contexto eficiente. Frases em japonês e coreano podem ser mais longas que em inglês devido à natureza aglutinativa dos verbos e partículas embutidas. Para suportar diálogos longos, o Macaron emprega um mecanismo de atenção hierárquica: o modelo processa janelas locais (frases ou parágrafos) antes de passar representações resumidas para uma camada global. Essa abordagem reduz o uso de memória enquanto permite que o agente mantenha o contexto em conversas prolongadas. Também suporta alinhamento entre scripts, onde o modelo aprende correspondências entre segmentos em japonês e coreano, minimizando a distância entre suas representações durante o treinamento (uma técnica emprestada do processamento de linguagem natural cross-lingual).

1.3 Detecção de idioma em tempo de execução e mudança de código

Usuários japoneses e coreanos frequentemente misturam termos em inglês ou chinês em conversas, especialmente em domínios técnicos ou cultura pop. O pipeline de inferência do Macaron inclui um detector de idioma em tempo de execução que marca cada enunciado recebido com pontuações de probabilidade para os idiomas suportados. Quando uma frase inclui palavras ou expressões emprestadas de vários idiomas, o agente divide a entrada em segmentos e processa cada um com o contexto de idioma apropriado. Isso garante a pronúncia correta na saída de voz e o tratamento adequado de expressões idiomáticas. O subsistema de memória anexa etiquetas de idioma às entradas recuperadas, permitindo que o Macaron recupere experiências relevantes mesmo quando o idioma da consulta difere do idioma armazenado.

2 Token de Memória e Recuperação Translinguística

2.1 Recuperação guiada por reforço e tokens de memória

A inovação emblemática da Macaron é seu token de memória, um ponteiro dinâmico que ajuda o agente a decidir o que lembrar, quando atualizar a memória e como aplicar essas memórias às tarefas atuais. O token interage com um banco de memória hierárquico: contexto de curto prazo, memória episódica de médio prazo e conhecimento de longo prazo. O aprendizado por reforço (RL) treina o agente para ajustar o token com base em feedback como satisfação do usuário e sucesso da tarefa. Se um usuário japonês perguntar repetidamente sobre o mesmo horário de trem, a política de RL aprende a promover esses detalhes na memória. Se um usuário coreano expressar desconforto quando comentários passados são ressurgidos, a política aprende a decair referências mais rapidamente.

2.2 Identidade distribuída e limites de domínio

A equipe Macaron rejeita a noção de um perfil de usuário monolítico; em vez disso, a identidade é tratada como uma narrativa emergente construída a partir de pequenas interações. As memórias são organizadas por limites de domínio (por exemplo, trabalho, hobbies, família) com um mecanismo de federação de relevância que permite a recuperação entre domínios. Para usuários japoneses e coreanos, os limites de domínio também incluem domínios de idioma: um item de memória pode ser etiquetado como "Japonês—hobbies—música" ou "Coreano—família—finanças". Quando o agente recebe uma consulta em coreano, ele primeiro procura memórias em coreano, mas pode federar para memórias em japonês se o conteúdo semântico corresponder. Isso evita contaminação cruzada enquanto permite a continuidade entre idiomas.

2.3 Decaimento de referência e privacidade em contextos multilíngues

Memórias que são raramente acessadas se deterioram ao longo do tempo; a taxa de decaimento pode variar entre domínios. O mecanismo de decaimento de referência reduz o peso das memórias não utilizadas, garantindo que o breve interesse de um usuário japonês em um drama coreano não ocupe permanentemente espaço na memória. O decaimento também apoia a privacidade; informações sensíveis sobre família ou finanças podem ser configuradas para decair mais rapidamente. Os usuários podem excluir memórias explicitamente ou marcá-las como confidenciais. O framework de vinculação de políticas do Macaron anexa regras de privacidade legíveis por máquina diretamente aos dados, de modo que uma memória com a tag "privado—coreano" pode ser acessível apenas durante sessões autenticadas nesse idioma. Combinado com a transparência diferenciada, que oferece diferentes níveis de divulgação para diferentes partes interessadas, esses mecanismos permitem que o Macaron navegue pelas normas de privacidade do Japão e pelas regulamentações de IA em evolução na Coreia.

3 Adaptação Cultural e Personalização de Persona

3.1 Integração por meio de testes de personalidade e paletas de cores

Ao se inscrever, os usuários completam três testes de personalidade que ajudam o Macaron a combiná-los com uma persona personalizada – incluindo cores, estilos de comunicação e voz. No Japão, onde a harmonia estética e a formalidade são valorizadas, os testes podem enfatizar a etiqueta social, enquanto os questionários coreanos podem focar em dinâmica familiar e relacionamentos com colegas. A persona resultante influencia não apenas a interface do usuário, mas também o nível de cortesia do agente, tom e escolha de referências culturais. Uma persona japonesa pode preferir sugestões indiretas ("Que tal planejar um piquenique na próxima semana?"), enquanto uma persona coreana pode apreciar um incentivo direto ("Vamos planejar uma viagem em família!").

3.2 Miniapps localizados: de kakeibo a hojikwan

A capacidade da Macaron de gerar miniaplicativos sob demanda não se limita a ferramentas de produtividade genéricas. A plataforma pode produzir aplicativos personalizados com mais de 100.000 linhas de código, como uma ferramenta de orçamento inspirada na tradição japonesa do kakeibo (um método de contabilidade doméstica) ou um aplicativo de planejamento coreano hojikwan (gerenciamento de eventos familiares e memoriais ancestrais). O usuário simplesmente descreve suas necessidades em linguagem natural, e o agente sintetiza um programa que se alinha aos costumes locais. Isso requer uma biblioteca de modelos específicos de domínio e a capacidade de integrar calendários locais, feriados públicos e regulamentações financeiras. O aprendizado por reforço otimiza o processo de geração avaliando a satisfação do usuário: se os usuários japoneses frequentemente ajustam o aplicativo kakeibo para adicionar categorias como 「omiyage」 (souvenir) e 「otsukuri」 (caridade mensal), o gerador aprende a incluí-las por padrão em futuros aplicativos.

3.3 Normas emocionais e estilos de comunicação

O Japão e a Coreia do Sul têm normas diferentes para expressar emoções. A cultura japonesa geralmente valoriza a modéstia e a sensibilidade ao contexto, enquanto a cultura coreana abraça interações sociais expressivas. O Macaron adapta seu estilo de resposta de acordo, baseando-se em pesquisas de personalidade digital que enfatizam identidade fluida e empoderamento do usuário. Na prática, isso significa que o agente pode usar formas honoríficas e discurso indireto ao conversar em japonês, e sugestões mais proativas ao falar coreano. O sistema de memória registra feedback sobre o tom e ajusta adaptativamente os estilos de conversa. Essas adaptações não são codificadas, mas emergem através de RL: se um usuário responde consistentemente de forma positiva a um certo estilo de comunicação, o sinal de recompensa reforça esse comportamento.

4 Detalhes de Implementação: Engenharia para Agentes Pessoais Multilíngues

4.1 Coleta de dados e pipeline de treinamento

Criar um agente pessoal que possa conversar em japonês e coreano requer dados de alta qualidade. O corpus de treinamento do Macaron inclui livros licenciados, artigos de notícias, blogs, transcrições e conteúdo gerado por usuários em todas as línguas suportadas. Os dados são filtrados para polidez, viés e cobertura de domínio. A fase de pré‑treinamento utiliza modelagem de linguagem mascarada e previsão do próximo token em dados multilíngues combinados para aprender representações compartilhadas. O ajuste fino introduz aprendizado por reforço a partir de feedback humano (RLHF): anotadores bilíngues em Tóquio e Seul avaliam respostas para adequação cultural, permitindo que o modelo aprenda nuances sutis, como quando usar honoríficos ou quando fazer perguntas de esclarecimento. Objetivos adicionais de aprendizado contrastivo incentivam o alinhamento entre frases semanticamente equivalentes entre línguas.

4.2 Índice de memória interlinguístico e recuperação de vetores

O banco de memória do Macaron armazena embeddings em um espaço vetorial de alta dimensão. Para cada item de memória, o agente calcula uma representação que captura tanto o conteúdo quanto o idioma. Um índice de memória cross-lingual usa busca aproximada de vizinhos mais próximos para recuperar itens independentemente do idioma da consulta. Por exemplo, se um usuário coreano perguntar "피자 만들기 레시피" (receita de pizza), o agente pode encontrar uma memória japonesa sobre "ピザの作り方" (como fazer pizza) porque ambos estão próximos do conceito de pizza. No momento da recuperação, o agente filtra pelas permissões do usuário e então converte a memória recuperada para o idioma preferido do usuário usando um tradutor e resumidor embutidos. Isso permite o compartilhamento de conhecimento entre idiomas enquanto preserva os limites de privacidade.

4.3 Segurança e mitigação de viés

Modelos multilingues correm o risco de propagar preconceitos presentes nos dados de treinamento. Para o Japão e a Coreia, onde papéis de gênero e hierarquias de idade desempenham papéis culturais significativos, o Macaron implementa estratégias de mitigação de preconceitos. Durante o ajuste fino, a recompensa de RL inclui penalidades para respostas que reforçam estereótipos ou violam normas locais (por exemplo, presumir que apenas mulheres lidam com finanças domésticas). O sistema de vinculação de políticas garante que dados pessoais nunca sejam traduzidos entre idiomas sem o consentimento do usuário. Além disso, a transparência diferenciada do Macaron permite que reguladores auditem o comportamento do modelo em diferentes níveis de detalhe: as autoridades japonesas podem revisar padrões gerais de uso, enquanto reguladores coreanos podem inspecionar logs brutos sob estrita confidencialidade.

5 Desafios e Direções de Pesquisa

5.1 Lidar com dialetos e variações regionais

Tanto o japonês quanto o coreano têm dialetos regionais. No Japão, o dialeto Kansai usa vocabulário e entonação diferentes do discurso padrão de Tóquio. Dialetos coreanos como Jeolla e Gyeongsang apresentam desafios semelhantes. Detectores de linguagem atuais podem classificar incorretamente entradas dialetais, levando a respostas estranhas. Trabalhos futuros poderiam incorporar embeddings de dialetos treinados em corpora regionais, permitindo que o agente identifique e responda no dialeto adequado. Usuários poderiam até pedir ao Macaron para imitar um sotaque específico, o que pode ser atraente para jogos de interpretação de papéis ou módulos de aprendizagem de idiomas.

5.2 Raciocínio de senso comum entre línguas

Embora o modelo atual alinhe representações semânticas entre línguas, o raciocínio de senso comum ainda sofre com lacunas culturais. Expressões como "tsundoku" (積ん読, comprar livros e não lê-los) ou "빵셔틀" (bbang shuttle, um termo gíria para alguém intimidado a comprar pão para os outros) não têm equivalentes diretos em inglês. Pesquisas sobre grafos de conhecimento de senso comum entre línguas poderiam ajudar o Macaron a entender e explicar esses conceitos específicos de cultura. A integração com bases de conhecimento como ConceptNet ou versões localizadas do ATOMIC poderia fornecer conhecimento cultural estruturado que complementa o aprendizado estatístico do LLM.

5.3 Alinhamento de privacidade e regulamentação

A Lei de Promoção de IA no Japão enfatiza a transparência e alinha o desenvolvimento de IA com as regulamentações existentes, enquanto a proposta de Lei de Estrutura de IA da Coreia introduz obrigações para gestão de riscos e supervisão humana. Agentes pessoais devem navegar por esses frameworks enquanto respeitam a privacidade do usuário. É necessário pesquisar sobre aprendizado federado para manter dados do usuário no dispositivo, privacidade diferencial para prevenir a desidentificação entre línguas, e motores de conformidade legal que possam interpretar textos regulamentares em japonês e coreano e mapeá-los para regras vinculantes de políticas.

5.4 Integração entre modalidades

Os agentes pessoais do futuro não se limitarão ao texto. A visão do Macaron inclui a conexão com dispositivos IoT, interfaces de VR e wearables. A interação cruzada adiciona nova complexidade ao lidar com múltiplos idiomas: um usuário japonês pode falar com um alto-falante inteligente em japonês enquanto lê legendas em coreano em um headset de realidade mista. Alinhar áudio, texto e dados visuais entre idiomas exigirá transformadores multimodais que possam processar simultaneamente fala, texto e imagens, bem como sincronização temporal entre modalidades.

5.5 Estudo de caso: aplicativos de educação bilíngue

Para ilustrar como a personalização multilíngue funciona na prática, considere um usuário japonês que deseja aprender coreano e pede ao Macaron para criar um aplicativo de estudo. O agente começa consultando a memória do usuário para experiências linguísticas anteriores — talvez eles tenham estudado inglês, então o agente sabe que eles preferem recursos visuais e repetição espaçada. O analisador de intenções extrai informações como "idioma alvo: coreano", "idioma de origem: japonês", "foco de estudo: gramática e vocabulário" e "tempo diário: 20 minutos". O motor de síntese de programas do Macaron então monta módulos: um analisador morfológico para Hangul, um módulo de segmentação de sentenças para legendas em japonês, um agendador de repetição espaçada e um gerador de questionários que integra exemplos dos interesses do usuário (por exemplo, dramas coreanos ou letras de J-pop).

O aplicativo resultante apresenta cartões de vocabulário com pronúncias, frases de exemplo e notas culturais. Uma camada de tradução bidirecional conecta o vocabulário coreano a frases equivalentes em japonês, usando as incorporações multilíngues descritas anteriormente. O aprendizado por reforço personaliza a sequência: se o usuário tem dificuldades com conjugações verbais, o modelo de recompensa prioriza exercícios de gramática; se gostam de ler letras de músicas, o agente apresenta mais traduções de letras. Como o sistema de memória etiqueta cada lição com idioma e domínio, o progresso nos estudos de coreano pode posteriormente informar a escrita criativa do usuário em japonês, promovendo o aprendizado por transferência entre idiomas. Os usuários podem compartilhar seus planos de estudo bilíngues na comunidade Macaron, e o agente monitora o feedback para refinar a biblioteca de módulos.

5.6 Reflexões filosóficas sobre identidade multilíngue

A capacidade de operar em vários idiomas levanta questões mais profundas sobre a identidade digital. O modelo próprio do Macaron trata a identidade como uma narrativa emergente construída a partir de interações. Quando essas interações ocorrem em vários idiomas, a narrativa se torna ainda mais fluida. As palavras carregam conotações culturais: o termo japonês kokoro e o termo coreano 마음 ambos se traduzem como "coração/mente", mas evocam nuances diferentes. À medida que o Macaron tece as memórias de um usuário em vários idiomas, ele deve decidir quais palavras usar ao se referir a sentimentos ou memórias. Essa escolha molda a percepção do usuário sobre si mesmo. Filósofos da linguagem argumentam que o pensamento é influenciado pelas palavras que usamos; o Macaron operacionaliza essa ideia selecionando o idioma com base no contexto e no tom emocional desejado.

A identidade translinguística também toca no conceito de pessoa digital. Um usuário pode manter diferentes personas nos contextos japonês e coreano—formal e reservado no trabalho, casual e expressivo em comunidades de fãs. O Macaron respeita esses limites mantendo clusters de memória separados, permitindo ao mesmo tempo uma polinização cruzada deliberada. Com o tempo, os usuários podem optar por fundir aspectos de suas identidades, descobrindo fios comuns entre suas vidas japonesa e coreana. O Macaron facilita esse processo destacando valores, hábitos e aspirações semelhantes encontrados em ambos os conjuntos de memórias, ajudando os usuários a criar uma narrativa pessoal coerente entre culturas.

Boxu obteve seu diploma de bacharel na Universidade de Emory, com especialização em Economia Quantitativa. Antes de se juntar à Macaron, Boxu passou a maior parte de sua carreira no espaço de Private Equity e Venture Capital nos EUA. Ele agora é o Chefe de Gabinete e VP de Marketing na Macaron AI, gerenciando finanças, logística e operações, além de supervisionar o marketing.

Candidatar-se para se tornar Os primeiros amigos de Macaron