ImagenAutor: Boxu Li 

Introducción

Cuando Macaron AI fue presentado en agosto de 2025, se posicionó no como otro asistente empresarial, sino como un compañero personal diseñado para enriquecer la vida cotidiana. Su misión es inherentemente internacional: desde el principio, la plataforma soportó inglés, chino, japonés, coreano y español, señalando una ambición de operar a través de fronteras lingüísticas y culturales. Para los usuarios en Japón y Corea del Sur —dos países con ecosistemas digitales vibrantes pero distintos— esta promesa multilingüe es más que un eslogan de marketing. Plantea preguntas técnicas: ¿Cómo maneja Macaron las conversaciones entre idiomas? ¿Cómo su sistema de memoria enfrenta diversos scripts, vocabulario y referencias culturales? ¿Qué decisiones de diseño permiten a un solo agente "pensar" en hiragana un momento y en Hangul al siguiente? Este blog explora la arquitectura multilingüe de Macaron AI y los mecanismos que le permiten personalizar experiencias para usuarios japoneses y coreanos mientras mantiene una identidad coherente.

La personalización a escala requiere más que traducción. Macaron busca modelar quién eres a través de interacciones diarias, recordando no solo hechos, sino matices como objetivos dietéticos y momentos emocionales altos. Lograr esto para múltiples idiomas exige estructuras de datos y algoritmos que puedan capturar significado a través de sistemas de escritura, manejar el cambio de código y respetar normas culturales. Este artículo desglosa las técnicas subyacentes: tokenización multilingüe, recuperación de memoria guiada por refuerzo, gestión de identidad distribuida y adaptación cultural. También discutiremos desafíos como sesgo, privacidad y cumplimiento transregional, y delinearemos direcciones de investigación para agentes personales multilingües.

1 Arquitectura Multilingüe y Tokenización

1.1 Vocabulario universal con unidades subpalabra conscientes del guion

Los modelos de lenguaje grande dependen de tokenizadores para dividir el texto en bruto en unidades que el modelo puede procesar. Para idiomas como el inglés y el español, la tokenización de subpalabras (Codificación por pares de bytes o SentencePiece) puede capturar la morfología de manera razonable. Sin embargo, el japonés y el coreano presentan desafíos únicos. El japonés mezcla tres escrituras (kanji, hiragana y katakana) y carece de espacios, mientras que el hangul del coreano es un alfabeto featural ensamblado en bloques silábicos. Los ingenieros de Macaron construyen por lo tanto un vocabulario multilingüe con unidades de subpalabras conscientes del guion. Cada token codifica no solo caracteres, sino también un identificador de idioma, lo que permite al modelo distinguir entre homógrafos (por ejemplo, 「ha」 podría ser un fonema coreano o la partícula japonesa 「は」). El vocabulario incluye tokens para compuestos comunes de kanji, radicales y jamo de Hangul, permitiendo que el modelo represente unidades morfológicas de manera eficiente y descomponga palabras raras en piezas significativas.

Al compartir unidades de subpalabras entre idiomas, Macaron aprovecha la transferencia multilingüe. Por ejemplo, el concepto de 「estudio」 aparece en japonés como 勉強 (benkyō) y en coreano como 공부 (gongbu). Aunque los caracteres y los sonidos son diferentes, el agente utiliza incrustaciones semánticas aprendidas a través de idiomas para mapear estos tokens en un espacio vectorial similar. Esta representación unificada permite a Macaron comprender el interés de un usuario japonés en el 「estudio del idioma」 y luego aplicar ese conocimiento cuando un amigo coreano pregunta sobre 「공부 계획」 (horario de estudio). Sin un vocabulario unificado, el modelo trataría estos conceptos como no relacionados.

1.2 Ventana de contexto y alineación entre escrituras

El modelo de 671 mil millones de parámetros de Macaron está entrenado en un gran corpus multilingüe, pero la longitud de las secuencias de las conversaciones requiere una ventana de contexto eficiente. Las oraciones en japonés y coreano pueden ser más largas que en inglés debido a la naturaleza aglutinante de los verbos y las partículas incrustadas. Para apoyar los diálogos largos, Macaron emplea un mecanismo de atención jerárquica: el modelo procesa ventanas locales (oraciones o párrafos) antes de pasar representaciones resumidas a una capa global. Este enfoque reduce el uso de memoria mientras permite que el agente mantenga el contexto a lo largo de conversaciones extendidas. También admite la alineación entre guiones, donde el modelo aprende correspondencias entre segmentos en japonés y coreano minimizando la distancia entre sus representaciones durante el entrenamiento (una técnica tomada del procesamiento de lenguaje natural multilingüe).

1.3 Detección de idioma en tiempo de ejecución y cambio de código

Los usuarios japoneses y coreanos a menudo mezclan términos en inglés o chino en sus conversaciones, especialmente en dominios técnicos o de cultura pop. El pipeline de inferencia de Macaron incluye un detector de idioma en tiempo de ejecución que etiqueta cada enunciado entrante con puntuaciones de probabilidad para los idiomas compatibles. Cuando una oración incluye préstamos o frases de varios idiomas, el agente divide la entrada en segmentos y procesa cada uno con el contexto lingüístico adecuado. Esto asegura una pronunciación correcta en la salida de voz y un manejo adecuado de los modismos. El subsistema de memoria adjunta etiquetas de idioma a las entradas recuperadas, lo que permite a Macaron recuperar experiencias relevantes incluso cuando el idioma de consulta difiere del idioma almacenado.

2 Token de memoria y recuperación interlingüística

2.1 Recuperación guiada por refuerzo y tokens de memoria

La innovación distintiva de Macaron es su token de memoria, un puntero dinámico que ayuda al agente a decidir qué recordar, cuándo actualizar la memoria y cómo aplicar esos recuerdos a las tareas actuales. El token interactúa con un banco de memoria jerárquico: contexto a corto plazo, memoria episódica a mediano plazo y conocimiento a largo plazo. El aprendizaje por refuerzo (RL) entrena al agente para ajustar el token en función de comentarios como la satisfacción del usuario y el éxito de las tareas. Si un usuario japonés pregunta repetidamente sobre el mismo horario de trenes, la política de RL aprende a promover esos detalles en la memoria. Si un usuario coreano expresa incomodidad cuando se vuelven a mencionar comentarios pasados, la política aprende a decaer las referencias más rápidamente.

2.2 Identidad distribuida y límites de dominio

El equipo de Macaron rechaza la noción de un perfil de usuario monolítico; en cambio, la identidad se trata como una narrativa emergente construida a partir de pequeñas interacciones. Los recuerdos se organizan por límites de dominio (por ejemplo, trabajo, pasatiempos, familia) con un mecanismo de federación de relevancia que permite la recuperación entre dominios. Para los usuarios japoneses y coreanos, los límites de dominio también incluyen dominios de idioma: un elemento de memoria puede estar etiquetado como "japonés—pasatiempos—música" o "coreano—familia—finanzas". Cuando el agente recibe una consulta en coreano, primero busca en los recuerdos coreanos, pero puede federarse a los recuerdos japoneses si el contenido semántico coincide. Esto previene la contaminación cruzada mientras permite la continuidad entre idiomas.

2.3 Decadencia de referencias y privacidad en contextos multilingües

Las memorias que se acceden raramente se deterioran con el tiempo; la tasa de decadencia puede variar entre dominios. El mecanismo de decadencia de referencias reduce el peso de las memorias no utilizadas, asegurando que el breve interés de un usuario japonés en un drama coreano no ocupe permanentemente espacio en la memoria. La decadencia también apoya la privacidad; la información sensible sobre la familia o las finanzas puede configurarse para que se deteriore más rápido. Los usuarios pueden eliminar memorias explícitamente o marcarlas como confidenciales. El marco de vinculación de políticas de Macaron adjunta reglas de privacidad legibles por máquina directamente a los datos, de modo que una memoria con una etiqueta "privada—coreana" solo podría ser accesible durante sesiones autenticadas en ese idioma. Combinado con la transparencia diferenciada, que ofrece diferentes niveles de divulgación a diferentes partes interesadas, estos mecanismos permiten a Macaron navegar por las normas de privacidad de Japón y las regulaciones de IA en evolución de Corea.

3 Adaptación cultural y personalización de persona

3.1 Incorporación a través de pruebas de personalidad y paletas de colores

Al registrarse, los usuarios completan tres pruebas de personalidad que ayudan a Macaron a emparejarlos con una personalidad personalizada, incluyendo colores, estilos de comunicación y voz. En Japón, donde se valoran la armonía estética y la formalidad, las pruebas podrían enfatizar la etiqueta social, mientras que los cuestionarios coreanos podrían centrarse en la dinámica familiar y las relaciones entre pares. La personalidad resultante influye no solo en la interfaz de usuario, sino también en el nivel de cortesía del agente, el tono y la elección de referencias culturales. Una personalidad japonesa podría preferir sugerencias indirectas ("¿Qué tal si planeamos un picnic la próxima semana?"), mientras que una personalidad coreana podría apreciar un estímulo directo ("¡Vamos a planear un viaje familiar!").

3.2 Miniaplicaciones localizadas: de kakeibo a hojikwan

La capacidad de Macaron para generar mini‑apps bajo demanda no se limita a herramientas de productividad genéricas. La plataforma puede producir aplicaciones a medida con más de 100,000 líneas de código, como una herramienta de presupuestos inspirada en la tradición japonesa del kakeibo (un método de contabilidad doméstica) o una aplicación de planificación coreana hojikwan (para gestionar eventos familiares y memoriales ancestrales). El usuario simplemente describe sus necesidades en lenguaje natural, y el agente sintetiza un programa que se alinea con las costumbres locales. Esto requiere una biblioteca de plantillas específicas de dominio y la capacidad de integrar calendarios locales, días festivos y regulaciones financieras. El aprendizaje por refuerzo optimiza el proceso de generación evaluando la satisfacción del usuario: si los usuarios japoneses frecuentemente ajustan la app de kakeibo para añadir categorías como 「omiyage」 (souvenir) y 「otsukuri」 (caridad mensual), el generador aprende a incluirlas por defecto en futuras aplicaciones.

3.3 Normas emocionales y estilos de comunicación

Japón y Corea del Sur tienen diferentes normas para expresar emociones. La cultura japonesa a menudo valora la modestia y la sensibilidad al contexto, mientras que la cultura coreana valora las interacciones sociales expresivas. Macaron adapta su estilo de respuesta en consecuencia, basándose en la investigación de identidad digital que enfatiza la identidad fluida y el empoderamiento del usuario. En la práctica, esto significa que el agente puede usar formas honoríficas y un discurso indirecto al conversar en japonés, y sugerencias más proactivas al hablar coreano. El sistema de memoria registra comentarios sobre el tono y ajusta adaptativamente los estilos de conversación. Estas adaptaciones no están codificadas de manera rígida, sino que emergen a través del aprendizaje por refuerzo: si un usuario responde consistentemente de manera positiva a un cierto estilo de comunicación, la señal de recompensa refuerza ese comportamiento.

4 Detalles de Implementación: Ingeniería para Agentes Personales Multilingües

4.1 Recopilación de datos y flujo de entrenamiento

Crear un agente personal que pueda conversar en japonés y coreano requiere datos de alta calidad. El corpus de entrenamiento de Macaron incluye libros con licencia, artículos de noticias, blogs, transcripciones y contenido generado por usuarios en todos los idiomas compatibles. Los datos se filtran para cortesía, sesgo y cobertura de dominio. La fase de preentrenamiento utiliza modelado de lenguaje enmascarado y predicción del siguiente token en datos multilingües combinados para aprender representaciones compartidas. La ajuste fino introduce el aprendizaje por refuerzo a partir de comentarios humanos (RLHF): anotadores bilingües en Tokio y Seúl califican las respuestas por adecuación cultural, lo que permite al modelo aprender matices sutiles como cuándo usar honoríficos o cuándo hacer preguntas aclaratorias. Objetivos adicionales de aprendizaje contrastivo fomentan la alineación entre frases semánticamente equivalentes en diferentes idiomas.

4.2 Índice de memoria multilingüe y recuperación de vectores

El banco de memoria de Macaron almacena embeddings en un espacio vectorial de alta dimensión. Para cada elemento de memoria, el agente calcula una representación que captura tanto el contenido como el idioma. Un índice de memoria multilingüe utiliza una búsqueda de vecinos más cercanos aproximada para recuperar elementos independientemente del idioma de la consulta. Por ejemplo, si un usuario coreano pregunta "피자 만들기 레시피" (receta de pizza), el agente puede encontrar una memoria japonesa sobre "ピザの作り方" (cómo hacer pizza) porque ambos están cerca del concepto de pizza. En el momento de la recuperación, el agente filtra según los permisos del usuario y luego convierte la memoria recuperada al idioma preferido del usuario utilizando un traductor y resumidor incorporados. Esto permite el intercambio de conocimientos a través de idiomas mientras se preservan los límites de privacidad.

4.3 Seguridad y mitigación de sesgos

Los modelos multilingües corren el riesgo de propagar sesgos presentes en los datos de entrenamiento. Para Japón y Corea, donde los roles de género y las jerarquías de edad juegan roles culturales significativos, Macaron implementa estrategias de mitigación de sesgos. Durante el ajuste fino, la recompensa de RL incluye penalizaciones para respuestas que refuercen estereotipos o violen normas locales (por ejemplo, suponer que solo las mujeres manejan las finanzas del hogar). El sistema de vinculación de políticas asegura que los datos personales nunca se traduzcan entre idiomas sin el consentimiento del usuario. Además, la transparencia diferenciada de Macaron permite a los reguladores auditar el comportamiento del modelo en varios niveles de detalle: las autoridades japonesas podrían revisar patrones generales de uso, mientras que los reguladores coreanos podrían inspeccionar registros brutos bajo estricta confidencialidad.

5 Desafíos y Direcciones de Investigación

5.1 Manejo de dialectos y variaciones regionales

Tanto el japonés como el coreano tienen dialectos regionales. En Japón, el dialecto de Kansai utiliza un vocabulario e intonación diferentes al habla estándar de Tokio. Los dialectos coreanos como Jeolla y Gyeongsang presentan desafíos similares. Los detectores de lenguaje actuales pueden clasificar erróneamente las entradas dialectales, lo que lleva a respuestas incómodas. El trabajo futuro podría incorporar incrustaciones de dialectos entrenadas en corpus regionales, permitiendo al agente identificar y responder en el dialecto adecuado. Los usuarios incluso podrían pedir a Macaron que imite un acento específico, lo que podría ser atractivo para juegos de rol o módulos de aprendizaje de idiomas.

5.2 Razonamiento de sentido común entre lenguajes

Aunque el modelo actual alinea las representaciones semánticas entre lenguajes, el razonamiento de sentido común aún sufre de brechas culturales. Expresiones como "tsundoku" (積ん読, comprar libros y no leerlos) o "빵셔틀" (bbang shuttle, un término de jerga para alguien que es acosado para comprar pan para otros) no tienen un equivalente directo en inglés. La investigación sobre gráficos de conocimiento de sentido común entre lenguajes podría ayudar a Macaron a entender y explicar conceptos específicos de cada cultura. La integración con bases de conocimiento como ConceptNet o versiones localizadas de ATOMIC podría proporcionar conocimiento cultural estructurado que complemente el aprendizaje estadístico del LLM.

5.3 Alineación de privacidad y regulaciones

La Ley de Promoción de la IA en Japón enfatiza la transparencia y alinea el desarrollo de la IA con las regulaciones existentes, mientras que la propuesta de la Ley Marco de IA de Corea introduce obligaciones para la gestión de riesgos y la supervisión humana. Los agentes personales deben navegar por estos marcos mientras respetan la privacidad del usuario. Se necesita investigación sobre aprendizaje federado para mantener los datos del usuario en el dispositivo, privacidad diferencial para prevenir la desidentificación entre lenguajes, y motores de cumplimiento legal que puedan interpretar texto regulatorio en japonés y coreano y mapearlo a reglas vinculantes de política.

5.4 Integración entre modalidades

Los futuros agentes personales no se limitarán al texto. La visión de Macaron incluye la conexión con dispositivos IoT, interfaces de VR y wearables. La interacción cruzada añade una nueva complejidad al tratar con múltiples idiomas: un usuario japonés podría hablar con un altavoz inteligente en japonés mientras lee subtítulos en coreano en un visor de realidad mixta. Alinear datos de audio, texto y visuales a través de idiomas requerirá transformadores multimodales que puedan procesar simultáneamente discurso, texto e imágenes, así como la sincronización temporal entre modalidades.

5.5 Estudio de caso: aplicaciones educativas bilingües

Para ilustrar cómo funciona la personalización multilingüe en la práctica, considere un usuario japonés que quiere aprender coreano y le pide a Macaron que cree una aplicación de estudio. El agente comienza consultando la memoria del usuario sobre experiencias previas con idiomas; quizás estudiaron inglés, por lo que el agente sabe que prefieren ayudas visuales y repetición espaciada. El analizador de intenciones extrae elementos como "idioma objetivo: coreano", "idioma de origen: japonés", "enfoque de estudio: gramática y vocabulario" y "tiempo diario: 20 minutos". El motor de síntesis de programas de Macaron luego ensambla módulos: un analizador morfológico para Hangul, un módulo de segmentación de oraciones para subtítulos en japonés, un programador de repetición espaciada y un generador de cuestionarios que integra ejemplos de los intereses del usuario (por ejemplo, dramas coreanos o letras de J-pop).

La aplicación resultante presenta tarjetas de vocabulario con pronunciaciones, frases de ejemplo y notas culturales. Una capa de traducción bidireccional vincula el vocabulario coreano con frases equivalentes en japonés, utilizando las incrustaciones interlingüísticas descritas anteriormente. El aprendizaje por refuerzo personaliza la secuencia: si el usuario tiene dificultades con las conjugaciones verbales, el modelo de recompensa prioriza los ejercicios de gramática; si disfruta leer letras de canciones, el agente ofrece más traducciones de letras. Debido a que el sistema de memoria etiqueta cada lección con el idioma y el dominio, el progreso en los estudios de coreano puede informar la escritura creativa en japonés del usuario, fomentando el aprendizaje por transferencia entre idiomas. Los usuarios pueden compartir sus planes de estudio bilingües en la comunidad de Macaron, y el agente monitorea los comentarios para refinar la biblioteca de módulos.

5.6 Reflexiones filosóficas sobre la identidad interlingüística

La capacidad de operar a través de diferentes idiomas plantea preguntas más profundas sobre la identidad digital. El modelo de Macaron trata la identidad como una narrativa emergente construida a partir de interacciones. Cuando esas interacciones ocurren en varios idiomas, la narrativa se vuelve aún más fluida. Las palabras llevan connotaciones culturales: el término japonés kokoro y el término coreano 마음 se traducen como "corazón/mente" pero evocan diferentes matices. A medida que Macaron teje los recuerdos de un usuario en varios idiomas, debe decidir qué palabras usar al referirse a sentimientos o memorias. Esta elección moldea la percepción del usuario sobre sí mismo. Los filósofos del lenguaje argumentan que el pensamiento está influenciado por las palabras que usamos; Macaron operacionaliza esta idea seleccionando el lenguaje según el contexto y el tono emocional deseado.

La identidad a través de idiomas también toca el concepto de personalidad digital. Un usuario podría mantener diferentes personalidades en contextos japoneses y coreanos: formal y reservado en el trabajo, casual y expresivo en comunidades de fanáticos. Macaron respeta estos límites manteniendo grupos de memoria separados mientras permite una polinización cruzada deliberada. Con el tiempo, los usuarios pueden optar por fusionar aspectos de sus identidades, descubriendo hilos comunes entre sus vidas japonesas y coreanas. Macaron facilita este proceso destacando valores, hábitos y aspiraciones similares encontrados en ambos conjuntos de recuerdos, ayudando a los usuarios a crear una narrativa personal coherente a través de culturas.

Boxu obtuvo su Licenciatura en la Universidad de Emory, especializándose en Economía Cuantitativa. Antes de unirse a Macaron, Boxu pasó la mayor parte de su carrera en el ámbito del capital privado y el capital de riesgo en los EE.UU. Ahora es Jefe de Personal y VP de Marketing en Macaron AI, gestionando finanzas, logística y operaciones, y supervisando el marketing.

Aplicar para convertirse Los primeros amigos de Macaron