Author: Boxu Li 

Introduction

When Macaron AI was unveiled in August 2025 it positioned itself not as another enterprise assistant but as a personal companion designed to enrich everyday life. Its mission is inherently international: from the outset the platform supported English, Chinese, Japanese, Korean and Spanish, signalling an ambition to operate across linguistic and cultural boundaries. For users in Japan and South Korea – two countries with vibrant yet distinct digital ecosystems – this multilingual promise is more than a marketing slogan. It raises technical questions: How does Macaron handle cross‑lingual conversations? How does its memory system cope with diverse scripts, vocabulary and cultural references? What design choices enable a single agent to "think" in hiragana one moment and Hangul the next? This blog explores Macaron AI's cross‑lingual architecture and the mechanisms that allow it to personalize experiences for Japanese and Korean users while maintaining a coherent identity.

La personalizzazione su larga scala richiede più della semplice traduzione. Macaron mira a modellare chi sei attraverso interazioni quotidiane, ricordando non solo fatti ma anche sfumature come obiettivi dietetici ed emozioni elevate. Raggiungere questo per più lingue richiede strutture dati e algoritmi in grado di catturare il significato attraverso sistemi di scrittura, gestire il code-switching e rispettare le norme culturali. Questo post analizza le tecniche sottostanti: tokenizzazione multilingue, recupero della memoria guidato dal rinforzo, gestione distribuita dell'identità e adattamento culturale. Discuteremo anche le sfide come bias, privacy e conformità interregionale, e delineeremo le direzioni di ricerca per agenti personali cross-lingua.

1 Architettura Multilingue e Tokenizzazione

1.1 Vocabolario universale con unità subword consapevoli del sistema di scrittura

I modelli di linguaggio di grandi dimensioni si basano su tokenizzatori per suddividere il testo grezzo in unità che il modello può elaborare. Per lingue come l'inglese e lo spagnolo, la tokenizzazione a livello di sottoparola (Byte-Pair Encoding o SentencePiece) può catturare la morfologia in modo ragionevolmente accurato. Giapponese e coreano, tuttavia, presentano sfide uniche. Il giapponese mescola tre scritture (kanji, hiragana e katakana) e manca di spazi, mentre il coreano Hangul è un alfabeto caratteristico assemblato in blocchi sillabici. Gli ingegneri di Macaron costruiscono quindi un vocabolario multilingue con unità di sottoparola consapevoli del sistema di scrittura. Ogni token codifica non solo i caratteri ma anche un identificatore di lingua, consentendo al modello di distinguere tra omografi (ad esempio, 「ha」 potrebbe essere un fonema coreano o la particella giapponese 「は」). Il vocabolario include token per composti comuni di kanji, radicali e jamo di Hangul, consentendo al modello di rappresentare unità morfologiche in modo efficiente e di scomporre parole rare in pezzi significativi.

Condividendo unità subword tra le lingue, Macaron sfrutta il trasferimento cross-linguale. Ad esempio, il concetto di 「studio」 appare in giapponese come 勉強 (benkyō) e in coreano come 공부 (gongbu). Sebbene i caratteri e i suoni siano diversi, l'agente utilizza incorporamenti semantici appresi tra le lingue per mappare questi token in uno spazio vettoriale simile. Questa rappresentazione unificata consente a Macaron di comprendere l'interesse di un utente giapponese per lo 「studio delle lingue」 e successivamente applicare tale conoscenza quando un amico coreano chiede del 「공부 계획」 (programma di studio). Senza un vocabolario unificato, il modello tratterebbe questi come concetti non correlati.

1.2 Finestra di contesto e allineamento tra script

Il modello di Macaron con 671 miliardi di parametri è addestrato su un ampio corpus multilingue, ma la lunghezza pura delle sequenze delle conversazioni richiede una finestra di contesto efficiente. Le frasi giapponesi e coreane possono essere più lunghe di quelle inglesi a causa della natura agglutinante dei verbi e delle particelle incorporate. Per supportare dialoghi lunghi, Macaron utilizza un meccanismo di attenzione gerarchica: il modello elabora finestre locali (frasi o paragrafi) prima di passare rappresentazioni riassunte a un livello globale. Questo approccio riduce l'impronta di memoria consentendo all'agente di mantenere il contesto attraverso conversazioni estese. Supporta anche l'allineamento cross-script, dove il modello apprende le corrispondenze tra segmenti in giapponese e coreano minimizzando la distanza tra le loro rappresentazioni durante l'addestramento (una tecnica presa in prestito dall'elaborazione del linguaggio naturale cross-linguale).

1.3 Rilevamento linguistico in tempo reale e cambio di codice

Gli utenti giapponesi e coreani spesso mescolano termini in inglese o cinese nelle conversazioni, specialmente nei domini tecnici o nella cultura pop. La pipeline di inferenza di Macaron include un rilevatore di lingua in tempo reale che etichetta ogni espressione in arrivo con punteggi di probabilità per le lingue supportate. Quando una frase include prestiti linguistici o frasi da più lingue, l'agente divide l'input in segmenti e processa ciascuno con il contesto linguistico appropriato. Questo assicura una corretta pronuncia nell'output vocale e una gestione adeguata degli idiomi. Il sottosistema di memoria allega etichette linguistiche alle voci recuperate, permettendo a Macaron di recuperare esperienze rilevanti anche quando la lingua della query differisce dalla lingua memorizzata.

2 Token di Memoria e Recupero Cross-linguistico

2.1 Recupero guidato da rinforzo e token di memoria

L'innovazione distintiva di Macaron è il suo token di memoria, un puntatore dinamico che aiuta l'agente a decidere cosa ricordare, quando aggiornare la memoria e come applicare quei ricordi ai compiti attuali. Il token interagisce con una banca di memoria gerarchica: contesto a breve termine, memoria episodica a medio termine e conoscenza a lungo termine. L'apprendimento per rinforzo (RL) addestra l'agente ad adattare il token in base a feedback come la soddisfazione dell'utente e il successo del compito. Se un utente giapponese chiede ripetutamente lo stesso orario dei treni, la politica RL impara a promuovere quei dettagli nella memoria. Se un utente coreano esprime disagio quando vengono riproposti commenti passati, la politica impara a far decadere più rapidamente i riferimenti.

2.2 Identità distribuita e confini di dominio

Il team di Macaron rifiuta l'idea di un profilo utente monolitico; al contrario, l'identità è trattata come una narrazione emergente costruita da piccole interazioni. I ricordi sono organizzati per confini di dominio (ad esempio, lavoro, hobby, famiglia) con un meccanismo di federazione di rilevanza che consente il recupero tra domini. Per gli utenti giapponesi e coreani, i confini di dominio includono anche domini linguistici: un elemento di memoria potrebbe essere etichettato come "Giapponese—hobby—musica" o "Coreano—famiglia—finanza". Quando l'agente riceve una query in coreano, cerca prima nei ricordi in coreano ma può federarsi ai ricordi giapponesi se il contenuto semantico corrisponde. Questo previene la contaminazione incrociata consentendo al contempo la continuità cross-lingua.

2.3 Decadimento delle referenze e privacy in contesti multilingue

I ricordi che vengono raramente consultati decadono nel tempo; il tasso di decadimento può variare tra i diversi ambiti. Il meccanismo di decadimento delle referenze riduce il peso dei ricordi inutilizzati, garantendo che l'interesse momentaneo di un utente giapponese per un dramma coreano non occupi permanentemente spazio di memoria. Il decadimento supporta anche la privacy; le informazioni sensibili su famiglia o finanze possono essere impostate per decadere più rapidamente. Gli utenti possono eliminare esplicitamente i ricordi o contrassegnarli come riservati. Il framework di vincolo di policy di Macaron associa regole di privacy leggibili dalla macchina direttamente ai dati, in modo che un ricordo con un tag "privato—coreano" possa essere accessibile solo durante le sessioni autenticate in quella lingua. Combinati con la trasparenza differenziata, che offre diversi livelli di divulgazione a differenti stakeholder, questi meccanismi permettono a Macaron di navigare tra le norme sulla privacy del Giappone e le normative AI in evoluzione della Corea.

3 Adattamento culturale e personalizzazione del personaggio

3.1 Onboarding attraverso test di personalità e palette di colori

Quando si registrano, gli utenti completano tre test di personalità che aiutano Macaron a creare una persona personalizzata per loro, includendo colori, stili di comunicazione e voce. In Giappone, dove l'armonia estetica e la formalità sono apprezzate, i test potrebbero enfatizzare l'etichetta sociale, mentre i questionari coreani potrebbero concentrarsi sulle dinamiche familiari e sulle relazioni tra pari. La persona risultante influenza non solo l'interfaccia utente, ma anche il livello di cortesia dell'agente, il tono e la scelta di riferimenti culturali. Una persona giapponese potrebbe preferire suggerimenti indiretti (「Che ne dici di pianificare un picnic la prossima settimana?」), mentre una persona coreana potrebbe apprezzare un incoraggiamento diretto (「Organizziamo un viaggio in famiglia!」).

3.2 Mini-app localizzate: dal kakeibo all'hojikwan

La capacità di Macaron di generare mini-app su richiesta non si limita a strumenti di produttività generici. La piattaforma può produrre applicazioni su misura con oltre 100.000 righe di codice, come uno strumento di budgeting ispirato alla tradizione giapponese del「kakeibo」(un metodo di contabilità familiare) o un'app di pianificazione coreana「hojikwan」(gestione di eventi familiari e memoriali ancestrali). L'utente descrive semplicemente le proprie esigenze in linguaggio naturale e l'agente sintetizza un programma che si allinea alle usanze locali. Questo richiede una libreria di modelli specifici per dominio e la capacità di integrare calendari locali, festività pubbliche e regolamenti finanziari. L'apprendimento mediante rinforzo ottimizza il processo di generazione valutando la soddisfazione dell'utente: se gli utenti giapponesi modificano frequentemente l'app kakeibo per aggiungere categorie come「omiyage」(souvenir) e「otsukuri」(carità mensile), il generatore impara a includerle di default nelle future app.

3.3 Norme emotive e stili di comunicazione

Il Giappone e la Corea del Sud hanno norme diverse per esprimere le emozioni. La cultura giapponese spesso valorizza la modestia e la sensibilità al contesto, mentre la cultura coreana abbraccia interazioni sociali più espressive. Macaron adatta il suo stile di risposta di conseguenza, basandosi su ricerche di identità digitale che enfatizzano l'identità fluida e l'empowerment dell'utente. In pratica, questo significa che l'agente può utilizzare forme onorifiche e discorsi indiretti quando conversa in giapponese, e suggerimenti più proattivi quando parla in coreano. Il sistema di memoria registra il feedback sul tono e regola in modo adattivo gli stili di conversazione. Queste adattamenti non sono codificati rigidamente ma emergono attraverso RL: se un utente risponde costantemente in modo positivo a un certo stile di comunicazione, il segnale di ricompensa rafforza quel comportamento.

4 Dettagli di Implementazione: Ingegneria per Agenti Personali Cross-Lingua

4.1 Raccolta dati e pipeline di addestramento

Creare un agente personale che sappia conversare in giapponese e coreano richiede dati di alta qualità. Il corpus di addestramento di Macaron include libri con licenza, articoli di notizie, blog, trascrizioni e contenuti generati dagli utenti in tutte le lingue supportate. I dati vengono filtrati in base a cortesia, bias e copertura del dominio. La fase di pre-addestramento utilizza modelli linguistici mascherati e predizione del prossimo token su dati multilingue combinati per apprendere rappresentazioni condivise. La messa a punto introduce l'apprendimento per rinforzo dal feedback umano (RLHF): annotatori bilingui a Tokyo e Seoul valutano le risposte per l'appropriatezza culturale, permettendo al modello di apprendere segnali sottili come quando utilizzare onorifici o quando porre domande di chiarimento. Obiettivi di apprendimento contrastivo aggiuntivi incoraggiano l'allineamento tra frasi semanticamente equivalenti tra le lingue.

4.2 Indice di memoria cross-lingua e recupero vettoriale

Il banco di memoria di Macaron memorizza gli embedding in uno spazio vettoriale ad alta dimensione. Per ogni elemento della memoria, l'agente calcola una rappresentazione che cattura sia il contenuto che la lingua. Un indice di memoria cross-lingua utilizza la ricerca approssimativa del vicino più prossimo per recuperare elementi indipendentemente dalla lingua della query. Ad esempio, se un utente coreano chiede "피자 만들기 레시피" (ricetta della pizza), l'agente potrebbe trovare una memoria giapponese su "ピザの作り方" (come fare la pizza) perché entrambi si avvicinano al concetto di pizza. Al momento del recupero, l'agente filtra in base ai permessi dell'utente e quindi converte la memoria recuperata nella lingua preferita dell'utente utilizzando un traduttore e un riassuntore integrati. Questo consente la condivisione della conoscenza tra le lingue preservando i confini della privacy.

4.3 Sicurezza e mitigazione dei bias

I modelli cross-linguistici rischiano di propagare i pregiudizi presenti nei dati di addestramento. Per il Giappone e la Corea, dove i ruoli di genere e le gerarchie di età hanno un ruolo culturale significativo, Macaron implementa strategie di mitigazione dei pregiudizi. Durante il fine-tuning, la ricompensa RL include penalità per risposte che rafforzano stereotipi o violano le norme locali (ad esempio, assumendo che solo le donne gestiscano le finanze domestiche). Il sistema di vincoli di politica assicura che i dati personali non vengano mai tradotti tra lingue senza il consenso dell'utente. Inoltre, la trasparenza differenziata di Macaron consente ai regolatori di verificare il comportamento del modello a vari livelli di dettaglio: le autorità giapponesi potrebbero esaminare i modelli di utilizzo generali, mentre i regolatori coreani potrebbero ispezionare i registri grezzi sotto stretta riservatezza.

5 Sfide e Direzioni di Ricerca

5.1 Gestione dei dialetti e delle variazioni regionali

Sia il giapponese che il coreano hanno dialetti regionali. In Giappone, il dialetto Kansai utilizza un vocabolario e un'intonazione diversi rispetto al discorso standard di Tokyo. I dialetti coreani come Jeolla e Gyeongsang presentano sfide simili. Gli attuali rilevatori di lingua potrebbero classificare erroneamente gli input dialettali, portando a risposte imbarazzanti. Il lavoro futuro potrebbe incorporare embedding dialettali addestrati su corpora regionali, permettendo all'agente di identificare e rispondere nel dialetto appropriato. Gli utenti potrebbero persino chiedere a Macaron di imitare un accento specifico, il che potrebbe essere interessante per giochi di ruolo o moduli di apprendimento delle lingue.

5.2 Ragionamento di buon senso tra lingue diverse

Mentre il modello attuale allinea le rappresentazioni semantiche tra le lingue, il ragionamento di buon senso soffre ancora di lacune culturali. Espressioni come "tsundoku" (積ん読, acquistare libri e non leggerli) o "빵셔틀" (bbang shuttle, un termine gergale per qualcuno costretto a comprare pane per altri) non hanno un equivalente diretto in inglese. La ricerca su grafi di conoscenza di buon senso tra lingue diverse potrebbe aiutare Macaron a comprendere e spiegare concetti specifici di cultura. L'integrazione con basi di conoscenza come ConceptNet o versioni localizzate di ATOMIC potrebbe fornire conoscenze culturali strutturate che completano l'apprendimento statistico del LLM.

5.3 Allineamento della privacy e regolamentazione

Il AI Promotion Act in Giappone enfatizza la trasparenza e allinea lo sviluppo dell'AI con le normative esistenti, mentre la proposta di AI Framework Act in Corea introduce obblighi per la gestione del rischio e la supervisione umana. Gli agenti personali devono navigare in questi quadri rispettando la privacy degli utenti. È necessaria una ricerca su federated learning per mantenere i dati degli utenti sul dispositivo, differential privacy per prevenire l'identificazione tra lingue, e motori di conformità legale che possano interpretare testi normativi in giapponese e coreano e mapparli a regole vincolanti di politica.

5.4 Integrazione cross-modale

I futuri agenti personali non saranno limitati al testo. La visione di Macaron include la connessione a dispositivi IoT, interfacce VR e indossabili. L'interazione cross-modale aggiunge nuova complessità quando si trattano più lingue: un utente giapponese potrebbe parlare a un altoparlante intelligente in giapponese mentre legge sottotitoli in coreano su un visore di realtà mista. Allineare dati audio, testuali e visivi tra lingue richiederà trasformatori multimodali in grado di processare simultaneamente discorsi, testi e immagini, così come la sincronizzazione temporale tra le modalità.

5.5 Studio di caso: app educative bilingue

Per illustrare come funziona la personalizzazione cross-linguale nella pratica, consideriamo un utente giapponese che vuole imparare il coreano e chiede a Macaron di creare un'app per lo studio. L'agente inizia consultando la memoria dell'utente per esperienze linguistiche precedenti—magari hanno studiato inglese, quindi l'agente sa che preferiscono supporti visivi e ripetizione dilazionata. Il parser delle intenzioni estrae slot come "lingua di destinazione: coreano," "lingua di origine: giapponese," "focus di studio: grammatica e vocabolario," e "tempo giornaliero: 20 minuti." Il motore di sintesi dei programmi di Macaron quindi assembla moduli: un analizzatore morfologico per l'Hangul, un modulo di segmentazione delle frasi per i sottotitoli giapponesi, un pianificatore di ripetizione dilazionata, e un generatore di quiz che integra esempi dagli interessi dell'utente (ad esempio, drammi coreani o testi di J-pop).

L'app risultante presenta schede di vocabolario con pronunce, frasi di esempio e note culturali. Uno strato di traduzione bidirezionale collega il vocabolario coreano a frasi giapponesi equivalenti, utilizzando gli embedding cross-linguistici descritti in precedenza. L'apprendimento per rinforzo personalizza la sequenza: se l'utente ha difficoltà con le coniugazioni verbali, il modello di ricompensa dà priorità agli esercizi di grammatica; se ama leggere i testi delle canzoni, l'agente propone più traduzioni di testi. Poiché il sistema di memoria etichetta ogni lezione con lingua e dominio, i progressi negli studi di coreano possono successivamente informare la scrittura creativa giapponese dell'utente, favorendo l'apprendimento per trasferimento tra le lingue. Gli utenti possono condividere i loro piani di studio bilingue nella comunità di Macaron, e l'agente monitora i feedback per perfezionare la libreria dei moduli.

5.6 Riflessioni filosofiche sull'identità cross-linguistica

La capacità di operare tra le lingue solleva domande più profonde sull'identità digitale. Il modello di Macaron tratta l'identità come una narrazione emergente costruita dalle interazioni. Quando queste interazioni avvengono in più lingue, la narrazione diventa ancora più fluida. Le parole portano connotazioni culturali: il termine giapponese kokoro e quello coreano 마음 si traducono entrambi come "cuore/mente" ma evocano sfumature diverse. Mentre Macaron intreccia i ricordi di un utente tra le lingue, deve decidere quali parole usare quando si riferisce a sentimenti o memorie. Questa scelta modella la percezione che l'utente ha di se stesso. I filosofi del linguaggio sostengono che il pensiero è influenzato dalle parole che usiamo; Macaron concretizza questa idea selezionando la lingua in base al contesto e al tono emotivo desiderato.

L'identità cross-linguale tocca anche il concetto di persona digitale. Un utente potrebbe mantenere diversi personaggi nei contesti giapponese e coreano: formale e riservato al lavoro, informale ed espressivo nelle comunità di fandom. Macaron rispetta questi confini mantenendo cluster di memoria separati mentre consente una contaminazione incrociata deliberata. Col tempo, gli utenti possono scegliere di unire aspetti delle loro identità, scoprendo fili comuni tra le loro vite giapponesi e coreane. Macaron facilita questo processo evidenziando valori, abitudini e aspirazioni simili trovati in entrambi i set di memorie, aiutando gli utenti a creare una narrazione personale coerente tra le culture.

Boxu ha conseguito la laurea presso l'Università di Emory con specializzazione in Economia Quantitativa. Prima di unirsi a Macaron, Boxu ha trascorso gran parte della sua carriera nel settore del private equity e del venture capital negli Stati Uniti. Ora è Capo di Gabinetto e VP del Marketing presso Macaron AI, gestendo finanze, logistica e operazioni, supervisionando il marketing.

Candidati per diventare I primi amici di Macaron