Autore: Boxu Li
Sebbene la novità di Macaron AI spesso attiri l'attenzione sulla sua capacità di generare mini-app personalizzate o di agire come un amico empatico, il suo vero pilastro è un intricato motore di memoria. Questo sistema consente a Macaron di ricordare ciò che conta, dimenticare ciò che non serve e recuperare rapidamente e in sicurezza esperienze rilevanti. Una semplice conversazione sulla musica può portare a promemoria su un concerto il mese prossimo, a una playlist compilata automaticamente o alla generazione di un assistente karaoke. Nulla di tutto ciò è possibile senza meccanismi di memoria in grado di gestire lunghe conversazioni e argomenti diversi. Questo blog offre un'immersione tecnica approfondita nel motore di memoria di Macaron, discutendo compressione gerarchica, recupero vettoriale, filtraggio guidato dal rinforzo e controllo della privacy. Confrontiamo il design di Macaron con altri sistemi di generazione aumentata dal recupero (RAG) e discutiamo come questi meccanismi permettano agli utenti giapponesi e coreani di godere di esperienze personalizzate.
Macaron organizza la memoria in più archivi. Lo store a breve termine mantiene la conversazione corrente e copre approssimativamente 8–16 messaggi. Funziona come un contesto tipico del transformer: i token sono elaborati in sequenza con attenzione. Lo store episodico contiene le interazioni recenti (ad esempio, gli ultimi giorni) e viene aggiornato periodicamente. Qui, Macaron utilizza un transformer compressivo: i messaggi sono compressi in vettori riassuntivi utilizzando l'attenzione convoluzionale, permettendo al modello di mantenere il contesto oltre la lunghezza della finestra nativa. Lo store a lungo termine conserva eventi importanti, fatti e configurazioni di mini-app ed è implementato come un database vettoriale. Ogni elemento di memoria include metadati (timestamp, tag di dominio, tag di lingua) e un embedding prodotto da un encoder multilingue.
Una delle principali sfide nelle conversazioni lunghe è che il costo dell'autoattenzione cresce in modo quadratico con la lunghezza della sequenza. Per gestire questo, Macaron utilizza uno strato di sintesi latente: invece di prestare attenzione a ogni token, il modello impara a identificare segmenti salienti e comprimerli in una rappresentazione di lunghezza fissa. Questo strato è addestrato utilizzando un obiettivo di auto-codifica che ricostruisce gli stati nascosti dai riassunti compressi. L'apprendimento per rinforzo affina il riassuntore: se l'agente non riesce a ricordare dettagli importanti in seguito, la politica viene penalizzata, incoraggiandolo a trattenere più informazioni su eventi simili in futuro.
Il token di memoria descritto nell'articolo di notizie di Taiwan funziona come un puntatore che attraversa la memoria per selezionare elementi rilevanti. Durante il richiamo, il token interroga iterativamente la banca di memoria: recupera una memoria candidata, ne valuta la rilevanza per il contesto attuale utilizzando una funzione di punteggio appresa e decide se restituirla o continuare la ricerca. Questo processo è simile a una rete di puntatori utilizzata nell'ottimizzazione combinatoria neurale. I segnali di rinforzo guidano il token a selezionare sequenze di memorie che massimizzano la soddisfazione dell'utente (ad esempio, prevedendo correttamente la preferenza di un utente per il jazz). Il token può anche aggiornare la memoria: quando arrivano nuove informazioni, decide se fonderle con le memorie esistenti o allocare un nuovo slot.
La memoria a lungo termine di Macaron utilizza un database vettoriale ad alta dimensionalità. Le query vengono convertite in embedding tramite un encoder multilingue; successivamente, una ricerca approssimativa del vicino più prossimo (ANN) restituisce le prime k memorie. Il sistema utilizza la quantizzazione del prodotto per accelerare la ricerca e mantenere una latenza inferiore a 50 ms, anche quando memorizza milioni di elementi di memoria. Per evitare il recupero di duplicati banali, il sistema applica la massima rilevanza marginale (MMR), bilanciando somiglianza e diversità tra i risultati.
Una semplice corrispondenza di parole chiave non è sufficiente per catturare l'intento dell'utente. Macaron espande le query utilizzando l'obiettivo attuale e l'intento latente dell'utente. Ad esempio, se l'utente a Tokyo menziona "花火大会" (festival dei fuochi d'artificio), il sistema espande la query per includere "biglietti", "data" e "meteo" in base alle azioni tipiche legate ai festival. Se un utente coreano chiede di "김치전 만드는 법" (come fare le frittelle di kimchi), il sistema cerca anche esperienze culinarie passate, dati nutrizionali e disponibilità degli ingredienti locali. L'espansione delle query è gestita da un predittore di obiettivi addestrato a mappare il contesto della conversazione su un insieme di sottotemi rilevanti.
Il motore di memoria deve gestire le query che coprono più domini. Il meccanismo di federazione della rilevanza descritto nell'articolo sul modello autonomo di Macaron consente al sistema di accedere ai ricordi oltre i confini dei domini. Quando l'agente aiuta un utente giapponese a pianificare un matrimonio, potrebbe dover recuperare ricordi di viaggio (destinazioni di luna di miele), ricordi finanziari (budget) e ricordi culturali (galateo matrimoniale). Ogni dominio ha il proprio indice di recupero, e il sistema utilizza una funzione di gate softmax per distribuire le probabilità di recupero tra i domini. La funzione di gate è addestrata con RL per minimizzare il recupero di elementi irrilevanti garantendo al contempo che non vengano persi collegamenti importanti tra domini. Per le query cross-linguistiche, la funzione di gate considera anche le etichette linguistiche per preferire i ricordi nella stessa lingua, ma consente il recupero cross-linguistico quando la somiglianza semantica è elevata.
Il team di Macaron è stato ispirato dal progetto FireAct, che ha dimostrato che l'addestramento post-RL migliora la precisione del ragionamento del 77% rispetto ai metodi basati su prompt. In Macaron, RL viene utilizzato per addestrare la policy di gestione della memoria: una rete neurale che decide se memorizzare, aggiornare o scartare le informazioni e come pesare le memorie recuperate. La funzione di ricompensa combina più segnali: completamento del compito, soddisfazione dell'utente, conformità alla privacy ed efficienza computazionale. Ad esempio, recuperare troppe memorie rallenta le risposte, quindi la ricompensa penalizza il richiamo non necessario. Dimenticare dettagli rilevanti porta a una minore soddisfazione dell'utente, quindi la policy impara a mantenerli più a lungo. La funzione di ricompensa è calibrata diversamente per i mercati giapponese e coreano: gli utenti giapponesi possono penalizzare la condivisione eccessiva di dettagli privati, mentre gli utenti coreani possono valorizzare la velocità e i suggerimenti proattivi.
L'apprendimento per rinforzo spesso fatica con orizzonti lunghi: le azioni intraprese ora possono influenzare i risultati lontani nel futuro. Macaron affronta questa sfida attraverso il tessitura temporale, un meccanismo in cui gli eventi nel tempo sono collegati da timestamp e fili narrativi. Quando si valuta l'impatto del richiamo di un vecchio ricordo, il sistema può tracciare la catena di interazioni che ne sono seguite. Questo permette all'agente di RL di assegnare merito o colpa a decisioni specifiche di recupero. Ad esempio, se il riferimento a un anniversario dimenticato migliora una relazione, il sistema assegna una ricompensa positiva alla porta della memoria che preserva il ricordo dell'anniversario. Se il riaffiorare di un momento imbarazzante ha causato disagio, la porta riceve una ricompensa negativa.
Macaron utilizza l'apprendimento per rinforzo gerarchico per gestire la complessità. Un controller di alto livello seleziona i moduli (ad esempio, recupero, sintesi, compressione) in base all'obiettivo attuale dell'utente, mentre le politiche di basso livello gestiscono azioni specifiche all'interno di ciascun modulo. Questo design modulare facilita l'apprendimento trasferibile: una politica di gating addestrata per conversazioni di cucina giapponese può essere riutilizzata per ricette coreane. Permette anche a Macaron di aggiornare singoli moduli senza dover rieducare l'intero sistema. Per garantire la stabilità, Macaron impiega l'ottimizzazione della politica prossimale (PPO) con clipping della regione di fiducia, bilanciando esplorazione e sfruttamento e prevenendo l'oblio catastrofico.
Molti sistemi AI utilizzano la generazione con recupero per migliorare l'accuratezza dei fatti, estraendo informazioni da database esterni. Modelli come GPT‑4 con RAG si basano su basi di conoscenza statiche e non adattano il recupero in base al feedback degli utenti. Il motore di memoria di Macaron si differenzia in tre modi chiave:
I recenti LLM come Claude 3 di Anthropic e Gemini di Google possono gestire contesti di centinaia di migliaia di token ampliando la finestra di attenzione. Questi modelli non eseguono un recupero esplicito; invece, si affidano alla capacità di prestare attenzione a lunghe sequenze. Sebbene ciò consenta loro di richiamare segmenti di conversazione precedenti, è computazionalmente costoso e non supporta l'oblio controllato dall'utente. Macaron combina un contesto medio con il recupero per ottenere una copertura simile a un costo inferiore e con un maggiore controllo della privacy. Il token di memoria dinamico funge da puntatore a uno storage esterno, consentendo al modello di gestire anni di dati senza memorizzare tutto nel contesto attivo.
I database vettoriali come Pinecone e Faiss vengono spesso utilizzati per memorizzare embedding per compiti di recupero. Lo store a lungo termine di Macaron si basa su queste tecnologie ma le integra con un gating controllato da RL. Nel frattempo, le prime reti di memoria come la End-to-End Memory Network precomputano un set fisso di slot di memoria e vi prestano attenzione con attenzione morbida. Macaron estende questo permettendo al numero di slot di crescere o ridursi dinamicamente e utilizzando RL per decidere quali slot rimangono. In questo senso, il motore di memoria di Macaron è più simile a una macchina di Turing neurale con un controller appreso che legge e scrive su un nastro di memoria esterno.
La conformità con le normative regionali è cruciale. Il vincolo delle policy collega regole sulla privacy leggibili dalla macchina ai dati. Ad esempio, una memoria contenente dati finanziari potrebbe includere una regola che consente l'accesso solo dopo l'autenticazione biometrica. La trasparenza differenziata offre diversi livelli di divulgazione a diversi stakeholder: un consumatore giapponese può esaminare i propri dati, un regolatore coreano può vedere statistiche aggregate e gli sviluppatori ricevono feedback anonimizzati per il miglioramento del modello. Questi meccanismi sono in linea con l'enfasi sull'AI Promotion Act sulla trasparenza e con i requisiti del Korea's AI Framework Act per la gestione del rischio e la supervisione umana.
L'AI Promotion Act del Giappone non prevede penali dirette ma utilizza un meccanismo di nome e vergogna per identificare pubblicamente le aziende non conformi. I log di audit di Macaron tracciano l'accesso alla memoria e le decisioni di policy, permettendo all'azienda di dimostrare la conformità in caso di audit. Il quadro normativo della Corea può imporre multe modeste (fino a 30 milioni di KRW) per le violazioni. Allegando metadati a ogni evento di memoria, Macaron può generare automaticamente rapporti di conformità. Il sistema consente anche agli utenti di esportare e cancellare i propri dati, allineandosi con la norma globale emergente della portabilità dei dati.
Il sistema di memoria di Macaron riecheggia l'architettura della memoria umana. Gli scienziati cognitivi descrivono la memoria di lavoro come un buffer limitato nella corteccia prefrontale, la memoria episodica come un archivio basato su eventi mediato dall'ippocampo e la memoria semantica come conoscenza generale distribuita attraverso la corteccia. Allo stesso modo, Macaron dispone di una finestra di contesto a breve termine, un archivio episodico e un database vettoriale a lungo termine. Il decadimento delle referenze assomiglia alla curva dell'oblio umano: i ricordi svaniscono a meno che non vengano rinforzati. Il tessuto del tempo è parallelo al modo in cui gli esseri umani creano narrazioni di vita collegando eventi nel tempo. Imitando questi meccanismi, Macaron non solo ottimizza le risorse computazionali ma produce anche interazioni più naturali. Quando un utente rievoca un festival dell'infanzia, l'agente può richiamare eventi correlati e intrecciarli nella conversazione corrente, proprio come farebbe un amico umano.
Nonostante la sua sofisticazione, il motore di memoria di Macaron lascia aperte alcune domande. Un'area è la memoria auto-comprimente: sviluppare moduli neurali che riassumano e comprimano automaticamente i ricordi senza supervisione esterna. Un'altra è l'apprendimento permanente: consentire all'agente di adattare continuamente le sue strategie di memoria man mano che il comportamento dell'utente evolve. L'allineamento cross-lingua rimane un argomento di ricerca attivo; i modelli futuri potrebbero impiegare l'apprendimento rappresentativo contrastivo per allineare i ricordi tra giapponese, coreano e altre lingue in modo più fluido. I ricercatori stanno inoltre esplorando l'hardware neuromorfico e le reti neurali a impulsi per implementare la memoria a un costo energetico inferiore. Infine, l'integrazione dell'apprendimento federato permetterà agli utenti di addestrare i modelli di memoria di Macaron localmente, condividendo solo gli aggiornamenti del modello invece dei dati grezzi, migliorando così la privacy e le prestazioni collettive.