Autore: Boxu Li
Macaron AI non è solo uno strumento di produttività, ma una piattaforma che trasforma le nostre conversazioni in mini-applicazioni che gestiscono calendari, pianificano viaggi ed esplorano hobby. Sotto la superficie amichevole si trova un sofisticato sistema di apprendimento per rinforzo (RL) e un motore di memoria che ricorda ciò che importa e dimentica il resto[1]. Mentre Macaron si prepara a integrare Claude Sonnet 4.5 e DeepSeek V3.2‑Exp, insieme al Claude Agent SDK/Code 2.0, questo blog esplora come questi nuovi modelli e strumenti possano migliorare la qualità dei risultati di Macaron, ridurre i tempi di creazione delle mini-app e diminuire i bug. Combiniamo approfondimenti tecnici dagli aggiornamenti degli sviluppatori di Anthropic, dalla ricerca DeepSeek e dai blog di ingegneria di Macaron per costruire un quadro chiaro di ciò che ci attende.
Prima di confrontare i modelli, è utile capire cosa rende Macaron unico. Macaron utilizza un sistema RL a strati multipli per convertire le conversazioni quotidiane in compiti e codice. Il sistema scompone il problema in diversi moduli: gestione delle conversazioni, selezione della memoria, sintesi del codice e feedback del simulatore, applicando l'apprendimento per rinforzo gerarchico (HRL) per coordinarli[2]. Un meta-controllore di alto livello decide quale modulo attivare successivamente, mentre le politiche RL di livello inferiore decidono azioni specifiche come recuperare una memoria, chiamare un'API o eseguire il codice generato[2]. Questo design consente a Macaron di scomporre obiettivi complessi, dal pianificare un viaggio all'organizzare le finanze, in sotto-compiti gestibili.
Nell'IA personale, non esiste una singola “condizione di vittoria”; la soddisfazione dell'utente, la privacy, la tempestività e la sfumatura culturale sono tutti importanti. Macaron costruisce la sua funzione di ricompensa combinando feedback impliciti ed espliciti. I segnali impliciti includono la lunghezza delle conversazioni, la frequenza d'uso e il tono, mentre le valutazioni esplicite e i pollici su/giù aiutano a calibrare le preferenze[3]. Macaron utilizza anche l'elicitazione delle preferenze, presentando risposte alternative o design di mini-app e chiedendo agli utenti quale preferiscono. Un modello inferenziale apprende quindi una funzione di utilità latente sulle possibili azioni, simile all'apprendimento per rinforzo dal feedback umano (RLHF) ma esteso con annotazioni culturali: i valutatori giapponesi enfatizzano la cortesia e il contesto, mentre i valutatori coreani evidenziano una fraseologia comunitaria rispetto a quella individualistica[4]. Questi segnali alimentano un modello di ricompensa che predice la soddisfazione dell'utente e incoraggia l'agente a seguire le norme locali.
Per gestire i diversi compiti degli utenti, Macaron sfrutta HRL per selezionare moduli e sotto-politiche. All'interno dei moduli, utilizza il framework delle opzioni: una sequenza di azioni che raggiunge un sotto-obiettivo viene trattata come un'unica opzione (ad esempio, 「riassumere le spese del mese scorso」 o 「raccomandare un piano di studio bilingue」)[3]. Le opzioni scoperte in un dominio possono trasferirsi a un altro se le strutture sottostanti si allineano. Macaron definisce anche macro-azioni che racchiudono dialoghi multi-turno o calcoli prolungati, come pianificare una vacanza in famiglia (destinazione, trasporto, alloggio e itinerario)[3]. Gli agenti RL valutano le macro-azioni basandosi sulla ricompensa cumulativa piuttosto che su segnali a breve termine, incoraggiando l'agente a ottimizzare la soddisfazione a lungo termine.
Assegnare il merito a specifiche azioni quando le ricompense arrivano in ritardo è difficile. Macaron utilizza il time weaving, collegando eventi nel tempo tramite fili narrativi. Il sistema costruisce un grafo di interazioni dove i nodi rappresentano memorie e gli archi rappresentano relazioni causali; quando valuta un risultato, percorre il grafo all'indietro per identificare quali recuperi o azioni hanno contribuito[2]. Il ragionamento controfattuale aiuta a valutare cosa sarebbe successo se fossero state intraprese azioni alternative, impedendo all'agente di assumere automaticamente che ripetere un'azione di successo porti sempre alla stessa ricompensa[2]. Macaron utilizza anche ricompense ritardate e tracce di idoneità per propagare il segnale a decisioni precedenti – come la selezione della memoria o il tono della conversazione – incoraggiando l'agente a ottimizzare la soddisfazione a lungo termine[5].
Gli agenti AI personali devono evitare pregiudizi e rispettare le normative. Macaron integra i vincoli di equità nella funzione di ricompensa; ad esempio, l'agente viene penalizzato se raccomanda costantemente attività specifiche per genere senza che sia richiesto[5]. Una libreria di politiche etiche codifica le norme culturali e i requisiti legali, e la violazione di queste linee guida provoca una ricompensa negativa o blocca completamente l'azione[5]. La supervisione umana è integrata nelle decisioni ad alto impatto come la pianificazione finanziaria o i consigli sanitari, soddisfacendo il Korean AI Framework Act e il Japan’s AI Promotion Act[5]. Macaron registra le decisioni RL e fornisce agli utenti spiegazioni sul perché sono stati selezionati determinati ricordi o moduli, supportando audit e trasparenza[5].
Il motore di memoria di Macaron è il pilastro della personalizzazione. Organizza i ricordi in memorie a breve termine, episodiche e a lungo termine. La memoria a breve termine conserva la conversazione corrente (8-16 messaggi); la memoria episodica contiene le interazioni recenti compresse tramite attenzione convoluzionale; e la memoria a lungo termine utilizza un database vettoriale ad alta dimensione con tag di metadati (timestamp, dominio, lingua)[6]. Per gestire i costi, Macaron utilizza la sintesi latente per identificare segmenti salienti e comprimerli in vettori di lunghezza fissa; un obiettivo di autoencoding ricostruisce stati nascosti da sintesi compresse, e RL affina il sintetizzatore per mantenere le informazioni importanti per il richiamo successivo[7]. Un token di memoria dinamico funge da rete puntatore: recupera ricordi candidati, valuta la rilevanza e decide se restituirli o continuare la ricerca[8].
Il recupero coinvolge la ricerca approssimativa del vicino più prossimo con quantizzazione del prodotto e massima rilevanza marginale per bilanciare somiglianza e diversità [9]. L'espansione delle query utilizza l'obiettivo dell'utente e l'intento latente; ad esempio, una richiesta giapponese per "花火大会" (festival dei fuochi d'artificio) si espande per includere biglietti, data e meteo [10]. La federazione della rilevanza gestisce le query cross-domain, utilizzando una funzione di gate softmax per distribuire le probabilità di recupero tra domini e lingue [11]. Questi componenti sono addestrati con RL, e l'assegnazione del credito tramite la tessitura temporale assicura che l'agente apprenda quali memorie erano cruciali [12]. Il sistema di memoria di Macaron si differenzia dai tradizionali sistemi di generazione aumentata dal recupero (RAG) perché le memorie sono specifiche per l'utente, lo stoccaggio e il recupero sono guidati da RL, e ogni memoria include metadati di privacy che regolano l'accesso [13].
Sebbene l'architettura interna di Macaron sia robusta, la creazione di mini-app richiede ancora la lettura e scrittura di file, l'esecuzione di codice, l'uso del controllo di versione e l'interazione con le API web. L'SDK di Claude Agent di Anthropic fornisce esattamente queste capacità, esponendo lo stesso sistema di agenti che alimenta l'assistente terminale di Claude Code[14]. Offre strumenti dettagliati: operazioni sui file (lettura, scrittura, grep, glob), comandi bash, fetch web, esecuzione di codice multilingua e operazioni Git[15]. A differenza degli assistenti che pre-indicizzano una base di codice, gli agenti Claude cercano su richiesta utilizzando grep/find/glob per localizzare i file, rendendoli più flessibili nei repository dinamici[16]. L'SDK include ampie finestre di contesto con compattazione e sintesi automatiche, consentendo agli agenti di mantenere un contesto di codice sostanziale senza superare i limiti di token[17]. Gli sviluppatori possono specificare gli strumenti consentiti e le modalità di autorizzazione e aggiungere hook per la sicurezza, abilitando l'autonomia con protezioni[18].
Claude Code 2.0 introduce aggiornamenti favorevoli agli sviluppatori: i checkpoints permettono agli sviluppatori di salvare i progressi e tornare indietro quando l'agente commette errori[24]. Un'estensione per VS Code integra l'agente nell'IDE, mentre un'interfaccia del terminale aggiornata migliora la gestione dello stato[25]. L'API di Claude acquisisce editing del contesto e uno strumento di memoria che aiutano gli agenti a funzionare più a lungo eliminando automaticamente il contesto e recuperando i pezzi rilevanti[26]. L'app e l'API di Claude possono ora eseguire codice, creare file e analizzare dati[27], trasformando un LLM in un assistente di codifica completo. Queste funzionalità sono particolarmente rilevanti per la pipeline di mini-app di Macaron, che prevede la generazione di codice del programma, il test in un ambiente sandbox, la correzione degli errori e l'interazione con servizi esterni.
Claude Sonnet 4.5 è il modello più capace di Anthropic per la programmazione, i compiti agentici e l'uso del computer. DevOps.com riporta che Sonnet 4.5 può operare in autonomia per oltre 30 ore, molto più a lungo delle sette ore del suo predecessore. Eccelle nel seguire istruzioni, nel refactoring del codice e nella produzione di risultati pronti per la produzione, e guida il benchmark SWE-Bench Verified su compiti di programmazione realistici. Nei deployment reali, i miglioramenti sono tangibili: i benchmark interni di Replit hanno visto gli errori di modifica del codice scendere dal 9% con Sonnet 4 allo 0% con Sonnet 4.5, mentre i team di cybersecurity hanno ridotto il tempo di gestione delle vulnerabilità del 44% e migliorato l'accuratezza del 25%. Gli ingegneri di Netflix descrivono Sonnet 4.5 come “eccellente nei compiti di sviluppo software, apprendendo i modelli del nostro codice per fornire implementazioni precise”.
Gli strumenti di sviluppo e le funzionalità di memoria di Sonnet 4.5 si integrano con l'Agent SDK. Il modello supporta l'editing del contesto e la gestione della memoria, che cancellano automaticamente il vecchio contesto e riportano in primo piano i pezzi rilevanti[24]. Può navigare le interfacce grafiche cliccando, digitando e interagendo con i menu, abilitando l'automazione degli strumenti senza API. Combinato con l'architettura sub‑agent e i checkpoint dell'SDK, questo significa che Macaron può costruire mini‑app su sessioni di più giorni senza perdere il contesto e correggere gli errori quando necessario.
Mentre il Sonnet 4.5 si concentra sulla qualità e l'autonomia, DeepSeek V3.2‑Exp enfatizza l'efficienza. Il modello introduce il DeepSeek Sparse Attention (DSA), selezionando solo i token più importanti durante l'attenzione. Questo riduce la complessità da quadratica O(n²) a O(nk), offrendo un'inferenza 2–3 volte più veloce su contesti lunghi, un uso della memoria inferiore del 30–40% e una riduzione dei prezzi API del 50% o più[28]. Nonostante questi risparmi, V3.2‑Exp mantiene la parità con il precedente modello V3.1‑Terminus sulla maggior parte dei benchmark[29]. Il rilascio open-source consente a Macaron di eseguire il modello localmente, affinarlo ed esplorare nuove architetture[30]. Reuters osserva che DeepSeek considera questo un passo intermedio verso la sua architettura di nuova generazione; il meccanismo DSA riduce i costi di calcolo mentre migliora alcuni tipi di prestazioni[31], e il servizio si aggiorna automaticamente a V3.2‑Exp con un'enorme riduzione dei prezzi per gli utenti[32].
DeepSeek V3.2‑Exp eredita il design mixture‑of‑experts e aggiunge precisione mista e attenzione latente multi‑head[33]. Tuttavia, essendo sperimentale, mostra lievi regressioni nei compiti di ragionamento complesso[34] e manca degli strumenti integrati dell'ecosistema Claude. Per Macaron questo significa che V3.2‑Exp è più adatto per compiti sensibili ai costi o prototipazione, dove velocità e throughput sono più importanti della massima precisione del codice.
La decisione di Macaron di connettersi a entrambi i modelli invita a un confronto tra i loro punti di forza e debolezza. La tabella seguente riassume le caratteristiche chiave:
Da questo confronto, possiamo derivare una strategia ibrida. Macaron potrebbe utilizzare DeepSeek V3.2‑Exp per le bozze iniziali, beneficiando di bassa latenza e costo, per poi perfezionare o validare con Sonnet 4.5 per garantire correttezza e sicurezza. Per mini-app complesse che richiedono un ragionamento profondo, Sonnet 4.5 rimane la scelta migliore, mentre V3.2‑Exp eccelle in iterazioni rapide o generazioni in grandi lotti.
La domanda principale per Macaron è se Sonnet 4.5 e DeepSeek V3.2‑Exp possono migliorare la qualità, ridurre il tempo di sviluppo e diminuire gli errori. Analizziamo ciascun fattore nel contesto del pipeline di Macaron:
Sonnet 4.5 offre una qualità del codice superiore e meno errori. Secondo Replit, gli errori di modifica del codice sono diminuiti dal 9% a zero passando da Sonnet 4 a Sonnet 4.5. Questo significa che le mini-app generate da Macaron verranno compilate in modo più affidabile, con meno errori di sintassi o importazioni mancanti. Il miglioramento nel seguire le istruzioni del modello aiuta Macaron a comprendere più accuratamente le specifiche dell'utente; il suo potenziato refactoring del codice garantisce che i moduli generati siano puliti e modulari. Nei compiti finanziari e di cybersecurity, Sonnet 4.5 ha migliorato l'accuratezza dal 25% al 44%, suggerendo guadagni simili per le app di viaggio e benessere di Macaron. DeepSeek V3.2-Exp, pur essendo leggermente più debole nel ragionamento complesso, mantiene comunque prestazioni paragonabili a V3.1 con una migliore efficienza; quando ottimizzato sul dominio di Macaron, potrebbe fornire un'accuratezza sufficientemente alta per mini-app più semplici.
La capacità di Sonnet 4.5 di funzionare autonomamente per oltre 30 ore consente a Macaron di generare mini-app end-to-end in una singola sessione continua senza ripristini manuali. Combinato con la gestione del contesto e i checkpoint dell'Agent SDK, questo riduce il tempo trascorso a riavviare attività o ricaricare il contesto. L'architettura del Sub-agente permette a Macaron di parallelizzare i compiti: un agente può gestire la generazione dell'interfaccia utente mentre un altro si occupa dell'integrazione API, ciascuno con il proprio contesto e strumenti. Nel frattempo, l'inferenza 2–3 volte più veloce e il minor uso di memoria di DeepSeek V3.2-Exp si traducono in risposte più rapide. Ad esempio, se la generazione di un itinerario di viaggio richiedeva 30 secondi con Sonnet 4.5, V3.2-Exp potrebbe produrre una bozza in 10-15 secondi; Sonnet 4.5 la perfezionerebbe poi. L'effetto netto è un tempo più breve per la prima versione utilizzabile, consentendo rapidi cicli di feedback degli utenti.
L'automazione riduce gli errori umani, ma l'autonomia può introdurre nuovi bug se non gestita correttamente. I checkpoints dell'SDK dell'agente permettono agli sviluppatori di salvare e ripristinare lo stato dell'agente[24]. Se Macaron effettua una chiamata API errata o scrive nel file sbagliato durante la generazione di mini-app, lo sviluppatore può tornare a un checkpoint precedente invece di ricominciare da capo. L'editing del contesto previene l'esaurimento dei token e garantisce che solo il contesto rilevante venga mantenuto, minimizzando le allucinazioni. Per DeepSeek, il rilascio open source consente al team di Macaron di ispezionare e modificare il modello, integrare controlli di sicurezza personalizzati e ottimizzare per compiti specifici del dominio. Inoltre, i meccanismi di RL di Macaron – intreccio temporale, ragionamento controfattuale e vincoli di equità – continuano a monitorare la soddisfazione degli utenti e a penalizzare i comportamenti dannosi[2][5], riducendo il rischio di bug e violazioni etiche.
I modelli di alta qualità hanno un costo. Il prezzo dei token di Sonnet 4.5 rimane invariato rispetto a Sonnet 4 (3 $/M token di input, 15 $/M token di output)[37]. DeepSeek V3.2‑Exp dimezza il costo delle chiamate API[38] e, poiché è open-source, può essere ospitato autonomamente. Macaron può quindi ottimizzare i costi utilizzando V3.2‑Exp per bozze iniziali o compiti a bassa priorità (ad esempio, generazione di componenti UI o calcolatori semplici) e riservando Sonnet 4.5 per compiti ad alta priorità (ad esempio, pianificazione finanziaria, consulenza medica) dove la correttezza e la conformità sono critiche. I risparmi derivanti da inferenze più rapide e ridotto utilizzo della GPU (discussi di seguito) compensano anche i costi di calcolo.
Migliorare il modello è solo una parte della storia; l'efficienza dell'addestramento influisce sulla rapidità con cui Macaron può iterare sulle politiche di RL. MIND LABS descrive un sistema che combina Decoupled Clip e Dynamic Sampling Policy Optimization (DAPO) con Low‑Rank Adaptation (LoRA) in un'architettura All‑Sync RL per addestrare un modello DeepSeek da 671B utilizzando solo 48 GPU H800 – una riduzione di 10 volte rispetto alle 512 GPU necessarie per il RL standard[39]. Il parallelismo di pipeline utilizzando Coati e SGLang, oltre alla fusione e quantizzazione accelerata di LoRA, elimina i “bubbles GPU” dove le GPU restano inattive in attesa di inferenza[40]. Il risultato è una riduzione del tempo di wall‑clock per un singolo passo di addestramento da 9 ore a 1,5 ore[41]. Questi progressi significano che Macaron può rieducare più rapidamente i suoi modelli di ricompensa o le sue porte di memoria, incorporare il feedback più velocemente e implementare miglioramenti agli utenti più presto.
Figura 1 – L'uso della GPU scende da 512 a 48 GPU H800 quando si utilizza All-Sync RL con LoRA, rendendo la ricerca RL più accessibile e permettendo esperimenti più rapidi[39].
Oltre all'efficienza, gli aggiornamenti a bassa classifica di LoRA riducono i costi di comunicazione del peso del modello, e il campionamento dinamico stabilizza l'allenamento filtrando i prompt e modellando le ricompense[42]. Per Macaron, queste tecniche significano che gli aggiornamenti futuri della memoria e delle politiche possono essere addestrati rapidamente senza incorrere in costi di calcolo proibitivi.
Creare una mini-app con Macaron coinvolge diverse fasi:
Integrando Sonnet 4.5 e DeepSeek V3.2‑Exp, Macaron può personalizzare questo flusso di lavoro. Ad esempio, un'app per la pianificazione dei viaggi potrebbe avere l'agente generatore di UI che utilizza DeepSeek per proporre layout rapidamente, mentre la logica dell'itinerario e l'ottimizzazione del programma utilizzano Sonnet 4.5 per garantire precisione e gestione corretta dei calendari. Un'app di budgeting potrebbe fare affidamento su DeepSeek per grafici e tabelle iniziali ma utilizzare Sonnet 4.5 per calcoli finanziari complessi e conformità alle normative.
Per illustrare i benefici tangibili di queste tecnologie, i grafici seguenti riassumono i metri chiave.
Figura 2 – Una vista comparativa di Sonnet 4.5 e DeepSeek V3.2‑Exp in termini di accuratezza del codice, velocità relativa, costo e autonomia. Barre più alte rappresentano valori migliori per accuratezza e autonomia; barre più basse indicano prestazioni migliori (più veloci o economiche) in termini di efficienza e costo.
Figura 3 – I benchmark interni di Replit mostrano che gli errori di modifica del codice sono scesi dal 9% con Sonnet 4 a zero con Sonnet 4.5. Migliorando il rispetto delle istruzioni e il refactoring del codice si ottengono mini‑app più affidabili.
Figura 4 – Combinando DAPO e LoRA in una pipeline All‑Sync RL, il tempo di esecuzione di un passaggio di addestramento si riduce da 9 ore a 1,5 ore[41], permettendo aggiornamenti più rapidi ai modelli di ricompensa e alle politiche di memoria.
Queste visualizzazioni sottolineano che i benefici non sono teorici. Ridotti requisiti GPU, addestramento più veloce, maggiore accuratezza e costi inferiori contribuiscono tutti a una pipeline di mini‑app più fluida ed efficiente.
Guardando al futuro, sia Anthropic che DeepSeek hanno suggerito architetture più ambiziose. Il successore di Sonnet 4.5 potrebbe espandere le finestre di contesto, migliorare il ragionamento multilingue e supportare interazioni con strumenti più complessi. L'architettura di nuova generazione di DeepSeek dovrebbe basarsi su un'attenzione sparsa per raggiungere prestazioni ancora più elevate a un costo inferiore[31]. Per Macaron, ulteriori ricerche su memoria auto-comprimente, apprendimento continuo e allineamento cross-linguale potrebbero migliorare la personalizzazione e la privacy[43]. Integrare l'apprendimento federato consentirebbe agli utenti di addestrare modelli di memoria localmente, condividendo solo gli aggiornamenti dei modelli, migliorando così le prestazioni collettive preservando la privacy[43]. Sul fronte RL, l'approccio di Macaron potrebbe incorporare teorie normative – utilitarismo, deontologia, etica delle virtù – per fornire spiegazioni delle sue azioni[44].
In sintesi, la decisione di Macaron di connettersi a Claude Sonnet 4.5 e DeepSeek V3.2‑Exp, alimentati dal Claude Agent SDK, lo posiziona all'avanguardia dell'AI personale. Sonnet 4.5 offre qualità impareggiabile, autonomia estesa e strumenti di sviluppo avanzati; DeepSeek fornisce velocità, efficienza e flessibilità open-source. Combinati con le tecniche innovative di addestramento RL di Macaron e il motore di memoria, questi modelli aiuteranno Macaron a sviluppare mini-app più rapidamente, in modo più fluido e con meno bug. Con l'evoluzione dell'AI personale, la combinazione di autonomia, sicurezza, etica ed efficienza di Macaron rappresenta un modello di innovazione responsabile.
[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Dentro il motore di memoria di Macaron: Compressione, Recupero e Gating Dinamico - Macaron
https://macaron.im/memory-engine
[2] [3] [4] [5] [44] [titolo sconosciuto]
https://macaron.im/reinforcement-learning
[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Creare agenti con l'SDK di Claude Code
https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/
[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: Caratteristiche, Prezzi E Confronto - Dataconomy
https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/
[28] [29] [30] [32] [33] [34] [35] AI su AI: DeepSeek-3.2-Exp e DSA – Champaign Magazine
https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/
[31] [38] La cinese DeepSeek rilascia un modello di IA 'intermedio' per la prossima generazione | Reuters
[39] [40] [41] [42] MIND LABS | Scalare All-Sync RL con DAPO e LoRA