Autore: Boxu Li 

Macaron AI non è solo uno strumento di produttività, ma una piattaforma che trasforma le nostre conversazioni in mini-applicazioni che gestiscono calendari, pianificano viaggi ed esplorano hobby. Sotto la superficie amichevole si trova un sofisticato sistema di apprendimento per rinforzo (RL) e un motore di memoria che ricorda ciò che importa e dimentica il resto[1]. Mentre Macaron si prepara a integrare Claude Sonnet 4.5 e DeepSeek V3.2‑Exp, insieme al Claude Agent SDK/Code 2.0, questo blog esplora come questi nuovi modelli e strumenti possano migliorare la qualità dei risultati di Macaron, ridurre i tempi di creazione delle mini-app e diminuire i bug. Combiniamo approfondimenti tecnici dagli aggiornamenti degli sviluppatori di Anthropic, dalla ricerca DeepSeek e dai blog di ingegneria di Macaron per costruire un quadro chiaro di ciò che ci attende.

1 Il motore interno di Macaron: RL, memoria ed etica

Prima di confrontare i modelli, è utile capire cosa rende Macaron unico. Macaron utilizza un sistema RL a strati multipli per convertire le conversazioni quotidiane in compiti e codice. Il sistema scompone il problema in diversi moduli: gestione delle conversazioni, selezione della memoria, sintesi del codice e feedback del simulatore, applicando l'apprendimento per rinforzo gerarchico (HRL) per coordinarli[2]. Un meta-controllore di alto livello decide quale modulo attivare successivamente, mentre le politiche RL di livello inferiore decidono azioni specifiche come recuperare una memoria, chiamare un'API o eseguire il codice generato[2]. Questo design consente a Macaron di scomporre obiettivi complessi, dal pianificare un viaggio all'organizzare le finanze, in sotto-compiti gestibili.

1.1 Modellazione delle ricompense e feedback umano

Nell'IA personale, non esiste una singola “condizione di vittoria”; la soddisfazione dell'utente, la privacy, la tempestività e la sfumatura culturale sono tutti importanti. Macaron costruisce la sua funzione di ricompensa combinando feedback impliciti ed espliciti. I segnali impliciti includono la lunghezza delle conversazioni, la frequenza d'uso e il tono, mentre le valutazioni esplicite e i pollici su/giù aiutano a calibrare le preferenze[3]. Macaron utilizza anche l'elicitazione delle preferenze, presentando risposte alternative o design di mini-app e chiedendo agli utenti quale preferiscono. Un modello inferenziale apprende quindi una funzione di utilità latente sulle possibili azioni, simile all'apprendimento per rinforzo dal feedback umano (RLHF) ma esteso con annotazioni culturali: i valutatori giapponesi enfatizzano la cortesia e il contesto, mentre i valutatori coreani evidenziano una fraseologia comunitaria rispetto a quella individualistica[4]. Questi segnali alimentano un modello di ricompensa che predice la soddisfazione dell'utente e incoraggia l'agente a seguire le norme locali.

1.2 Apprendimento per rinforzo gerarchico e macro-azioni

Per gestire i diversi compiti degli utenti, Macaron sfrutta HRL per selezionare moduli e sotto-politiche. All'interno dei moduli, utilizza il framework delle opzioni: una sequenza di azioni che raggiunge un sotto-obiettivo viene trattata come un'unica opzione (ad esempio, 「riassumere le spese del mese scorso」 o 「raccomandare un piano di studio bilingue」)[3]. Le opzioni scoperte in un dominio possono trasferirsi a un altro se le strutture sottostanti si allineano. Macaron definisce anche macro-azioni che racchiudono dialoghi multi-turno o calcoli prolungati, come pianificare una vacanza in famiglia (destinazione, trasporto, alloggio e itinerario)[3]. Gli agenti RL valutano le macro-azioni basandosi sulla ricompensa cumulativa piuttosto che su segnali a breve termine, incoraggiando l'agente a ottimizzare la soddisfazione a lungo termine.

1.3 Assegnazione del credito e intreccio temporale

Assegnare il merito a specifiche azioni quando le ricompense arrivano in ritardo è difficile. Macaron utilizza il time weaving, collegando eventi nel tempo tramite fili narrativi. Il sistema costruisce un grafo di interazioni dove i nodi rappresentano memorie e gli archi rappresentano relazioni causali; quando valuta un risultato, percorre il grafo all'indietro per identificare quali recuperi o azioni hanno contribuito[2]. Il ragionamento controfattuale aiuta a valutare cosa sarebbe successo se fossero state intraprese azioni alternative, impedendo all'agente di assumere automaticamente che ripetere un'azione di successo porti sempre alla stessa ricompensa[2]. Macaron utilizza anche ricompense ritardate e tracce di idoneità per propagare il segnale a decisioni precedenti – come la selezione della memoria o il tono della conversazione – incoraggiando l'agente a ottimizzare la soddisfazione a lungo termine[5].

1.4 Equità, sicurezza ed etica

Gli agenti AI personali devono evitare pregiudizi e rispettare le normative. Macaron integra i vincoli di equità nella funzione di ricompensa; ad esempio, l'agente viene penalizzato se raccomanda costantemente attività specifiche per genere senza che sia richiesto[5]. Una libreria di politiche etiche codifica le norme culturali e i requisiti legali, e la violazione di queste linee guida provoca una ricompensa negativa o blocca completamente l'azione[5]. La supervisione umana è integrata nelle decisioni ad alto impatto come la pianificazione finanziaria o i consigli sanitari, soddisfacendo il Korean AI Framework Act e il Japan’s AI Promotion Act[5]. Macaron registra le decisioni RL e fornisce agli utenti spiegazioni sul perché sono stati selezionati determinati ricordi o moduli, supportando audit e trasparenza[5].

1.5 Il motore di memoria: compressione, recupero e gestione

Il motore di memoria di Macaron è il pilastro della personalizzazione. Organizza i ricordi in memorie a breve termine, episodiche e a lungo termine. La memoria a breve termine conserva la conversazione corrente (8-16 messaggi); la memoria episodica contiene le interazioni recenti compresse tramite attenzione convoluzionale; e la memoria a lungo termine utilizza un database vettoriale ad alta dimensione con tag di metadati (timestamp, dominio, lingua)[6]. Per gestire i costi, Macaron utilizza la sintesi latente per identificare segmenti salienti e comprimerli in vettori di lunghezza fissa; un obiettivo di autoencoding ricostruisce stati nascosti da sintesi compresse, e RL affina il sintetizzatore per mantenere le informazioni importanti per il richiamo successivo[7]. Un token di memoria dinamico funge da rete puntatore: recupera ricordi candidati, valuta la rilevanza e decide se restituirli o continuare la ricerca[8].

Il recupero coinvolge la ricerca approssimativa del vicino più prossimo con quantizzazione del prodotto e massima rilevanza marginale per bilanciare somiglianza e diversità [9]. L'espansione delle query utilizza l'obiettivo dell'utente e l'intento latente; ad esempio, una richiesta giapponese per "花火大会" (festival dei fuochi d'artificio) si espande per includere biglietti, data e meteo [10]. La federazione della rilevanza gestisce le query cross-domain, utilizzando una funzione di gate softmax per distribuire le probabilità di recupero tra domini e lingue [11]. Questi componenti sono addestrati con RL, e l'assegnazione del credito tramite la tessitura temporale assicura che l'agente apprenda quali memorie erano cruciali [12]. Il sistema di memoria di Macaron si differenzia dai tradizionali sistemi di generazione aumentata dal recupero (RAG) perché le memorie sono specifiche per l'utente, lo stoccaggio e il recupero sono guidati da RL, e ogni memoria include metadati di privacy che regolano l'accesso [13].

2 L'SDK del Claude Agent e Claude Code 2.0

Sebbene l'architettura interna di Macaron sia robusta, la creazione di mini-app richiede ancora la lettura e scrittura di file, l'esecuzione di codice, l'uso del controllo di versione e l'interazione con le API web. L'SDK di Claude Agent di Anthropic fornisce esattamente queste capacità, esponendo lo stesso sistema di agenti che alimenta l'assistente terminale di Claude Code[14]. Offre strumenti dettagliati: operazioni sui file (lettura, scrittura, grep, glob), comandi bash, fetch web, esecuzione di codice multilingua e operazioni Git[15]. A differenza degli assistenti che pre-indicizzano una base di codice, gli agenti Claude cercano su richiesta utilizzando grep/find/glob per localizzare i file, rendendoli più flessibili nei repository dinamici[16]. L'SDK include ampie finestre di contesto con compattazione e sintesi automatiche, consentendo agli agenti di mantenere un contesto di codice sostanziale senza superare i limiti di token[17]. Gli sviluppatori possono specificare gli strumenti consentiti e le modalità di autorizzazione e aggiungere hook per la sicurezza, abilitando l'autonomia con protezioni[18].

Elementi fondamentali del SDK

  1. Strumenti – L'SDK consente agli ingegneri di selezionare quali strumenti (file I/O, bash, recupero web, esecuzione di codice) sono disponibili per un agente[19].
  2. Estensioni MCP – L'integrazione con il Model Context Protocol consente ai server esterni (database, ricerca email, ricerca vettoriale) di ampliare la gamma di strumenti[20].
  3. Sotto-agenti – Gli agenti definiti in .claude/agents hanno i propri prompt di sistema, set di strumenti limitati e selezione del modello opzionale; i compiti possono essere delegati a questi sotto-agenti[21].
  4. Memoria e contesto del progetto – Un taccuino persistente (CLAUDE.md) mantiene il contesto tra le sessioni e rispetta la configurazione a livello di repository[22].
  5. Gestione del contesto e runtime – Compattazione automatica del contesto, risposte in streaming e gestione degli errori tipizzati semplificano i compiti a lungo termine[23].

Nuove funzionalità in Claude Code 2.0

Claude Code 2.0 introduce aggiornamenti favorevoli agli sviluppatori: i checkpoints permettono agli sviluppatori di salvare i progressi e tornare indietro quando l'agente commette errori[24]. Un'estensione per VS Code integra l'agente nell'IDE, mentre un'interfaccia del terminale aggiornata migliora la gestione dello stato[25]. L'API di Claude acquisisce editing del contesto e uno strumento di memoria che aiutano gli agenti a funzionare più a lungo eliminando automaticamente il contesto e recuperando i pezzi rilevanti[26]. L'app e l'API di Claude possono ora eseguire codice, creare file e analizzare dati[27], trasformando un LLM in un assistente di codifica completo. Queste funzionalità sono particolarmente rilevanti per la pipeline di mini-app di Macaron, che prevede la generazione di codice del programma, il test in un ambiente sandbox, la correzione degli errori e l'interazione con servizi esterni.

3 Claude Sonnet 4.5: lunga autonomia e qualità superiore

Claude Sonnet 4.5 è il modello più capace di Anthropic per la programmazione, i compiti agentici e l'uso del computer. DevOps.com riporta che Sonnet 4.5 può operare in autonomia per oltre 30 ore, molto più a lungo delle sette ore del suo predecessore. Eccelle nel seguire istruzioni, nel refactoring del codice e nella produzione di risultati pronti per la produzione, e guida il benchmark SWE-Bench Verified su compiti di programmazione realistici. Nei deployment reali, i miglioramenti sono tangibili: i benchmark interni di Replit hanno visto gli errori di modifica del codice scendere dal 9% con Sonnet 4 allo 0% con Sonnet 4.5, mentre i team di cybersecurity hanno ridotto il tempo di gestione delle vulnerabilità del 44% e migliorato l'accuratezza del 25%. Gli ingegneri di Netflix descrivono Sonnet 4.5 come “eccellente nei compiti di sviluppo software, apprendendo i modelli del nostro codice per fornire implementazioni precise”.

Gli strumenti di sviluppo e le funzionalità di memoria di Sonnet 4.5 si integrano con l'Agent SDK. Il modello supporta l'editing del contesto e la gestione della memoria, che cancellano automaticamente il vecchio contesto e riportano in primo piano i pezzi rilevanti[24]. Può navigare le interfacce grafiche cliccando, digitando e interagendo con i menu, abilitando l'automazione degli strumenti senza API. Combinato con l'architettura sub‑agent e i checkpoint dell'SDK, questo significa che Macaron può costruire mini‑app su sessioni di più giorni senza perdere il contesto e correggere gli errori quando necessario.

4 DeepSeek V3.2‑Exp: efficienza attraverso l'attenzione sparsa

Mentre il Sonnet 4.5 si concentra sulla qualità e l'autonomia, DeepSeek V3.2‑Exp enfatizza l'efficienza. Il modello introduce il DeepSeek Sparse Attention (DSA), selezionando solo i token più importanti durante l'attenzione. Questo riduce la complessità da quadratica O(n²) a O(nk), offrendo un'inferenza 2–3 volte più veloce su contesti lunghi, un uso della memoria inferiore del 30–40% e una riduzione dei prezzi API del 50% o più[28]. Nonostante questi risparmi, V3.2‑Exp mantiene la parità con il precedente modello V3.1‑Terminus sulla maggior parte dei benchmark[29]. Il rilascio open-source consente a Macaron di eseguire il modello localmente, affinarlo ed esplorare nuove architetture[30]. Reuters osserva che DeepSeek considera questo un passo intermedio verso la sua architettura di nuova generazione; il meccanismo DSA riduce i costi di calcolo mentre migliora alcuni tipi di prestazioni[31], e il servizio si aggiorna automaticamente a V3.2‑Exp con un'enorme riduzione dei prezzi per gli utenti[32].

DeepSeek V3.2‑Exp eredita il design mixture‑of‑experts e aggiunge precisione mista e attenzione latente multi‑head[33]. Tuttavia, essendo sperimentale, mostra lievi regressioni nei compiti di ragionamento complesso[34] e manca degli strumenti integrati dell'ecosistema Claude. Per Macaron questo significa che V3.2‑Exp è più adatto per compiti sensibili ai costi o prototipazione, dove velocità e throughput sono più importanti della massima precisione del codice.

5 Confronto tra Sonnet 4.5 e DeepSeek V3.2‑Exp per Macaron

La decisione di Macaron di connettersi a entrambi i modelli invita a un confronto tra i loro punti di forza e debolezza. La tabella seguente riassume le caratteristiche chiave:

Caratteristica
Sonnet 4.5
DeepSeek V3.2‑Exp
Focus
Codifica di alta qualità, compiti agentici, lunga autonomia
Elaborazione efficiente di contesti lunghi[35]
Architettura
Modello proprietario con autonomia di lunga durata (>30 ore) e forte adesione alle istruzioni
Miscela di esperti con attenzione sparsa che riduce il calcolo[28]
Memoria e contesto
Finestra di contesto ampia; gestione automatica della memoria tramite strumento di memoria[24]
Supporta contesti lunghi tramite attenzione sparsa; uso della memoria ridotto[28]
Strumenti per sviluppatori
SDK per agenti con sotto-agenti, checkpoint, integrazione con VS Code[36][24]
Nessun SDK ufficiale; il codice open source consente integrazioni personalizzate ma manca di strumenti di memoria integrati
Costo
Invariato rispetto a Sonnet 4; $3/M token di input e $15/M token di output[37]
Riduzione del prezzo API del 50 %+[38]; gratuito per l'auto-hosting
Punti di forza
Massima precisione nella codifica (SWE‑Bench Verificato 77–82 %), autonomia estesa, sicurezza robusta
Efficienza eccezionale; inferenza 2–3× più veloce e uso della memoria ridotto[28]; open-source
Debolezze
Costi dei token più elevati; API proprietaria; può richiedere una gestione attenta dei prompt
Stato sperimentale; lievi regressioni nel ragionamento complesso[34]; mancanza di strumenti integrati

Da questo confronto, possiamo derivare una strategia ibrida. Macaron potrebbe utilizzare DeepSeek V3.2‑Exp per le bozze iniziali, beneficiando di bassa latenza e costo, per poi perfezionare o validare con Sonnet 4.5 per garantire correttezza e sicurezza. Per mini-app complesse che richiedono un ragionamento profondo, Sonnet 4.5 rimane la scelta migliore, mentre V3.2‑Exp eccelle in iterazioni rapide o generazioni in grandi lotti.

6 Come i nuovi modelli miglioreranno il pipeline delle mini-app di Macaron

La domanda principale per Macaron è se Sonnet 4.5 e DeepSeek V3.2‑Exp possono migliorare la qualitàridurre il tempo di sviluppo e diminuire gli errori. Analizziamo ciascun fattore nel contesto del pipeline di Macaron:

6.1 Qualità del codice e dei risultati

Sonnet 4.5 offre una qualità del codice superiore e meno errori. Secondo Replit, gli errori di modifica del codice sono diminuiti dal 9% a zero passando da Sonnet 4 a Sonnet 4.5. Questo significa che le mini-app generate da Macaron verranno compilate in modo più affidabile, con meno errori di sintassi o importazioni mancanti. Il miglioramento nel seguire le istruzioni del modello aiuta Macaron a comprendere più accuratamente le specifiche dell'utente; il suo potenziato refactoring del codice garantisce che i moduli generati siano puliti e modulari. Nei compiti finanziari e di cybersecurity, Sonnet 4.5 ha migliorato l'accuratezza dal 25% al 44%, suggerendo guadagni simili per le app di viaggio e benessere di Macaron. DeepSeek V3.2-Exp, pur essendo leggermente più debole nel ragionamento complesso, mantiene comunque prestazioni paragonabili a V3.1 con una migliore efficienza; quando ottimizzato sul dominio di Macaron, potrebbe fornire un'accuratezza sufficientemente alta per mini-app più semplici.

6.2 Velocità di creazione delle mini-app

La capacità di Sonnet 4.5 di funzionare autonomamente per oltre 30 ore consente a Macaron di generare mini-app end-to-end in una singola sessione continua senza ripristini manuali. Combinato con la gestione del contesto e i checkpoint dell'Agent SDK, questo riduce il tempo trascorso a riavviare attività o ricaricare il contesto. L'architettura del Sub-agente permette a Macaron di parallelizzare i compiti: un agente può gestire la generazione dell'interfaccia utente mentre un altro si occupa dell'integrazione API, ciascuno con il proprio contesto e strumenti. Nel frattempo, l'inferenza 2–3 volte più veloce e il minor uso di memoria di DeepSeek V3.2-Exp si traducono in risposte più rapide. Ad esempio, se la generazione di un itinerario di viaggio richiedeva 30 secondi con Sonnet 4.5, V3.2-Exp potrebbe produrre una bozza in 10-15 secondi; Sonnet 4.5 la perfezionerebbe poi. L'effetto netto è un tempo più breve per la prima versione utilizzabile, consentendo rapidi cicli di feedback degli utenti.

6.3 Processi più fluidi e meno bug

L'automazione riduce gli errori umani, ma l'autonomia può introdurre nuovi bug se non gestita correttamente. I checkpoints dell'SDK dell'agente permettono agli sviluppatori di salvare e ripristinare lo stato dell'agente[24]. Se Macaron effettua una chiamata API errata o scrive nel file sbagliato durante la generazione di mini-app, lo sviluppatore può tornare a un checkpoint precedente invece di ricominciare da capo. L'editing del contesto previene l'esaurimento dei token e garantisce che solo il contesto rilevante venga mantenuto, minimizzando le allucinazioni. Per DeepSeek, il rilascio open source consente al team di Macaron di ispezionare e modificare il modello, integrare controlli di sicurezza personalizzati e ottimizzare per compiti specifici del dominio. Inoltre, i meccanismi di RL di Macaron – intreccio temporale, ragionamento controfattuale e vincoli di equità – continuano a monitorare la soddisfazione degli utenti e a penalizzare i comportamenti dannosi[2][5], riducendo il rischio di bug e violazioni etiche.

6.4 Considerazioni sui costi

I modelli di alta qualità hanno un costo. Il prezzo dei token di Sonnet 4.5 rimane invariato rispetto a Sonnet 4 (3 $/M token di input, 15 $/M token di output)[37]. DeepSeek V3.2‑Exp dimezza il costo delle chiamate API[38] e, poiché è open-source, può essere ospitato autonomamente. Macaron può quindi ottimizzare i costi utilizzando V3.2‑Exp per bozze iniziali o compiti a bassa priorità (ad esempio, generazione di componenti UI o calcolatori semplici) e riservando Sonnet 4.5 per compiti ad alta priorità (ad esempio, pianificazione finanziaria, consulenza medica) dove la correttezza e la conformità sono critiche. I risparmi derivanti da inferenze più rapide e ridotto utilizzo della GPU (discussi di seguito) compensano anche i costi di calcolo.

7 Innovazioni di Macaron nell'addestramento RL: DAPO, LoRA e All‑Sync RL

Migliorare il modello è solo una parte della storia; l'efficienza dell'addestramento influisce sulla rapidità con cui Macaron può iterare sulle politiche di RL. MIND LABS descrive un sistema che combina Decoupled Clip e Dynamic Sampling Policy Optimization (DAPO) con Low‑Rank Adaptation (LoRA) in un'architettura All‑Sync RL per addestrare un modello DeepSeek da 671B utilizzando solo 48 GPU H800 – una riduzione di 10 volte rispetto alle 512 GPU necessarie per il RL standard[39]. Il parallelismo di pipeline utilizzando Coati e SGLang, oltre alla fusione e quantizzazione accelerata di LoRA, elimina i “bubbles GPU” dove le GPU restano inattive in attesa di inferenza[40]. Il risultato è una riduzione del tempo di wall‑clock per un singolo passo di addestramento da 9 ore a 1,5 ore[41]. Questi progressi significano che Macaron può rieducare più rapidamente i suoi modelli di ricompensa o le sue porte di memoria, incorporare il feedback più velocemente e implementare miglioramenti agli utenti più presto.

Figura 1 – L'uso della GPU scende da 512 a 48 GPU H800 quando si utilizza All-Sync RL con LoRA, rendendo la ricerca RL più accessibile e permettendo esperimenti più rapidi[39].

Oltre all'efficienza, gli aggiornamenti a bassa classifica di LoRA riducono i costi di comunicazione del peso del modello, e il campionamento dinamico stabilizza l'allenamento filtrando i prompt e modellando le ricompense[42]. Per Macaron, queste tecniche significano che gli aggiornamenti futuri della memoria e delle politiche possono essere addestrati rapidamente senza incorrere in costi di calcolo proibitivi.

8 Flusso di lavoro per sviluppatori: integrare Sonnet 4.5 e DeepSeek in Macaron

Creare una mini-app con Macaron coinvolge diverse fasi:

  • Comprensione delle intenzioni – Macaron analizza la richiesta dell'utente e identifica i componenti necessari (ad esempio, fonti di dati, elementi dell'interfaccia utente, API esterne). Le migliorate capacità di seguire istruzioni di Sonnet 4.5 aiutano a estrarre l'intento accurato e a pianificare i passaggi di esecuzione, mentre V3.2‑Exp può prototipare rapidamente potenziali intenzioni per la selezione da parte dell'utente.
  • Sintesi del programma – L'agente utilizza il Claude Agent SDK per generare codice, cercare nel repository, leggere modelli e scrivere nuovi file. I sotto-agenti possono specializzarsi nel front-end (React) o nel back-end (Python), e la gestione del contesto garantisce che il codice giusto sia disponibile senza sovraccaricare la memoria. Le capacità di lungo contesto e di rifattorizzazione del codice di Sonnet 4.5 producono programmi più puliti e manutenibili, mentre V3.2‑Exp accelera la stesura iniziale.
  • Esecuzione sandbox – Il codice generato viene eseguito in un ambiente sicuro. L'agente legge i log, cattura gli errori e risolve iterativamente i bug. I punti di controllo forniscono sicuri fallback, e i segnali di ricompensa RL penalizzano il codice che fallisce nei test. Macaron può anche eseguire test di integrazione contro servizi esterni utilizzando gli strumenti bash e web fetch dell'Agent SDK.
  • Interazione e perfezionamento – L'agente presenta la mini-app all'utente tramite l'interfaccia conversazionale di Macaron. Il motore di memoria memorizza la conversazione e utilizza RL per decidere quali memorie richiamare nelle interazioni future. Il feedback dell'utente aggiorna il modello di ricompensa e influenza le generazioni future.

Integrando Sonnet 4.5 e DeepSeek V3.2‑Exp, Macaron può personalizzare questo flusso di lavoro. Ad esempio, un'app per la pianificazione dei viaggi potrebbe avere l'agente generatore di UI che utilizza DeepSeek per proporre layout rapidamente, mentre la logica dell'itinerario e l'ottimizzazione del programma utilizzano Sonnet 4.5 per garantire precisione e gestione corretta dei calendari. Un'app di budgeting potrebbe fare affidamento su DeepSeek per grafici e tabelle iniziali ma utilizzare Sonnet 4.5 per calcoli finanziari complessi e conformità alle normative.

9 Visualizzazione dei miglioramenti

Per illustrare i benefici tangibili di queste tecnologie, i grafici seguenti riassumono i metri chiave.

Figura 2 – Una vista comparativa di Sonnet 4.5 e DeepSeek V3.2‑Exp in termini di accuratezza del codice, velocità relativa, costo e autonomia. Barre più alte rappresentano valori migliori per accuratezza e autonomia; barre più basse indicano prestazioni migliori (più veloci o economiche) in termini di efficienza e costo.

Figura 3 – I benchmark interni di Replit mostrano che gli errori di modifica del codice sono scesi dal 9% con Sonnet 4 a zero con Sonnet 4.5. Migliorando il rispetto delle istruzioni e il refactoring del codice si ottengono mini‑app più affidabili.

Figura 4 – Combinando DAPO e LoRA in una pipeline All‑Sync RL, il tempo di esecuzione di un passaggio di addestramento si riduce da 9 ore a 1,5 ore[41], permettendo aggiornamenti più rapidi ai modelli di ricompensa e alle politiche di memoria.

Queste visualizzazioni sottolineano che i benefici non sono teorici. Ridotti requisiti GPU, addestramento più veloce, maggiore accuratezza e costi inferiori contribuiscono tutti a una pipeline di mini‑app più fluida ed efficiente.

10 Direzioni future

Guardando al futuro, sia Anthropic che DeepSeek hanno suggerito architetture più ambiziose. Il successore di Sonnet 4.5 potrebbe espandere le finestre di contesto, migliorare il ragionamento multilingue e supportare interazioni con strumenti più complessi. L'architettura di nuova generazione di DeepSeek dovrebbe basarsi su un'attenzione sparsa per raggiungere prestazioni ancora più elevate a un costo inferiore[31]. Per Macaron, ulteriori ricerche su memoria auto-comprimenteapprendimento continuo e allineamento cross-linguale potrebbero migliorare la personalizzazione e la privacy[43]. Integrare l'apprendimento federato consentirebbe agli utenti di addestrare modelli di memoria localmente, condividendo solo gli aggiornamenti dei modelli, migliorando così le prestazioni collettive preservando la privacy[43]. Sul fronte RL, l'approccio di Macaron potrebbe incorporare teorie normative – utilitarismo, deontologia, etica delle virtù – per fornire spiegazioni delle sue azioni[44].

In sintesi, la decisione di Macaron di connettersi a Claude Sonnet 4.5 e DeepSeek V3.2‑Exp, alimentati dal Claude Agent SDK, lo posiziona all'avanguardia dell'AI personale. Sonnet 4.5 offre qualità impareggiabile, autonomia estesa e strumenti di sviluppo avanzati; DeepSeek fornisce velocità, efficienza e flessibilità open-source. Combinati con le tecniche innovative di addestramento RL di Macaron e il motore di memoria, questi modelli aiuteranno Macaron a sviluppare mini-app più rapidamente, in modo più fluido e con meno bug. Con l'evoluzione dell'AI personale, la combinazione di autonomia, sicurezza, etica ed efficienza di Macaron rappresenta un modello di innovazione responsabile.


[1] [6] [7] [8] [9] [10] [11] [12] [13] [43] Dentro il motore di memoria di Macaron: Compressione, Recupero e Gating Dinamico - Macaron

https://macaron.im/memory-engine

[2] [3] [4] [5] [44] [titolo sconosciuto]

https://macaron.im/reinforcement-learning

[14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [36] Creare agenti con l'SDK di Claude Code

https://blog.promptlayer.com/building-agents-with-claude-codes-sdk/

[24] [25] [26] [27] [37] Anthropic Claude Sonnet 4.5: Caratteristiche, Prezzi E Confronto - Dataconomy

https://dataconomy.com/2025/09/30/anthropic-claude-sonnet-4-5-features-pricing-and-comparison/

[28] [29] [30] [32] [33] [34] [35] AI su AI: DeepSeek-3.2-Exp e DSA – Champaign Magazine

https://champaignmagazine.com/2025/09/29/ai-on-ai-deepseek-3-2-exp-and-dsa/

[31] [38] La cinese DeepSeek rilascia un modello di IA 'intermedio' per la prossima generazione | Reuters

https://www.reuters.com/technology/deepseek-releases-model-it-calls-intermediate-step-towards-next-generation-2025-09-29/

[39] [40] [41] [42] MIND LABS | Scalare All-Sync RL con DAPO e LoRA

https://mindlabs.macaron.im/

Boxu ha conseguito la laurea presso l'Università di Emory con specializzazione in Economia Quantitativa. Prima di unirsi a Macaron, Boxu ha trascorso gran parte della sua carriera nel settore del private equity e del venture capital negli Stati Uniti. Ora è Capo di Gabinetto e VP del Marketing presso Macaron AI, gestendo finanze, logistica e operazioni, supervisionando il marketing.

Candidati per diventare I primi amici di Macaron