
Autore: Boxu Li
Alla fine del 2025, tre giganti dell'AI – Anthropic, OpenAI e Google DeepMind – hanno rilasciato ciascuno modelli linguistici di nuova generazione. Claude Opus 4.5 di Anthropic, ChatGPT 5.1 di OpenAI (basato sulla serie GPT‑5.1), e Gemini 3 Pro di Google rappresentano l'avanguardia dell'AI. Tutti e tre promettono notevoli progressi nelle capacità, dalla gestione di contesti massivi alla risoluzione di compiti complessi di codifica e ragionamento. Questa analisi approfondita offre un confronto tecnico di questi modelli su dimensioni chiave – benchmark di prestazioni, capacità di ragionamento, generazione di codice, latenza API, costo, finestra di contesto token, personalizzazione e adattamento – per capire come si confrontano tra loro.
Profili Modello: Claude Opus 4.5 è l’ultimo modello di punta di Anthropic (successore di Claude 2 e della serie Claude 4), affermando di essere 「il miglior modello al mondo per la programmazione, gli agenti e l'uso del computer」[1]. ChatGPT 5.1 di OpenAI è un aggiornamento della serie GPT‑5, offerto in due modalità (Istantaneo e Riflessivo) per bilanciare velocità e profondità di ragionamento[2]. Gemini 3 Pro di Google è l'istanza di punta della famiglia Gemini, un modello multimodale costruito da Google DeepMind, descritto come 「il nostro modello più intelligente」 con capacità di ragionamento e utilizzo degli strumenti all'avanguardia[3][4]. Sebbene le architetture dettagliate siano proprietarie, tutti e tre sono sistemi basati su Transformer di grandi dimensioni, probabilmente dell'ordine di trilioni di parametri, potenziati con un ampio addestramento e ottimizzazione (ad es. apprendimento per rinforzo dal feedback umano). Di seguito, li confrontiamo in dettaglio.
Conoscenza e ragionamento (MMLU, ARC, ecc.): Nei test di conoscenza generale come MMLU (Massive Multi-Task Language Understanding), tutti e tre i modelli operano vicino o sopra il livello degli esperti umani. Google riporta che Gemini 3 Pro ha raggiunto circa il 91,9% nei set di domande più difficili (GPQA Diamond) e ha superato la classifica LMArena con un Elo di 1501[5]. GPT‑5.1 è altrettanto forte su MMLU – in un'analisi, GPT‑5.1 ha ottenuto circa il 91,0% su MMLU, circa allo stesso livello di Gemini 3 Pro[6]. Anthropic non ha pubblicato un MMLU ufficiale per Opus 4.5, ma il suo predecessore (Claude Sonnet 4.5) era nella gamma dell'alta-80%[7], suggerendo che Opus 4.5 sia a quel livello per compiti di conoscenza accademica. Nei test di ragionamento estremamente impegnativi, emergono differenze.
L'ultimo esame dell'umanità (un brutale test di ragionamento) ha visto Gemini 3 Pro ottenere un punteggio del 37,5% (senza strumenti) – significativamente più alto rispetto a GPT‑5.1 (~26,8%) o al modello precedente di Anthropic (~13,7%)[8]. Allo stesso modo, nella sfida di ragionamento ARC-AGI, Gemini 3 Pro ha raggiunto il 31% (e fino al 45% in una modalità speciale “Deep Think”), superando di gran lunga GPT‑5.1 (~18%) e i precedenti modelli Claude[9]. Questi risultati indicano che il modello di Google è attualmente leader nei benchmark di ragionamento più difficili, riflettendo probabilmente l'avanzata formazione di Gemini nella pianificazione e risoluzione dei problemi. GPT‑5.1 di OpenAI non è molto distante in termini di conoscenza e ragionamento, mentre la forza di Anthropic risiede altrove (come vedremo nella codifica). Complessivamente, su benchmark standard come MMLU e PiQA, tutti e tre sono strettamente raggruppati con un'accuratezza di ~90%[5], ma per i test di ragionamento “frontier” (matematica complessa, enigmi logici), Gemini 3 Pro ha un vantaggio con la sua performance a livello di “dottorato”[10].
Code Generation & Software Benchmarks: Anthropic Claude Opus 4.5 has explicitly targeted coding and “agentic” computer-use tasks, and it currently claims the crown on code benchmarks. In Anthropic’s internal evaluation on SWE-Bench (Software Engineering Bench) Verified, Opus 4.5 achieved 80.9% success – the highest of any frontier model[11]. This slightly outperforms OpenAI’s GPT‑5.1-Codex-Max model (77.9%) and Google’s Gemini 3 Pro (76.2%) on the same test[11]. The chart below, from Anthropic’s announcement, illustrates the margin by which Claude 4.5 leads in real-world coding tasks:
Claude Opus 4.5 achieves the highest score on SWE-Bench Verified (real-world coding problems), slightly surpassing OpenAI’s GPT‑5.1 Codex and Google’s Gemini 3 Pro[11].
Questo risultato è notevole perché la variante Codex-Max di GPT‑5.1 è stata di per sé un miglioramento significativo per la programmazione (OpenAI l'ha addestrata su compiti di ingegneria del software e uso di strumenti)[12]. Tuttavia, Opus 4.5 è riuscito a superare di qualche punto percentuale. Il Gemini 3 Pro di Google è vicino; “supera di gran lunga” il suo predecessore Gemini 2.5 in questi benchmark per agenti di codifica[13], ma attualmente è dietro al nuovo Claude. In termini pratici, tutti e tre i modelli sono assistenti di codifica altamente capaci – in grado di generare codice corretto per compiti complessi, ristrutturare grandi basi di codice e persino operare ambienti di sviluppo. Ma l'attenzione di Anthropic sulla qualità ed efficienza del codice si nota: gli sviluppatori hanno riferito che Claude Opus 4.5 dimostra “pianificazione di compiti di frontiera e uso di strumenti” nella programmazione, e risolve problemi con meno token[14][15]. Infatti, Anthropic afferma che Opus 4.5 può gestire flussi di lavoro di codifica multi-step “in modo più efficiente di qualsiasi modello che abbiamo testato” e produce tassi di successo più elevati utilizzando fino al 65% di token in meno per gli stessi compiti[16]. Questa efficienza e abilità nella programmazione rendono Claude 4.5 estremamente forte per i casi d'uso di ingegneria del software.
Altri Benchmark: Ogni modello ha i suoi punti di forza. La potenza multimodale di Gemini 3 si riflette nei benchmark di ragionamento su immagini+video – ad esempio, MMMU-Pro (Multimodal MMLU) e Video-MMMU, dove Gemini 3 Pro ha ottenuto rispettivamente 81% e 87,6%, stabilendo un nuovo stato dell'arte[17]. Ha anche raggiunto il 72,1% su SimpleQA Verified, indicando un miglioramento dell'accuratezza fattuale in Q&A aperti[18]. Nel frattempo, GPT‑5.1 di OpenAI eccelle nella qualità conversazionale e segue le istruzioni più da vicino rispetto ai suoi predecessori. Pur non essendo legato a un singolo benchmark, OpenAI ha osservato che l'intelligenza complessiva e lo stile comunicativo di GPT‑5.1 hanno visto miglioramenti “significativi”[19]. Molti osservatori hanno notato che GPT‑5.1 sembra “più caldo, più intelligente e migliore nel seguire le istruzioni” nei compiti quotidiani[2], il che potrebbe non emergere nelle metriche di pura accuratezza, ma migliora l'usabilità nel mondo reale. Opus 4.5 di Anthropic è stato progettato anche per compiti pratici oltre la codifica – i tester hanno trovato che “capisce la soluzione” per bug complessi multi-sistema e “gestisce le ambiguità e ragiona sui compromessi” senza bisogno di essere guidato[20]. In sintesi, i benchmark raccontano solo una parte della storia. Tutti e tre i modelli si esibiscono a livello umano o superiore in molti test accademici. Gemini 3 spinge i confini su sfide logiche e multimodali difficili, Claude 4.5 è leader nei compiti complessi di codifica e utilizzo degli strumenti, e GPT‑5.1 offre un equilibrio di prestazioni elevate con abilità conversazionali raffinate.
Un tema ricorrente in questi nuovi modelli è il miglioramento del ragionamento a lungo termine – la capacità di affrontare problemi complessi attraverso più passaggi o su durate estese. GPT‑5.1 di OpenAI ha introdotto una modalità dedicata chiamata “Thinking”, un modello di ragionamento avanzato che è “più persistente nei compiti complessi”[2]. GPT‑5.1 Thinking effettivamente “pensa” più a lungo (cioè, alloca più calcoli interni o passaggi) per le query difficili, permettendogli di risolvere problemi che richiedono logica a più passaggi. Google ha adottato un approccio simile con il Gemini 3 Deep Think, una modalità opzionale per il Gemini 3 Pro che “spinge ulteriormente i limiti dell'intelligenza” su problemi complessi[21]. Nei test, Gemini 3 Deep Think ha superato significativamente la modalità normale nei benchmark più difficili (ad esempio, aumentando il punteggio di Humanity’s Last Exam dal 37,5% al 41,0%, e ARC-AGI al 45,1%)[22]. Questo indica che il modello può ragionare internamente attraverso compiti molto difficili quando gli viene concesso più “tempo per pensare.”
Anche il Claude Opus 4.5 di Anthropic enfatizza il ragionamento esteso. Preserva automaticamente i suoi 「blocchi di pensiero」 dai turni precedenti, mantenendo una catena di pensiero durante una lunga sessione [23]: i modelli Claude precedenti avrebbero perso questi blocchi, ma Opus 4.5 può trasportare il ragionamento intermedio, cruciale per un lavoro multi-step coerente. Anthropic ha anche aggiunto un parametro di "impegno" a Opus 4.5 che controlla direttamente quanti token il modello utilizza per il ragionamento e la spiegazione [24]. A Alto Impegno, Opus produrrà analisi molto approfondite (utili per debugging complessi o ricerche approfondite), mentre a Basso Impegno fornirà risposte più brevi adatte a compiti rapidi ad alto volume [25]. Questo è effettivamente una manopola per scegliere tra profondità di ragionamento e velocità.
In pratica, queste funzionalità significano che ogni modello può gestire compiti di ragionamento sostenuto molto meglio rispetto alle generazioni precedenti. Ad esempio, OpenAI ha riferito che GPT-5.1-Codex-Max può operare autonomamente per ore di fila, migliorando iterativamente il codice e correggendo bug senza intervento umano[26][27]. Utilizza una tecnica chiamata “compaction” per potare e condensare il suo contesto mentre lavora, permettendo un lavoro coerente su milioni di token in una singola sessione[28][29]. Simon Willison, un primo tester, ha notato che i modelli di Anthropic possono sostenere sessioni di codifica lunghe in modo simile – ha utilizzato Opus 4.5 per guidare ~30 minuti di codifica autonoma, e anche il più piccolo Claude Sonnet 4.5 è stato in grado di continuare il carico di lavoro in modo efficace[30][31]. Gemini 3, con la sua enorme finestra di contesto e l'uso integrato degli strumenti, è esplicitamente progettato per “pianificare ed eseguire compiti complessi, end-to-end” tramite agenti che possono operare in un IDE o anche in un terminale Linux[32][33]. Nei prodotti Google stessi, l'IA basata su Gemini può analizzare documenti o video lunghi e produrre output strutturati come flashcard o piani passo-passo[34][35].
In sintesi: Tutti e tre i modelli hanno reso il ragionamento più persistente e autonomo. Possono gestire flussi di lavoro complessi che comprendono molti passaggi. OpenAI e Google offrono opzioni (Modalità pensiero, Deep Think) per intensificare il ragionamento quando necessario. Opus di Anthropic opera a un livello di ragionamento elevato per impostazione predefinita e offre agli sviluppatori il controllo manuale sul compromesso tra accuratezza e latenza[24]. Questo riflette una convergenza nel design: piuttosto che rispondere sempre in modalità one-shot, questi modelli simulano internamente “pensare per un periodo più lungo”[36][37] per affrontare problemi più difficili e utilizzare strumenti in modo efficace, avvicinandosi a un comportamento simile a quello di un vero agente.

Capacità di codifica: Come notato in precedenza, Claude 4.5 attualmente supera GPT‑5.1 e Gemini 3 nei benchmark di codifica misurati[11]. Tuttavia, tutti e tre sono estremamente capaci nella generazione di codice, molto oltre i modelli di solo un anno o due fa. GPT‑5.1-Codex-Max di OpenAI, ad esempio, è stato “addestrato su compiti di ingegneria del software del mondo reale” come revisioni di codice, creazione di pull request e risposta a Q&A di codifica[12]. Può lavorare su più file e gestire persino ambienti Windows (qualcosa di nuovo, che indica addestramento su compiti specifici del sistema operativo)[38][39]. Nel frattempo, secondo i clienti di Anthropic, Claude Opus 4.5 è stato responsabile di refactoring complessi che coinvolgono più basi di codice e agenti[40]. Gli sviluppatori che utilizzano Claude in un IDE (ad esempio, Claude Code) hanno scoperto che poteva coordinare modifiche su decine di file con errori minimi[41]. Anche Gemini 3 di Google eccelle nello sviluppo software: è descritto da Google come “il miglior modello di codifica vibrazionale e agentica che abbiamo mai costruito”, e ha superato un benchmark WebDev (compiti di sviluppo web) con un Elo di 1487[13]. In un test live Terminal-Bench (in cui il modello opera un terminale Linux), Gemini 3 Pro ha ottenuto un punteggio del 54,2%, superiore a GPT‑5.1 (~47%) o ai modelli precedenti di Anthropic[42][43]. Questo suggerisce che Gemini è particolarmente forte nell'uso di strumenti/comandi per eseguire compiti di codifica autonomamente.
Uso degli strumenti e degli agenti: Oltre alla generazione di codice grezzo, una frontiera chiave è il comportamento agentico – ovvero la capacità del modello di utilizzare strumenti o agire come un agente autonomo. Tutte e tre le aziende stanno abilitando questo in modi diversi. La piattaforma di OpenAI supporta la chiamata di funzioni e ha introdotto gli “Agenti OpenAI” che permettono a GPT‑5.1 di invocare strumenti (come browser web, interpreti di codice, ecc.) per completare i compiti. GPT‑5.1 può anche “compattare” automaticamente la sua memoria di lavoro durante sessioni lunghe di utilizzo degli strumenti, come descritto, in modo da non esaurire il contesto[28][29]. Google ha costruito un intero ambiente orientato agli agenti chiamato Google Antigravity attorno a Gemini 3[32]. In questo sistema, gli agenti Gemini hanno accesso diretto a un editor di codice, un terminale e un browser. Possono “pianificare ed eseguire autonomamente compiti software complessi e completi” – scrivendo codice, eseguendolo, testandolo e iterandolo, tutto all'interno della piattaforma di sviluppo[44][33]. Questo è potenziato dalle abilità multimodali di Gemini: ad esempio, un agente Gemini può leggere uno screenshot o un mockup di design come input, quindi generare ed eseguire il codice per riprodurre l'interfaccia utente.
Anthropic, da parte sua, ha migliorato gli strumenti di 「Utilizzo del Computer」 di Claude. Claude Opus 4.5 ora può richiedere uno screenshot ingrandito ad alta risoluzione di regioni dello schermo per un'ispezione dettagliata[45][46]. Nelle app e SDK di Claude di Anthropic, può operare un computer virtuale – cliccando pulsanti, scorrendo, digitando – e la nuova funzione di zoom lo aiuta a leggere piccoli testi o elementi dell'interfaccia utente che precedentemente erano difficili da vedere[47][48]. Combinato con una suite di strumenti disponibili (bash shell, esecuzione di codice, browser web, ecc. nell'API di Claude[49][50]), Claude 4.5 è chiaramente progettato per eccellere in 「agenti che utilizzano un computer」. I primi tester riferiscono che Opus 4.5 mostra 「la migliore pianificazione delle attività di frontiera e chiamata degli strumenti che abbiamo visto finora,」 eseguendo flussi di lavoro multi-step con meno vicoli ciechi[14][51]. Per esempio, Warp (una compagnia di strumenti per sviluppatori) ha visto un miglioramento del 15% su Terminal Bench con Claude 4.5 rispetto a Claude 4.1, citando il suo ragionamento sostenuto che porta a una migliore pianificazione a lungo termine[52].
In sintesi, quando si tratta di codifica e utilizzo degli strumenti: - Claude Opus 4.5 è leggermente avanti in termini di tasso di successo nella codifica pura ed estremamente efficiente (risolve compiti con un numero significativamente inferiore di token)[53][54]. È una scelta eccellente per refactoring su larga scala, migrazione del codice e qualsiasi cosa in cui il costo dei token sia importante, grazie a ottimizzazioni che riducono l'uso dei token dal 50% al 76% nei test[55][54]. - GPT‑5.1 (Codex-Max) è un concorrente molto vicino che si integra profondamente con il flusso di lavoro degli sviluppatori (CLI, estensioni IDE[56]). È noto per essere un partner di codifica affidabile che può funzionare per ore, e ora supporta anche finestre di contesto multiple nativamente (il che significa che può gestire senza problemi blocchi di un progetto in sequenza)[28]. L'ecosistema di OpenAI facilita l'integrazione degli strumenti tramite chiamate di funzione. - Gemini 3 Pro porta la forza di Google nell'integrazione di ricerca, dati e input multimodale nella codifica. Non solo scrive codice, ma può operare software (il terminale, il browser, ecc.) in modo efficace. Il vantaggio di Google nel multimodale significa che Gemini può incorporare il contesto visivo (mockup di design, diagrammi) direttamente nel processo di codifica, una capacità unica tra questi modelli.
Tutti e tre stanno spingendo verso un'IA che non solo scrive codice, ma agisce come un ingegnere autonomo. Questo è evidente nei rapporti su agenti IA che 「imparano dall'esperienza e affinano le proprie capacità」 in un ciclo iterativo[57][58]. Un cliente ha descritto gli agenti Claude 4.5 che si sono auto-migliorati su 4 iterazioni per raggiungere le massime prestazioni in un compito, mentre altri modelli hanno impiegato 10 iterazioni e ancora non sono riusciti a eguagliarlo[59][60]. Questo tipo di comportamento adattivo e di utilizzo degli strumenti sta rapidamente evolvendo, e ciascuno di questi modelli è all'avanguardia.
Le finestre di contesto ampie sono state una caratteristica distintiva di Claude di Anthropic, e Opus 4.5 continua questa tendenza con una finestra di contesto di 200.000 token per l'input (e fino a 64k token in output)[61]. Questo è sufficiente per inserire centinaia di pagine di testo o più documenti lunghi in un colpo solo. In termini pratici, 200k token (~150.000 parole) consentono, ad esempio, di inserire un intero codice sorgente o un libro in Claude per l'analisi. Anthropic utilizza questa funzione per abilitare sessioni di chat "infinite" senza blocchi – infatti, Claude 4.5 supporta conversazioni molto lunghe e può ricordare molto più contesto storico rispetto alla maggior parte dei modelli[62][63].
Google ha ora superato questo con il contesto di 1.048.576 token di Gemini 3 Pro (circa 1 milione di token)[64][65]. Questo rappresenta un salto di un ordine di grandezza. Gemini 3 può “comprendere vasti dataset… inclusi testo, audio, immagini, video, PDF e persino interi repository di codice con il suo contesto di 1M token”[64][65]. Essenzialmente, può accettare libri o ore di audio/video come input. Infatti, il modello supporta input veramente multimodali – potresti dargli un lungo PDF, più diverse immagini e clip audio tutto in un unico prompt, purché il totale dei token (dopo la codifica di questi) sia sotto il limite[64][66]. La documentazione di Google elenca che può gestire fino a 900 immagini in un unico prompt, o grandi video (con i fotogrammi codificati come token)[67]. Questo contesto massiccio è rivoluzionario per compiti come la revisione di grandi codebase, l'analisi di contratti legali lunghi o il riassunto di ore di trascrizioni.
GPT‑5.1 di OpenAI non ha pubblicizzato esplicitamente un contesto fisso grande come 1M, ma ha introdotto tecniche per superare i limiti precedenti. GPT‑4 offriva una variante di contesto da 128k (in ChatGPT Enterprise e modelli GPT‑4 32k), e ci sono indizi che GPT‑5 possa gestire fino a 400k o più token in determinate impostazioni[68][69]. Più concretamente, il meccanismo di “compattazione” di OpenAI in GPT‑5.1-Codex-Max consente al modello di riassumere continuamente le parti più vecchie della conversazione o della cronologia dei compiti, dando di fatto una memoria di lavoro illimitata durante sessioni lunghe[28][29]. Ad esempio, GPT‑5.1 può lavorare per oltre 24 ore comprimendo periodicamente il contesto per liberare spazio e “ripetendo questo processo fino al completamento del compito.”[70][71]. Quindi, mentre la finestra grezza di GPT‑5.1 potrebbe essere dell'ordine di 128k token per prompt, il suo design gli permette di superare questo limite concatenando contesti. OpenAI ha anche lanciato funzionalità di memorizzazione del contesto e memoria delle conversazioni a lungo termine in ChatGPT, il che indica che il modello può ricordare parti precedenti di un dialogo anche quando superano il limite nominale di token.
Per riassumere le capacità contestuali: - Claude Opus 4.5: Finestra di circa 200.000 token (input) nativamente[61]. Questo è estremamente elevato e adatto per la maggior parte delle attività con documenti lunghi. Il piano tariffario di Anthropic tiene conto di questo: se superi i 200k in una singola richiesta, vieni fatturato a una tariffa più alta "1M context"[72][73] (implicando che abbiano anche una modalità sperimentale da 1M, possibilmente). - GPT‑5.1: Ufficialmente fino a 128K nelle distribuzioni attuali per ChatGPT Pro[74], ma con compattazione automatica del contesto che consente effettivamente milioni di token su una sessione[28][29]. Possiamo considerarlo come un supporto dinamico a lungo contesto piuttosto che una finestra ampia fissa. - Gemini 3 Pro: Finestra da 1M di token – la più grande di qualsiasi modello principale – e progettata esplicitamente per il contesto multimodale (testo+immagine+audio+video in uno)[64][75]. Ciò consente analisi come "fornire al modello un'intera lezione video e diversi articoli di ricerca e fargli sintetizzare un riassunto o rispondere a domande", cosa che sarebbe impossibile in contesti più piccoli.
Tutto ciò significa che i vincoli di memoria sono meno un ostacolo con questi modelli rispetto al passato. Mentre i modelli precedenti faticavano a ricordare i dettagli dall'inizio di un documento lungo, questi possono gestire enormi quantità di informazioni in una sola volta. Questo è particolarmente vantaggioso per compiti come il ragionamento a lungo raggio (ad esempio, trovare una soluzione che richiede di fare riferimento a molte parti di un input) e i dialoghi aperti che si estendono per decine di turni.
Con contesti così ampi e ragionamenti complessi, ci si potrebbe aspettare che questi modelli siano lenti, ma ogni fornitore ha introdotto modi per gestire la latenza. L'approccio di OpenAI è la differenziazione dei modelli: GPT‑5.1 Instant vs GPT‑5.1 Thinking[76]. Il modello Instant è ottimizzato per risposte rapide e conversazionali – è quello che “spesso sorprende le persone con la sua giocosità pur rimanendo chiaro e utile.”[77]. È, di fatto, l'opzione a bassa latenza per le chat quotidiane. Il modello Thinking, d'altra parte, è il cavallo di battaglia per le query complesse, e mentre è ottimizzato per essere più veloce su compiti semplici, impiegherà più tempo su quelli difficili perché si impegna in un ragionamento più profondo[78]. Questo sistema a due livelli permette agli utenti di scambiare velocità con precisione su richiesta. In pratica, GPT‑5.1 Instant appare molto reattivo (simile a GPT‑4 Turbo o più veloce), mentre GPT‑5.1 Thinking potrebbe impiegare più tempo nella risoluzione di un problema complesso, ma offre risposte migliori.
La soluzione di Anthropic, come menzionato, è il parametro di sforzo su Claude 4.5[24]. Di default è impostato su "alto," il che significa che il modello massimizza la completezza (cosa che può aumentare la latenza). Gli sviluppatori possono regolarlo su medio o basso. I dati di Anthropic suggeriscono che a sforzo Medio, Opus 4.5 può risolvere compiti con la stessa accuratezza di prima ma usando molti meno token, rispondendo così più velocemente[53][54]. In un esempio, lo sforzo medio ha eguagliato la performance di Claude Sonnet 4.5 su SWE-Bench utilizzando il 76% in meno di token di output[53][54] – il che si traduce in una latenza e un costo sostanzialmente inferiori. Quindi, se un'applicazione richiede risposte rapide, impostare uno sforzo più basso produce risposte più brevi (ma comunque competenti). Con sforzo alto, Claude potrebbe impiegare un po' più di tempo, ma produce output molto dettagliati. I primi rapporti degli utenti notano che i tempi di risposta di Claude sono "stabili e prevedibili" anche con sforzo alto, anche se ovviamente le risposte più lunghe richiedono più tempo per essere generate[79].
Il Gemini 3 Pro di Google ha un parametro thinking_level (con valori “low” o “high”), che sostituisce un precedente setting “thinking_budget” del Gemini 2[80]. Questo thinking_level permette all'utente di decidere se Gemini deve fare un ragionamento interno minimo (per velocità) o massimo (per qualità)[80]. Google offre anche un'impostazione media_resolution per input multimodali, dove è possibile scegliere di elaborare immagini/video a risoluzione inferiore per risultati più rapidi o ad alta risoluzione per una maggiore precisione visiva (a costo di più token e latenza)[81]. Questi controlli riconoscono che elaborare 1M di token o grandi immagini è intrinsecamente lento – quindi gli sviluppatori possono regolare la velocità modificando quanto il modello “pensa” e quanto finemente analizza i media. Non esiste un benchmark pubblico di latenza affiancato tra GPT‑5.1, Claude e Gemini, ma prove aneddotiche suggeriscono: - GPT‑5.1 Instant è estremamente veloce per query normali (spesso finendo in un paio di secondi), e anche la modalità di pensiero ha ricevuto ottimizzazioni di velocità – OpenAI ha notato che è “ora più facile da capire e più veloce nei compiti semplici” rispetto a prima[78]. - Claude 4.5 su High effort è molto approfondito, il che può significare output più lunghi e leggermente più latenza, ma su Medium/Low si accelera notevolmente. Un utente di Reddit che testava compiti di codifica ha osservato che GPT‑5.1 e Claude erano approssimativamente comparabili in velocità dopo i miglioramenti di GPT‑5.1, mentre in precedenza GPT‑5 era stato più lento di Claude in alcuni compiti lunghi[82][83]. - La latenza del Gemini 3 Pro dipenderà dal contesto – alimentarlo con centinaia di immagini o un milione di token sarà naturalmente più lento. Tuttavia, per dimensioni di prompt tipiche, si riporta che Gemini sia reattivo, e l'infrastruttura cloud di Google (TPU) è ottimizzata per servire questi modelli a livello globale. Google non ha rilasciato numeri espliciti sulla latenza, ma la disponibilità di un “Gemini 3 Flash” (una variante veloce e a basso costo con contesto più piccolo) suggerisce che il modello Pro completo è destinato a compiti pesanti piuttosto che a rapide Q&A[84].
In sintesi, tutti e tre i modelli ora consentono un compromesso tra velocità e ragionamento. Introdurranno leve interne o varianti del modello per garantire che, se non hai bisogno di un pensiero profondo, non rimani bloccato ad aspettare. Per la maggior parte delle applicazioni generali (prompt brevi, complessità moderata), ogni modello può rispondere quasi in tempo reale (pochi secondi). Per lavori molto grandi o complessi, puoi aspettarti tempi di esecuzione di diversi secondi o addirittura minuti, ma hai il controllo su questo tramite le impostazioni. Questa è un'evoluzione necessaria poiché le finestre di contesto e i compiti sono cresciuti – ed è incoraggiante che, anche affrontando problemi più complessi, questi modelli rimangano utilizzabili in contesti interattivi.
La competizione non riguarda solo la capacità: il costo è un fattore fondamentale, e stiamo assistendo a mosse aggressive in questo ambito. Infatti, il lancio dell'Opus 4.5 di Anthropic è arrivato con un taglio di prezzo drammatico: le chiamate API di Opus 4.5 costano 5 dollari per milione di token di input e 25 dollari per milione di token di output[85][86]. Questo è ⅓ del prezzo del precedente Opus 4.1 (che era 15/75 dollari per milione)[85]. Anthropic ha deliberatamente ridotto i prezzi per rendere Claude più attraente per gli sviluppatori, riconoscendo che i modelli Opus precedenti erano proibitivi in termini di costi[87][88]. Con il nuovo prezzo, usare Claude per compiti di grandi dimensioni è molto più fattibile: ora è solo leggermente più costoso per token rispetto ai modelli più piccoli di Anthropic (Claude Sonnet 4.5 è 3/15 dollari per milione)[89].
Come si confronta? La famiglia GPT-5.1 di OpenAI è effettivamente più economica per token. Le chiamate API di GPT-5.1 costano circa $1,25 per milione di token di input e $10 per milione di token di output per il modello base[89]. Il Gemini 3 Pro di Google si colloca nel mezzo: circa $2 per milione di input e $12 per milione di output al livello di contesto standard di 200k[89]. (Da notare che Google prevede di applicare un supplemento se si supera il limite di 200k token fino al contesto completo di 1M – circa $4/$18 per milione in quel regime[90].) Questi numeri indicano che OpenAI offre attualmente il prezzo più basso per token per i modelli di fascia alta. Ad esempio, generare una risposta di 1000 token potrebbe costare ~$0,012 con GPT-5.1 contro ~$0,025 con Claude 4.5 – circa la metà del costo. Quello di Google sarebbe ~$0,015. Tuttavia, il costo deve essere valutato rispetto all'efficienza: se un modello risolve un compito con meno token o tentativi, può far risparmiare denaro complessivamente. Anthropic sottolinea che Opus 4.5 è molto più efficiente in termini di token, potenzialmente riducendo l'uso (e il costo) del 50%+ su alcuni compiti mantenendo la precisione precedente[53][54]. Come ha sottolineato un utente iniziale, “Il ragionamento medio di Opus 4.5 corrisponde alla qualità di Sonnet 4.5 utilizzando il 76% di token in meno… ~60% in meno di costo.”[91]. Pertanto, uno sviluppatore potrebbe pagare un po' di più per token con Claude, ma se Claude utilizza molti meno token per raggiungere la soluzione, la differenza totale di costo si riduce.
Vale anche la pena notare come viene gestita l'accessibilità: - Claude Opus 4.5 è disponibile tramite API (Claude per livelli Pro/Max/Team) e sulle principali piattaforme cloud come AWS, Azure e Google Cloud[92]. C'è anche un'app per consumatori Claude Pro dove Opus può essere utilizzato in modo interattivo. Il costo di cui abbiamo discusso si applica all'utilizzo dell'API. - ChatGPT 5.1 è accessibile agli utenti finali tramite ChatGPT (gli utenti Plus ed Enterprise ottengono GPT‑5.1 a partire da novembre 2025) e tramite l'API di OpenAI per sviluppatori. La tariffazione di OpenAI per l'utilizzo di GPT‑5.1 in ChatGPT Plus è sostanzialmente un abbonamento fisso, mentre l'API è a consumo per token (come sopra). Offrono anche ChatGPT Enterprise con utilizzo gratuito fino a certi limiti. - Gemini 3 Pro è accessibile tramite la piattaforma Vertex AI di Google (attualmente come un modello Preview)[93], tramite l'API Gemini e in prodotti come l'app Gemini Chat e AI Studio[94][95]. Google non ha elencato pubblicamente i prezzi dei token sul loro sito, ma secondo i rapporti, il prezzo dell'API è nella gamma menzionata ($2/$12 per M token) simile al prezzo di PaLM 2. Google integra anche Gemini nelle funzionalità per i consumatori (ad esempio, Search Generative Experience, strumenti AI di Google Workspace) dove gli utenti finali non sono addebitati direttamente per token.
In sintesi, OpenAI offre il prezzo grezzo più basso per l'uso delle API di un modello di frontiera, mentre Anthropic ha abbassato drasticamente i loro prezzi per rimanere competitivi (Opus ora costa 1/3 del suo vecchio prezzo, anche se è ancora ~2× il tasso di OpenAI)[89]. Il prezzo di Google si colloca tra i due, con un costo aggiuntivo per esecuzioni di contesto enormi[89]. Per le aziende che decidono quale modello utilizzare, il costo per query dipenderà dal compito: un lungo lavoro di codifica potrebbe avere un costo simile tra i tre se le affermazioni di efficienza di Claude sono vere, mentre una breve domanda e risposta potrebbe essere più economica con GPT‑5.1. È bello vedere la concorrenza abbassare i prezzi, rendendo infine l'AI avanzata più accessibile.
Un aspetto notevole è che il fine-tuning (nel senso tradizionale di aggiornare i pesi di un modello su dati personalizzati) non è prontamente disponibile per questi modelli più recenti, almeno non ancora. Né Claude Opus 4.5 né Gemini 3 Pro attualmente supportano il fine-tuning da parte dell'utente[96][97]. OpenAI non ha nemmeno rilasciato GPT-5.1 per il fine-tuning (i loro documenti API indicano "Fine-tuning: Non supportato" per i modelli della serie GPT-5)[97][98]. Questo è comprensibile: questi modelli sono estremamente grandi e anche accuratamente allineati; un fine-tuning aperto potrebbe comportare sfide di sicurezza e capacità.
Invece, l'enfasi è sulla personalizzazione basata su prompt. OpenAI, ad esempio, ha introdotto nuovi modi per personalizzare il comportamento di ChatGPT nell'aggiornamento 5.1. Hanno aggiunto 「preset di personalità」 e controlli di tono – permettendo agli utenti di scegliere tra stili predefiniti (come Sviluppatore, Tutor, Scettico, ecc.) o impostare istruzioni personalizzate per modellare le risposte dell'assistente[99][100]. Questo non significa regolare i pesi del modello, ma è un meccanismo flessibile per far comportare il modello in modi specifici. Allo stesso modo, Anthropic offre controlli in stile Constitutional AI e prompt di sistema per guidare Claude, e con Opus 4.5 notano che 「mantiene la continuità del ragionamento」 e può seguire meglio ruoli o istruzioni complesse durante lunghe sessioni[23]. L'API Gemini di Google consente agli sviluppatori di fornire messaggi di sistema per impostare il contesto o il ruolo (simile al prompt di sistema di OpenAI) e persino incorporare caching del contesto implicito ed esplicito per orientare il modello con informazioni di background rilevanti[101][102]. Essenzialmente, mentre non puoi regolare direttamente questi giganti, puoi fornire loro i tuoi dati in tempo reale – ad esempio, riempiendo la grande finestra di contesto con documenti o utilizzando il prompting aumentato dal recupero. Vertex AI di Google offre un RAG Engine (Retrieval Augmented Generation) che funziona con Gemini per estrarre documenti aziendali secondo necessità[103], realizzando molti obiettivi del fine-tuning (rispondendo a domande specifiche del dominio, ecc.) senza cambiare il nucleo del modello.
Vale la pena menzionare che OpenAI ha introdotto modelli fratelli più piccoli (come GPT-5 Nano, ecc.) e ha reso open-source alcuni modelli (come openai-o3 e o4-mini)[104]. Questi modelli più piccoli potrebbero supportare il fine-tuning e servire come versioni distillate di GPT‑5 per compiti specializzati. Tuttavia, quando si tratta dei modelli di punta confrontati qui, nessuno di essi attualmente consente di riqualificare l'intero modello su dati personalizzati. Invece, la strategia è: usare l'ingegneria dei prompt, le istruzioni di sistema, il recupero di conoscenze esterne e i parametri incorporati (come il tono, il livello di pensiero) per adattare l'output del modello alle tue esigenze.
Da un punto di vista di ricerca, questo potrebbe cambiare in futuro – metodi come LoRA (Low-Rank Adaptation) o altri tipi di fine-tuning efficiente potrebbero diventare fattibili su questi grandi modelli. Ma per ora, il “fine-tuning” è effettivamente limitato al pipeline di addestramento del fornitore stesso. Ad esempio, OpenAI ha effettuato il fine-tuning di GPT‑5.1 a partire dalla base di GPT‑5 con un ulteriore apprendimento per rinforzo e tuning istruzionale (menzionano che GPT‑5.1 è “costruito su un aggiornamento del nostro modello di ragionamento fondamentale”)[105], e Anthropic ha utilizzato tecniche come il fine-tuning costituzionale per allineare Claude. Come utente finale o sviluppatore, utilizzi questi modelli in gran parte così come sono, personalizzandoli tramite l'interfaccia API piuttosto che con aggiornamenti di peso.
Anche se i dettagli ufficiali sono scarsi, possiamo intuire alcune differenze nella filosofia del design: - Claude Opus 4.5 è presumibilmente un modello Transformer denso come i suoi predecessori. Anthropic non ha divulgato il numero di parametri, ma le versioni precedenti di Claude erano considerate paragonabili per scala a GPT-4. L'attenzione di Anthropic sembra essere rivolta ai dati/competenze: hanno addestrato Claude 4.5 intensivamente su codifica, uso degli strumenti (shell, web) e dialogo, applicando tecniche avanzate di allineamento (apprendimento tramite rinforzo con feedback umano più il loro metodo di “AI Costituzionale”).
Il risultato è un modello che «ci arriva subito» – aneddoticamente con un giudizio migliore sui compiti del mondo reale[20][106]. Un aspetto architettonico interessante è come Claude gestisce un contesto lungo: è probabile che Anthropic utilizzi strategie di codifica posizionale o modifiche di attenzione (come ALiBi o attenzione concentrata) per raggiungere 200.000 token. E il fatto che le tracce del pensiero siano preservate suggerisce un'architettura che tratta la propria catena di pensiero come parte dell'input nel futuro[23]. Claude 4.5 è anche offerto su hardware cloud con una moltiplicazione di matrici più veloce e possibilmente parallelismo del modello per gestire il grande contesto in modo efficiente. - OpenAI GPT‑5.1 (e GPT‑5) si pensa che combini un modello base con teste/modalità specializzate.
Il blog di OpenAI suggerisce che GPT‑5 è un 「sistema unificato」 composto da un modello veloce e un 「modello di ragionamento più profondo (GPT-5 Thinking) per domande più difficili」[107]. È possibile che l'architettura di GPT‑5 includa più moduli o un interruttore in stile Mixture-of-Experts che indirizza le query semplici a un sotto-modello più piccolo e quelle difficili a uno più grande, migliorando così la velocità e l'efficienza dei costi. La menzione di 「due versioni aggiornate ora disponibili in ChatGPT (Instant e Thinking)」[99] supporta questa idea. Dietro le quinte, GPT‑5 probabilmente ha dell'ordine di trilioni di parametri o modelli esperti multipli - una delle prime voci era che GPT-4 avesse 16 esperti di ~111 miliardi di parametri ciascuno (sebbene non confermato). GPT‑5 potrebbe avere parametri scalati o un addestramento più efficiente (OpenAI ha investito in nuove tecniche di ottimizzazione e cluster più grandi). Ha anche ampliato in qualche modo le modalità di input: GPT‑5 può accettare immagini come input (seguendo la visione di GPT-4), e possibilmente altre modalità in forma limitata[68][108].
Tuttavia, OpenAI è stata più conservativa con il multimodale nella pratica; separano cose come Sora (un modello per audio e possibilmente altre modalità) invece di fonderle completamente. Quindi, GPT‑5.1 è principalmente un modello basato su testo con alcune capacità visive. - Google Gemini 3 Pro è esplicitamente multimodale fin dalle fondamenta[109][110]. La famiglia Gemini (Gemini 1, 2, 3) è stata progettata da Google DeepMind per gestire testo, visione e altro in un modello unificato. Probabilmente incorpora encoder di visione e elaborazione audio all'interno dell'architettura del modello.
Il rapporto di ricerca di Google o gli indizi (se pubblicati) potrebbero dettagliare che Gemini utilizza una combinazione di backbone transformer – forse uno per il linguaggio, uno per la visione, con uno spazio di rappresentazione condiviso. I risultati (come lo stato dell'arte sui benchmark multimodali[17]) suggeriscono un'integrazione molto stretta. Un altro aspetto è l'utilizzo degli strumenti: DeepMind aveva precedenti lavori su agenti adattivi (es. AlphaGo, robotica, ecc.) e Demis Hassabis ha suggerito che le tecniche di quei domini influenzerebbero il design di Gemini. Ad esempio, Gemini potrebbe incorporare l'apprendimento per rinforzo o algoritmi di pianificazione per aumentare le sue capacità "agentiche"[109][111]. Il fatto che possa operare un computer e risolvere compiti interattivi (benchmark Terminal, distributori automatici, ecc.) suggerisce un'architettura o una routine di addestramento che ha coinvolto simulazioni agentiche. Abbiamo anche visto menzione di “firme di pensiero” e una convalida più rigorosa per l'uso di strumenti multi-turn nei documenti di Gemini[112][113] – questo potrebbe essere una caratteristica architettonica per mantenere affidabile il comportamento di chiamata degli strumenti del modello (forse un modulo separato che verifica ogni pensiero/azione). Infine, il contesto da 1 milione di Gemini probabilmente ha richiesto innovazioni architettoniche – possibilmente combinando meccanismi di recupero o attenzione suddivisa in modo che non si concentri in modo quadratico su un milione di token contemporaneamente.
In sostanza, Claude, GPT-5.1 e Gemini sono tutti sistemi di intelligenza artificiale basati su Transformer con varie caratteristiche aggiuntive. Le architetture esatte sono proprietarie, ma ciascuna è stata ottimizzata per priorità leggermente diverse: Claude per contesti molto lunghi e affidabilità nel coding/agent, GPT-5.1 per un'esperienza di chat bilanciata con ragionamento adattivo, e Gemini per una comprensione multimodale ampia e compiti complessi mediati da strumenti.
Stiamo assistendo a una convergenza entusiasmante al confine dell'IA: Claude Opus 4.5, ChatGPT 5.1 e Gemini 3 Pro rappresentano tutti "modelli di frontiera" che spingono i limiti di ciò che l'IA può fare, ognuno con un tocco unico. Claude 4.5 emerge come specialista in codifica e agenti - è il modello che potresti chiamare per ristrutturare l'intero codicebase durante la notte o gestire un foglio di calcolo per un'ora. È ottimizzato per il "lavoro profondo" ed è ora reso più accessibile grazie a prezzi più bassi[85][86]. ChatGPT 5.1 continua l'eredità di OpenAI di capacità ampia e raffinata - eccelle nella conversazione e nelle istruzioni, pur essendo ancora un formidabile risolutore di problemi generali e programmatore (soprattutto con la variante Codex-Max)[11]. I suoi miglioramenti nel seguire l'intento dell'utente e nell'offrire personalizzazione lo rendono un partner IA molto user-friendly[19]. Gemini 3 Pro, d'altro canto, sembra uno sguardo al futuro: è veramente multimodale e mostra capacità di ragionamento che sfiorano ciò che si potrebbe chiamare "prototipi di AGI" (con la modalità Deep Think che affronta problemi precedentemente ritenuti irrisolvibili dall'IA)[114][111]. Con un contesto di 1M e l'integrazione nell'ecosistema Google, Gemini può essere il fulcro di applicazioni che mescolano senza soluzione di continuità testo, immagini e azioni.
Alcuni punti chiave da questo:
Le prestazioni grezze ora dipendono dal compito. Non esiste un modello “migliore in tutto”; invece, osserviamo un modello a staffetta. Claude 4.5 è in testa nei benchmark di codifica[11], Gemini 3 è leader nel ragionamento logico e nei compiti multimodali[5][17], e GPT‑5.1 è sostanzialmente alla pari nei test di conoscenza e offre l'esperienza conversazionale più raffinata. I divari sono relativamente stretti in molte aree (spesso solo pochi punti percentuali), il che è impressionante considerando quanto questi modelli abbiano superato i benchmark precedenti e persino i livelli umani.
Contesto e persistenza sono importanti quanto la pura accuratezza. La capacità di portare avanti lunghe conversazioni o affrontare documenti estesi senza perdere il contesto rappresenta un enorme vantaggio in termini di usabilità. Qui, Google ha stabilito un nuovo standard (1M token, input multi-documento)[64], ma Anthropic e OpenAI hanno le loro soluzioni (200k token e compattazione rispettivamente[61][29]). Ciò significa che gli utenti possono aspettarsi molte meno interruzioni del tipo “scusa, limite del contesto” e possono utilizzare questi modelli per compiti di sintesi o analisi di dati su larga scala.
Adattabilità vs. messa a punto: Anche se non possiamo ancora perfezionare questi giganti, le varie leve di controllo (livelli di sforzo, preset di personalità, strumenti di sistema) offrono agli sviluppatori e agli utenti un grande potere di influenzare i risultati senza necessità di riaddestramento[24][100]. Questa tendenza potrebbe continuare: i modelli futuri potrebbero avere controlli ancora più modulari (ad esempio, attivando una modalità “strettamente fattuale” o una modalità “creativa” senza bisogno di modelli separati). - I costi stanno andando nella giusta direzione – in diminuzione. Il fatto che Anthropic abbia sentito la necessità di tagliare i prezzi di Opus di 2/3, e che OpenAI e Google stiano competendo sui prezzi dei token, dimostra che la concorrenza sta beneficiando gli utenti[85][89]. Eseguire attività su larga scala (milioni di token) non è ancora economico, ma sta diventando molto più ragionevole. Ora è plausibile per una piccola startup utilizzare un modello d'avanguardia su un ampio set di dati senza una bolletta astronomica, il che potrebbe stimolare più innovazione.
Alla fine, il “miglior” modello dipende dalle tue esigenze. Se hai bisogno di comprensione multimodale o del miglior ragionamento su problemi complessi di logica/matematica, il Gemini 3 Pro di Google attualmente ha un vantaggio. Se ti serve un programmatore di coppia AI o un agente per automatizzare compiti software, il Claude Opus 4.5 di Anthropic potrebbe offrire i migliori risultati (con uno stile di output per il codice probabilmente più prevedibile). Se desideri un AI generalista che sia versatile, affidabile e conveniente per una vasta gamma di compiti, ChatGPT 5.1 rimane una scelta fantastica con il supporto dell'ecosistema di OpenAI.
Ciò che è chiaro è che tutti e tre i modelli si stanno spingendo a vicenda – e il campo – in avanti. Come ha osservato un'analisi, valutare i nuovi LLM sta diventando più difficile perché ogni nuova generazione è solo un piccolo passo avanti rispetto alla precedente[115][116]. Ma quei piccoli passi si stanno accumulando in qualcosa di profondo: modelli di IA che si avvicinano a una competenza a livello professionale nel coding, superano esperti umani in alcuni esami[117], gestiscono fluidamente più modalità e possono sostenere lunghe interazioni. L'era delle IA di grandi dimensioni e con capacità apparentemente infinite è veramente iniziata, e Claude 4.5, GPT‑5.1 e Gemini 3 Pro stanno guidando il cambiamento.
Fonti: basato su annunci ufficiali e documentazione di Anthropic[118][11], OpenAI[2][28], e Google DeepMind[17][64], così come risultati di benchmark e approfondimenti riportati da terze parti autorevoli[11][13]. Le affermazioni e i punteggi di ciascun modello sono stati citati da queste fonti per garantire accuratezza.
[1] [14] [15] [16] [20] [40] [51] [52] [59] [60] [62] [63] [87] [88] [92] [118] Presentazione di Claude Opus 4.5 \ Anthropic
https://www.anthropic.com/news/claude-opus-4-5
[2] [19] [76] [77] [78] [104] GPT-5.1: Un ChatGPT più intelligente e conversazionale | OpenAI
https://openai.com/index/gpt-5-1/
[3] [4] [5] [6] [7] [8] [9] [10] [13] [17] [18] [21] [22] [32] [33] [34] [35] [44] [94] [95] [109] [110] [111] [114] Gemini 3: Presentazione del nuovo modello AI di Gemini da Google
https://blog.google/products/gemini/gemini-3/
[11] [53] [54] [55] [57] [58] [85] [86] [106] Claude Opus 4.5 di Anthropic è qui: un'AI più economica, chat infinite e competenze di codifica che superano gli umani | VentureBeat
https://venturebeat.com/ai/anthropics-claude-opus-4-5-is-here-cheaper-ai-infinite-chats-and-coding
[12] [26] [27] [28] [29] [36] [37] [38] [39] [56] [70] [71] [105] Costruendo di più con GPT-5.1-Codex-Max | OpenAI
https://openai.com/index/gpt-5-1-codex-max/
[23] [24] [25] [45] [46] [47] [48] [49] [50] Novità in Claude 4.5 - Claude Docs
https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-5
[30] [31] [41] [61] [89] [90] [115] [116] Claude Opus 4.5, e perché valutare nuovi LLM è sempre più difficile
https://simonwillison.net/2025/Nov/24/claude-opus/
[42] [43] Gemini 3 Pro - Approccio alle Valutazioni, Metodologia e Approccio v2
http://deepmind.google/models/evals-methodology/gemini-3-pro
[64] [65] [66] [67] [75] [80] [81] [93] [96] [101] [102] [103] [112] [113] Gemini 3 Pro | IA Generativa su Vertex AI | Documentazione di Google Cloud
https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-pro
[68] GPT-5 Spiegato: Caratteristiche, Prestazioni, Prezzi & Casi d'Uso in ...
https://www.leanware.co/insights/gpt-5-features-guide
[69] LLMs con le più grandi finestre di contesto - Codingscape
https://codingscape.com/blog/llms-with-largest-context-windows
[72] Prezzi - Claude Docs
https://platform.claude.com/docs/en/about-claude/pricing
[73] Claude Opus 4.5 vs Sonnet 4.5: Rivoluzione dei Prezzi & Prestazioni ...
[74] Limiti della finestra di contesto di GPT-5 in ChatGPT - 8K per gli utenti gratuiti,
https://x.com/rohanpaul_ai/status/1953549303638557183
[79] Claude Sonnet 4.5 vs GPT-5: prestazioni, efficienza e prezzi ...
https://portkey.ai/blog/claude-sonnet-4-5-vs-gpt-5
[82] Ho testato GPT-5.1 Codex contro Sonnet 4.5, ed è circa ... - Reddit
https://www.reddit.com/r/ClaudeAI/comments/1oy36ag/i_tested_gpt51_codex_against_sonnet_45_and_its/
[83] GPT-5.1 Codex vs. Claude 4.5 Sonnet vs. Kimi K2 Thinking
[84] La fine della Legge di Moore per l'IA? Gemini Flash lancia un avvertimento
https://news.ycombinator.com/item?id=44457371
[91] Claude Opus 4.5 è MOLTO PIÙ ECONOMICO di Opus 4.1 - Reddit
https://www.reddit.com/r/singularity/comments/1p5pdjq/claude_opus_45_is_much_cheaper_than_opus_41/
[97] modelli/gpt-5 - Modello - OpenAI API
https://platform.openai.com/docs/models/gpt-5
[98] Novità nei modelli Azure OpenAI di Microsoft Foundry?
https://learn.microsoft.com/en-us/azure/ai-foundry/openai/whats-new?view=foundry-classic
[99] [100] OpenAI cammina su un filo sottile con le otto nuove personalità di GPT-5.1
[107] Presentazione di GPT-5 - OpenAI
https://openai.com/index/introducing-gpt-5/
[108] GPT-5: Nuove Funzionalità, Test, Benchmark e Altro - DataCamp
https://www.datacamp.com/blog/gpt-5
[117] GPT-5 ha appena superato l'esame medico più difficile al mondo e ... - Reddit