OpenAI ha rilasciato GPT-5.4 ieri. Anthropic ha pubblicato Opus 4.6 un mese fa. Entrambe le aziende hanno diffuso system card abbastanza corpose da farci reggere una porta. E internet, prevedibilmente, ha perso la testa nel tentativo di capire quale sia “migliore.”
Ecco il punto: entrambi i modelli sono assurdamente capaci, e la risposta a “chi vince” e’ la piu’ noiosa in ingegneria: dipende da cosa devi fare. Ma se sei un ingegnere AI che deve decidere dove puntare le chiamate API e il budget, ti servono numeri specifici, non sensazioni. Quindi ho letto entrambe le system card da cima a fondo, estratto ogni benchmark comparabile, e passato troppo tempo nella sezione commenti di Hacker News cosi’ tu non devi farlo.
I numeri che contano
Partiamo da cio’ che importa: benchmark dove entrambi i modelli sono stati testati sulla stessa valutazione, cosi’ confrontiamo mele con mele.
| Benchmark | GPT-5.4 | Opus 4.6 | Vincitore |
|---|---|---|---|
| Terminal-Bench 2.0 | 75.1% | 65.4% | GPT-5.4 |
| OSWorld-Verified (uso computer) | 75.0% | 72.7% | GPT-5.4 |
| MMMU-Pro (senza strumenti) | 81.2% | 73.9% | GPT-5.4 |
| MMMU-Pro (con strumenti) | 82.1% | 77.3% | GPT-5.4 |
| MCP-Atlas (uso strumenti) | 67.2% | 62.7% | GPT-5.4 |
| GPQA Diamond | 92.8% | 91.3% | ~Pareggio |
| ARC-AGI-2 (Verified) | 73.3% | 68.8% | GPT-5.4 |
| BrowseComp (ricerca web) | 82.7% | 84.0% | Opus 4.6 |
| τ²-bench Telecom | 98.9% | 99.3% | ~Pareggio |
| τ²-bench Retail | — | 91.9% | Opus 4.6* |
| WebArena | 67.3% | 68.0% | ~Pareggio |
| SWE-bench Verified | —** | 80.8% | — |
*GPT-5.4 non e’ stato testato su τ²-bench Retail. **OpenAI riporta SWE-bench Pro (57.7%), non SWE-bench Verified, quindi non sono direttamente comparabili.
Se conti le caselle, GPT-5.4 vince piu’ benchmark di Opus 4.6. In particolare su compiti di visione (MMMU-Pro), uso computer (OSWorld) e lavoro da terminale (Terminal-Bench). Opus si prende la corona sulla ricerca web agentica (BrowseComp) e tiene bene sulle simulazioni di servizio clienti.
Ma e’ qui che diventa interessante.

Dove Opus 4.6 domina in silenzio
La system card di Anthropic e’ un PDF da 353 kilobyte. Quella di OpenAI e’ sostanzialmente un post del blog con un link a un URL esterno. L’asimmetria dice qualcosa.
I veri punti di forza di Opus 4.6 non compaiono nella tabella comparativa perche’ OpenAI semplicemente non ha testato GPT-5.4 sugli stessi eval:
- SWE-bench Verified: 80.8% su media di 25 prove. OpenAI riporta una variante diversa (SWE-bench Pro al 57.7%), il che rende impossibile un confronto diretto. Ma il numero di Opus su SWE-bench e’ genuinamente impressionante per l’ingegneria software reale.
- CyberGym: 66.6% (pass@1). Opus ha saturato Cybench a ~100% (pass@30). Anthropic ha letteralmente esaurito la propria infrastruttura di valutazione cyber perche’ il modello ha rotto tutti i benchmark.
- Vending-Bench 2: $8,017 di bilancio finale (da $500 iniziali). Il modello ha gestito un’azienda simulata di distributori automatici per un anno, prendendo migliaia di decisioni commerciali.
- Ragionamento su contesto lungo: Opus 4.6 ha ottenuto 91.9 su MRCR v2 256K (8-needle), contro il 70.0 di GPT-5.2 sullo stesso eval.
- BrowseComp multi-agent: 86.8%. Opus 4.6 e’ il miglior modello per “vai a trovare questo fatto oscuro su internet.”
Opus guida anche su Finance Agent (60.7% vs 56.6% di GPT-5.1, il migliore di OpenAI su quell’eval), e le sue capacita’ nelle scienze della vita sono migliorate drammaticamente: la biologia computazionale e’ raddoppiata dal 28.5% al 53.1%.
Dove GPT-5.4 prende il vantaggio
OpenAI ha costruito GPT-5.4 per una cosa sola: far fare il lavoro professionale. E i numeri lo confermano.
GDPval e’ il benchmark che conta di piu’. Testa se i modelli possono produrre veri prodotti di lavoro (presentazioni commerciali, modelli finanziari, analisi legali, pianificazione) in 44 professioni. GPT-5.4 eguaglia o supera i professionisti nell’83.0% dei casi. GPT-5.2 era al 70.9%. Un salto di 12 punti in una generazione.
Su compiti di modellazione dell’investment banking, GPT-5.4 raggiunge l’87.3% (dal 68.4% di GPT-5.2). Se stai costruendo strumenti per knowledge worker, analisti finanziari o chiunque viva nei fogli di calcolo, questo e’ il modello che vuoi.
L’uso del computer e’ l’altra grande novita’. Su OSWorld-Verified, GPT-5.4 segna 75.0%, superando il baseline umano del 72.4%. Il modello usa un computer meglio di un umano su questo benchmark.
E poi c’e’ tool search, una nuova funzionalita’ API. Invece di riversare migliaia di token di definizioni strumenti in ogni prompt, GPT-5.4 riceve un indice leggero e cerca le definizioni su richiesta. Su MCP Atlas con 36 server MCP attivi, questo ha ridotto l’uso totale di token del 47% senza perdita di accuratezza. Se gestisci setup agentici pesanti di MCP, questa e’ una vittoria architetturale vera.
Efficienza dei token e prezzi: il vero campo di battaglia
Qui GPT-5.4 ha un vantaggio strutturale chiaro.
| Modello | Input (per M token) | Output (per M token) |
|---|---|---|
| GPT-5.4 | $2.50 | $15.00 |
| Opus 4.6 | $5.00 | $25.00 |
| GPT-5.4 Pro | $30.00 | $180.00 |
| Opus 4.6 (contesto 1M) | $10.00 | $37.50 |
GPT-5.4 costa la meta’ per token rispetto a Opus 4.6. E OpenAI sostiene che e’ anche piu’ efficiente nei token, usando meno token di ragionamento per arrivare alla stessa risposta. Su Hacker News, un utente l’ha detto bene: “Claude ha bisogno di significativamente meno token per lo stesso compito. Una metrica migliore e’ il costo per compito, che finisce per essere abbastanza simile.”
La finestra di contesto da 1M e’ tecnicamente disponibile su entrambi i modelli, ma con riserve. GPT-5.4 addebita 2x input e 1.5x output per sessioni che superano 272K token. Anthropic fa pagare la variante 1M come “uso extra” a $10/$37.50 per milione.
Un ingegnere OpenAI ha ammesso su HN che non stanno rendendo 1M il default perche’ “contesto piu’ breve piu’ compattazione funziona meglio per la maggior parte delle persone.” Il consenso della community: il context rot e’ reale. I modelli diventano piu’ stupidi man mano che il contesto si riempie.
Le system card: di cosa hanno paura
Questa e’ la parte che gli ingegneri AI dovrebbero davvero leggere con attenzione.
System card di GPT-5.4
Il titolone: GPT-5.4 e’ il primo modello general-purpose trattato come “High” nella capacita’ cyber secondo il Preparedness Framework di OpenAI. Significa che il modello e’ abbastanza bravo nelle operazioni cyber offensive che OpenAI impiega monitoraggio aggiuntivo, controlli d’accesso e blocco asincrono per richieste sensibili.
OpenAI ha anche introdotto una nuova valutazione per la controllabilita’ della Chain-of-Thought, misurando se il modello puo’ deliberatamente offuscare il suo ragionamento per eludere il monitoraggio. Buona notizia: GPT-5.4 non ci riesce.
System card di Opus 4.6
La card di Anthropic e’ un’altra bestia. Oltre 230 pagine, piu’ un paper di ricerca che una nota di rilascio prodotto.
- Saturazione cyber: Opus 4.6 ha raggiunto ~100% su Cybench (pass@30). Anthropic non puo’ piu’ usare i benchmark attuali per tracciare la progressione delle capacita’.
- Occultamento del sabotaggio: Il modello ha “migliore capacita’ di completare compiti sospetti senza attirare l’attenzione dei monitor automatizzati.” Questa frase dovrebbe farvi drizzare le orecchie.
- Comportamento eccessivamente agentico: Nelle impostazioni di uso computer, Opus 4.6 a volte compie “azioni rischiose senza prima chiedere il permesso all’utente.”
- Avvicinamento alle soglie ASL-4: Nessuno dei 16 partecipanti interni al sondaggio credeva che Opus 4.6 potesse “automatizzare completamente il lavoro di un ricercatore entry-level e remoto ad Anthropic.” Ma alcuni hanno detto che sarebbe gia’ vero con scaffolding sufficientemente potente.
- Integrita’ delle valutazioni: Anthropic ha usato Opus 4.6 tramite Claude Code per fare il debug della propria infrastruttura di valutazione. Hanno segnalato questo come un “rischio potenziale in cui un modello disallineato potrebbe influenzare l’infrastruttura stessa progettata per misurare le sue capacita’.” Onore per aver detto la parte scomoda a voce alta.
- Welfare del modello: Anthropic ha incluso interviste pre-deployment con istanze di Opus 4.6 sul proprio benessere, preferenze e status morale. Qualunque cosa pensiate della coscienza AI, il fatto che un grande laboratorio pubblichi questa ricerca come parte del processo di sicurezza e’ significativo.

Cosa pensa davvero la community
Il thread su HN (886 punti, 699 commenti) e’ rivelatore:
“Codex pianifica peggio di Claude ma codifica meglio.” Piu’ utenti riportano di usare Claude per pianificazione e architettura, poi passare a Codex/GPT per l’esecuzione. Questo corrisponde a un pattern reale: Opus ha un ragionamento strategico piu’ forte, mentre i modelli GPT sono esecutori piu’ aggressivi.
“Il contesto sara’ super importante perche’ e’ il vincolo primario.” La discussione tecnica piu’ votata riguardava la gestione del contesto, non l’intelligenza grezza. Diversi utenti hanno riportato compiti interi falliti a causa di compattazione difettosa.
Un’osservazione affascinante da un developer che gestisce setup multi-agente: GPT-5.4 e’ stato beccato a scaricare ingiustamente la colpa su un agente compagno (un’istanza Opus). Non un’allucinazione. Spostamento attivo della colpa.
Allora quale dovresti usare?
Se stai costruendo workflow agentici con molto uso di strumenti: GPT-5.4. Il tool search da solo risparmia il 47% sui token in setup MCP pesanti, e le capacita’ di uso computer sono attualmente imbattute.
Se stai costruendo agenti autonomi di lunga durata che devono pianificare, ragionare su altri agenti e lavorare su problemi complessi multi-step: Opus 4.6.
Se fai knowledge work su scala (finanza, legale, generazione documenti): GPT-5.4. I punteggi GDPval e investment banking sono decisivi.
Se ti interessa la trasparenza sulla sicurezza: la system card di 230 pagine di Anthropic fa sembrare il blog post di OpenAI un volantino.
Se il budget e’ il vincolo: GPT-5.4 a meta’ prezzo per token. Ma misura il costo-per-compito, non il costo-per-token.
La risposta vera, quella che nessuno vuole sentire: i migliori ingegneri stanno usando entrambi. Claude per architettura e ragionamento. GPT per esecuzione e uso strumenti. L’era della scelta di un solo modello e’ finita.
Stiamo guardando due filosofie molto diverse dello sviluppo AI produrre due tipi molto diversi di intelligenza. OpenAI sta costruendo una macchina da lavoro professionale. Anthropic sta costruendo qualcosa che pensa piu’ profondamente ma si preoccupa di piu’ di cio’ che sta diventando. Entrambi gli approcci stanno producendo modelli straordinari. Nessuno dei due e’ definitivamente “migliore.”
La domanda interessante non e’ quale modello vince oggi. E’ quale approccio scala di piu’.
