Opus 4.8 ha segnato 81. Al tuo workflow non importa.

Opus 4.8 mostra che il punteggio di un modello conta meno del sistema che lo rende utile nel lavoro reale.

Opus 4.8 è un modello potente, ma Nate B Jones sostiene che non vada interpretato come l’ennesimo salto di benchmark capace di diventare automaticamente lo strumento principale. La competizione, secondo lui, si è spostata: ciò che conta è il sistema intorno al modello, cioè il modo in cui il modello entra davvero nel lavoro quotidiano.

Potenza senza prevedibilità non basta

Jones descrive Opus 4.8 come una release di checkpoint, non come il grande salto Mythos che molti aspettano da Anthropic. Il modello migliora in alcune attività agentiche lunghe, ma aumentare il livello di ragionamento non produce sempre risultati migliori. Nel caso di Vending Bench, 4.8 fa peggio di 4.7 e la modalità « high » può superare la modalità « max ».

Il fattore decisivo è il harness

Il harness comprende accesso ai file, computer use, persistenza sulle attività, lavoro in parallelo, review e usabilità dello strumento. Per i lavori lunghi di Jones, Codex con GPT-5.5 oggi funziona meglio: completa più attività, gestisce meglio il contesto operativo e permette iterazioni più rapide, anche quando Claude resta superiore in scrittura o gusto visivo.

Il punto forte di Claude

Claude mantiene vantaggi evidenti nella scrittura, nel front-end design e nel giudizio qualitativo. Jones segnala anche slashworkflows in Claude Code: un comando che consente a Claude di progettare un workflow multi-agente, renderlo visibile e poi distribuirlo ai sotto-agenti. È un pattern che probabilmente verrà copiato.

Cosa dovrebbero fare i team

La lezione pratica è non legare l’organizzazione a un solo fornitore. I budget vanno collegati ai risultati, i modelli devono essere sostituibili e le pipeline agentiche devono evitare che il lavoro generato dagli agenti si accumuli in colli di bottiglia umani.

Source