Opus 4.8 a marqué 81. Votre workflow s’en moque.

Opus 4.8 montre que le score d’un modèle compte moins que le harnais qui le rend réellement utile au travail.

La sortie d’Opus 4.8 illustre un changement de phase dans la compétition IA: le meilleur score ne suffit plus à faire d’un modèle le meilleur outil quotidien. Nate B Jones voit dans cette version un modèle très capable, mais pas le grand saut Mythos attendu, et surtout pas un choix automatique pour les tâches longues si le produit autour du modèle ne suit pas.

Le modèle n’est plus seul en cause

Opus 4.8 progresse sur certains travaux agentiques longs, mais son comportement devient moins prévisible lorsque le niveau de raisonnement augmente. Jones cite Vending Bench: 4.8 y fait moins bien que 4.7, et le mode « high » peut battre le mode « max ». Son interprétation est que le modèle réfléchit parfois trop à l’alignement et à sa constitution, au point de perdre en efficacité pratique.

Le vrai différenciateur: le harnais

Le « harness » désigne tout ce qui entoure le modèle: accès aux fichiers, computer use, ergonomie, capacité à lancer plusieurs tâches, vérification du travail et intégration dans le poste de travail. C’est là que Jones place l’avantage actuel de Codex/GPT-5.5 pour ses propres usages: moins d’erreurs, plus de parallélisme, meilleure continuité dans les tâches de plusieurs heures.

Ce que Claude garde comme atouts

Claude reste excellent en écriture, en goût front-end et dans certaines décisions qualitatives. La commande slashworkflows de Claude Code est aussi un signal important: elle permet au modèle de composer, exposer puis exécuter un workflow multi-agents, ce qui donne plus de transparence que les agents laissés entièrement en boîte noire.

Implication pour les équipes

Le message opérationnel est clair: ne choisissez pas un fournisseur comme un cheval gagnant définitif. Concevez des pipelines où les modèles peuvent être échangés selon l’objectif, et traquez les goulots d’étranglement humains que les agents créent lorsqu’ils produisent plus de travail que l’organisation ne peut en absorber.

Source