Opus 4.8 erzielte 81 Punkte. Ihrem Workflow ist das egal.
Opus 4.8 zeigt, dass Modellwerte weniger zählen als der Arbeitsrahmen, der ein Modell praktisch nutzbar macht.
Opus 4.8 ist ein starkes Modell, doch Nate B Jones warnt davor, die Veröffentlichung wie einen klassischen Benchmark-Sprung aus dem Jahr 2025 zu lesen. Aus seiner Sicht hat sich der Wettbewerb verschoben: Entscheidend ist nicht mehr nur die Intelligenz des Modells, sondern der Produkt- und Workflow-Rahmen, der es im Alltag nutzbar macht.
Fähigkeit ohne Vorhersagbarkeit reicht nicht
Jones sieht Opus 4.8 eher als Checkpoint-Release denn als den großen Mythos-Sprung, auf den viele bei Anthropic warten. Das Modell verbessert sich bei manchen langen agentischen Aufgaben, doch mehr Reasoning-Aufwand führt nicht zuverlässig zu besseren Ergebnissen. Als Beispiel nennt er Vending Bench, wo 4.8 hinter 4.7 liegt und der Modus « high » den Modus « max » schlagen kann.
Der Harness entscheidet über den Daily Driver
Zum Harness gehören Dateizugriff, Computer Use, Ausdauer bei Aufgaben, parallele Arbeit, Review-Schleifen und Ergonomie. Für Jones liegt Codex mit GPT-5.5 bei mehrstündigen Aufgaben derzeit vorn, weil es zuverlässiger Kontext nutzt, mehrere Arbeiten parallel erledigt und schneller iteriert, auch wenn Claude bei Stil, Schreiben und Front-End-Geschmack stark bleibt.
Claudes wichtiger Vorteil
Claude behält klare Stärken beim Schreiben, bei Front-End-Entscheidungen und bei qualitativer Einschätzung. Besonders interessant ist für Jones slashworkflows in Claude Code: Claude kann einen Multi-Agenten-Workflow entwerfen, offenlegen und anschließend an Subagenten verteilen. Diese Transparenz dürfte in anderen Agentenwerkzeugen schnell kopiert werden.
Was Teams daraus machen sollten
Die operative Lehre lautet: keine Organisation sollte sich endgültig auf einen einzigen Modellanbieter festlegen. Budgets sollten an Ergebnisse gebunden werden, Modelle austauschbar bleiben und agentische Pipelines so gestaltet sein, dass sie keine unkontrollierbaren menschlichen Review-Staus erzeugen.
Source
- Chaîne: AI News & Strategy Daily | Nate B Jones
- Vidéo source: https://www.youtube.com/watch?v=z73yuF14udI