Ich habe letzte Woche 500 Millionen Tokens verbraucht. Kennen Sie Ihre?

KI-Einkauf wird Kapazitätseinkauf: Tokens, HBM, Packaging, Strom, Routing und Allokation zählen so viel wie Softwarefunktionen.

Nate B Jones beschreibt moderne KI als industrielles Kapazitätsgeschäft und nicht mehr nur als Softwarekategorie. Jede generierte Antwort hängt von einer physischen Kette ab — Chips, HBM-Speicher, Packaging, Optik, Strom, Kühlung, Rechenzentren und Betrieb — die Nachfrage in ausgelieferte Tokens verwandelt.

Microsoft zeigt diesen Wandel besonders deutlich. Trotz geplanter Investitionsausgaben von 190 Milliarden Dollar erwartet das Unternehmen weiterhin Kapazitätsengpässe. Der Engpass liegt nicht nur bei GPUs, sondern im gesamten System, das Beschleuniger in großem Maßstab nutzbar macht: Speicher, Packaging, Energieversorgung und Rechenzentrumsbau.

Für KI-Einkäufer verändert das die Due Diligence. Sie sollten klären, ob ein Anbieter reservierte Kapazität oder nur Best-Effort-Zugang bietet, welche Allokationsstufe gilt, was bei Engpässen vorgelagert passiert und wie stark das Produkt von einem bestimmten Hyperscaler abhängt. Cloud-Anbieter können gleichzeitig Lieferanten und Konkurrenten um dieselbe Rechenkapazität sein.

Auch die Nachfrageprognose braucht eine neue Einheit. Sitze und Lizenzen reichen nicht; Teams müssen Tokens pro Workflow, Kontextlänge, Modellaufrufe, Agentenschleifen, Parallelität, Wiederholungen und Latenzklassen abschätzen. Das im Video genannte Beispiel — fast 500 Millionen Tokens in einer Woche — zeigt, wie schnell agentische Workflows klassische Budgetannahmen sprengen können.

Die Serving-Kosten sinken durch Distillation, Caching, Batching, Quantisierung, Routing und Softwareoptimierung. Doch günstigere Tokens können zusätzliche Nachfrage auslösen, besonders bei längeren Kontexten und autonomeren Agenten. Die operative Frage lautet daher: Wo kann die Kapazitätskette brechen, und welche vertragliche Absicherung gibt es dann?

Für das nächste Investment-Review bietet sich eine konkrete Checkliste an: welcher Anteil der KI-Ausgaben ist wirklich reservierte Kapazität, welcher Fallback existiert bei Provider-Engpässen, wie wird Routing zu günstigeren Modellen gemessen ohne die Nutzererfahrung zu verschlechtern, und wo verdeckt menschliche Aufsicht noch Produktversagen.

Source

Date de publication YouTube: 2026-05-24
Chaîne: AI News & Strategy Daily | Nate B Jones
Vidéo source: https://www.youtube.com/watch?v=Poyi6X7rOwY