Ho consumato 500 milioni di token la scorsa settimana. Conosci i tuoi?
L’IA sta diventando acquisto di capacità: token, HBM, packaging, energia, routing e allocazione contano quanto il software.
Nate B Jones presenta l’IA moderna come un business di capacità industriale, non come una semplice categoria software. Ogni risposta generata dipende da una catena fisica — chip, memoria HBM, packaging, ottica, energia, raffreddamento, data center e operations — che trasforma la domanda in token serviti.
Microsoft rende visibile questo cambiamento. Anche con 190 miliardi di dollari di capex previsti, l’azienda si aspetta ancora vincoli di capacità. Il problema non è solo la disponibilità di GPU: è l’intero sistema che rende gli acceleratori realmente utilizzabili su larga scala, in particolare memoria, packaging, alimentazione e costruzione dei data center.
Per chi compra soluzioni IA, cambia la due diligence. Bisogna chiedere se il fornitore offre capacità riservata o accesso best effort, quale livello di allocazione è garantito, cosa succede in caso di scarsità a monte e quanto il prodotto dipenda da un hyperscaler specifico. I cloud provider possono essere insieme fornitori e concorrenti per la stessa capacità di calcolo.
Anche la previsione della domanda deve cambiare unità di misura. Posti e licenze non bastano: occorre stimare token per workflow, lunghezza del contesto, chiamate ai modelli, cicli agentici, concorrenza, retry e livelli di latenza. L’esempio citato nel video — quasi 500 milioni di token in una settimana — mostra quanto rapidamente gli usi avanzati possano superare i budget tradizionali.
I costi di serving migliorano grazie a distillazione, caching, batching, quantizzazione, routing e ottimizzazioni software. Ma token più economici possono generare ancora più domanda, soprattutto con contesti lunghi e agenti più autonomi. La domanda operativa diventa quindi: dove può rompersi la catena di capacità e quale protezione contrattuale esiste se accade?
Per il prossimo comitato investimenti, la checklist è chiara: quanta spesa IA è davvero capacità riservata, quale piano di fallback esiste se il provider è vincolato, come misurare il routing verso modelli più economici senza degradare l’esperienza, e dove una supervisione umana nascosta maschera ancora fallimenti del prodotto.
Source
- Date de publication YouTube: 2026-05-24
- Chaîne: AI News & Strategy Daily | Nate B Jones
- Vidéo source: https://www.youtube.com/watch?v=Poyi6X7rOwY