J’ai consommé 500 millions de tokens la semaine dernière. Connaissez-vous les vôtres ?

L’IA devient une industrie de capacité: tokens, mémoire HBM, packaging, énergie et contrats d’allocation comptent autant que le logiciel.

L’argument central de Nate B Jones est simple: acheter de l’IA revient de moins en moins à acheter du logiciel et de plus en plus à acheter une part de capacité industrielle. Les réponses générées par un modèle dépendent d’une chaîne physique — puces, mémoire HBM, packaging, optique, énergie, refroidissement, data centers et équipes d’exploitation — qui transforme la demande en tokens servis.

Microsoft illustre ce basculement: malgré 190 milliards de dollars de dépenses d’investissement prévues, l’entreprise anticipe encore des contraintes de capacité. Le message n’est pas seulement que les GPU sont rares; c’est que les composants et infrastructures autour des GPU déterminent la capacité réellement utilisable.

Pour les acheteurs d’IA, cela change la diligence. Un contrat devrait préciser la capacité réservée ou seulement « best effort », le rang d’allocation, les plans de bascule et la dépendance au fournisseur cloud. Les hyperscalers peuvent être fournisseurs, mais aussi concurrents pour les mêmes ressources de calcul lorsqu’ils arbitrent entre Copilot, Gemini, Bedrock, leurs clients cloud et leurs propres produits.

La mesure de la demande doit elle aussi changer. Compter les sièges ou les licences ne suffit plus: il faut prévoir les tokens par workflow, les longueurs de contexte, les appels de modèles, les boucles agentiques, la concurrence, les retries et les exigences de latence. L’exemple personnel cité dans la vidéo — près de 500 millions de tokens consommés en une semaine — montre à quelle vitesse les usages avancés peuvent dépasser les modèles de budget classiques.

Les coûts unitaires continuent de baisser grâce à la distillation, au caching, au batching, à la quantification, au routage et aux optimisations logicielles. Mais ces gains peuvent aussi créer plus de demande, notamment avec des agents plus longs et plus autonomes. La bonne question n’est donc pas seulement « l’IA est-elle trop chère ? », mais « où la chaîne de capacité peut-elle casser, et que prévoit notre contrat si cela arrive ? »

À retenir pour un comité d’investissement: quelle part du spend IA est réellement réservée, quel plan existe si le fournisseur principal manque de capacité, quel routage vers des modèles moins coûteux protège la marge, et où une supervision humaine cachée masque encore les limites du produit.

Source

Date de publication YouTube: 2026-05-24
Chaîne: AI News & Strategy Daily | Nate B Jones
Vidéo source: https://www.youtube.com/watch?v=Poyi6X7rOwY