L'IA a fait émerger une unité de mesure que la plupart des dirigeants ne connaissent pas encore. Pourtant, elle représente déjà des budgets significatifs, elle structure un marché de plusieurs milliards, et son prix évolue à une vitesse sans précédent dans l'histoire de la technologie. Mais elle introduit aussi une forme de fragilité nouvelle — parce que prévoir ce qu'on va réellement consommer n'a rien d'évident.
Quand vous allumez la lumière, vous consommez des kilowattheures. Quand vous stockez des fichiers dans le cloud, vous consommez des gigaoctets. Quand vous utilisez une intelligence artificielle — que ce soit ChatGPT, Claude, Copilot, Gemini ou un autre — vous consommez des tokens.
Le token est l'unité de base de l'économie de l'intelligence artificielle. Chaque question posée, chaque réponse générée, chaque document analysé, chaque e-mail reformulé par une IA se mesure en tokens. Et comme le kWh ou le Go avant lui, le token est en train de devenir une ligne de coût à part entière — que la plupart des entreprises ne mesurent pas encore.
Qu'est-ce qu'un token, concrètement ?
Un token n'est ni un mot, ni un caractère. C'est un fragment de texte — en général un mot court, une syllabe, ou un signe de ponctuation. En français, un mot courant correspond à environ 1 à 2 tokens. Une phrase de dix mots en représente une quinzaine. Une page A4 de texte, environ 400 à 500 tokens.
Pour donner un ordre de grandeur concret :
- Poser une question simple à ChatGPT et recevoir une réponse courte consomme environ 500 à 1 000 tokens.
- Faire résumer un document de 10 pages peut en consommer 5 000 à 8 000 tokens.
- Faire analyser un contrat, rédiger une offre commerciale ou produire un rapport structuré peut dépasser 20 000 à 50 000 tokens par opération.
Ces chiffres paraissent abstraits — jusqu'à ce qu'on les multiplie par le nombre de collaborateurs et le nombre d'opérations par jour. C'est là que le token cesse d'être un concept technique pour devenir un poste budgétaire.
Un marché qui pèse déjà des milliards
Le token n'est pas un détail d'ingénierie. C'est le cœur du modèle économique de l'IA.
Tous les grands fournisseurs facturent à l'usage, au token près. OpenAI, Anthropic, Google, xAI — chacun a sa grille de prix, exprimée en dollars par million de tokens. Et les volumes en jeu sont vertigineux.
Selon Precedence Research, les dépenses mondiales en IA générative ont atteint 37 milliards de dollars en 2025 — soit 3,2 fois plus qu'en 2024. Gartner estime que les dépenses mondiales totales liées à l'IA dépasseront 2 500 milliards de dollars en 2026. Les budgets IA des entreprises ont progressé de 36 % en un an, passant en moyenne de 63 000 à 85 500 dollars par mois et par organisation. Et 72 % des entreprises prévoient d'augmenter encore leurs dépenses en modèles de langage.
Un DSI interrogé par Andreessen Horowitz résumait le phénomène en une phrase : « Ce que je dépensais en 2023, je le dépense maintenant en une semaine. »
Ce n'est pas qu'une affaire de grandes entreprises. Dès qu'une PME utilise l'IA de manière régulière — même via des abonnements grand public — elle consomme des tokens. Et elle paie pour, directement ou indirectement.
Le prix du token chute — plus vite que toute autre technologie avant lui
Ce qui rend le token stratégiquement fascinant, ce n'est pas seulement son existence. C'est la dynamique de son prix.
Selon les données d'Epoch AI, le coût pour atteindre un même niveau de performance en IA a chuté à un rythme médian de 10 fois par an pour les modèles les plus performants. Et depuis début 2024, cette accélération s'est encore intensifiée — avec des baisses atteignant jusqu'à 200 fois par an sur certains niveaux de performance.
En chiffres concrets : une capacité d'intelligence qui coûtait 20 dollars par million de tokens fin 2022 en coûte moins de 0,40 dollar aujourd'hui. C'est une division par 50 en moins de trois ans. Les modèles les plus économiques, comme GPT-4o Mini ou Gemini Flash, descendent même à 0,15 dollar par million de tokens en entrée.
Pour situer l'ampleur de cette chute : elle est plus rapide que la baisse du coût du calcul informatique pendant la révolution des microprocesseurs, et plus rapide que la baisse du coût de la bande passante pendant l'ère du haut débit.
Et tout indique que le mouvement va continuer. La concurrence entre fournisseurs est féroce, les gains d'efficacité algorithmique s'accumulent (environ 3 fois par an selon les chercheurs), et le matériel progresse à chaque nouvelle génération de puces.
Pourquoi cette chute de prix change tout — et ne résout pas tout
On pourrait se dire : « si l'IA devient moins chère, c'est une bonne nouvelle, et le sujet se règle de lui-même ». Ce serait passer à côté de l'essentiel.
Car il se produit ici un phénomène que les économistes connaissent bien : le paradoxe de Jevons. Quand une ressource devient moins chère à l'unité, on n'en consomme pas moins — on en consomme beaucoup plus.
C'est exactement ce qui se passe avec les tokens. Le prix unitaire baisse, mais les volumes explosent. Les modèles deviennent plus sophistiqués et consomment davantage de tokens par opération. Les agents IA, qui enchaînent des dizaines d'appels pour accomplir une tâche complexe, multiplient la consommation. Et les cas d'usage se diversifient à mesure que le coût rend rentables des opérations qui ne l'étaient pas six mois plus tôt.
Résultat : malgré la baisse spectaculaire du prix unitaire, les dépenses totales en IA augmentent de 30 à 40 % par an en entreprise. En 2026, selon le rapport FinOps, 98 % des organisations gèrent activement leurs dépenses en IA — contre seulement 31 % deux ans plus tôt.
Ce paradoxe a une conséquence stratégique majeure pour les dirigeants : ce qui coûte trop cher à automatiser aujourd'hui deviendra rentable dans six mois. Les entreprises qui comprennent cette courbe de prix ont un avantage de timing considérable sur celles qui attendent « que ça soit mûr ».
Mutualiser, optimiser : le token se pilote
Face à cette réalité, les entreprises les plus avancées ne se contentent pas de surveiller leur facture. Elles commencent à piloter leur consommation de tokens comme elles pilotent leurs autres ressources — avec des choix d'architecture, de mutualisation et d'optimisation.
Le choix du bon modèle pour le bon usage est le premier levier. Aujourd'hui, un modèle haut de gamme (GPT-5.2, Claude Opus) coûte entre 15 et 75 dollars par million de tokens en sortie. Un modèle intermédiaire (Claude Sonnet, GPT-4o) coûte entre 3 et 15 dollars. Un modèle économique (GPT-4o Mini, Gemini Flash, Haiku) coûte moins d'un dollar. Pour une même tâche — résumer un e-mail, classer un ticket, reformuler un texte — le résultat peut être identique avec un modèle dix fois moins cher. Inversement, utiliser un modèle premium pour une opération simple revient à prendre l'avion pour traverser la rue.
Les grandes entreprises mettent déjà en place des systèmes de routage intelligent qui orientent automatiquement chaque requête vers le modèle le plus adapté. Ce principe peut tout à fait se transposer à l'échelle d'une PME, de façon plus simple : savoir quels usages justifient un modèle puissant et quels usages se satisfont d'un modèle léger. C'est un arbitrage stratégique, pas un choix technique.
La mutualisation est un deuxième levier. Plutôt que chaque collaborateur utilise son propre abonnement individuel dans son coin, une entreprise peut centraliser et mutualiser l'accès à l'IA via une interface ou une API commune. Cela permet de regrouper les volumes, de négocier de meilleurs tarifs (les fournisseurs pratiquent des prix dégressifs au volume), de contrôler les usages, et surtout de mesurer ce que l'on consomme réellement. Sans mutualisation, chaque salarié paie le prix fort individuellement, et l'entreprise n'a aucune visibilité sur l'ensemble.
L'optimisation des prompts et des flux est un troisième levier, moins visible mais significatif. La façon dont une requête est formulée, le volume de contexte envoyé au modèle, le nombre d'allers-retours nécessaires — tout cela influence directement la consommation de tokens. Un prompt bien conçu peut diviser par deux ou trois la quantité de tokens nécessaire pour le même résultat. À l'inverse, un système mal configuré — qui envoie trop de contexte, qui multiplie les appels inutiles ou qui ne met pas en cache les résultats réutilisables — peut multiplier la facture par 3 ou 4 sans que le résultat final soit meilleur. C'est là que se joue une part importante de l'économie réelle de l'IA en entreprise.
Autrement dit, le token n'est pas une fatalité. C'est une ressource — et comme toute ressource, elle se gère, se mutualise et s'optimise.
Le problème de la prévision : quand la consommation échappe au budget
Mais il y a un autre aspect du sujet, moins confortable, que beaucoup d'entreprises commencent à découvrir à leurs dépens : prévoir sa consommation réelle de tokens est extrêmement difficile.
Avec un logiciel classique, la dépense est connue à l'avance. Vous payez une licence ou un abonnement forfaitaire, et le coût reste stable quel que soit l'usage. Avec les tokens, c'est l'inverse : la consommation dépend de l'usage réel, et cet usage est par nature imprévisible.
Prenons trois situations concrètes.
Les usages internes d'abord. Quand une équipe de 20 personnes commence à utiliser l'IA au quotidien, sa consommation augmente mécaniquement à mesure que les collaborateurs montent en compétence et trouvent de nouveaux cas d'usage. Ce qui commençait à quelques centaines de requêtes par semaine peut se transformer en plusieurs milliers en quelques mois — sans qu'aucun budget n'ait été prévu pour cette montée en charge. Et les modèles de « raisonnement » récents — ceux qui « réfléchissent » longuement avant de répondre — aggravent le phénomène : ils génèrent des milliers de tokens internes de réflexion pour une seule réponse, multipliant la consommation de manière invisible.
Les usages ouverts ensuite. Si une entreprise intègre l'IA dans un service exposé à ses clients — un chatbot sur son site web, un assistant de support, un outil de recommandation — la consommation devient fonction du trafic. Un pic d'activité, une campagne marketing qui fonctionne bien, un article viral qui génère du trafic : autant de situations où les tokens consommés peuvent exploser, sans que l'entreprise l'ait anticipé. Certaines plateformes ont découvert ce qu'on appelle des « baleines d'inférence » — des utilisateurs individuels qui consomment pour des dizaines de milliers de dollars de tokens sous un abonnement forfaitaire. L'écart entre le prix payé par le client et le coût réel en tokens peut alors devenir un gouffre.
Les agents autonomes enfin. À mesure que l'IA évolue vers des systèmes capables d'agir seuls — les fameux « agents » — la consommation devient encore plus difficile à prévoir. Un agent qui résout un problème complexe peut enchaîner des dizaines d'appels au modèle, analyser des documents, interroger des bases de données, et générer de longs raisonnements intermédiaires. La facture d'une seule opération peut varier du simple au centuple selon la complexité du cas. Un investisseur technologique a révélé que ses agents IA lui coûtaient 300 dollars par jour — l'équivalent de 100 000 dollars par an — tout en fonctionnant à seulement 10 à 20 % de leur capacité.
Le risque n'est pas de payer trop cher. Le risque est de ne pas savoir combien on va payer — et de découvrir le coût réel après coup.
Cette imprévisibilité pose deux questions stratégiques.
La question de la rentabilité d'abord. Si une entreprise construit une offre ou un service dont le coût de production dépend du volume de tokens consommés — et que ce volume est difficile à prévoir — comment garantir la marge ? Comment fixer un prix de vente quand le coût unitaire de production fluctue ? C'est un changement de paradigme par rapport au logiciel classique, où le coût marginal de production d'un usage supplémentaire est proche de zéro. Avec les tokens, chaque utilisation a un coût — et ce coût peut varier considérablement.
La question de la fragilité ensuite. Un modèle économique qui repose sur une consommation de tokens mal maîtrisée est structurellement fragile. Si les prix baissent, les marges s'améliorent. Mais si les volumes dérapent, si un modèle est remplacé par un autre plus cher, si un fournisseur change ses tarifs, ou si les usages internes explosent sans qu'on l'ait anticipé — les équilibres financiers peuvent basculer rapidement. C'est un risque que les dirigeants de PME doivent intégrer dans leur réflexion, au même titre que la dépendance à un fournisseur ou à un canal de distribution.
La bonne nouvelle, c'est que ce risque se gère — à condition de l'avoir identifié. Mettre en place des seuils d'alerte, des budgets plafonnés par usage, des mécanismes de suivi en temps réel : ce sont des pratiques simples, qui relèvent davantage de la discipline de gestion que de la prouesse technique. Mais elles supposent d'abord de savoir que le problème existe. Et pour beaucoup de PME, cette prise de conscience n'a pas encore eu lieu.
La « shadow consommation » : vos équipes utilisent déjà des tokens
Il y a encore un autre angle mort que beaucoup de dirigeants sous-estiment.
Comme nous l'avons évoqué dans un précédent article, 75 % des travailleurs du savoir utilisent déjà l'IA au travail — souvent sans que leur direction le sache. C'est ce que l'on appelle le « shadow AI ».
Ce phénomène a un corollaire direct en matière de tokens : vos collaborateurs consomment déjà de l'intelligence artificielle, donc des tokens, sans que personne ne les mesure, ne les pilote, ni ne les budgétise. Et ces consommations individuelles, prises isolément, semblent dérisoires. Un abonnement ChatGPT à 20 euros par mois. Quelques requêtes Copilot intégrées à la suite Office.
Mais multipliez ça par 15, 30 ou 100 collaborateurs — et ajoutez les usages qui ne passent pas par les canaux officiels de l'entreprise — et vous obtenez un poste de dépense réel, non piloté, non optimisé. Et surtout, non mutualisé : chacun paie individuellement le prix fort, sans bénéficier des volumes collectifs.
Le token rend ce phénomène mesurable. C'est à la fois le problème et la solution : quand on sait compter les tokens, on peut commencer à piloter sa consommation d'IA comme on pilote ses autres ressources.
Ce que cela signifie pour un dirigeant de PME
La plupart des dirigeants de PME n'ont pas encore entendu parler du token. Et pourtant, plusieurs décisions stratégiques en dépendent déjà.
L'intelligence devient un coût variable. Contrairement à un logiciel classique facturé au forfait ou à la licence, l'IA se facture à l'usage. Plus vous l'utilisez, plus vous payez. Cela change la logique budgétaire : il ne s'agit plus d'acheter un outil, mais de gérer une consommation — avec tout ce que cela implique en matière de prévision, de pilotage et de risque de dérapage.
La courbe de prix crée un avantage de timing. La baisse de prix rend possibles des choses qui ne l'étaient pas hier. Automatiser le traitement de 100 mails par jour, faire analyser des contrats en série, générer des rapports personnalisés pour chaque client — ces cas d'usage étaient économiquement irréalistes il y a un an. Ils ne le sont plus. Et dans six mois, d'autres le deviendront à leur tour. Le dirigeant qui comprend cette dynamique peut anticiper — et prendre de l'avance sur ses concurrents.
L'optimisation et la mutualisation sont des leviers stratégiques. Choisir le bon modèle pour le bon usage, centraliser les accès, structurer les prompts, mutualiser les volumes : ce ne sont pas des sujets techniques. Ce sont des décisions de gestion qui peuvent diviser la facture par 5 ou 10 — à résultat identique.
La prévision de consommation devient un enjeu de direction. Quand la dépense dépend de l'usage, et que l'usage est par nature difficile à prévoir, le risque de dérapage est réel — surtout si des services ouverts ou des agents autonomes entrent dans l'équation. Le token introduit une forme de fragilité que les dirigeants doivent apprendre à gérer, exactement comme ils ont appris à gérer la dépendance au cloud ou les coûts variables de la publicité en ligne.
Le token va devenir un indicateur de gestion. Comme le coût d'acquisition client, le chiffre d'affaires par collaborateur ou la marge brute, le coût en tokens par opération va progressivement s'imposer comme un indicateur à suivre. Les entreprises les plus avancées commencent déjà à mettre en place des pratiques de « FinOps IA » — c'est-à-dire une gouvernance de leur consommation d'intelligence artificielle.
Après le kWh, après le Go : le token
L'histoire des technologies nous enseigne que chaque grande vague a fait émerger une unité de mesure qui a fini par structurer l'économie d'un secteur.
Le kilowattheure a structuré l'économie de l'énergie. Le gigaoctet a structuré l'économie du stockage et du cloud. La bande passante a structuré l'économie du streaming et des télécommunications.
Le token est en train de structurer l'économie de l'intelligence à la demande.
Et comme pour chacune de ces unités avant lui, ceux qui les ont comprises en premier en ont tiré profit. Ceux qui les ont découvertes trop tard les ont subies — souvent en payant plus cher, en prenant du retard, ou en se retrouvant dépendants de choix qu'ils n'avaient pas anticipés.
Le token n'est pas un sujet technique réservé aux développeurs. C'est la nouvelle unité de mesure de la valeur que l'IA produit — et de ce qu'elle coûte. Et comme toute unité de mesure, elle révèle autant qu'elle oblige : elle rend visible ce qu'on consomme, ce qu'on dépense, et ce qu'on ne maîtrise pas encore.
Voir venir, se préparer, agir
Aujourd'hui, la plupart des PME consomment des tokens sans le savoir, sans les mesurer, et sans les piloter. Ce n'est pas un reproche — c'est un constat. Le sujet est récent, le vocabulaire est nouveau, et les repères manquent encore.
Mais ce constat dessine aussi une opportunité. Comprendre ce qu'est un token, savoir comment il est facturé, suivre la dynamique de ses prix, anticiper les risques de consommation imprévue, et structurer sa mutualisation — c'est se donner les moyens de prendre des décisions plus éclairées, au bon moment.
C'est un travail de direction, pas un sujet à déléguer à l'IT. Et c'est exactement le type de réflexion stratégique que nous accompagnons avec IMPAICT : comprendre ce qui se joue, évaluer votre situation, et structurer une réponse adaptée — avant que le sujet ne s'impose à vous.
Sources
- Epoch AI, « LLM inference prices have fallen rapidly but unequally across tasks », 2024
- Epoch AI, « How persistent is the inference cost burden? », 2025
- Andreessen Horowitz, « How 100 Enterprise CIOs Are Building and Buying Gen AI in 2025 », juin 2025
- Ramp, « The cost of AI is decreasing », mars 2025
- Precedence Research / The AI Enterprise, « The New Enterprise Currency: Why Your AI Strategy Lives or Dies by the Token », mars 2026
- Gartner, « Worldwide AI Spending Will Total $1.5 Trillion in 2025 », septembre 2025
- FinOps Foundation, « 2026 State of FinOps Report », 2026
- Kong Inc., « Enterprise GenAI Spending Going Up in 2025 », 2025
- Menlo Ventures, « 2025: The State of Generative AI in the Enterprise », décembre 2025
- OpsLyft, « Hidden AI Costs: Why Falling Token Prices Increase Spend », 2025
Commentaires (0)
Soyez le premier à commenter.