
Fenêtre de contexte, tarification... les tokens sont omniprésents dès que l'on parle d'IA générative. Mais que désigne réellement ce terme ? Comment ces unités élémentaires sont-elles créées et utilisées ?
Qu’est ce qu’un token (ou jeton en français) ?
Les humains communiquent avec des mots, des syllabes et de la ponctuation. Les IA génératives, elles, s'expriment en tokens.
Le token est l'unité élémentaire de traitement pour un modèle de langage (LLM). Dans le langage humain, un token peut correspondre à :
Un mot complet (ex : "token")
Une partie de mot (ex : "tion" dans "génération")
Un caractère seul ou un symbole de ponctuation (ex : ",")
Un espace
Dans le langage des IA génératives, chaque token est représenté par un identifiant numérique unique. Par exemple, pour ChatGPT-5.x, le mot "IA" correspond au token "IA" et est représenté par la séquence (token ID) [7068].
Exemple concret :
La phrase “Ceci est un token” est décomposée en 5 token.
Chaque token correspond à un ensemble de caractères Ceci est un token.
Le découpage en token [“C”,”eci”,” est”,” un”, “token”] est traduit ensuite sous la forme d’un ensemble token id [34, 36344, 893, 537, 6602].
La casse compte ! Un même mot en majuscules ou minuscules génère des tokens différents.
"AI" → [17527] pour GPT-5.X
"Ai" → [61169] pour GPT-5.X
La phase de tokenisation : Comment sont définis les tokens ?
La tokenisation est l'étape préalable indispensable au travail d'un LLM.
Les éléments fournis en entrée (question de l'utilisateur, documents PDF pour contextualiser la demande, sources de données web) sont transformés en tokens. C'est l'étape d'encoding.
À l'inverse, lorsque le LLM génère une réponse (prédit les tokens), la suite de tokens générée est convertie en texte intelligible pour un humain. C'est l'étape de decoding.
[Schéma]
Les trois étapes de la tokenisation
Étape 1 : Normalisation
Nettoyage du texte avec la suppression des espaces inutiles, conversion en minuscules et/ou suppression des accents selon les besoins.
Étape 2 : Pré-tokenisation (ou subword tokenization)
Découpage de la chaîne de caractères en plusieurs morceaux distincts (chunks). L'objectif principal est d'empêcher les tokens de dépasser les limites des mots, ce qui donnerait lieu à des tokens composés de plusieurs mots et nuirait à la précision du modèle.
Etape 3 : Tokenization à proprement parler
En phase d'entraînement : l'algorithme de tokenisation est appliqué pour construire le vocabulaire du LLM
En phase de traitement : l'algorithme est appliqué pour décomposer le texte en tokens (encoding) et reconstituer le texte (decoding)
L’algorithme de tokenisation
Utilisé en phase d'entraînement, l'algorithme de tokenisation permet de constituer le vocabulaire du LLM, c'est-à-dire son dictionnaire de tokens.
La taille du dictionnaire varie selon les modèles, mais est généralement comprise entre 30 000 et 50 000 tokens. À titre de comparaison, la langue française compte environ 100 000 mots.
Les principaux algorithmes
Différents algorithmes de tokenisation existent et peuvent être utilisés : Byte-Pair Encoding (BPE), WordPiece ou Unigram.
Le BPE (Byte-Pair Encoding) est l'algorithme le plus utilisé, notamment par OpenAI et Mistral.
Comprendre le BPE par l'exemple
L’exemple fourni par Mistral (traduit ci-dessous en français) permet de bien comprendre le processus appliqué par l’algorithme Byte Per Encoding (BPE).
Supposons que nous ayons le corpus de texte suivant :
low
lower
lowest
new
news
newer
Objectif : entraîner un tokenizer avec un vocabulaire de taille 5 (soit 5 tokens uniques).
Étape 1 : Tokens initiaux
Nous commencerons par chaque caractère en tant que jeton distinct :
l o w
l o w e r
l o w e s t
n e w
n e w s
n e w e r
Tokens distincts : l, o, w, e, r, s, t, n → 8 tokens
Étape 2 : Fusionner le bigramme le plus fréquent
Le bigramme (paire de caractères) le plus fréquent est "l" + "o". Nous les fusionnons pour former un nouveau token "lo" :
lo w
lo w e r
lo w e s t
n e w
n e w s
n e w e r
Nouveaux tokens : lo, w, e, r, s, t, n → 7 tokens
Étape 3 : Fusionner à nouveau
Le bigramme suivant le plus fréquent est "lo" + "w". Nous les fusionnons pour former "low" :
low
low e r
low e s t
n e w
n e w s
n e w e r
Nouveaux tokens : low, e, r, s, t, n, w → 7 tokens
Répétez ce processus...
Répétez la procédure jusqu'à atteindre la taille de vocabulaire souhaitée. Au final, cela ressemblera à ceci :
low
low er
low est
new
new s
new er
Tokens finaux : low, new, er, est, s → 5 tokens ✓
Ce processus permet au modèle d'apprendre les combinaisons de caractères les plus fréquentes et de construire un vocabulaire optimisé.
Impact de la langue et du modèle sur la tokenisation
Selon la langue
Les langues à alphabet latin sont généralement mieux optimisées dans les tokenizers actuels.
Un même texte nécessitera :
1x tokens en anglais (langue de référence)
≈ 1,3x tokens en français
≈ 2 à 3x tokens en japonais ou chinois
Cette différence impacte directement les coûts et les performances.
Selon le modèle
Chaque LLM (GPT, Claude, Mistral, Gemini) possède son propre vocabulaire et algorithme. Un même texte générera donc un nombre différent de tokens selon le modèle utilisé.
Selon le contexte
Le même mot peut être tokenisé différemment selon sa position et son contexte dans la phrase, en fonction de l'algorithme utilisé.
Ordres de grandeur : combien de tokens ?
Pour un texte en anglais, voici quelques ordres d’idées fourni par OpenAI :
1 token ≈ 4 caractères
1 token ≈ ¾ d’un mot
100 tokens ≈ 75 mots
1–2 phrases ≈ 30 tokens
1 paragraphe ≈ 100 tokens
~1,500 mots ≈ 2,048 tokens
10 livres de 300 pages ≈ 1 millions de token
Pour le français, compter environ 30% de tokens supplémentaires.
Tokens en entrée vs tokens en sortie
Pour les modèles d'IA générative, on distingue généralement :
Le nombre de tokens en entrée (fenêtre de contexte)
Au-delà de la question de l'utilisateur, il permet d'intégrer l'historique de la conversation, les documents fournis en entrée, les chunks de données dans le cas de RAG.
Capacités actuelles :
GPT-5 : jusqu'à 400 000 tokens
Claude Opus 4.6 : jusqu'à 1 million de tokens
Gemini 3 Pro : jusqu'à 2 millions de tokens
Le nombre de tokens en sortie
Utilisé pour la réponse générée par l'IA. Par exemple, GPT-5 peut générer jusqu'à 128 000 tokens en sortie.
Combien coûte un token ? La tarification des LLM
Modèle | Prix du token en entrée (/million token) | Prix du token en sortie (/million token) |
Claude Opus 4.6 | $5 | $25 |
Claude Sonnet 4.6 | $3 | $15 |
GPT-5.2 pro | $ 21 | $ 168 |
GPT-5.2 | $ 1.75 | $ 14 |
GPT-5 mini | $ 0,25 | $ 2 |
Mistral Large 3 | $ 0.5 | $1.5 |
Mistral Medium 3 | $0.4 | $2 |
Mistral Small 3.2 | $0.1 | $0.3 |
Ministral 3 - 3B | $0.1 | $0.1 |
Grille simplifiée des tarifs de GPT, Claude et Mistral à fin février 2026.
Le prix des tokens en sortie est systématiquement plus élevé (5 à 10x) car la génération de texte nécessite beaucoup plus de calcul que la simple lecture et compréhension du contexte en entrée.
Rappel : 1 million de tokens représente l'équivalent de 10 livres de 300 pages.
En résumé
Les tokens sont la langue maternelle des IA génératives. Comprendre leur fonctionnement permet de :
Optimiser ses prompts pour réduire les coûts
Mieux dimensionner ses fenêtres de contexte
Anticiper les performances selon les langues utilisées
Comprendre la tarification des différents modèles
Share


