IA

Les tokens en IA générative : comprendre l'unité de base des LLM

IA

Les tokens en IA générative : comprendre l'unité de base des LLM

Tout comprendre sur les Token utilisé par l'IA générative

Fenêtre de contexte, tarification... les tokens sont omniprésents dès que l'on parle d'IA générative. Mais que désigne réellement ce terme ? Comment ces unités élémentaires sont-elles créées et utilisées ?

Qu’est ce qu’un token (ou jeton en français) ? 

Les humains communiquent avec des mots, des syllabes et de la ponctuation. Les IA génératives, elles, s'expriment en tokens.

Le token est l'unité élémentaire de traitement pour un modèle de langage (LLM). Dans le langage humain, un token peut correspondre à :

  • Un mot complet (ex : "token")

  • Une partie de mot (ex : "tion" dans "génération")

  • Un caractère seul ou un symbole de ponctuation (ex : ",")

  • Un espace

Dans le langage des IA génératives, chaque token est représenté par un identifiant numérique unique. Par exemple, pour ChatGPT-5.x, le mot "IA" correspond au token "IA" et est représenté par la séquence (token ID) [7068].

Exemple concret : 

La phrase “Ceci est un token” est décomposée en 5 token. 

Chaque token correspond à un ensemble de caractères Ceci est un token

Le découpage en token [“C”,”eci”,” est”,” un”, “token”] est traduit ensuite sous la forme d’un ensemble token id [34, 36344, 893, 537, 6602].

La casse compte ! Un même mot en majuscules ou minuscules génère des tokens différents.

  • "AI" → [17527] pour GPT-5.X

  • "Ai" → [61169] pour GPT-5.X

La phase de tokenisation : Comment sont définis les tokens ? 

La tokenisation est l'étape préalable indispensable au travail d'un LLM.

Les éléments fournis en entrée (question de l'utilisateur, documents PDF pour contextualiser la demande, sources de données web) sont transformés en tokens. C'est l'étape d'encoding.

À l'inverse, lorsque le LLM génère une réponse (prédit les tokens), la suite de tokens générée est convertie en texte intelligible pour un humain. C'est l'étape de decoding.

[Schéma]

Les trois étapes de la tokenisation

Étape 1 : Normalisation

Nettoyage du texte avec la suppression des espaces inutiles, conversion en minuscules et/ou suppression des accents selon les besoins.

Étape 2 : Pré-tokenisation (ou subword tokenization)

Découpage de la chaîne de caractères en plusieurs morceaux distincts (chunks). L'objectif principal est d'empêcher les tokens de dépasser les limites des mots, ce qui donnerait lieu à des tokens composés de plusieurs mots et nuirait à la précision du modèle.

Etape 3 : Tokenization à proprement parler

En phase d'entraînement : l'algorithme de tokenisation est appliqué pour construire le vocabulaire du LLM

En phase de traitement : l'algorithme est appliqué pour décomposer le texte en tokens (encoding) et reconstituer le texte (decoding)

L’algorithme de tokenisation

Utilisé en phase d'entraînement, l'algorithme de tokenisation permet de constituer le vocabulaire du LLM, c'est-à-dire son dictionnaire de tokens.

La taille du dictionnaire varie selon les modèles, mais est généralement comprise entre 30 000 et 50 000 tokens. À titre de comparaison, la langue française compte environ 100 000 mots.

Les principaux algorithmes

Différents algorithmes de tokenisation existent et peuvent être utilisés : Byte-Pair Encoding (BPE), WordPiece ou Unigram.

Le BPE (Byte-Pair Encoding) est l'algorithme le plus utilisé, notamment par OpenAI et Mistral.

Comprendre le BPE par l'exemple

L’exemple fourni par Mistral (traduit ci-dessous en français) permet de bien comprendre le processus appliqué par l’algorithme Byte Per Encoding (BPE). 

Supposons que nous ayons le corpus de texte suivant :

low
lower
lowest
new
news
newer

Objectif : entraîner un tokenizer avec un vocabulaire de taille 5 (soit 5 tokens uniques).

Étape 1 : Tokens initiaux

Nous commencerons par chaque caractère en tant que jeton distinct :

l o w
l o w e r
l o w e s t
n e w
n e w s
n e w e r

Tokens distincts : l, o, w, e, r, s, t, n → 8 tokens

Étape 2 : Fusionner le bigramme le plus fréquent

Le bigramme (paire de caractères) le plus fréquent est "l" + "o". Nous les fusionnons pour former un nouveau token "lo" :

lo w
lo w e r
lo w e s t
n e w
n e w s
n e w e r

Nouveaux tokens : lo, w, e, r, s, t, n → 7 tokens

Étape 3 : Fusionner à nouveau

Le bigramme suivant le plus fréquent est "lo" + "w". Nous les fusionnons pour former "low" :

low
low e r
low e s t
n e w
n e w s
n e w e r

Nouveaux tokens : low, e, r, s, t, n, w → 7 tokens

Répétez ce processus...

Répétez la procédure jusqu'à atteindre la taille de vocabulaire souhaitée. Au final, cela ressemblera à ceci :

low
low er
low est
new
new s
new er

Tokens finaux : low, new, er, est, s → 5 tokens ✓

Ce processus permet au modèle d'apprendre les combinaisons de caractères les plus fréquentes et de construire un vocabulaire optimisé.

Impact de la langue et du modèle sur la tokenisation

Selon la langue

Les langues à alphabet latin sont généralement mieux optimisées dans les tokenizers actuels. 

Un même texte nécessitera :

  • 1x tokens en anglais (langue de référence)

  • ≈ 1,3x tokens en français

  • ≈ 2 à 3x tokens en japonais ou chinois

Cette différence impacte directement les coûts et les performances.

Selon le modèle

Chaque LLM (GPT, Claude, Mistral, Gemini) possède son propre vocabulaire et algorithme. Un même texte générera donc un nombre différent de tokens selon le modèle utilisé.

Selon le contexte

Le même mot peut être tokenisé différemment selon sa position et son contexte dans la phrase, en fonction de l'algorithme utilisé.

Ordres de grandeur : combien de tokens ?

Pour un texte en anglais, voici quelques ordres d’idées fourni par OpenAI :

  • 1 token ≈ 4 caractères

  • 1 token ≈ ¾ d’un mot

  • 100 tokens ≈ 75 mots

  • 1–2 phrases ≈ 30 tokens

  • 1 paragraphe ≈ 100 tokens

  • ~1,500 mots ≈ 2,048 tokens

  • 10 livres de 300 pages ≈ 1 millions de token

Pour le français, compter environ 30% de tokens supplémentaires.

Tokens en entrée vs tokens en sortie

Pour les modèles d'IA générative, on distingue généralement :

Le nombre de tokens en entrée (fenêtre de contexte)

Au-delà de la question de l'utilisateur, il permet d'intégrer l'historique de la conversation, les documents fournis en entrée, les chunks de données dans le cas de RAG.

Capacités actuelles :

  • GPT-5 : jusqu'à 400 000 tokens

  • Claude Opus 4.6 : jusqu'à 1 million de tokens

  • Gemini 3 Pro : jusqu'à 2 millions de tokens

Le nombre de tokens en sortie

Utilisé pour la réponse générée par l'IA. Par exemple, GPT-5 peut générer jusqu'à 128 000 tokens en sortie.

Combien coûte un token ? La tarification des LLM

Modèle 

Prix du token en entrée (/million token)

Prix du token en sortie

(/million token)

Claude Opus 4.6

$5

$25

Claude Sonnet 4.6

$3

$15

GPT-5.2 pro

$ 21

$ 168

GPT-5.2

$ 1.75

$ 14

GPT-5 mini

$ 0,25

$ 2

Mistral Large 3

$ 0.5

$1.5

Mistral Medium 3

$0.4

$2

Mistral Small 3.2

$0.1

$0.3

Ministral 3 - 3B

$0.1

$0.1

Grille simplifiée des tarifs de GPT, Claude et Mistral à fin février 2026. 

Le prix des tokens en sortie est systématiquement plus élevé (5 à 10x) car la génération de texte nécessite beaucoup plus de calcul que la simple lecture et compréhension du contexte en entrée.

Rappel : 1 million de tokens représente l'équivalent de 10 livres de 300 pages.

En résumé

Les tokens sont la langue maternelle des IA génératives. Comprendre leur fonctionnement permet de :

  • Optimiser ses prompts pour réduire les coûts

  • Mieux dimensionner ses fenêtres de contexte

  • Anticiper les performances selon les langues utilisées

  • Comprendre la tarification des différents modèles

Envie d'en savoir plus ?

Un avis à partager, un projet, une question...