6 mars 2026

Les tokens en IA générative : comprendre l'unité de base des LLM

Tout comprendre sur les Token utilisé par l'IA générative

Fenêtre de contexte, tarification... les tokens sont omniprésents dès que l'on parle d'IA générative. Mais que désigne réellement ce terme ? Comment ces unités élémentaires sont-elles créées et utilisées ?

Mickaël Peyrot

Directeur conseil & technologies

Mickaël Peyrot

Directeur conseil & technologies

No headings found in #content

Qu’est ce qu’un token (ou jeton en français) ?

Les humains communiquent avec des mots, des syllabes et de la ponctuation. Les IA génératives, elles, s'expriment en tokens.

Le token est l'unité élémentaire de traitement pour un modèle de langage (LLM). Dans le langage humain, un token peut correspondre à :

Un mot complet (ex : "token")
Une partie de mot (ex : "tion" dans "génération")
Un caractère seul ou un symbole de ponctuation (ex : ",")
Un espace

Dans le langage des IA génératives, chaque token est représenté par un identifiant numérique unique. Par exemple, pour ChatGPT-5.x, le mot "IA" correspond au token "IA" et est représenté par la séquence (token ID) [7068].

Exemple concret :

La phrase “Ceci est un token” est décomposée en 5 token.

Chaque token correspond à un ensemble de caractères Ceci est un token.

Le découpage en token [“C”,”eci”,” est”,” un”, “token”] est traduit ensuite sous la forme d’un ensemble token id [34, 36344, 893, 537, 6602].

La casse compte ! Un même mot en majuscules ou minuscules génère des tokens différents.

"AI" → [17527] pour GPT-5.X
"Ai" → [61169] pour GPT-5.X

La phase de tokenisation : Comment sont définis les tokens ?

La tokenisation est l'étape préalable indispensable au travail d'un LLM.

Les éléments fournis en entrée (question de l'utilisateur, documents PDF pour contextualiser la demande, sources de données web) sont transformés en tokens. C'est l'étape d'encoding.

À l'inverse, lorsque le LLM génère une réponse (prédit les tokens), la suite de tokens générée est convertie en texte intelligible pour un humain. C'est l'étape de decoding.

[Schéma]

Les trois étapes de la tokenisation

Étape 1 : Normalisation

Nettoyage du texte avec la suppression des espaces inutiles, conversion en minuscules et/ou suppression des accents selon les besoins.

Étape 2 : Pré-tokenisation (ou subword tokenization)

Découpage de la chaîne de caractères en plusieurs morceaux distincts (chunks). L'objectif principal est d'empêcher les tokens de dépasser les limites des mots, ce qui donnerait lieu à des tokens composés de plusieurs mots et nuirait à la précision du modèle.

Etape 3 : Tokenization à proprement parler

En phase d'entraînement : l'algorithme de tokenisation est appliqué pour construire le vocabulaire du LLM

En phase de traitement : l'algorithme est appliqué pour décomposer le texte en tokens (encoding) et reconstituer le texte (decoding)

L’algorithme de tokenisation

Utilisé en phase d'entraînement, l'algorithme de tokenisation permet de constituer le vocabulaire du LLM, c'est-à-dire son dictionnaire de tokens.

La taille du dictionnaire varie selon les modèles, mais est généralement comprise entre 30 000 et 50 000 tokens. À titre de comparaison, la langue française compte environ 100 000 mots.

Les principaux algorithmes

Différents algorithmes de tokenisation existent et peuvent être utilisés : Byte-Pair Encoding (BPE), WordPiece ou Unigram.

Le BPE (Byte-Pair Encoding) est l'algorithme le plus utilisé, notamment par OpenAI et Mistral.

Comprendre le BPE par l'exemple

L’exemple fourni par Mistral (traduit ci-dessous en français) permet de bien comprendre le processus appliqué par l’algorithme Byte Per Encoding (BPE).

Supposons que nous ayons le corpus de texte suivant :

low lower lowest new news newer

Objectif : entraîner un tokenizer avec un vocabulaire de taille 5 (soit 5 tokens uniques).

Étape 1 : Tokens initiaux

Nous commencerons par chaque caractère en tant que jeton distinct :

l o w l o w e r l o w e s t n e w n e w s n e w e r

Tokens distincts : l, o, w, e, r, s, t, n → 8 tokens

Étape 2 : Fusionner le bigramme le plus fréquent

Le bigramme (paire de caractères) le plus fréquent est "l" + "o". Nous les fusionnons pour former un nouveau token "lo" :

lo w lo w e r lo w e s t n e w n e w s n e w e r

Nouveaux tokens : lo, w, e, r, s, t, n → 7 tokens

Étape 3 : Fusionner à nouveau

Le bigramme suivant le plus fréquent est "lo" + "w". Nous les fusionnons pour former "low" :

low low e r low e s t n e w n e w s n e w e r

Nouveaux tokens : low, e, r, s, t, n, w → 7 tokens

Répétez ce processus...

Répétez la procédure jusqu'à atteindre la taille de vocabulaire souhaitée. Au final, cela ressemblera à ceci :

low low er low est new new s new er

Tokens finaux : low, new, er, est, s → 5 tokens ✓

Ce processus permet au modèle d'apprendre les combinaisons de caractères les plus fréquentes et de construire un vocabulaire optimisé.

Impact de la langue et du modèle sur la tokenisation

Selon la langue

Les langues à alphabet latin sont généralement mieux optimisées dans les tokenizers actuels.

Un même texte nécessitera :

1x tokens en anglais (langue de référence)
≈ 1,3x tokens en français
≈ 2 à 3x tokens en japonais ou chinois

Cette différence impacte directement les coûts et les performances.

Vos coûts tokens vous inquiètent ?

Sans stratégie de tokenisation et de choix de modèle, votre facture IA peut rapidement déraper. On vous aide à dimensionner vos usages en 15 minutes.

Estimer mon budget IA

Selon le modèle

Chaque LLM (GPT, Claude, Mistral, Gemini) possède son propre vocabulaire et algorithme. Un même texte générera donc un nombre différent de tokens selon le modèle utilisé.

Selon le contexte

Le même mot peut être tokenisé différemment selon sa position et son contexte dans la phrase, en fonction de l'algorithme utilisé.

Ordres de grandeur : combien de tokens ?

Pour un texte en anglais, voici quelques ordres d’idées fourni par OpenAI :

1 token ≈ 4 caractères
1 token ≈ ¾ d’un mot
100 tokens ≈ 75 mots
1–2 phrases ≈ 30 tokens
1 paragraphe ≈ 100 tokens
~1,500 mots ≈ 2,048 tokens
10 livres de 300 pages ≈ 1 millions de token

Pour le français, compter environ 30% de tokens supplémentaires.

Tokens en entrée vs tokens en sortie

Pour les modèles d'IA générative, on distingue généralement :

Le nombre de tokens en entrée (fenêtre de contexte)

Au-delà de la question de l'utilisateur, il permet d'intégrer l'historique de la conversation, les documents fournis en entrée, les chunks de données dans le cas de RAG.

Capacités actuelles :

GPT-5 : jusqu'à 400 000 tokens
Claude Opus 4.6 : jusqu'à 1 million de tokens
Gemini 3 Pro : jusqu'à 2 millions de tokens

Le nombre de tokens en sortie

Utilisé pour la réponse générée par l'IA. Par exemple, GPT-5 peut générer jusqu'à 128 000 tokens en sortie.

Combien coûte un token ? La tarification des LLM

Modèle	Prix du token en entrée (/million token)	Prix du token en sortie (/million token)
Claude Opus 4.6	$5	$25
Claude Sonnet 4.6	$3	$15
GPT-5.2 pro	$ 21	$ 168
GPT-5.2	$ 1.75	$ 14
GPT-5 mini	$ 0,25	$ 2
Mistral Large 3	$ 0.5	$1.5
Mistral Medium 3	$0.4	$2
Mistral Small 3.2	$0.1	$0.3
Ministral 3 - 3B	$0.1	$0.1

Grille simplifiée des tarifs de GPT, Claude et Mistral à fin février 2026.

Le prix des tokens en sortie est systématiquement plus élevé (5 à 10x) car la génération de texte nécessite beaucoup plus de calcul que la simple lecture et compréhension du contexte en entrée.

Rappel : 1 million de tokens représente l'équivalent de 10 livres de 300 pages.

Quel modèle LLM dans votre cas ?

GPT-5 mini à $0,25/M et Claude Opus 4.6 à $5/M ne se valent pas pour les mêmes usages. Le mauvais choix peut multiplier vos coûts par 10. Insign vous aide à choisir le bon modèle selon votre volume, vos langues et vos contraintes de latence.

Discuter des options

En résumé

Les tokens sont la langue maternelle des IA génératives. Comprendre leur fonctionnement permet de :

Optimiser ses prompts pour réduire les coûts
Mieux dimensionner ses fenêtres de contexte
Anticiper les performances selon les langues utilisées
Comprendre la tarification des différents modèles

Auteur

Mickaël Peyrot

Directeur conseil & technologies

Un projet IA ? Parlons-en.

Formation, conseil et mise en œuvre d'IA générative. Que vous soyez en phase de réflexion, de POC ou au stade de déploiement, nous vous accompagnons.

Echanger 15 min

Nous écrire

Les tokens en IA générative : comprendre l'unité de base des LLM

Les tokens en IA générative : comprendre l'unité de base des LLM

Qu’est ce qu’un token (ou jeton en français) ?

La phase de tokenisation : Comment sont définis les tokens ?

Les trois étapes de la tokenisation

L’algorithme de tokenisation

Les principaux algorithmes

Comprendre le BPE par l'exemple

Impact de la langue et du modèle sur la tokenisation

Selon la langue

Selon le modèle

Selon le contexte

Ordres de grandeur : combien de tokens ?

Tokens en entrée vs tokens en sortie

Combien coûte un token ? La tarification des LLM

En résumé

Un projet IA ? Parlons-en.

Sur le même sujet

"A quoi tu penses ?"

"A quoi tu penses ?"

Faire une pause avec ChatGPT ? Non : les entreprises doivent accélérer.

Faire une pause avec ChatGPT ? Non : les entreprises doivent accélérer.