Tokenisation : comment l'IA lit le texte

Tokenisation : comment l’IA lit le texte

Overview

Cette animation explique le concept de tokenisation en traitement automatique du langage. Elle montre qu’au lieu de recevoir une simple chaîne de caractères, une IA reçoit une séquence de tokens (sous‑mots) convertis en entiers et que la structure du texte (par exemple lorsqu’il est rédigé en Markdown) fournit des informations sémantiques supplémentaires. L’objectif est de faire comprendre les notions de vocabulaire, sous‑mots, correspondance token‑ID, ainsi que le rôle du Markdown (titres, listes, séparateurs, emphases, blocs de code) pour mieux signaler les rôles du contenu, le tout de manière simple et visuelle, adaptée à une formation sur l’IA.

Phases

#	Phase Name	Duration	Description
1	Phrase comme objet mathématique	~5 s	Une phrase française (ex. « Le chat dort. ») apparaît, puis se transforme en une chaîne de caractères encadrée par des guillemets, soulignant qu’elle est vue comme une séquence de symboles.
2	Structure Markdown	~6 s	Comparaison visuelle : à gauche, le même texte apparaît sous forme de paragraphe brut ; à droite, le texte est présenté en Markdown avec un titre (`# Titre`), une liste à puces, un séparateur (`---`), une emphase (`italique`) et un bloc de code (```python … ```). Une animation montre que le modèle perçoit ces balises comme des indicateurs de rôle sémantique.
3	Segmentation en sous‑mots	~8 s	La chaîne (brute ou markdown) se découpe en tokens (sous‑mots) : `["Le", "chat", "dort", "."]` ou, pour le Markdown, `["#", "Titre", "
", "-", "Item", …]`. Chaque token est mis en évidence avec une couleur différente.
4	Conversion en entiers	~7 s	Chaque token se transforme en un nombre entier (ID) correspondant à sa position dans un vocabulaire. Les tokens colorés deviennent des nombres colorés de la même couleur.
5	Vocabulaire et correspondance	~6 s	Un petit tableau « Vocabulaire » apparaît en bas, montrant la correspondance token ↔ ID. Les tokens et IDs déjà affichés s’alignent avec ce tableau.

Durée totale estimée : ~32 s (légère augmentation due à la nouvelle séquence).

Layout

┌───────────────────────────────────────────────────────────────┐
│                                                               │
│                     MAIN (animation)                         │
│                                                               │
│   ┌───────────────────────┬───────────────────────┐          │
│   │   Paragraphe brut      │   Version Markdown    │          │
│   │   (gauche)            │   (droite)            │          │
│   └───────────────────────┴───────────────────────┘          │
│                                                               │
├───────────────────────────────────────────────────────────────┤
│  Caption / label (français, en bas)                           │
└───────────────────────────────────────────────────────────────┘

Area Descriptions

Area	Content	Notes
Main – Paragraphe brut	Texte simple sans balises (ex. « Le chat dort. »)	Aligné à gauche, couleur neutre.
Main – Version Markdown	Même texte enrichi de balises Markdown : titre, liste, séparateur, emphase, bloc de code	Aligné à droite, chaque balise mise en évidence (couleurs douces, icônes).
Caption	Texte court expliquant chaque étape (ex. « La phrase est une séquence de symboles », « Le Markdown ajoute des repères sémantiques », « Découpage en sous‑mots », « Chaque token a un ID », « Vocabulaire : token ↔ ID »)	Texte en français, police lisible, taille modérée.

Notes

Langue : tout le texte (phrase, légendes, tableau) est en français.
Couleurs : palette douce (bleu, vert, orange, violet) pour les tokens ; les balises Markdown utilisent des teintes complémentaires (ex. bleu clair pour titres, vert pastel pour listes, orange pâle pour emphases, violet doux pour blocs de code). La même couleur est conservée entre un token et son ID.
Animations : transitions fluides (Transform, FadeIn, FadeOut, Write). La comparaison Markdown utilise un effet de glissement latéral pour montrer les deux versions côte à côte.
Vocabulaire : le tableau peut rester à 4 entrées (ex. # → 101, Titre → 102, - → 103, Item → 104).
Sous‑mots : on continue d’utiliser des mots entiers comme tokens, mais on montre également comment les balises Markdown sont tokenisées.
Durée : l’ajout de la séquence Markdown porte l’animation légèrement au‑delà des 30 s initiales, mais reste concise et percutante pour la formation.
Accessibilité : fond clair ou sombre au choix, contraste suffisant entre texte, couleurs de tokens et balises Markdown. Police sans‑serif pour les textes.
Message clé : le modèle ne traite pas seulement le texte brut ; la structure Markdown enrichit la représentation sémantique, ce qui se reflète dans la tokenisation et les identifiants numériques.

Erstellt von

Séverine CHARLON (Grain's)

Beschreibung

Cette animation explique la tokenisation en traitement automatique du langage. Elle montre comment une phrase française est transformée en une séquence de sous-mots (tokens), puis en entiers (IDs) à l'aide d'un vocabulaire. Les transitions fluides et les couleurs aident à comprendre la correspondance token-ID. Idéal pour une formation sur l'IA.

Erstellt am

Jun 5, 2026, 03:21 PM

Dauer

0:34

Status:

Abgeschlossen

KI-Modell

Auto

Menü