Les tokens (ou jetons) IA re­pré­sen­tent la plus petite unité lin­guis­tique dont les modèles IA ont besoin pour traiter et in­ter­pré­ter le texte. La to­ke­ni­sa­tion permet de dé­com­po­ser le langage en ces éléments, ce qui constitue la base de l’analyse et de la gé­né­ra­tion de textes. Des outils comme OpenAI Tokenizer per­met­tent de d’iden­ti­fier ra­pi­de­ment les tokens d’un texte.

Qu’est-ce qu’un token IA ?

Un AI token, également appelé jeton IA en français, re­pré­sente la plus petite unité de données des modèles d’IA tels que ChatGPT, LLama2 et Copilot. Les tokens sont l’élément le plus important pour le trai­te­ment, l’in­ter­pré­ta­tion et la gé­né­ra­tion de texte, car ce n’est qu’en dé­com­po­sant un texte en tokens que l’in­tel­li­gence ar­ti­fi­cielle peut com­prendre le langage et fournir des réponses ap­pro­priées aux demandes des uti­li­sa­teurs. Les tokens IA peuvent re­pré­sen­ter aussi bien des mots isolés ou des parties de mots que des signes de ponc­tua­tion et des emojis.

Le nombre de jetons IA qui composent un texte dépend de dif­fé­rents facteurs. Outre la longueur du texte, la langue et le modèle d’IA utilisés sont également im­por­tants dans ce contexte. Si vous utilisez un accès API tel que ChatGPT API, le nombre de jetons détermine également les coûts. Dans la plupart des cas, les ap­pli­ca­tions IA facturent gé­né­ra­le­ment en fonction du nombre de tokens générés ou traités.

Outils d'IA
Exploitez toute la puissance de l'in­tel­li­gence ar­ti­fi­cielle
  • Créez votre site Web en un temps record
  • Boostez votre activité grâce au marketing par IA
  • Gagnez du temps et obtenez de meilleurs résultats

Comment fonc­tionne la to­ke­ni­sa­tion ?

La to­ke­ni­sa­tion est le processus par lequel un modèle d’IA convertit un texte en jetons. Cette étape est né­ces­saire, car les Large Language Models (LLM) ont besoin de la langue naturelle dans une forme que la machine peut analyser. La to­ke­ni­sa­tion constitue donc la base de l’in­ter­pré­ta­tion de texte, de la re­con­nais­sance de formes et de la création de réponses. Sans ce processus de trans­for­ma­tion, l’in­tel­li­gence ar­ti­fi­cielle ne serait pas en mesure de saisir les rapports de sig­ni­fi­ca­tion et de relation. La con­ver­sion du texte en jetons se compose de plusieurs étapes et se déroule de la manière suivante :

  1. Nor­ma­li­sa­tion : dans un premier temps, le modèle d’IA trans­forme le texte en une forme nor­ma­li­sée, afin d’en réduire la com­plexité et la variance. Au cours de la nor­ma­li­sa­tion, le texte complet est converti en mi­nus­cules, les ca­rac­tères spéciaux sont supprimés et les mots sont parfois limités à une forme de base.
  2. Découpage du texte en tokens : l’in­tel­li­gence ar­ti­fi­cielle décompose le texte en tokens, c’est-à-dire en unités lin­guis­tiques plus petites. La manière dont les blocs de texte sont divisés en détail dépend de la com­plexité et du mode d’en­traî­ne­ment du modèle. La phrase « L’IA ré­vo­lu­tionne les études de marché » comporte 9 tokens pour GPT-4o, 11 tokens pour GPT-4 et 3.5, et 15 pour GPT-3.
  3. Af­fec­ta­tion de valeurs nu­mé­riques : le modèle d’IA attribue à chaque jeton IA une valeur numérique, appelée token ID. Les ID sont en quelque sorte le vo­ca­bu­laire de l’IA, qui contient tous les tokens connus par le modèle.
  4. Trai­te­ment des tokens IA : le modèle lin­guis­tique analyse la relation entre les tokens afin d’iden­ti­fier des modèles et d’établir des pré­dic­tions ou des réponses. Celles-ci sont générées sur la base de pro­ba­bi­li­tés. Le modèle IA examine les in­for­ma­tions con­tex­tuelles et détermine les jetons IA sur la base des pré­cé­dents.
AI Model Hub
Votre pla­te­forme d'IA mul­ti­mo­dale sécurisée
  • Conforme au RGPD et hébergée en toute sécurité en Europe
  • Modèles d'IA les plus puissants
  • Open source, sans vendor lock-in

Comment calculer les tokens d’un texte ?

Il est possible de com­prendre comment les tokens sont calculés par l’in­tel­li­gence ar­ti­fi­cielle à l’aide de ce que l’on appelle les to­ke­ni­zers, qui dé­com­po­sent les textes en leurs plus petites unités de trai­te­ment. Ils fonc­tion­nent selon des al­go­rithmes spé­ci­fiques qui s’orientent sur les données d’en­traî­ne­ment et l’ar­chi­tec­ture du modèle d’IA. Outre l’affichage du nombre de tokens, de tels outils peuvent également fournir des in­for­ma­tions dé­tail­lées sur chaque token, comme leur ID (iden­ti­fiant numérique). Cela permet non seulement de mieux calculer les coûts, mais aussi d’optimiser les textes pour réduire les coûts ou améliorer la com­pré­hen­sion par le modèle.

Un exemple de tokenizer librement ac­ces­sible est le OpenAI Tokenizer, qui est conçu pour les modèles ChatGPT actuels. Après avoir copié ou tapé le texte souhaité dans le champ de saisie, l’ap­pli­ca­tion vous présente les dif­fé­rents tokens IA en mettant en évidence les unités avec un code couleur.

Note

La longueur maximale du texte dépend toujours de la limite de tokens du modèle concerné. GPT-4, par exemple, peut traiter jusqu’à 32 768 tokens par requête.

Tokens IA et to­ke­ni­sa­tion : exemple pratique

Pour avoir une meilleure idée de ce qu’est la to­ke­ni­sa­tion, nous avons rédigé un court texte d’exemple :

Les tokens IA sont es­sen­tiels pour les modèles lin­guis­tiques modernes tels que GPT-4. En effet, ces tokens dé­com­po­sent les textes en unités plus petites afin de permettre à l’IA de les analyser et de les com­prendre. Sans la to­ke­ni­sa­tion, les modèles d’in­tel­li­gence ar­ti­fi­cielle ne pour­raient pas traiter ef­fi­ca­ce­ment le langage naturel.

Le modèle GPT-4o décompose ce texte de 337 ca­rac­tères en 67 tokens de la manière suivante :

Image: OpenAI Tokenizer : exemple de texte
Exemple d’un texte décomposé en tokens par l’in­tel­li­gence ar­ti­fi­cielle. / Source : https://platform.openai.com/tokenizer
Aller au menu principal