ASCII : explication de l’encodage de caractères

Le code ASCII est un codage de caractères qui définit la représentation des caractères par des appareils électroniques comme les ordinateurs. Pour ce faire, les différents caractères sont convertis en valeurs binaires, décimales et hexadécimales que l’ordinateur peut traiter.

Domaine Internet pas cher

Bien plus qu'un simple domaine !

Personnalisez votre présence en ligne avec un nom de domaine pertinent.

Email
Certificat SSL
Assistance 24/7

Qu’est-ce que ASCII ?

ASCII est un standard pour l’affichage de caractères à travers des dispositifs électroniques. Pour comprendre ce que cela signifie, il faut être conscient du fonctionnement réel d’un ordinateur : sur un ordinateur, les processeurs de calcul sont toujours basés sur le système binaire. Cela signifie que les processeurs d’un ordinateur sont déterminés par des 1 et des 0. C’est pourquoi ASCII est également construit sur ce système. La norme ASCII d’origine définit différents caractères à l’intérieur de 7 bits, c’est à dire sept chiffres qui indiquent 0 ou 1.

Définition

ASCII : il s’agit d’un encodage de caractères, l’American Standard Code for Information Interchange, précurseur américain de l’ISO 646 (qui définit des ensembles de caractères à l’international). ASCII est un code de 7 bits définissant 128 caractères (27). L’encodage se compose de 33 caractères non imprimables et 95 caractères imprimables et comprend des lettres, des signes de ponctuation, des chiffres ainsi que des caractères de contrôle Unicode.

Le huitième bit, qui appartient à un octet entier, est traditionnellement utilisé à des fins de vérification. Les versions étendues basées sur ASCII utilisent précisément ce bit pour étendre les caractères disponibles à 256 (28).

Remarque

À l’origine, le 8ème bit devait permettre de vérifier les données pour des erreurs. Le bit de parité permet au récepteur de la séquence de bits de détecter les incohérences. Cependant, on ne peut que constater qu’une erreur s’est produite, mais pas où se trouve exactement la cause. Par conséquent, le contrôle de parité n’est guère adapté à la correction des erreurs.

Ainsi, chaque caractère correspond à une séquence de 0 et de 1 à sept chiffres, qui peuvent être représentés par un nombre décimal ou un nombre hexadécimal. Les caractères ASCII peuvent être divisés en plusieurs groupes :

  • Caractère de commandes (0–31 & 127) : les caractères de contrôle sont des caractères non imprimables. Ils sont utilisés pour transmettre des commandes au PC ou à l’imprimante et sont basés sur la technologie de télécopie. Ces caractères permettent par exemple de placer des sauts de ligne ou des tabulations. Bon nombre de ces caractères ne sont plus utilisés aujourd’hui.
  • Caractères spéciaux (32–47 / 58–64 / 91–96 / 123–126) : les caractères spéciaux comprennent tous les caractères imprimables qui ne sont ni des lettres ni des chiffres, tels que les signes de ponctuation ou les caractères techniques et mathématiques. ASCII inclut également le caractère blanc, qui est considéré comme un caractère non visible mais imprimable, et n’appartient donc pas aux caractères de contrôle comme on pourrait le soupçonner.
  • Nombres (30–39) : les nombres comprennent les dix chiffres arabes de zéro à neuf.

Lettres (65–90 / 97–122) : les lettres sont divisées en deux blocs, le premier groupe contenant les majuscules et le second les minuscules.

Conseil

Pour convertir facilement différents caractères en code ASCII, un coup d’œil à la table ASCII, qui contient les valeurs binaires, décimales et hexadécimales de chaque caractère, s’impose.

Exemple : les caractères ASCII

Avec ASCII, le système convertit les nombres binaires en caractères imprimables et non imprimables selon une norme spécifiée. En jetant un coup d’œil à la table ASCII, on peut trouver pour différentes valeurs numériques les caractères qu’elles représentent.

Exemple :

Le nombre binaire 01000001 peut être écrit en décimal avec le code 65 et en hexadécimal avec le code 41. Le caractère qui est codé avec ce nombre est un « A ». Si vous continuez à compter vers le bas, vous trouverez les lettres majuscules listées dans l’ordre alphabétique. L’exemple du mot « ASCII » correspondrait donc aux valeurs numériques suivantes :

A

S

C

I

I

binaire

01000001

01010011

01000011

01001001

01001001

décimal

65

83

67

73

73

hexadécimal

41

53

43

49

49

Conseil

Sous Windows, vous pouvez saisir des caractères Unicode, et donc aussi des caractères ASCII, à l’aide d’une combinaison de touches. Pour ce faire, maintenez la touche Alt enfoncée et saisissez la valeur décimale du caractère à l’aide du pavé numérique.

Code ASCII : domaines d’application

Même aujourd’hui, ASCII est encore largement utilisé, bien qu’UTF-8 soit probablement devenu plus important pour la représentation du texte. Cependant, ce n’est qu’aux alentours de 2008 que l’Unicode a remplacé le codage de caractères plus ancien dans le World Wide Web.

L’avantage d’UTF-8 est que le code est virtuellement rétro-compatible : ASCII est un sous-ensemble d’UTF-8 et donc les 128 premiers caractères sont identiques. Étant donné que l’ASCII peut être considéré comme le plus petit dénominateur commun de la plupart des nouveaux formulaires de codage, l’ancien codage est toujours utilisé dans les courriels et les URL.

Remarque

Les utilisateurs peuvent maintenant aussi utiliser Unicode pour créer des emails, et les noms de domaine peuvent même être utilisés aujourd’hui grâce aux noms de domaine internationalisés. Dans les deux cas, cependant, le texte doit être converti au format ASCII avant de pouvoir être transféré. Ceci est fait automatiquement, de sorte que l’utilisateur ne remarque rien.

De plus, l’ASCII a longtemps été utilisé à des fins plus artistiques que techniques : l’art ASCII est un art qui utilise uniquement des caractères imprimables de la table ASCII pour créer des images. Le spectre s’étend du lettrage aux tableaux réels en passant par des simples figures de lignes. Les artistes ASCII utilisent pour cela les différents niveaux de luminosité des caractères individuels. Même les ombres peuvent être affichées de cette façon.

Bref historique du code ASCII

L’American Standards Association (ASA, désormais connue sous le nom d’ANSI pour American National Standards Institute) a approuvé l’American Standard Code for Information Interchange (ASCII) en 1963. Elle a ainsi mis en place des directives contraignantes sur la manière dont les appareils électroniques doivent reproduire les caractères. Étant donné qu’il s’agit d’une norme purement américaine, on l’appelle souvent US-ASCII.

On peut notamment considérer le code Morse comme son prédécesseur, ou encore les codages utilisés pour le télex : un code normalisé (par exemple, une séquence fixe de signaux acoustiques) est traduit en texte. Comme les ordinateurs ne peuvent pas gérer notre alphabet non plus puisque leurs processeurs internes sont basés sur un système binaire, ASCII a été introduit.

À ce jour, la norme de caractères n’a été que quelquefois modifiée afin de l’adapter aux nouvelles exigences. Ainsi, il existe des versions étendues qui utilisent un huitième Bit, de sorte que les caractères spécifiques nationaux, comme le « ç » ou les accents, soient affichés. La norme ISO 88591-1 Latin-1, toujours très populaire, est basée sur le code ASCII.

Un changement entre l’alphabet latin et, par exemple, les caractères arabes est impossible. C’est pourquoi les jeux de caractères basés sur Unicode tels que UTF-8 sont largement répandus : Unicode offre de l’espace pour plus d’un million de caractères différents. UTF-8 est également compatible avec ASCII, c’est-à-dire qu’il encode les 128 premiers caractères de la même façon.