Qu’est-ce qu’Unicode ? Définition et explications

Sommaire

Unicode est une norme internationale pour le codage, la représentation et le traitement des caractères de texte issus de presque tous les systèmes d’écriture du monde. Chaque caractère reçoit un point de code unique qui peut être stocké dans différents codages de caractères tels que UTF-8 ou UTF-16. Unicode permet ainsi d’afficher et de traiter les textes de manière uniforme sur différentes plateformes et dans différentes langues.

Nom de domaine

Votre domaine en un clic

1 certificat SSL Wildcard par contrat
Fonction incluse Domain Connect pour une configuration DNS simplifiée

Unicode : qu’est-ce que c’est ?

Unicode est la version courte de « Universal Character Encoding » en anglais, c’est-à-dire « Codage universel de caractères ». Il s’agit d’une norme standardisée pour le codage des caractères en représentation binaire. Unicode permet de stocker et de traiter des textes dans des systèmes numériques.

Ce qui fait la spécificité d’Unicode, c’est que ce standard n’est pas lié aux formats et aux codages de l’alphabet d’une langue en particulier. Au contraire, Unicode a été créé dans le but de servir de norme uniforme pour représenter tous les systèmes d’écriture et tous les caractères qui existent à travers le monde.

Depuis la sortie d’Unicode 1.0 en 1991, le standard a été à la hauteur de son objectif. Unicode est utilisé en interne par les navigateurs et les systèmes d’exploitation en tant que format unique. Avec la version 16.0 publiée par le Consortium Unicode en 2024, le standard Unicode comprend désormais un répertoire de 154 998 caractères au total. Le jeu de caractères couvert par le standard Unicode coïncide avec l’UCS (Universal Coded Character Set), qui est standardisé au niveau international sous l’appellation ISO/CEI 10646.

Base technique pour le codage des caractères

Tout d’abord, il est important de comprendre que toutes les informations présentes dans un système numérique sont en fait constituées de chaînes interminables de 0 et de 1. On parle aussi de « représentation binaire ». Le code binaire est en lui-même une sorte d’alphabet. Cependant, il n’y a que deux « lettres » dans ce code : les 0 et les 1. Chaque chiffre dans une séquence de 0 et de 1 est appelé un « bit ».

Le principe de base de la technologie de l’informatique consiste à rendre compte des caractères de différents alphabets sous forme de séquences de 0 et de 1. Les nombres et les lettres peuvent être codés de cette manière, mais aussi tous les autres caractères reconnaissables. En général, on parle de « symboles ». Plus la séquence de 0 et de 1 est longue pour l’affichage d’un seul symbole, plus il est possible d’afficher de symboles. Le nombre de symboles possibles double à chaque bit ajouté.

Un exemple concret : imaginons que nous ayons des « mots » binaires de deux bits de long. Ils nous permettent de coder 4 chiffres :

Mot de 2 bits	Chiffre
00	0
01	1
10	2
11	3

Si nous ajoutons un autre bit au début de la séquence, le nombre de mots binaires possibles double. Les nouveaux mots sont constitués des séquences de bits déjà connues, chacune précédée d’un 0 ou d’un 1. On peut donc coder huit chiffres :

Mot de 3 bits	Chiffre
000	0
001	1
010	2
011	3
100	4
101	5
110	6
111	7

Remarque

Un mot de 8 bits est appelé octet ou byte.

Par souci de simplicité, nous vous avons montré ici le codage des chiffres à titre d’exemple. Cependant, le même principe est également utilisé dans les systèmes informatiques pour le codage des lettres ou de tout autre caractère. Voici un exemple très simplifié de codage binaire de lettres :

Mot de 3 bits	Lettre
000	A
001	B
010	C

La représentation graphique d’un caractère s’appelle un glyphe. Selon la police utilisée, il existe différents glyphes pour le même caractère, et même au sein d’une même police, il peut y avoir plusieurs variantes pour un glyphe. Pensez par exemple aux différents accents, à la casse, aux italiques, etc. Voici une représentation étendue, qui comprend l’affectation d’un caractère à un glyphe :

Représentation binaire	Nombre décimal	Caractère codé	Glyphe
1000001	65	A majuscule de l’alphabet latin	A
1100001	97	a minuscule de l’alphabet latin	a
0110000	48	Chiffre arabe 0	0
0111001	57	Chiffre arabe 9	9
11000100	196	Ä majuscule	Ä
11000001	193	Á majuscule	Á

Terminologie du codage des caractères

Le codage numérique de caractères implique un certain nombre de concepts spécifiques. En français, les différents termes sont parfois utilisés comme des synonymes. Afin de pouvoir donner une définition Unicode précise, nous donnons également les termes anglais ici :

Concept	Définition	Terme anglais
Jeu de caractères	Ensemble de caractères possibles, par ex. les chiffres 0 à 9, les lettres de a à z, etc.	Character set
Point de code	Valeur numérique attribuée à chaque caractère spécifique dans le codage des caractères	Code point
Jeu de caractères codés	Jeu de caractères dans lequel chaque caractère a exactement un point de code	Coded character set
Codage de caractère	Processus de conversion d’un signe en une structure technique par exemple en représentation binaire	Character encoding

Aperçu du codage de certains caractères courants

Avant la création d’Unicode, il existait une grande variété de codages spécifiques. C’était la norme d’avoir alors un codage distinct pour chaque langue ou famille de langues. Cela conduisait souvent à des erreurs d’affichage et à des incohérences dans les données. Pour éviter cela, les codages de caractères ont souvent été modélisés comme un nouvel ensemble englobant, et compatible avec, un standard existant. Le standard Unicode moderne est basé sur l’ancien codage de caractères ISO Latin-1, qui à son tour est basé sur le code ASCII.

Codage des caractères	Bits par caractère	Caractères possibles	Ensemble de caractères
ASCII	7 bits	128	Lettres, chiffres et caractères spéciaux du clavier américain, ainsi que des caractères de contrôle pour les téléscripteurs
ISO Latin-1 (ISO 8859-1)	8 bits	256	Les 128 premiers caractères sont ceux d’ASCII, les 128 autres caractères correspondent à des caractères spéciaux de langues européennes
Universal Coded Character Set 2 (UCS-2)	16 bits	65 536	Caractères du « Basic Multilingual Plane » (BMP) ; les 256 premiers caractères sont ceux de ISO Latin-1
Universal Coded Character Set 4 (UCS-4)	32 bits	1 114 111	Caractères du BMP et d’autres qui y ont été ajoutés ; 143 859 caractères en tout dans la version Unicode 13.0 ; les 256 premiers caractères sont ceux de ISO Latin-1
UCS Transformation Format 8 Bit (UTF-8)	8/16/24/32 bits	1 114 111	Tous les caractères de UCS-2 et UCS-4 ; les 256 premiers caractères sont ceux de ISO Latin-1

Structure du standard Unicode

Le standard Unicode définit les caractères et les points de code correspondants aux lettres, syllabes, idéogrammes, signes de ponctuation, caractères spéciaux et aux chiffres. En plus de l’alphabet latin, les alphabets grec, cyrillique, arabe, hébreu et thaï sont intégrés. Les signes japonais (Katakana, Hiragana), chinois et coréen (Hangeul) sont également pris en compte. Il existe aussi des caractères mathématiques, commerciaux et techniques spéciaux, ainsi que des caractères de contrôle historiques pour les téléscripteurs.

Les caractères sont résumés dans une série de tableaux de caractères. Voici un aperçu des tableaux de caractères les plus courants.

Systèmes d’écriture du standard Unicode

Table de caractères	Contient entre autres les alphabets suivants
Systèmes d’écriture européens	Arménien, Géorgien, Grec, Latin
Systèmes d’écriture africains	Éthiopien, Hiéroglyphes égyptiens, Copte
Systèmes d’écriture du Moyen-Orient	Arabe, Hébreu, Syrien
Systèmes d’écriture d’Asie centrale	Mongol, Tibétain, Turc ancien
Systèmes d’écriture d’Asie du Sud	Brahmi, Tamoul, Védique
Systèmes d’écriture d’Asie du Sud-Est	Khmer, Rohingya, Thaï
Systèmes d’écriture d’Indonésie et d’Océanie	Balinais, Bugi, Javanais
Systèmes d’écriture d’Extrême-Orient	CJC (Chinois, Japonais, Coréen), Hangeul (Coréen), Hiragana (Japonais)
Systèmes d’écriture d’Amérique	Cherokee, Syllabaire autochtone canadien, Osage

Symboles et signes de ponctuation du standard Unicode

Table de caractères	Contient entre autres les caractères suivants
Systèmes de notation	Modèles Braille, notation musicale, sténographie Duployé
Signes de ponctuation	Ponctuation anglaise, ponctuation des langues européennes, ponctuation CJC
Symboles alphanumériques	Caractères mathématiques, lettres encerclées
Symboles techniques	Symboles APL, reconnaissance optique de caractères (ROC)
Chiffres & nombres	Chiffres Maya, nombres Siyaq ottomans, ponctuation et nombres cunéiformes
Symboles mathématiques	Flèches, opérateurs mathématiques, formes géométriques
Emojis & pictogrammes	Emoticônes, dingbats, autres pictogrammes
Autres symboles	Symboles alchimiques, signes monétaires, symboles d’échecs, de dominos et de mahjong

À quoi sert le standard Unicode ?

Le standard Unicode sert principalement de base universelle pour le traitement, le stockage et l’échange de texte dans n’importe quelle langue. La plupart des composants logiciels modernes, tels que les bibliothèques, les protocoles, les bases de données, etc. qui fonctionnent avec du texte, sont basés sur Unicode. Nous illustrons l’éventail des utilisations possibles à l’aide des exemples suivants.

Systèmes d’exploitation

Unicode est le standard interne de représentation du texte dans la plupart des systèmes d’exploitation modernes. Certains systèmes d’exploitation, comme macOS d’Apple, autorisent l’utilisation de caractères Unicode dans les noms de fichiers.

Sites Internet

La variante Unicode UTF-8 s’est imposée comme le standard pour le codage de documents HTML. Dès 2016, plus de 80 % des sites Web les plus visités au monde utilisaient UTF-8 pour stocker et afficher leurs documents HTML. Le standard Punycode s’est établi pour l’utilisation de lettres hors ASCII des noms de domaine.

Créer un site Internet

Votre site en un éclair grâce à l'intelligence artificielle

Éditeur de site intuitif avec fonctions d'IA
Générateur d'images et de textes avec optimisation SEO
Domaine, SSL et boîte email inclus

Langages de programmation

De nombreux langages de programmation modernes utilisent Unicode comme base pour le traitement du texte. Depuis un développement plus récent, il est possible d’utiliser des caractères Unicode pour nommer des variables et des fonctions. Ceci est possible dans ECMAScript/JavaScript comme on peut le voir dans le code suivant :

let ︎👍 = true; 
let 👎 = false; 
if (bool_var === ︎👎) { 
 // … 
}

javascript

Banques de données

La base de données populaire et largement utilisée MySQL prend en charge le jeu de caractères Unicode complet avec le codage de caractères « utf8mb4 ». Cependant, lors de l’utilisation du codage de caractères « utf8 », les caractères dont le point de code est supérieur à 3 octets sont perdus.

Polices

Les polices contiennent les glyphes utilisés pour représenter graphiquement le texte. En raison du grand nombre de caractères contenus dans le standard Unicode, aucune police ne contient tous les caractères. Même le sous-ensemble du BMP n’est complètement couvert que par quelques polices. Voici quelques exemples :

Police Unicode	Glyphe	Licence
Noto	environ 77 000	Open Font Licence
Sun-ExtA/B	environ 50 000	Freeware
Unifont	environ 63 000	GNU GPL
Code2000	environ 63 000	Shareware

Stockage en ligne HiDrive Next

Vos données accessibles partout et à tout moment

Modifiez, partagez et stockez vos fichiers
Data centers européens certifiés ISO
Sécurité élevée des données, conforme au RGPD

Comment utiliser le standard Unicode ?

Bien souvent, les utilisateurs utilisent Unicode sans le savoir. Dans la plupart des documents et applications, le texte numérique est disponible au format Unicode et peut être copié, inséré et modifié selon les besoins de l’utilisateur. Parfois, l’utilisateur doit insérer un caractère Unicode spécifique dans le texte. Il existe différentes manières de le faire, que nous présenterons ci-dessous.

Claviers des caractères spéciaux

L’utilisation de claviers spéciaux est probablement la méthode la plus courante pour insérer des caractères Unicode dans du texte. Omniprésents sur les appareils mobiles, les claviers spéciaux vous permettent de basculer entre les différentes langues et alphabets. Tous les caractères étant issus du répertoire Unicode, en cliquant sur une même touche, on peut taper différents caractères. Ceux-ci peuvent être mélangés à volonté et combinés les uns aux autres dans des textes.

Les emojis en sont un bon exemple. En standard Unicode, les emojis sont des caractères au même titre que les lettres, les chiffres et les caractères spéciaux. Comme avec les caractères numériques, l’affichage des emojis est indépendant de leur modélisation interne. Chaque système d’exploitation présente le même emoji légèrement différemment.

Ces claviers spéciaux utiles ne se trouvent pas que sur les appareils mobiles. Ils sont également disponibles sur le bureau des ordinateurs. Ils peuvent être facilement ouverts dans Windows, macOS et de nombreuses distributions Linux pour afficher un nombre de caractères différent selon la langue sélectionnée. Le nombre de touches étant limité, tous les caractères Unicode ne sont pas affichés. Il s’agit plutôt d’une sélection des caractères les plus courants spécifiques à une langue.

Tableaux des caractères Unicode

En plus des claviers de caractères spéciaux, les tableaux de caractères Unicode sont sans doute le moyen le plus utile d’accéder aux différents caractères Unicode. Pour rappel, un jeu de caractères codés (Coded Character Set) est l’ensemble de tous les caractères avec leurs points de code uniques correspondants. Pour une telle structure, la disposition en tant que tableau est idéale, et le standard Unicode inclut précisément de tels tableaux appelés Code Charts. D’une part, des caractères spécifiques peuvent être copiés à partir de ces tableaux pour les utiliser ailleurs, d’autre part, l’utilisateur peut lire le point de code correspondant, par exemple pour l’utiliser comme référence de caractère numérique.

De nombreux systèmes d’exploitation de PC contiennent également une table de caractères Unicode. Elle donne un aperçu de tous les caractères Unicode disponibles, y compris le point de code, la description et le glyphe. Un caractère peut être inséré ou copié en un clic. Vous pouvez également créer vous-même une table de caractères avec seulement quelques lignes de code. Nous vous montrons un exemple dans le langage de programmation Python dans la suite de l’article.

Références numériques

Le standard Unicode met l’accent sur l’affectation des caractères aux points de code. Si vous connaissez le point de code d’un caractère, vous pouvez l’utiliser pour intégrer le caractère correspondant dans différents contextes. Sous Windows, insérer des symboles Unicode se fait en utilisant le clavier normal ou en utilisant une combinaison de différentes touches. Notez que le numéro de point de code doit normalement être entré en notation hexadécimale.

Le plus souvent, les programmeurs ont besoin des références numériques. La représentation hexadécimale des points de code permet la **représentation d’un caractère Unicode en caractère du jeu de caractères ASCIIùù. Nous montrons le processus ici en HTML. En principe, le fonctionnement est le même en Python, C ++, etc.

Le schéma général pour inclure un caractère par référence numérique comprend la référence elle-même, ainsi qu’un terme d’ouverture et de fermeture : dans les documents HTML, la référence numérique s’ouvre avec &#x et se termine par ;. Entre les deux, le point de code hexadécimal de deux à quatre chiffres est entré sans espace. Le résultat est le modèle &#xNNNN;.

Par exemple, pour insérer le symbole de copyright « © » dans un document HTML, on procède comme suit :

Rechercher le caractère dans un tableau Unicode.
Lire le point de code correspondant au caractère. Dans notre exemple, le point de code est U+00A9, qui en est la représentation hexadécimale.
Composer la référence du caractère et entrez-la dans le texte source HTML ou un fichier Markdown. Dans notre cas, nous entrons © ; ce qui nous donne le résultat « © ».

Une autre approche, moins courante, permet l’utilisation de points de code en représentation décimale au lieu d’une représentation hexadécimale. Dans ce cas, la référence numérique commence par &# (sans le « x ») et se termine par ; comme avec la première méthode. Entre les deux, le point de code est écrit en notation décimale. Dans notre exemple, la référence numérique © correspond au symbole copyright.

Conseil

Utilisez le Unicode Character Inspector pour trouver rapidement les différents codes des caractères.

Références nommées

Puisqu’écrire des caractères Unicode avec des références numériques n’est pas vraiment intuitif, il existe une autre méthode : grâce aux références nommées. Celles-ci sont définies pour les caractères fréquemment utilisés et donnent au caractère un nom court qui peut être mémorisé. Une référence nommée commence par l’esperluette & et se termine par un point-virgule ;. Le nom défini est placé entre les deux, sans espaces. Pour insérer le symbole de copyright « © » en HTML, écrivez simplement ©.

Conseil

La liste complète des références de caractères nommées est enregistrée en standard HTML.

Langages de programmation

La plupart des langages de programmation contiennent des fonctions de base qui peuvent être utilisées pour convertir des caractères et des points de code. Les fonctions correspondantes sont souvent appelées ord(caractère) et chr(point de code). Ce qui suit s’applique :

chr(ord(caractère)) == caractère

Notez qu’il est toujours possible de déterminer le point de code correspondant à un caractère. À l’inverse, l’affectation ne fonctionne que pour les nombres qui sont réellement définis comme des points de code du jeu de caractères codés. Voici le schéma de base en utilisant un court exemple Python :

# Obtenir le point de code décimal d’un caractère
ord('A') # `65`
# Obtenir le point de code hexadécimal d’un caractère
hex(ord('A')) # `0x41`
# Obtenir le caractère correspondant à un point de code
chr(65) # `'A'`
chr(0x41) # `'A'`
chr(0x110001) # Erreur, car le point de code > `0x110000`

python

À l’aide de ces fonctions, il est possible de créer une table de caractères facilement pour les points de code du jeu de caractères Unicode. Pour ce faire, vous répétez les points de code et sortez les caractères correspondants. Avec Python, cela se fait en quelques lignes de code :

# Commencer `range` à `32`, car en dessous de cette valeur des caractères de contrôle sont affichés
# Afficher le jeu de caractères ASCII
for code_point in range(32, 128):
    print(code_point, hex(code_point), chr(code_point))
# Afficher l’ISO Latin-1
for code_point in range(32, 256):
    print(code_point, hex(code_point), chr(code_point))

python

Bibliothèque ICU

Les composants internationaux pour Unicode (« International Components for Unicode », ICU) sont résumés dans une bibliothèque de programmes fournie par le Consortium Unicode. La bibliothèque est publiée sous une licence open source et peut être utilisée sur de nombreux systèmes d’exploitation. Le logiciel est utilisé pour l’internationalisation programmatique (« Internationalization », souvent abrégé en « i18n »). Ses domaines d’application comprennent :

Le traitement des textes Unicode
La prise en charge des expressions régulières en Unicode
L’analyse et la mise en forme des dates, heures, nombres, devises et messages du calendrier

La bibliothèque ICU est disponible en deux versions :

« icu4c » est écrite en C/C ++ et fournit une API pour ces langages
« icu4j » est écrite en Java et fournit une API pour ce langage

L’utilisation des composants fournit des résultats consistants quelle que soit la plateforme.

Charset dans les méta-données en head d’un document HTML

La plupart des documents HTML actuels sont codés en caractères UTF-8. Pour s’assurer que le document s’affiche pour les visiteurs de la page sans caractères incorrects, un méta-tag charset doit être placé en head (dans l’en-tête) du document HTML. Il demande au navigateur d’interpréter le document récupéré comme UTF-8. En voici un exemple :

<head>
<meta charset="utf-8">
<!--autres éléments du header -->
</head>

html

Polices Instagram

Le réseau social Instagram n’autorise pas le formatage de texte pour les informations biographiques, les publications ou les stories. Les possibilités créatives des utilisateurs sont donc limitées. Des développeurs ingénieux ont toutefois trouvé une astuce pour y remédier : Instagram utilise Unicode, ce qui permet de composer un texte formaté à partir de caractères spéciaux. Il s’agit en particulier de caractères qui ressemblent à des lettres latines. Le moyen le plus simple de créer un texte de ce type est d’utiliser un générateur de polices Instagram. L’utilisation des polices Instagram fonctionne également sur d’autres réseaux sociaux.

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Le code binaire : pourquoi a-t-on besoin du système binaire ?

Des uns et des zéros : les ordinateurs calculent en code binaire. Mais pourquoi ? Pourquoi ordinateurs personnels et smartphones ne se contentent-ils pas du système décimal qui nous est familier ? La réponse est de nature technique, mais tient également, tout simplement, à…

Lexique

FlashMovieShutterstock

BOM : Qu'est-ce qu'un Byte Order Mark ?

Dans quel ordre les informations sont-elles réellement lues ? On aurait tendance à répondre tout naturellement : de gauche à droite. Pourtant, dans d'autres cultures, c’est l’inverse. Ce sont des conventions, un facteur que les ordinateurs ignorent. Dans quel ordre les octets…

ASAG StudioShutterstock

UTF-8 : le standard sur Internet

UTF-8 est un codage Unicode couvrant toutes les langues modernes pour le traitement des données. Que signifie UTF-8 ? Quelle est sa particularité dans le jeu de caractères Unicode ? Vous découvrirez ici quelle est la structure du codage, quels octets ce standard autorise et…

Numérisation
Lexique
Cryptage

Qu’est-ce qu’Unicode ? Dé­fi­ni­tion et ex­pli­ca­tions

Unicode : qu’est-ce que c’est ?

Base technique pour le codage des ca­rac­tères

Ter­mi­no­lo­gie du codage des ca­rac­tères

Aperçu du codage de certains ca­rac­tères courants

Structure du standard Unicode

Systèmes d’écriture du standard Unicode

Symboles et signes de ponc­tua­tion du standard Unicode

À quoi sert le standard Unicode ?

Systèmes d’ex­ploi­ta­tion

Sites Internet

Langages de pro­gram­ma­tion

Banques de données

Polices

Comment utiliser le standard Unicode ?

Claviers des ca­rac­tères spéciaux

Tableaux des ca­rac­tères Unicode

Ré­fé­rences nu­mé­riques

Ré­fé­rences nommées

Langages de pro­gram­ma­tion

Bi­blio­thèque ICU

Charset dans les méta-données en head d’un document HTML

Polices Instagram

Qu’est-ce qu’Unicode ? Définition et explications

Base technique pour le codage des caractères

Terminologie du codage des caractères

Aperçu du codage de certains caractères courants

Symboles et signes de ponctuation du standard Unicode

Systèmes d’exploitation

Langages de programmation

Claviers des caractères spéciaux

Tableaux des caractères Unicode

Références numériques

Références nommées

Langages de programmation

Bibliothèque ICU