BOM : Qu'est-ce qu'un Byte Order Mark ?

L'équipe éditoriale IONOS31/10/20194 mins

Sommaire

Les informations envoyées sur Internet doivent répondre à un certain ordre. Le destinataire des données (par exemple, une page HTML) doit savoir comment lire les informations. Pour ce faire, différents marqueurs sont insérés dans le code. L'un de ces marqueurs est le Byte Order Mark (BOM). À quoi sert le marqueur ?

Pourquoi ai-je besoin du BOM ?

Les caractères peuvent être encodés de différentes manières. Tandis que de nos jours, les gens utilisent principalement UTF-8, autrefois le codage de type UTF-16 était prisé et reste encore souvent utilisé de nos jours. Parfois UTF-32 est également utilisé, mais contrairement à UTF-8, les encodages avec un plus grand nombre de bits par caractère doivent identifier l'ordre des octets.

Dans un codage UTF-8, chaque caractère peut être représenté par un octet (c'est-à-dire 8 bits). UTF-16, d'autre part, nécessite deux octets (16 bits) pour encoder un caractère. Pour que le caractère soit interprété correctement, l’ordre de lecture des octets (de gauche à droite ou de droite à gauche) doit être clairement défini. Dans le cas contraire, vous risquez d’obtenir une tout autre valeur.

De gauche à droite : 0110101010 0011010101 représente en notation hexadécimale 6a35
De droite à gauche : 01101010 0011010101 représente en notation hexadécimale 356a

Si l'on devait voir cette séquence de chiffres dans le contexte d'une table des caractères Unicode, deux caractères complètement différents seraient affichés. Dans la première lecture, on parle de Big Endian (BE), dans la seconde de Little Endian (LE). Pour Big Endian, il faut d’abord indiquer la valeur la plus élevée, et pour Little Endian la valeur la plus basse.

Remarque

Dans la vie de tous les jours, la notation selon Big Endian est la plus utilisée. Cependant, ce n'est qu'une convention. Les ordinateurs peuvent gérer les deux méthodes de stockage, il est donc logique de les marquer.

Pour pouvoir signaler dans quel ordre les octets doivent être lus, on a besoin du BOM. Il s'agit d'un signe qui n'est pas visible et qui est donc également connu sous le nom d'espace insécable sans chasse. Il s'agit donc d'un espace qui a une largeur zéro et qui ne déclenche pas de saut de ligne. En UTF-16, ce caractère (hexadécimal) est soit feff (BE) soit fffe (LE). Cette valeur est ensuite préfixée au codage des caractères.

UTF-8 n'a pas vraiment besoin du BOM et pourtant vous pouvez aussi le trouver dans les textes encodés avec ce codage. Soit il s'agit d'un reste d'une conversion de UTF-16/UTF-32 en UTF-8, soit il a été inséré automatiquement par un éditeur. Parce que même si le Byte Order Mark n'est pas nécessaire avec UTF-8, il ne pose généralement pas de problème puisqu’il n'est pas affiché.

Cas problématique : Byte Order Mark

Des problèmes surviennent lorsque le système récepteur ne sait pas comment gérer le BOM. Certaines versions de PHP ou différents environnements de type Unix ne s'attendent pas à ce caractère, ce qui peut conduire par exemple à un affichage incorrect d'un site Web.

Des problèmes peuvent également survenir entre HTTP et HTML : un en-tête HTTP contient déjà des informations d'encodage de caractères. Celles-ci sont extraites des paramètres du serveur. Si vous avez créé le document HTML avec BOM, mais que l'en-tête HTTP est différent du navigateur, cela peut également entraîner des erreurs d'affichage. Depuis qu’une modification de la spécification HTML5 a été apportée, cela ne devrait plus se produire : il a été demandé que le BOM écrase au début les spécifications de l'en-tête HTTP. Toutefois, il se peut que les anciennes versions de navigateurs n'aient pas encore appliqué cette nouvelle règle.

Supprimer le BOM : comment ça marche !

Si vous voulez supprimer le Byte Order Mark d'un texte source, vous avez besoin d'un éditeur de texte qui propose en option l'enregistrement du marqueur. Le fichier est lu avec le BOM dans le logiciel, puis enregistré sans le BOM, pour ainsi convertir l’encodage. Le marqueur ne devrait alors plus apparaître. Dans l'éditeur de texte populaire Notepad++, par exemple, vous pouvez modifier l'encodage, puis enregistrer le fichier sans BOM.

Avec un éditeur de texte comme Notepad++, vous pouvez supprimer le BOM au moyen d’une conversion

Note

Dans les anciennes versions de Notepad++, vous pouvez toujours trouver la fonction UTF-8 sans BOM. Dans les versions plus récentes, cela correspond à l'UTF-8 ; avec un marqueur, il s'agit du BOM UTF-8.

Cet article vous a-t-il été utile ?

Articles Populaires

Nom de domaine mail : qu’est-ce que c’est et comment en créer un

Dans cet article dédié, nous vous présentons comment créer une adresse mail avec son…

Comment acheter un nom de domaine ?

Comment enregistrer un nom de domaine avec le domaine de premier et de deuxième niveau que…

Quels types de domaines existe-t-il ?

Quelle est la différence entre un domaine de premier et de deuxième niveau ? Qu’est-ce…

Le Prompt Engineering : explication

Qu’est-ce que le Prompt Engineering ? Comment peut-il améliorer les résultats de ChatGPT…

Aperçu de 7 types de sites Internet : quel site Web correspond à vos besoins ?

Le choix d’un bon type de site Internet est essentiel à la réussite de tout projet en…

Apprendre le HTML : faire ses premiers pas avec ce langage Web standard

Avec la multiplication des systèmes de gestion de contenu et systèmes modulaires pour sites Web, on a vite l'impression qu’apprendre du HTML est une perte de temps. Mais tôt ou tard, si une page de votre site ne fonctionne plus ou si des éléments dynamiques doivent être ajoutés,…

HTML
CSS
JavaScript
Tutoriels

UnbekanntShutterstock

Compresser des fichiers CSS pour améliorer la performance

Il est rare de trouver des données qui permettent la mise en page d’un site dans des codes HTML. Les couleurs, les polices voire les tailles de ces éléments HTML sont de plus en plus souvent définies dans des feuilles de style telles que CSS. Lorsqu’un site Internet devient…

Tutoriels

BEST-BACKGROUNDSShutterstock

Le langage Less : présentation et tutoriel

CSS est l’un des langages les plus importants du Web. Toutefois, travailler avec un langage de feuille de style est souvent compliqué. C’est pourquoi de nombreux développeurs préfèrent utiliser le langage dynamique de génération Less. Ce préprocesseur pour CSS ne facilite pas…

RDVectorShutterstock

BLOB (Binary Large Objects) : introduction

BLOB est l’acronyme de « Binary Large Object » que l’on peut traduire par « gros objet de données binaire ». Ces objets se distinguent par le fait qu’ils ne sont pas structurés. On peut citer comme exemple les fichiers multimédias généralement enregistrés sous forme de BLOB dans…

Big Data

Protobuf : un code structuré avec Protocol Buffers

La transmission de données dans des réseaux d’ordinateurs comme Internet ou entre deux applications est impactée par divers facteurs. Dans ces transmissions, l’accent est mis sur la performance et la sécurité. Développé par Google, Protocol Buffers s’est imposé dans de nombreux…

Tutoriels