BOM : Qu'est-ce qu'un Byte Order Mark ?

Sommaire

Les informations envoyées sur Internet doivent répondre à un certain ordre. Le destinataire des données (par exemple, une page HTML) doit savoir comment lire les informations. Pour ce faire, différents marqueurs sont insérés dans le code. L'un de ces marqueurs est le Byte Order Mark (BOM). À quoi sert le marqueur ?

Pourquoi ai-je besoin du BOM ?

Les caractères peuvent être encodés de différentes manières. Tandis que de nos jours, les gens utilisent principalement UTF-8, autrefois le codage de type UTF-16 était prisé et reste encore souvent utilisé de nos jours. Parfois UTF-32 est également utilisé, mais contrairement à UTF-8, les encodages avec un plus grand nombre de bits par caractère doivent identifier l'ordre des octets.

Dans un codage UTF-8, chaque caractère peut être représenté par un octet (c'est-à-dire 8 bits). UTF-16, d'autre part, nécessite deux octets (16 bits) pour encoder un caractère. Pour que le caractère soit interprété correctement, l’ordre de lecture des octets (de gauche à droite ou de droite à gauche) doit être clairement défini. Dans le cas contraire, vous risquez d’obtenir une tout autre valeur.

De gauche à droite : 0110101010 0011010101 représente en notation hexadécimale 6a35
De droite à gauche : 01101010 0011010101 représente en notation hexadécimale 356a

Si l'on devait voir cette séquence de chiffres dans le contexte d'une table des caractères Unicode, deux caractères complètement différents seraient affichés. Dans la première lecture, on parle de Big Endian (BE), dans la seconde de Little Endian (LE). Pour Big Endian, il faut d’abord indiquer la valeur la plus élevée, et pour Little Endian la valeur la plus basse.

Remarque

Dans la vie de tous les jours, la notation selon Big Endian est la plus utilisée. Cependant, ce n'est qu'une convention. Les ordinateurs peuvent gérer les deux méthodes de stockage, il est donc logique de les marquer.

Pour pouvoir signaler dans quel ordre les octets doivent être lus, on a besoin du BOM. Il s'agit d'un signe qui n'est pas visible et qui est donc également connu sous le nom d'espace insécable sans chasse. Il s'agit donc d'un espace qui a une largeur zéro et qui ne déclenche pas de saut de ligne. En UTF-16, ce caractère (hexadécimal) est soit feff (BE) soit fffe (LE). Cette valeur est ensuite préfixée au codage des caractères.

UTF-8 n'a pas vraiment besoin du BOM et pourtant vous pouvez aussi le trouver dans les textes encodés avec ce codage. Soit il s'agit d'un reste d'une conversion de UTF-16/UTF-32 en UTF-8, soit il a été inséré automatiquement par un éditeur. Parce que même si le Byte Order Mark n'est pas nécessaire avec UTF-8, il ne pose généralement pas de problème puisqu’il n'est pas affiché.

Cas problématique : Byte Order Mark

Des problèmes surviennent lorsque le système récepteur ne sait pas comment gérer le BOM. Certaines versions de PHP ou différents environnements de type Unix ne s'attendent pas à ce caractère, ce qui peut conduire par exemple à un affichage incorrect d'un site Web.

Des problèmes peuvent également survenir entre HTTP et HTML : un en-tête HTTP contient déjà des informations d'encodage de caractères. Celles-ci sont extraites des paramètres du serveur. Si vous avez créé le document HTML avec BOM, mais que l'en-tête HTTP est différent du navigateur, cela peut également entraîner des erreurs d'affichage. Depuis qu’une modification de la spécification HTML5 a été apportée, cela ne devrait plus se produire : il a été demandé que le BOM écrase au début les spécifications de l'en-tête HTTP. Toutefois, il se peut que les anciennes versions de navigateurs n'aient pas encore appliqué cette nouvelle règle.

Supprimer le BOM : comment ça marche !

Si vous voulez supprimer le Byte Order Mark d'un texte source, vous avez besoin d'un éditeur de texte qui propose en option l'enregistrement du marqueur. Le fichier est lu avec le BOM dans le logiciel, puis enregistré sans le BOM, pour ainsi convertir l’encodage. Le marqueur ne devrait alors plus apparaître. Dans l'éditeur de texte populaire Notepad++, par exemple, vous pouvez modifier l'encodage, puis enregistrer le fichier sans BOM.

Avec un éditeur de texte comme Notepad++, vous pouvez supprimer le BOM au moyen d’une conversion

Note

Dans les anciennes versions de Notepad++, vous pouvez toujours trouver la fonction UTF-8 sans BOM. Dans les versions plus récentes, cela correspond à l'UTF-8 ; avec un marqueur, il s'agit du BOM UTF-8.

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Apprendre le HTML : faire ses premiers pas avec ce langage Web standard

Avec la multiplication des systèmes de gestion de contenu et systèmes modulaires pour sites Web, on a vite l'impression qu’apprendre du HTML est une perte de temps. Mais tôt ou tard, si une page de votre site ne fonctionne plus ou si des éléments dynamiques doivent être ajoutés,…

HTML
CSS
JavaScript
Tutoriels

UnbekanntShutterstock

Compresser des fichiers CSS pour améliorer la performance

Il est rare que la mise en page d’un site Web repose uniquement sur du code HTML. La couleur, police et taille des éléments HTML sont souvent définies dans des feuilles de style CSS. Plus un site est complexe, plus il y a de fichiers CSS inutiles ; cela peut notamment avoir un…

Tutoriels

BEST-BACKGROUNDSShutterstock

Le langage Less : présentation et tutoriel

CSS est l’un des langages les plus importants du Web. Toutefois, travailler avec un langage de feuille de style est souvent compliqué. C’est pourquoi de nombreux développeurs préfèrent utiliser le langage dynamique de génération Less. Ce préprocesseur pour CSS ne facilite pas…

RDVectorShutterstock

BLOB (Binary Large Objects) : introduction

BLOB est l’acronyme de « Binary Large Object » que l’on peut traduire par « gros objet de données binaire ». Ces objets se distinguent par le fait qu’ils ne sont pas structurés. On peut citer comme exemple les fichiers multimédias généralement enregistrés sous forme de BLOB dans…

Big Data

Olga RomShutterstock

Protobuf : un code structuré avec Protocol Buffers

La transmission de données dans des réseaux d’ordinateurs comme Internet ou entre deux applications est impactée par divers facteurs. Dans ces transmissions, l’accent est mis sur la performance et la sécurité. Développé par Google, Protocol Buffers s’est imposé dans de nombreux…

Tutoriels

BOM : Qu'est-ce qu'un Byte Order Mark ?

Pourquoi ai-je besoin du BOM ?

Cas pro­blé­ma­tique : Byte Order Mark

Supprimer le BOM : comment ça marche !

Cas problématique : Byte Order Mark