Le codage du préfixe permet d’éviter qu’un autre caractère soit codé au sein d’une chaîne d’octet. Si un flux d’octet commence au milieu d’un document, l’ordinateur affiche malgré tout les caractères lisibles correctement, puisqu’il n’affiche pas les caractères incomplets. Si vous recherchez le début d’un caractère, la limite de 4 octets impose de retourner au maximum trois chaînes d’octet en arrière pour retrouver l’octet de début de séquence, quel que soit le point où vous vous trouviez.
Autre élément structurant : le nombre de 1 au début de l’octet de début de séquence indique la longueur de la chaîne d’octet. Comme nous l’avons vu plus haut, 110xxxxx indique 2 octets, 1110xxxx indique 3 octets, 11110xxx 4 octets. Dans Unicode, la valeur d’octet attribuée correspond au numéro de caractère, ce qui permet un ordre lexical. Néanmoins, il existe des plages vides. La plage Unicode de U+007F à U+009F comporte des chiffres de contrôle non attribués. Le standard UTF-8 ne leur attribue aucun caractère imprimable, uniquement des commandes.
Comme indiqué précédemment, jusqu’à huit chaînes d’octet peuvent théoriquement se succéder avec le codage UTF-8. L’Unicode impose toutefois une longueur de 4 octets au maximum. Cela implique que les chaînes d’octet avec 5 octets ou plus ne sont pas valides par défaut. Par ailleurs, cette limitation reflète la volonté de présenter le code de façon aussi compacte – c’est-à-dire avec un minimum d’encombrement de l’espace disque – et aussi structurée que possible. Utiliser toujours le codage le plus court possible constitue une règle de base dans le cadre de l’utilisation d’UTF-8. La lettre ä est par exemple codée avec 2 octets : 11000011 10100100. En théorie, il est possible de combiner les points de code de la lettre a(01100001) et du tréma ¨ (11001100 10001000) pour afficher un ä : 01100001 11001100 10001000. Toutefois, dans le cadre d’UTF-8, cette forme est considérée comme trop longue et n’est donc pas autorisée.