Le terme mé­ta­don­nées est sur toutes les lèvres depuis quelques années. Aujourd’hui, des milliards de personnes dans le monde utilisent les réseaux nu­mé­riques. Ce faisant, de grandes quantités de mé­ta­don­nées sont cons­tam­ment générées. Le terme « citoyen trans­pa­rent » est parfois utilisé pour décrire le risque pour la pro­tec­tion des données qui en résulte.

L’éva­lua­tion des mé­ta­don­nées par l’in­tel­li­gence ar­ti­fi­cielle permet de prédire le com­por­te­ment des individus. Cela constitue donc une menace sérieuse pour la vie privée des citoyens et pour la dé­mo­cra­tie. Pourtant, les mé­ta­don­nées en soi ne sont pas une mauvaise chose. Dans cet article, nous ex­pli­quons ce que sont réel­le­ment les mé­ta­don­nées.

Quelle est la dif­fé­rence entre mé­ta­don­née et donnée ?

Dé­fi­ni­tion

Mé­ta­don­nées : ce terme désigne les in­for­ma­tions qui com­plè­tent les données réelles. Souvent, les mé­ta­don­nées four­nis­sent plus de détails sur le contexte du contenu ou donnent des ins­truc­tions sur la façon de traiter les données. Ainsi, les mé­ta­don­nées jouent un rôle majeur tant dans l’in­for­ma­tique que dans le trai­te­ment tra­di­tion­nel des données (comme les ca­ta­logues de bi­blio­thèques ou le système postal).

Pour mieux com­prendre le terme de mé­ta­don­née, prenons un exemple concret : vous envoyez une lettre par la poste. Le document contenu dans l’enveloppe cor­res­pond alors aux données primaires réelles. Ces données sont privées et protégées par la loi contre l’accès par des tiers. Le secret de la cor­res­pon­dance s’applique.

L’enveloppe contient les mé­ta­don­nées de la lettre. Il s’agit de données sup­plé­men­taires qui ac­com­pag­nent les données primaires :

  • Adresse et ex­pé­di­teur
  • Timbre, cachet de la poste
  • Si né­ces­saire, des marquages sup­plé­men­taires comme des codes-barres

Comme vous pouvez le constater, toutes ces données sont celles qui per­met­tent d’envoyer la lettre en premier lieu. Les mé­ta­don­nées de la lettre peuvent être visibles par toute personne ex­té­rieure. Elles ne sont ainsi pas protégées par le secret de la cor­res­pon­dance, même si celui-ci les concerne également.

Quel danger re­pré­sen­tent les mé­ta­don­nées ? En soi, cela ne pose pas de problème si les mé­ta­don­nées in­di­vi­duelles sont lisibles. Par exemple, si un tiers a eu accès à une de vos en­ve­loppes, cela ne constitue gé­né­ra­le­ment pas un motif d’in­quié­tude. Cependant, l’histoire se complique si cette personne a accès à toutes vos en­ve­loppes, afin de les stocker et de les évaluer. Ap­pa­rais­sent alors des modèles qui en disent long sur le com­por­te­ment d’un individu : qui a com­mu­ni­qué avec qui et quand ? Les réseaux et les chaînes de com­mu­ni­ca­tion peuvent ainsi être iden­ti­fiés.

La dis­tinc­tion entre les données et les mé­ta­don­nées est fluide. La clas­si­fi­ca­tion dépend du contexte et de la pers­pec­tive res­pec­tive. Voici un autre exemple. Un livre contient des données primaires, telles que le titre du livre et son contenu. En outre, une série de mé­ta­don­nées est dis­po­nible lors de la pu­bli­ca­tion d’un livre :

  • Auteur
  • Maison d´édition
  • Date et lieu de pu­bli­ca­tion
  • Edition
  • ISBN

Imaginons que les mé­ta­don­nées de nom­breuses pu­bli­ca­tions soient ras­sem­blées dans une base de données. Les in­for­ma­tions relatives à la pu­bli­ca­tion seraient des données primaires. En outre, il y aurait un nouvel ensemble de mé­ta­don­nées pour chaque pu­bli­ca­tion. Par exemple, la base de données pourrait en­re­gis­trer le moment où une entrée a été ajoutée et par quel uti­li­sa­teur pour chaque pu­bli­ca­tion.

Quels types de mé­ta­don­nées existent et comment sont-elles utilisées ?

Les mé­ta­don­nées sont présentes dans tous les domaines du stockage et du trai­te­ment des données. L’uti­li­sa­tion des mé­ta­don­nées ne peut être décrite de manière con­cluante. Nous men­tion­nons ici trois grands domaines d’uti­li­sa­tion :

1. Fournir le contexte de l’in­for­ma­tion

Les mé­ta­don­nées décrivent souvent le processus qui a conduit à la création de l’in­for­ma­tion. Par exemple, pensez aux coor­don­nées géo­gra­phiques avec les­quelles les pho­to­gra­phies nu­mé­riques sont éti­que­tées. Le contexte, une fois perdu, peut ne pas pouvoir être re­cons­truit et est donc sau­ve­gardé.

2. Garder la pos­si­bi­lité de récupérer des in­for­ma­tions qui, autrement, devraient être calculées de manière complexe

Pensez au temps de lecture d’une vidéo. Il est intégré sous forme d’in­for­ma­tion tem­po­relle dans le fichier vidéo. Si on ne l’en­re­gis­trait pas, il faudrait le calculer. Une approche réaliste con­sis­te­rait à compter le nombre d’images et à le diviser par la fréquence d’images, ce qui re­pré­sente un effort re­la­ti­ve­ment important.

3. Lier les in­for­ma­tions entre elles afin de faciliter la recherche et la dé­cou­verte

L’objectif principal ici est de soutenir les in­for­ma­tions lisibles par l’homme avec des données lisibles par la machine. L’objectif est d’établir des con­nexions entre les in­for­ma­tions à l’aide de processus au­to­ma­ti­sés. On utilise notamment des données struc­tu­rées, qui sont liées entre elles pour former un « Web sé­man­tique ».

Mé­ta­don­nées décrivant les images nu­mé­riques

Les images prises avec des appareils photo nu­mé­riques et des smart­phones con­tien­nent une variété de mé­ta­don­nées. D’une part, il s’agit de données tech­niques, telles que les di­men­sions de l’image, l’appareil photo utilisé, la distance focale, etc. Elles sont définies dans la norme standard EXIF et sont au­to­ma­ti­que­ment créées par la caméra. De plus, le standard IPTC définit des mé­ta­don­nées qui décrivent le contenu de la photo et qui sont saisies par l’uti­li­sa­teur.

Standard Mé­ta­don­nées de l’image Création
EXIF In­for­ma­tions sur l’image, telles que les di­men­sions, l’espace couleur, les canaux de couleur, etc. ; in­for­ma­tions pho­to­gra­phiques, telles que le temps d’ex­po­si­tion, l’ouverture, l’ISO, etc. Au­to­ma­tique pendant l’en­re­gis­tre­ment
IPTC Mots-clés, droits d’auteur, in­for­ma­tions sur l’em­pla­ce­ment et l’heure, des­crip­tions du contenu, etc. Manuelle par l’uti­li­sa­teur

Il faut être prudent lors du partage des images nu­mé­riques : quel­que­fois, les mé­ta­don­nées des photos peuvent révéler des in­for­ma­tions privées sur l´auteur. De nom­breuses ap­pli­ca­tions et réseaux sociaux nettoient au­to­ma­ti­que­ment les images lorsqu’elles sont té­lé­char­gées. Toutefois, il ne faut pas s’y fier et il est pré­fé­rable d’utiliser un outil spécial pour supprimer les in­for­ma­tions sur l’image.

Mé­ta­don­nées intégrées dans les vidéos nu­mé­riques

Un fichier vidéo se compose gé­né­ra­le­ment d’un conteneur qui contient diverses données. Les données primaires d’une vidéo sont les contenus vidéo et audio codés. En outre, il existe d’autres mé­ta­don­nées :

  • Durée de lecture de la vidéo
  • Débit de données et di­men­sions de l’image
  • In­for­ma­tions sur le codec audio et vidéo utilisé
  • Sous-titre, éven­tuel­le­ment dans dif­fé­rentes langues

Mé­ta­don­nées associées aux fichiers

Dans un système numérique, un fichier comprend deux données prin­ci­pales : le contenu du fichier et son nom. Chaque fichier est également associé à une série de mé­ta­don­nées. Les mé­ta­don­nées des fichiers sont gérées par le système d’ex­ploi­ta­tion et sont également appelées « attributs de fichiers ». Voici un aperçu des mé­ta­don­nées courantes des fichiers :

Mé­ta­don­nées des fichiers Des­crip­tion
Ho­ro­da­tage Pour la création, la mo­di­fi­ca­tion et la dernière ouverture
Endroit de stockage Chemin du fichier dans le système de fichiers
Propriété Pro­prié­taire et groupe
Droits d’accès aux fichiers Lecture, écriture, exécution ; chacun pour le pro­prié­taire, le groupe, les autres

En plus des attributs de fichiers, certains types de fichiers com­pren­nent des mé­ta­don­nées spé­ci­fiques. Ceux-ci sont gérés par le programme d’ap­pli­ca­tion respectif. Même avec ces mé­ta­don­nées, il existe un risque de di­vul­ga­tion d’in­for­ma­tions con­fi­den­tielles lors de leur trans­mis­sion.

Mé­ta­don­nées générées lors de l’envoi d’emails

Tout comme la lettre postale classique, un email comprend deux éléments prin­ci­paux :

Ici, le corps contient le message pro­pre­ment dit, qui cor­res­pond à la lettre contenue dans l’enveloppe. L’en-tête contient les adresses de l’ex­pé­di­teur et du des­ti­na­taire, comme l’enveloppe. Certaines des in­for­ma­tions contenues dans l’en-tête peuvent être fa­ci­le­ment fal­si­fiées de sorte que l’email semble venir d’un autre ex­pé­di­teur pour le des­ti­na­taire. Une astuce souvent utilisée au cours des attaques de spoofing.

L’en-tête de l’email contient gé­né­ra­le­ment beaucoup d’autres mé­ta­don­nées comme :

  • Divers ho­ro­da­tages
  • Des in­for­ma­tions sur le formatage et l’encodage du message
  • Des stations par les­quelles l’email est passé pendant la trans­mis­sion
  • L’éva­lua­tion de l’email par les filtres anti-spam
  • Des In­for­ma­tions indiquant si l’email a été contrôlé par un antivirus

Les mé­ta­don­nées de l’en-tête sont écrites et lues par le logiciel du serveur et les pro­grammes d’ap­pli­ca­tion. Les in­for­ma­tions re­cueil­lies au cours de ce processus révèlent beaucoup de choses sur un email et le chemin qu’il a emprunté via Internet. Il est possible, entre autres, de faire des dé­cla­ra­tions sur l’au­then­ti­cité et la con­fi­den­tia­lité d’un email. De plus, l’en-tête peut contenir le nom d’hôte de l’appareil de l’uti­li­sa­teur et révéler l’endroit à partir duquel un email a été envoyé.

Les mé­ta­don­nées générées lors de la visite d’un site Web

D’un point de vue technique, la visite d’un site Web implique la ré­cu­pé­ra­tion d’un document HTML. Le na­vi­ga­teur de l’uti­li­sa­teur récupère le document sur un serveur à l’adresse spécifiée. Le protocole HTTP ou HTTPS est utilisé à cet effet.

Outre le document HTML pro­pre­ment dit qui s’affiche dans le na­vi­ga­teur, des mé­ta­don­nées appelées HTTP header sont trans­fé­rées. Les en-têtes HTTP sont com­pa­rables aux champs de l’en-tête de l’email. Elles con­tien­nent des in­for­ma­tions sur l’encodage, la trans­mis­sion, le cryptage et la com­pres­sion de la connexion HTTP.

En outre, des mé­ta­don­nées sont générées pendant le transfert, les­quelles s’ac­cu­mu­lent sur le serveur. Cela inclut les fichiers journaux dans lesquels les accès au serveur sont en­re­gis­trés et qui sont né­ces­saires à l’analyse des fichiers log. Pour chaque accès, une autre ligne est écrite dans le fichier log. En outre, le na­vi­ga­teur déclenche gé­né­ra­le­ment d’autres requêtes auprès d’un serveur DNS. Des mé­ta­don­nées sont également générées et éven­tuel­le­ment stockées et évaluées par l’opérateur du serveur.

Cu­rieu­se­ment, en plus de l’en-tête HTTP déjà mentionné, il y a aussi l’en-tête HTML. Alors que la première fait référence à la connexion, la seconde contient des mé­ta­don­nées décrivant le contenu du document. Voici un exemple d´aperçu de réponse d’un serveur HTTP. Les lignes d’in­tro­duc­tion sont l’en-tête HTTP. Vient ensuite le code source HTML avec les éléments HTML-Head et HTML-Body :

HTTP/1.1 200 OK
Date: Mon, 01 Feb 2021 12:13:34 GMT
Content-Type: text/html; charset=UTF-8
Content-Length: 148
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux)
Accept-Ranges: bytes
Connection: close
<html>
    <head>
        <title>Exemple de page</title>
    </head>
    <body>
        <p>Le texte lisible par l'homme se trouve dans le corps du document</p>
    </body>
</html>

Im­por­tance des mé­ta­don­nées des sites Web pour le marketing en ligne et l’op­ti­mi­sa­tion des moteurs de recherche

Dans cette section, nous nous con­cen­trons sur les mé­ta­don­nées qui sont intégrées dans un document HTML. Nous laissons de côté les mé­ta­don­nées HTTP déjà men­tion­nées, ainsi que les mé­ta­don­nées générées par le serveur, comme les fichiers journaux. En général, les mé­ta­don­nées HTML sont intégrées dans l’en-tête du document HTML.

De nombreux éléments se trouvant dans l’en-tête HTML sont di­rec­te­ment utilisés pour l’op­ti­mi­sa­tion des moteurs de recherche. Les robots des moteurs de recherche explorent le contenu d’un document HTML. La partie lisible par l’homme présente dans le corps du HTML est extraite et indexée. En outre, il existe des mé­ta­don­nées spéciales qui sont ex­clu­si­ve­ment destinées aux bots. Dans ce qui suit, nous dis­tin­guons les variantes « clas­siques » et « modernes ».

Car­to­gra­phie des mé­ta­don­nées des sites Web avec les éléments d’en-tête HTML clas­siques

Les éléments d’en-tête HTML clas­siques com­pren­nent le titre et une poignée de balises méta critiques. Le titre est également visible par l’uti­li­sa­teur sous dif­fé­rentes formes. Par exemple, il est affiché dans les signets ou dans l’en-tête de l’onglet du na­vi­ga­teur. Les autres balises clas­siques « <meta> » sont utilisées ex­clu­si­ve­ment pour l’op­ti­mi­sa­tion des moteurs de recherche. Voici un aperçu des prin­ci­paux éléments clas­siques de l’en-tête HTML :

Méta Des­crip­tion Im­por­tance
<title> Le titre du document est affiché dans les résultats d’une recherche Critique
<meta name="des­crip­tion"> Des­crip­tion du document, affichée dans les résultats d’une recherche Critique
<meta name="keywords"> Les mots-clés du document ne sont pas affichés dans les résultats d’une recherche. Bas
<meta name="robots"> Ins­truc­tions aux robots des moteurs de recherche pour traiter le document Critique

Mapper les mé­ta­don­nées des sites Web avec les éléments d’en-tête HTML modernes

Outre les éléments d’en-tête HTML clas­siques, divers autres éléments sont utilisés aujourd’hui pour inclure des mé­ta­don­nées sur un site Web. Les opé­ra­teurs de moteurs de recherche et les grands groupes tech­no­lo­giques dé­fi­nis­sent cons­tam­ment de nouvelles mé­ta­don­nées. Les éléments « <meta> » et « <link> » sont idéaux pour cela, car ils peuvent être dé­ve­lop­pés. Voici un aperçu des mé­ta­don­nées de sites Web modernes fré­quem­ment utilisées :

Méta Des­crip­tion Im­por­tance
<link rel="canonical"> Balises ca­no­niques afin d’éviter le duplicate content Critique, s’il existe du contenu dupliqué
<link rel="alternate" hreflang="fr"> Spécifier des versions lin­guis­tiques al­ter­na­tives du même document via hreflang Optionnel
<meta property="og:…"> Open Graph pour les pu­bli­ca­tions sur les réseaux sociaux Optionnel

Avec l’élément ‘<meta>’, le type spé­ci­fique de mé­ta­don­nées est déterminé via l’attribut ‘name’. L’attribut ‘rel’ est utilisé de la même manière pour l’élément ‘<link>’. Selon le standard de mé­ta­don­nées utilisé, il existe deux or­tho­graphes al­ter­na­tives pour l’élément ‘<meta>’. Nous les résumons ici :

Or­tho­graphe Standard de mé­ta­don­nées
<meta name=""> HTML5
<meta property=""> RDFa
<meta itemprop=""> HTML Microdata

Définir les mé­ta­don­nées du site Web avec Open Graph

Open Graph est un protocole développé par Google pour enrichir un document Web avec des mé­ta­don­nées. Les données Open Graph four­nis­sent des in­for­ma­tions qui s’affichent comme un aperçu lors du partage du document sur les réseaux sociaux. De cette façon, il est possible de spécifier des images, des titres et des textes des­crip­tifs optimisés. C’est logique car, selon la pla­te­forme, des res­tric­tions spé­ci­fiques s’ap­pli­quent en termes de longueur du texte, de di­men­sions des images, etc. Ce protocole est largement utilisé par Facebook et Twitter. Voici un aperçu des mé­ta­don­nées Open Graph es­sen­tielles :

Mé­ta­don­nées Open Graph Ex­pli­ca­tion
<meta property="og:title"> Titre de l’objet
<meta property="og:type"> Le type d’objet, par exemple une image, un document Web, une vidéo, etc.
<meta property="og:image"> Une image re­pré­sen­tant l’objet
<meta property="og:url"> L’URL canonique de l’objet
Conseil

Si vous ren­con­trez des erreurs lors du partage de votre contenu Web sur Facebook, le problème est souvent lié à des spé­ci­fi­ca­tions Open Graph in­cor­rectes. Dans ce cas, une astuce simple peut parfois être utile : connectez-vous à votre compte Facebook et utilisez le Programme de débug du partage afin de demander à Facebook de relire les in­for­ma­tions d’Open Graph.

Définir les mé­ta­don­nées du site Web avec des rich cards

Outre Open Graph, un autre standard de mé­ta­don­nées développé par Google se présente sous la forme de Rich Cards. Les Rich Cards en­ri­chis­sent un document Web avec des mé­ta­don­nées struc­tu­rées. Ainsi, le site Web d’un res­tau­rant peut être complété par des in­for­ma­tions con­cer­nant la situation géo­gra­phique, les prix, les heures d’ouverture, etc. Les in­for­ma­tions de la Rich Card peuvent être placées dans l’en-tête ou dans le corps du HTML.

Tech­ni­que­ment, les Rich Cards sont dérivées du standard des mé­ta­don­nées Schema.org. Dif­fé­rents formats sont utilisés pour baliser les mé­ta­don­nées. Outre les anciens standards RDFa et Microdata, l’actuel standard JSON-LD est le plus approprié. L’uti­li­sa­tion de JSON-LD est of­fi­ciel­le­ment re­com­man­dée par Google.

Aller au menu principal