Qu’est-ce que les métadonnées ?

Sommaire

Le terme métadonnées est sur toutes les lèvres depuis quelques années. Aujourd’hui, des milliards de personnes dans le monde utilisent les réseaux numériques. Ce faisant, de grandes quantités de métadonnées sont constamment générées. Le terme « citoyen transparent » est parfois utilisé pour décrire le risque pour la protection des données qui en résulte.

L’évaluation des métadonnées par l’intelligence artificielle permet de prédire le comportement des individus. Cela constitue donc une menace sérieuse pour la vie privée des citoyens et pour la démocratie. Pourtant, les métadonnées en soi ne sont pas une mauvaise chose. Dans cet article, nous expliquons ce que sont réellement les métadonnées.

Quelle est la différence entre métadonnée et donnée ?

Définition

Métadonnées : ce terme désigne les informations qui complètent les données réelles. Souvent, les métadonnées fournissent plus de détails sur le contexte du contenu ou donnent des instructions sur la façon de traiter les données. Ainsi, les métadonnées jouent un rôle majeur tant dans l’informatique que dans le traitement traditionnel des données (comme les catalogues de bibliothèques ou le système postal).

Pour mieux comprendre le terme de métadonnée, prenons un exemple concret : vous envoyez une lettre par la poste. Le document contenu dans l’enveloppe correspond alors aux données primaires réelles. Ces données sont privées et protégées par la loi contre l’accès par des tiers. Le secret de la correspondance s’applique.

L’enveloppe contient les métadonnées de la lettre. Il s’agit de données supplémentaires qui accompagnent les données primaires :

Adresse et expéditeur
Timbre, cachet de la poste
Si nécessaire, des marquages supplémentaires comme des codes-barres

Comme vous pouvez le constater, toutes ces données sont celles qui permettent d’envoyer la lettre en premier lieu. Les métadonnées de la lettre peuvent être visibles par toute personne extérieure. Elles ne sont ainsi pas protégées par le secret de la correspondance, même si celui-ci les concerne également.

Quel danger représentent les métadonnées ? En soi, cela ne pose pas de problème si les métadonnées individuelles sont lisibles. Par exemple, si un tiers a eu accès à une de vos enveloppes, cela ne constitue généralement pas un motif d’inquiétude. Cependant, l’histoire se complique si cette personne a accès à toutes vos enveloppes, afin de les stocker et de les évaluer. Apparaissent alors des modèles qui en disent long sur le comportement d’un individu : qui a communiqué avec qui et quand ? Les réseaux et les chaînes de communication peuvent ainsi être identifiés.

La distinction entre les données et les métadonnées est fluide. La classification dépend du contexte et de la perspective respective. Voici un autre exemple. Un livre contient des données primaires, telles que le titre du livre et son contenu. En outre, une série de métadonnées est disponible lors de la publication d’un livre :

Auteur
Maison d´édition
Date et lieu de publication
Edition
ISBN

Imaginons que les métadonnées de nombreuses publications soient rassemblées dans une base de données. Les informations relatives à la publication seraient des données primaires. En outre, il y aurait un nouvel ensemble de métadonnées pour chaque publication. Par exemple, la base de données pourrait enregistrer le moment où une entrée a été ajoutée et par quel utilisateur pour chaque publication.

Quels types de métadonnées existent et comment sont-elles utilisées ?

Les métadonnées sont présentes dans tous les domaines du stockage et du traitement des données. L’utilisation des métadonnées ne peut être décrite de manière concluante. Nous mentionnons ici trois grands domaines d’utilisation :

1. Fournir le contexte de l’information

Les métadonnées décrivent souvent le processus qui a conduit à la création de l’information. Par exemple, pensez aux coordonnées géographiques avec lesquelles les photographies numériques sont étiquetées. Le contexte, une fois perdu, peut ne pas pouvoir être reconstruit et est donc sauvegardé.

2. Garder la possibilité de récupérer des informations qui, autrement, devraient être calculées de manière complexe

Pensez au temps de lecture d’une vidéo. Il est intégré sous forme d’information temporelle dans le fichier vidéo. Si on ne l’enregistrait pas, il faudrait le calculer. Une approche réaliste consisterait à compter le nombre d’images et à le diviser par la fréquence d’images, ce qui représente un effort relativement important.

3. Lier les informations entre elles afin de faciliter la recherche et la découverte

L’objectif principal ici est de soutenir les informations lisibles par l’homme avec des données lisibles par la machine. L’objectif est d’établir des connexions entre les informations à l’aide de processus automatisés. On utilise notamment des données structurées, qui sont liées entre elles pour former un « Web sémantique ».

Métadonnées décrivant les images numériques

Les images prises avec des appareils photo numériques et des smartphones contiennent une variété de métadonnées. D’une part, il s’agit de données techniques, telles que les dimensions de l’image, l’appareil photo utilisé, la distance focale, etc. Elles sont définies dans la norme standard EXIF et sont automatiquement créées par la caméra. De plus, le standard IPTC définit des métadonnées qui décrivent le contenu de la photo et qui sont saisies par l’utilisateur.

Standard	Métadonnées de l’image	Création
EXIF	Informations sur l’image, telles que les dimensions, l’espace couleur, les canaux de couleur, etc. ; informations photographiques, telles que le temps d’exposition, l’ouverture, l’ISO, etc.	Automatique pendant l’enregistrement
IPTC	Mots-clés, droits d’auteur, informations sur l’emplacement et l’heure, descriptions du contenu, etc.	Manuelle par l’utilisateur

Il faut être prudent lors du partage des images numériques : quelquefois, les métadonnées des photos peuvent révéler des informations privées sur l´auteur. De nombreuses applications et réseaux sociaux nettoient automatiquement les images lorsqu’elles sont téléchargées. Toutefois, il ne faut pas s’y fier et il est préférable d’utiliser un outil spécial pour supprimer les informations sur l’image.

Métadonnées intégrées dans les vidéos numériques

Un fichier vidéo se compose généralement d’un conteneur qui contient diverses données. Les données primaires d’une vidéo sont les contenus vidéo et audio codés. En outre, il existe d’autres métadonnées :

Durée de lecture de la vidéo
Débit de données et dimensions de l’image
Informations sur le codec audio et vidéo utilisé
Sous-titre, éventuellement dans différentes langues

Métadonnées associées aux fichiers

Dans un système numérique, un fichier comprend deux données principales : le contenu du fichier et son nom. Chaque fichier est également associé à une série de métadonnées. Les métadonnées des fichiers sont gérées par le système d’exploitation et sont également appelées « attributs de fichiers ». Voici un aperçu des métadonnées courantes des fichiers :

Métadonnées des fichiers	Description
Horodatage	Pour la création, la modification et la dernière ouverture
Endroit de stockage	Chemin du fichier dans le système de fichiers
Propriété	Propriétaire et groupe
Droits d’accès aux fichiers	Lecture, écriture, exécution ; chacun pour le propriétaire, le groupe, les autres

En plus des attributs de fichiers, certains types de fichiers comprennent des métadonnées spécifiques. Ceux-ci sont gérés par le programme d’application respectif. Même avec ces métadonnées, il existe un risque de divulgation d’informations confidentielles lors de leur transmission.

Métadonnées générées lors de l’envoi d’emails

Tout comme la lettre postale classique, un email comprend deux éléments principaux :

Le corps de l’email
L’en-tête de l’email

Ici, le corps contient le message proprement dit, qui correspond à la lettre contenue dans l’enveloppe. L’en-tête contient les adresses de l’expéditeur et du destinataire, comme l’enveloppe. Certaines des informations contenues dans l’en-tête peuvent être facilement falsifiées de sorte que l’email semble venir d’un autre expéditeur pour le destinataire. Une astuce souvent utilisée au cours des attaques de spoofing.

L’en-tête de l’email contient généralement beaucoup d’autres métadonnées comme :

Divers horodatages
Des informations sur le formatage et l’encodage du message
Des stations par lesquelles l’email est passé pendant la transmission
L’évaluation de l’email par les filtres anti-spam
Des Informations indiquant si l’email a été contrôlé par un antivirus

Les métadonnées de l’en-tête sont écrites et lues par le logiciel du serveur et les programmes d’application. Les informations recueillies au cours de ce processus révèlent beaucoup de choses sur un email et le chemin qu’il a emprunté via Internet. Il est possible, entre autres, de faire des déclarations sur l’authenticité et la confidentialité d’un email. De plus, l’en-tête peut contenir le nom d’hôte de l’appareil de l’utilisateur et révéler l’endroit à partir duquel un email a été envoyé.

Les métadonnées générées lors de la visite d’un site Web

D’un point de vue technique, la visite d’un site Web implique la récupération d’un document HTML. Le navigateur de l’utilisateur récupère le document sur un serveur à l’adresse spécifiée. Le protocole HTTP ou HTTPS est utilisé à cet effet.

Outre le document HTML proprement dit qui s’affiche dans le navigateur, des métadonnées appelées HTTP header sont transférées. Les en-têtes HTTP sont comparables aux champs de l’en-tête de l’email. Elles contiennent des informations sur l’encodage, la transmission, le cryptage et la compression de la connexion HTTP.

En outre, des métadonnées sont générées pendant le transfert, lesquelles s’accumulent sur le serveur. Cela inclut les fichiers journaux dans lesquels les accès au serveur sont enregistrés et qui sont nécessaires à l’analyse des fichiers log. Pour chaque accès, une autre ligne est écrite dans le fichier log. En outre, le navigateur déclenche généralement d’autres requêtes auprès d’un serveur DNS. Des métadonnées sont également générées et éventuellement stockées et évaluées par l’opérateur du serveur.

Curieusement, en plus de l’en-tête HTTP déjà mentionné, il y a aussi l’en-tête HTML. Alors que la première fait référence à la connexion, la seconde contient des métadonnées décrivant le contenu du document. Voici un exemple d´aperçu de réponse d’un serveur HTTP. Les lignes d’introduction sont l’en-tête HTTP. Vient ensuite le code source HTML avec les éléments HTML-Head et HTML-Body :

HTTP/1.1 200 OK
Date: Mon, 01 Feb 2021 12:13:34 GMT
Content-Type: text/html; charset=UTF-8
Content-Length: 148
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux)
Accept-Ranges: bytes
Connection: close
<html>
    <head>
        <title>Exemple de page</title>
    </head>
    <body>
        <p>Le texte lisible par l'homme se trouve dans le corps du document</p>
    </body>
</html>

Importance des métadonnées des sites Web pour le marketing en ligne et l’optimisation des moteurs de recherche

Dans cette section, nous nous concentrons sur les métadonnées qui sont intégrées dans un document HTML. Nous laissons de côté les métadonnées HTTP déjà mentionnées, ainsi que les métadonnées générées par le serveur, comme les fichiers journaux. En général, les métadonnées HTML sont intégrées dans l’en-tête du document HTML.

De nombreux éléments se trouvant dans l’en-tête HTML sont directement utilisés pour l’optimisation des moteurs de recherche. Les robots des moteurs de recherche explorent le contenu d’un document HTML. La partie lisible par l’homme présente dans le corps du HTML est extraite et indexée. En outre, il existe des métadonnées spéciales qui sont exclusivement destinées aux bots. Dans ce qui suit, nous distinguons les variantes « classiques » et « modernes ».

Cartographie des métadonnées des sites Web avec les éléments d’en-tête HTML classiques

Les éléments d’en-tête HTML classiques comprennent le titre et une poignée de balises méta critiques. Le titre est également visible par l’utilisateur sous différentes formes. Par exemple, il est affiché dans les signets ou dans l’en-tête de l’onglet du navigateur. Les autres balises classiques « <meta> » sont utilisées exclusivement pour l’optimisation des moteurs de recherche. Voici un aperçu des principaux éléments classiques de l’en-tête HTML :

Méta	Description	Importance
<title>	Le titre du document est affiché dans les résultats d’une recherche	Critique
<meta name="description">	Description du document, affichée dans les résultats d’une recherche	Critique
<meta name="keywords">	Les mots-clés du document ne sont pas affichés dans les résultats d’une recherche.	Bas
<meta name="robots">	Instructions aux robots des moteurs de recherche pour traiter le document	Critique

Mapper les métadonnées des sites Web avec les éléments d’en-tête HTML modernes

Outre les éléments d’en-tête HTML classiques, divers autres éléments sont utilisés aujourd’hui pour inclure des métadonnées sur un site Web. Les opérateurs de moteurs de recherche et les grands groupes technologiques définissent constamment de nouvelles métadonnées. Les éléments « <meta> » et « <link> » sont idéaux pour cela, car ils peuvent être développés. Voici un aperçu des métadonnées de sites Web modernes fréquemment utilisées :

Méta	Description	Importance
<link rel="canonical">	Balises canoniques afin d’éviter le duplicate content	Critique, s’il existe du contenu dupliqué
<link rel="alternate" hreflang="fr">	Spécifier des versions linguistiques alternatives du même document via hreflang	Optionnel
<meta property="og:…">	Open Graph pour les publications sur les réseaux sociaux	Optionnel

Avec l’élément ‘<meta>’, le type spécifique de métadonnées est déterminé via l’attribut ‘name’. L’attribut ‘rel’ est utilisé de la même manière pour l’élément ‘<link>’. Selon le standard de métadonnées utilisé, il existe deux orthographes alternatives pour l’élément ‘<meta>’. Nous les résumons ici :

Orthographe	Standard de métadonnées
<meta name="">	HTML5
<meta property="">	RDFa
<meta itemprop="">	HTML Microdata

Définir les métadonnées du site Web avec Open Graph

Open Graph est un protocole développé par Google pour enrichir un document Web avec des métadonnées. Les données Open Graph fournissent des informations qui s’affichent comme un aperçu lors du partage du document sur les réseaux sociaux. De cette façon, il est possible de spécifier des images, des titres et des textes descriptifs optimisés. C’est logique car, selon la plateforme, des restrictions spécifiques s’appliquent en termes de longueur du texte, de dimensions des images, etc. Ce protocole est largement utilisé par Facebook et Twitter. Voici un aperçu des métadonnées Open Graph essentielles :

Métadonnées Open Graph	Explication
<meta property="og:title">	Titre de l’objet
<meta property="og:type">	Le type d’objet, par exemple une image, un document Web, une vidéo, etc.
<meta property="og:image">	Une image représentant l’objet
<meta property="og:url">	L’URL canonique de l’objet

Conseil

Si vous rencontrez des erreurs lors du partage de votre contenu Web sur Facebook, le problème est souvent lié à des spécifications Open Graph incorrectes. Dans ce cas, une astuce simple peut parfois être utile : connectez-vous à votre compte Facebook et utilisez le Programme de débug du partage afin de demander à Facebook de relire les informations d’Open Graph.

Définir les métadonnées du site Web avec des rich cards

Outre Open Graph, un autre standard de métadonnées développé par Google se présente sous la forme de Rich Cards. Les Rich Cards enrichissent un document Web avec des métadonnées structurées. Ainsi, le site Web d’un restaurant peut être complété par des informations concernant la situation géographique, les prix, les heures d’ouverture, etc. Les informations de la Rich Card peuvent être placées dans l’en-tête ou dans le corps du HTML.

Techniquement, les Rich Cards sont dérivées du standard des métadonnées Schema.org. Différents formats sont utilisés pour baliser les métadonnées. Outre les anciens standards RDFa et Microdata, l’actuel standard JSON-LD est le plus approprié. L’utilisation de JSON-LD est officiellement recommandée par Google.

Tout savoir sur l’IA

Inscrivez-vous à notre newsletter pour découvrir les dernières tendances de l’IA et recevoir des conseils pratiques.

Articles Populaires

Revente de nom de domaine : comment gagner de l’argent avec les noms de domaines ?

Acheter et vendre des noms de domaines peut être lucratif, à condition toutefois de savoir…

5 alternatives à Nextcloud en comparaison directe

À la recherche d’une alternative à Nextcloud performante ? Découvrez les meilleures…

Comparaison des 7 meilleurs services de sauvegarde en ligne

Sauvegardez vos données de manière fiable dans le Cloud ! Vos données sont en sécurité…

Debian 13 Upgrade : comment mettre à niveau vers Debian 13 étape par étape ?

Ce guide vous aide à mettre à niveau Debian 13 en toute sécurité, à préparer votre système…

4 alternatives gratuites à Adobe InDesign

La publication assistée par ordinateur (PAO) avec Adobe est trop chère ? Il existe des…

Tout ce qu’il faut savoir sur les données personnelles

Qu'est-ce que votre adresse email, la couleur de vos yeux, votre fête préférée et votre plaque d'immatriculation ont en commun ? Il s'agit de données personnelles, grâce auxquelles les autorités, les entreprises et les cybercriminels peuvent tirer des conclusions directes ou…

Protection des Données
Sécurité

AlexeysunShutterstock

Directive européenne sur les cookies en France : aperçu de la réglementation

Les cookies ont certes leur utilité, mais ils peuvent aussi être un risque pour la protection des données. Pour protéger la vie privée des utilisateurs, la directive européenne sur les cookies stipule que les mécanismes de suivi ne peuvent être utilisés qu’après obtention du…

Protection des Données
Lexique

Valery EvlakhovShutterstock

Règlement général sur la protection des données (RGPD) : explications et résumé des nouveautés

Depuis le 25 mai 2018, il existe un règlement général sur la protection des données. Nous résumons tout ce que les entrepreneurs et les commerçants en ligne doivent savoir à son sujet. Quelles sont les lois pertinentes qui ont changé ? Quelles sont les mesures à prendre pour…

Protection des Données
Sécurité
Guide

vectorfusionartShutterstock

Méta description : les meilleurs conseils et astuces

Une méta description donne des informations sur le contenu d’un site Web. Elle fait partie intégrante des métadonnées, qui jouent à leur tour un rôle important en termes de référencement. Nous vous montrons comment créer une méta description optimale. De plus, retrouvez trois…

Référencement Naturel

Elnurshutterstock

SOLID Principles : les 5 règles d’or de l’OOP

Le code peut se détériorer au fil du temps, surtout si les principes SOLID ne sont pas respectés lors de la programmation orientée objet. Les principes peuvent être compris comme des règles d’or pour un meilleur code, plus propre. Avec des lois et des directives concrètes, ils…

PHP
HTML

BEST-BACKGROUNDSShutterstock

Meta tags HTML : aperçu des balises méta indispensables pour le référencement naturel

Les balises méta permettent aux exploitants de pages Web d’intégrer des métadonnées dans le code HTML. Ces informations sont utilisées par les navigateurs et les robots d’indexation des moteurs de recherche, contribuant ainsi à la structure et à la navigabilité du Web. Mais…

Référencement Naturel
HTML
JavaScript
Guide

Qu’est-ce que les mé­ta­don­nées ?

Quelle est la dif­fé­rence entre mé­ta­don­née et donnée ?

Quels types de mé­ta­don­nées existent et comment sont-elles utilisées ?

Mé­ta­don­nées décrivant les images nu­mé­riques

Mé­ta­don­nées intégrées dans les vidéos nu­mé­riques

Mé­ta­don­nées associées aux fichiers

Mé­ta­don­nées générées lors de l’envoi d’emails

Les mé­ta­don­nées générées lors de la visite d’un site Web

Im­por­tance des mé­ta­don­nées des sites Web pour le marketing en ligne et l’op­ti­mi­sa­tion des moteurs de recherche

Car­to­gra­phie des mé­ta­don­nées des sites Web avec les éléments d’en-tête HTML clas­siques

Mapper les mé­ta­don­nées des sites Web avec les éléments d’en-tête HTML modernes

Définir les mé­ta­don­nées du site Web avec Open Graph

Définir les mé­ta­don­nées du site Web avec des rich cards

Qu’est-ce que les métadonnées ?

Quelle est la différence entre métadonnée et donnée ?

Quels types de métadonnées existent et comment sont-elles utilisées ?

Métadonnées décrivant les images numériques

Métadonnées intégrées dans les vidéos numériques

Métadonnées associées aux fichiers

Métadonnées générées lors de l’envoi d’emails

Les métadonnées générées lors de la visite d’un site Web

Importance des métadonnées des sites Web pour le marketing en ligne et l’optimisation des moteurs de recherche

Cartographie des métadonnées des sites Web avec les éléments d’en-tête HTML classiques

Mapper les métadonnées des sites Web avec les éléments d’en-tête HTML modernes

Définir les métadonnées du site Web avec Open Graph

Définir les métadonnées du site Web avec des rich cards