Qu’est-ce que les métadonnées ?
Le terme métadonnées est sur toutes les lèvres depuis quelques années. Aujourd’hui, des milliards de personnes dans le monde utilisent les réseaux numériques. Ce faisant, de grandes quantités de métadonnées sont constamment générées. Le terme « citoyen transparent » est parfois utilisé pour décrire le risque pour la protection des données qui en résulte.
L’évaluation des métadonnées par l’intelligence artificielle permet de prédire le comportement des individus. Cela constitue donc une menace sérieuse pour la vie privée des citoyens et pour la démocratie. Pourtant, les métadonnées en soi ne sont pas une mauvaise chose. Dans cet article, nous expliquons ce que sont réellement les métadonnées.
Quelle est la différence entre métadonnée et donnée ?
Métadonnées : ce terme désigne les informations qui complètent les données réelles. Souvent, les métadonnées fournissent plus de détails sur le contexte du contenu ou donnent des instructions sur la façon de traiter les données. Ainsi, les métadonnées jouent un rôle majeur tant dans l’informatique que dans le traitement traditionnel des données (comme les catalogues de bibliothèques ou le système postal).
Pour mieux comprendre le terme de métadonnée, prenons un exemple concret : vous envoyez une lettre par la poste. Le document contenu dans l’enveloppe correspond alors aux données primaires réelles. Ces données sont privées et protégées par la loi contre l’accès par des tiers. Le secret de la correspondance s’applique.
L’enveloppe contient les métadonnées de la lettre. Il s’agit de données supplémentaires qui accompagnent les données primaires :
- Adresse et expéditeur
- Timbre, cachet de la poste
- Si nécessaire, des marquages supplémentaires comme des codes-barres
Comme vous pouvez le constater, toutes ces données sont celles qui permettent d’envoyer la lettre en premier lieu. Les métadonnées de la lettre peuvent être visibles par toute personne extérieure. Elles ne sont ainsi pas protégées par le secret de la correspondance, même si celui-ci les concerne également.
Quel danger représentent les métadonnées ? En soi, cela ne pose pas de problème si les métadonnées individuelles sont lisibles. Par exemple, si un tiers a eu accès à une de vos enveloppes, cela ne constitue généralement pas un motif d’inquiétude. Cependant, l’histoire se complique si cette personne a accès à toutes vos enveloppes, afin de les stocker et de les évaluer. Apparaissent alors des modèles qui en disent long sur le comportement d’un individu : qui a communiqué avec qui et quand ? Les réseaux et les chaînes de communication peuvent ainsi être identifiés.
La distinction entre les données et les métadonnées est fluide. La classification dépend du contexte et de la perspective respective. Voici un autre exemple. Un livre contient des données primaires, telles que le titre du livre et son contenu. En outre, une série de métadonnées est disponible lors de la publication d’un livre :
- Auteur
- Maison d´édition
- Date et lieu de publication
- Edition
- ISBN
Imaginons que les métadonnées de nombreuses publications soient rassemblées dans une base de données. Les informations relatives à la publication seraient des données primaires. En outre, il y aurait un nouvel ensemble de métadonnées pour chaque publication. Par exemple, la base de données pourrait enregistrer le moment où une entrée a été ajoutée et par quel utilisateur pour chaque publication.
Quels types de métadonnées existent et comment sont-elles utilisées ?
Les métadonnées sont présentes dans tous les domaines du stockage et du traitement des données. L’utilisation des métadonnées ne peut être décrite de manière concluante. Nous mentionnons ici trois grands domaines d’utilisation :
1. Fournir le contexte de l’information
Les métadonnées décrivent souvent le processus qui a conduit à la création de l’information. Par exemple, pensez aux coordonnées géographiques avec lesquelles les photographies numériques sont étiquetées. Le contexte, une fois perdu, peut ne pas pouvoir être reconstruit et est donc sauvegardé.
2. Garder la possibilité de récupérer des informations qui, autrement, devraient être calculées de manière complexe
Pensez au temps de lecture d’une vidéo. Il est intégré sous forme d’information temporelle dans le fichier vidéo. Si on ne l’enregistrait pas, il faudrait le calculer. Une approche réaliste consisterait à compter le nombre d’images et à le diviser par la fréquence d’images, ce qui représente un effort relativement important.
3. Lier les informations entre elles afin de faciliter la recherche et la découverte
L’objectif principal ici est de soutenir les informations lisibles par l’homme avec des données lisibles par la machine. L’objectif est d’établir des connexions entre les informations à l’aide de processus automatisés. On utilise notamment des données structurées, qui sont liées entre elles pour former un « Web sémantique ».
Métadonnées décrivant les images numériques
Les images prises avec des appareils photo numériques et des smartphones contiennent une variété de métadonnées. D’une part, il s’agit de données techniques, telles que les dimensions de l’image, l’appareil photo utilisé, la distance focale, etc. Elles sont définies dans la norme standard EXIF et sont automatiquement créées par la caméra. De plus, le standard IPTC définit des métadonnées qui décrivent le contenu de la photo et qui sont saisies par l’utilisateur.
Standard | Métadonnées de l’image | Création |
---|---|---|
EXIF | Informations sur l’image, telles que les dimensions, l’espace couleur, les canaux de couleur, etc. ; informations photographiques, telles que le temps d’exposition, l’ouverture, l’ISO, etc. | Automatique pendant l’enregistrement |
IPTC | Mots-clés, droits d’auteur, informations sur l’emplacement et l’heure, descriptions du contenu, etc. | Manuelle par l’utilisateur |
Il faut être prudent lors du partage des images numériques : quelquefois, les métadonnées des photos peuvent révéler des informations privées sur l´auteur. De nombreuses applications et réseaux sociaux nettoient automatiquement les images lorsqu’elles sont téléchargées. Toutefois, il ne faut pas s’y fier et il est préférable d’utiliser un outil spécial pour supprimer les informations sur l’image.
Métadonnées intégrées dans les vidéos numériques
Un fichier vidéo se compose généralement d’un conteneur qui contient diverses données. Les données primaires d’une vidéo sont les contenus vidéo et audio codés. En outre, il existe d’autres métadonnées :
- Durée de lecture de la vidéo
- Débit de données et dimensions de l’image
- Informations sur le codec audio et vidéo utilisé
- Sous-titre, éventuellement dans différentes langues
Métadonnées associées aux fichiers
Dans un système numérique, un fichier comprend deux données principales : le contenu du fichier et son nom. Chaque fichier est également associé à une série de métadonnées. Les métadonnées des fichiers sont gérées par le système d’exploitation et sont également appelées « attributs de fichiers ». Voici un aperçu des métadonnées courantes des fichiers :
Métadonnées des fichiers | Description |
---|---|
Horodatage | Pour la création, la modification et la dernière ouverture |
Endroit de stockage | Chemin du fichier dans le système de fichiers |
Propriété | Propriétaire et groupe |
Droits d’accès aux fichiers | Lecture, écriture, exécution ; chacun pour le propriétaire, le groupe, les autres |
En plus des attributs de fichiers, certains types de fichiers comprennent des métadonnées spécifiques. Ceux-ci sont gérés par le programme d’application respectif. Même avec ces métadonnées, il existe un risque de divulgation d’informations confidentielles lors de leur transmission.
Métadonnées générées lors de l’envoi d’emails
Tout comme la lettre postale classique, un email comprend deux éléments principaux :
- Le corps de l’email
- L’en-tête de l’email
Ici, le corps contient le message proprement dit, qui correspond à la lettre contenue dans l’enveloppe. L’en-tête contient les adresses de l’expéditeur et du destinataire, comme l’enveloppe. Certaines des informations contenues dans l’en-tête peuvent être facilement falsifiées de sorte que l’email semble venir d’un autre expéditeur pour le destinataire. Une astuce souvent utilisée au cours des attaques de spoofing.
L’en-tête de l’email contient généralement beaucoup d’autres métadonnées comme :
- Divers horodatages
- Des informations sur le formatage et l’encodage du message
- Des stations par lesquelles l’email est passé pendant la transmission
- L’évaluation de l’email par les filtres anti-spam
- Des Informations indiquant si l’email a été contrôlé par un antivirus
Les métadonnées de l’en-tête sont écrites et lues par le logiciel du serveur et les programmes d’application. Les informations recueillies au cours de ce processus révèlent beaucoup de choses sur un email et le chemin qu’il a emprunté via Internet. Il est possible, entre autres, de faire des déclarations sur l’authenticité et la confidentialité d’un email. De plus, l’en-tête peut contenir le nom d’hôte de l’appareil de l’utilisateur et révéler l’endroit à partir duquel un email a été envoyé.
Les métadonnées générées lors de la visite d’un site Web
D’un point de vue technique, la visite d’un site Web implique la récupération d’un document HTML. Le navigateur de l’utilisateur récupère le document sur un serveur à l’adresse spécifiée. Le protocole HTTP ou HTTPS est utilisé à cet effet.
Outre le document HTML proprement dit qui s’affiche dans le navigateur, des métadonnées appelées HTTP header sont transférées. Les en-têtes HTTP sont comparables aux champs de l’en-tête de l’email. Elles contiennent des informations sur l’encodage, la transmission, le cryptage et la compression de la connexion HTTP.
En outre, des métadonnées sont générées pendant le transfert, lesquelles s’accumulent sur le serveur. Cela inclut les fichiers journaux dans lesquels les accès au serveur sont enregistrés et qui sont nécessaires à l’analyse des fichiers log. Pour chaque accès, une autre ligne est écrite dans le fichier log. En outre, le navigateur déclenche généralement d’autres requêtes auprès d’un serveur DNS. Des métadonnées sont également générées et éventuellement stockées et évaluées par l’opérateur du serveur.
Curieusement, en plus de l’en-tête HTTP déjà mentionné, il y a aussi l’en-tête HTML. Alors que la première fait référence à la connexion, la seconde contient des métadonnées décrivant le contenu du document. Voici un exemple d´aperçu de réponse d’un serveur HTTP. Les lignes d’introduction sont l’en-tête HTTP. Vient ensuite le code source HTML avec les éléments HTML-Head et HTML-Body :
HTTP/1.1 200 OK
Date: Mon, 01 Feb 2021 12:13:34 GMT
Content-Type: text/html; charset=UTF-8
Content-Length: 148
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux)
Accept-Ranges: bytes
Connection: close
<html>
<head>
<title>Exemple de page</title>
</head>
<body>
<p>Le texte lisible par l'homme se trouve dans le corps du document</p>
</body>
</html>
Importance des métadonnées des sites Web pour le marketing en ligne et l’optimisation des moteurs de recherche
Dans cette section, nous nous concentrons sur les métadonnées qui sont intégrées dans un document HTML. Nous laissons de côté les métadonnées HTTP déjà mentionnées, ainsi que les métadonnées générées par le serveur, comme les fichiers journaux. En général, les métadonnées HTML sont intégrées dans l’en-tête du document HTML.
De nombreux éléments se trouvant dans l’en-tête HTML sont directement utilisés pour l’optimisation des moteurs de recherche. Les robots des moteurs de recherche explorent le contenu d’un document HTML. La partie lisible par l’homme présente dans le corps du HTML est extraite et indexée. En outre, il existe des métadonnées spéciales qui sont exclusivement destinées aux bots. Dans ce qui suit, nous distinguons les variantes « classiques » et « modernes ».
Cartographie des métadonnées des sites Web avec les éléments d’en-tête HTML classiques
Les éléments d’en-tête HTML classiques comprennent le titre et une poignée de balises méta critiques. Le titre est également visible par l’utilisateur sous différentes formes. Par exemple, il est affiché dans les signets ou dans l’en-tête de l’onglet du navigateur. Les autres balises classiques « <meta> » sont utilisées exclusivement pour l’optimisation des moteurs de recherche. Voici un aperçu des principaux éléments classiques de l’en-tête HTML :
Méta | Description | Importance |
---|---|---|
<title> | Le titre du document est affiché dans les résultats d’une recherche | Critique |
<meta name="description"> | Description du document, affichée dans les résultats d’une recherche | Critique |
<meta name="keywords"> | Les mots-clés du document ne sont pas affichés dans les résultats d’une recherche. | Bas |
<meta name="robots"> | Instructions aux robots des moteurs de recherche pour traiter le document | Critique |
Mapper les métadonnées des sites Web avec les éléments d’en-tête HTML modernes
Outre les éléments d’en-tête HTML classiques, divers autres éléments sont utilisés aujourd’hui pour inclure des métadonnées sur un site Web. Les opérateurs de moteurs de recherche et les grands groupes technologiques définissent constamment de nouvelles métadonnées. Les éléments « <meta> » et « <link> » sont idéaux pour cela, car ils peuvent être développés. Voici un aperçu des métadonnées de sites Web modernes fréquemment utilisées :
Méta | Description | Importance |
<link rel="canonical"> | Balises canoniques afin d’éviter le duplicate content | Critique, s’il existe du contenu dupliqué |
<link rel="alternate" hreflang="fr"> | Spécifier des versions linguistiques alternatives du même document via hreflang | Optionnel |
<meta property="og:…"> | Open Graph pour les publications sur les réseaux sociaux | Optionnel |
Avec l’élément ‘<meta>’, le type spécifique de métadonnées est déterminé via l’attribut ‘name’. L’attribut ‘rel’ est utilisé de la même manière pour l’élément ‘<link>’. Selon le standard de métadonnées utilisé, il existe deux orthographes alternatives pour l’élément ‘<meta>’. Nous les résumons ici :
Orthographe | Standard de métadonnées |
---|---|
<meta name=""> | HTML5 |
<meta property=""> | RDFa |
<meta itemprop=""> | HTML Microdata |
Définir les métadonnées du site Web avec Open Graph
Open Graph est un protocole développé par Google pour enrichir un document Web avec des métadonnées. Les données Open Graph fournissent des informations qui s’affichent comme un aperçu lors du partage du document sur les réseaux sociaux. De cette façon, il est possible de spécifier des images, des titres et des textes descriptifs optimisés. C’est logique car, selon la plateforme, des restrictions spécifiques s’appliquent en termes de longueur du texte, de dimensions des images, etc. Ce protocole est largement utilisé par Facebook et Twitter. Voici un aperçu des métadonnées Open Graph essentielles :
Métadonnées Open Graph | Explication |
---|---|
<meta property="og:title"> | Titre de l’objet |
<meta property="og:type"> | Le type d’objet, par exemple une image, un document Web, une vidéo, etc. |
<meta property="og:image"> | Une image représentant l’objet |
<meta property="og:url"> | L’URL canonique de l’objet |
Si vous rencontrez des erreurs lors du partage de votre contenu Web sur Facebook, le problème est souvent lié à des spécifications Open Graph incorrectes. Dans ce cas, une astuce simple peut parfois être utile : connectez-vous à votre compte Facebook et utilisez le Programme de débug du partage afin de demander à Facebook de relire les informations d’Open Graph.
Définir les métadonnées du site Web avec des rich cards
Outre Open Graph, un autre standard de métadonnées développé par Google se présente sous la forme de Rich Cards. Les Rich Cards enrichissent un document Web avec des métadonnées structurées. Ainsi, le site Web d’un restaurant peut être complété par des informations concernant la situation géographique, les prix, les heures d’ouverture, etc. Les informations de la Rich Card peuvent être placées dans l’en-tête ou dans le corps du HTML.
Techniquement, les Rich Cards sont dérivées du standard des métadonnées Schema.org. Différents formats sont utilisés pour baliser les métadonnées. Outre les anciens standards RDFa et Microdata, l’actuel standard JSON-LD est le plus approprié. L’utilisation de JSON-LD est officiellement recommandée par Google.