Le Web sé­man­tique est le prochain stade de dé­ve­lop­pe­ment du World Wide Web. Dans ce que l’on nomme aussi le Web 3.0, les in­for­ma­tions ne sont pas seulement in­ter­con­nec­tées, les contenus sont également enrichis de mé­ta­don­nées sé­man­tiques lisibles par machine et reliées entre elles. Le but est d’optimiser l’échange d’in­for­ma­tions sur le Web en faisant en sorte que les machines dis­tin­guent et traitent spé­ci­fi­que­ment les données lisibles par machine, c’est-à-dire les contenus sé­man­tiques.

Nom de domaine
Votre domaine en un clic
  • 1 cer­ti­fi­cat SSL Wildcard par contrat
  • Fonction incluse Domain Connect pour une con­fi­gu­ra­tion DNS sim­pli­fiée

Web sé­man­tique : his­to­rique du concept

Le concept de « Web sé­man­tique » (semantic Web) n’est qu’un des nombreux termes visant à définir une évolution sé­man­tique du World Wide Web. Les termes suivants, qui désignent le réseau mondial d’in­for­ma­tions liées sé­man­ti­que­ment, ont également cours :

  • Web 3.0 : inventé par le jour­na­liste américain John Markoff pour décrire l’ajout au Web 2.0 in­te­rac­tif et col­la­bo­ra­tif de données lisibles par machine.
  • GGG (Giant Global Graph) : employé par Tim Berners-Lee, l’inventeur du WWW, pour décrire la structure globale de l’in­for­ma­tion qu’utilise la struc­tu­ra­tion sé­man­tique des mé­ta­don­nées et du contenu ; d’un point de vue con­cep­tuel, le GGG recoupe le Web sé­man­tique.
  • Linked Open Data : introduit en 2007 pour mettre l’accent sur les normes relatives aux mé­ta­don­nées, les routines d’in­ter­ro­ga­tion et les données sé­man­tiques en réseau comme fondement du Web sé­man­tique.
  • Web des données : inventé en 2013 par le W3C, le World Wide Web Con­sor­tium, pour désigner sous un seul terme l’in­ter­con­nexion syn­taxique et sé­man­tique des données.
Dé­fi­ni­tion: Sé­man­tique

La sé­man­tique est une branche de la lin­guis­tique qui étudie la sig­ni­fi­ca­tion des ca­rac­tères et des chaînes de ca­rac­tères. Le Web sé­man­tique (« semantic Web » en anglais) ajoute des in­for­ma­tions sé­man­tiques au contenu Web et donne aux machines la capacité de dis­tin­guer leur sens. (Selon le contexte, un signe, par exemple un mot, peut avoir plusieurs sens, tandis que plusieurs signes peuvent avoir le même sens.) À cette fin, diverses normes et on­to­lo­gies (ensembles d’in­for­ma­tions) sont utilisées pour la for­mu­la­tion de mé­ta­don­nées sé­man­tiques lisibles par machine.

His­to­rique du Web sé­man­tique

À ce jour, le WWW repose es­sen­tiel­le­ment sur la syntaxe de l’in­for­ma­tion. Pour ce faire, les pro­grammes in­for­ma­tiques utilisent des al­go­rithmes qui analysent les index de données, les mots-clés et les requêtes de recherche. En fonction du caractère explicite d’une requête, les moteurs de recherche four­nis­sent des résultats de recherche (SERP pour « Search Engine Result Page ») plus ou moins ap­pro­priés.

Cependant, il est important pour les uti­li­sa­teurs et les en­tre­prises que les pro­grammes traitent les in­ten­tions de recherche des uti­li­sa­teurs aussi ef­fi­ca­ce­ment que possible. Par con­sé­quent, le Web sé­man­tique n’est pas seulement basé sur les termes de recherche et la syntaxe, mais aussi sur les valeurs de sens. Les machines peuvent trouver du contenu et com­prendre et dis­tin­guer sa sig­ni­fi­ca­tion.

Par exemple, si un uti­li­sa­teur pose la question « Quand le mandat d’Emmanuel Macron a-t-il commencé ? », les moteurs de recherche actuels n’in­di­que­ront pas « 14 mai 2017 » comme réponse, mais plutôt les résultats les plus ap­pro­priés possibles pour Emmanuel Macron sur la base des mots-clés. Dans le Web sé­man­tique, cependant, les machines com­pren­nent le contenu, mais aussi le sens de la requête et four­nis­sent une réponse précise. L’analyse des sens ne porte pas seulement sur les textes, mais aussi sur les images, les sons, les chiffres et les symboles, autrement dit sur tous les objets porteurs d’une sig­ni­fi­ca­tion.

Les bases du Web sé­man­tique

La base du Web sé­man­tique est le Web 1.0 et le Web 2.0, du moins si l’on entend par Web sé­man­tique le prochain stade d’évolution du World Wide Web, autrement dit le Web 3.0. Si cela ne tenait qu’à Tim Berner-Lee, fondateur du WWW, le Web 1.0 aurait déjà été orienté vers les sens en plus de l’em­pla­ce­ment et de la forme des in­for­ma­tions.

Le Web « classique » repose sur des normes telles que HTML, URL et HTTP, à savoir res­pec­ti­ve­ment un langage de balisage, un des­crip­teur d’adresse et un protocole de trans­mis­sion, pour struc­tu­rer les données. Cependant, la plupart des contenus Web sont encore répartis de manière non struc­tu­rée sur le Web.

Les documents HTML indiquent rarement ce que signifie leur contenu et en quoi il diffère des autres. Bien que des mé­ta­don­nées soient déjà employées, leur valeur in­for­ma­tive est encore limitée. Les pro­grammes in­for­ma­tiques peuvent donc re­cher­cher des adresses de contenu, mais ne savent pas dé­ter­mi­ner ce que signifie l’in­for­ma­tion qu’ils re­cherchent ou en quoi elle diffère des autres. Des dé­cla­ra­tions logiques sup­plé­men­taires aident les pro­grammes à trouver le contenu, mais aussi à le com­prendre lorsqu’il est placé dans un contexte sé­man­tique pré­for­mulé.

Que sont les entités et les on­to­lo­gies ?

Les entités et les on­to­lo­gies comptent parmi les prin­ci­paux com­po­sants du Web sé­man­tique. Le concept « d’entité » est issu de la sé­man­tique. Cette unité de sens est cons­ti­tuée d’un iden­ti­fiant et d’attributs associés. Exemple : « Barack Obama » serait l’iden­ti­fiant d’une entité, tandis que des in­for­ma­tions telles que « président des États-Unis », « avocat », « démocrate » en seraient les attributs, c’est-à-dire des ca­rac­té­ris­tiques des­crip­tives. Les entités peuvent être liées les unes aux autres et ap­pa­ren­tées thé­ma­ti­que­ment ou sans rapport.

Lorsque des entités sont liées entre elles con­tex­tuel­le­ment, on parle d’on­to­lo­gies. Les on­to­lo­gies sont des ensembles ordonnés d’in­for­ma­tions et de dé­cla­ra­tions logiques formulés de manière lisible pour les humains et les machines, qui éta­blis­sent des liens et montrent les relations.

Les entités et les on­to­lo­gies sont es­sen­tielles au fonc­tion­ne­ment du Web sé­man­tique. Elles sont in­dis­pen­sables pour que les pro­grammes puissent com­prendre les relations entre les mots, les syntaxes, les images et les ca­rac­tères, filtrer in­tel­li­gem­ment les termes po­ly­sé­miques et le duplicate content, in­ter­pré­ter le contenu Web et dif­fé­ren­cier les entités par thème. Il en résulte un riche réseau de con­nais­sances qui ne se compose pas uni­que­ment d’in­for­ma­tions, de mots-clés et d’adresses non struc­tu­rés. Les in­tel­li­gences ar­ti­fi­cielles seront à l’avenir capables d’effectuer une recherche dans les con­nais­sances ac­cu­mu­lées sur le WWW, mais aussi de les com­prendre et de les in­ter­pré­ter de manière pro­duc­tive.

Nom de domaine
Votre domaine en un clic
  • 1 cer­ti­fi­cat SSL Wildcard par contrat
  • Fonction incluse Domain Connect pour une con­fi­gu­ra­tion DNS sim­pli­fiée

Comment fonc­tionne le Web sé­man­tique ?

Pour réaliser le Web sé­man­tique, les pro­grammes in­for­ma­tiques doivent apprendre à extraire le sens des mots et des phrases. Cela n’est possible que si les contenus existants ou nouveaux du WWW con­tien­nent des données struc­tu­rées qui sont formulées de manière à être lisibles par une machine. Les données struc­tu­rées sont formulées au moyen de normes et de clas­si­fi­ca­tions spéciales et encodées sur les sites Web sous la forme de « schema markups » et « in-page markups ».

Grâce aux données struc­tu­rées, les pro­grammes peuvent dé­ter­mi­ner clai­re­ment ce qui, par exemple, dif­fé­ren­cie l’objet « banque » désignant une ins­ti­tu­tion fi­nan­cière de l’objet « banque » désignant une base de données. Pour un langage uniforme lisible par machine, des normes du Web sé­man­tique, comme le Con­sor­tium W3 les a déjà formulées, sont né­ces­saires.

Le Con­tex­tual Browsing Language (CBL), qui décrit les relations entre les in­for­ma­tions, et le Web Ontology Language (OWL), qui ordonne et classe les in­for­ma­tions de manière hié­rar­chique, sont d’autres approches de normes uni­for­mi­sées du Web sé­man­tique. Les langages et normes suivants aident eux aussi à créer des mé­ta­don­nées, des normes et des règles sé­man­tiques :

  • RDF/RDFa (Resource Des­crip­tion Network in At­tri­butes) : utilisé pour décrire en détail les sites Web afin d’en tirer des dé­cla­ra­tions logiques et sé­man­tiques sur n’importe quel contenu ; peut être complété par RDFa pour intégrer RDF dans XML.
  • URI (Uniform Resource Iden­ti­fier) : identifie les unités d’in­for­ma­tion et renvoie si­mul­ta­né­ment aux Linked Open Data (LOD) librement dis­po­nibles, c’est-à-dire des données com­plé­men­taires dans les documents HTTP.
  • RIF (Rule In­ter­change Format) : définit les règles selon les­quelles les liens sé­man­tiques doivent être établis.
  • Dublin Core : une norme pour les mé­ta­don­nées incluses dans les documents nu­mé­riques et pour l’in­ter­pré­ta­tion lisible par machine des éléments formulés en RDF.
  • RDFS (Resource Des­crip­tion Framework Schema) : identifie le vo­ca­bu­laire RDF et spécifie la structure et la syntaxe à employer.
  • SPARQL (SPARQL Protocol And RDF Query Language) : sert de langage et de protocole de requête pour le contenu du système RDF, lequel consiste en des des­crip­tions logiques et des in­ter­re­la­tions de données.

Le Web sé­man­tique et son im­por­tance pour le marketing en ligne

Les avantages du Web sé­man­tique pour le marketing en ligne ne sont pas né­gli­geables. Les en­tre­prises sont d’ores et déjà con­traintes de s’adapter à la nu­mé­ri­sa­tion du monde des affaires. Celles qui analysent le com­por­te­ment d’achat et de recherche des clients et groupes cibles peuvent en tirer des en­seig­ne­ments et générer davantage de trafic. Dans le domaine du marketing en ligne, la publicité axée sur la sé­man­tique du contenu Web peut être mieux adaptée et liée à des mots-clés cor­res­pon­dant à ses produits et services.

Pour les sites Web au ré­fé­ren­ce­ment optimisé, il ne s’agit pas seulement des bons mots-clés, mais aussi d’in­for­ma­tions sé­man­tiques com­plé­men­taires servant à struc­tu­rer les contenus et à fournir une ar­chi­tec­ture d'in­for­ma­tions lisible par machine. Pensez à inclure des données struc­tu­rées dans votre site Web et à faire en sorte que son contenu soit aussi sig­ni­fi­ca­tif que possible à l’aide de normes sé­man­tiques. De cette manière, vous amé­lio­re­rez votre ré­fé­ren­ce­ment et serez également repéré par les groupes cibles que vous souhaitez attirer.

Exemples pratiques pour le Web sé­man­tique

Le Web sé­man­tique n’en est encore qu’à ses bal­bu­tie­ments, mais de premiers pas dans la bonne direction ont été faits ces dernières années. Par exemple, les pos­si­bi­li­tés du Web sé­man­tique sont visibles dans l’al­go­rithme RankBrain de Google, lequel est capable d’affecter par thème des requêtes de recherche jusqu’ici inconnues de l’al­go­rithme. La recherche d’images de Google « reconnaît » elle aussi déjà ce que les uti­li­sa­teurs re­cherchent et fournit des résultats d’image proches thé­ma­ti­que­ment.

De même, la fonc­tion­na­lité Knowledge Graph de Google sait re­con­naître des entités sé­man­tiques et afficher les in­for­ma­tions connexes ou ap­pa­ren­tées les plus im­por­tantes en plus des résultats de recherche. Les « rich snippets » et les « rich cards » de Google, quant à eux, traitent des données struc­tu­rées sous forme de car­rou­sels d’in­for­ma­tions et d’extraits de sites Web.

Conseil
Avoir un site Web attrayant et moderne est important, mais un contenu clai­re­ment formulé et optimisé pour les moteurs de recherche l’est tout autant. Servez-vous de l’outil ran­king­Coach de IONOS pour améliorer le ré­fé­ren­ce­ment de votre site Web et cibler les clients qui re­cherchent vos produits et services.
Aller au menu principal