Depuis de nom­breuses années, la lutte pour les meil­leures places dans les résultats de recherche de Google fait rage. Pendant longtemps, l’art du ré­fé­ren­ce­ment pour les moteurs de recherche con­sis­tait à in­cor­po­rer le plus de mots-clés possible dans les dif­fé­rents textes d’un projet Web. Au­jour­d'hui, il consiste avant tout à créer des textes uniques. Qu’il s'agisse de la page d’accueil ou des sous-pages, de la page produit ou des ca­té­go­ries : un contenu exclusif et pertinent qui diffère de celui des con­cur­rents en termes de contenu et d'uti­li­sa­tion de mots-clés constitue la base pour se dis­tin­guer et se po­si­tion­ner en premier sur les moteurs de recherche. Un concept de plus en plus utilisé dans ce contexte est l’analyse ou la formule TF-IDF.

Qu'est-ce que le TF-IDF ?

Le TF-IDF est une méthode d’analyse qui peut être utilisée dans une stratégie de ré­fé­ren­ce­ment pour dé­ter­mi­ner les mots-clés et les termes qui aug­men­tent la per­ti­nence des textes publiés et donc du projet Web dans son ensemble. C'est une formule dans laquelle les deux valeurs TF (Term Frequency) et IDF (Inverse Document Frequency) sont mul­ti­pliées entre elles. Le résultat est la fréquence relative des termes (ou « pon­dé­ra­tion des termes ») d’un document par rapport à tous les autres documents Web qui con­tien­nent également le mot-clé en question lors de l’analyse. Avant de pouvoir effectuer l’analyse TF-IDF, les deux facteurs men­tion­nés doivent d’abord être dé­ter­mi­nés.

Comment dé­ter­mi­ner la valeur du Term Frequency (TF) ?

Le Term Frequency décrit la fréquence à laquelle un certain terme apparaît dans un document par rapport à tous les autres termes contenus dans le document. Pour augmenter la sig­ni­fi­ca­tion de la valeur mesurée, la formule est basée sur un lo­ga­rithme qui empêche le terme central de recevoir trop de poids. Le Term Fren­quency est mentionné pour la première fois en 1992 dans les travaux de Donna Harman qui, dans son article « Ranking Al­go­rithms », y voit la pos­si­bi­lité de donner aux mots d’un document donné une valeur de pon­dé­ra­tion utile à la science de l’in­for­ma­tion. Dans l’op­ti­mi­sa­tion des sites Web, la valeur TF est utilisée depuis un certain temps comme une al­ter­na­tive à la valeur moins flexible de la densité de mots-clés (Keyword Density), qui reflète sim­ple­ment la fréquence relative d'un mot-clé.

La formule pour dé­ter­mi­ner le Term Frequency est la suivante :

Les dif­fé­rentes com­po­santes de l’équation peuvent être ex­pli­quées comme suit :

i Terme dont le Term Frequency dans le document doit être déterminé
j Document analysé
Lj Nombre total de mots dans le document « j »
Freq(i,j) Fréquence d'un mot « i » dans le document « j »
log2 Lo­ga­rithme du nombre x en base 2

Ainsi, la valeur TF d’un terme « i » dans le document « j » est dé­ter­mi­née en ajoutant la fréquence du terme à « 1 » et en la divisant par le nombre total de mots dans ce document. Le lo­ga­rithme « log2 »est appliqué aux deux valeurs, ce qui permet d'obtenir des résultats plus re­pré­sen­ta­tifs de la per­ti­nence du terme que de la dé­ter­mi­na­tion de la densité pure des mots clés ou de la fréquence relative. Un exemple pour illustrer cela :

Un terme examiné qui apparaît 50 fois dans un document de 1 000 mots a un Term Frequency arrondi à 0,57. La fréquence relative dans ce cas est de 5 %. Si la fréquence du terme est main­te­nant augmentée à 500 lors d'une op­ti­mi­sa­tion par exemple, on obtient une valeur WDF de 0,9 (en ar­ron­dis­sant), c'est-à-dire une valeur 1,5 fois plus élevée que dans le texte original. Si, en revanche, la valeur relative, qui est passée à 50 %, est choisie comme base, on obtient une aug­men­ta­tion de 10 fois la valeur initiale.

Comment dé­ter­mi­ner la valeur de l’Inverse Document Frequency (IDF) ?

L’Inverse Document Frequency (FDI) est une valeur qui mesure la sig­ni­fi­ca­tion d'un terme non pas en fonction de sa fréquence dans un document par­ti­cu­lier, mais en fonction de sa dis­tri­bu­tion et de son uti­li­sa­tion dans l'en­semble des documents : plus un terme a de potentiel, plus l’Inverse Document Frequency est élevée. Idéa­le­ment, un terme apparaît très fré­quem­ment dans quelques textes seulement. Les mots qui ap­pa­rais­sent dans presque tous les documents ou très rarement n'ont que peu d'im­por­tance. Par exemple, le mot « Impressum » a une valeur IDF très faible car il est utilisé dans presque tous les projets Web.

Pour calculer la valeur de l’Inverse Document Frequency, il faut utiliser la formule suivante, qui utilise également un lo­ga­rithme pour réguler les résultats :

Les dif­fé­rentes com­po­santes de l’équation de la FID peuvent être ex­pli­quées comme suit :

i Terme dont l’Inverse Document Frequency doit être dé­ter­mi­née
log Lo­ga­rithme du nombre x en base 10 ou en toute autre base b
ND Nombre de tous les documents dans le corps du document (qui con­tien­nent les termes per­ti­nents)
fi Nombre de tous les documents dans lesquels le terme « i » apparaît

Pour dé­ter­mi­ner la valeur IDF d’un terme « i », il faut diviser le nombre total de tous les documents (et les documents per­ti­nents) contenus dans le corpus par le nombre de documents contenant le terme, puis ajouter le chiffre 1. On déduit ensuite le lo­ga­rithme « log » du résultat de ce calcul.

Comment calculer le nombre de documents per­ti­nents dans le corpus ?

Avec ND, la formule de l’IDF contient un composant qui ne peut être déterminé de façon uniforme. C'est plutôt le résultat de la fréquence de tous les mots per­ti­nents dans le document examiné ainsi que du nombre absolu de documents sous-jacents. Cependant, dans le cadre d’une analyse de documents Web à des fins de ré­fé­ren­ce­ment, le nombre total potentiel est énorme, puisque toutes les pages indexées par Google (ou tout autre moteur de recherche) sont éligibles. Afin d’obtenir une valeur concrète, le nombre de résultats de recherche de tous les termes per­ti­nents dans le document est déterminé et ajouté. Dans un document très simplifié ne contenant que les deux mots « op­ti­mi­sa­tion pour les moteurs de recherche » (22 200 000 résultats en octobre 2018) et « analyse Web » (319 000 000 résultats en octobre 2018), ND a une valeur de 341 200 000.

TF-IDF : la com­bi­nai­son des deux formules

Etant donné que le Term Frequency re­pré­sente la per­ti­nence d’un terme dans un document donné et que l’Inverse Document Frequency peut refléter le rôle d’un terme par rapport à tous les documents d’un corpus, la com­bi­nai­son des deux valeurs permet de bien com­prendre la fréquence réelle des termes et le potentiel de chaque terme pour optimiser le texte existant. Pour ce faire, il suffit de mul­ti­plier les deux valeurs entre elles, ce qui donne la formule générale suivante pour l'analyse TF-IDF et la dé­ter­mi­na­tion d’une fréquence de termes aussi exacte et uti­li­sable que possible :

En principe, tous les éléments im­por­tants sont réunis pour dé­ter­mi­ner la valeur des termes utilisés dans les textes Web. Bien sûr, plus la base de données est grande, plus les résultats sont sig­ni­fi­ca­tifs. Pour que l’analyse TF-IDF en SEO soit utile, elle doit être effectuée pour tous les mots per­ti­nents d’un document. Ma­nuel­le­ment, cela im­pli­que­rait sim­ple­ment beaucoup trop d’efforts, c'est pourquoi l’outil TF-IDF est obli­ga­toire pour le calcul du poids des mots-clés. Ces pro­grammes (voir ci-dessous) per­met­tent d’analyser le matériel textuel existant. Ils four­nis­sent également des in­di­ca­tions sur les termes qui manquent à un document pour qu’il soit aussi unique et pertinent que possible.

En résumé

La fréquence d’un terme « i » dans le document « j » peut être dé­ter­mi­née en mul­ti­pliant le Term Frequency « i » dans le document « j » par l’Inverse Document Frequency « i » dans l’ensemble des documents.

Les avantages du TF-IDF en SEO

Les avantages d’une analyse TF-IDF ap­pro­fon­die sont évidents : les valeurs obtenues pour la pon­dé­ra­tion des termes centraux servent de points de référence parfaits pour écrire des textes :

  • Per­ti­nents pour les moteurs de recherche
  • Qui couvrent des sujets avec une faible con­cur­rence
  • Qui ne con­tien­nent pas de bourrage de mots-clés
  • Qui con­tien­nent des mots-clés aussi uniques que possible

Ainsi, si vous n'êtes pas satisfait du clas­se­ment de vos propres sites Web et que vous souhaitez les optimiser, vous avez de puissants alliés avec les valeurs TF-IDF. Sur la base des données d’analyse, les ré­dac­teurs peuvent recevoir des di­rec­tives concrètes pour la révision du contenu, qui ne visent pas sim­ple­ment à augmenter la densité des mots clés ou à in­cor­po­rer d'autres mots clés dans le texte.

Note

Malgré l’im­por­tance d’une analyse TF-IDF ap­pro­fon­die, vous ne devez jamais oublier que le contenu est écrit prin­ci­pa­le­ment pour les lecteurs et non pour les moteurs de recherche. Comme ces derniers sont aussi de plus en plus doués pour ap­pré­hen­der les textes de manière sé­man­tique, il vaut mieux rédiger un contenu fort où les mots-clés ne joueront qu’un rôle partiel sur le long terme.

Quelles sont les fai­blesses de l’analyse TF-IDF ?

Même si la valeur TF-IDF fournit des données très utiles pour l'op­ti­mi­sa­tion de site Web, il y a encore quelques points qui doivent être pris en compte avant l’analyse et l’éva­lua­tion ul­té­rieure des résultats. Par exemple, un des problèmes fon­da­men­tal est qu’une analyse TF-IDF en SEO inclut toujours tous les éléments de texte d’un document, qu’il s’agisse d’en-têtes, de des­crip­tions de ca­té­go­ries ou de produits, ou de légendes d’images. Il n’y a pas de dif­fé­ren­cia­tion entre les dif­fé­rents com­po­sants. Même dans le cas où seul un certain pa­ra­graphe contient trop ou pas assez de mots-clés, la procédure d’analyse ne vous fournira pas une réponse sa­tis­fai­sante, puisque la pon­dé­ra­tion en fréquence est toujours évaluée sur l’ensemble du document.

Conseil

Avant d’envisager une analyse TF-IDF pour votre site Web, vous devez vérifier soig­neu­se­ment si le contenu intégré convient à la méthode d'analyse de fréquence. En outre, les résultats obtenus devront être remis en question de manière critique afin d'éviter d'éven­tuelles con­clu­sions erronées, en raison d'une base de données trop res­treinte par exemple.

Une autre faiblesse de la formule TF-IDF est qu’elle ne devient in­té­res­sante qu’avec un nombre de mots élevé. Dans le cas de textes plus courts comme des des­crip­tions de produits, des entrées de blog plus petites ou des articles de presse, l’analyse ne fournit pas de résultats sig­ni­fi­ca­tifs et uti­li­sables. C’est pourquoi elle n’est souvent pas adaptée à certains projets Web comme les boutiques en ligne ou les portails d’in­for­ma­tion. Pour des sites Web comme celui-ci, qui sont largement basés sur le travail éditorial, l’in­con­vé­nient est que l'analyse TF-IDF est difficile à intégrer dans le processus de travail quotidien. Nous nous basons prin­ci­pa­le­ment sur des temps de réponse rapides et un suivi de l’actualité. Seule une op­ti­mi­sa­tion ul­té­rieure des textes publiés serait une solution réa­li­sable, mais en même temps très complexe.

Avantages et in­con­vé­nients de l’analyse TF-IDF en tableau ré­ca­pi­tu­la­tif

Avantages de l’analyse TF-IDF In­con­vé­nients de l’analyse TF-IDF
donne une grande chance de découvrir le bourrage de mots-clés existant examine toujours le contenu ré­dac­tion­nel complet d'un document
pri­vi­lé­gie la per­ti­nence et la sin­gu­la­rité en tant que critères décisifs pour la pon­dé­ra­tion des fré­quences ne fournit pas d’in­for­ma­tions sur les pa­ra­graphes ou passages précis qui ont besoin d'être optimisés
évalue mieux les mots-clés avec une con­cur­rence moindre que ceux avec une forte con­cur­rence ne convient pas aux textes courts contenant peu de mots
combine les dis­ci­plines de l’analyse spé­ci­fique aux documents et de l’analyse générale difficile à utiliser dans les processus de travail où la rapidité et la réac­ti­vité sont requises
aplanit les résultats en utilisant des lo­ga­rithmes pour obtenir des données plus per­ti­nentes difficile de dé­ter­mi­ner avec précision le nombre de tous les documents per­ti­nents

Quels sont les outils TF-IDF dis­po­nibles ?

Plusieurs outils peuvent vous permettre d’effectuer une analyse TF-IDF. Il faut faire la dis­tinc­tion entre les ap­pli­ca­tions qui sont en­tiè­re­ment intégrées à des logiciels de ré­fé­ren­ce­ment et celles qui sont également in­dé­pen­dantes. En fonction de l’étendue des fonctions et des pos­si­bi­li­tés d’uti­li­sa­tion, les dif­fé­rents outils se dis­tin­guent par leur coût. Pour vous donner un petit aperçu de la variété des ap­pli­ca­tions, nous avons compilé quelques-uns des meilleurs outils TF-IDF dans la liste suivante :

  • OnpageDoc : si vous souhaitez analyser et optimiser le statut SEO de votre projet Web, vous aurez tous les outils né­ces­saires avec SEO Po­wer­Suite. Il existe trois niveaux de sous­crip­tion : gratuit, pro­fes­sion­nel et en­tre­prise. Il vous faudra payer pour profiter plei­ne­ment des diverses fonctions dis­po­nibles pour vérifier et améliorer les mots-clés, les méta-tags, les backlinks ou encore suivre les pu­bli­ci­tés, le trafic, et les réseaux sociaux. Le programme comprend également un outil TF-IDF pour l’analyse du poids des mots-clés et la com­pa­rai­son con­cur­ren­tielle ciblée.
  • SEOlyze : les analyses et re­cherches sé­man­tiques basées sur le score TF-IDF peuvent également être ef­fec­tuées fa­ci­le­ment avec le module d’analyse de contenu SEOlyze, qui est payant. Le produit de la société Helminger GmbH basée en Autriche se concentre sur les pos­si­bi­li­tés de per­fec­tion­ne­ment du contenu des sites Web et propose dif­fé­rents outils à cet effet, tels qu'un outil de recherche, un vé­ri­fi­ca­teur de duplicat ou des analyses de li­si­bi­lité (formule de texte factuel). Cependant, le cœur de ce logiciel est la fonction d'analyse TF-IDF complète, dont les résultats peuvent être im­plé­men­tés di­rec­te­ment dans l’interface SEOlyze grâce à l’éditeur intégré. En plus de la TF-IDF Tool, ce programme spé­cia­lisé dans le SEO contient diverses options de suivi de clas­se­ment ainsi que d’autres outils d'op­ti­mi­sa­tion générale des pages (analyse de mots-clés, vé­ri­fi­ca­tion des mé­ta­don­nées, des images, des liens, etc.).
  • XOVI : la société XOVI GmbH de Cologne, qui fait partie de l'en­tre­prise de logiciels mondiale Plesk depuis 2017, fournit à ses clients une suite SEO sans faille qui répond à presque tous les besoins. La XOVI Toolbox, payante et dis­po­nible en trois modèles d’uti­li­sa­tion dif­fé­rents (Pro, Business et En­ter­prise), comprend des outils pour suivre les pu­bli­ci­tés, le trafic, les mots-clés, les backlinks et les médias sociaux. XOVI Tex­tOp­ti­mi­zer inclut également un outil de texte TF-IDF qui non seulement calcule la per­ti­nence des termes utilisés et fait des sug­ges­tions pour d'autres termes basés sur les dix premières pages de résultats de recherche Google, mais permet également une édition directe.
  • Seobility : sur sa page d’accueil, Seobility GmbH de Nuremberg propose dif­fé­rents outils de ré­fé­ren­ce­ment gratuits, y compris un outil TF-IDF simple d’uti­li­sa­tion. L’ap­pli­ca­tion Web permet aux uti­li­sa­teurs d'ana­ly­ser le poids d'un terme en fonction de la formule TF-IDF. La tool affiche également d'autres termes (y compris la valeur de fréquence) qui cor­res­pon­dent au mot recherché. L’accès au programme Seobility est limité à trois uti­li­sa­tions par jour et par uti­li­sa­teur. Les uti­li­sa­teurs qui créent un compte peuvent effectuer des réglages de recherche avancée et, par exemple, ajuster la base du lo­ga­rithme, augmenter le nombre de résultats de recherche pris en compte ou sé­lec­tion­ner la pla­te­forme (bureau/mobile) pour laquelle ils sou­hai­tent optimiser.
Aller au menu principal