TF-IDF : que peut vraiment cette formule SEO miracle ?

Depuis de nombreuses années, la lutte pour les meilleures places dans les résultats de recherche de Google fait rage. Pendant longtemps, l’art du référencement pour les moteurs de recherche consistait à incorporer le plus de mots-clés possible dans les différents textes d’un projet Web. Aujourd'hui, il consiste avant tout à créer des textes uniques. Qu’il s'agisse de la page d’accueil ou des sous-pages, de la page produit ou des catégories : un contenu exclusif et pertinent qui diffère de celui des concurrents en termes de contenu et d'utilisation de mots-clés constitue la base pour se distinguer et se positionner en premier sur les moteurs de recherche. Un concept de plus en plus utilisé dans ce contexte est l’analyse ou la formule TF-IDF.

Qu'est-ce que le TF-IDF ?

Le TF-IDF est une méthode d’analyse qui peut être utilisée dans une stratégie de référencement pour déterminer les mots-clés et les termes qui augmentent la pertinence des textes publiés et donc du projet Web dans son ensemble. C'est une formule dans laquelle les deux valeurs TF (Term Frequency) et IDF (Inverse Document Frequency) sont multipliées entre elles. Le résultat est la fréquence relative des termes (ou « pondération des termes ») d’un document par rapport à tous les autres documents Web qui contiennent également le mot-clé en question lors de l’analyse. Avant de pouvoir effectuer l’analyse TF-IDF, les deux facteurs mentionnés doivent d’abord être déterminés.

Comment déterminer la valeur du Term Frequency (TF) ?

Le Term Frequency décrit la fréquence à laquelle un certain terme apparaît dans un document par rapport à tous les autres termes contenus dans le document. Pour augmenter la signification de la valeur mesurée, la formule est basée sur un logarithme qui empêche le terme central de recevoir trop de poids. Le Term Frenquency est mentionné pour la première fois en 1992 dans les travaux de Donna Harman qui, dans son article « Ranking Algorithms », y voit la possibilité de donner aux mots d’un document donné une valeur de pondération utile à la science de l’information. Dans l’optimisation des sites Web, la valeur TF est utilisée depuis un certain temps comme une alternative à la valeur moins flexible de la densité de mots-clés (Keyword Density), qui reflète simplement la fréquence relative d'un mot-clé.

La formule pour déterminer le Term Frequency est la suivante :

Les différentes composantes de l’équation peuvent être expliquées comme suit :

i

Terme dont le Term Frequency dans le document doit être déterminé

j

Document analysé

Lj

Nombre total de mots dans le document « j »

Freq(i,j)

Fréquence d'un mot « i » dans le document « j »

log2

Logarithme du nombre x en base 2

Ainsi, la valeur TF d’un terme « i » dans le document « j » est déterminée en ajoutant la fréquence du terme à « 1 » et en la divisant par le nombre total de mots dans ce document. Le logarithme « log2 »est appliqué aux deux valeurs, ce qui permet d'obtenir des résultats plus représentatifs de la pertinence du terme que de la détermination de la densité pure des mots clés ou de la fréquence relative. Un exemple pour illustrer cela :

Un terme examiné qui apparaît 50 fois dans un document de 1 000 mots a un Term Frequency arrondi à 0,57. La fréquence relative dans ce cas est de 5 %. Si la fréquence du terme est maintenant augmentée à 500 lors d'une optimisation par exemple, on obtient une valeur WDF de 0,9 (en arrondissant), c'est-à-dire une valeur 1,5 fois plus élevée que dans le texte original. Si, en revanche, la valeur relative, qui est passée à 50 %, est choisie comme base, on obtient une augmentation de 10 fois la valeur initiale.

Comment déterminer la valeur de l’Inverse Document Frequency (IDF) ?

L’Inverse Document Frequency (FDI) est une valeur qui mesure la signification d'un terme non pas en fonction de sa fréquence dans un document particulier, mais en fonction de sa distribution et de son utilisation dans l'ensemble des documents : plus un terme a de potentiel, plus l’Inverse Document Frequency est élevée. Idéalement, un terme apparaît très fréquemment dans quelques textes seulement. Les mots qui apparaissent dans presque tous les documents ou très rarement n'ont que peu d'importance. Par exemple, le mot « Impressum » a une valeur IDF très faible car il est utilisé dans presque tous les projets Web.

Pour calculer la valeur de l’Inverse Document Frequency, il faut utiliser la formule suivante, qui utilise également un logarithme pour réguler les résultats :

Les différentes composantes de l’équation de la FID peuvent être expliquées comme suit :

i

Terme dont l’Inverse Document Frequency doit être déterminée

log

Logarithme du nombre x en base 10 ou en toute autre base b

ND

Nombre de tous les documents dans le corps du document (qui contiennent les termes pertinents)

fi

Nombre de tous les documents dans lesquels le terme « i » apparaît

Pour déterminer la valeur IDF d’un terme « i », il faut diviser le nombre total de tous les documents (et les documents pertinents) contenus dans le corpus par le nombre de documents contenant le terme, puis ajouter le chiffre 1. On déduit ensuite le logarithme « log » du résultat de ce calcul.

Comment calculer le nombre de documents pertinents dans le corpus ?

Avec ND, la formule de l’IDF contient un composant qui ne peut être déterminé de façon uniforme. C'est plutôt le résultat de la fréquence de tous les mots pertinents dans le document examiné ainsi que du nombre absolu de documents sous-jacents. Cependant, dans le cadre d’une analyse de documents Web à des fins de référencement, le nombre total potentiel est énorme, puisque toutes les pages indexées par Google (ou tout autre moteur de recherche) sont éligibles. Afin d’obtenir une valeur concrète, le nombre de résultats de recherche de tous les termes pertinents dans le document est déterminé et ajouté. Dans un document très simplifié ne contenant que les deux mots « optimisation pour les moteurs de recherche » (22 200 000 résultats en octobre 2018) et « analyse Web » (319 000 000 résultats en octobre 2018), ND a une valeur de 341 200 000.

TF-IDF : la combinaison des deux formules

Etant donné que le Term Frequency représente la pertinence d’un terme dans un document donné et que l’Inverse Document Frequency peut refléter le rôle d’un terme par rapport à tous les documents d’un corpus, la combinaison des deux valeurs permet de bien comprendre la fréquence réelle des termes et le potentiel de chaque terme pour optimiser le texte existant. Pour ce faire, il suffit de multiplier les deux valeurs entre elles, ce qui donne la formule générale suivante pour l'analyse TF-IDF et la détermination d’une fréquence de termes aussi exacte et utilisable que possible :

En principe, tous les éléments importants sont réunis pour déterminer la valeur des termes utilisés dans les textes Web. Bien sûr, plus la base de données est grande, plus les résultats sont significatifs. Pour que l’analyse TF-IDF en SEO soit utile, elle doit être effectuée pour tous les mots pertinents d’un document. Manuellement, cela impliquerait simplement beaucoup trop d’efforts, c'est pourquoi l’outil TF-IDF est obligatoire pour le calcul du poids des mots-clés. Ces programmes (voir ci-dessous) permettent d’analyser le matériel textuel existant. Ils fournissent également des indications sur les termes qui manquent à un document pour qu’il soit aussi unique et pertinent que possible.

En résumé

La fréquence d’un terme « i » dans le document « j » peut être déterminée en multipliant le Term Frequency « i » dans le document « j » par l’Inverse Document Frequency « i » dans l’ensemble des documents.

Les avantages du TF-IDF en SEO

Les avantages d’une analyse TF-IDF approfondie sont évidents : les valeurs obtenues pour la pondération des termes centraux servent de points de référence parfaits pour écrire des textes :

  • Pertinents pour les moteurs de recherche
  • Qui couvrent des sujets avec une faible concurrence
  • Qui ne contiennent pas de bourrage de mots-clés
  • Qui contiennent des mots-clés aussi uniques que possible

Ainsi, si vous n'êtes pas satisfait du classement de vos propres sites Web et que vous souhaitez les optimiser, vous avez de puissants alliés avec les valeurs TF-IDF. Sur la base des données d’analyse, les rédacteurs peuvent recevoir des directives concrètes pour la révision du contenu, qui ne visent pas simplement à augmenter la densité des mots clés ou à incorporer d'autres mots clés dans le texte.

Note

Malgré l’importance d’une analyse TF-IDF approfondie, vous ne devez jamais oublier que le contenu est écrit principalement pour les lecteurs et non pour les moteurs de recherche. Comme ces derniers sont aussi de plus en plus doués pour appréhender les textes de manière sémantique, il vaut mieux rédiger un contenu fort où les mots-clés ne joueront qu’un rôle partiel sur le long terme.

Quelles sont les faiblesses de l’analyse TF-IDF ?

Même si la valeur TF-IDF fournit des données très utiles pour l'optimisation de site Web, il y a encore quelques points qui doivent être pris en compte avant l’analyse et l’évaluation ultérieure des résultats. Par exemple, un des problèmes fondamental est qu’une analyse TF-IDF en SEO inclut toujours tous les éléments de texte d’un document, qu’il s’agisse d’en-têtes, de descriptions de catégories ou de produits, ou de légendes d’images. Il n’y a pas de différenciation entre les différents composants. Même dans le cas où seul un certain paragraphe contient trop ou pas assez de mots-clés, la procédure d’analyse ne vous fournira pas une réponse satisfaisante, puisque la pondération en fréquence est toujours évaluée sur l’ensemble du document.

Conseil

Avant d’envisager une analyse TF-IDF pour votre site Web, vous devez vérifier soigneusement si le contenu intégré convient à la méthode d'analyse de fréquence. En outre, les résultats obtenus devront être remis en question de manière critique afin d'éviter d'éventuelles conclusions erronées, en raison d'une base de données trop restreinte par exemple.

Une autre faiblesse de la formule TF-IDF est qu’elle ne devient intéressante qu’avec un nombre de mots élevé. Dans le cas de textes plus courts comme des descriptions de produits, des entrées de blog plus petites ou des articles de presse, l’analyse ne fournit pas de résultats significatifs et utilisables. C’est pourquoi elle n’est souvent pas adaptée à certains projets Web comme les boutiques en ligne ou les portails d’information. Pour des sites Web comme celui-ci, qui sont largement basés sur le travail éditorial, l’inconvénient est que l'analyse TF-IDF est difficile à intégrer dans le processus de travail quotidien. Nous nous basons principalement sur des temps de réponse rapides et un suivi de l’actualité. Seule une optimisation ultérieure des textes publiés serait une solution réalisable, mais en même temps très complexe.

Avantages et inconvénients de l’analyse TF-IDF en tableau récapitulatif

Avantages de l’analyse TF-IDF

Inconvénients de l’analyse TF-IDF

donne une grande chance de découvrir le bourrage de mots-clés existant

examine toujours le contenu rédactionnel complet d'un document

privilégie la pertinence et la singularité en tant que critères décisifs pour la pondération des fréquences

ne fournit pas d’informations sur les paragraphes ou passages précis qui ont besoin d'être optimisés

évalue mieux les mots-clés avec une concurrence moindre que ceux avec une forte concurrence

ne convient pas aux textes courts contenant peu de mots

combine les disciplines de l’analyse spécifique aux documents et de l’analyse générale

difficile à utiliser dans les processus de travail où la rapidité et la réactivité sont requises

aplanit les résultats en utilisant des logarithmes pour obtenir des données plus pertinentes

difficile de déterminer avec précision le nombre de tous les documents pertinents

Quels sont les outils TF-IDF disponibles ?

Plusieurs outils peuvent vous permettre d’effectuer une analyse TF-IDF. Il faut faire la distinction entre les applications qui sont entièrement intégrées à des logiciels de référencement et celles qui sont également indépendantes. En fonction de l’étendue des fonctions et des possibilités d’utilisation, les différents outils se distinguent par leur coût. Pour vous donner un petit aperçu de la variété des applications, nous avons compilé quelques-uns des meilleurs outils TF-IDF dans la liste suivante :

  • OnpageDoc : si vous souhaitez analyser et optimiser le statut SEO de votre projet Web, vous aurez tous les outils nécessaires avec SEO PowerSuite. Il existe trois niveaux de souscription : gratuit, professionnel et entreprise. Il vous faudra payer pour profiter pleinement des diverses fonctions disponibles pour vérifier et améliorer les mots-clés, les méta-tags, les backlinks ou encore suivre les publicités, le trafic, et les réseaux sociaux. Le programme comprend également un outil TF-IDF pour l’analyse du poids des mots-clés et la comparaison concurrentielle ciblée.
  • SEOlyze : les analyses et recherches sémantiques basées sur le score TF-IDF peuvent également être effectuées facilement avec le module d’analyse de contenu SEOlyze, qui est payant. Le produit de la société Helminger GmbH basée en Autriche se concentre sur les possibilités de perfectionnement du contenu des sites Web et propose différents outils à cet effet, tels qu'un outil de recherche, un vérificateur de duplicat ou des analyses de lisibilité (formule de texte factuel). Cependant, le cœur de ce logiciel est la fonction d'analyse TF-IDF complète, dont les résultats peuvent être implémentés directement dans l’interface SEOlyze grâce à l’éditeur intégré. En plus de la TF-IDF Tool, ce programme spécialisé dans le SEO contient diverses options de suivi de classement ainsi que d’autres outils d'optimisation générale des pages (analyse de mots-clés, vérification des métadonnées, des images, des liens, etc.).
  • XOVI : la société XOVI GmbH de Cologne, qui fait partie de l'entreprise de logiciels mondiale Plesk depuis 2017, fournit à ses clients une suite SEO sans faille qui répond à presque tous les besoins. La XOVI Toolbox, payante et disponible en trois modèles d’utilisation différents (Pro, Business et Enterprise), comprend des outils pour suivre les publicités, le trafic, les mots-clés, les backlinks et les médias sociaux. XOVI TextOptimizer inclut également un outil de texte TF-IDF qui non seulement calcule la pertinence des termes utilisés et fait des suggestions pour d'autres termes basés sur les dix premières pages de résultats de recherche Google, mais permet également une édition directe.
  • Seobility : sur sa page d’accueil, Seobility GmbH de Nuremberg propose différents outils de référencement gratuits, y compris un outil TF-IDF simple d’utilisation. L’application Web permet aux utilisateurs d'analyser le poids d'un terme en fonction de la formule TF-IDF. La tool affiche également d'autres termes (y compris la valeur de fréquence) qui correspondent au mot recherché. L’accès au programme Seobility est limité à trois utilisations par jour et par utilisateur. Les utilisateurs qui créent un compte peuvent effectuer des réglages de recherche avancée et, par exemple, ajuster la base du logarithme, augmenter le nombre de résultats de recherche pris en compte ou sélectionner la plateforme (bureau/mobile) pour laquelle ils souhaitent optimiser.