Les différentes composantes de l’équation peuvent être expliquées comme suit :
i | Terme dont le Term Frequency dans le document doit être déterminé |
j | Document analysé |
Lj | Nombre total de mots dans le document « j » |
Freq(i,j) | Fréquence d'un mot « i » dans le document « j » |
log2 | Logarithme du nombre x en base 2 |
Ainsi, la valeur TF d’un terme « i » dans le document « j » est déterminée en ajoutant la fréquence du terme à « 1 » et en la divisant par le nombre total de mots dans ce document. Le logarithme « log2 »est appliqué aux deux valeurs, ce qui permet d'obtenir des résultats plus représentatifs de la pertinence du terme que de la détermination de la densité pure des mots clés ou de la fréquence relative. Un exemple pour illustrer cela :
Un terme examiné qui apparaît 50 fois dans un document de 1 000 mots a un Term Frequency arrondi à 0,57. La fréquence relative dans ce cas est de 5 %. Si la fréquence du terme est maintenant augmentée à 500 lors d'une optimisation par exemple, on obtient une valeur WDF de 0,9 (en arrondissant), c'est-à-dire une valeur 1,5 fois plus élevée que dans le texte original. Si, en revanche, la valeur relative, qui est passée à 50 %, est choisie comme base, on obtient une augmentation de 10 fois la valeur initiale.