Nous vivons dans une société de l’in­for­ma­tion. Les données, les faits et les con­nais­sances sont beaucoup plus im­por­tants qu’il y a un demi-siècle. En même temps, grâce à Internet, il y a de plus en plus d’in­for­ma­tions dis­po­nibles. Mais celles-ci doivent aussi être ré­cu­pé­rées, et c’est ici qu’in­ter­vien­nent les moteurs de recherche. Mais comment ob­tien­nent-ils à leur tour les données qu’ils pro­dui­sent ? C’est ce que l’on appelle la recherche d’in­for­ma­tions. La recherche d’in­for­ma­tions, également appelée ré­cu­pé­ra­tion d’in­for­ma­tions, est une dis­ci­pline distincte de l’in­for­ma­tique et des sciences de l’in­for­ma­tion, et revêt une grande im­por­tance pour les moteurs de recherche. À l’aide de systèmes de recherche d’in­for­ma­tion assez complexes, ils iden­ti­fient les in­ten­tions derrière certains termes de recherche et lo­ca­li­sent les données per­ti­nentes dans les requêtes de recherche.

L’histoire de la recherche d’in­for­ma­tions

La recherche d’in­for­ma­tion consiste à rendre ac­ces­sibles les con­nais­sances exis­tantes. Cela n’a pas seulement été le cas depuis le début de l’ère numérique. Vannevar Bush est l’un des premiers scien­ti­fiques à réfléchir sé­rieu­se­ment à la manière dont l’humanité peut rendre ses con­nais­sances con­cen­trées plus fa­ci­le­ment ac­ces­sibles face à un monde de plus en plus confus. En 1945, il a écrit l’article ré­vo­lu­tion­naire As We May Think, dans lequel il présente une vision de l’avenir de la collecte et de l’or­ga­ni­sa­tion de l’in­for­ma­tion.

Bush voyait dans les sciences le problème suivant : les experts de­vien­nent de plus en plus spé­cia­li­sés et ont donc besoin de plus en plus d’in­for­ma­tions, ce qui, pré­ci­sé­ment à cause de la dif­fé­ren­cia­tion, est de plus en plus difficile à trouver. Il est à noter que c’était à une époque où les bi­blio­thèques étaient encore or­ga­ni­sées avec des blocs-notes ana­lo­giques et des grands ca­ta­logues. Une recherche par mot-clé n’était possible que si un bi­blio­thé­caire cons­cien­cieux s’était donné la peine d’indexer toutes les œuvres ma­nuel­le­ment. M. Bush a vu dans les progrès tech­niques de l’époque, comme les mi­cro­films, une occasion de rendre l’in­for­ma­tion plus fa­ci­le­ment ac­ces­sible. Sa propre vision s’appelait Memex, une machine aussi grande qu’un bureau, qui devait servir de réservoir de con­nais­sances et d’appareil de recherche. Memex n’a jamais été construit, mais la tech­no­lo­gie qui consiste à faire passer l’uti­li­sa­teur d’un article à l’autre, peut être con­si­dé­rée comme un pré­cur­seur de l’hy­per­texte.

Dans les années 1950, l’in­for­ma­ti­cien Hans Peter Luhn s’est par­ti­cu­liè­re­ment intéressé aux tâches d’ac­qui­si­tion de l’in­for­ma­tion et a développé des tech­niques qui sont toujours d’actualité : en effet, c’est sur ses re­cherches que sont basés le trai­te­ment de texte intégral, l’in­dexa­tion au­to­ma­tique et le trai­te­ment sélectif de l’in­for­ma­tion (SDI). Ces méthodes ont été d’une grande im­por­tance pour le dé­ve­lop­pe­ment d’Internet car il est in­dis­pen­sable, dans le flot d’in­for­ma­tions du Web, d’utiliser des systèmes de recherche d’in­for­ma­tions. Sinon, nous n’ob­tien­drions jamais les réponses dont nous avons besoin.

Recherche d’in­for­ma­tion : dé­fi­ni­tion

L’objectif de la recherche d’in­for­ma­tion (In­for­ma­tion retrieval ou IR en anglais) est de rendre les données stockées au­to­ma­ti­que­ment con­sul­tables. Con­trai­re­ment au Data-Mining, qui sert à extraire des struc­tures à partir d’ensembles de données, l’IR s’intéresse au filtrage de certaines in­for­ma­tions d’un ensemble de données. Le domaine d’ap­pli­ca­tion typique est un moteur de recherche sur Internet. Les systèmes de recherche d’in­for­ma­tion résolvent ici deux problèmes prin­ci­paux :

  1. Flou : les requêtes des uti­li­sa­teurs sont souvent im­pré­cises, et le terme de recherche saisi laisse place à l’in­ter­pré­ta­tion. Si, par exemple, vous re­cher­chez le terme « banque », vous pouvez avoir besoin d’in­for­ma­tions sur les opé­ra­tions bancaires en général ou des in­di­ca­tions pour vous rendre à l’ins­ti­tu­tion fi­nan­cière la plus proche. Le problème est exacerbé lorsque les uti­li­sa­teurs eux-mêmes ne savent pas encore exac­te­ment quel type d’in­for­ma­tion ils veulent trouver.
  2. In­cer­ti­tude : le contenu des in­for­ma­tions stockées peut ne pas être suf­fi­sam­ment connu du système. Il en résulte des résultats in­cor­rects. C’est le cas, par exemple, des homonymes ou des termes po­ly­sé­miques. Ainsi, un uti­li­sa­teur qui tape « jumelles » peut aussi bien s’in­té­res­ser à un ins­tru­ment d’ob­ser­va­tion qu’à la gémellité.

En outre, le système de recherche d’in­for­ma­tion devrait également évaluer l’in­for­ma­tion afin de fournir à l’uti­li­sa­teur une séquence de données. Le premier résultat devrait donc idéa­le­ment fournir la meilleure réponse à la question de l’uti­li­sa­teur.

Pré­sen­ta­tion de dif­fé­rents modèles

Il existe dif­fé­rents modèles de recherche d’in­for­ma­tion. Ils ne s’annulent pas né­ces­sai­re­ment entre eux, mais peuvent au contraire être combinés. Il existe aujourd’hui de nombreux modèles de ce type, dont certains ne diffèrent que par les détails. On peut toutefois les diviser en trois grandes ca­té­go­ries :

  • Modèles théo­riques de quantité : les relations de si­mi­li­tude sont dé­ter­mi­nées par des opé­ra­tions de quantité (modèle booléen).
  • Modèles al­gé­briques : les si­mi­la­ri­tés sont dé­ter­mi­nées par paires ; les documents et les requêtes de recherche peuvent être affichés sous forme de vecteurs, matrices ou tuples (modèle vectoriel spatial).
  • Modèles pro­ba­bi­listes : ces modèles éta­blis­sent des relations de si­mi­la­rité en con­si­dé­rant les ensembles de données comme des ex­pé­riences aléa­toires à plusieurs degrés.

Dans ce qui suit, nous pré­sen­tons les trois modèles ar­ché­ty­paux de ces ca­té­go­ries. Les autres modèles existants sont prin­ci­pa­le­ment des formes mixtes des trois types. Ainsi, le modèle booléen étendu possède les pro­prié­tés des modèles théo­riques et al­gé­briques.

Modèle booléen

Les moteurs de recherche les plus connus sur le Web sont basés sur le principe booléen. Ce sont des liens logiques qui per­met­tent aux uti­li­sa­teurs d’affiner la recherche. Avec AND, OR ou NOT (AND, OR, OR, NOT) ou les symboles cor­res­pon­dants ∧, ∨ ou ¬ une requête peut être spécifiée, par exemple si les deux termes doivent ap­pa­raître dans le résultat, ou si le contenu avec un certain terme doit être masqué. Ce principe est également suivi par les opé­ra­teurs de Google. L’in­con­vé­nient de ce système est qu’il ne prévoit aucun clas­se­ment des résultats. Un ordre selon l’utilité a du sens, mais la méthode fournit un ordre aléatoire.

Modèle spatial vectoriel

Dans une approche ma­thé­ma­tique, le contenu peut également être re­pré­senté sous forme de vecteurs. Dans le modèle vectoriel spatial, les termes sont car­to­gra­phiés comme axes de coor­don­nées. Les documents et les requêtes de recherche reçoivent des valeurs spé­ci­fiques par rapport au terme et peuvent donc être affichés sous forme de points ou de vecteurs dans un espace vectoriel. Les deux vecteurs sont ensuite comparés l’un à l’autre. Le vecteur (c’est-à-dire le contenu) le plus similaire à celui de la requête de recherche doit ap­pa­raître en premier dans le clas­se­ment des résultats. L’in­con­vé­nient ici, c’est qu’aucun terme ne peut être exclu sans opé­ra­teurs booléens.

Modèle pro­ba­bi­liste

Le modèle pro­ba­bi­liste est basé sur la théorie des pro­ba­bi­li­tés. Une valeur de pro­ba­bi­lité est attribuée à chaque contenu. Les résultats sont triés en fonction de la pro­ba­bi­lité avec laquelle ils cor­res­pon­dent à l’intention de recherche. Le modèle utilise ce que l’on appelle le retour d’in­for­ma­tion sur la per­ti­nence pour dé­ter­mi­ner dans quelle mesure les chances qu’un contenu donné réponde aux souhaits de l’uti­li­sa­teur sont élevées. Par exemple, on demande aux uti­li­sa­teurs d’évaluer les résultats ma­nuel­le­ment. Dans la requête identique suivante, le modèle affiche une liste de résultats dif­fé­rente (et peut-être meilleure). L’in­con­vé­nient de cette procédure est qu’elle repose sur deux con­di­tions qui ne sont pas certaines : d’une part, le modèle suppose que les uti­li­sa­teurs sont disposés à par­ti­ci­per au système grâce à leur ré­troac­tion. D’autre part, la théorie suppose que les uti­li­sa­teurs voient les résultats in­dé­pen­dam­ment les uns des autres, c’est-à-dire qu’ils évaluent chaque contenu comme s’il s’agissait du premier qu’ils lisent en relation avec la requête de recherche. Dans la pratique, cependant, les cher­cheurs évaluent toujours l’utilité de l’in­for­ma­tion en fonction du contenu qui a déjà été consulté.

Fonctions de recherche d’in­for­ma­tion

La recherche d’in­for­ma­tions utilise dif­fé­rentes méthodes et tech­niques de travail, in­dé­pen­dam­ment des modèles. Leur but est toujours de permettre à l’uti­li­sa­teur de trouver plus fa­ci­le­ment des in­for­ma­tions et d’obtenir des résultats plus per­ti­nents.

Term Frequency-Inverse Document Frequency

L’im­por­tance d’un terme pour une requête de recherche est calculée par la com­bi­nai­son de la fréquence d’oc­cur­rence des termes et de la fréquence inverse du document. La valeur est abrégée en TF-IDF.

  • Term Frequency : la densité des termes de recherche spécifie la fréquence à laquelle un terme apparaît dans un document. Cependant, la fréquence pure de l’oc­cur­rence ne peut pas être une in­di­ca­tion unique de la per­ti­nence du texte. En effet, le terme de recherche peut ap­pa­raître plus fré­quem­ment dans un document long que dans un document court. Par con­sé­quent, la fréquence doit être con­si­dé­rée par rapport à la taille d’un document. Pour ce faire, la fréquence du terme de recherche est divisée par la fréquence du mot de fréquence le plus élevé (par exemple « et ») :
  • Inverse Document Frequency : pour IDF, on ne considère pas seulement un seul document, mais un corpus de textes complet. Les mots que l’on ne trouve que dans très peu de documents, mais aussi très fré­quem­ment, sont plus per­ti­nents que ceux que l’on trouve dans presque tous les textes. Par exemple, la « Inverse Document Frequency » a une valeur beaucoup plus élevée que « et ».

En combinant les deux tests, les systèmes de recherche d’in­for­ma­tion peuvent donner de meilleurs résultats que s’ils étaient utilisés seuls : si seul le Term Frequency était important, la requête de recherche « Des racines et des ailes » es­ti­me­rait fortement les documents dans lesquels les mots « des », et « et » ap­pa­rais­sent fré­quem­ment. Mais ce n’est évi­dem­ment pas très utile. Si, par contre, on consulte la fréquence des documents inverses, les termes « diffusion », « émission » et « racines » de­vien­nent beaucoup plus per­ti­nents pour la recherche, et sont reconnus comme les termes de recherche réels.

Mo­di­fi­ca­tion de la requête

Les uti­li­sa­teurs eux-mêmes cons­ti­tuent un problème majeur dans l’obtention de l’in­for­ma­tion : par des demandes trop im­pré­cises, voire inexactes, ils reçoivent en effet des in­for­ma­tions erronées ou in­suf­fi­santes. Pour éviter cela, les scien­ti­fiques de l’in­for­ma­tion ont introduit la mo­di­fi­ca­tion de requête (query mo­di­fi­ca­tion en anglais). Le système modifie au­to­ma­ti­que­ment la requête de recherche saisie. Par exemple, on utilise des synonymes qui donnent de meilleurs résultats. Le système utilise, entre autres, des thésaurus et des com­men­taires des uti­li­sa­teurs dans ce but. Afin de ne pas dépendre de la coo­pé­ra­tion de l’uti­li­sa­teur, on peut également utiliser une sorte de feedback. Avec cette méthode, le système lit les termes ap­pa­ren­tés dans les meilleurs résultats de recherche et les évalue comme per­ti­nents pour la recherche cor­res­pon­dante. Ces tech­niques peuvent être utilisées, entre autres, pour étendre ou améliorer les demandes :

  • Éli­mi­na­tion des mots vides : les mots vides sont des ex­pres­sions qui ne con­tri­buent pas ou seulement de manière in­sig­ni­fiante au contenu du texte. Il est utile de ne pas con­si­dé­rer des mots tels que « et » ou tous les articles comme re­pré­sen­ta­tifs du contenu du document.
  • Iden­ti­fi­ca­tion des groupes de mots multiples : les groupes de mots doivent être reconnus comme tels. Cette iden­ti­fi­ca­tion garantit que le moteur de recherche considère également les parties de mots composés comme per­ti­nentes.
  • Réduction de la forme de base et de la forme racine : pour une recherche plus efficace, les mots doivent être réduits à leur forme racine. Sinon, les formes de flexion d’un mot n’ap­pa­raî­traient pas cor­rec­te­ment dans les résultats de recherche.
  • Thésaurus : outre les termes figurant dans le document cor­res­pon­dant, un système de recherche d’in­for­ma­tion devrait également con­si­dé­rer les synonymes du mot comme per­ti­nents. C’est la seule façon de s’assurer que les uti­li­sa­teurs trouvent ce qu’ils cherchent.

Précision et rappel

L’ef­fi­ca­cité d’un système de recherche d’in­for­ma­tion est gé­né­ra­le­ment calculée à l’aide des facteurs rappel (recall) et précision. Les deux sont affichés sous forme de quotients.

  • Rappel : dans quelle mesure les résultats de la recherche sont-ils complets ? Pour répondre à cette question, le nombre de documents per­ti­nents trouvés est comparé au nombre de documents non trouvés et per­ti­nents. Le quotient indique la pro­ba­bi­lité qu’un document pertinent soit trouvé :
  • Précision : quel est le résultat exact de la recherche ? Pour répondre à cette question, le nombre de documents trouvés et per­ti­nents est comparé au nombre de documents trouvés et non per­ti­nents. Le quotient indique donc la pro­ba­bi­lité qu’un document trouvé soit pertinent :

Les deux valeurs se situent fon­da­men­ta­le­ment entre 0 et 1, où 1 serait une valeur parfaite. De plus, les résultats parfaits dans les deux quotients s’excluent mu­tuel­le­ment dans la pratique. Ceux qui aug­men­tent l’ex­haus­ti­vité du résultat de la recherche le font au détriment de l’exac­ti­tude et in­ver­se­ment. Une autre valeur qui peut être calculée est le taux de retombées (c’est-à-dire le taux d’échec) : ce quotient re­pré­sente le taux de faux positifs ; il est déterminé à partir du rapport entre les documents non per­ti­nents trouvés et le contenu non pertinent qui n’a pas été trouvé. Le rappel et la précision peuvent être affichés dans un diagramme d’axes dans lequel chacune des deux valeurs occupe un axe.

Recherche d’in­for­ma­tion : exemple d’une recherche

Chaque moteur de recherche sur Internet est basé sur la recherche d’in­for­ma­tions. Google, Bing et Yahoo seraient donc des exemples éminents de collecte d’in­for­ma­tions assistée par or­di­na­teur. Toutefois, pour montrer comment fonc­tionne l’IR dans la pratique, il est plus judicieux de prendre un exemple plus simple du vôtre. Nous supposons un moteur de recherche dans une (très petite) bi­blio­thèque de livres pour enfants. Tous les livres con­tien­nent des animaux, mais nous sou­hai­tons seulement trouver des livres dans lesquels les éléphants et les girafes jouent un rôle, pas les cro­co­diles. Une requête de recherche utilisant la méthode booléenne res­sem­ble­rait donc à ceci : Éléphant ET Girafe PAS Crocodile. Le résultat de la recherche ne peut toujours être que 1 ou 0 : le terme est-il présent ou non ?

  Je mangerais bien un enfant Petite girafe est surprise L’affaire de l’éléphant en pan­toufles Elmer Moi pas, moi aussi
Éléphant 0 1 1 1 1
Girafe 0 1 1 1 0
Crocodile 1 0 0 1 0
Chien 0 0 0 0 1
Lion 0 0 0 1 0
Tigre 0 0 0 1 0

Le résultat de la recherche serait donc Petite girafe est surprise et L’affaire de l’éléphant en pan­toufles. Toutefois, cela ne signifie pas encore que les résultats sont pondérés. Quel livre est plus sur les éléphants et les girafes ? Pour répondre à cette question, le système peut dé­ter­mi­ner la fréquence du terme et la fréquence inverse. (Les valeurs ci-dessous sont données à titre indicatif).

Ainsi, Petite girafe est surprise est pro­ba­ble­ment mieux adapté à la recherche d’un texte avec des girafes et des éléphants que L’affaire de l’éléphant en pan­toufles, et devrait donc ap­pa­raître en premier dans les résultats de recherche. La méthode que nous avons utilisée ici ne fonc­tionne que si les termes de recherche sont spécifiés (in­dexa­tion contrôlée). Ceci peut être le cas, par exemple, dans les bases de données spé­cia­li­sées où les uti­li­sa­teurs sont formés à l’uti­li­sa­tion du masque de recherche. Dans notre exemple, une mo­di­fi­ca­tion de la requête serait utile : outre « éléphant », une recherche de « pa­chy­dermes » ainsi que des variantes gram­ma­ti­cales de ces mots don­ne­raient des résultats positifs.

Conseil

Outre Google, il existe de nombreux autres moteurs de recherche. Les al­ter­na­tives à Google sont par exemple souvent plus at­ten­tives à la pro­tec­tion des données.

Aller au menu principal