La Named Entity Re­cog­ni­tion (NER), en français re­con­nais­sance d’entités nommées, est une sous-dis­ci­pline de la lin­guis­tique in­for­ma­tique, utilisée pour iden­ti­fier des entités nommées (noms) dans un texte et les ca­ta­lo­guer selon des pa­ra­mètres spé­ci­fiques. Cette technique joue un rôle essentiel dans le domaine du Machine Learning.

La Named Entity Re­cog­ni­tion c’est quoi ?

La Named Entity Re­cog­ni­tion (NER) est une dis­ci­pline de la lin­guis­tique in­for­ma­tique qui reconnaît les entités nommées dans les textes et les attribue au­to­ma­ti­que­ment à des ca­té­go­ries spé­ci­fiques. Cette tâche est aussi appelée re­con­nais­sance de noms propres. Les noms propres ou les entités nommées étant des mots isolés ou des séquences de plusieurs mots qui décrivent une entité réelle. Il peut s’agir par exemple d’une personne, d’une en­tre­prise, d’une autorité, d’un événement, d’un lieu, d’un produit spé­ci­fique ou encore d’une date.

Cette dis­ci­pline est également utilisée dans le domaine du Machine Learning et de l’in­tel­li­gence ar­ti­fi­cielle et provient du contexte du trai­te­ment au­to­ma­tique du langage naturel (TALN), dans lequel le langage naturel doit être ca­té­go­risé et traité par des al­go­rithmes, des or­di­na­teurs et des règles pré­dé­fi­nies. Grâce à des avancées continues, la Named Entity Re­cog­ni­tion affiche désormais des taux de réussite con­vain­cants dans de nom­breuses langues, et ne peut guère être dis­tin­guée de l’iden­ti­fi­ca­tion par un être humain.

Outils d'IA
Exploitez toute la puissance de l'in­tel­li­gence ar­ti­fi­cielle
  • Créez votre site Web en un temps record
  • Boostez votre activité grâce au marketing par IA
  • Gagnez du temps et obtenez de meilleurs résultats

Comment fonc­tionne la Named Entity Re­cog­ni­tion ?

La Named Entity Re­cog­ni­tion fait appel à dif­fé­rentes méthodes dé­tail­lées dans cet article. Cependant, quelle que soit la méthode utilisée, deux étapes es­sen­tielles sont cruciales pour assurer le succès de la démarche.

Iden­ti­fi­ca­tion des entités nommées

Cela commence par l’iden­ti­fi­ca­tion pro­pre­ment dite d’une ou de plusieurs entités nommées. Il ne s’agit pas uni­que­ment de noms propres typiques comme « Pierre Dupont ». Des termes comme « Léman », « Seconde Guerre mondiale », « Peugeot », « Vosges », « Jurassic Park » ou « 12 octobre 1986 » sont aussi con­si­dé­rés comme des entités nommées et peuvent donc être reconnus par la Named Entity Re­cog­ni­tion. Une fois que ces noms propres ont été iden­ti­fiés comme tels, leur début et leur fin sont marqués. Ainsi, un système peut les re­con­naître dans un texte naturel.

Ca­té­go­ri­sa­tion des entités nommées

Après iden­ti­fi­ca­tion, les entités nommées marquées sont assignés à des ca­té­go­ries définies. Celles-ci incluent, entre autres, des personnes, des lieux, des évé­ne­ments his­to­riques, des en­tre­prises, des ins­ti­tu­tions, des produits, des dates ou encore des titres de médias et des œuvres d’art. Il est essentiel que la Named Entity Re­cog­ni­tion soit capable de re­con­naître les variantes d’une même entité et que les points de début et de fin définis soient per­ti­nents.

Quelles sont les pro­cé­dures de NER ?

Bien que les deux étapes de travail de la Named Entity Re­cog­ni­tion (NER) soient toujours né­ces­saires, il existe dif­fé­rentes pro­cé­dures et méthodes pour obtenir les résultats souhaités. Découvrez les quatre approches les plus courantes et les plus efficaces.

Analyse à l’aide de dic­tion­naires

La méthode la plus simple consiste pro­ba­ble­ment à comparer les entités à divers dic­tion­naires. Dès qu’il y a une cor­res­pon­dance entre un mot ou une suite de mots et un nom propre dans un dic­tion­naire, celui-ci est marqué comme entité nommée, puis classé dans la catégorie cor­res­pon­dante.

Named Entity Re­cog­ni­tion basée sur des règles

Des règles définies peuvent aussi servir de base à la Named Entity Re­cog­ni­tion. Pour cela, des modèles sont élaborés et comparés aux textes existants. En cas de con­cor­dance, les entités sont iden­ti­fiées et ca­té­go­ri­sées. Cette méthode basée sur des règles convient par­ti­cu­liè­re­ment pour certains textes spé­cia­li­sés, mais elle n’est pas idéale pour une uti­li­sa­tion à grande échelle.

Machine Learning et IA

Les meilleurs résultats sont obtenus avec les méthodes basées sur le Machine Learning ou l’IA. Ces méthodes s’appuient sur des ensembles de données qui servent à entraîner les systèmes cor­res­pon­dants. L’iden­ti­fi­ca­tion des cor­ré­la­tions sta­tis­tiques joue un rôle par­ti­cu­liè­re­ment important dans ce processus. Une fois l’en­traî­ne­ment terminé, l’IA est capable d’analyser des textes inconnus, de re­con­naître les entités nommées et de les attribuer à une catégorie ap­pro­priée. Le principe est le suivant : plus les données d’en­traî­ne­ment sont complètes et équi­li­brées, meilleurs seront les résultats.

Méthode hybride de NER basée sur des règles et soutenue par l’IA

Une approche hybride de Named Entity Re­cog­ni­tion basée sur des règles et assistée par l’IA peut aussi donner de très bons résultats. Dans ce cas, les entités simples sont iden­ti­fiées par le catalogue de règles et les entités plus complexes sont trouvées et ca­ta­lo­guées par l’in­tel­li­gence ar­ti­fi­cielle.

Quels sont les domaines d’ap­pli­ca­tion de la NER ?

Il existe de nombreux domaines d’ap­pli­ca­tion actuels ou po­ten­tiels pour la Named Entity Re­cog­ni­tion. En voici quelques-uns parmi les plus notables :

  • Analyse des sen­ti­ments : la Named Entity Re­cog­ni­tion est déjà utilisée pour évaluer les retours clients et les tendances. L’IA identifie, par exemple, les mentions sur les marques, les avis sur des produits ou d’autres réactions.
  • Business In­tel­li­gence : la NER est utilisée pour trans­for­mer des textes non struc­tu­rés en données struc­tu­rées. Cela est par­ti­cu­liè­re­ment utile dans le domaine de la collecte d’in­for­ma­tions et aide à l’analyse de documents fi­nan­ciers.
  • An­no­ta­tion de données : l’an­no­ta­tion de données permet de dé­ve­lop­per et d’entraîner des modèles améliorés pour la tra­duc­tion, la clas­si­fi­ca­tion et l’analyse de textes. La Named Entity Re­cog­ni­tion joue un rôle clé dans ce processus.
  • As­sis­tance numérique : la Named Entity Re­cog­ni­tion est idéale pour des services tels que les chatbots ou autres as­sis­tants nu­mé­riques. Elle analyse les demandes des uti­li­sa­teurs et, sur cette base, fournit des réponses adaptées et précises.
  • Éti­que­tage : Cette méthode est utilisée pour extraire des in­for­ma­tions, telles que des noms de personnes ou des lieux, à partir de dif­fé­rents articles et les stocker ensuite en tant que mé­ta­don­nées.
  • Moteurs de recherche : cette méthode permet d’évaluer et d’améliorer les al­go­rithmes de recherche. Les moteurs de recherche peuvent ainsi fournir des résultats encore plus per­ti­nents.
  • Réseaux neuronaux : la NER est aussi utilisée dans le domaine de la Long Short-Term Memory (LSTM) et dans des tech­niques si­mi­laires.

Quels sont les problèmes liés à la Named Entity Re­cog­ni­tion ?

Bien que la Named Entity Re­cog­ni­tion progresse ra­pi­de­ment et produise déjà des résultats re­mar­quables, plusieurs défis restent encore à surmonter con­cer­nant cette tech­no­lo­gie. En l’oc­cur­rence, l’adap­ta­tion des modèles entraînés dans des textes spé­cia­li­sés n’aboutit pas toujours aux résultats attendus. Cela est par­ti­cu­liè­re­ment vrai lorsque les données utilisées pour le Transfer Learning ne sont pas suf­fi­sam­ment nom­breuses ou spé­ci­fiques. En raison de nouvelles entités, les modèles sont souvent con­traints de s’appuyer sur des ensembles de données trop res­treints. Une solution possible réside dans les approches Zero Shot Learning (ap­pren­tis­sage sans exemple) ou Few Shot Learning (ap­pren­tis­sage par petites touches ou micro-ap­pren­tis­sage), qui per­met­tent de tra­vail­ler avec un volume de données réduit tout en obtenant des résultats sa­tis­fai­sants.

Aller au menu principal