Dans un troisième temps, le TALN va amener les linguistes informaticiens à s’intéresser à la sémantique. Même si un mot n’a qu’une seule fonction grammaticale et s’inscrit dans une syntaxe claire, il peut arriver qu’il ait plusieurs significations. On pourra distinguer des sens différents au mot « opéra » ou « addition » par exemple ci-dessous :
L’opéra était très bien mis en scène.
Il n’y avait plus d’opéra au menu.
L’addition était salée.
Pour cet exercice, une addition est nécessaire.
Pour une personne « réelle » et non un ordinateur, il n’y pas de grande ambiguïté dans les deux phrases : alors que dans la première, l’opéra se réfère à une œuvre musicale, il s’agit bien sûr dans la deuxième du nom commun d’un gâteau. Cette différenciation est néanmoins plus complexe pour un ordinateur.
Plus troublant encore, la phrase « Je loue un appartement » ; on peut en effet se demander si la personne définie par « je » est locataire (et donc paie pour bénéficier d’une surface habitable) ou propriétaire (et donc reçoit de l’argent en échange d’un logement proposé à une autre personne).
Afin de comprendre la signification du mot, par exemple de « opéra » dans notre premier exemple, les ordinateurs vont s‘intéresser aux mots qui sont placés avant ou après. Ainsi, la locution « mis en scène » va pouvoir lui supposer qu’il s’agit de l’œuvre musicale tandis que le mot « menu » va être assez explicite pour situer la phrase dans l’univers culinaire. Cet apprentissage est issu généralement des corpus de textes qui permettent de corriger la signification de chaque mot.
Le TALN reste dans tous les cas un domaine d’expertise compliqué : les ordinateurs doivent travailler une batterie d’informations, traiter chaque cas un à un et pour les mots polysémiques, les erreurs arrivent très facilement. La marge de progrès pour le domaine de la pragmatique est encore grande, car le contexte n’est pas encore assez pris en compte. L’ironie, le sarcasme et les métaphores humoristiques sont particulièrement difficiles à comprendre pour les ordinateurs, malgré de nombreuses recherches dans le domaine et un long travail de classification.