En tant que système d’autoapprentissage, RankBrain recourt à son expérience avec des recherches Web effectuées précédemment, établit des liens entre les recherches et les résultats consultés, afin de déterminer les réponses convenant le mieux aux attentes de l’utilisateur. Il s’agit ici de résoudre les ambiguïtés et d’interpréter les notions inconnues jusqu’ici (néologismes par exemple).
Google ne révèle toutefois pas comment le système d’intelligence artificielle répond à ce défi. Les experts en SEO supposent toutefois que RankBrain transmet des vecteurs de mots sous une forme permettant aux ordinateurs d’interpréter des contextes.
Google a lancé dès 2013 un logiciel d’autoapprentissage informatique open source du nom de Word2Vec. Ce logiciel établissait des relations sémantiques entre les mots, les mesurait et les comparait. Le corpus linguistique constituait la base de cette analyse.
Pour apprendre des liens de contexte entre les mots, Word2Vec créait un espace vectoriel à n dimensions, dans lequel chaque mot du corpus de texte sous-jacent (ou données d’apprentissage) est représenté en tant que vecteur. n indique ici le nombre de dimensions vectorielles imagées par un mot. Plus il y a de dimensions choisies pour les vecteurs de mots, plus le programme parcourt de relations avec d’autres mots.
Dans la seconde étape, l’espace vectoriel ainsi créé est alimenté dans un réseau neuronal artificiel, permettant d’adapter un algorithme d’apprentissage pour faire en sorte que les mots utilisés dans un même contexte forment également un même vecteur de mots. La similitude entre les vecteurs de mots est calculée avec ce qu’on appelle la distance du cosinus, d’une valeur entre -1 et +1.
En résumé, pour tout texte entré en input sur Word2Vec, ce dernier délivre les vecteurs de mots correspondants comme output. Ces derniers permettent une évaluation de la proximité sémantique ou de la distance des mots contenus dans le corpus. Si Word2Vec est confronté à un nouvel input, le programme est en mesure d’adapter l’espace vectoriel et de créer ainsi le rapport d’interprétation, ou de rejeter d’anciennes hypothèses grâce à l’algorithme d’apprentissage : c’est de cette façon que se forme le réseau neuronal.