Supervised Learning : un programme d’études pour les machines

L’apprentissage automatique, l’apprentissage profond, les réseaux de neurones artificiels et les intelligences artificielles deviennent toujours plus sophistiqués. Mais comment les ordinateurs parviennent-ils à penser et résoudre des problèmes par eux-mêmes ? Avant d’y parvenir, même les algorithmes doivent apprendre. Comme à l’école, différentes méthodes peuvent être utilisées pour l’apprentissage automatique. L’apprentissage par renforcement utilise des impulsions. L’apprentissage non supervisé fonctionne sans contrôle des développeurs. Mais qu’en est-il de l’apprentissage supervisé ?

Qu’est-ce que l’apprentissage supervisé ?

L’apprentissage automatique doit permettre aux ordinateurs de reconnaître des modèles et d’apprendre des règles. Plutôt que de réagir à la saisie d’un utilisateur humain, les machines doivent être en mesure de prendre des décisions de façon autonome en se basant sur les règles qu’elles ont apprises. Les algorithmes peuvent par exemple apprendre à identifier correctement les spams ou à comprendre le contenu d’une image. Les développeurs et les scientifiques utilisent différentes méthodes pour les entraîner. La méthode la plus fréquemment utilisée est certainement le Supervised Learning, c’est-à-dire l’apprentissage supervisé.

Dans le Supervised Machine Learning, les développeurs mettent à la disposition des algorithmes un ensemble de données préparées qui serviront de base à l’entraînement. Par conséquent, le résultat est déjà connu. La tâche des algorithmes consiste uniquement à identifier les modèles : c’est-à-dire pourquoi telle information est classée dans la catégorie A et telle autre dans la catégorie B.

L’apprentissage supervisé est donc utilisé pour les algorithmes devant classer des données naturelles (photos, manuscrits, paroles, etc.). Par ailleurs, les problèmes de régression sont l’un des domaines d’application de prédilection de l’apprentissage supervisé. Dans ce cadre, les algorithmes doivent être capables de réaliser des prédictions, par exemple sur l’évolution des prix ou sur l’augmentation de la clientèle.

Il existe une forme mixte appelée apprentissage semi-supervisé. Dans cette méthode d’apprentissage, seule une partie de l’ensemble de données dispose d’étiquettes. Le reste n’est pas classé et doit être attribué par les algorithmes de façon autonome. La reconnaissance faciale de Facebook en est un bon exemple. Il suffit d’indiquer le nom de vos amis sur quelques photos et l’algorithme détermine les autres par lui-même.

L’apprentissage supervisé expliqué à travers un exemple

Supposons par exemple que nous souhaitions entraîner des algorithmes pour différencier des photos de chats de photos de chiens. Les développeurs préparent à cet effet un très vaste ensemble de données comprenant des photos déjà dotées d’une étiquette, c’est-à-dire appartenant déjà à une catégorie. On pourrait alors imaginer trois groupes : chiens, chats et autres. Il est essentiel que l’ensemble de données montre la plus grande diversité possible. Pour faire simple, si les données d’entraînement comportent uniquement des photos de chats noirs, l’algorithme partira du principe que tous les chats ont un pelage noir. L’ensemble de données doit refléter le mieux possible l’éventail de variantes.

Dans le cadre de l’entraînement, l’algorithme reçoit tout d’abord les contenus (non triés), fait un premier choix personnel et le compare avec le résultat spécifié par les développeurs. Le système compare son propre résultat avec le résultat correct et tire des conclusions qui auront un impact sur les prochaines évaluations du système au cours de l’entraînement. L’entraînement se poursuit jusqu’à ce que les évaluations de la machine soient suffisamment proches des résultats corrects.

Pour afficher cette vidéo, des cookies de tiers sont nécessaires. Vous pouvez consulter et modifier vos paramètres de cookies ici.

Avantages et inconvénients du Supervised Machine Learning

Le choix de la méthode dépend fortement des tâches que l’algorithme devra réaliser ultérieurement. Pour les problèmes de régression et de classification, l’apprentissage supervisé est à préférer aux autres méthodes. Généralement, l’apprentissage supervisé permet d’entraîner les algorithmes pour qu’ils soient parfaitement préparés à leur domaine d’application. Cette méthode permet de conserver un contrôle total sur le jeu de formation. Paramétrer correctement les algorithmes est une affaire de temps et de travail. Dans cette méthode, l’accent est clairement mis sur le travail : l’échantillon doit être suffisamment large. L’apprentissage supervisé demande des efforts considérables de la part des développeurs et des scientifiques puisque chaque élément doit être doté d’une étiquette.

Bien que l’effort soit relativement important, il permet de comprendre assez facilement ce qui se passe. Alors que dans l’apprentissage non supervisé, bon nombre de choses restent obscures puisque les algorithmes travaillent sans disposer d’instructions réelles, dans l’apprentissage supervisé, le développeur sait ce que fait la machine. Mais cela peut également être un inconvénient : les algorithmes entraînés fonctionnent dans le cadre des restrictions qui leur ont été imposées. Par conséquent, il est inutile d’en attendre des solutions créatives.

En résumé

Le Supervised Learning est une méthode populaire pour entraîner des algorithmes car les développeurs et les scientifiques peuvent garder un contrôle total. Alors qu’avec d’autres méthodes d’apprentissage, les résultats restent souvent assez vagues, l’apprentissage supervisé permet de savoir d’entrée de jeu ce qu’il ressortira du processus d’apprentissage. Cependant, les efforts à fournir par les personnes chargées de l’apprentissage sont tout aussi conséquents.