Lors du Semi-Su­per­vi­sed Learning, un modèle est entraîné à la fois avec des données éti­que­tées et non éti­que­tées. L’al­go­rithme apprend ainsi à re­con­naître des motifs dans les instances de données sans variable cible connue, à partir de quelques points de données étiquetés. Cette approche conduit à une mo­dé­li­sa­tion plus précise et efficace.

Qu’est-ce que le Semi-Su­per­vi­sed Learning ?

Le Semi-Su­per­vi­sed Learning (en français appelé « ap­pren­tis­sage semi-supervisé » ou « ap­pren­tis­sage semi-encadré ») est une approche hybride dans le domaine de l’ap­pren­tis­sage au­to­ma­tique, qui combine les avantages de l’ap­pren­tis­sage supervisé et non supervisé. Ce processus utilise une petite quantité de données éti­que­tées avec une grande quantité de données non éti­que­tées pour entraîner des modèles d’IA. Cela permet à l’al­go­rithme de détecter des motifs dans les ensembles de données non éti­que­tées, soutenus par les données éti­que­tées. Grâce à ce processus d’ap­pren­tis­sage combiné, le modèle comprend mieux la structure des données non éti­que­tées, ce qui conduit à des pré­dic­tions plus précises.

Outils d'IA
Exploitez toute la puissance de l'in­tel­li­gence ar­ti­fi­cielle
  • Créez votre site Web en un temps record
  • Boostez votre activité grâce au marketing par IA
  • Gagnez du temps et obtenez de meilleurs résultats

Les principes du Semi-Su­per­vi­sed Learning

Les al­go­rithmes conçus pour l’ap­pren­tis­sage semi-supervisé partent de plusieurs hy­po­thèses sur les données :

  1. Hypothèse de con­ti­nuité : les points proches les uns des autres ont plus de chances d’avoir la même sortie.
  2. Hypothèse de re­grou­pe­ment : les données peuvent être divisées en groupes discrets, et les points au sein du même groupe partagent pro­ba­ble­ment la même étiquette.
  3. Hypothèse de la variété : les données se situent ap­proxi­ma­ti­ve­ment sur une variété (ensemble de points liés), qui a une dimension in­fé­rieure à l’espace d’entrée. Cette hypothèse permet l’uti­li­sa­tion de distances et de densités.

Semi-Su­per­vi­sed Learning : quelle est la dif­fé­rence avec le Su­per­vi­sed et l’Un­su­per­vi­sed Learning ?

Le Su­per­vi­sed, l’Un­su­per­vi­sed et le Semi-Su­per­vi­sed Learning sont des approches fon­da­men­tales de l’ap­pren­tis­sage au­to­ma­tique (en anglais Machine Learning). Cependant, chacune de ces méthodes a sa propre approche pour entraîner des modèles d’IA. Le tableau ci-dessous montre les dif­fé­rences entre l’ap­pren­tis­sage semi-supervisé et les méthodes tra­di­tion­nelles :

  • Le Su­per­vi­sed Learning, appelée « ap­pren­tis­sage supervisé » en français, utilise uni­que­ment des données éti­que­tées. Cela signifie que chaque exemple de données a une variable cible ou une solution connue que l’al­go­rithme doit prédire. Cette approche est très précise, mais nécessite de grandes quantités de données éti­que­tées, souvent coûteuses et chro­no­phages à obtenir.
  • L’ap­pren­tis­sage non supervisé (Un­su­per­vi­sed Learning) utilise uni­que­ment des données non struc­tu­rées. L’al­go­rithme cherche à détecter des motifs ou des struc­tures sans solution pré­dé­fi­nie. Cela est utile lorsqu’il n’existe pas de données éti­que­tées, mais peut être moins précis en raison du manque de points de référence externes.
  • Le Semi-Su­per­vi­sed Learning combine ces deux approches en utilisant une petite quantité de données éti­que­tées pour com­prendre la structure d’une grande quantité de données non éti­que­tées. Les tech­niques d’ap­pren­tis­sage semi-supervisé modifient un al­go­rithme supervisé pour intégrer des données non éti­que­tées au modèle, ce qui permet d’obtenir des pré­dic­tions précises avec re­la­ti­ve­ment peu d’efforts de marquage.

Un exemple pratique peut illustrer les dif­fé­rences entre ces approches d’ap­pren­tis­sage au­to­ma­tique. Si l’on prend des écoliers, on peut faire cette analogie : l’ap­pren­tis­sage supervisé signifie que les élèves sont sur­veil­lés à l’école et à la maison. Si les enfants doivent apprendre seuls, il s’agit d’ap­pren­tis­sage non supervisé. En revanche, lorsqu’un concept est expliqué en classe et ap­pro­fondi par des devoirs, il s’agit d’ap­pren­tis­sage semi-supervisé.

Note

Dans notre guide sur l’IA gé­né­ra­tive », nous ex­pli­quons en détail comment cette tech­no­lo­gie fonc­tionne et quels sont ses prin­ci­paux cas d’usage dans divers secteurs.

Comment fonc­tionne le Semi-Su­per­vi­sed Learning ?

Le Semi-Su­per­vi­sed Learning est un processus en plusieurs étapes :

  1. Dé­fi­ni­tion des objectifs ou des problèmes : il est d’abord né­ces­saire de définir clai­re­ment les objectifs ou le but du modèle d’ap­pren­tis­sage au­to­ma­tique. L’accent est mis sur la question de savoir quelles op­ti­mi­sa­tions l’ap­pren­tis­sage au­to­ma­tique doit atteindre.
  2. Éti­que­tage des données : certaines données non struc­tu­rées sont éti­que­tées pour fournir une aide à l’al­go­rithme d’ap­pren­tis­sage. Pour que le Semi-Su­per­vi­sed Learning fonc­tionne, il est né­ces­saire d’utiliser des données per­ti­nentes pour la formation du modèle. Par exemple, si un clas­si­fi­ca­teur d’images est entraîné à dif­fé­ren­cier les chiens et les chats, des images de voitures et de trains ne seraient pas ap­pro­priées.
  3. En­traî­ne­ment du modèle : les données struc­tu­rées sont ensuite utilisées pour apprendre au modèle quelle est sa tâche et quels résultats sont attendus.
  4. En­traî­ne­ment avec des données non éti­que­tées : après que le modèle a appris avec les données d’en­traî­ne­ment, les données non éti­que­tées sont intégrées.
  5. Éva­lua­tion et ajus­te­ment du modèle : pour garantir que le modèle fonc­tionne cor­rec­te­ment, des éva­lua­tions et ajus­te­ments sont né­ces­saires. Ce processus est répété jusqu’à ce que l’al­go­rithme atteigne la qualité de résultats souhaitée.
Image: Schéma Semi-Supervised Learning
Le schéma montre un exemple simple du fonc­tion­ne­ment du Semi-Su­per­vi­sed Learning : sur la base des données déjà éti­que­tées, le modèle d’IA fait la bonne pré­dic­tion.

Quels sont les avantages du Semi-Su­per­vi­sed Learning ?

L’ap­pren­tis­sage semi-supervisé est par­ti­cu­liè­re­ment avan­ta­geux lorsqu’un grand volume de données non éti­que­tées sont dis­po­nibles et qu’il serait trop coûteux ou difficile de les étiqueter toutes. Cela est important car la formation de modèles d’IA nécessite tra­di­tion­nel­le­ment un grand nombre de données éti­que­tées four­nis­sant le contexte né­ces­saire. Par exemple, pour qu’un modèle de clas­si­fi­ca­tion d’images puisse dis­tin­guer deux objets (comme une table et une chaise) des centaines voire des milliers d’images d’en­traî­ne­ment éti­que­tées sont né­ces­saires. De plus, l’éti­que­tage des données, comme dans le domaine du sé­quen­çage génétique, peut né­ces­si­ter une expertise spé­ci­fique.

Grâce au Semi-Su­per­vi­sed Learning, il est possible d’atteindre une grande précision avec un faible nombre de données éti­que­tées, car les ensembles de données éti­que­tées ren­for­cent les données non éti­que­tées. Les données struc­tu­rées servent de point de départ, aug­men­tant la vitesse et la précision de l’ap­pren­tis­sage de manière sig­ni­fi­ca­tive. Ainsi, cette approche permet de maximiser le potentiel d’une petite quantité de données éti­que­tées tout en utilisant un grand nombre de données non éti­que­tées, ce qui augmente l’ef­fi­ca­cité des coûts.

Note

Le Semi-Su­per­vi­sed Learning présente également des défis et des li­mi­ta­tions : par exemple, si les données éti­que­tées ini­tia­le­ment sont in­cor­rectes, cela peut entraîner des con­clu­sions erronées et affecter né­ga­ti­ve­ment la qualité du modèle. De plus, le modèle peut ra­pi­de­ment devenir biaisé si les données éti­que­tées et non éti­que­tées ne sont pas re­pré­sen­ta­tives de la dis­tri­bu­tion globale.

Quels sont les prin­ci­paux domaines d’ap­pli­ca­tion du Semi-Su­per­vi­sed Learning ?

Le Semi-Su­per­vi­sed Learning est désormais employé dans divers domaines, bien que les tâches de clas­si­fi­ca­tion demeurent parmi ses uti­li­sa­tions les plus courantes. Voici un aperçu des prin­ci­paux champs d’ap­pli­ca­tion :

  • Clas­si­fi­ca­tion de contenu Web : les moteurs de recherche comme Google utilisent l’ap­pren­tis­sage semi-supervisé pour évaluer la per­ti­nence des pages Web par rapport à certaines requêtes de recherche.
  • Clas­si­fi­ca­tion de texte et d’images : l’objectif ici est de classer les textes ou les images dans une ou plusieurs ca­té­go­ries pré­dé­fi­nies. Le Semi-Su­per­vi­sed Learning est par­ti­cu­liè­re­ment adapté à cela, car il existe une grande quantité de données non éti­que­tées, et l’éti­que­tage de tous les ensembles de données serait trop long et coûteux.
  • Analyse de la parole : l’éti­que­tage des fichiers audio est également très coûteux. Le Semi-Su­per­vi­sed Learning offre une solution naturelle à ce problème.
  • Analyse de séquences pro­téiques : en raison de la taille des brins d’ADN, l’ap­pren­tis­sage semi-supervisé est idéal pour analyser les séquences pro­téiques.
  • Détection d’anomalies : le Semi-Su­per­vi­sed Learning permet de détecter des motifs in­ha­bi­tuels qui ne cor­res­pon­dent pas à la norme.
Aller au menu principal