Le Few Shot Learning (FSL) est un cadre de pro­gram­ma­tion en Machine Learning qui permet à un modèle d’in­tel­li­gence ar­ti­fi­cielle d’apprendre à faire des pré­dic­tions précises à partir de quelques exemples étiquetés. Il est entraîné à re­con­naître des motifs et des ca­rac­té­ris­tiques généraux ap­pli­cables à diverses tâches. Cette méthode est par­ti­cu­liè­re­ment utile dans des domaines où les données sont limitées, comme la re­con­nais­sance d’images et le trai­te­ment du langage.

Que signifie Few Shot Learning ?

Le Few Shot Learning (FSL) est un framework du domaine du Machine Learning c’est-à-dire une structure de base pour le dé­ve­lop­pe­ment de codes de pro­gram­ma­tion. Il est utilisé pour entraîner les modèles d’IA à faire des pré­dic­tions précises à partir d’une petite quantité de données d’en­traî­ne­ment. Alors que les méthodes de Machine Learning tra­di­tion­nelles né­ces­si­tent souvent des milliers de points de données pour fournir des résultats fiables, le Few Shot Learning (ap­pren­tis­sage par petites touches ou micro-ap­pren­tis­sage) vise à optimiser l’ap­pren­tis­sage avec un minimum de données.

L’objectif principal du Few Shot Learning est un ap­pren­tis­sage efficace à partir de quelques exemples seulement. En tra­vail­lant avec une quantité minimale de données, le FLS s’avère par­ti­cu­liè­re­ment utile dans les si­tua­tions où il est difficile de collecter de grandes quantités de données éti­que­tées. Bien souvent, les coûts sont tout sim­ple­ment trop élevés, mais il arrive aussi que seuls quelques exemples ou échan­til­lons soient dis­po­nibles. C’est le cas, par exemple, pour les maladies rares et les ma­nus­crits uniques.

Outils d'IA
Exploitez toute la puissance de l'in­tel­li­gence ar­ti­fi­cielle
  • Créez votre site Web en un temps record
  • Boostez votre activité grâce au marketing par IA
  • Gagnez du temps et obtenez de meilleurs résultats

Le Few Shot Learning peut être considéré comme un sous-groupe du n-Shot-Learning. Cela signifie que le FLS re­pré­sente gé­né­ra­le­ment un système de ca­té­go­ri­sa­tion dit N-Way-K-Shot ; « N » re­pré­sen­tant le nombre de classes et « K » le nombre d’exemples fournis pour chaque classe. Ce domaine de l’in­tel­li­gence ar­ti­fi­cielle comprend également le One Shot Learning (un exemple étiqueté par classe) et le Zero Shot Learning (aucun exemple étiqueté). Le premier est considéré comme une variante so­phis­ti­quée du FLS, le second comme un problème d’ap­pren­tis­sage à part entière.

Comment fonc­tionne le Few Shot Learning ?

Même si des al­go­rithmes spéciaux et des réseaux neuronaux réus­sis­sent de nom­breuses tâches de FLS, le Few Shot Learning est avant tout défini par le problème d’ap­pren­tis­sage spé­ci­fique plutôt que par l’uti­li­sa­tion d’une structure de modèle par­ti­cu­lière. L’éventail des méthodes FSL est donc très large et va de l’adap­ta­tion de modèles pré-entraînés à l’uti­li­sa­tion de modèles gé­né­ra­tifs en passant par le Meta Learning (méta-ap­pren­tis­sage). Découvrez les dif­fé­rentes approches ci-dessous.

Ap­pren­tis­sage par transfert

Les approches basées sur l’ap­pren­tis­sage par transfert se con­centrent sur l’adap­ta­tion de modèles déjà pré-entraînés pour maîtriser de nouvelles tâches. Au lieu de former un modèle à partir de zéro, elles utilisent des ca­rac­té­ris­tiques et des re­pré­sen­ta­tions déjà acquises, les ajustant finement pour les appliquer à une nouvelle tâche. Cela permet d’éviter le su­ra­jus­te­ment qui résulte souvent de l’ap­pren­tis­sage supervisé avec peu d’exemples étiquetés, en par­ti­cu­lier pour les modèles avec un grand nombre de pa­ra­mètres comme les réseaux neuronaux con­vo­lu­tifs.

Une procédure courante consiste à con­fi­gu­rer un modèle de clas­si­fi­ca­tion en en­traî­nant de nouvelles classes de données à l’aide de très peu d’exemples. Les procédés de Few Shot Learning plus complexes im­pli­quent souvent une adap­ta­tion de l’ar­chi­tec­ture du réseau. L’ap­pren­tis­sage par transfert est par­ti­cu­liè­re­ment efficace lorsqu’il existe de fortes si­mi­li­tudes entre la tâche initiale et la nouvelle tâche ou lorsque l’en­traî­ne­ment initial a eu lieu dans un contexte similaire.

Approche par les données

Le Few Shot Learning basé sur les données repose sur l’idée de générer des données d’ap­pren­tis­sage sup­plé­men­taires afin de résoudre le problème de l’échan­til­lon­nage limité. Cette méthode s’avère par­ti­cu­liè­re­ment pratique dans les si­tua­tions où les exemples empruntés au monde réel sont ex­trê­me­ment rares, comme c’est le cas pour les espèces nou­vel­le­ment dé­cou­vertes. Dans le cas d’échan­til­lons suf­fi­sam­ment di­ver­si­fiés, il est possible de générer des données sup­plé­men­taires si­mi­laires à celles-ci, par exemple via des modèles gé­né­ra­tifs tels que les Ge­ne­ra­tive Ad­ver­sa­rial Networks, en français réseaux an­ta­go­nistes gé­né­ra­tifs. Il est, par ailleurs, possible de combiner l’extension des données avec d’autres méthodes telles que le méta-ap­pren­tis­sage.

Meta Learning

Le méta-ap­pren­tis­sage suit une approche plus large et plus indirecte que l’ap­pren­tis­sage par transfert classique et que l’ap­pren­tis­sage supervisé car le modèle n’est pas uni­que­ment entraîné sur des tâches cor­res­pon­dant à son uti­li­sa­tion prévue. Il apprend à résoudre des tâches dans un contexte donné à court terme, tout en iden­ti­fiant à long terme des schémas et des struc­tures trans­ver­sales entre les dif­fé­rentes tâches. Cela permet de faire des pré­dic­tions sur le degré de si­mi­la­rité entre des points de données de dif­fé­rentes classes et d’utiliser ces con­nais­sances pour résoudre des tâches ul­té­rieures.

Méta-ap­pren­tis­sage basé sur les métriques

Les approches du méta-ap­pren­tis­sage basé sur les métriques ne mo­dé­li­sent pas di­rec­te­ment les limites de clas­si­fi­ca­tion, mais des valeurs continues pour re­pré­sen­ter un échan­til­lon de données spé­ci­fique. Les in­fé­rences reposent sur l’ap­pren­tis­sage de nouvelles fonc­tion­na­li­tés qui mesurent la si­mi­la­rité entre la valeur et celles des échan­til­lons et des classes in­di­vi­duelles. Les dif­fé­rents al­go­rithmes FSL basés sur les métriques sont les suivants :

  • Les réseaux siamois utilisent l’ap­pren­tis­sage par contraste pour résoudre des problèmes de clas­si­fi­ca­tion binaire. Pour ce faire, ils vérifient si deux échan­til­lons re­pré­sen­tent une paire positive (cor­res­pon­dance) ou négative (non-cor­res­pon­dance).
  • Les réseaux de matching (ap­pa­rie­ment) sont également capables d’effectuer des clas­si­fi­ca­tions multiples. Ils s’appuient sur un réseau neuronal approprié pour produire un clas­se­ment pour chaque échan­til­lon au sein des ensembles de support et de requête. Les réseaux de matching prédisent la clas­si­fi­ca­tion en comparant les échan­til­lons de soutien et de requêtes.
  • Les réseaux pro­to­ty­piques dé­ter­mi­nent les ca­rac­té­ris­tiques moyennes des échan­til­lons fournis pour toutes les classes afin de calculer un prototype pour chaque classe. Les points de données in­di­vi­duels sont ca­té­go­ri­sés en fonction de leur proximité relative avec les pro­to­types spé­ci­fiques à la classe’
  • Les réseaux de relation (RN) utilisent également un module d’embedding, mais intègrent en plus un module de relations qui génère une fonction de distance non linéaire adaptée au problème de clas­si­fi­ca­tion en question.

Méta-ap­pren­tis­sage basé sur l’op­ti­mi­sa­tion

Les méthodes basées sur l’op­ti­mi­sa­tion du Few Shot Learning ont pour objectif de créer de premiers modèles ou hy­per­pa­ra­mètres pour les réseaux neuronaux pouvant être adaptés ef­fi­ca­ce­ment à des tâches per­ti­nentes. Pour ce faire, ils sou­tien­nent le processus d’op­ti­mi­sa­tion par la méta-op­ti­mi­sa­tion (c’est-à-dire d’autres méthodes d’op­ti­mi­sa­tion), également connue sous le nom de descente de gradient.

La méthode FSL basée sur l’op­ti­mi­sa­tion la plus connue est le model agnostic meta-learning (MAML), soit en français le méta-ap­pren­tis­sage ag­nos­tique. Celui-ci ne se concentre pas sur une tâche par­ti­cu­lière, mais s’applique à tous les modèles qui ap­pren­nent par descente de gradient. Il est également possible d’utiliser des réseaux dits LSTM (LSTM = Long Short-Term Memory) pour entraîner des modèles de méta-ap­pren­tis­sage. La par­ti­cu­la­rité de l’op­ti­mi­sa­tion par re­pré­sen­ta­tion latente (LEO, Latent Embedding Op­ti­mi­za­tion) réside dans le fait qu’elle apprend une dis­tri­bu­tion gé­né­ra­tive de pa­ra­mètres de modèles spé­ci­fiques à la tâche.

Quels sont les prin­ci­paux domaines d’ap­pli­ca­tion du Few Shot Learning ?

Le Few Shot Learning peut être utilisé de manière très variée. De fait, de nombreux secteurs et domaines de recherche profitent de la capacité d’apprendre ef­fi­ca­ce­ment en dépit d’un petit nombre d’exemples. Les prin­ci­paux domaines d’ap­pli­ca­tion sont :

  • Computer Vision : la plupart des al­go­rithmes FSL les plus utilisés ont été ini­tia­le­ment dé­ve­lop­pés pour des tâches de clas­si­fi­ca­tion d’images. Cependant, le Few Shot Learning est également adapté à des problèmes de Computer Vision (vision par or­di­na­teur) plus complexes, tels que la re­con­nais­sance d’objets, qui nécessite de localiser avec précision les dif­fé­rents détails de l’image.
  • Robotique : le Few Shot Learning a le potentiel d’aider les robots à s’orienter plus ra­pi­de­ment dans de nouveaux en­vi­ron­ne­ments et à accomplir de nouvelles tâches plus ra­pi­de­ment.
  • Trai­te­ment du langage : les méthodes de FLS, en par­ti­cu­lier l’ap­pren­tis­sage par transfert, aident à adapter des Large Language Models pré-entraînés avec de grandes quantités de données à des tâches spé­ci­fiques pour les­quelles une com­pré­hen­sion con­tex­tuelle est né­ces­saire. Il s’agit entre autres de la clas­si­fi­ca­tion de textes et de l’analyse de l’humeur.
  • Santé publique : en raison de sa capacité à saisir ou à apprendre ra­pi­de­ment des classes de données inconnues et rares, le Few Shot Learning est idéal pour les domaines médicaux où l’obtention de données éti­que­tées peut s’avérer difficile. Un exemple typique est le diag­nos­tic de maladies rares.
  • Secteur bancaire : les or­ga­nismes de crédit utilisent les al­go­rithmes FSL dans le cadre de la détection des fraudes afin d’iden­ti­fier des modèles ou des com­por­te­ments anormaux dans les tran­sac­tions fi­nan­cières. C’est efficace même si peu de cas de fraude sont dis­po­nibles sous forme de données.

Enjeux concrets liés à la mise en œuvre du Few Shot Learning

La mise en œuvre du Few Shot Learning implique plusieurs défis concrets : l’un des prin­ci­paux obstacles est le risque d’over­fit­ting (su­ra­jus­te­ment ou su­rap­pren­tis­sage). Les modèles avec peu d’exemples d’en­traî­ne­ment ont tendance à apprendre trop fortement des données exis­tantes et donc à mal gé­né­ra­li­ser. En outre, le Few Shot Learning pré­sup­pose que les modèles soient adaptés et ajustés avec beaucoup de soin afin d’obtenir une bonne per­for­mance.

De même, la qualité des données dis­po­nibles est un facteur dé­ter­mi­nant de réussite : si les quelques exemples ne sont pas re­pré­sen­ta­tifs ou con­tien­nent des erreurs, la per­for­mance du modèle peut en être fortement com­pro­mise. Par ailleurs, le nombre limité de données rend difficile la sélection de ca­rac­té­ris­tiques et de méthodes ap­pro­priées pour élargir l’ensemble des données. Il ne faut pas non plus sous-estimer les res­sources de calcul et le temps né­ces­saire pour l’en­traî­ne­ment de modèles optimisés Few Shot Learning.

Aller au menu principal