L’Automatic Speech Re­cog­ni­tion est une méthode de con­ver­sion au­to­ma­tique de la parole en texte. Les tech­no­lo­gies ASR utilisent des pro­cé­dures d’ap­pren­tis­sage au­to­ma­tique pour analyser les modèles de langage, les traiter et les afficher sous forme de texte. L’Automatic Speech Re­cog­ni­tion se prête à une multitude d’ap­pli­ca­tions, allant des as­sis­tants vocaux virtuels à la création de sous-titres pour les vidéos, en passant par la trans­crip­tion de réunions im­por­tantes.

Que signifie Automatic Speech Re­cog­ni­tion ?

Automatic Speech Re­cog­ni­tion, en français « re­con­nais­sance au­to­ma­tique de la parole », est un terme désignant le domaine de l’in­for­ma­tique et de la lin­guis­tique in­for­ma­tique. En fait, il s’agit ici de dé­ve­lop­per des méthodes qui tra­dui­sent au­to­ma­ti­que­ment le langage parlé en une forme lisible par une machine. Lorsque la con­ver­sion se fait en texte, on parle également de Speech-to-Text (STT). Les méthodes ASR sont basées sur des modèles sta­tis­tiques et des al­go­rithmes complexes.

Note

Le Taux d’Erreur de Mots (TEM) indique avec quelle précision un système ASR fonc­tionne. Ce taux met en relation les erreurs, c’est-à-dire le nombre de mots omis, ajoutés et mal reconnus, avec le nombre total de mots prononcés. Plus la valeur est basse, plus la précision de la re­con­nais­sance vocale au­to­ma­tique est élevée. Par exemple, si le taux d’erreurs de mots est de 10 %, la précision de la trans­crip­tion est de 90 %.

Comment fonc­tionne l’Automatic Speech Re­cog­ni­tion ?

L’Automatic Speech Re­cog­ni­tion se compose de plusieurs étapes suc­ces­sives qui s’im­bri­quent par­fai­te­ment les unes dans les autres. Voici les dif­fé­rentes phases du processus :

  1. En­re­gis­tre­ment de la parole (Automatic Speech Re­cog­ni­tion) : le système capture le langage parlé via un mi­cro­phone ou une autre source audio.
  2. Trai­te­ment de la parole (Natural Language Pro­ces­sing) : l’en­re­gis­tre­ment vocal est d’abord nettoyé des bruits parasites. Ensuite, un al­go­rithme analyse les ca­rac­té­ris­tiques pho­né­tiques et pho­né­miques de la parole. Enfin, les ca­rac­té­ris­tiques saisies sont comparées à des modèles préa­la­ble­ment entraînés afin d’iden­ti­fier des mots in­di­vi­duels.
  3. Gé­né­ra­tion de texte (Speech to Text) : le système convertit les sons reconnus en texte.
Image: Schéma du fonctionnement de l’Automatic Speech Recognition
La re­con­nais­sance au­to­ma­tique de la parole suit trois étapes dis­tinctes.

Al­go­rithmes d’ASR : approche hybride vs Deep Learning

On distingue fon­da­men­ta­le­ment deux approches prin­ci­pales pour la re­con­nais­sance au­to­ma­tique de la parole : alors que dans le passé, on utilisait surtout des approches hybrides clas­siques comme les modèles de Markov cachés, on a désormais de plus en plus souvent recours aux tech­no­lo­gies de Deep Learning. Cette situation s’explique par le fait que la précision des modèles tra­di­tion­nels stagne ac­tuel­le­ment.

Approche hybride classique

Les modèles clas­siques né­ces­si­tent des données alignées de force. Cela signifie qu’ils utilisent la trans­crip­tion textuelle d’un segment de parole audio pour dé­ter­mi­ner l’endroit où certains mots ap­pa­rais­sent. L’approche hybride tra­di­tion­nelle combine toujours un modèle de lexique, un modèle acous­tique et un modèle lin­guis­tique pour trans­crire la parole :

  • Le modèle de lexique définit la pro­non­cia­tion pho­né­tique des mots. Il est né­ces­saire de créer un ensemble de données ou de phonèmes pour chaque langue.
  • Le modèle acous­tique a pour objectif de re­pré­sen­ter les ca­rac­té­ris­tiques sonores de la langue. Grâce à des données alignées de manière forcée, il prédit le phonème cor­res­pon­dant à chaque segment audio, per­met­tant ainsi d’associer pré­ci­sé­ment chaque son à une unité lin­guis­tique.
  • Le modèle lin­guis­tique apprend quelles séquences de mots sont les plus sus­cep­tibles d’ap­pa­raître dans une langue. Sa tâche consiste à prédire quels mots suivront les mots actuels et avec quelle pro­ba­bi­lité.

Le principal in­con­vé­nient de l’approche hybride est qu’il est difficile d’augmenter la précision de la re­con­nais­sance vocale à l’aide de cette méthode. Il est également né­ces­saire d’entraîner trois modèles distincts, ce qui s’avère très coûteux en temps et en argent. Comme il existe déjà de nom­breuses con­nais­sances sur la manière de créer un modèle robuste à l’aide de l’approche classique, de nom­breuses en­tre­prises optent néanmoins pour cette option.

Deep Learning avec des processus de bout en bout

Les systèmes de bout en bout possèdent la capacité de trans­crire di­rec­te­ment une série de ca­rac­té­ris­tiques acous­tiques en texte. L’al­go­rithme apprend à convertir les mots prononcés grâce à un large ensemble de données, composé de paires d’en­re­gis­tre­ments audio de phrases spé­ci­fiques et de leurs trans­crip­tions correctes.

Les ar­chi­tec­tures d’ap­pren­tis­sage profond telles que CTC, LAS et RNNT peuvent être en­traî­nées de manière à fournir des résultats précis même en l’absence de données alignées de manière forcée, de modèle de lexique et de modèle lin­guis­tique. De nombreux systèmes de Deep Learning sont néanmoins associés à un modèle lin­guis­tique, car ce dernier peut con­tri­buer à améliorer encore la précision de la trans­crip­tion.

Conseil

Dans notre article « Deep Learning vs Machine Learning », vous dé­cou­vri­rez en quoi les deux concepts se dis­tin­guent.

L’approche de bout en bout de l’Automatic Speech Re­cog­ni­tion ne se distingue pas seulement par une plus grande précision que les modèles tra­di­tion­nels. Elle présente également l’avantage de faciliter l’en­traî­ne­ment des systèmes ASR et de réduire la main d’œuvre né­ces­saire.

Quels sont les prin­ci­paux champs d’ap­pli­ca­tion de l’Automatic Speech Re­cog­ni­tion ?

Grâce notamment aux progrès réalisés dans le domaine du Machine Learning, les tech­no­lo­gies ASR de­vien­nent de plus en plus précises et per­for­mantes. L’Automatic Speech Re­cog­ni­tion peut être utilisée dans de nombreux secteurs afin de réaliser des gains d’ef­fi­ca­cité, d’augmenter la sa­tis­fac­tion des clients et/ou d’améliorer le retour sur in­ves­tis­se­ment (ROI). Les prin­ci­paux domaines d’ap­pli­ca­tion sont :

  • Té­lé­com­mu­ni­ca­tions : les centres de contact utilisent les tech­no­lo­gies ASR pour trans­crire les con­ver­sa­tions avec les clients et les analyser par la suite. Des trans­crip­tions exactes sont également né­ces­saires pour le suivi des appels et pour les solutions té­lé­pho­niques réalisées au moyen de serveurs Cloud.
  • Pla­te­formes vidéo : la création de sous-titres en temps réel sur les pla­te­formes vidéo est devenue un standard. L’Automatic Speech Re­cog­ni­tion s’avère également utile pour la ca­té­go­ri­sa­tion des contenus.
  • Sur­veil­lance des médias : les API ASR per­met­tent d’analyser les émissions de té­lé­vi­sion, les podcasts, les émissions de radio et d’autres médias en ce qui concerne la fréquence d’ap­pa­ri­tion de certaines mentions de marques ou de thèmes.
  • Vi­déo­con­fé­rences : les solutions de réunion telles que Zoom, Microsoft Teams ou Google Meet dépendent de la trans­crip­tion exacte et de l’analyse de ce contenu pour obtenir des in­for­ma­tions clés et prendre des mesures ap­pro­priées. L’Automatic Speech Re­cog­ni­tion peut également être utilisée pour fournir des sous-titres en direct pour les vi­déo­con­fé­rences.
  • As­sis­tants vocaux : que ce soit Amazon Alexa, Google Assistant ou Siri d’Apple, les as­sis­tants vocaux virtuels sont basés sur l’Automatic Speech Re­cog­ni­tion. Cette tech­no­lo­gie permet aux as­sis­tants de répondre aux questions, d’effectuer des tâches et d’interagir avec d’autres appareils.

Quel est le rôle de l’in­tel­li­gence ar­ti­fi­cielle dans les tech­no­lo­gies ASR ?

L’in­tel­li­gence ar­ti­fi­cielle contribue à améliorer la précision et la fonc­tion­na­lité générale des systèmes ASR. En par­ti­cu­lier, le dé­ve­lop­pe­ment de grands modèles lin­guis­tiques a permis d’améliorer con­si­dé­ra­ble­ment le trai­te­ment du langage naturel. Un Large Language Model (LLM) est non seulement capable de produire des textes complexes et per­ti­nents et d’effectuer des tra­duc­tions, mais reconnaît également le langage parlé. Les systèmes ASR bé­né­fi­cient donc con­si­dé­ra­ble­ment des dé­ve­lop­pe­ments dans ce domaine. En outre, l’in­tel­li­gence ar­ti­fi­cielle s’avère également utile pour le dé­ve­lop­pe­ment de modèles lin­guis­tiques spé­ci­fiques aux accents.

Outils d'IA
Exploitez toute la puissance de l'in­tel­li­gence ar­ti­fi­cielle
  • Créez votre site Web en un temps record
  • Boostez votre activité grâce au marketing par IA
  • Gagnez du temps et obtenez de meilleurs résultats

Quels sont les points forts et points faibles de l’ASR ?

Comparée à la trans­crip­tion tra­di­tion­nelle, la re­con­nais­sance au­to­ma­tique de la parole présente certains avantages. L’un des prin­ci­paux points forts des méthodes modernes de re­con­nais­sance vocale au­to­ma­tique réside dans leur grande précision, due au fait que les systèmes cor­res­pon­dants peuvent être entraînés avec de grandes quantités de données. Cela permet d’améliorer la qualité des sous-titres ou des trans­crip­tions et de les fournir en temps réel.

Un autre avantage important est l’aug­men­ta­tion de l’ef­fi­ca­cité. L’Automatic Speech Re­cog­ni­tion permet aux en­tre­prises d’évoluer, d’élargir plus ra­pi­de­ment leur gamme de services et de les proposer à un plus grand nombre de clients. Pour les étudiants et les pro­fes­sion­nels, les outils de re­con­nais­sance vocale au­to­ma­tique fa­ci­li­tent la do­cu­men­ta­tion de contenus audio, par exemple d’une réunion d’affaires ou d’un cours uni­ver­si­taire.

L’in­con­vé­nient est que les systèmes de re­con­nais­sance vocale au­to­ma­tique, bien que plus précis que jamais, n’at­teig­nent toujours pas la précision des humains. Cela est prin­ci­pa­le­ment dû aux nom­breuses nuances de la parole. Les accents, les dialectes et les dif­fé­rentes tonalités, mais aussi les bruits parasites, cons­ti­tuent un défi par­ti­cu­lier. Même les modèles d’ap­pren­tis­sage en pro­fon­deur les plus per­for­mants ne peuvent pas couvrir tous les cas par­ti­cu­liers. Autre problème : les tech­no­lo­gies ASR traitent parfois des données per­son­nelles, ce qui soulève des in­quié­tudes quant à la vie privée et à la sécurité des données.

Aller au menu principal