IA : Reconnaissance automatique de la parole – état de l’art et applications métiers

Système de reconnaissance de la parole, où en est-on aujourd’hui ?

Qu’est-ce que la reconnaissance automatique de la parole ?

Un système de reconnaissance automatique de la parole (ASR, pour Automatic Speech Recognition) est un ensemble de méthodes et d’outils qui permet d’analyser la voix humaine captée par un microphone et de la convertir en texte exploitable par une machine.

Deux avantages principaux justifient l’intérêt croissant pour cette technologie :

  • La vitesse – la frappe clavier plafonne à environ 50 mots par minute pour les meilleurs dactylos. La reconnaissance vocale atteint aujourd’hui 150 à 230 mots par minute dans des conditions favorables.
  • L’exhaustivité – prendre des notes en réunion implique inévitablement des pertes. Un système de transcription automatique capture l’intégralité des échanges.

Un peu d’histoire : des origines aux usages actuels

La reconnaissance de la parole ne date pas d’hier. Les premiers systèmes remontent aux années 1950-1960, mais ils se limitaient alors à la reconnaissance de mots isolés – une commande, un chiffre.

C’est dans les années 1980 que la technologie s’est véritablement démocratisée, notamment dans le secteur médical. Le dictaphone numérique des médecins en est l’exemple emblématique : le praticien dicte ses comptes-rendus postopératoires, et la secrétaire récupère une transcription qu’elle n’a plus qu’à corriger à la marge. Deux raisons expliquent pourquoi cela fonctionne bien dans ce contexte : un vocabulaire spécialisé maîtrisé et délimité, et un système mono-locuteur qui s’adapte progressivement à la voix de son utilisateur.


Les trois composantes d’un système ASR

Un système de reconnaissance automatique de la parole s’articule autour de trois briques complémentaires.

1. Le modèle acoustique

C’est la brique qui traite le signal sonore brut. Elle commence par détecter les segments de parole dans le flux audio – une étape qui paraît triviale mais qui est loin de l’être : bruit ambiant, chevauchements de voix, environnements dégradés (transport, chantier, open space) compliquent considérablement cette détection.

Le modèle acoustique doit ensuite identifier les phonèmes – les unités sonores de base de la langue – et leur donner une forme exploitable pour les étapes suivantes.

2. Le modèle de langage

C’est la brique qui donne du sens aux séquences de sons détectées. Le modèle de langage connaît les probabilités d’enchaînement des mots dans une langue donnée : il sait qu’après « je voudrais », « un café » est plus probable que « une houe ». C’est lui qui permet de choisir entre plusieurs hypothèses acoustiquement proches.

Le français est une langue particulièrement complexe pour les modèles de langage, en raison de ses nombreuses homophones, de ses liaisons et élisions, et de la richesse de sa morphologie verbale. Des formes comme le subjonctif – souvent prononcé comme l’indicatif dans la parole spontanée – posent des défis spécifiques.

3. Le dictionnaire de prononciation

C’est le lien entre les deux premiers composants. Il recense pour chaque mot toutes ses prononciations possibles, en tenant compte des accents régionaux, des variations individuelles et des contextes phonétiques. Un mot comme « plus » peut se prononcer de trois façons différentes en français selon le contexte – le dictionnaire doit les connaître toutes.


Les défis techniques et linguistiques

La parole spontanée vs la parole préparée

Les systèmes ASR sont généralement entraînés sur des données de parole préparée – discours, conférences, présentations. La parole spontanée, elle, est peuplée de faux départs, d’hésitations, de reprises, de formulations approximatives. Les performances des systèmes se dégradent significativement en dehors des conditions d’entraînement.

La variabilité des locuteurs

Les voix féminines présentent une plus grande variabilité acoustique que les voix masculines, ce qui les rend plus difficiles à modéliser. Les voix d’enfants, avec leur évolution rapide et leurs caractéristiques acoustiques particulières, constituent un défi encore plus important. Les accents régionaux et étrangers ajoutent une couche de complexité supplémentaire.

Les entités nommées

Les noms propres – personnes, lieux, organisations, marques – constituent un point de fragilité majeur des systèmes ASR. Un système qui n’a jamais été exposé au nom d’une personne ou d’une entreprise ne peut pas le transcrire correctement, même si sa prononciation est phonétiquement simple.

C’est l’une des raisons pour lesquelles la qualité des données d’entraînement est aussi cruciale : un corpus bien annoté, incluant les entités nommées spécifiques au domaine cible, améliore significativement les performances du système.

Le bruit et les environnements dégradés

Microphone de mauvaise qualité, fond sonore, réverbération, locuteurs multiples qui se chevauchent : chaque dégradation acoustique affecte les performances. La détection de la parole dans un environnement bruyant reste l’un des défis les plus difficiles à résoudre.


La préparation des données : la clé souvent oubliée

Carole, docteure en sciences du langage et spécialiste de morphosyntaxe du français, souligne un point fondamental : un système ASR est aussi bon que les données sur lesquelles il a été entraîné.

Les corpus d’entraînement disponibles sont souvent biaisés vers la parole formelle et normée. Or, la langue telle qu’elle est vraiment parlée – avec ses raccourcis, ses régionalismes, ses constructions non standard – s’en écarte considérablement. Entraîner un système sur des données qui ne correspondent pas à la cible, c’est s’assurer des performances décevantes sur le terrain.

Le travail de préparation des données comprend :

  • La collecte et la transcription manuelle de corpus représentatifs
  • L’annotation des éléments spécifiques : hésitations, chevauchements, entités nommées, marqueurs prosodiques
  • La validation linguistique pour s’assurer de la cohérence et de la couverture du corpus

C’est un travail chronophage, mais il conditionne directement la qualité du système final.


Les applications concrètes dans les métiers

Les cas d’usage de la reconnaissance automatique de la parole se multiplient dans les environnements professionnels.

Transcription de réunions et de contenus audiovisuels – sous-titrage automatique, comptes-rendus de réunions, indexation de vidéos pour en faciliter la recherche.

Dictée médicale et juridique – la transcription automatique de comptes-rendus médicaux reste l’un des cas d’usage les plus matures, avec des solutions spécialisées qui atteignent de bonnes performances sur des vocabulaires contrôlés.

Assistants vocaux et interfaces conversationnelles – la commande vocale est aujourd’hui bien maîtrisée ; le défi reste de passer de la commande simple à une vraie interaction conversationnelle, capable de gérer l’ambiguïté et le contexte.

Extraction d’information – à partir de transcriptions, il devient possible d’identifier automatiquement des entités nommées, des thématiques, des sentiments, ou de faire correspondre un contenu audio avec une requête – par exemple, retrouver les passages d’une réunion où un sujet précis a été abordé.

Centre de contacts – analyse des conversations clients pour identifier les motifs d’appels récurrents, les points de friction, les opportunités d’amélioration de la formation des conseillers.


Deux architectures de déploiement

Selon le contexte, un système ASR peut fonctionner selon deux modalités :

  • Temps réel (streaming) – la transcription est produite au fil de la parole, quelques secondes après l’énoncé. Utile pour les assistants vocaux, le sous-titrage en direct, les interfaces de commande.
  • Traitement différé (batch) – le fichier audio est envoyé sur un serveur qui le décode et retourne une transcription. Plus adapté à la transcription de réunions ou à l’indexation de contenus.

Le projet Smart Gospel : un cas d’usage interne Axys Consultants

Axys Consultants a engagé des travaux sur la reconnaissance automatique de la parole dans le cadre du projet Smart Gospel, qui vise à explorer les applications de cette technologie sur des corpus métiers spécifiques – en partant des irritants réels des clients plutôt que d’une approche technologique descendante.

Cette démarche s’inscrit dans la philosophie du Lab IA d’Axys Consultants : co-développer des solutions avec les clients sur des problématiques concrètes, en combinant expertise linguistique, data science et connaissance des métiers.


Axys Consultants : votre partenaire pour explorer les applications de l’IA vocale

À travers son Lab IA, Axys Consultants accompagne ses clients dans l’exploration et le déploiement de solutions basées sur la reconnaissance automatique de la parole – de la définition du cas d’usage à la mise en production, en s’appuyant sur des expertises data science et linguistique complémentaires.

Vous souhaitez explorer les applications de l’IA vocale dans votre organisation ?

La dictée vocale, commercialisée dès les années 80, est sans aucun doute l’application la plus populaire de la reconnaissance automatique de la parole. Depuis quelques années, nous avons pris l’habitude d’interagir avec des applications et des machines via des interfaces vocales.

Mais qu’en est-il vraiment des progrès accomplis en termes de reconnaissance de la parole ?

Pour vous aider dans votre réflexion, nous avons fait appel à deux intervenants de renom : Jean-Luc Marini (Directeur du Lab iA d’Axys Consultants) et Carole Lailler (Docteur en Sciences du Langage) pour vous apporter les clés de compréhension.