Thèse soutenue

Reconnaissance de parole pour le français et intégration dans un système de compréhension du langage parlé
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Florian Boyer
Direction : Jean-Luc Rouas
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 20/10/2021
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale de mathématiques et informatique (Talence, Gironde ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire bordelais de recherche en informatique
Jury : Président / Présidente : Aurélie Bugeau
Examinateurs / Examinatrices : Jean-Luc Rouas, Anthony Larcher, Gérard Chollet, Laurent Besacier, Antoine Sottiau
Rapporteurs / Rapporteuses : Anthony Larcher, Gérard Chollet

Résumé

FR  |  
EN

Dans une société où un nombre considérable de systèmes complexes et d'objets connectés voient le jour, le besoin de simplifier les interactions Homme-Machine est devenu une problématique importante aussi bien pour la communauté scientifique que les entreprises. Dans ce cadre, la parole étant considérée comme un moyen de communication évident, la définition d'un système de Reconnaissance Automatique de Parole (RAP) répondant à différents critères de performance, de robustesse et de rapidité s'avère cruciale. Celui-ci doit aussi admettre un caractère évolutif et pouvoir s'adapter facilement en considération de l'évolution d'une langue, d'un contexte métier précis ou encore de la mise en relation avec d'autres briques logicielles de la chaîne de communication (p. ex., les modules de détection des intentions utilisateurs ou de compréhension d'un énoncé textuel). Dans ce contexte, l’objectif principal de cette thèse est le développement d'un système de reconnaissance automatique de parole pour le français et sa mise en relation avec un système de compréhension du langage naturel (CLN) proposé par la société Airudit, porteuse de cette thèse avec le Laboratoire Bordelais de Recherche en Informatique (LaBRI). Afin de répondre au premier objectif, nous proposons une étude comparative des principales approches de RAP existantes de nos jours pour le français. Une attention particulière est donnée ici sur le type d'approche (RAP traditionnelle ou RAP bout-en-bout), la définition de l'architecture optimale ainsi que le type d’unités en sortie (caractères, sous-mots ou mots). Cette étude est ensuite étendue par une comparaison des erreurs formulées par les différents systèmes produits en vue d'une interprétation par un système de compréhension du langage naturel. Parallèlement, je présente mes contributions dans le cadre du projet ESPnet qui met à disposition de la communauté scientifique des outils pour le traitement de la parole. Toujours dans une optique de construction d'un système de RAP optimal pour le français, une attention particulière a été donnée sur la proposition de techniques d'entraînement de d'inférence pour l'un des systèmes les plus performants durant notre première étude : le RNN-Transducer.Concernant le second objectif visant à étudier et améliorer la mise en relation avec un système de compréhension, nous proposons de plus une nouvelle approche ayant donné lieu à un brevet. Celle-ci vise à restituer des mécanismes observés de la communication naturelle (p. ex., la connaissance a priori du contexte, l'inférence du sens malgré le manque d'informations ou la présence d'erreurs) et se propose aussi de résoudre des problèmes inhérents de l'association d'un système de RAP traditionnel avec un système de CLN, créés et optimisés de manière indépendante.