Thèse en cours

Reconnaissance automatique de la parole pour les locuteurs non natifs dans un environnement bruyant

FR  |  
EN
Auteur / Autrice : Raphael Bagat
Direction : Irina IllinaEmmanuel Vincent
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 12/10/2023
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Equipe de recherche : MULTISPEECH

Résumé

FR  |  
EN

Lorsqu'une personne a les mains occupées à effectuer une tâche comme conduire une voiture ou piloter un avion, la voix est une modalité d'interaction rapide et efficace. Ces dernières années, la reconnaissance automatique de la parole (ASR) basée sur l'apprentissage profond de bout en bout, qui optimise la probabilité de la séquence de caractères de sortie compte tenu d'un signal de parole d'entrée, a fait de grands progrès [Chan et al., 2016 ; Baevski et al., 2020 ; Gulati, et al., 2020]. Dans les communications aéronautiques, la langue anglaise est le plus souvent obligatoire. Malheureusement, de nombreux pilotes ne sont pas de langue maternelle anglaise et présentent un accent influencé par les mécanismes de prononciation de leur langue maternelle. Dans le cockpit d'un avion, la voix non maternelle des pilotes et les bruits environnants sont les défis les plus difficiles à relever pour parvenir à une ASR efficace. La parole non native pose plusieurs problèmes [Shi et al., 2021] : prononciations incorrectes ou approximatives, erreurs dans l'accord du genre et du nombre, utilisation de mots inexistants, articles manquants, phrases grammaticalement incorrectes, etc. L'environnement acoustique ajoute une composante perturbatrice au signal de parole. Une grande partie du succès de la reconnaissance de la parole repose sur la capacité à prendre en compte les différents accents et les bruits ambiants dans les modèles utilisés par l'ASR. La personne recrutée devra développer des méthodologies et des outils permettant d'obtenir une reconnaissance automatique de la parole non native performante dans le contexte aéronautique et plus particulièrement dans un cockpit d'avion (bruyant). Ce projet sera basé sur un système de reconnaissance automatique de la parole de bout en bout [Shi et al., 2021] utilisant wav2vec 2.0 [Baevski et al., 2020]. Ce modèle est l'un des plus performants de l'état de l'art actuel. Ce modèle wav2vec 2.0 permet l'apprentissage auto-supervisé de représentations à partir de données audio brutes (sans transcription).