Reconnaissance automatique de la parole pour les locuteurs non natifs dans un environnement bruyant
Auteur / Autrice : | Raphael Bagat |
Direction : | Irina Illina, Emmanuel Vincent |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 12/10/2023 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....) |
Partenaire(s) de recherche : | Laboratoire : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications |
Equipe de recherche : MULTISPEECH |
Mots clés
Résumé
Lorsqu'une personne a les mains occupées à effectuer une tâche comme conduire une voiture ou piloter un avion, la voix est une modalité d'interaction rapide et efficace. Ces dernières années, la reconnaissance automatique de la parole (ASR) basée sur l'apprentissage profond de bout en bout, qui optimise la probabilité de la séquence de caractères de sortie compte tenu d'un signal de parole d'entrée, a fait de grands progrès [Chan et al., 2016 ; Baevski et al., 2020 ; Gulati, et al., 2020]. Dans les communications aéronautiques, la langue anglaise est le plus souvent obligatoire. Malheureusement, de nombreux pilotes ne sont pas de langue maternelle anglaise et présentent un accent influencé par les mécanismes de prononciation de leur langue maternelle. Dans le cockpit d'un avion, la voix non maternelle des pilotes et les bruits environnants sont les défis les plus difficiles à relever pour parvenir à une ASR efficace. La parole non native pose plusieurs problèmes [Shi et al., 2021] : prononciations incorrectes ou approximatives, erreurs dans l'accord du genre et du nombre, utilisation de mots inexistants, articles manquants, phrases grammaticalement incorrectes, etc. L'environnement acoustique ajoute une composante perturbatrice au signal de parole. Une grande partie du succès de la reconnaissance de la parole repose sur la capacité à prendre en compte les différents accents et les bruits ambiants dans les modèles utilisés par l'ASR. La personne recrutée devra développer des méthodologies et des outils permettant d'obtenir une reconnaissance automatique de la parole non native performante dans le contexte aéronautique et plus particulièrement dans un cockpit d'avion (bruyant). Ce projet sera basé sur un système de reconnaissance automatique de la parole de bout en bout [Shi et al., 2021] utilisant wav2vec 2.0 [Baevski et al., 2020]. Ce modèle est l'un des plus performants de l'état de l'art actuel. Ce modèle wav2vec 2.0 permet l'apprentissage auto-supervisé de représentations à partir de données audio brutes (sans transcription).