Reconnaissance automatique de la parole pour les locuteurs non natifs dans un environnement bruyant

Raphael Bagat

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Reconnaissance automatique de la parole pour les locuteurs non natifs dans un environnement bruyant

FR |

EN

Auteur / Autrice :	Raphael Bagat
Direction :	Irina Illina, Emmanuel Vincent
Type :	Projet de thèse
Discipline(s) :	Informatique
Date :	Inscription en doctorat le 12/10/2023
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche :	Laboratoire : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
	Equipe de recherche : MULTISPEECH

Mots clés

FR |

EN

Mots clés libres

Reconnaissance automatique de la parole

Accent non-natif

Apprentissage profond

Résumé

FR |

EN

Lorsqu'une personne a les mains occupées à effectuer une tâche comme conduire une voiture ou piloter un avion, la voix est une modalité d'interaction rapide et efficace. Ces dernières années, la reconnaissance automatique de la parole (ASR) basée sur l'apprentissage profond de bout en bout, qui optimise la probabilité de la séquence de caractères de sortie compte tenu d'un signal de parole d'entrée, a fait de grands progrès [Chan et al., 2016 ; Baevski et al., 2020 ; Gulati, et al., 2020]. Dans les communications aéronautiques, la langue anglaise est le plus souvent obligatoire. Malheureusement, de nombreux pilotes ne sont pas de langue maternelle anglaise et présentent un accent influencé par les mécanismes de prononciation de leur langue maternelle. Dans le cockpit d'un avion, la voix non maternelle des pilotes et les bruits environnants sont les défis les plus difficiles à relever pour parvenir à une ASR efficace. La parole non native pose plusieurs problèmes [Shi et al., 2021] : prononciations incorrectes ou approximatives, erreurs dans l'accord du genre et du nombre, utilisation de mots inexistants, articles manquants, phrases grammaticalement incorrectes, etc. L'environnement acoustique ajoute une composante perturbatrice au signal de parole. Une grande partie du succès de la reconnaissance de la parole repose sur la capacité à prendre en compte les différents accents et les bruits ambiants dans les modèles utilisés par l'ASR. La personne recrutée devra développer des méthodologies et des outils permettant d'obtenir une reconnaissance automatique de la parole non native performante dans le contexte aéronautique et plus particulièrement dans un cockpit d'avion (bruyant). Ce projet sera basé sur un système de reconnaissance automatique de la parole de bout en bout [Shi et al., 2021] utilisant wav2vec 2.0 [Baevski et al., 2020]. Ce modèle est l'un des plus performants de l'état de l'art actuel. Ce modèle wav2vec 2.0 permet l'apprentissage auto-supervisé de représentations à partir de données audio brutes (sans transcription).

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Reconnaissance automatique de la parole pour les locuteurs non natifs dans un environnement bruyant

Mots clés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Reconnaissance automatique de la parole pour les locuteurs non natifs dans un environnement bruyant

Mots clés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses