Thèse soutenue

Amélioration de l'intelligibilité de signaux audio de parole en contexte bruité automobile
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Enguerrand Gentet
Direction : Bertrand DavidSebastien Denjean
Type : Thèse de doctorat
Discipline(s) : Signal, images, automatique et robotique
Date : Soutenance le 31/03/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Etablissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....)
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury : Président / Présidente : Christophe d' Alessandro
Examinateurs / Examinatrices : Bertrand David, Sebastien Denjean, Christophe d' Alessandro, Yannis Stylianou, Etienne Parizet, Maëva Garnier
Rapporteurs / Rapporteuses : Yannis Stylianou, Etienne Parizet

Résumé

FR  |  
EN

La quantité de diffusion de signaux de parole dans les habitacles automobiles est de plus en plus importante : télécommunications, radio, système de navigation... Cependant, malgré les efforts et les avancées mécaniques, beaucoup de bruits persistent au sein de l'habitacle dégradant fortement l'intelligibilité de ces signaux de parole. L'objectif de cette thèse est alors de développer des outils de renforcement de la parole visant à traiter les signaux avant leur dégradation afin d'assurer une bonne intelligibilité dans le bruit des habitacles automobiles. Une approche de renforcement de la parole très performante consiste à utiliser un égaliseur fréquentiel afin d’optimiser un critère d’intelligibilité : le Speech Intelligibility Index (SII). Pour faciliter l'optimisation, les méthodes actuelles se basent sur des approximations du critère. De plus, en concentrant l'énergie spectrale du signal dans des zones où l'oreille est plus sensible, ces méthodes augmentent le volume perçu ce qui peut détériorer l'expérience utilisateur. Ainsi, en plus de proposer une méthode de résolution exacte du problème de maximisation du SII, nos travaux proposent d’introduire et étudier l'influence d'une nouvelle contrainte perceptive maintenant les signaux à leur niveau perçu. La popularisation des approches d’apprentissage automatique pousse à apprendre les traitements de renforcement de la parole à partir d’exemples naturellement produits dans le bruit (parole Lombard), ou en sur-articulant (parole claire). Les travaux actuels ne parviennent pas à obtenir des gains d’intelligibilité aussi significatifs qu’avec les modifications naturelles et nous pensons que la négligence de nombreux aspects temporels pourrait en être partiellement responsable. Nos travaux proposent donc d’approfondir ces approches en exploitant des modèles d’apprentissage et des pré-traitements adaptés aux séquences temporelles longues. Nous proposons aussi une nouvelle modélisation des modifications du débit de la parole directement intégrable dans l’apprentissage machine ce qui n'avait jamais été fait auparavant.