Auteur / Autrice : | Enguerrand Gentet |
Direction : | Bertrand David, Sebastien Denjean |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, images, automatique et robotique |
Date : | Soutenance le 31/03/2021 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Etablissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....) |
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) | |
Jury : | Président / Présidente : Christophe d' Alessandro |
Examinateurs / Examinatrices : Bertrand David, Sebastien Denjean, Christophe d' Alessandro, Yannis Stylianou, Etienne Parizet, Maëva Garnier | |
Rapporteurs / Rapporteuses : Yannis Stylianou, Etienne Parizet |
Mots clés
Résumé
La quantité de diffusion de signaux de parole dans les habitacles automobiles est de plus en plus importante : télécommunications, radio, système de navigation... Cependant, malgré les efforts et les avancées mécaniques, beaucoup de bruits persistent au sein de l'habitacle dégradant fortement l'intelligibilité de ces signaux de parole. L'objectif de cette thèse est alors de développer des outils de renforcement de la parole visant à traiter les signaux avant leur dégradation afin d'assurer une bonne intelligibilité dans le bruit des habitacles automobiles. Une approche de renforcement de la parole très performante consiste à utiliser un égaliseur fréquentiel afin d’optimiser un critère d’intelligibilité : le Speech Intelligibility Index (SII). Pour faciliter l'optimisation, les méthodes actuelles se basent sur des approximations du critère. De plus, en concentrant l'énergie spectrale du signal dans des zones où l'oreille est plus sensible, ces méthodes augmentent le volume perçu ce qui peut détériorer l'expérience utilisateur. Ainsi, en plus de proposer une méthode de résolution exacte du problème de maximisation du SII, nos travaux proposent d’introduire et étudier l'influence d'une nouvelle contrainte perceptive maintenant les signaux à leur niveau perçu. La popularisation des approches d’apprentissage automatique pousse à apprendre les traitements de renforcement de la parole à partir d’exemples naturellement produits dans le bruit (parole Lombard), ou en sur-articulant (parole claire). Les travaux actuels ne parviennent pas à obtenir des gains d’intelligibilité aussi significatifs qu’avec les modifications naturelles et nous pensons que la négligence de nombreux aspects temporels pourrait en être partiellement responsable. Nos travaux proposent donc d’approfondir ces approches en exploitant des modèles d’apprentissage et des pré-traitements adaptés aux séquences temporelles longues. Nous proposons aussi une nouvelle modélisation des modifications du débit de la parole directement intégrable dans l’apprentissage machine ce qui n'avait jamais été fait auparavant.