La séparation de sources audiovisuelles
Auteur / Autrice : | David Sodoyer |
Direction : | Jean-Luc Schwartz, Christian Jutten, Laurent Girin |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, image, parole, télécoms |
Date : | Soutenance en 2004 |
Etablissement(s) : | Grenoble INPG |
Partenaire(s) de recherche : | Laboratoire : Institut de la communication parlée (Grenoble ; 1983-2007) |
Résumé
En cette époque où les technologies du multimédia envahissent notre quotidien de sons et d'images, cette thèse a pour objectif, dans le cadre du traitement de la parole, d'étendre et d'unir deux domaines de recherche : la séparation aveugle de sources et l'étude des interactions audio-visuelles dans la communication parlée. Partant du fait que la parole c'est du son mais aussi de l'image, nous proposons de mettre en œuvre un système de séparation de signaux de parole, en exploitant l'information visuelle fournie par les lèvres d'un locuteur. Après une brève revue des concepts de la séparation aveugle de sources développés tout au long de ces 20 dernières années, nous rappelons divers travaux montrant le gain qu'apporte la parole audio-visuelle dans des milieux bruités, et certaines de ses potentialités dans des systèmes de traitement de la parole. Une première phase théorique traite d'un principe de séparation de sources basé sur l'utilisation d'une information spectrale, nous permettant de mettre en place les fondations de notre étude. Puis, grâce aux propriétés de la parole audio-visuelle (cohérence et complémentarité), cette information spectrale est remplacée par l'information audio visuelle modélisée par une probabilité conjointe entre un spectre audio et une forme de lèvres. Une étude sur les principales caractéristiques de ce modèle audio-visuel permet de passer à l'implémentation et à l'évaluation de ce système de séparation de source audio-visuelles. Les résultats montrent la faisabilité d'un tel système, le gain apporté par l'information visuelle vis-à-vis d'algorithmes de séparation aveugle de sources, et les perspectives dans des situations plus complexes.