Modèles génératifs pour le regroupement de locuteurs
Auteur / Autrice : | Sicheng Mao |
Direction : | Roland Badeau, Anthony Larcher |
Type : | Projet de thèse |
Discipline(s) : | Informatique, données, IA |
Date : | Inscription en doctorat le 01/10/2023 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Traitement et Communication de l'Information |
Equipe de recherche : S2A - Statistique et Apprentissage |
Mots clés
Mots clés libres
Résumé
Le regroupement de locuteurs (RL) a pour but de résoudre le problème suivant : "qui parle et quand ?". Il s'agit d'un problème très difficile en raison de nombreuses scènes sonores avec des paramètres variables (milieu acoustique, locuteur en mouvement , chevauchement de la parole ...). Avec au moins deux locuteurs (réunion, conversation téléphonique, émission de télévision...), le RL est essentiel pour la bonne performance des algorithmes de transcription ou de traduction automatique de la parole vers le texte. Au cours de la dernière décennie, le RL s'est concentré sur de nombreuses architectures de réseaux neuronaux profonds afin de prendre en compte la complexité non linéaire d'un tel problème. Cependant, la pluspart de ces modèles manquent d'interprétabilité par rapport aux modèles de l'état de l'art comme les modèles de mélanges gaussiens etc. et n'exploitent pas suffisamment l'information spatiale produite par un réseau de plusieurs microphones. De ce postulat, ce sujet de thèse s'intéresse à exploiter des modèles génératifs multicanaux du type autoencodeur variationnels, avec ou sans quantisation et/ou des modèles du type transformeurs où le modèle sous-jacent probabiliste reflète plus exactement le scénario en question. De plus, des données multimodales greffées à de tels modèles génératifs est une direction qui sera étudiée comme la vidéo, la localisation de locuteurs mais également la prosodie.