Thèse en cours

Modèles génératifs pour le regroupement de locuteurs

FR  |  
EN
Auteur / Autrice : Sicheng Mao
Direction : Roland BadeauAnthony Larcher
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Inscription en doctorat le 01/10/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire de Traitement et Communication de l'Information
Equipe de recherche : S2A - Statistique et Apprentissage

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le regroupement de locuteurs (RL) a pour but de résoudre le problème suivant : "qui parle et quand ?". Il s'agit d'un problème très difficile en raison de nombreuses scènes sonores avec des paramètres variables (milieu acoustique, locuteur en mouvement , chevauchement de la parole ...). Avec au moins deux locuteurs (réunion, conversation téléphonique, émission de télévision...), le RL est essentiel pour la bonne performance des algorithmes de transcription ou de traduction automatique de la parole vers le texte. Au cours de la dernière décennie, le RL s'est concentré sur de nombreuses architectures de réseaux neuronaux profonds afin de prendre en compte la complexité non linéaire d'un tel problème. Cependant, la pluspart de ces modèles manquent d'interprétabilité par rapport aux modèles de l'état de l'art comme les modèles de mélanges gaussiens etc. et n'exploitent pas suffisamment l'information spatiale produite par un réseau de plusieurs microphones. De ce postulat, ce sujet de thèse s'intéresse à exploiter des modèles génératifs multicanaux du type autoencodeur variationnels, avec ou sans quantisation et/ou des modèles du type transformeurs où le modèle sous-jacent probabiliste reflète plus exactement le scénario en question. De plus, des données multimodales greffées à de tels modèles génératifs est une direction qui sera étudiée comme la vidéo, la localisation de locuteurs mais également la prosodie.