Modèles génératifs pour le regroupement de locuteurs

Sicheng Mao

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Modèles génératifs pour le regroupement de locuteurs

FR |

EN

Auteur / Autrice :	Sicheng Mao
Direction :	Roland Badeau, Anthony Larcher
Type :	Projet de thèse
Discipline(s) :	Informatique, données, IA
Date :	Inscription en doctorat le 01/10/2023
Etablissement(s) :	Institut polytechnique de Paris
Ecole(s) doctorale(s) :	École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche :	Laboratoire : Laboratoire de Traitement et Communication de l'Information
	Equipe de recherche : S2A - Statistique et Apprentissage

Mots clés

FR |

EN

Mots clés libres

Regroupement de locuteurs

Deep learning

Modèles génératifs

Résumé

FR |

EN

Le regroupement de locuteurs (RL) a pour but de résoudre le problème suivant : ''qui parle et quand ?''. Il s'agit d'un problème très difficile en raison de nombreuses scènes sonores avec des paramètres variables (milieu acoustique, locuteur en mouvement , chevauchement de la parole ...). Avec au moins deux locuteurs (réunion, conversation téléphonique, émission de télévision...), le RL est essentiel pour la bonne performance des algorithmes de transcription ou de traduction automatique de la parole vers le texte. Au cours de la dernière décennie, le RL s'est concentré sur de nombreuses architectures de réseaux neuronaux profonds afin de prendre en compte la complexité non linéaire d'un tel problème. Cependant, la pluspart de ces modèles manquent d'interprétabilité par rapport aux modèles de l'état de l'art comme les modèles de mélanges gaussiens etc. et n'exploitent pas suffisamment l'information spatiale produite par un réseau de plusieurs microphones. De ce postulat, ce sujet de thèse s'intéresse à exploiter des modèles génératifs multicanaux du type autoencodeur variationnels, avec ou sans quantisation et/ou des modèles du type transformeurs où le modèle sous-jacent probabiliste reflète plus exactement le scénario en question. De plus, des données multimodales greffées à de tels modèles génératifs est une direction qui sera étudiée comme la vidéo, la localisation de locuteurs mais également la prosodie.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modèles génératifs pour le regroupement de locuteurs

Mots clés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modèles génératifs pour le regroupement de locuteurs

Mots clés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses