Thèse soutenue

Modèles génératifs à variables latentes profondes pour le traitement multimédia

FR  |  
EN
Auteur / Autrice : Xiaoyu Lin
Direction : Xavier Alameda-PinedaLaurent Girin
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 25/06/2024
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble, Isère, France ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Jean Kuntzmann (Grenoble, Isère, France ; 2007-....)
Equipe de recherche : Equipe-projet Apprentissage, perception et commande pour des robots sociaux (Montbonnot, Isère ; 2021-....)
Jury : Président / Présidente : Jean-Marc Brossier
Examinateurs / Examinatrices : Shai Ben-David, Dorothea Kolossa
Rapporteurs / Rapporteuses : Gaël Richard, David Picard

Résumé

FR  |  
EN

Les modèles génératifs probabilistes profonds occupent une position crutiale dans le domaine de la recherche en apprentissage automatique. Ces sont des outils puissants pour comprendre des données réelles complexes, telles que les images, les signaux audios et le texte, en modélisant leurs distributions. Cette capacité permet également la génération de nouveaux échantillons de données. De plus, ces modèles peuvent être utilisés pour découvrir des structures cachées et les facteurs intrinsèques de variation au sein des données. Les représentations des données apprises à travers ce processus peuvent être exploitées dans un spectre de tâches de prédiction en aval, améliorant ainsi le processus décisionnel.Une autre direction de recherche explore comment la flexibilité et la capacité de généralisation robuste des modèles génératifs probabilistes profonds peut être utilisée pour résoudre des problèmes scientifiques et d'ingénierie complexes. Bien que les méthodes d'apprentissage profond supervisées appliquées sur des architectures neuronales sophistiquées obtiennent les performances de l'état de l'art dans divers domaines, leur application pratique aux situations réelles reste limitée par un certain nombre de facteurs. Ces limitations sont par exemple la nécessité d'un immense volume de données annotées et un certain déficit en interprétabilité des modèles. Dans ce travail de thèse, nous explorons une approche alternative utilisant des modèles génératifs probabilistes profonds dans un cadre non supervisé ou faiblement supervisé pour surmonter ces obstacles. Plus précisément, l'approche proposée implique le pré-entrainement initial d'un modèle génératif probabiliste profond avec des signaux naturels ou synthétiques pour intégrer des connaissances préalables sur les données complexes. Ensuite, ce modèle pré-entrainé est intégré dans un modèle génératif à variable latente (LVGM) plus large, conçu pour traiter le problème pratique considéré.Notre recherche se concentre sur un type spécifique de modèle génératif probabiliste profond conçu pour les données séquentielles, appelé auto-encodeur variationnel dynamique (DVAE). Les DVAEs sont une famille de modèles à variables latentes profonds, dérivés de l'auto-encodeur variationnel (VAE), et adaptés pour la modélisation de données séquentielles. Ils reposent sur une séquence de vecteurs latents pour capturer les dépendances temporelles complexes au sein des données séquentielles observées. En intégrant les DVAEs dans un LVGM étendu, nous abordons une gamme de traitements audios et videos, qui sont le suivi multi-objets, la séparation de sources audio mono-canal et le réhaussement de la parole dans le bruit. Les solutions sont dérivées en utilisant la méthodologie générale de l'inférence variationnelle. De plus, nous étudions également une nouvelle architecture de DVAE, appelée HiT-DVAE, qui intègre l'architecture Transformer dans le cadre probabiliste des DVAEs. HiT-DVAE et sa variante, LigHT-DVAE, démontrent tous les deux d'excellentes performances dans la modélisation de la parole.Les résultats de nos expériences confirment le potentiel des modèles génératifs probabilistes profonds pour adresser des problèmes réels avec une quantité de données étiquetées limitée, offrant des solutions évolutives et interprétables. De plus, l'introduction de HiT-DVAE représente une contribution au domaine, combinant la force des architectures Transformer avec celle de la modélisation probabiliste pour une meilleure modélisation des données séquentielles. Ce travail ne contribue pas seulement à la compréhension théorique des modèles génératifs profonds, mais démontre également leur capacité d'application dans divers domaines, jetant les bases pour de futures innovations en apprentissage automatique.