Apprentissage profond pour la génération de vidéos
Auteur / Autrice : | Nabyl Quignon |
Direction : | Antitza Dantcheva |
Type : | Projet de thèse |
Discipline(s) : | Automatique traitement du signal et des images |
Date : | Inscription en doctorat le 01/03/2025 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
Partenaire(s) de recherche : | Laboratoire : Spatio-Temporal Activity Recognition Systems |
Résumé
La génération de vidéos est devenue un domaine clé de l'apprentissage profond et de la vision par ordinateur, permettant des applications allant du divertissement à l'éducation. Cette thèse proposera des approches visant à surmonter les limitations actuelles des modèles génératifs. En particulier, ces modèles nécessitent d'importantes ressources computationnelles et des ensembles de données massifs, rendant leur recherche et leur utilisation écologiquement et pratiquement contraignantes. Nous envisageons les objectifs scientifiques suivants : Nous apprendrons des représentations vidéo contrôlables et généralisables permettant de générer une grande diversité de vidéos anticipant des événements visuels complexes et interactifs. Ici, diversité signifie la création de multiples futurs à partir d'une même situation ou d'un même input, qui peuvent ensuite être transposés dans un autre contexte, ce dernier aspect étant ce que nous appelons généralisable. Nous allégerons les exigences computationnelles massives liées à l'entraînement de modèles diffusion puissants garantissant une haute résolution et une excellente qualité d'image. Pour cela, nous explorerons l'utilisation de modèles de génération d'images pré-entraînés et fixes, en leur conférant une conscience temporelle grâce à l'ajout de couches neuronales temporelles intercalées avec les couches spatiales existantes. Un objectif à long terme consiste à concevoir des modèles capables de générer des ensembles de données complexes illustrant des interactions sociales entre des humains générés. Il s'agit actuellement d'un axe de recherche largement ouvert et à fort impact.