Mise à l'échelle de la synthèse de mouvement humain en 3D conditionnée par du langage naturel
Auteur / Autrice : | Léore Bensabath |
Direction : | David Picard |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/06/2024 |
Etablissement(s) : | Marne-la-vallée, ENPC |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) |
Mots clés
Résumé
La thèse s'appuiera sur les premiers travaux sur les modèles génératifs de mouvements humains 3D par [Petrovich 2022, 2023]. L'objectif du projet sera de remédier à la rareté des données. Elle utilisera des vidéos représentant des humains comme source de données supplémentaires d'entrainement. L'objectif sera d'utiliser les récentes approches d'estimation de mouvement monoculaire, sur des vidéos équipées de sous-titres et facilement disponibles. Le projet se concentrera sur la sélection automatique de paires mouvement-texte par (i) rechercher une source de vidéos appropriée ; (ii) filtrer les estimations de mouvement à partir de vidéos de bonne qualité, et (iii) filtrer et/ou générer des sous-titres pertinents pour les mouvements. Une fois que nous aurons développé une preuve de concept démontrant les avantages des données d'entrainement supplémentaires, la méthodologie sera appliquée à une collection de données de langue des signes, avec pour but de l'appliquer à la traduction texte-signe. Les projets ultérieurs tout au long du doctorat pourront explorer l'extraction d'autres éléments 3D de l'environnement pertinents pour le mouvement, tels que des objets ainsi que les interactions entre plusieurs personnes.