Mécanisme d’attention pour le sous-titrage du mouvement humain : Vers une segmentation sémantique et analyse du mouvement interprétables
Auteur / Autrice : | Karim Radouane |
Direction : | Sylvie Ranwez |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 26/02/2024 |
Etablissement(s) : | IMT Mines Alès |
Ecole(s) doctorale(s) : | École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : EuroMov Digital Health in Motion - EuroMov - Digital Health in Motion / Euromov DHM |
Jury : | Président / Présidente : Karteek Alahari |
Examinateurs / Examinatrices : Sylvie Ranwez, Hazem Wannous, Andon Tchechmedjiev, Gül Varol, Julien Lagarde | |
Rapporteurs / Rapporteuses : Karteek Alahari, Hazem Wannous |
Résumé
Dans l’état de l’art, les tâches de sous-titrage se concentrent souvent sur les images et les vidéos, mais rarement sur les poses humaines. Ces dernières offrent pourtant une représentation concise des activités humaines et, au-delà de la qualité de la génération de texte, la tâche de "légendage" de mouvement peut constituer un intermédiaire pour résoudre d’autres tâches dérivées. Les travaux présentés dans ce manuscrit sont centrés sur l’apprentissage non supervisé qui peut être utilisé pour la segmentation de mouvement et l’identification d’une sémantique associée, ainsi que son interprétabilité. Après une revue de la littérature des méthodes récentes pour l’estimation de poses humaines, un prérequis central pour le légendage basé sur la pose, nous nous intéressons à l’apprentissage de la représentation de pose, avec un accent sur la modélisation basée sur des graphes spatio-temporels. Notre modèle est évalué sur une application réelle de détection de comportement protecteur, pour laquelle nous avons gagné le défi AffectMove. Les contributions majeures concernant le légendage du mouvement sont ensuite détaillées en trois temps. (i) Un mécanisme d’attention récurrent local pour la génération de texte synchronisé avec le mouvement est proposé, où chaque mouvement et sa légende sont décomposés en primitives et sous-légendes correspondantes. Des métriques spécifiques sont proposées pour évaluer la correspondance entre les segments de mouvement et les segments de langage. (ii) Un jeu de données mouvement-langage est ensuite proposé pour permettre une segmentation supervisée. (iii) Enfin, une architecture interprétable avec un processus de raisonnement transparent à travers l’attention spatio-temporelle est proposée. Cette architecture montre des "résultats état-de-l’art" sur les deux jeux de données de référence, KITML et HumanML3D. Des outils efficaces sont proposés pour l’évaluation et l’illustration de l’interprétabilité. Ces contributions ouvrent de nombreuses perspectives de recherche et le manuscrit se termine par une analyse approfondie des applications potentielles : la segmentation d’actions non supervisée, la traduction automatique de la langue des signes ou encore l’impact dans d’autres scénarios.