Thèse soutenue

Mécanisme d’attention pour le sous-titrage du mouvement humain : Vers une segmentation sémantique et analyse du mouvement interprétables

FR  |  
EN
Auteur / Autrice : Karim Radouane
Direction : Sylvie Ranwez
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 26/02/2024
Etablissement(s) : IMT Mines Alès
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : EuroMov Digital Health in Motion - EuroMov - Digital Health in Motion / Euromov DHM
Jury : Président / Présidente : Karteek Alahari
Examinateurs / Examinatrices : Sylvie Ranwez, Hazem Wannous, Andon Tchechmedjiev, Gül Varol, Julien Lagarde
Rapporteurs / Rapporteuses : Karteek Alahari, Hazem Wannous

Résumé

FR  |  
EN

Dans l’état de l’art, les tâches de sous-titrage se concentrent souvent sur les images et les vidéos, mais rarement sur les poses humaines. Ces dernières offrent pourtant une représentation concise des activités humaines et, au-delà de la qualité de la génération de texte, la tâche de "légendage" de mouvement peut constituer un intermédiaire pour résoudre d’autres tâches dérivées. Les travaux présentés dans ce manuscrit sont centrés sur l’apprentissage non supervisé qui peut être utilisé pour la segmentation de mouvement et l’identification d’une sémantique associée, ainsi que son interprétabilité. Après une revue de la littérature des méthodes récentes pour l’estimation de poses humaines, un prérequis central pour le légendage basé sur la pose, nous nous intéressons à l’apprentissage de la représentation de pose, avec un accent sur la modélisation basée sur des graphes spatio-temporels. Notre modèle est évalué sur une application réelle de détection de comportement protecteur, pour laquelle nous avons gagné le défi AffectMove. Les contributions majeures concernant le légendage du mouvement sont ensuite détaillées en trois temps. (i) Un mécanisme d’attention récurrent local pour la génération de texte synchronisé avec le mouvement est proposé, où chaque mouvement et sa légende sont décomposés en primitives et sous-légendes correspondantes. Des métriques spécifiques sont proposées pour évaluer la correspondance entre les segments de mouvement et les segments de langage. (ii) Un jeu de données mouvement-langage est ensuite proposé pour permettre une segmentation supervisée. (iii) Enfin, une architecture interprétable avec un processus de raisonnement transparent à travers l’attention spatio-temporelle est proposée. Cette architecture montre des "résultats état-de-l’art" sur les deux jeux de données de référence, KITML et HumanML3D. Des outils efficaces sont proposés pour l’évaluation et l’illustration de l’interprétabilité. Ces contributions ouvrent de nombreuses perspectives de recherche et le manuscrit se termine par une analyse approfondie des applications potentielles : la segmentation d’actions non supervisée, la traduction automatique de la langue des signes ou encore l’impact dans d’autres scénarios.