Thèse en cours

Mécanisme d’attention pour le sous-titrage du mouvement humain: Vers une segmentation sémantique et analyse du mouvement interprétables

FR  |  
EN

Accès à la thèse

Triangle exclamation pleinLa soutenance a eu lieu en 2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Karim Radouane
Direction : Sylvie Ranwez
Type : Projet de thèse
Discipline(s) : Informatique
Date : Soutenance en 2024
Etablissement(s) : IMT Mines Alès
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : EuroMov Digital Health in Motion
Jury : Président / Présidente : Karteek Alahari
Examinateurs / Examinatrices : Sylvie Ranwez, Hazem Wannous, Andon Tchechmedjiev, Gul Varol, Julien Lagarde
Rapporteurs / Rapporteuses : Hazem Wannous, Karteek Alahari

Résumé

FR  |  
EN

Les tâches de sous-titrage se concentrent sur les images et les vidéos, mais rarement aux poses humaines. Pourtant, c'est une représentation concise pour les activités humaines. Au-delà de la qualité de la génération de texte, nous considérons la tâche de légendage de mouvement comme un intermédiaire pour résoudre d’autres tâches dérivées. Dans cette approche holistique, nos expériences sont centrées sur l’apprentissage non supervisé de la segmentation de mouvement sémantique et l’interprétabilité. Nous commençons par une revue de la littérature des méthodes récentes pour l’estimation de pose humaine, un prérequis central du légendage basé sur la pose. Ensuite, nous nous intéressons à l’apprentissage de la représentation de pose, avec un accent sur la modélisation basée sur des graphes spatio-temporels. Nous évaluons notre modèle sur une application réelle (détection de comportement protecteur) pour laquelle nous avons gagner le défi AffectMove. Ensuite, nous plongeons dans le cœur de notre contribution sur le légendage du mouvement où : (i) Nous concevons un mécanisme d’attention récurrent local pour la génération de texte synchronisé avec le mouvement. Chaque mouvement et sa légende sont décomposés en primitives et sous-légendes correspondantes, et nous proposons des métriques spécifique pour évaluer la correspondance synchronique entre les segments de mouvement et de langage. (ii) Nous initions la construction d’un jeu de données mouvement-langage pour permettre une segmentation supervisée. (iii) Nous concevons une architecture interprétable avec un processus de raisonnement transparent à travers l’attention spatio-temporelle, montrant des résultats état-de-l’art sur les deux jeux de données de référence, KIT-ML et HumanML3D. Des outils efficaces sont proposés pour l’évaluation et l’illustration de l’interprétabilité. Enfin, on conduit une analyse approfondie des applications potentielles: segmentation d’action non supervisée, traduction du langage des signes et impact dans d’autres scénarios.