Thèse soutenue

Approches basées sur les variétés pour la reconnaissance des actions et des gestes

FR  |  
EN
Auteur / Autrice : Mohamed Akremi
Direction : Hedi TabiaNajett Neji
Type : Thèse de doctorat
Discipline(s) : Sciences du traitement du signal et des images
Date : Soutenance le 11/04/2025
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Informatique, BioInformatique, Systèmes Complexes (Evry, Essonne)
Référent : Université d'Évry-Val-d'Essonne (1991-....)
graduate school : Université Paris-Saclay. Graduate School Sciences de l’ingénierie et des systèmes (2020-….)
Jury : Président / Présidente : Michèle Gouiffès
Examinateurs / Examinatrices : Hassen Drira, Hazem Wannous, Sylvie Treuillet
Rapporteurs / Rapporteuses : Hassen Drira, Hazem Wannous

Résumé

FR  |  
EN

La reconnaissance des actions humaines (HAR) est devenue un domaine de recherche essentiel en raison de ses nombreuses applications dans le monde réel, notamment l'interaction homme-machine, la santé intelligente, la réalité virtuelle, la surveillance, le contrôle des drones (UAV) et les systèmes autonomes. Au cours des dernières décennies, de nombreuses approches ont été développées pour reconnaître les actions humaines à partir de séquences vidéo RGB monoculaires. Plus récemment, l'émergence des capteurs de profondeur a favorisé le développement de l'analyse des activités en 3D et de la reconnaissance des gestes en 3D, entraînant des avancées significatives dans le domaine. Parmi les différentes techniques proposées, les approches basées sur les variétés ont gagné en importance en raison de leur capacité à modéliser efficacement l'évolution temporelle des données squelettiques 3D grâce à des représentations invariantes aux variétés. Ces méthodes ont démontré des performances remarquables dans la résolution du défi de la reconnaissance des actions.Dans ce travail, nous explorons les propriétés de la variété des matrices Symmetric Positive Definite (SPD), l'une des plus utilisées en reconnaissance des actions et des gestes. Nous proposons un cadre de reconnaissance innovant intégrant un détecteur et un classificateur, en exploitant un réseau de neurones basé sur SPD, connu sous le nom de SPD Siamese Neural Network. Nous validons ses performances par le biais d'expériences approfondies sur des séquences d'actions segmentées et continues à travers plusieurs ensembles de données. Nos résultats montrent que cette approche surpasse les méthodes de l'état de l'art dans divers scénarios.Malgré ces avancées, des défis majeurs subsistent, en particulier dans des environnements complexes tels que la reconnaissance des actions humaines par drone (UAV). Pour pallier ces limitations, nous introduisons un modèle amélioré, SPDAGG-TransNet, qui optimise le réseau SPD Siamese en affinant l'extraction des caractéristiques spatio-temporelles et en intégrant un module Transformer. Cette amélioration renforce la capacité du modèle à capturer les dépendances à long terme, enrichir les représentations des caractéristiques et préserver les propriétés géométriques intrinsèques des représentations SPD. L'intégration d'encodeurs Transformer améliore encore la précision de la reconnaissance en modélisant efficacement les dynamiques locales et globales du mouvement. Des évaluations approfondies sur des ensembles de données de référence, notamment DHG-14, UAV-Human et UAV-Gesture, démontrent que SPDAGG-TransNet atteint des performances de pointe.Au-delà des approches basées sur SPD, nous explorons également l'espace hyperbolique comme cadre géométrique alternatif pour la reconnaissance des mouvements. Les réseaux de neurones hyperboliques (HNNs) constituent une voie prometteuse pour modéliser les relations hiérarchiques et structurées des données de mouvement. Contrairement aux modèles d'apprentissage profond conventionnels basés sur l'espace euclidien, les architectures hyperboliques exploitent les transformations de Lorentz et des techniques d'optimisation avancées, telles que Riemannian Adam optimizer, pour stabiliser les embeddings et améliorer l'évolutivité. Ces avancées permettent une modélisation plus efficace des mouvements hiérarchiques, rendant l'apprentissage hyperbolique particulièrement adapté aux tâches de reconnaissance des actions.Des expériences approfondies sur plusieurs ensembles de données, de la reconnaissance des gestes de la main aux actions du corps et aux données UAV, confirment l'efficacité des approches basées sur SPD et l'espace hyperbolique dans des scénarios complexes. Nos résultats soulignent la supériorité des cadres d'apprentissage géométrique pour modéliser avec précision les mouvements humains, garantir une adaptabilité en temps réel et dépasser les limites des méthodes euclidiennes traditionnelles.