Thèse soutenue

Lightweight architectures for spatiotemporal action detection in real-time

FR  |  
EN
Auteur / Autrice : Yu Liu
Direction : Dominique GinhacFan Yang Song
Type : Thèse de doctorat
Discipline(s) : Instrumentation et informatique de l'image
Date : Soutenance le 25/05/2022
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....)
Partenaire(s) de recherche : Laboratoire : Imagerie et Vision Artificielle (ImVia) (Dijon)
Etablissement de préparation : Université de Bourgogne (1970-....)
Jury : Président / Présidente : Catherine Achard
Examinateurs / Examinatrices : Fabrice Mériaudeau, Fan Yang
Rapporteurs / Rapporteuses : Olivier Sentieys, Stéphane Canu

Résumé

FR  |  
EN

Depuis la dernière décennie, la croissance explosive de vidéos fait naître un large éventail d’applications nécessitant l’analyse et la compréhension des actions humaines. Les recherches connexes actuelles se concentrent principalement sur l’amélioration des performances de détection de reconnaissance d’actions. Cependant, certains scénarios du monde réel exigent des réponses spontanées réalisées sur des systèmes embarqués avec des ressources limitées. Les méthodes existantes sont difficilement déployables dans ce contexte, puisqu’elles utilisent des architectures lourdes comme coréseaux de neuronesnvolutifs 3D pour extraire les caractéristiques spatiotemporelles d’un vidéo ou calculent explicitement le flux optique des mouvement. Dans cette thèse, nous explorons la faisabilité de réaliser la détection spatiotemporelle d’action humaine satisfaisant simultanément plusieurs contraintes d’applications grand publique : robustesse, temps réel, bas coût, ergonomie, bonne portabilité et longue autonomie énergétique.Pour ce faire, nous proposons trois architectures de détection d'action couplant différents schémas de modélisation spatiotemporelle avec des CNN 2D compacts. La première réalise la détection au niveau d’une image statique en approximant les caractéristiques de la plupart des frames d’une séquence vidéo pour accélérer le traitement. Nous explorons ensuite un paradigme de détection multi-images pour traiter simultanément la détection temporelle et la prédiction des boîtes englobantes des actions spécifiques pour former des tubelets. Enfin, nous concevons une représentation de mouvement de type flux calculé à la volée à partir d'images vidéo brutes, et étendons l'approche de détection de tubelet à deux CNN pour extraire conjointement les caractéristiques spatiales et temporelles des actions. Les résultats expérimentaux obtenus sur des bases de données publiques montrent les améliorations progressives de nos approches en termes de précision, d’efficacité, et de vitesse de traitement.