Thèse soutenue

Compréhension de l'activité humaine dans des vidéos

FR  |  
EN
Auteur / Autrice : Mohammed Guermal
Direction : François Brémond
Type : Thèse de doctorat
Discipline(s) : Automatique traitement du signal et des images
Date : Soutenance le 28/05/2024
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Ezio Malis
Examinateurs / Examinatrices : François Brémond, Ezio Malis, Bertrand Luvison, Thierry Chateau
Rapporteurs / Rapporteuses : Bertrand Luvison, Thierry Chateau

Résumé

FR  |  
EN

La compréhension des actions dans les vidéos est un aspect crucial de la vision par ordinateur avec des implications profondes dans divers domaines. Alors que notre dépendance aux données visuelles continue de croître, la capacité à com-prendre et interpréter les actions humaines dans les vidéos est essentielle pour faire progresser les technologies dans la surveillance, les soins de santé, les systèmes auto-nomes et l'interaction homme-machine. La vision par ordinateur a connu d'énormes progrès avec l'avènement de méthodes d'apprentissage profond telles que les ré-seaux neuronaux convolutionnels (CNN) et plus récemment les transformers. Ces méthodes ont permis à la communauté de la vision par ordinateur d'évoluer dans de nombreux domaines tels que la segmentation d'image, la détection d'objets, la compréhension de scènes, etc. Cependant, en ce qui concerne le traitement vidéo, il reste encore limité par rapport aux images statiques. La reconnaissance des activités humaines repose sur une analyse vidéo approfondie. Dans cette analyse, il est essentiel de prendre en considération différents aspects de la vidéo, tels que les informations spatiales (comme la couleur RGB, la pose, la détection d'objets, etc.) ainsi que les informations temporelles. Il est ensuite nécessaire de combiner ces deux types d'entrées pour prédire avec précision l'activité humaine qui se déroule dans la vidéo. Dans cette thèse, nous nous concentrons sur la compréhension des actions que nous divisons en deux parties principales : la reconnaissance des actions et la détection des actions. Principalement, les algorithmes de compréhension des actions font face aux défis suivants : 1) l'analyse temporelle et spatiale, 2) les actions détaillées,et 3) la modélisation temporelle.Cette thèse, introduis les différents défis liés à la reconnaissance des activités humaines. Nous présenterons également les méthodes et solutions existantes, en met-tant en évidence leurs limites. Ensuite, nous exposerons notre propre travail et nos contributions dans ce domaine spécifique. En conclusion, nous discuterons des perspectives futures et des extensions envisageables pour nos solutions.