Thèse soutenue

Reconnaissance d’actions humaines dans des vidéos utilisant une représentation locale

FR  |  
EN
Auteur / Autrice : Michal Koperski
Direction : François Brémond
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/11/2017
Etablissement(s) : Université Côte d'Azur (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)
Partenaire(s) de recherche : établissement de préparation : Université de Nice (1965-2019)
Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes) - Spatio-Temporal Activity Recognition Systems
Jury : Président / Présidente : Frédéric Precioso
Examinateurs / Examinatrices : François Brémond, Frédéric Precioso, Matthieu Cord, Leonid Sigal, Jean-Marc Odobez
Rapporteurs / Rapporteuses : Matthieu Cord, Leonid Sigal

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse étudie le problème de la reconnaissance d’actions humaines dans des vidéos. La reconnaissance d’action peut être définie comme étant la capacité à décider si une action est présente due une vidéo. Ce problème est difficile en raison de la complexité des actions humaines, dans la grande variété de leur apparence et de leur mouvement. Les avancées récentes dans les méthodes manuelles ou par apprentissage profond ont considérablement amélioré la précision de la reconnaissance d’action. Mais de nombreuses questions restent ouvertes, ce qui rend le problème de la reconnaissance d’actions loin d’être résolu. Les méthodes actuelles basées sur les caractéristiques locales, donnent des résultats satisfaisants. Mais les actions humaines sont complexes, ce qui nous conduit à la question suivante : comment modéliser les relations entre les caractéristiques locales dans leur contexte spatiotemporel ? Dans cette thèse nous proposons 2 méthodes pour y répondre. La première modélise les relations spatio-temporelles entre les caractéristiques images utilisant la Covariance Brownienne, et la seconde modélise la disposition spatiale des caractéristiques locales à l’intérieur de la boite englobante de chaque personne. Les méthodes que nous proposons sont générales et peuvent améliorer aussi bien les méthodes manuelles que celles avec apprentissage. Une autre question ouverte est : l’information 3D peut-elle améliorer la reconnaissance d’actions ? Plusieurs méthodes utilisent les informations 3D pour détecter les articulations du corps. Nous proposons de les améliorer avec un nouveau descripteur, utilisant la trajectoire 3D calculée à partir des informations RGB-D. Finalement, nous affirmons que la capacité de traiter une vidéo en temps-réel sera un facteur clé pour les futures applications de reconnaissance d’actions. Toutes les méthodes proposées dans cette thèse sont prêtes à fonctionner en temps-réel. Nous avons prouvé notre affirmation empiriquement en créant un système temps-réel de détection d’actions. Ce système a été adapté avec succès par la compagnie Toyota pour leurs systèmes robotiques. Pour l’évaluation, nous nous concentrons sur les actions quotidiennes à la maison telles que : manger, boire ou cuisiner. La reconnaissance de telles actions est importante pour le suivi des patients à l’hôpital et pour les systèmes d’aide robotisée à domicile. Dans ce but, nous avons créé une grande base de données, qui contient 160 heures d’enregistrement de 20 personnes âgées. Les vidéos ont été enregistrées dans 3 chambres avec7 capteurs RGB-D. Nous avons annoté ces vidéos avec 28 classes d’actions. Les actions dans la base de données sont effectuées d’une manière naturelle et non supervisée, ce qui introduit des défis manquants dans les bases de données publiques. Nous évaluons aussi nos méthodes en utilisant les bases de données publiques : CAD60, CAD120 et MSRDailyActivity3D. Les expérimentations montrent que nos méthodes améliorent les résultats de l’état de l’art.