Thèse soutenue

Apprentissage profond structuré pour l'analyse de vidéos

FR  |  
EN
Auteur / Autrice : Fabien Baradel
Direction : Christian Wolf
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/06/2020
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (Lyon ; 2009-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Institut national des sciences appliquées (Lyon ; 1957-....)
Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS
Equipe de recherche : magine
Jury : Président / Présidente : David Picard
Examinateurs / Examinatrices : Christian Wolf, David Picard, Ivan Laptev, Jakob Verbeek, Diane Larlus, Julien Mille
Rapporteurs / Rapporteuses : Ivan Laptev, Jakob Verbeek

Résumé

FR  |  
EN

Avec l’augmentation massive du contenu vidéo sur Internet et au-delà, la compréhension automatique du contenu visuel pourrait avoir un impact sur de nombreux domaines d’application différents tels que la robotique, la santé, la recherche de contenu ou le filtrage. Le but de cette thèse est de fournir des contributions méthodologiques en vision par ordinateur et apprentissage statistique pour la compréhension automatique du contenu des vidéos. Nous mettons l’accent sur les problèmes de la reconnaissance de l’action humaine à grain fin et du raisonnement visuel à partir des interactions entre objets. Dans la première partie de ce manuscrit, nous abordons le problème de la reconnaissance fine de l’action humaine. Nous introduisons deux différents mécanismes d’attention, entrainés sur le contenu visuel à partir de la pose humaine articulée. Une première méthode est capable de porter automatiquement l’attention sur des points pré-sélectionnés importants de la vidéo, conditionnés sur des caractéristiques apprises extraites de la pose humaine articulée. Nous montrons qu’un tel mécanisme améliore les performances sur la tâche finale et fournit un bon moyen de visualiser les parties les plus discriminantes du contenu visuel. Une deuxième méthode va au-delà de la reconnaissance de l’action humaine basée sur la pose. Nous développons une méthode capable d’identifier automatiquement un nuage de points caractéristiques non structurés pour une vidéo à l’aide d’informations contextuelles. De plus, nous introduisons un système distribué entrainé pour agréger les caractéristiques de manière récurrente et prendre des décisions de manière distribuée. Nous démontrons que nous pouvons obtenir de meilleures performances que celles illustrées précédemment, sans utiliser d’informations de pose articulée au moment de l’inférence. Dans la deuxième partie de cette thèse, nous étudions les représentations vidéo d’un point de vue objet. Étant donné un ensemble de personnes et d’objets détectés dans la scène, nous développons une méthode qui a appris à déduire les interactions importantes des objets à travers l’espace et le temps en utilisant uniquement l’annotation au niveau vidéo. Cela permet d’identifier une interaction inter-objet importante pour une action donnée ainsi que le biais potentiel d’un ensemble de données. Enfin, dans une troisième partie, nous allons au-delà de la tâche de classification et d’apprentissage supervisé à partir de contenus visuels, en abordant la causalité à travers les interactions, et en particulier le problème de l’apprentissage contrefactuel. Nous introduisons une nouvelle base de données, à savoir CoPhy, où, après avoir regardé une vidéo, la tâche consiste à prédire le résultat après avoir modifié la phase initiale de la vidéo. Nous développons une méthode basée sur des interactions au niveau des objets capables d’inférer les propriétés des objets sans supervision ainsi que les emplacements futurs des objets après l’intervention.