Thèse soutenue

Du repérage sémantique robuste d’actions vers leur détection dans les vidéos

FR  |  
EN
Auteur / Autrice : Guillaume Vaudaux-Ruth
Direction : Catherine AchardAdrien Chan-Hon-Tong
Type : Thèse de doctorat
Discipline(s) : Génie informatique, automatique et traitement du signal
Date : Soutenance le 08/12/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Sciences mécaniques, acoustique, électronique et robotique de Paris (2000-....)
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Stéphane Doncieux
Examinateurs / Examinatrices : Alexandre Boulch
Rapporteurs / Rapporteuses : Quoc Cuong Pham, Jean-Philippe Vandeborre

Résumé

FR  |  
EN

La compréhension de vidéos nécessite une caractérisation à la fois spatiale et temporelle de leur contenu. Ainsi, face au succès des méthodes d’apprentissage statistique par réseaux de neurones pour l’analyse automatique d’images, ces méthodes ont rapidement été étendues au contexte spatio-temporel. La dimension temporelle introduit de nouvelles problématiques algorithmiques, que ce soit pour la caractérisation des vidéos ou pour l’extraction d’informations sémantiques. Dans cette thèse, nous nous intéressons à la détection temporelle d’actions qui vise, non seulement à reconnaître les actions présentes dans une vidéo, mais aussi à en connaître les limites temporelles. Plus précisément, nous étudions l’impact que peut avoir la recherche d’une localisation temporelle fine sur la robustesse de l’extraction sémantique. Ainsi, dans la première partie de ce manuscrit, nous abordons le problème du repérage d’actions, qui vise une extraction sémantique robuste sans contrainte forte de localisation temporelle. Pour cela, nous introduisons un algorithme basé sur une technique d’apprentissage par renforcement, permettant de réduire la sensibilité aux annotations lors de l’apprentissage et ainsi d’améliorer la qualité de l’extraction sémantique. Dans une seconde partie, nous étendons cette méthode de manière à obtenir également des indications sur la localisation temporelle des actions. Nous introduisons aussi la notion de confiance temporelle qui permet de focaliser le processus d’extraction de contenu d’intérêt sur les zones ayant une forte probabilité de contenir une action. Enfin, nous proposons d’étudier les limites de ces approches et proposons des pistes pour arriver à une localisation temporelle précise des actions.