Du repérage sémantique robuste d’actions vers leur détection dans les vidéos
Auteur / Autrice : | Guillaume Vaudaux-Ruth |
Direction : | Catherine Achard, Adrien Chan-Hon-Tong |
Type : | Thèse de doctorat |
Discipline(s) : | Génie informatique, automatique et traitement du signal |
Date : | Soutenance le 08/12/2021 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences mécaniques, acoustique, électronique et robotique de Paris (2000-....) |
Partenaire(s) de recherche : | Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....) |
Jury : | Président / Présidente : Stéphane Doncieux |
Examinateurs / Examinatrices : Alexandre Boulch | |
Rapporteurs / Rapporteuses : Quoc Cuong Pham, Jean-Philippe Vandeborre |
Mots clés
Mots clés contrôlés
Résumé
La compréhension de vidéos nécessite une caractérisation à la fois spatiale et temporelle de leur contenu. Ainsi, face au succès des méthodes d’apprentissage statistique par réseaux de neurones pour l’analyse automatique d’images, ces méthodes ont rapidement été étendues au contexte spatio-temporel. La dimension temporelle introduit de nouvelles problématiques algorithmiques, que ce soit pour la caractérisation des vidéos ou pour l’extraction d’informations sémantiques. Dans cette thèse, nous nous intéressons à la détection temporelle d’actions qui vise, non seulement à reconnaître les actions présentes dans une vidéo, mais aussi à en connaître les limites temporelles. Plus précisément, nous étudions l’impact que peut avoir la recherche d’une localisation temporelle fine sur la robustesse de l’extraction sémantique. Ainsi, dans la première partie de ce manuscrit, nous abordons le problème du repérage d’actions, qui vise une extraction sémantique robuste sans contrainte forte de localisation temporelle. Pour cela, nous introduisons un algorithme basé sur une technique d’apprentissage par renforcement, permettant de réduire la sensibilité aux annotations lors de l’apprentissage et ainsi d’améliorer la qualité de l’extraction sémantique. Dans une seconde partie, nous étendons cette méthode de manière à obtenir également des indications sur la localisation temporelle des actions. Nous introduisons aussi la notion de confiance temporelle qui permet de focaliser le processus d’extraction de contenu d’intérêt sur les zones ayant une forte probabilité de contenir une action. Enfin, nous proposons d’étudier les limites de ces approches et proposons des pistes pour arriver à une localisation temporelle précise des actions.