Analyse de détections concomitantes pour l'aide à la navigation interactive dans de grandes collections de vidéos

Thierry Malon

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Analyse de détections concomitantes pour l'aide à la navigation interactive dans de grandes collections de vidéos

FR |

EN

Auteur / Autrice :	Thierry Malon
Direction :	Vincent Charvillat, Sylvie, Julie Chambon, Alain Crouzil
Type :	Thèse de doctorat
Discipline(s) :	Informatique et Télécommunication
Date :	Soutenance le 14/12/2020
Etablissement(s) :	Toulouse, INPT
Ecole(s) doctorale(s) :	École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche :	Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury :	Président / Présidente : William Puech
	Examinateurs / Examinatrices : Vincent Charvillat, Sylvie, Julie Chambon, Alain Crouzil, Laure Tougne, Michèle Gouiffès
	Rapporteurs / Rapporteuses : Laure Tougne, Michèle Gouiffès

Mots clés

FR |

EN

Mots clés contrôlés

Traitement d'image par ordinateur

Reconnaissance automatique des formes

Vision par ordinateur

Mots clés libres

Collection de vidéos

Vues multiples

Liens entre vidéos

Champs de vue en recouvrement

Apprentissage actif

Vidéosurveillance

Résumé

FR |

EN

Qu'il s'agisse de la caméra d'un smartphone ou d'une caméra de surveillance, les dispositifs d'enregistrement vidéo sont de plus en plus répandus et les quantités de vidéos disponibles ne cessent de croître. Cette surabondance de données disponibles est une épée à double tranchant : plus les vidéos de la scène dont on dispose sont nombreuses et variées, plus elles offrent une information riche et complète, mais plus elles nécessitent de temps pour être traitées. Dans de nombreuses applications, comme par exemple une enquête policière, les premières heures d’investigation sont décisives. Or la visualisation exhaustive de toutes les vidéos par un opérateur humain est une tâche pénible, peu efficace, longue et coûteuse. Cette thèse propose d'explorer plusieurs pistes dans le but d’automatiser la recherche d’information dans des vidéos. Plus précisément, nous cherchons à identifier parmi une collection de vidéos celles issues de caméras présentant un recouvrement partiel de leurs champs de vue. Pour réaliser cette tâche, nous avons également mis en oeuvre une méthode de navigation interactive entre les vidéos. Ainsi, dans ce contexte, trois contributions principales sont apportées. Tout d'abord, nous proposons une méthode permettant de déterminer quelles vidéos ont leurs champs de vue qui se recouvrent et offrent ainsi différents points de vue d'un même endroit. Pour ce faire, nous détectons la présence d'objets dans les vidéos au cours du temps, les caractérisons par une catégorie et une apparence et regroupons les vidéos qui présentent de façon concomitante des objets de même catégorie aux apparences similaires. Cependant, il arrive que des objets aient des apparences similaires bien qu'ils soient issus de paires de caméras dont les champs de vue ne se croisent pas, ce qui cause des erreurs dans les groupements de vidéos. Pour y remédier, nous proposons un mécanisme d'apprentissage actif, où le programme peut solliciter l'opérateur sur des cas difficiles pour apprendre à trouver les groupements de caméras qui présentent du recouvrement dans leurs champs de vue. Nous enrichissons également les critères employés en considérant l'arrière-plan en plus des objets apparaissant dans la vidéo. Nous montrons que les groupements de vidéos obtenus par la coopération entre l'homme et la machine sont meilleurs que ceux obtenus via notre approche précédente, entièrement automatisée. Enfin, nous proposons une méthode de navigation au sein d'un groupe de vidéos observant un même endroit. Depuis une vidéo courante, l'approche proposée permet aux utilisateurs de tracer une trajectoire requête et les redirige vers une autre vidéo dans laquelle cette trajectoire est plus longue, plus détaillée et donc mieux observable. Nous apprenons pour cela des cartes de correspondances entre régions de chaque vidéo et les utilisons pour reformuler la trajectoire tracée par l'utilisateur en son équivalent dans les autres vues. Afin de valider nos approches, nous identifions plusieurs jeux de données pertinents dans notre contexte. Cependant, le nombre de caméras dont les champs de vue se recouvrent est généralement limité. Nous proposons donc un jeu de données multivues que nous avons annoté et qui contient 25 caméras disposées sur un campus universitaire dont 19 présentent du recouvrement. Les résultats obtenus au travers de nos trois contributions sont encourageants.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Analyse de détections concomitantes pour l'aide à la navigation interactive dans de grandes collections de vidéos

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Analyse de détections concomitantes pour l'aide à la navigation interactive dans de grandes collections de vidéos

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses