Thèse soutenue

Recherche par similarité dans un environnement industriel à partir d'image et de texte avec un modèle multi-tâches et multi-modales

FR  |  
EN
Auteur / Autrice : Mathias Reus
Direction : Alice CaplierSophie Guegan Marat
Type : Thèse de doctorat
Discipline(s) : Signal, image, paroles, télécoms
Date : Soutenance le 18/12/2025
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale électronique, électrotechnique, automatique, traitement du signal
Partenaire(s) de recherche : Laboratoire : Grenoble Images parole signal automatique (2007-....)
Jury : Président / Présidente : Alexandre Benoît
Examinateurs / Examinatrices : Matthieu Ospici, Kai Wang
Rapporteurs / Rapporteuses : Séverine Dubuisson, Christophe Garcia
DOI : 10.70675/25f404e5zaf76z46e3zbf05z7a55edbd82b1

Résumé

FR  |  
EN

La Ré-identification de Personnes (ReID) est un élément central d'un système de vidéosurveillance. Le système de surveillance collecte les images des caméras et les stocke dans une base de données locale. Un détecteur détecte les personnes dans les images et le modèle de ReID calcule une représentation discriminante pour chaque détection. L'ensemble stocké de représentations ReID constitue la galerie. Ensuite, un opérateur de sécurité interroge cette galerie avec la représentation d'une personne d'intérêt afin de localiser la personne dans le réseau de caméras. La ReID représente un défi majeur pour la communauté de vision par ordinateur et bénéficie d'importants efforts de recherche. En raison de l'omniprésence des systèmes de ReID dans divers scénarios, la recherche en ReID compte de nombreux domaines spécialisés. Ces domaines spécialisés ne couvrent qu'un sous-ensemble de la réalité, créant ainsi un écart significatif entre les conditions réelles des systèmes de ReID et les tâches de ReID étudiées dans les travaux académiques. Cette thèse définit une nouvelle tâche de ReID qui est évaluée comme un système de ReID de base. La tâche de ReID choisie ne repose pas sur un détecteur tiers et peut être interrogée à l'aide de représentations visuelles et textuelles de personnes d'intérêt. La tâche est accompagnée de quatre évaluations qui évaluent les capacités du modèle de ReID basé sur le texte et la détection (TDReID) dans des situations réelles. Avec la définition de la tâche TDReID, un jeu de données et deux modèles sont concrètement implémentés. Le premier modèle, appelé FRANK, combine des modèles existants de l'état de l'art et les utilise directement pour effectuer les quatre évaluations du TDReID. Les résultats révèlent que la nouvelle tâche nécessite un entraînement spécifique et des efforts intensifs, car les modèles existants combinés échouent à traiter la tâche plus complexe. C'est pourquoi un second modèle est étudié, MinExt, pour apprendre la nouvelle tâche de bout en bout. Au-delà du cadrage de la tâche, de la construction du jeu de données et de la conception des modèles, une revue systématique des tâches existantes identifie les écarts entre les tâches académiques de ReID et les systèmes pratiques de ReID. De plus, une liste de Spécifications de Systèmes de ReID (RSS) est créée afin de décrire tout système et tâche de ReID. Cette RSS vise à guider le praticien dans les nombreux domaines de recherche de la ReID et à identifier les efforts de recherche restants vers une recherche en ReID plus appliquée.