Thèse soutenue

Configurations spatiales et segmentation pour la compréhension de scènes, application à la ré-identification

FR  |  
EN
Auteur / Autrice : Robin Deléarde
Direction : Laurent WendlingCamille Kurtz
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et des images
Date : Soutenance le 12/12/2022
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique PAris DEscartes (Paris ; 1998)
Jury : Président / Présidente : Catherine Achard
Examinateurs / Examinatrices : Catherine Achard, Michel Crucianu, Valérie Gouet-Brunet, Stéphane Herbin
Rapporteurs / Rapporteuses : Michel Crucianu, Valérie Gouet-Brunet

Résumé

FR  |  
EN

La modélisation de la configuration spatiale des objets d’une image est un sujet encore peu abordé à ce jour, y compris dans les approches les plus modernes de vision par ordinateur comme les réseaux convolutionnels (CNN). Pourtant, il s’agit d’un aspect essentiel de la perception des scènes, et l’intégrer dans les modélisations devrait bénéficier à de nombreuses tâches du domaine, en contribuant à combler le "fossé sémantique" entre l’image numérique et l’interprétation de son contenu. Ainsi, cette thèse a pour objet l’amélioration des techniques de modélisation de la configuration spatiale, afin de l’exploiter dans des systèmes de description et de reconnaissance. Dans un premier temps, nous nous sommes penchés sur le cas de la configuration spatiale entre deux objets, en proposant une amélioration d’un descripteur existant. Ce nouveau descripteur appelé "bandeau de forces" est une extension de l’histogramme du même nom à tout un panel de forces, ce qui permet de mieux décrire les configurations complexes. Nous avons pu montrer son intérêt pour la description de scènes, en apprenant à classifier automatiquement des relations en langage naturel à partir de paires d’objets segmentés. Nous avons alors abordé la problématique du passage à des scènes comportant plusieurs objets, proposant une approche par objet en confrontant chaque objet à l’ensemble des autres, plutôt qu’en ayant un descripteur par paire. Dans un second temps, le contexte CIFRE nous a amenés à traiter une application au problème de la ré-identification de scènes ou d’objets, tâche qui s’apparente à la reconnaissance fine à partir de peu d’exemples. Pour cela, nous nous basons sur une approche traditionnelle en décrivant les constituants de la scène par différents descripteurs dédiés à des caractéristiques spécifiques, comme la couleur ou la forme, auxquelles nous ajoutons la configuration spatiale. La comparaison de deux scènes se fait alors en appariant leurs constituants grâce à ces caractéristiques, en utilisant par exemple l’algorithme hongrois. Différentes associations de caractéristiques peuvent être considérées pour l’appariement et pour le calcul du score final, selon les invariances présentes et recherchées. Pour chacun de ces deux sujets, nous avons été confrontés aux problèmes des données et de la segmentation. Nous avons alors généré et annoté un jeu de données synthétiques, et exploité deux jeux de données existants en les segmentant, dans deux cadres différents. La première approche concerne la segmentation objet-fond et se place dans le cas où une détection est disponible, ce qui permet d’aider la segmentation. Elle consiste à utiliser un modèle existant de segmentation globale, puis à exploiter la détection pour sélectionner le bon segment, à l’aide de plusieurs critères géométriques et sémantiques. La seconde approche concerne la décomposition d’une scène ou d’un objet en parties et se place dans le cas non supervisé. Elle se base alors sur la couleur des pixels, en utilisant une méthode par clustering dans un espace de couleur adapté, comme le cône HSV que nous avons utilisé. Tous ces travaux ont permis de montrer la possibilité d’utiliser la configuration spatiale pour la description de scènes réelles contenant plusieurs objets, ainsi que dans une chaîne de traitements complexe comme celle utilisée pour la ré-identification. En particulier, l’histogramme de forces a pu être utilisé pour cela, ce qui permet de profiter de ses bonnes performances, en utilisant une méthode de segmentation adaptée au cas d’usage pour traiter des images naturelles.