Thèse en cours

Recherche par image robuste par apprentissage profond

FR  |  
EN

Accès à la thèse

Triangle exclamation pleinLa soutenance a eu lieu le 20/03/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Elias Ramzi
Direction : Nicolas Thome
Type : Projet de thèse
Discipline(s) : Sciences pour l'ingénieur spécialité Informatique
Date : Inscription en doctorat le
Soutenance le 20/03/2024
Etablissement(s) : Paris, HESAM
Ecole(s) doctorale(s) : École doctorale Sciences des métiers de l'ingénieur
Partenaire(s) de recherche : Laboratoire : Centre d'études et de recherche en informatique et communications (Paris)
établissement de préparation de la thèse : Conservatoire national des arts et métiers (France)
Jury : Président / Présidente : Michel Crucianu
Examinateurs / Examinatrices : Nicolas Thome, Yannis Avrithis, Diane Larlus, Matthieu Cord, Nicolas Audebert, Clément Rambour, Hervé Jegou
Rapporteurs / Rapporteuses : Yannis Avrithis, Diane Larlus

Résumé

FR  |  
EN

Cette thèse aborde la problématique de la recherche robuste d'images par apprentissage profond. La recherche par le contenu d'images consiste à trouver des images visuellement similaires à une image "requête" dans de grandes bases de données. Les approches par apprentissage profond sont basées sur l'apprentissage de représentations des images afin de mesurer leur similarité, par exemple, avec la distance euclidienne. La recherche d'images est notamment utilisée dans les moteurs de recherche, tels qu'Acsepto, le moteur de recherche de logos de marques déposées développé par Coexya. Cette thèse vise à améliorer les performances et la fiabilité des systèmes de recherche d'images. À cette fin, nous explorons la robustesse dans l'apprentissage profond selon trois perspectives. Nous exposons d'abord les difficultés qui se présentent lors de l'optimisation des métriques d'évaluation utilisées en recherche d'images, telles que la Précision Moyenne (AP) et le rappel à k, à savoir la non-différentiabilité et la non-décomposabilité. Elles rendent ces métriques difficilement optimisables par descente de gradient stochastique. Il est ainsi nécessaire d'utiliser des fonctions de coût de substitution pour entraîner les réseaux de neurones profonds (DNN), ce qui induit une disparité entre l'objectif d'entraînement et les métriques d'évaluation. Pour réduire cet écart, nous introduisons une famille de fonctions de coût différentiables qui sont des bornes supérieures des métriques d'évaluation usuelles et incluent un objectif explicite de décomposabilité. Cette famille permet d’optimiser plusieurs métriques d'évaluation, telles que l’AP, le rappel à k et le NDCG. Cette approche, appelée ROADMAP, surpasse les fonctions de coût de l'état de l'art sur plusieurs bases de données de recherche d'images. Ensuite, nous cherchons à réduire la gravité des erreurs commises par les systèmes de recherche d'images basés apprentissage profonds. En effet, les réseaux de neurones, lorsqu'ils ne sont pas contraints, ont tendance à commettre des erreurs sévères, qui sont difficilement compréhensibles par les humains. Ces erreurs graves peuvent réduire la confiance des utilisateurs dans les moteurs de recherche. Nous proposons une solution en exploitant les relations hiérarchiques entre les catégories d'images. En effet, les relations sémantiques peuvent servir de proxy pour la façon dont les humains jugent la gravité d'une erreur. Ces relations sont intégrées dans une nouvelle extension de l’AP au cadre hiérarchique, H-AP. Nous définissons ensuite HAPPIER, une fonction de coût différentiable optimisant H-AP, construite similairement à ROADMAP. Nous montrons quantitativement et qualitativement que les réseaux de neurones entraînés avec HAPPIER produisent des classements avec des erreurs moins sévères et se rapprochent davantage de la sémantique des ensembles de données. Enfin, nous abordons les capacités de détection d’exemples hors distribution (OOD) des DNN. Il s'agit de détecter des données qui ne devraient pas être traitées par les DNN, par exemple, des images de catégories qui n'ont pas été vues pendant l'entraînement. Nous introduisons HEAT, une nouvelle méthode de détection d’OOD. HEAT est une méthode post-hoc, ce qui la rend applicable à potentiellement toutes les architectures pré-entraînées, sans nécessité de les affiner. Nous proposons d'utiliser les modèles à énergie pour raffiner les méthodes de la littérature, en apprenant un terme résiduel pour améliorer leur expressivité. Nous exploitons ensuite leurs différents biais de modélisation complémentaires en utilisant la composition de fonctions d’énergies pour améliorer les capacités de détection d’OOD des DNN. Nous démontrons quantitativement l'intérêt de ces deux composantes sur trois jeux de données, pour lesquels HEAT surpasse les méthodes de l'état de l'art en détection d'OOD.