Caractérisation d'un Domaine de Fiabilité des Classifieurs d'Images
Auteur / Autrice : | Adrien Le Coz |
Direction : | Stéphane Herbin, Faouzi Adjed |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 19/12/2024 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
Partenaire(s) de recherche : | Laboratoire : Office national d'études et recherches aérospatiales (France). Département Traitement de l’Information et Systèmes (2017-....) |
Référent : Faculté des sciences d'Orsay | |
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....) | |
Institution : Institut de recherche technologique SystemX (Palaiseau, Essonne) | |
Jury : | Président / Présidente : Mathilde Mougeot |
Examinateurs / Examinatrices : Ahmed Samet, Liming Chen, Frédéric Jurie | |
Rapporteur / Rapporteuse : Ahmed Samet, Liming Chen |
Mots clés
Résumé
Les réseaux de neurones profonds ont révolutionné le domaine de la vision par ordinateur. Ces modèles apprennent une tâche de prédiction à partir d'exemples. La classification d'images consiste à identifier l'objet principal présent dans l'image. Malgré de très bonnes performances des réseaux de neurones sur cette tâche, il arrive fréquemment qu'ils se trompent de façon imprévue. Cette limitation est un frein à leur utilisation pour de nombreuses applications. L'objectif de cette thèse est d'explorer des moyens de définir un domaine de fiabilité qui expliciterait les conditions pour lesquelles un modèle est fiable. Trois aspects ont été considérés. Le premier est qualitatif : générer des exemples extrêmes synthétiques permet d'illustrer les limites d'un classifieur et de mieux comprendre ce qui le fait échouer. Le second aspect est quantitatif : la classification sélective permet au modèle de s'abstenir en cas de forte incertitude, et la calibration permet de mieux quantifier l'incertitude de prédiction. Enfin, le troisième aspect est d'inclure de la sémantique : des modèles multimodaux qui associent images et texte sont utilisés pour décrire textuellement les images susceptibles de provoquer de mauvaises, ou inversement, de bonnes prédictions.