Thèse soutenue

Caractérisation d'un Domaine de Fiabilité des Classifieurs d'Images

FR  |  
EN
Auteur / Autrice : Adrien Le Coz
Direction : Stéphane HerbinFaouzi Adjed
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 19/12/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Office national d'études et recherches aérospatiales (France). Département Traitement de l’Information et Systèmes (2017-....)
Référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Institution : Institut de recherche technologique SystemX (Palaiseau, Essonne)
Jury : Président / Présidente : Mathilde Mougeot
Examinateurs / Examinatrices : Ahmed Samet, Liming Chen, Frédéric Jurie
Rapporteur / Rapporteuse : Ahmed Samet, Liming Chen

Résumé

FR  |  
EN

Les réseaux de neurones profonds ont révolutionné le domaine de la vision par ordinateur. Ces modèles apprennent une tâche de prédiction à partir d'exemples. La classification d'images consiste à identifier l'objet principal présent dans l'image. Malgré de très bonnes performances des réseaux de neurones sur cette tâche, il arrive fréquemment qu'ils se trompent de façon imprévue. Cette limitation est un frein à leur utilisation pour de nombreuses applications. L'objectif de cette thèse est d'explorer des moyens de définir un domaine de fiabilité qui expliciterait les conditions pour lesquelles un modèle est fiable. Trois aspects ont été considérés. Le premier est qualitatif : générer des exemples extrêmes synthétiques permet d'illustrer les limites d'un classifieur et de mieux comprendre ce qui le fait échouer. Le second aspect est quantitatif : la classification sélective permet au modèle de s'abstenir en cas de forte incertitude, et la calibration permet de mieux quantifier l'incertitude de prédiction. Enfin, le troisième aspect est d'inclure de la sémantique : des modèles multimodaux qui associent images et texte sont utilisés pour décrire textuellement les images susceptibles de provoquer de mauvaises, ou inversement, de bonnes prédictions.