Explicabilité de la détection d'objet dans les images : conception d'algorithmes transparents
Auteur / Autrice : | Raffael Schön |
Direction : | Stéphane Herbin |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/10/2024 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
Partenaire(s) de recherche : | Laboratoire : ONERA - Département Traitement de l'information et systèmes |
Référent : Faculté des sciences d'Orsay |
Mots clés
Résumé
La généralisation de l'utilisation de l'intelligence artificielle (IA) dans la société, parfois considérée comme une quatrième révolution industrielle, amène à développer des outils pour mieux maitriser son impact et ses risques. Parmi ceux-ci, doter les algorithmes et systèmes d'IA de capacités d'explication de leurs décisions ou de leur fonctionnement est devenu un objectif important, en particulier pour l'Union Européenne, et a conduit à développer un thème de recherche très actif : L'eXplicabilité de l'Intelligence Artificielle (ou « XAI »). Dans le domaine de la vision par ordinateur, qui est celui de la thèse, les modèles utilisés sont majoritairement des réseaux de neurones profonds de très grande taille (plusieurs millions de paramètres). Ils permettent d'obtenir d'excellents résultats pour effectuer des tâches telles que la classification d'images, la segmentation sémantique, ou la détection d'objets, mais sont considérés comme opaques, car d'une complexité difficile à appréhender et à interpréter. Ce manque de transparence du processus de décision, cet effet « boite noire », limite l'adoption de ces techniques. Il empêche l'utilisateur humain de contrôler efficacement la chaine de décision, freine les processus de validation des systèmes utilisant ces modèles, et rend difficile l'identification de biais dans les décisions. La grande majorité des approches XAI s'intéresse à la classification d'images et proposent des méthodes dites « post-hoc » appliquées à des modèles déjà entraînés et ayant pour rôle d'identifier les régions de l'image ayant un impact sur la décision du modèle. C'est par exemple le cas des méthodes qui exploitent les gradients par rapport aux entrée telles que Grad-CAM [1] ou celle proposée par Chefer [2] qui utilise les masques des modèles attentionnels. Ce type d'explication, qui prend la forme d'une carte de chaleur, est cependant d'expressivité limitée et ne donne pas d'indication claire sur le comportement interne du modèle [3]. D'autres stratégies de conception, dites explicables « par design », consistent à proposer des modèles intrinsèquement « transparents », pour lesquels le mécanisme de décision s'appuie sur des composants directement interprétables comme des patchs visuels [4] ou des descriptions textuelles [5]. Ces méthodes contraignent d'avantage le modèle mais présentent l'avantage de pouvoir identifier plus explicitement les critères qui ont permis de prendre chaque décision. Une des difficultés est de concevoir de tels systèmes transparents sans diminution de performance. L'objectif de la thèse est de s'intéresser à une autre fonction de vision: la détection d'objets. Elle est fonctionnellement plus complexe que la classification d'image car elle doit décider de la présence d'objets, les localiser et les catégoriser. Très peu de travaux ont abordé la question de l'explicabilité de la détection d'objet et particulièrement de la détection de présence d'objet et de sa localisation [6,7] ; il n'existe à ce jour pas de modèle explicable « par design » de détection d'objet. Deux axes de recherche sont proposés dans cette thèse: Il s'agira dans un premier temps de développer un modèle de détection d'objets interprétable par design, en considérant les différentes sous tâches de la détection: existence d'un objet sur l'image, localisation, et catégorisation. Les travaux pourront s'aider de ceux effectués à l'ONERA au sein de l'équipe d'accueil sur l'explicabilité de la classification d'image, de la détection d'objet, et sur l'introduction de concepts sémantiques en vision par ordinateur [8, 9, 10]. Dans un second temps, on s'interrogera sur les capacités de généralisation de ce modèle, et plus spécifiquement dans le cadre d'un apprentissage avec peu de données (apprentissage frugal). Il s'agira d'évaluer si une conception judicieuse de modèle de détection d'objet explicable par design permet de faciliter l'adaptabilité à un nouveau domaine ou à de nouvelles classes.