Incertitude des prédictions dans les modèles d'apprentissage profonds appliqués à la classification fine
Auteur / Autrice : | Titouan Lorieul |
Direction : | Alexis Joly |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 02/12/2020 |
Etablissement(s) : | Montpellier |
Ecole(s) doctorale(s) : | École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....) |
Jury : | Président / Présidente : Joseph Salmon |
Examinateurs / Examinatrices : Alexis Joly, Joseph Salmon, Patrick Gallinari, Willem Waegeman, Jana Waldchen, Dennis Elliott Shasha | |
Rapporteurs / Rapporteuses : Patrick Gallinari, Willem Waegeman |
Mots clés
Résumé
Les réseaux neuronaux profonds ont permis des améliorations spectaculaires dans de nombreuses tâches de classification supervisées. Ces modèles sont généralement entraînés avec pour objectif final de minimiser le taux d’erreur en top 1. Bien que cette approche soit très puissante, elle moyenne l’incertitude des échantillons individuels et ne permet pas de savoir si, sur un point de données donné, cette prévision est fiable ou non et pourquoi. Dans des cas réels, il peut être impossible (même pour un oracle) de déterminer l’étiquette exacte d’un échantillon donné car il ne contient pas, en soi, de preuves suffisantes pour trancher entre plusieurs classes similaires. Contrairement à la classification multitâche où chaque échantillon de données est associé à plusieurs étiquettes, ici, chaque donnée correspond exactement à une classe, mais cette dernière est incertaine. Par exemple, une image d’une feuille de plante peut ne pas suffire à distinguer plusieurs espèces possibles partageant la même morphologie de feuille. Dans les problèmes de classification à grain fin, la plupart des échantillons de données contiennent intrinsèquement un certain niveau de cette ambiguïté sur l’étiquette, même s’ils sont associés à une seule vraie étiquette. En outre, le modèle lui-même introduit une incertitude supplémentaire dans ses prédictions car il est entraîné à l’aide d’un jeu de données d’apprentissage fini. Cette incertitude devrait être progressivement réduite en augmentant la taille de cette ensemble d’apprentissage, contrairement à l’ambiguïté intrinsèque des données qui est théoriquement irréductible. L’objectif de ce doctorat est d’étudier ces deux types d’incertitudes dans le cadre de la théorie de la décision. Pour ce faire, nous proposons de mettre de côté le taux d’erreur de prédiction en top 1 classique qui ne nécessite que l’estimation de la classe la plus probable. Nous proposons plutôt de nous intéresser à des cadres décisionnels qui forcent le modèle à mieux apprendre la structure de l’incertitude existante. En particulier, nous nous concentrons sur deux cadres : (i) ajouter la possibilité pour le classifieur de refuser de répondre, généralement appelé classification avec option de rejet, et (ii) en autorisant au classifieur de produire un ensemble d’étiquettes possibles plutôt qu’une seule, ce qui est connu sous le nom de prédiction d’ensembles.Nous étudions d’abord comment l’information d’incertitude peut être exploitée pour traiter la classification avec option de rejet. Dans cette configuration, le prédicteur est une paire comprenant un classifieur et un rejeteur. En fixant le classifieur et en étudiant le rejeteur, nous pouvons étudier comment l’information d’incertitude concernant le classifieur peut être exploitée pour éventuellement construire un meilleur critère de rejet. Malheureusement, nous montrons empiriquement qu’il est difficile de séparer les deux formes d’incertitude et de les recombiner correctement. Sur la base de cette observation, nous nous concentrons ensuite sur la première forme d’incertitude, l’ambiguïté de la tâche, et étudions un cadre naturel pour la gérer : la prédiction d’ensemble. Il existe plusieurs façons de prédire des ensembles. L’approche la plus naïve consiste à prédire les K classes les plus probables. Toutefois, cela suppose que tous les échantillons présentent le même niveau d’ambiguïté, ce qui est connu pour être faux dans la plupart des cas. Nous proposons plutôt d’utiliser une approche moyenne-K : le prédicteur peut produire des ensembles de taille différente, mais en moyenne leur taille doit être égale à K. Nous généralisons ensuite à d’autres approches adaptatives de prédiction d’ensembles et proposons un cadre unifiant la plupart d’entre elles. En particulier, nous montrons plusieurs façons de construire de tels classifieurs en fonction des contraintes sur le taux d’erreur et sur la taille de l’ensemble et étudions leurs avantages et faiblesses relatifs.