Thèse soutenue

Fonctions de perte pour la classification à valeurs d'ensembles

FR  |  
EN
Auteur / Autrice : Camille Garcin
Direction : Joseph SalmonAlexis Joly
Type : Thèse de doctorat
Discipline(s) : Biostatistique
Date : Soutenance le 29/09/2023
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Institut Montpelliérain Alexander Grothendieck (Montpellier ; 2003-....)
Jury : Président / Présidente : Sandra Bringay
Examinateurs / Examinatrices : Joseph Salmon, Alexis Joly, Mathilde Mougeot, Stéphane Chrétien, Maximilien Servajean, Guillaume Charpiat, Mohamed Hebiri
Rapporteur / Rapporteuse : Mathilde Mougeot, Stéphane Chrétien

Résumé

FR  |  
EN

La dernière décennie a été marquée par l'émergence et l'essor des techniques d'apprentissage profond, conduisant à d'énormes progrès dans la vision artificielle, le traitement du langage naturel et la reconnaissance vocale.Ces avancées sont dues aux améliorations matérielles et aux nouvelles architectures, notamment les réseaux neuronaux convolutifs et les transformers, utilisées dans des applications populaires telles que Siri, Deepl, et ChatGPT.Un défi majeur du domaine de la vision artificielle a été ImageNet, une base de données d'un million d'images réparties en 1 000 classes, utilisée comme référence pour mesurer les performances des modèles.Les premiers résultats affichaient une erreur top-1 de 37,5%, tandis que les meilleurs modèles atteignent maintenant 9% d'erreur top-1.Cependant, ImageNet diffère des situations réelles car elle présente des classes artificiellement équilibrées et peu de similarités entre elles.Pour relever des défis plus réalistes, il est essentiel de se concentrer sur des tâches de catégorisation visuelle à grain fin, impliquant des classes similaires et des distributions déséquilibrées avec des classes rares.Pour ce faire, dans cette thèse nous prendrons pour cas d'étude Pl@ntNet, une application écologique basée sur l'apprentissage coopératif, qui permet aux utilisateurs d'identifier les plantes à partir d'images.Dans un tel contexte d'ambiguïté, les classificateurs multi-classes traditionnels qui ne renvoient qu'une seule proposition de classe ne suffisent pas.C'est pourquoi dans ce manuscrit nous étudierons les classificateurs à valeurs d'ensembles, qui retournent pour chaque image un ensemble de classes possibles.Les classificateurs à valeurs d'ensembles sont utiles s'ils renvoient un nombre restreint de classes pour chaque image.Ainsi, il existe plusieurs contraintes sur la taille des ensembles retournés.Dans cette thèse, nous étudions deux types de contraintes: une contrainte de taille ponctuelle, où le classificateur renvoie exactement K classes candidates pour chaque exemple (classification top-K), et une contrainte sur la taille moyenne des ensembles retournés (classification average-K).Afin d'optimiser ces classificateurs à valeurs d'ensembles, nous introduisons de nouvelles fonctions de perte pour améliorer les performances des modèles d'apprentissage profond, une pour chaque type de contrainte.La fonction de perte pour la classification top-K se base sur une fonction de perte charnière combinée à un lissage de la fonction top-K.Pour la classification average-K, nous proposons un modèle à deux têtes, où une tête est chargée d'identifier des classes candidates pour un example donné, et l'autre tête optimise ces suggestions avec une entropie croisée binaire.Les expériences sont menées sur un jeu de données crée à partir des données de Pl@ntNet, Pl@ntNet-300K, constitué de 306 146 images de plantes avec une forte déséquilibre de classes et des ambiguïtés visuelles importantes.Les résultats montrent que les nouvelles fonctions de perte améliorent significativement les performances par rapport à l'entropie croisée, en particulier dans les situations où l'incertitude est élevée.