Thèse soutenue

Supervised learning with output embeddings : contributions to learning with a handful of data and to structured prediction

FR  |  
EN
Auteur / Autrice : Mousâab Djerrab
Direction : Florence d' Alché-Buc
Type : Thèse de doctorat
Discipline(s) : Informatique mathématique
Date : Soutenance le 18/12/2019
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....)
Jury : Président / Présidente : Stephan Clémençon
Examinateurs / Examinatrices : Stephan Clémençon, Paul Honeine, Pierre Geurts, Arthur Tenenhaus, Juho Rouso
Rapporteurs / Rapporteuses : Paul Honeine, Pierre Geurts

Résumé

FR  |  
EN

La prédiction de variables de sortie non-vectorielles, suscite beaucoup d’intérêt en apprentissage statistique. Elle soulève principalement deux difficultés : la prise en compte de la structure explicite ou implicite de ces variables afin de faciliter la phase d’apprentissage, et le manque de données étiquetées, du fait du très grand nombre de valeurs que peuvent prendre ces variables et du coût de l’annotation. Pour résoudre le premier point, comme le deuxième, nous considérons dans cette thèse l’utilisation d’une fonction de redescription des sorties qui permet de plonger celles-ci dans un espace vectoriel tout en tenant compte de leur structure inhérente. Le problème d’apprentissage associé à ces redescriptions de sorties se traduit alors par la minimisation d’une fonction de coût surrogée, tandis que le calcul d’une prédiction dans l’ensemble de sorties originel requiert un calcul d’antécédent. Dans cette thèse, nous proposons une famille de fonctions de redescription des sorties, fondées sur le score de Fisher, basées sur un modèle probabiliste. Dans la première partie de nos travaux, nous définissons et étudions des fonctions de redescription de Fisher associées à différents modèles probabilistes. Nous montrons que cette représentation, en tenant compte de la géométrie de la distribution empirique des données de sortie, offre un codage pertinent pour un large spectre de problématiques de prédiction. Nous l’appliquons à la classification multi-classe en la composant avec une redescription sémantique des classes et à des problèmes de prédiction structurée. Nous montrons également que pour les modèles probabilistes considérés, le problème de l’antécédent peut se résoudre analytiquement, permettant ainsi de réduire le coût du calcul de la prédiction en phase de test. Enfin, nous montrons que cette approche permet d’obtenir de bons résultats lorsque le nombre de données par classe est limité (few-shot learning) ou que l’annotation est faible (weakly supervised learning). La seconde partie de cette thèse s’attache à étendre le cadre développé dans la première partie. Cette fois-ci, la distribution de sortie est estimée de façon simultanée lors de la phase d’apprentissage. Le but étant d’offrir un degré de liberté supplémentaire pour trouver le bon paramétrage de la fonction de redescription dans un contexte de donnée faible. Aussi nous ouvrons ce cadre au distribution non paramétrique en passant du score de Fisher au score match, permettant d’approximer une classe plus large de distribution. Une étude du lien entre les deux représentations est aussi proposée afin de mieux comprendre ce changement. Dans la troisième partie de la thèse, nous nous attachons à traiter la problématique multi-classe dans le contexte de l’apprentissage dit ”zero-shot learning”. Il s’agit de construire un classifieur capable de classer des données dont l’étiquette. Il s'agit de construire un classifieur capable de classer des données dont l'étiquette n'a jamais été vue lors de la phase d'apprentissage. Nous commençons par définir un cadre d'analyse pour ces approches en proposant un cadre d'étude unifié pour les méthodes de zéro-shot learning utilisant des espaces de représentations intermédiaires des sorties. Ensuite, Nous étudions différentes stratégies exploitant la redescription de Fisher à partir de ces représentations sémantiques et montrons comment cette fonction de redescription permet d’améliorer les performances prédictives pour les problèmes de Zero-Shot Learning (ZSL) et sa version généralisée (GZSL). Pour ce dernier, la fonction de redescription permet de construire naturellement un critère de détection de nouvelles classes à prédire. Grâce à ce critère nous montrons que le problème de pollution concomitant à la tâche de GZSL est atténué.