Thèse soutenue

Apprentissage de réseaux profonds à noyaux pour la prédiction structurée efficace et robuste

FR  |  
EN
Auteur / Autrice : Tamim El ahmad
Direction : Florence D'Alché-BucPierre Laforgue
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA
Date : Soutenance le 09/07/2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Jury : Président / Présidente : Stephan Clémençon
Examinateurs / Examinatrices : Stephan Clémençon, Bharath K. Sriperumbudur, Hachem Kadri, Julien Mairal, Anna Korba, Zoltán Szabó
Rapporteurs / Rapporteuses : Bharath K. Sriperumbudur, Hachem Kadri

Résumé

FR  |  
EN

La prédiction d'objets structurés, tels que les graphes ou les séquences par exemple, est plus exigeante que les problèmes standards de régressions ou de classification supervisés, dans lesquels les sorties sont généralement des vecteurs de petite dimension. Cette tâche fait l'objet de beaucoup d'attention dans différents domaines, comme la biologie ou la chimie informatique. Les espaces structurés sont en général de grande dimension, discrets, et non-linéaires, ce qui complique la conceptualisation d'un modèle polyvalent, autrement dit un modèle capable de gérer différents types de sorties dans un cadre unifié, tout en bénéficiant de solides fondations théoriques.Dans cette thèse, nous nous concentrons sur les méthodes à noyaux de substitution, et en particulier à la méthode Input Output Kernel Regression (IOKR), une approche de prédiction structurée polyvalente et théoriquement fondée utilisant l'astuce du noyau sur les espaces d'entrée et de sortie. Toutefois, cette méthode présente plusieurs limites: elle souffre de lourds coûts de calcul pendant les phases d'apprentissage et de prédiction, d'une difficulté à utiliser d'autres fonctions de perte que la quadratique (qui lui permet de bénéficier d'une solution explicite), et l'incapacité des noyaux à apprendre des représentations à partir de données d'entrée complexes comme des images ou du texte. Notre objectif est donc de concevoir un modèle utilisant un noyau de sortie passant à l'échelle de grandes bases de données, avec une borne sur son excès de risque, compatible avec une plus grande variété de fonctions de perte et capable d'apprendre des représentations à partir de données d'entrée complexes.Dans un premier temps, nous travaillons sur le noyau d'entrée, et introduisons une nouvelle distribution de projections aléatoires sous-gaussienne, les p-sparsified sketches, afin de passer à l'échelle les machines à noyau matriciel décomposables utilisant des fonctions de perte lipschitziennes. Ces projections aléatoires sont linéaires et permettent de réduire la complexité calculatoire tout en maintenant de bonnes performances statistiques. De plus, nous fournissons une borne d'excès de risque de l'estimateur induit par cette approche.Dans un second temps, nous introduisons Sketched Input Sketched Output Kernel Regression (SISOKR), une méthode basée sur IOKR et tirant profit des projections aléatoires sur les noyaux d'entrée et de sortie pour obtenir un estimateur structuré de rang faible. Nous prouvons une borne d'excès de risque de cet estimateur utilisant des projections aléatoires entrée/sortie sous-gaussiennes ou de sous-échantillonnage et montrons qu'il atteint une vitesse d'apprentissage proche de l'optimal. En outre, nous démontrons de solides performances empiriques de SISOKR sur des ensembles de données où les calculs requis par IOKR excèdent les capacités de la plupart des ordinateurs.Enfin, nous proposons une architecture neuronale profonde capable de prédire dans l'espace caractéristique potentiellement de dimension infinie du noyau de sortie grâce à l'utilisation de projections aléatoires sur ce dernier. À cette fin, nous calculons la base formée par les fonctions propres de l'opérateur de covariance empirique de sortie projeté aléatoirement, et le réseau de neurones de Deep Sketched Output Kernel Regression (DSOKR) calcule par la suite une combinaison linéaire au sein de cette base et apprend ses coordonnées pendant l'entraînement. Ceci permet l'utilisation de méthodes d'optimisation à base de gradient pour n'importe quelle fonction de perte consistant en une composition de la perte quadratique et d'une fonction sous-différentiable, comme les fonctions de perte robustes standards par exemple. Ceci est également compatible avec toute sorte d'architecture neuronale, comme les transformeurs, ainsi que le confirment les expériences menées sur un problème de prédiction de molécules dont les données d'entrée sont des descriptions textuelles de ces dernières.