Apprentissage de fonctions à valeurs fonctionnelles dans des espaces de Hilbert à noyaux auto-reproduisants avec pertes intégrales : Application à l'apprentissage d'un continuum de tâches
Auteur / Autrice : | Alex Lambert |
Direction : | Florence D'Alché-Buc, Zoltán Szabó |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, Données et Intelligence Artificielle |
Date : | Soutenance le 07/07/2021 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) |
Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) | |
Jury : | Président / Présidente : Stephan Clémençon |
Examinateurs / Examinatrices : Florence D'Alché-Buc, Zoltán Szabó, Stephan Clémençon, Dino Sejdinovic, Hachem Kadri, Marianne Clausel, Johan A. K. Suykens | |
Rapporteur / Rapporteuse : Dino Sejdinovic, Hachem Kadri |
Mots clés
Résumé
Les méthodes à noyaux sont au coeur de l'apprentissage statistique. Elles permettent de modéliser des fonctions à valeurs réelles dans des espaces de fonctions à fort potentiel représentatif, sur lesquels la minimisation de risques empiriques régularisés est possible et produit des estimateurs dont le comportement statistique est largement étudié. Lorsque les sorties ne sont plus réelles mais de plus grande dimension, les Espaces de Hilbert à Noyaux Reproduisants à valeurs vectorielles (vv-RKHSs) basés sur des Noyaux à Valeurs Opérateurs (OVKs) fournissent des espaces de fonctions similaires et permettent de traiter des problèmes tels que l'apprentissage multi-tâche, la prédiction structurée ou la régression à valeurs fonctionnelles. Dans cette thèse, nous introduisons une extension fonctionnelle originale du cadre multi-tâche appelée Apprentissage d'un Continuum de Tâches (ITL), qui permet de résoudre conjointement un continuum de tâches paramétrées, parmi lesquelles la régression quantile, la classification à coût assymétrique, ou l'estimation de niveaux de densité. Nous proposons un cadre d'apprentissage basé sur des fonctions de pertes intégrales qui comprend à la fois l'ITL et la régression à valeurs fonctionnelles, ainsi que des méthodes d'optimisation pour résoudre les problèmes de minimisation de risque empirique régularisé résultants. Par un échantillonage des pertes intégrales, nous obtenons une représentation de dimension finie des solutions pour différents choix de régularisation ou pénalités liées à la forme des fonctions, tout en gardant un contrôle théorique sur les capacités en généralisation des estimateurs. L'usage de la dualité lagrangienne vient approfondir ces méthodes, en apportant en particulier les moyens d'imposer des estimateurs parcimonieux ou robustes à l'aide de pertes convoluées. Les problèmes de passages à l'échelle sont traités par l'utilisation noyaux approchés, dont les vv-RKHSs associés sont de dimension finie. Nous proposons aussi une architecture composée d'un réseau de neurone et d'une dernière couche à noyaux, qui permet l'apprentissage de représentations appropriées aux noyaux utiles dans les applications avec des données complexes comme les images. Ces techniques sont appliquées à plusieurs problèmes d'ITL, ainsi qu'au problème de régression fonction-à-fonction robuste en présence de valeurs aberrantes. Enfin, nous revisitons les problemes de transfert de style sous l'angle ITL, avec une application au transfert d'émotion.