Thèse soutenue

Régression à noyaux à valeurs opérateurs pour grands ensembles de données

FR  |  
EN
Auteur / Autrice : Romain Brault
Direction : Florence d' Alché-Buc
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Informatique
Date : Soutenance le 03/07/2017
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Informatique, Biologie Intégrative et Systèmes Complexes (Evry, Essonne)
établissement opérateur d'inscription : Université d'Évry-Val-d'Essonne (1991-....)
Jury : Président / Présidente : Jean-Marc Delosme
Examinateurs / Examinatrices : Zoltán Szabó, Aurélien Bellet, Marie Szafranski
Rapporteurs / Rapporteuses : Paul Honeine, Liva Ralaivola

Résumé

FR  |  
EN

De nombreuses problématiques d'apprentissage artificiel peuvent être modélisées grâce à des fonctions à valeur vectorielles. Les noyaux à valeurs opérateurs et leur espace de Hilbert à noyaux reproduisant à valeurs vectorielles associés donnent un cadre théorique et pratique pour apprendre de telles fonctions, étendant la littérature existante des noyaux scalaires. Cependant, lorsque les données sont nombreuses, ces méthodes sont peu utilisables, ne passant pas à l'échelle, car elle nécessite une quantité de mémoire évoluant quadratiquement et un temps de calcul évoluant cubiquement vis à vis du nombre de données, dans leur implémentation la plus naïve. Afin de faire passer les noyaux à valeurs opérateurs à l'échelle, nous étendons une technique d'approximation stochastique introduite dans le cadre des noyaux scalaires. L'idée est de tirer parti d'une fonction de redescription caractérisant le noyau à valeurs opérateurs, dont les fonctions associées vivent dans un espace de dimension infinie, afin d'obtenir un problème d'optimisation linéaire de dimension finie. Dans cette thèse nous développons dans un premier temps un cadre général afin de permettre l'approximation de noyaux de Mercer définis sur des groupes commutatifs localement compacts et étudions leurs propriétés ainsi que la complexités des algorithmes en découlant. Dans un second temps nous montrons des garanties théoriques en bornant l'erreur commise par l'approximation, avec grande probabilité. Enfin, nous mettons en évidence plusieurs applications des Représentations Opérateurs Aléatoires de Fourier (ORFF) telles que la classification multiple, l'apprentissage multi-tâche, la modélisation des séries temporelles, la régression fonctionnelle et la détection d'anomalies. Nous comparons également ce cadre avec d'autres méthodes de la littérature et concluons par des perspectives à moyen et long terme.