Echantillonnage pour l'accélération des méthodes à noyaux et sélection gloutonne pour les représentations parcimonieuses
Auteur / Autrice : | Farah Cherfaoui |
Direction : | Liva Ralaivola, Sandrine Anthoine |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 11/07/2022 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’Informatique et Systèmes (Marseille ; La Garde, Var ; 2018-….) - Institut de mathématiques de Marseille (I2M) |
Entreprise : Euranova | |
Jury : | Président / Présidente : Cécile Capponi |
Examinateurs / Examinatrices : Thomas Peel, Élisa Fromont, Matthieu Kowalski | |
Rapporteur / Rapporteuse : Massih-Reza Amini, Charles Soussen |
Résumé
Les contributions de cette thèse se divisent en deux parties. Une première partie dédiée à l’accélération des méthodes à noyaux et une seconde à l'optimisation sous contrainte de parcimonie. Les méthodes à noyaux sont largement connues et utilisées en apprentissage automatique. Toutefois, la complexité de leur mise en œuvre est élevée et elles deviennent inutilisables lorsque le nombre de données est grand. Nous proposons dans un premier temps une approximation des Ridge Leverage Scores. Nous utilisons ensuite ces scores pour définir une distribution de probabilité pour le processus d'échantillonnage de la méthode de Nyström afin d’accélérer les méthodes à noyaux. Nous proposons dans un second temps un nouveau framework basé sur les noyaux, permettant de représenter et de comparer les distributions de probabilités discrètes. Nous exploitons ensuite le lien entre notre framework et la Maximum Mean Discrepancy pour proposer une approximation précise et peu coûteuse de cette dernière. La deuxième partie de cette thèse est consacrée à l’optimisation avec contrainte de parcimonie pour l’optimisation de signaux et l’élagage de forêts aléatoires. Tout d’abord, nous prouvons sous certaines conditions sur la cohérence du dictionnaire, les propriétés de reconstruction et de convergence de l’algorithme Frank-Wolfe. Ensuite, nous utilisons l'algorithme OMP pour réduire la taille de forêts aléatoires et ainsi réduire la taille nécessaire pour son stockage. La forêt élaguée est constituée d’un sous-ensemble d’arbres de la forêt initiale sélectionnés et pondérés par OMP de manière à minimiser son erreur empirique de prédiction