Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé
Auteur / Autrice : | Nassara Elhadji Ille Gado |
Direction : | Edith Grall Maës, Malika Kharouf |
Type : | Thèse de doctorat |
Discipline(s) : | Optimisation et Sûreté des Systèmes |
Date : | Soutenance le 05/12/2017 |
Etablissement(s) : | Troyes |
Ecole(s) doctorale(s) : | Ecole doctorale Sciences pour l'Ingénieur (Troyes, Aube) |
Partenaire(s) de recherche : | Collectivité territoriale : Grand Est |
Laboratoire : Institut Charles Delaunay / ICD | |
Jury : | Président / Présidente : Pierre Beauseroy |
Examinateurs / Examinatrices : Edith Grall Maës, Malika Kharouf, Pierre Beauseroy, Stéphane Canu, Moamar Sayed-Mouchaweh, Paul Honeine | |
Rapporteurs / Rapporteuses : Stéphane Canu, Moamar Sayed-Mouchaweh |
Résumé
Cette thèse porte sur l’étude de méthodes aléatoires pour l’apprentissage de données en grande dimension. Nous proposons d'abord une approche non supervisée consistant en l'estimation des composantes principales, lorsque la taille de l'échantillon et la dimension de l'observation tendent vers l'infini. Cette approche est basée sur les matrices aléatoires et utilise des estimateurs consistants de valeurs propres et vecteurs propres de la matrice de covariance. Ensuite, dans le cadre de l’apprentissage supervisé, nous proposons une approche qui consiste à, d'abord réduire la dimension grâce à une approximation de la matrice de données originale, et ensuite réaliser une LDA dans l’espace réduit. La réduction de dimension est basée sur l’approximation de matrices de rang faible par l’utilisation de matrices aléatoires. Un algorithme d'approximation rapide de la SVD, puis une version modifiée permettant l’approximation rapide par saut spectral sont développés. Les approches sont appliquées à des données réelles images et textes. Elles permettent, par rapport à d’autres méthodes, d’obtenir un taux d’erreur assez souvent optimal, avec un temps de calcul réduit. Enfin, dans le cadre de l’apprentissage par transfert, notre contribution consiste en l’utilisation de l'alignement des sous-espaces caractéristiques et l’approximation de matrices de rang faible par projections aléatoires. La méthode proposée est appliquée à des données de référence ; elle présente l’avantage d’être performante et adaptée à des données de grande dimension