Thèse soutenue

Méthodes aléatoires pour l’apprentissage de données en grande dimension : application à l'apprentissage partagé

FR  |  
EN
Auteur / Autrice : Nassara Elhadji Ille Gado
Direction : Edith Grall MaësMalika Kharouf
Type : Thèse de doctorat
Discipline(s) : Optimisation et Sûreté des Systèmes
Date : Soutenance le 05/12/2017
Etablissement(s) : Troyes
Ecole(s) doctorale(s) : Ecole doctorale Sciences pour l'Ingénieur (Troyes, Aube)
Partenaire(s) de recherche : Collectivité territoriale : Grand Est
Laboratoire : Institut Charles Delaunay / ICD
Jury : Président / Présidente : Pierre Beauseroy
Examinateurs / Examinatrices : Edith Grall Maës, Malika Kharouf, Pierre Beauseroy, Stéphane Canu, Moamar Sayed-Mouchaweh, Paul Honeine
Rapporteurs / Rapporteuses : Stéphane Canu, Moamar Sayed-Mouchaweh

Résumé

FR  |  
EN

Cette thèse porte sur l’étude de méthodes aléatoires pour l’apprentissage de données en grande dimension. Nous proposons d'abord une approche non supervisée consistant en l'estimation des composantes principales, lorsque la taille de l'échantillon et la dimension de l'observation tendent vers l'infini. Cette approche est basée sur les matrices aléatoires et utilise des estimateurs consistants de valeurs propres et vecteurs propres de la matrice de covariance. Ensuite, dans le cadre de l’apprentissage supervisé, nous proposons une approche qui consiste à, d'abord réduire la dimension grâce à une approximation de la matrice de données originale, et ensuite réaliser une LDA dans l’espace réduit. La réduction de dimension est basée sur l’approximation de matrices de rang faible par l’utilisation de matrices aléatoires. Un algorithme d'approximation rapide de la SVD, puis une version modifiée permettant l’approximation rapide par saut spectral sont développés. Les approches sont appliquées à des données réelles images et textes. Elles permettent, par rapport à d’autres méthodes, d’obtenir un taux d’erreur assez souvent optimal, avec un temps de calcul réduit. Enfin, dans le cadre de l’apprentissage par transfert, notre contribution consiste en l’utilisation de l'alignement des sous-espaces caractéristiques et l’approximation de matrices de rang faible par projections aléatoires. La méthode proposée est appliquée à des données de référence ; elle présente l’avantage d’être performante et adaptée à des données de grande dimension