Apprentissage statistique non supervisé : grande dimension et courbes principales
Auteur / Autrice : | Aurélie Fischer |
Direction : | Gérard Biau |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance en 2011 |
Etablissement(s) : | Paris 6 |
Mots clés
Résumé
Le contexte général de cette thèse est celui de l’apprentissage statistique non supervisé. Nous nous intéressons aux problématiques de la quantification et des courbes principales, que nous étudions dans deux parties successives. La première partie, qui concerne la quantification, se divise en trois chapitres. Le premier chapitre présente quelques propriétés théoriques de la quantification et du clustering dans un espace de Banach, en utilisant des divergences de Bregman comme notion de distance. Dans le deuxième chapitre, qui traite du clustering de courbes dans le cadre de l’industrie nucléaire, nous examinons une méthode de réduction de la dimension reposant sur la projection sur une base hilbertienne. Le troisième chapitre est dédié au choix du nombre de groupes en clustering. La seconde partie de la thèse, consacrée aux courbes principales, comporte deux chapitres. Ces courbes paramétrées passant « au milieu » d’un nuage de points peuvent être vues comme une généralisation non linéaire de l’Analyse en Composantes Principales. Comme il existe différents points de vue sur les courbes principales, le premier chapitre propose une synthèse bibliographique sur ce sujet. Selon la définition retenue, une courbe principale dépend de certains paramètres, comme la longueur ou la courbure, qui doivent être correctement déterminés pour obtenir une courbe reflétant précisément la forme des données sans pour autant relier tous les points. Dans le second chapitre, adoptant une définition basée sur la minimisation d’un critère empirique de type moindres carrés, nous considérons le problème du choix de ces paramètres sous l’angle de la sélection de modèle par pénalisation.