Thèse soutenue

Vers une vision robuste de l'inférence géométrique

FR  |  
EN
Auteur / Autrice : Claire Brécheteau
Direction : Pascal MassartFrédéric Chazal
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 24/09/2018
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....) - Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France)
: Université Paris-Sud (1970-2019)
Jury : Président / Présidente : Marc Hoffmann
Examinateurs / Examinatrices : Pascal Massart, Frédéric Chazal, Marc Hoffmann, Gérard Biau, Kathryn Hess Bellwald, Quentin Mérigot
Rapporteurs / Rapporteuses : Gérard Biau, Kathryn Hess Bellwald

Résumé

FR  |  
EN

Le volume de données disponibles est en perpétuelle expansion. Il est primordial de fournir des méthodes efficaces et robustes permettant d'en extraire des informations pertinentes. Nous nous focalisons sur des données pouvant être représentées sous la forme de nuages de points dans un certain espace muni d'une métrique, e.g. l'espace Euclidien R^d, générées selon une certaine distribution. Parmi les questions naturelles que l'on peut se poser lorsque l'on a accès à des données, trois d'entre elles sont abordées dans cette thèse. La première concerne la comparaison de deux ensembles de points. Comment décider si deux nuages de points sont issus de formes ou de distributions similaires ? Nous construisons un test statistique permettant de décider si deux nuages de points sont issus de distributions égales (modulo un certain type de transformations e.g. symétries, translations, rotations...). La seconde question concerne la décomposition d'un ensemble de points en plusieurs groupes. Étant donné un nuage de points, comment faire des groupes pertinents ? Souvent, cela consiste à choisir un système de k représentants et à associer chaque point au représentant qui lui est le plus proche, en un sens à définir. Nous développons des méthodes adaptées à des données échantillonnées selon certains mélanges de k distributions, en présence de données aberrantes. Enfin, lorsque les données n'ont pas naturellement une structure en k groupes, par exemple, lorsqu'elles sont échantillonnées à proximité d'une sous-variété de R^d, une question plus pertinente est de construire un système de k représentants, avec k grand, à partir duquel on puisse retrouver la sous-variété. Cette troisième question recouvre le problème de la quantification d'une part, et le problème de l'approximation de la distance à un ensemble d'autre part. Pour ce faire, nous introduisons et étudions une variante de la méthode des k-moyennes adaptée à la présence de données aberrantes dans le contexte de la quantification. Les réponses que nous apportons à ces trois questions dans cette thèse sont de deux types, théoriques et algorithmiques. Les méthodes proposées reposent sur des objets continus construits à partir de distributions et de sous-mesures. Des études statistiques permettent de mesurer la proximité entre les objets empiriques et les objets continus correspondants. Ces méthodes sont faciles à implémenter en pratique lorsque des nuages de points sont à disposition. L'outil principal utilisé dans cette thèse est la fonction distance à la mesure, introduite à l'origine pour adapter les méthodes d'analyse topologique des données à des nuages de points corrompus par des données aberrantes