Thèse soutenue

Méthodes statistiques pour données fonctionnelles multivariées
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Steven Golovkine
Direction : Valentin PatileaNicolas Klutchnikoff
Type : Thèse de doctorat
Discipline(s) : Mathématiques et leur Interactions
Date : Soutenance le 18/06/2021
Etablissement(s) : Rennes, École Nationale de la Statistique et de l'Analyse de l'Information
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Entreprise : Régie nationale des usines Renault. Technocentre
Laboratoire : Centre de recherche en économie et statistique (France)
Jury : Président / Présidente : André Mas
Examinateurs / Examinatrices : Valentin Patilea, Nicolas Klutchnikoff, André Mas, Sophie Dabo-Niang, Vincent Feuillard, Claire Gormley, Alois Kneip
Rapporteurs / Rapporteuses : Sophie Dabo-Niang

Résumé

FR  |  
EN

Le sujet de cette thèse est lié à l'analyse de données fonctionnelles et est motivé par l'analyse de données provenant de l'industrie automobile. Les méthodes standards concernant les données fonctionnelles sont basées sur l'hypothèse que les courbes sont observées de façon continue et sans erreur. Or, en pratique, c'est rarement le cas. Pour cette raison, une étape cruciale est de reconstruire les trajectoires à partir de mesures bruitées ayant des instants d'observations discrets et alatoires. Pour cela, nous proposons une approche originale : l'utilisation de la régularité locale du processus générant les courbes. Ainsi, utilisant le grand nombre de trajectoires, ainsi que leur variabilité intrinsèque, nous proposons un estimateur simple de cette régularité locale. Munis de cet estimateur, nous construisons un estimateur par polynômes locaux, quasiment optimal, des courbes à partir d'un échantillon de courbes bruitées. Des estimateurs non-paramétriques des fonctions moyenne et covariance pour données fonctionnelles, basés sur la régularité locale du processus, sont développés. De plus, un algorithme de groupement, de type model-based, pour une classe générale de données fonctionnelles pour laquelle les composantes peuvent être des courbes ou des images est présenté. Les résultats sur des données réelles et simulées montrent les bonnes performances de ces méthodes. Un package Python, implementant celles-ci et disponible publiquement, a été développé.