Thèse soutenue

Contribution à la statistique spatiale pour données en grande dimension et données de survie

FR  |  
EN
Auteur / Autrice : Camille Frévent
Direction : Michaël GeninSophie Dabo-Niang
Type : Thèse de doctorat
Discipline(s) : Mathématiques et leurs interactions - MED
Date : Soutenance le 02/12/2022
Etablissement(s) : Université de Lille (2022-....)
Ecole(s) doctorale(s) : École doctorale Biologie-Santé (Lille)
Partenaire(s) de recherche : Laboratoire : Centre d'Etudes et de Recherche en Informatique Médicale (Lille)
Jury : Président / Présidente : Liliane Bel
Examinateurs / Examinatrices : Mohamed Lemdani, Christine Thomas-Agnan, Cristian Preda, Lionel Cucala
Rapporteurs / Rapporteuses : Edith Gabriel, Jorge Mateu

Résumé

FR  |  
EN

Dans ce mémoire de thèse nous nous intéressons aux méthodes d'apprentissage statistique pour données spatiales en grande dimension et données de survie. L'objectif est de développer des méthodes de détection de clusters non supervisées avec des statistiques de scan spatiales, à la fois dans le cadre de l'analyse de données fonctionnelles, mais aussi pour l'analyse de données de survie. Nous considérons tout d'abord des données fonctionnelles univariées ou multivariées mesurées spatialement dans une région géographique. Nous proposons des statistiques de scan paramétriques et non paramétriques dans ce contexte. Ces approches fonctionnelles univariées et multivariées évitent la perte d'information respectivement d'une méthode univariée ou multivariée appliquée sur des observations moyennes au cours de la période d'étude. Nous étudions également les performances de ces approches sur des études de simulation, avant de les appliquer sur des données réelles économiques et environnementales. Nous nous intéressons également à la détection de clusters spatiaux de temps de survie. Bien qu'il existe déjà dans la littérature des approches de statistiques de scan spatiale dans ce cadre, celles-ci ne permettent pas de prendre en compte une éventuelle corrélation entre les temps de survie des individus d'une même unité spatiale. De plus, la nature spatiale des données implique une potentielle dépendance entre les unités spatiales, qui doit être prise en compte. L'originalité de l'approche que nous proposons est le développement d'une nouvelle statistique de scan spatiale basée sur un modèle de Cox à fragilité spatiale, permettant à la fois la prise en compte de la corrélation entre les temps de survie des individus d'une même unité spatiale, et une éventuelle dépendance entre les unités spatiales. Nous avons comparé les performances de cette nouvelle approche avec les méthodes existantes et nous les avons appliquées sur des données réelles de temps de survie des personnes âgées atteintes d'insuffisance rénale chronique terminale dans le nord de la France. Enfin, nous proposons un certain nombre de perspectives à notre travail, à la fois avec des prolongements directs à cette thèse dans le cadre des statistiques de scan spatiales pour données en grande dimension et données de survie, mais également avec des perspectives dans un cadre plus large d'analyse spatiale non supervisée (clustering spatial pour données en grande dimension modélisées par des tenseurs), et d'apprentissage spatial supervisé (régression).