Thèse en cours

Développement de méthodes utilisant des forêts aléatoires basées sur des distances pour l'analyse de données de santé complexes

FR  |  
EN
Auteur / Autrice : Justine Remiat
Direction : Robin GenuerCecile Proust-lima
Type : Projet de thèse
Discipline(s) : Santé publique Option Biostatistiques
Date : Inscription en doctorat le 06/10/2023
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale Sociétés, politique, santé publique (Talence, Gironde ; 2011-....)
Partenaire(s) de recherche : Laboratoire : Bordeaux Population Health Research Center
Equipe de recherche : E10 - Statistics in Systems biology and Translational Medicine_SISTM

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Dans de nombreux domaines de la Santé Publique, les données collectées sont de plus en plus complexes grâce au développement de nouvelles techniques d'acquisition. Par exemple, dans les essais vaccinaux, l'expression génique des individus peut être mesurée à différents temps du suivi. Un autre exemple est la mesure de l'activité cérébrale mais aussi de son anatomie grâce aux méthodes d'imagerie médicale. Dans les deux cas, il s'agit de données complexes : des mesures répétées ou des données de grande dimension (expression génétique ou neuroimagerie) qui peuvent être essentielles pour prédire avec précision les effets sur la santé, mais que les méthodes statistiques ne parviennent pas à traiter. Les forêts aléatoires sont des outils performants de machine learning donnant lieu à des prédictions fiables dans de nombreux domaines, même dans des contextes de grande dimension. Cependant elles ont été conçues pour des données dont les observations sont indépendantes entre elles et où les variables sont soit catégorielles, soit continues. Il existe donc un besoin de les adapter pour permettre l'analyse de données complexes. Parmi les travaux récents, Capitaine et al. (2020) ont développé les forêts aléatoires de Fréchet qui ont le potentiel d'être appliquées à tout type de données grâce à la moyenne de Fréchet qui est utilisée pour l'agrégation. L'utilisation de cette moyenne est possible à partir du moment où il existe une distance adaptée pour mesurer la similarité entre les objets d'intérêt (l'objet peut être une courbe d'évolution ou une image par ex.). Ces travaux posent les bases du développement de méthodes de forêts aléatoires basées sur des distances adaptées à différents types de données complexes. Dans le cas de données longitudinales, les auteurs ont proposé d'utiliser la distance de Fréchet entre les trajectoires. Cependant, le choix de la distance n'a pas été étudié ainsi que le réglage des paramètres associés à cette distance ; alors que l'on s'attend à ce que le choix de la distance utilisée ait un impact majeur sur les prédictions. L'objectif principal de cette thèse est donc d'aller plus loin avec les forêts aléatoires de Fréchet dans le but de proposer des méthodes efficaces de prédictions adaptées à différentes problématiques mais aussi au type de données utilisées. Pour les trajectoires, différentes distances seront étudiées et un guide du choix de la distance à utiliser sera développé. Pour les images ; le comportement de la méthode sera étudié quant au choix de la distance utilisée. Ces méthodes seront appliquées dans deux contextes : (i) la prédiction de réponse vaccinale à partir de l'expression génique, (ii) la prédiction de traits psychologiques à partir de l'anatomie et de l'activité cérébrale. L'objectif de ce travail est le développement d'un outil d'analyse statistique et d'un guide d'utilisation pratique, ainsi que l'illustration des applications possibles dans différents contextes.