Thèse soutenue

Approches causales pour l'analyse de données observationnelles - application aux données longitudinales avec traitements multiples

FR  |  
EN
Auteur / Autrice : François Bettega
Direction : Sébastien Bailly
Type : Thèse de doctorat
Discipline(s) : Modèles, méthodes et algorithmes en biologie, santé et environnement
Date : Soutenance le 12/12/2023
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Hypoxie : physiopathologie cardiovasculaire et respiratoire (Grenoble)
Jury : Président / Présidente : Delphine Maucort-Boulch
Examinateurs / Examinatrices : Sébastien Bailly, Emilie Devijver, Guillaume Dumas
Rapporteurs / Rapporteuses : Matthieu Resche-Rigon, David Hajage

Résumé

FR  |  
EN

Le syndrome d'apnées obstructives du sommeil (SAOS) est une pathologie chronique qui a des conséquences sur plusieurs organes et entraîne des coûts économiques et sociaux importants. On estime que plus d'un milliard d'adultes âgés de 30 à 69 ans (hommes et femmes) dans le monde souffrent d'un SAOS modéré à sévère. Le SAOS s'accompagne souvent de comorbidités et a un impact majeur sur la qualité de vie. La pression positive continue (PPC), traitement de première intention du SAOS, est très efficace en termes d'amélioration des symptômes, mais aucun essai clinique randomisé n’a démontré d’effet clair sur le pronostic cardiovasculaire à long terme.Pour démontrer un effet causal d’un traitement sur le pronostic des patients ayant un SAOS, la méthode de référence est l’essai contrôlé randomisé (ECR) malgré leurs limites. Aussi, pour compenser les limites des ECR, les bases de données observationnelles issues de cohortes prospectives ou de bases médico-administratives apportent une source alternative d’information pour étudier la causalité. Cependant, ces données observationnelles présentent elles-mêmes des limites, à commencer par le fait que, à l’inverse d’un ECR, l’assignation des patients à un groupe de traitement n’est pas aléatoire. Cette limite induit un biais de sélection qui rend l’évaluation de l’effet du traitement dépendant des caractéristiques des patients : les facteurs de confusion.Les méthodes basées sur les scores de propension sont des méthodes d’inférence causale sur données observationnelles de plus en plus utilisées, et reconnues par les autorités sanitaires, pour valoriser les bases de données observationnelles en corrigeant ces limitations, permettant ainsi de tirer des conclusions causales à partir de ce type de données. Ces méthodes se basent sur un plan d’étude rigoureux et des hypothèses : « consistency », non-interférence, échangeabilité conditionnelle et positivité qui doivent être respectées de manière à se rapprocher au maximum des conditions d’un ECR.Plusieurs méthodes existent pour calculer les scores de propension, telles que la régression ou à les algorithmes de « machine learning », comme les Generalized Boosted Models et peuvent être employés pour des traitements binaires ou multi-niveaux. Cependant, dans la majorité des cas, l’application de ces méthodes est limitée à un facteur d’exposition (ou un traitement) à deux modalités, alors que les situations cliniques nécessiteraient de considérer une approche multiniveau. Toutefois, on constate dans la littérature un manque de connaissance et d’applications des approches causales sur données observationnelles pour traitement multiniveau.L’objectif de ce travail de thèse est de proposer une exploration systématique de l’usage des méthodes d'inférence causale avec traitement multi-niveaux dans la littérature médicale afin d'évaluer les spécialités médicales dans lesquelles ces méthodes sont les plus appliquées, ainsi que la qualité du reporting de ces méthodes. Proposer des applications des méthodes basées sur les scores de propension appliqués aux traitements multi-niveaux, afin de sensibiliser à l'usage de ces méthodes et les autres hypothèses dont elles dépendent. Évaluer l'efficacité et les limites de modèles de machine learning pour l'estimation des scores de propension dans le cas des traitements multi-niveaux.