Apprentissage statistique et grandes bases de données de vie réelles : vers une prévention personnalisée des maladies neurodégénératives
| Auteur / Autrice : | Léa Aguilhon |
| Direction : | Stanley Durrleman, Thomas Nedelec |
| Type : | Projet de thèse |
| Discipline(s) : | Sciences et technologies de l'information et de la communication |
| Date : | Inscription en doctorat le 01/10/2025 |
| Etablissement(s) : | Sorbonne université |
| Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
| Partenaire(s) de recherche : | Laboratoire : Institut du cerveau et de la moelle épinière |
Mots clés
Résumé
Les maladies neurodégénératives constituent un défi majeur pour la santé publique dans les sociétés occidentales et représentent l'un des plus grands obstacles au développement de médicaments. Étant donné l'absence de traitements curatifs, la prévention est devenue une stratégie clé, impliquant deux approches complémentaires : la prévention primaire, qui vise à réduire l'incidence de la maladie en agissant sur les facteurs de risque modifiables, et la prévention secondaire, qui se concentre sur le retardement de la progression de la maladie grâce à des interventions thérapeutiques précoces, idéalement avant l'apparition des symptômes. L'identification précoce des individus à risque, bien avant l'apparition des manifestations cliniques, est une condition préalable essentielle à une prévention efficace. En collaboration avec l'Institut du cerveau de Paris (France), l'Institut Karolinska (Suède) et l'Université du Queensland (Australie), cette thèse propose d'exploiter les dossiers médicaux électroniques pour découvrir les facteurs de risque biomédicaux associés aux maladies neurodégénératives. En analysant les données longitudinales des DSE de millions de patients suivis pendant au moins dix ans avant le diagnostic dans quatre systèmes de santé (Australie, France, Royaume-Uni et Suède), nous visons à étudier quatre grandes maladies neurodégénératives : la maladie d'Alzheimer (MA), la maladie de Parkinson (MP), la démence à corps de Lewy (DCL) et les maladies du motoneurone (MND). L'objectif principal de ce travail est d'identifier les marqueurs précliniques communs et spécifiques à la maladie, tels que les diagnostics antérieurs (comorbidités), les prescriptions de médicaments, les schémas d'utilisation des soins de santé et les résultats des tests biologiques. En France, l'analyse s'appuiera sur la base de données SNDS, qui comprend des dossiers médicaux complets couvrant environ 98 % de la population, ce qui permet une étude approfondie des phases prodromiques de ces maladies. De manière analogue aux études d'association à l'échelle du génome, les études d'association à l'échelle du phénome nécessitent des cohortes extrêmement importantes pour détecter des effets de petite taille sur de nombreuses associations potentielles. En intégrant des données transnationales basées sur la population, ce projet relève de manière unique deux défis majeurs : obtenir une puissance statistique suffisante et atténuer les biais inhérents aux données du monde réel.