Thèse en cours

Extraction d'associations génotype-phénotype à partir de l'intégration en réseau de données phénotypiques profondes et multi-échelles

FR  |  
EN
Auteur / Autrice : Florence Ghestem
Direction : Anne-Louise LeuteneggerAnaïs Baudot
Type : Projet de thèse
Discipline(s) : Génétique épidémiologique et statistique
Date : Inscription en doctorat le 02/09/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Santé Publique
Partenaire(s) de recherche : Laboratoire : Centre de Recherche en épidémiologie et Santé des populations
Equipe de recherche : Biostatistique en grande dimension
Référent : Faculté de médecine

Résumé

FR  |  
EN

De grandes quantités de données phénotypiques sont disponibles dans les bases de données de santé par le biais de questionnaires médicaux et de dossiers médicaux électroniques (EHR), qui peuvent inclure des prescriptions de médicaments, des résultats de laboratoire, des informations extraites de notes à l'aide du traitement du langage naturel, ou des codes de facturation. Toutefois, les phénotypes informatifs ne sont souvent pas directement disponibles. Il existe deux catégories de méthodes pour définir les phénotypes des maladies à partir des bases de données de santé. Premièrement, les méthodes reposant sur un algorithme validé prédéfini créé spécifiquement pour un phénotype donné afin d'identifier les cas et les témoins (approche experte utilisant des métadonnées). Deuxièmement, les méthodes fondées sur les données et reposant sur des approches automatisées. Les approches basées sur les réseaux appartiennent à cette seconde catégorie et s'appuient sur des mesures de similarité entre les individus pour identifier des sous-groupes homogènes (clusters phénotypiques). Nous avons récemment développé une approche réseau non supervisée pour analyser les prescriptions de médicaments de l'EGB, une base de données médico-administrative française (~660k individus) et identifié des sous-groupes de patients cliniquement pertinents [1], [2]. Nous souhaitons maintenant étendre ce travail en intégrant un spectre plus large de données phénotypiques et génomiques. Notre objectif est d'extraire des informations cliniquement significatives, d'identifier des sous-groupes de patients et d'établir une corrélation entre ces sous-groupes et les variations génomiques.