Thèse soutenue

Influence de l'exposome sur la santé : apport des données de haute dimension de méthylation de l'ADN

FR  |  
EN
Auteur / Autrice : Solène Cadiou
Direction : Rémy Slama
Type : Thèse de doctorat
Discipline(s) : Modèles, méthodes et algorithmes en biologie, santé et environnement
Date : Soutenance le 20/11/2020
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : CRI IAB - Centre de Recherche Epigenetics, Chronic Diseases, Cancer - Institute for Advanced Biosciences - Institute for Advanced Biosciences / Institut pour l'Avancée des Biosciences (Grenoble)
Jury : Examinateurs / Examinatrices : Rémy Slama, Rodolphe Thiébaut, Xavier Basagana
Rapporteur / Rapporteuse : Arthur Tenenhaus, Julie Herbstman

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Contexte : L'exposome est défini comme l’ensemble des expositions environnementales reçues au cours de la vie (dont la vie prénatale). La puissance statistique limitée et le taux élevé de faux positifs des études actuelles sont deux défis majeurs pour la caractérisation de ses effets sur la santé. Les faux-positifs peuvent notamment être dus à de la causalité inverse. Pour faire face à ces défis, affiner les méthodes statistiques est utile, mais l'utilisation d'information biologique, par exemple provenant de couches intermédiaires telle la méthylation de l'ADN, peut aussi contribuer à réduire la dimension du problème, et les faux positifs liés à la causalité inverse.Objectifs : Notre objectif principal est d’identifier des stratégies pour limiter les faux positifs dans les études sur l’exposome, en particulier en intégrant des informations a priori provenant du méthylome, et d’appliquer ces stratégies à l’étude de l’influence de l'environnement sur la santé de l’enfant. Nous avons également cherché à illustrer d’autres enjeux des études sur l’exposome liés à l’instabilité des modèles.Méthodes : Nous avons d'abord mis en œuvre deux approches ''Meet-in-the-Middle orientées'' (oMITM) pour caractériser le lien entre exposome et santé de l'enfant (indice de masse corporelle, IMC et fonction pulmonaire) dans les cohortes Helix (1173 mères-enfants) ; l'approche comprenait 3 étapes : a) identification de CpG indépendamment associés aux expositions et à la santé en utilisant des connaissances a priori et/ou des régressions linéaires univariées ; b) identification par régression linéaire des expositions associées à au moins un de ces CpG, constituant un exposome réduit ; c) test de leur association avec la santé. Nous avons ensuite réalisé une simulation de Monte-Carlo pour caractériser la pertinence du design oMITM sous différentes structures causales. Nous avons simulé un exposome, une couche intermédiaire et un évènement de santé à partir des données Helix en postulant des relations linéaires entre les couches. La magnitude des liens variait, générant 2281 scénarios sous 5 structures causales différentes, dont une de causalité inverse. Pour chaque scénario, 100 jeux de données étaient générés et 6 méthodes testées : 3 ignorant le méthylome (''approches agnostiques'' : ExWAS ; DSA ; LASSO) et 3 l’utilisant (deux implémentations d’oMITM et une analyse de médiation). Les performances étaient évaluées par leur sensibilité et spécificité. Nous avons aussi effectué une étude de simulation pour évaluer l'instabilité de certaines méthodes agnostiques, en particulier le LASSO.Résultats : Les approches oMITM sur les données Helix ont identifié une exposition, le niveau postnatal de cuivre dans le sang, associé à un IMC accru et à une fonction pulmonaire diminuée. Une ExWAS entre exposome et IMC dans HELIX a identifié 18 autres expositions (lipophiles), dont l'association avec l'IMC pourrait de ce fait être due à de la causalité inverse. L'étude de simulation a montré que, par rapport aux autres approches, le design oMITM peut éviter certains faux positifs dans au moins une situation de causalité inverse et augmenter la spécificité lorsque la couche intermédiaire médie une partie de l'effet de l'exposome sur la santé, ceci à un coût en terme de sensibilité. L’implémentation oMITM-DSA montrait de meilleures performances qu’oMITM-ExWAS. La deuxième simulation a montré que l'étape de stabilisation du modèle est cruciale lors de l'utilisation d'algorithmes d'apprentissage agnostique tels LASSO, car elle en modifie les performances.Discussion : L'utilisation de méthodes statistiques complexes adaptées à des données de dimensions intermédiaires ou élevées, ou la prise en compte de connaissances biologiques, pourraient aider à limiter les faux positifs dans les études sur l’exposome. Nous avons proposé un design, oMITM, qui est moins sujet au biais de causalité inverse que les approches agnostiques avec un coût en termes de sensibilité.