Thèse soutenue

Intégration de données omiques complexes par inférence de modèle graphique gaussien multi-échelles

FR  |  
EN
Auteur / Autrice : Do Edmond Sanou
Direction : Christophe AmbroiseGeneviève Robin
Type : Thèse de doctorat
Discipline(s) : Mathématiques aux interfaces
Date : Soutenance le 08/09/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Laboratoire de Mathématiques et Modélisation d'Évry (Evry, Essonne)
référent : Université d'Évry-Val-d'Essonne (1991-....)
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....)
Equipe de recherche : Statistique pour la Génomique et la Génétique
Jury : Président / Présidente : Edouard Duchesnay
Examinateurs / Examinatrices : Stéphane Canu, Catherine Matias, Vincent Ségura, Mélina Gallopin
Rapporteurs / Rapporteuses : Stéphane Canu, Catherine Matias

Résumé

FR  |  
EN

Cette thèse se concentre sur l'inférence de modèles graphiques Gaussiens multi-échelles appliqués à des données omiques. Les nombreuses méthodes statistiques existantes pour l'inférence de réseaux supposent généralement que le réseau est parcimonieux (peu d'interactions réelles parmi les interactions possibles) et font parfois l'hypothèse de l'existence d'une structure sous-jacente, qu'elle soit connue ou non. Ces a priori permettent d'obtenir un résumé synthétique des interactions présentes entre les variables d'un ensemble de données.Dans un premier temps, nous avons développé une nouvelle approche d'inférence de graphes permettant d'estimer des graphes à plusieurs niveaux de granularité tout en recouvrant une structure de classification hiérarchique sur les variables. Pour cela, nous nous sommes basés sur les techniques de sélection de voisinage et de classification hiérarchique convexe. La fonction de pseudo-vraisemblance dérivée a été optimisée grâce à une méthode de continuation utilisant le lissage de Nesterov.Dans un second temps, nous avons effectué des analyses de données omiques provenant en partie de populations naturelles de peupliers. Ces analyses ont consisté à étudier conjointement des données omiques de différentes natures afin de mettre en lumière en particulier les mécanismes de régulation entre données épigénétiques et données génétiques. Nous avons également pris en compte le problème de la nature hétérogène des sources de données grâce à des transformations de variables permettant de revenir au cadre Gaussien.