Modélisation de substitution pour l'inférence basée sur la simulation avec des applications aux données génomiques
| Auteur / Autrice : | Eloïse Touron |
| Direction : | Julyan Arbel |
| Type : | Projet de thèse |
| Discipline(s) : | Mathématiques Appliquées |
| Date : | Inscription en doctorat le 01/10/2024 |
| Etablissement(s) : | Université Grenoble Alpes |
| Ecole(s) doctorale(s) : | École doctorale mathématiques, sciences et technologies de l'information, informatique |
| Partenaire(s) de recherche : | Laboratoire : Centre de recherche Inria de l'Université Grenoble Alpes |
Mots clés
Mots clés libres
Résumé
Inférer la structure 3D de la chromatine, les éléments constitutifs du génome, est une tâche importante et difficile en biologie. La structure 3D de la chromatine a un impact direct sur l'expression des gènes et la réplication de l'ADN et a été liée à des troubles génétiques favorisant une variété de types de cancer. Par conséquent, la compréhension des structures de chromatine 3D a le potentiel de permettre un diagnostic précoce et le traitement de certaines maladies génétiques connexes. Contrairement au repliement des protéines, il n'existe actuellement aucune procédure expérimentale pour déterminer directement ces structures 3D ce qui rend le problème difficile. Les techniques de mesure avancées récentes, telles que la technique de capture de conformation chromosomique à haute résolution et haut débit (Hi-C), ouvrent la voie à l'inférence indirecte des structures de chromatine 3D à l'aide d'approches basées sur les données, à partir de mesures de la fréquence de contact entre différents sites de la chromatine. Des modèles mécanistiques de la conformation moléculaire 3D de polymères peuvent être utilisés pour effectuer une inférence à l'aide de données Hi-C. Les modèles peuvent être considérés comme un simulateur avec une vraisemblance incalculable p(Z|θ), où Z est la conformation 3D, tandis que θ est un paramètre décrivant la force des interactions entre différents sites moléculaires. Les fréquences de contact X observées dans Hi-C peuvent être déterminées en connaissant la conformation 3D à l'aide des modèles probabilistes p(X|Z). Par conséquent, le but est d'inférer le paramètre θ à partir des fréquences de contact observées Xobs en utilisant l'inférence bayésienne. Malheureusement, la vraisemblance p(Z|θ) ne pouvant être évaluée, l'inférence en est rendue difficile. Une approche moderne pour contourner ces difficultés consiste à utiliser l'inférence basée sur la simulation (SBI), où l'on peut apprendre une approximation de la vraisemblance ou de la distribution postérieure basée sur plusieurs simulations à partir de différents paramètres similairement à ce qui se fait classiquement en calcul bayésien approximatif (ABC). SBI exploite les progrès récents en matière de modélisation générative approfondie et de programmation probabiliste pour traiter l'impossibilité de calculer la vraisemblance par l'apprentissage de modèles de substitution. L'objectif de ce doctorat est de développer des méthodes pour inférer efficacement et avec précision la structure 3D de la chromatine à partir de simulateurs en tirant parti des modèles de substitution du contexte du SBI.