Modèles graphiques probabilistes pour la génétique statistique et l'analyse de survie. Application au syndrome de Lynch
Auteur / Autrice : | Alexandra Lefebvre |
Direction : | Grégory Nuel, Patrick Benusiglio |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 17/01/2022 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....) |
Jury : | Président / Présidente : Stéphane Robin |
Examinateurs / Examinatrices : Dominique Stoppa-Lyonnet | |
Rapporteur / Rapporteuse : Adeline Leclercq-Samson, Simon de Givry |
Résumé
Les modèles graphiques probabilistes sont omniprésents dans l’étude des systèmes complexes avec variables latentes. L’algorithme somme-produit exploite la structure des graphes pour réduire la complexité algorithmique d’une inférence. Cette thèse porte sur l'inférence exacte dans les réseaux Bayésiens (RBs), les chaînes de Markov cachées (CMCs) et applications en analyse de survie, génétique et segmentation. Elle comporte deux axes : - Extensions de l'algorithme somme-produit sur l'anneau polynomial : inspirés par des versions de l’algorithme à potentiels polynomiaux pour le calcul de fonctions génératrices des probabilités et des moments, nous développons une méthode pour calculer les dérivées de la vraisemblance jusqu’à un ordre choisi dans les RBs. D’autre part, nous proposons une méthode fondée sur les fonctions génératrices des probabilités dans des CMCs contraintes pour relaxer le prior sur l’espace des segmentations, notamment le nombre de segments homogènes, en segmentation de séquences. - Développement d’un RB pour le calcul de probabilité de prédisposition génétique et de cancer dans le cadre du Syndrome de Lynch (SL). Le SL est défini par une mutation pathogène monoallélique constitutionnelle dans un gène du système de réparation des mésappariements de l’ADN. Les RBs sont particulièrement adaptés à la génétique familiale car ils permettent de modéliser la structure de dépendance entres les génotypes (la plupart latents) et les phénotypes (le plupart observés) des membres d’une famille. Le spectre du SL étant large et les cancers multiples non rares chez les porteurs de ce syndrome, les phénotypes individuels sont modélisés par un modèle de survie multi-états.