Thèse soutenue

Modèles graphiques probabilistes pour la génétique statistique et l'analyse de survie. Application au syndrome de Lynch

FR  |  
EN
Auteur / Autrice : Alexandra Lefebvre
Direction : Grégory NuelPatrick Benusiglio
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 17/01/2022
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....)
Jury : Président / Présidente : Stéphane Robin
Examinateurs / Examinatrices : Dominique Stoppa-Lyonnet
Rapporteurs / Rapporteuses : Adeline Leclercq-Samson, Simon de Givry

Résumé

FR  |  
EN

Les modèles graphiques probabilistes sont omniprésents dans l’étude des systèmes complexes avec variables latentes. L’algorithme somme-produit exploite la structure des graphes pour réduire la complexité algorithmique d’une inférence. Cette thèse porte sur l'inférence exacte dans les réseaux Bayésiens (RBs), les chaînes de Markov cachées (CMCs) et applications en analyse de survie, génétique et segmentation. Elle comporte deux axes : - Extensions de l'algorithme somme-produit sur l'anneau polynomial : inspirés par des versions de l’algorithme à potentiels polynomiaux pour le calcul de fonctions génératrices des probabilités et des moments, nous développons une méthode pour calculer les dérivées de la vraisemblance jusqu’à un ordre choisi dans les RBs. D’autre part, nous proposons une méthode fondée sur les fonctions génératrices des probabilités dans des CMCs contraintes pour relaxer le prior sur l’espace des segmentations, notamment le nombre de segments homogènes, en segmentation de séquences. - Développement d’un RB pour le calcul de probabilité de prédisposition génétique et de cancer dans le cadre du Syndrome de Lynch (SL). Le SL est défini par une mutation pathogène monoallélique constitutionnelle dans un gène du système de réparation des mésappariements de l’ADN. Les RBs sont particulièrement adaptés à la génétique familiale car ils permettent de modéliser la structure de dépendance entres les génotypes (la plupart latents) et les phénotypes (le plupart observés) des membres d’une famille. Le spectre du SL étant large et les cancers multiples non rares chez les porteurs de ce syndrome, les phénotypes individuels sont modélisés par un modèle de survie multi-états.