Inférence bayésienne pour les maladies infectieuses : modèles stochastiques, phylodynamique et intégration de données
Auteur / Autrice : | Benjamin Nguyen-Van-Yen |
Direction : | Bernard Cazelles, Richard Paul |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques et sciences informatiques |
Date : | Soutenance le 16/02/2021 |
Etablissement(s) : | Université Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Frontières de l'innovation en recherche et éducation (Paris ; 2006-....) |
Partenaire(s) de recherche : | Laboratoire : Institut Pasteur (Paris). Unité de Génétique fonctionnelle des maladies infectieuses |
Structure de recherche : Institut Pasteur. Département de Santé globale (2019-….) | |
Jury : | Président / Présidente : Amandine Véber |
Examinateurs / Examinatrices : Patrick Hoscheit, Erik Volz | |
Rapporteur / Rapporteuse : Samuel Alizon, Hélène Morlon |
Mots clés
Résumé
L'année 2020 et la pandémie de COVID-19 ont à nouveau prouvé l'importance de mieux comprendre et contrôler la propagation des maladies infectieuses. L'épidémiologie des maladies infectieuses doit relever des défis difficiles : La dynamique des maladies infectieuses est à la fois non-linéaire et stochastique, et les données dont on dispose pour les étudier sont limitées, partielles, et biaisées de manière complexe. Ce manuscrit réunit trois projets distincts mais connectés, sur lesquels j'ai travaillé durant mes études doctorales dans le but d'avancer sur ces problèmes. Dans un premier chapitre, nous fournissons un panorama général de l'épidémiologie des maladies infectieuses. Nous abordons la modélisation des épidémies, les sources de données classiques et nouvelles les concernant, et l'inférence statistique bayésienne. Nous illustrons la manière dont ces différentes thématiques se rencontrent pour faire avancer nos connaissances sur l'exemple de la dengue. Dans le second chapitre, nous présentons un algorithme de Metropolis-Hastings novateur pour l'inférence bayésienne des processus de Markov de saut pur, par augmentation de données, en utilisant des mesures aléatoires de Poisson. Cet algorithme constitue une méthode efficace d'inférence des modèles épidémiques stochastiques par simulation, et fournit simultanément un diagnostic de la qualité de l'ajustement du modèle. Nous illustrons notre méthode en l'appliquant à l'épidémie de Zika de 2013 en Polynésie Française. Dans le troisième chapitre, nous adaptons la méthode précédente au contexte de l'inférence phylodynamique. Nous présentons un schéma d'augmentation de données non-centré original et démontrons comment l'intégrer à un algorithme de Metropolis-Hastings. Nous montrons comment le schéma choisi se prête à l'utilisation de distributions de proposition adaptatives, pour accélérer l'inférence par MCMC. Une comparaison de notre méthode avec une implémentation plus classique basée sur l'échantillonnage de phylogénies montre que notre algorithme est correct, mais également que sa vitesse et son efficacité statistique ne sont pas compétitives. Dans le quatrième et dernier chapitre, je discute du problème de la non-identifiabilité des modèles épidémiques. Même le modèle SIR le plus simple est non-identifiable quand l'inférence est faite à partir de données de comptage de cas seules, si l'on ne connait pas l'état initial du système. Nous montrons que la situation est la même à partir de données de séquences virales ou de séroprévalence prises seules. Nous établissons qu'utiliser ces sources de données complémentaires ensemble permet de résoudre le problème, avec des données simulées, et sur des données de dengue de Hô Chi Minh-Ville.