Thèse soutenue

Inférence bayésienne pour les maladies infectieuses : modèles stochastiques, phylodynamique et intégration de données

FR  |  
EN
Auteur / Autrice : Benjamin Nguyen-Van-Yen
Direction : Bernard CazellesRichard Paul
Type : Thèse de doctorat
Discipline(s) : Mathématiques et sciences informatiques
Date : Soutenance le 16/02/2021
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Frontières de l'innovation en recherche et éducation (Paris ; 2006-....)
Partenaire(s) de recherche : Laboratoire : Institut Pasteur (Paris). Unité de Génétique fonctionnelle des maladies infectieuses
Structure de recherche : Institut Pasteur. Département de Santé globale (2019-….)
Jury : Président / Présidente : Amandine Véber
Examinateurs / Examinatrices : Patrick Hoscheit, Erik Volz
Rapporteur / Rapporteuse : Samuel Alizon, Hélène Morlon

Résumé

FR  |  
EN

L'année 2020 et la pandémie de COVID-19 ont à nouveau prouvé l'importance de mieux comprendre et contrôler la propagation des maladies infectieuses. L'épidémiologie des maladies infectieuses doit relever des défis difficiles : La dynamique des maladies infectieuses est à la fois non-linéaire et stochastique, et les données dont on dispose pour les étudier sont limitées, partielles, et biaisées de manière complexe. Ce manuscrit réunit trois projets distincts mais connectés, sur lesquels j'ai travaillé durant mes études doctorales dans le but d'avancer sur ces problèmes. Dans un premier chapitre, nous fournissons un panorama général de l'épidémiologie des maladies infectieuses. Nous abordons la modélisation des épidémies, les sources de données classiques et nouvelles les concernant, et l'inférence statistique bayésienne. Nous illustrons la manière dont ces différentes thématiques se rencontrent pour faire avancer nos connaissances sur l'exemple de la dengue. Dans le second chapitre, nous présentons un algorithme de Metropolis-Hastings novateur pour l'inférence bayésienne des processus de Markov de saut pur, par augmentation de données, en utilisant des mesures aléatoires de Poisson. Cet algorithme constitue une méthode efficace d'inférence des modèles épidémiques stochastiques par simulation, et fournit simultanément un diagnostic de la qualité de l'ajustement du modèle. Nous illustrons notre méthode en l'appliquant à l'épidémie de Zika de 2013 en Polynésie Française. Dans le troisième chapitre, nous adaptons la méthode précédente au contexte de l'inférence phylodynamique. Nous présentons un schéma d'augmentation de données non-centré original et démontrons comment l'intégrer à un algorithme de Metropolis-Hastings. Nous montrons comment le schéma choisi se prête à l'utilisation de distributions de proposition adaptatives, pour accélérer l'inférence par MCMC. Une comparaison de notre méthode avec une implémentation plus classique basée sur l'échantillonnage de phylogénies montre que notre algorithme est correct, mais également que sa vitesse et son efficacité statistique ne sont pas compétitives. Dans le quatrième et dernier chapitre, je discute du problème de la non-identifiabilité des modèles épidémiques. Même le modèle SIR le plus simple est non-identifiable quand l'inférence est faite à partir de données de comptage de cas seules, si l'on ne connait pas l'état initial du système. Nous montrons que la situation est la même à partir de données de séquences virales ou de séroprévalence prises seules. Nous établissons qu'utiliser ces sources de données complémentaires ensemble permet de résoudre le problème, avec des données simulées, et sur des données de dengue de Hô Chi Minh-Ville.