Thèse soutenue

Apprentissage profond à partir des phylogénies

FR  |  
EN
Auteur / Autrice : Jakub Voznica
Direction : Hélène Morlon
Type : Thèse de doctorat
Discipline(s) : Mathématiques et sciences informatiques
Date : Soutenance le 19/10/2021
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Frontières de l'innovation en recherche et éducation (Paris ; 2006-....)
Partenaire(s) de recherche : Laboratoire : Institut de biologie de l'École normale supérieure (Paris ; 2010-....)
Jury : Président / Présidente : Guillaume Achaz
Examinateurs / Examinatrices : Mircea Sofonea
Rapporteurs / Rapporteuses : Jean-Philippe Vert, Laura Temime

Résumé

FR  |  
EN

La phylodynamique des pathogènes est un domaine transdisciplinaire, où les épidémies sont étudiées à partir des données génétiques des pathogènes. Ces données sont récoltées chez des patients infectés et peuvent être utilisées pour la reconstruction de phylogénies. Dans ces phylogénies, chaque feuille représente un patient et chaque nœud interne représente une transmission. Des modèles épidémiologiques simulant des phylogénies ont été développés et permettent d'en estimer les paramètres. Les méthodes standards d'estimation incluent le maximum de vraisemblance et les approches bayésiennes. Ces approches sont spécifiques du modèle, et elles reposent à la fois sur des formules mathématiques compliquées et sur des approximations qui passent difficilement à l'échelle. Néanmoins, des méthodes d'estimations génériques, précises et rapides sont nécessaires et permettrait de tirer parti des bases de données considérables collectées aujourd'hui dans le contexte de la surveillance épidémiologique. Les mêmes limitations s'appliquent au domaine de la phylogénétique comparative, un sous-domaine de la macroévolution, où on étudie la dynamique de la diversification à partir des données génétiques des espèces à l'aide des modèles et des méthodes d'inférence similaires. Dans cette thèse, nous apportons des solutions aux limites de ces méthodes. Nous avons développé la première méthode d'estimation basée sur l'apprentissage profond dans le domaine. Cette méthode n'utilise pas la vraisemblance, elle repose sur des simulations. Un algorithme d'apprentissage profond apprend la fonction qui relie les phylogénies simulées aux paramètres épidémiologiques. Nous avons développé une représentation compacte et bijective des phylogénies, qui conserve toute l'information contenue dans un arbre. Une telle représentation s'oppose à celle sous la forme de statistiques résumées : les statistiques résumées sont spécifiques au modèle, et de nouvelles statistiques doivent être conçues pour contenir l'information relative à un modèle différent. Nous avons entraîné des réseaux neuronaux à prédire les paramètres ou à sélectionner le modèle épidémiologique. Sur les simulations, notre approche est au moins aussi performante que les approches standards en termes de précision. Elle est également plus rapide de plusieurs ordres de grandeur. Nous avons ensuite reproduit des résultats attendus sur une base de données réelles, issues des patients de Zurich infectés par le VIH-1. Ensuite, nous nous sommes concentrés sur les données du Sars-Cov-2. Tandis que notre approche s'applique très bien sur des données riches en signal (où le pathogène mute plus rapidement qu'il n'est transmis), elle doit être adaptée aux pathogènes qui mutent lentement, comme le Sars-CoV-2. Nous démontrons que notre approche adaptée est à la fois précise et rapide sur des simulations. En analysant les données du Sars-CoV-2, nous devions surmonter des défis liés à leur abondance : en mars 2021, plus de 1,000,000 de génomes du Sars-CoV-2 ont été collectés et rendus disponibles. C'est pourquoi nous avons développé une méthode d'alignement de génomes du Sars-CoV-2 afin qu'elle soit rapide, précise et puisse passer à l'échelle. Pour finir, nous avons transféré cette technologie dans le domaine de la macroévolution où on estime les paramètres de diversification à partir des phylogénies d'espèces. Nous avons adapté la représentation des phylogénies, qui inclue éventuellement des données sur des traits. Nous avons testé la performance de notre algorithme d'apprentissage profond sur deux modèles macroévolutifs largement utilisés. Cette thèse apporte les premiers algorithmes d'apprentissage profond en épidémiologie moléculaire et en macroévolution. Puisque notre représentation est dépourvue de statistiques résumées et ne repose pas sur la vraisemblance, nous espérons qu'elle servira de base à de nouvelles approches innovantes dans les deux domaines.