Thèse soutenue

Outils pour la génomique comparative des bactéries à large échelle : développement et applications

FR  |  
EN
Auteur / Autrice : Amandine Perrin
Direction : Eduardo Pimentel Cachapuz Rocha
Type : Thèse de doctorat
Discipline(s) : Bioinformatique
Date : Soutenance le 21/02/2022
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Complexité du vivant (Paris ; 2009-....)
Partenaire(s) de recherche : Laboratoire : Institut Pasteur (Paris). Unité Génomique évolutive des microbes
Jury : Président / Présidente : Ingrid Lafontaine
Rapporteurs / Rapporteuses : Hélène Chiapello, Pierre Peterlongo

Résumé

FR  |  
EN

La génomique comparative bactérienne consiste à comparer les contenus en gène des différentes souches : leur pangenome. Avec le nombre croissant de séquençages, les logiciels existants au début de cette thèse arrivaient à leurs limites en termes de temps de calcul et de mémoire. L’enjeu était de passer à l’échelle de milliers de génomes dans un temps raisonnable, en gardant une précision correcte. De plus, à notre connaissance, aucun logiciel ne permettait d’effectuer toutes les étapes clés d’une étude de génomique comparative. C’est dans ce contexte que nous avons développé PanACoTA, un outil ayant pour but de standardiser et automatiser la préparation de données pour ces études, depuis le téléchargement des génomes et leur contrôle qualité jusqu’à l’inférence de l’arbre phylogénétique du core génome (gènes communs à tous les génomes). Son implémentation sous forme de modules a été pensée pour permettre de s’adapter aux besoins spécifiques de certaines études (exploration de paramètres, étapes supplémentaires). Concernant le module « pangenome », nous avons développé une nouvelle méthode, s’appuyant sur des outils récents de comparaison et clustering de séquences. Robuste aux changements d’échelle, elle permet de calculer un pangénome de 4000 souches en 30 minutes. Au cours de son développement, nous avons appliqué PanACoTA dans différents contextes. Nous avons montré l’utilité de l’outil sur des études à court terme (recherche de la particularité d’une souche épidémique d’E. anophelis), sur du long terme (étude de la diversité génomique de l’espèce E. coli), ou encore pour différencier différentes espèces d’un genre peu connu (Morganella).