Sélection de génomes représentatifs pour l'identification de microorganismes par spectrométrie de masse MALDI-TOF
Auteur / Autrice : | Rémi-Vinh Coudert |
Direction : | Céline Brochier-Armanet, Jean-Pierre Flandrois, Jean-Philippe Charrier |
Type : | Thèse de doctorat |
Discipline(s) : | Bioinformatique |
Date : | Soutenance le 12/12/2023 |
Etablissement(s) : | Lyon 1 |
Ecole(s) doctorale(s) : | École doctorale Evolution Ecosystèmes Microbiologie Modélisation (Lyon ; 1999-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Biométrie et Biologie Evolutive |
Jury : | Président / Présidente : Simonetta Gribaldo |
Examinateurs / Examinatrices : Céline Brochier-Armanet, Jean-Pierre Flandrois, Renaud Piarroux, Mylène Hugoni, Sophie Abby, Laura Eme, Yannick Charretier | |
Rapporteur / Rapporteuse : Simonetta Gribaldo, Renaud Piarroux |
Mots clés
Résumé
Les bases de données de séquences génomiques croissent de manière exponentielle, avec une redondance élevée et une qualité inégale des données. Pour ces raisons, la plupart des études reposent sur des sous ensembles de génomes. Les approches actuelles d'échantillonnage font appel à des critères taxonomiques, de similarité ou phylogénétiques. Cependant ces approches ont des limites, sont affectées par plusieurs biais et la plupart d'entre elles sont incapables d’analyser de grands jeux de données. La première partie de la thèse présente une méthode innovante, rapide, efficace et facile d’utilisation pour sélectionner des échantillons représentatifs fiables de génomes annotés au sein de très grands ensembles de données : MPS Sampling (Multiple Protein Similarity Sampling). À partir de familles de protéines en copie unique (par exemple les core proteins, ou encore les protéines ribosomales), MPS Sampling délimite des groupes homogènes de génomes via trois étapes successives de clustering. Des génomes représentatifs sont ensuite sélectionnés au sein de ces groupes en fonction de critères de qualité et de centralité. En particulier, MPS Sampling est destiné à sélectionner les génomes représentatifs de l’algorithme d’identification par spectrométrie de masse SARAMIS+. La spectrométrie de masse de type MALDI TOF est aujourd’hui utilisée pour l’identification des microorganismes en routine clinique. Cette approche dite protéomique implique l’utilisation de bases de listes de pics, utilisée comme référence lors de l’identification. Ces bases de référence sont souvent construites à partir de données expérimentales, ce qui implique certaines limites liées notamment aux conditions d’acquisition des spectres et à la couverture taxonomique de la base. Pour pallier ces limites, une solution est d’utiliser une autre source d’information telle que l’information génomique. La deuxième partie de la thèse présente SARAMIS+, un algorithme d’identification par MALDI TOF inférée par information génomique. Tout d’abord, l’algorithme identifie les protéines à l’origine des pics dans les spectres MALDI TOF, en liant informations génomique et protéomique via un procédé nommé interprétation. Puis, l’interprétation des spectres est exploitée pour l’identification bactérienne. Ainsi, la base spectrale de référence de SARAMIS+ est calculée in silico à partir de séquences génomiques, par opposition aux bases de référence classiques construites à l’aide de spectres protéiques expérimentaux.