Thèse soutenue

Modélisation de séquences et reconstruction non supervisée de génomes microbiens à partir de donnée métagénomiques.

FR  |  
EN
Auteur / Autrice : Kévin Gravouil
Direction : Eric PeyretailladeDidier DebroasMarie Agier
Type : Thèse de doctorat
Discipline(s) : Bioinformatique
Date : Soutenance le 20/12/2019
Etablissement(s) : Université Clermont Auvergne‎ (2017-2020)
Ecole(s) doctorale(s) : École doctorale des sciences de la vie, santé, agronomie, environnement (Clermont-Ferrand)
Partenaire(s) de recherche : Laboratoire : Microbiologie Environnement Digestif et Santé - Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes - Laboratoire Microorganismes : Génome et environnement
Jury : Examinateurs / Examinatrices : Engelbert Mephu-Nguifo
Rapporteur / Rapporteuse : Christine Gaspin, Pierre Peterlongo, Timothy Vogel

Résumé

FR  |  
EN

Les micro-organismes sont ubiquistes et contribuent à tous les cycles biogéochimiques de la planète. Leur étude en laboratoire souffre cependant d’importantes limitations. Les approches métagénomiques permettent d’étudier la matière noire microbienne in situ. Leur étude en laboratoire souffre cependant d’importantes limitations et les approches de type ''omique'' comme la métagénomique ont ainsi révolutionné l’écologie microbienne. Il est ainsi possible de reconstruire des génomes sans mettre en culture les microorganismes grâce aux recours à des stratégies par des approches de binning non supervisé.Les méthodes existantes sont articulées en deux étapes : une représentation numérique (ou « modélisation ») des séquences métagénomiques (le plus souvent, des contigs) puis un clustering. Ce dernier produit des « bins » représentant les génomes. Une comparaison objective de ces méthodes restait nécessaire. Cette dernière a été conduite à partir de jeux de données maîtrisés et a permis de mettre en évidence une influence de la méthode employée sur les résultats, et ce quelle que soit l’origine taxonomique des micro-organismes reconstruits (chapitre 3). Cependant, la modélisation de séquences manque de diversité pour tirer parti des approches consensuelles pourtant prometteuses. Six modélisations, dont trois encore inutilisées pour le binning et une originale, sont réunies dans un même module Python dédié – fennec. Ces différentes modélisations sont intégrées en une seule de manière non supervisée et adaptative. Cette adaptabilité a été exploitée au travers d’un processus itératif d’extraction de génomes automatique basé sur un clustering semi-supervisé (chapitre 4). Cet outil appliqué individuellement ne permet pas la reconstruction de meilleurs génomes sur des données de test et réelles. Cependant, il vient améliorer les résultats d’autres logiciels lorqu’une approche par consensus est envisagée (chapitre 5).