Thèse en cours

Le Deep learning pour optimiser l'analyse bioinformatique des données de métagénomique appliquée aux virus

FR  |  
EN
Auteur / Autrice : Emma Soufir
Direction : Ilka EngelmannSerafìn Gutierrez
Type : Projet de thèse
Discipline(s) : Biologie Santé
Date : Inscription en doctorat le 01/11/2024
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : Sciences Chimiques et Biologiques pour la Santé (Montpellier ; Ecole Doctorale ; 2015-....)
Partenaire(s) de recherche : Laboratoire : PCCEI - Pathogenèse et contrôle des infections chroniques et émergentes

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

La métagénomique est une méthode permettant d'identifier l'ensemble du matériel génétique dans un échantillon, avec une puissance accrue grâce aux technologies de séquençage de nouvelle génération (NGS). Cependant, cette puissance implique une complexité d'analyse, nécessitant des outils bioinformatiques spécialisés pour gérer les vastes jeux de données produits. En virologie, la métagénomique, en tant qu'approche non-ciblée, permet d'analyser l'ensemble des génomes viraux présents, qu'ils soient connus ou inconnus, ce qui représente un avantage majeur sur les méthodes précédentes. Cette ''révolution métagénomique'' continue de s'accélérer, avec des découvertes annuelles de centaines de milliers de nouvelles espèces virales, rendues possibles par des optimisations bioinformatiques, dont le Machine Learning. Le Deep Learning (DL), une version avancée du Machine Learning, a récemment montré son potentiel pour améliorer la prédiction des fonctions génétiques et des structures protéiques, mais son utilisation en métagénomique virale reste encore limitée. Ce projet de thèse vise à optimiser la recherche de virus via la métagénomique en intégrant des outils de DL dans les pipelines bioinformatiques. Les objectifs sont doubles : Optimiser la détection des virus grâce à ces outils, et appliquer ces améliorations dans trois domaines : le diagnostic en milieu hospitalier, l'étude du virome, et la surveillance environnementale des virus pathogènes. Le projet s'articule autour de deux défis majeurs : - Développement d'une méthode de clustering de séquences virales: L'identification des virus par métagénomique est compliquée par l'absence d'une séquence génomique commune à tous les virus pouvant servir de ''code-barre''. Le séquençage NGS génère des séquences appartenant à diverses sources (virus, hôtes, autres microorganismes), nécessitant une méthode pour séparer les séquences virales des autres. De plus, le séquençage n'amplifie souvent que des fragments de génomes viraux, rendant difficile l'assemblage des séquences d'un virus inconnu. L'usage du DL pour le clustering des séquences pourrait surmonter ces obstacles, bien que ces outils n'aient pas encore été testés pour la recherche de virus. - Développement d'une méthode d'identification de l'hôte des nouveaux virus: La métagénomique permettrait une surveillance holistique des virus présents dans l'environnement ou dans des échantillons biologiques (eaux usées, vecteurs d'arthropodes, etc.). Cependant, la plupart des virus détectés dans ces échantillons ne sont pas pathogènes pour l'humain, ce qui complique l'identification des nouveaux virus émergents. Les séquences virales seules ne suffisent pas à déterminer si un virus peut infecter des vertébrés. Récemment, des outils basés sur le DL ont permis d'identifier des virus infectant les humains à partir de données métagénomiques. L'objectif est d'adapter ces outils de classification pour mener une étude comparative et identifier les hôtes des nouveaux virus.