Thèse soutenue

Développement d'approches d'apprentissage profond pour découvrir les réseaux d'interactions métaboliques des communautés microbiennes environnementales à partir de vastes ensembles de données métagénomiques, co-occurrence de domaines et coévolution des protéines

FR  |  
EN
Auteur / Autrice : Laurent David
Direction : Alessandra CarboneHugues Richard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/12/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Biologie computationnelle et quantitative (Paris ; 2011-....)
Jury : Président / Présidente : Jean-Daniel Zucker
Examinateurs / Examinatrices : Johannes Söding
Rapporteurs / Rapporteuses : Rayan Chikhi, Sophie Sacquin-Mora

Résumé

FR  |  
EN

L’analyse des séquences biologiques constitue l’un des domaines majeur de la bioinformatique. En particulier, la prédiction des interactions entre protéines est une étape importante, et joue un rôle clé dans la compréhension des environnements moléculaires existant au sein de la cellule. La production des données brutes par le séquençage de nouvelle génération se fait en deux temps. A partir d’un échantillon biologique, une population de fragments d’ADN est d’abord extraite. Ces fragments sont ensuite séquencés à leurs extrémités pour produire des lectures. Le premier défi consiste à assembler ces lectures, soit par alignement à des génomes de référence, soit par leur assemblage génomique de novo. Cet assemblage/alignement est généralement suivi par une étape de prédiction des régions codantes et leur annotation fonctionnelle. Ceci permet de décrire les activités métaboliques existant dans l’organisme ou la communauté séquencé, ou d’analyser la fonction des protéines impliquées dans un processus cellulaire particulier. Au cours des deux dernières décennies, le séquençage de nouvelle génération a entraîné une augmentation rapide dans la production de données biologiques. Comprendre et interpréter cette énorme quantité de données nécessite des approches informatiques efficaces et précises permettant d’extraire les informations à partir des séquences brutes. Ces approches sont de plus en plus orientées vers l’apprentissage automatique : l’extraction d’informations à partir de grands ensembles de données nous permet d’améliorer notre compréhension des mécanismes biologiques. De nombreux travaux se sont intéressés à la prédiction de la fonction des protéines, ainsi qu’à leur interactions. Dans cette thèse, nous essayons de répondre en partie à ces questions. Ce manuscrit est divisé en deux parties. La première partie se concentre sur le développement de S3A, un assembleur de domaines ciblés pour un profilage fonctionnel rapide des ensembles de données métagénomiques. Il vise à explorer rapidement le contenu de grands ensembles de données métagénomiques, en se basant sur un profilage fonctionnel. Dans la seconde partie, nous présentons un réseau de neurones profond, IMPRINT, dont le but est d’identifier des partenaires protéiques. Il s’appuie uniquement sur des informations de séquence et permet d’évaluer la probabilité d’interaction entre les deux protéines données en entrée.