Thèse soutenue

Découverte et exploration des modules conservés de transformations chimiques dans le métabolisme

FR  |  
EN
Auteur / Autrice : Maria Sorokina
Direction : Claudine MédigueDavid Vallenet
Type : Thèse de doctorat
Discipline(s) : Bioinformatique
Date : Soutenance le 03/02/2016
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université d'Évry-Val-d'Essonne (1991-....)
Jury : Président / Présidente : Jean-Loup Faulon
Examinateurs / Examinatrices : Ludovic Cottret
Rapporteurs / Rapporteuses : Christine Froidevaux, Daniel Kahn, Fabien Jourdan

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

La proportion de séquences protéiques dont la fonction est inconnue dans les bases de données publiques est encore très importante (42% de séquences dans UniProt sont étiquetées comme "hypothetical", "uncharacterized", "unknown" ou encore "putative"). D’autre part, de nombreuses d’activités enzymatiques (environ 30%) demeurent orphelines de séquences. L’identification de modules fonctionnels conservés dans le métabolisme est une piste pour améliorer l’annotation fonctionnelle des protéines par la découverte de nouvelles réactions enzymatiques et voies métaboliques. C’est dans ce contexte que s’inscrit mon travail de thèse qui propose une nouvelle représentation d’un réseau métabolique global où les réactions partageant le même type de transformation chimique sont regroupées en signatures moléculaires de réactions (RMS). La signature d’une réaction est la différence des descripteurs moléculaires de signatures stéréochimiques (Carbonell et al. 2013, http://molsig.sourceforge.net) des produits et des substrats qui interviennent dans celle-ci. Ces RMS sont calculées pour toutes les réactions présentes dans au moins une voie métabolique, bien équilibrées et dont substrats et les produits sont identifiés et possèdent une structure moléculaire. Les RMS permettent de classifier les réactions d’une façon automatique et expert-indépendante et ont une couverture plus importante de l’ensemble des réactions enzymatiques que la classification de la Commission Enzymatique (EC numbers).En partant d’un réseau orienté de réactions, les nœuds-réactions partageant la même RMS sont regroupés dans un seul nœud et les arêtes conservent la connectivité initiale entre les réactions. Plusieurs scores sont ensuite calculés pour chaque chemin dans le réseau de RMS dans le but d’évaluer la conservation des voies métaboliques connues et afin d’en découvrir des nouvelles. Le premier de ces scores, le scoreRea, est calculé en utilisant le nombre moyen de réactions par RMS, et représente la conservation chimique des chemins dans tout le métabolisme. Le deuxième, scoreProt, est basé sur le nombre de protéines associées à chaque RMS et reflète la conservation enzymatique du chemin au travers de l’arbre du vivant. Le score suivant, scoreTopo, est basé sur la centralité PageRank et illustre l’importance topologique d’un enchainement de RMS dans le réseau métabolique. La dernière métrique, le Pathway Conservation Index (PCI) est le nombre de chemins de réactions différents parmi les voies métaboliques connues regroupés dans un chemin de RMS et représente la conservation des transformations chimiques dans la partie connue du métabolisme. Les chemins de RMS les plus conservés sont ensuite identifiés pour comprendre le lien entre les différents types de conservation (chimique, enzymatique et topologique) et le type de processus des voies métaboliques (comme la biosynthèse ou la dégradation). Cette représentation du métabolisme possède un potentiel prédictif intéressant et peut être utilisée pour identifier les parties les plus conservées du métabolisme, ainsi que pour découvrir de nouveaux modules métaboliques. De plus, la combinaison des différents scores peut être utilisée pour prédire le rôle métabolique des nouvelles voies en utilisant des approches d’apprentissage artificiel. Associés aux données de contexte génomique comme les opérons, les chemins conservés de transformations chimiques seront un outil utile pour l’annotation fonctionnelle des gènes et de groupes de gènes de fonction inconnue.