Nouvelles approches bioinformatiques pour l'étude à grande échelle de l'évolution des activités enzymatiques - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2015

New bioinformatic approaches for the large-scale study of the evolution of the enzymatic activities

Nouvelles approches bioinformatiques pour l'étude à grande échelle de l'évolution des activités enzymatiques

Résumé

This thesis has for objective to propose new methods allowing the study of the evolution of the metabolism. For that purpose, we chose to deal with the problem of comparison of the metabolism of hundred microorganisms.To compare the metabolism of various species, it is necessary to know at first the metabolism of each of these species.We work with proteomes of the microorganisms coming from various databases and sequenced and annotated by various teams, via various methods. The functional annotation can thus be of heterogeneous quality. That is why it is necessary to make a standardized functional annotation of this proteomes.The annotation of protein sequences can be realized by the transfer of annotations between orthologs sequences. There are more than 39 databases listing orthologues predicted by various methods. It is known that these methods lead to partially different predictions. To take into account current predictions and also adding relevant information, we developed the meta approach MARIO. This one combines the intersections of the results of several methods of detection of groups of orthologs and add sequences to this groups by using HMM profiles. We show that our meta approach allows to predict a largest number of orthologs while improving the similarity of function of the pairs of predicted orthologs. It allowed us to predict the enzymatic directory of 178 proteomes of microorganisms (among which 174 fungi).Secondly, we analyze these enzymatic directories in order to analyse the evolution of the metabolism. In this purpose, we look for combinations of presence / absence of enzymatic activities allowing to characterize a taxonomic group. So, it becomes possible to deduct if the creation of a particular taxonomic group can give some explanation by (or led to) the appearance of specificities at the level of its metabolism.For that purpose, we applied interpretable machine learning methods (rulers and decision trees) to the enzymatic profiles. We use as attributes the enzymatic activities, as classes the taxonomic groups and as examples the fungi. The results, coherent with our current knowledge on these species, show that the application of methods of machine learning is effective to extract informations of the phylogenetic profiles. The metabolism thus keeps tracks of the evolution of the species.Furthermore, this approach, in the case of prediction of classifiers presenting a low number of errors, can allow to highlight the existence of likely horizontal transfers. It is the case for example of the transfer of the gene coding for the EC:3.1.6.6 of an ancestor of pezizomycotina towards an ancestor of Ustilago maydis.
Cette thèse a pour objectif de proposer de nouvelles méthodes permettant l'étude de l'évolution du métabolisme. Pour cela, nous avons choisi de nous pencher sur le problème de comparaison du métabolisme de centaines de micro-organismes.Afin de comparer le métabolisme de différentes espèces, il faut dans un premier temps connaître le métabolisme de chacune de ces espèces.Les protéomes des micro-organismes avec lesquels nous souhaitons travailler proviennent de différentes bases de données et ont été séquencés et annotés par différentes équipes, via différentes méthodes. L'annotation fonctionnelle peut donc être de qualité hétérogène. C'est pourquoi il est nécessaire d'effectuer une ré-annotation fonctionnelle standardisée des protéomes des organismes que nous souhaitons comparer.L'annotation de séquences protéiques peut être réalisée par le transfert d'annotations entre séquences orthologues. Il existe plus de 39 bases de données répertoriant des orthologues prédits par différentes méthodes. Il est connu que ces méthodes mènent à des prédictions en partie différentes. Afin de tenir compte des prédictions actuelles tout en ajoutant de l'information pertinente, nous avons développé la méta-approche MARIO. Celle-ci combine les intersections des résultats de plusieurs méthodes de détections de groupes d'orthologues et les enrichit grâce à l'utilisation de profils HMM. Nous montrons que notre méta-approche permet de prédire un plus grand nombre d'orthologues tout en améliorant la similarité de fonction des paires d'orthologues prédites. Cela nous a permis de prédire le répertoire enzymatique de 178 protéomes de micro-organismes (dont 174 champignons).Dans un second temps, nous analysons ces répertoires enzymatiques afin d'en apprendre plus sur l'évolution du métabolisme. Dans ce but, nous cherchons des combinaisons de présence/absence d'activités enzymatiques permettant de caractériser un groupe taxonomique donné. Ainsi, il devient possible de déduire si la création d'un groupe taxonomique particulier peut s'expliquer par (ou a induit) l'apparition de certaines spécificités au niveau de son métabolisme.Pour cela, nous avons appliqué des méthodes d'apprentissage supervisé interprétables (règles et arbres de décision) sur les profils enzymatiques. Nous utilisons comme attributs les activités enzymatiques, comme classe les groupes taxonomiques et comme exemples les champignons. Les résultats obtenus, cohérents avec nos connaissances actuelles sur ces organismes, montrent que l'application de méthodes d'apprentissage supervisé est efficace pour extraire de l'information des profils phylogénétiques. Le métabolisme conserve donc des traces de l'évolution des espèces.De plus, cette approche, dans le cas de prédiction de classifieurs présentant un faible nombre d'erreurs, peut permettre de mettre en évidence l'existence de probables transferts horizontaux. C'est le cas par exemple du transfert du gène codant pour l'EC:3.1.6.6 d'un ancêtre des pezizomycotina vers un ancêtre d'Ustilago maydis.
Fichier principal
Vignette du fichier
VD2_PEREIRA_CECILE_11052015.pdf (6.02 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01839673 , version 1 (16-07-2018)

Identifiants

  • HAL Id : tel-01839673 , version 1

Citer

Cécile Pereira. Nouvelles approches bioinformatiques pour l'étude à grande échelle de l'évolution des activités enzymatiques. Bio-Informatique, Biologie Systémique [q-bio.QM]. Université Paris Sud - Paris XI, 2015. Français. ⟨NNT : 2015PA112065⟩. ⟨tel-01839673⟩
179 Consultations
175 Téléchargements

Partager

Gmail Facebook X LinkedIn More