Résurrection du passé à l’aide de modèles hétérogènes d’évolution des séquences protéiques

par Mathieu Groussin

Thèse de doctorat en Biologie évolutive et évolution moléculaire

Sous la direction de Manolo Gouy.

Soutenue le 08-11-2013

à Lyon 1 , dans le cadre de École Doctorale Evolution Ecosystèmes Microbiologie Modélisation , en partenariat avec Laboratoire de Biométrie et Biologie Evolutive (laboratoire) .

Le président du jury était Céline Brochier-Armanet.

Le jury était composé de Laurent Duret, Dominique Madern, Hervé Philippe.

Les rapporteurs étaient Nicolas Galtier, Olivier Gascuel.


  • Résumé

    La reconstruction et la résurrection moléculaire de protéines ancestrales est au coeur de cette thèse. Alors que les données moléculaires fossiles sont quasi inexistantes, il est possible d'estimer quelles étaient les séquences ancestrales les plus probables le long d'un arbre phylogénétique décrivant les relations de parentés entre séquences actuelles. Avoir accès à ces séquences ancestrales permet alors de tester de nombreuses hypothèses biologiques, de la fonction des protéines ancestrales à l'adaptation des organismes à leur environnement. Cependant, ces inférences probabilistes de séquences ancestrales sont dépendantes de modèles de substitution fournissant les probabilités de changements entre acides aminés. Ces dernières années ont vu le développement de nouveaux modèles de substitutions d'acides aminés, permettant de mieux prendre en compte les phénomènes biologiques agissant sur l'évolution des séquences protéiques. Classiquement, les modèles supposent que le processus évolutif est à la fois le même pour tous les sites d'un alignement protéique et qu'il est resté constant au cours du temps lors de l'évolution des lignées. On parle alors de modèle homogène en temps et en sites. Les modèles récents, dits hétérogènes, ont alors permis de lever ces contraintes en permettant aux sites et/ou aux lignées d'évoluer selon différents processus. Durant cette thèse, de nouveaux modèles hétérogènes en temps et sites ont été développés en Maximum de Vraisemblance. Il a notamment été montré qu'ils permettent d'améliorer considérablement l'ajustement aux données et donc de mieux prendre en compte les phénomènes régissant l'évolution des séquences protéiques afin d'estimer de meilleurs séquences ancestrales. A l'aide de ces modèles et de reconstruction ou résurrection de protéines ancestrales en laboratoire, il a été montré que l'adaptation à la température est un déterminant majeur de la variation des taux évolutifs entre lignées d'Archées. De même, en appliquant ces modèles hétérogènes le long de l'arbre universel du vivant, il a été possible de mieux comprendre la nature du signal évolutif informant de manière non-parcimonieuse un ancêtre universel vivant à plus basse température que ses deux descendants, à savoir les ancêtres bactériens et archéens. Enfin, il a été montré que l'utilisation de tels modèles pouvait permettre d'améliorer la fonctionnalité des protéines ancestrales ressuscitées en laboratoire, ouvrant la voie à une meilleure compréhension des mécanismes évolutifs agissant sur les séquences biologiques

  • Titre traduit

    Resurrecting the past through heterogeneous models of protein sequence evolution


  • Résumé

    The molecular reconstruction and resurrection of ancestral proteins is the major issue tackled in this thesis manuscript. While fossil molecular data are almost nonexistent, phylogenetic methods allow to estimate what were the most likely ancestral protein sequences along a phylogenetic tree describing the relationships between extant sequences. With these ancestral sequences, several biological hypotheses can be tested, from the evolution of protein function to the inference of ancient environments in which the ancestors were adatapted. These probabilistic estimations of ancestral sequences depend on substitution models giving the different probabilities of substitution between all pairs of amino acids. Classicaly, substitution models assume in a simplistic way that the evolutionary process remains homogeneous (constant) among sites of the multiple sequence alignment or between lineages. During the last decade, several methodological improvements were realised, with the description of substitution models allowing to account for the heterogeneity of the process among sites and in time. During my thesis, I developed new heterogeneous substitution models in Maximum Likelihood that were proved to better fit the data than any other homogeneous or heterogeneous models. I also demonstrated their better performance regarding the accuracy of ancestral sequence reconstruction. With the use of these models to reconstruct or resurrect ancestral proteins, my coworkers and I showed the adapation to temperature is a major determinant of evolutionary rates in Archaea. Furthermore, we also deciphed the nature of the phylogenetic signal informing substitution models to infer a non-parsimonious scenario for the adaptation to temperature during early Life on Earth, with a non-hyperthermophilic last universal common ancestor living at lower temperatures than its two descendants. Finally, we showed that the use of heterogeneous models allow to improve the functionality of resurrected proteins, opening the way to a better understanding of evolutionary mechanisms acting on biological sequences


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.