Datations dans les arbres de gènes : spéciations, duplications, pertes

par Guillaume Louvel

Thèse de doctorat en Génétique et génomique

Sous la direction de Hugues Roest Crollius.

Thèses en préparation à l'Université Paris sciences et lettres , dans le cadre de École doctorale Complexité du vivant , en partenariat avec Institut de Biologie de l'École Normale Supérieure (laboratoire) et de École normale supérieure (Paris ; 1985-....) (établissement opérateur d'inscription) .


  • Résumé

    Ma thèse applique le concept d'horloge moléculaire à l'échelle de l'arbre de gène. L'arbre de gène ne se décalque pas exactement sur celui des espèces, car le nombre de copies fonctionnelles dans un même génome varie, soit par duplication sur un nouveau locus, soit par perte (pseudogénéisation ou délétion). Ces événements fréquents de duplication et perte sont cruciaux pour l'adaptation des organismes, en leur fournissant une grande plasticité génétique. Pour cette raison, j'ai travaillé sur l'ensemble des arbres de gènes d'une vingtaine d'espèces de primates, avec pour objectif de dater les duplications. Par contraste avec la concaténation de plusieurs alignements, l'utilisation d'une seule famille génique impose une limite sur la puissance statistique. C'est ce que nous quantifions dans un premier temps, en effectuant un contrôle comparant les datations des spéciations dans les arbres de gènes avec les âges de référence des taxons. Avec ce contrôle nous sélectionnons une procédure de datation précise, qui optimise la qualité de l'alignement en amont. Nous déterminons la distribution de la précision de datation et l'associons ensuite à diverses caractéristiques mesurables sur les arbres de gènes et les alignements. Notre analyse confirme l'impact de la longueur d'alignement dans la précision, mais aussi de l'hétérogénéité des taux de substitution entre branches, qui est compliquée à accomoder par les modèles d'horloge moléculaire. Concrètement, notre stratégie permet de prédire un niveau de précision sur de nouvelles données, et nous l'appliquons aux datations de duplications. À partir de cette prédiction de confiance sur les datations d'arbres avec duplications, nous sélectionnons le sous-jeu de meilleure qualité pour établir la distribution temporelle des duplications le long des lignées. Outre les dates, nous calculons les taux de duplications et caractérisons leur variation : ils sont en effet inégaux entre arbres de gènes, avec de nombreux arbres sans duplication et une faible proportion d'arbres se dupliquant beaucoup, ce qui peut se modéliser par une loi Gamma. De plus, le taux de duplication varie entre lignées d'organismes. Nous testons la corrélation phylogénétique entre taux de duplication génomique moyen par lignée, et diversification de cette lignée. Enfin, des pertes de gènes impliqués dans la latéralisation de l'embryon caractérisent certains taxons de vertébrés. Nous établissons donc par corrélation de nouvelles séquences potentiellement fonctionnelles chez l'humain en criblant les gènes et enhancers montrant des pertes similaires. Ainsi, après avoir évalué les méthodes appropriées pour une inférence fiable, nous avons caractérisé les dynamiques de renouvellement des gènes. Cette étape ouvre la voie pour comprendre l'association entre ces dynamiques génomiques et les dynamiques macroévolutives et l'adaptation ou la diversification des organismes.

  • Titre traduit

    Dating within gene trees: speciations, duplications, losses


  • Résumé

    My PhD work applies the molecular clock concept at the scale of the gene tree. A gene tree does not match exactly a species tree, because the number of functional copies in a genome varies, either by duplication to a new locus, or by loss (pseudogenisation or deletion). These events of gain and loss are frequent and crucial to the organismal adaptation, by providing genetic plasticity. Hence I worked on the whole set of gene trees of twenty primate species, and aimed at dating duplications. By contrast with alignment concatenation, the use of a single gene family enforces a limit on statistical power. This is what we first quantify in performing a control comparing the speciation dates in gene trees with reference ages of the taxa. With this control we select an accurate dating procedure, which optimizes upstream the quality of the alignment. We determine the distribution of the dating accuracy and then associate it with various measurable characteristics on the gene trees and alignments. Our analysis confirms the impact of the alignment length in the accuracy, but also of the heterogeneity of the substitution rates between branches, which is complicated to accommodate by molecular clock models. In concrete terms, our strategy allows us to predict a level of accuracy on new data, and we apply it to the duplication dates. From this confidence prediction on dating trees with duplications, we select the best quality subset to establish the temporal distribution of duplications along lineages. In addition to the dates we calculate the duplication rates and characterise their variation: indeed it differs substantially between gene trees, with many trees without duplications and a low proportion of trees that duplicate a lot, which can be modeled by a Gamma law. Moreover, the duplication rate varies between organism lineages. We test the phylogenetic correlation between average genomic duplication rate per lineage, and diversification of this lineage. Finally, the loss of genes involved in the lateralization of the embryo is characteristic of certain vertebrate taxa. We therefore determine by correlation new sequences that are potentially functional in humans, by screening for genes and enhancers showing similar losses. Thus, after evaluating the appropriate methods for reliable inference, we have characterised the dynamics of gene turnover. This paves the way to understanding the association between these genomic dynamics and the adaptation and diversification of organisms.