Thèse soutenue

Datations dans les arbres de gènes : spéciations, duplications, pertes

FR  |  
EN
Auteur / Autrice : Guillaume Louvel
Direction : Hugues Roest Crollius
Type : Thèse de doctorat
Discipline(s) : Génétique et génomique
Date : Soutenance le 07/09/2020
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Complexité du vivant (Paris)
Partenaire(s) de recherche : Laboratoire : Institut de biologie de l'École normale supérieure (Paris ; 2010-....)
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Guillaume Achaz
Examinateurs / Examinatrices : Hugues Roest Crollius, Guillaume Achaz, Julien Dutheil, Bastien Boussau, Maria Anisimova, Ingrid Lafontaine
Rapporteurs / Rapporteuses : Julien Dutheil, Bastien Boussau

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Ma thèse applique le concept d’horloge moléculaire à l’échelle de l’arbre de gène. L’arbre de gène ne se décalque pas exactement sur celui des espèces, car le nombre de copies fonctionnelles dans un même génome varie, soit par duplication sur un nouveau locus, soit par perte (pseudogénéisation ou délétion). Ces événements fréquents de duplication et perte sont cruciaux pour l’adaptation des organismes, en leur fournissant une grande plasticité génétique. Pour cette raison, j’ai travaillé sur l’ensemble des arbres de gènes d’une vingtaine d’espèces de primates, avec pour objectif de dater les duplications. Par contraste avec la concaténation de plusieurs alignements, l’utilisation d’une seule famille génique impose une limite sur la puissance statistique. C’est ce que nous quantifions dans un premier temps, en effectuant un contrôle comparant les datations des spéciations dans les arbres de gènes avec les âges de référence des taxons. Avec ce contrôle, nous sélectionnons une procédure de datation précise, qui optimise la qualité de l’alignement en amont. Nous déterminons la distribution de la précision de datation et l’associons ensuite à diverses caractéristiques mesurables sur les arbres de gènes et les alignements. Notre analyse confirme l’impact de la longueur d’alignement dans la précision, mais aussi de l’hétérogénéité des taux de substitution entre branches, qui est compliquée à accomoder par les modèles d’horloge moléculaire. Concrètement, notre stratégie permet de prédire un niveau de précision sur de nouvelles données, et nous l’appliquons aux datations de duplications. À partir de cette prédiction de confiance sur les datations d’arbres avec duplications, nous sélectionnons le sous-jeu de meilleure qualité pour établir la distribution temporelle des duplications le long des lignées. Outre les dates, nous calculons les taux de duplications et caractérisons leur variation : ils sont en effet inégaux entre arbres de gènes, avec de nombreux arbres sans duplication et une faible proportion d’arbres se dupliquant beaucoup, ce qui peut se modéliser par une loi Gamma. De plus, le taux de duplication varie entre lignées d’organismes. Nous testons la corrélation phylogénétique entre taux de duplication génomique moyen par lignée et diversification de cette lignée. Enfin, des pertes de gènes impliqués dans la latéralisation de l’embryon caractérisent certains taxons de vertébrés. Nous établissons donc par corrélation de nouvelles séquences potentiellement fonctionnelles chez l’humain en criblant les gènes et enhancers montrant des pertes similaires. Ainsi, après avoir évalué les méthodes appropriées pour une inférence fiable, nous avons caractérisé les dynamiques de renouvellement des gènes. Cette étape ouvre la voie pour comprendre l’association entre ces dynamiques génomiques et les dynamiques macroévolutives et l’adaptation ou la diversification des organismes.