Thèse soutenue

Recherche automatisée de motifs dans les arbres phylogénétiques
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Thomas Bigot
Direction : Guy Perrière
Type : Thèse de doctorat
Discipline(s) : Bioinformatique
Date : Soutenance le 05/06/2013
Etablissement(s) : Lyon 1
Ecole(s) doctorale(s) : École Doctorale Evolution Ecosystèmes Microbiologie Modélisation
Partenaire(s) de recherche : Laboratoire : Laboratoire de Biométrie et Biologie Evolutive
Jury : Président / Présidente : Céline Brochier-Armanet
Examinateurs / Examinatrices : Claudine Médigue, Claude Thermes
Rapporteurs / Rapporteuses : Emmanuel Douzery, Simonetta Gribaldo

Résumé

FR  |  
EN

La phylogénie permet de reconstituer l'histoire évolutive de séquences ainsi que des espèces qui les portent. Les récents progrès des méthodes de séquençage ont permis une inflation du nombre de séquences disponibles et donc du nombre d'arbres de gènes qu'il est possible de construire. La question qui se pose est alors d'optimiser la recherche d'informations dans ces arbres. Cette recherche doit être à la fois exhaustive et efficace. Pour ce faire, mon travail de thèse a consisté en l'écriture puis en l'utilisation d'un ensemble de programmes capables de parcourir et d'annoter les arbres phylogénétiques. Cet ensemble de programmes porte le nom de TPMS (Tree Pattern Matching Suite). Le premier de ces programmes (tpms_query) permet d'effectuer l'interrogation de collections à l'aide d'un formalisme dédie. Les possibilités qu'il offre sont : La détection de transferts horizontaux : Si un arbre de gènes présente une espèce branchée dans un arbre au milieu d'un groupe monophylétique d'espèces avec lesquelles elle n'est pas apparentée, on peut supposer qu'il s'agit d'un transfert horizontal, si ces organismes sont des procaryotes ou des eucaryotes unicellulaires. La détection d'orthologie : Si une partie d'un arbre de gènes correspond exactement à l'arbre des espèces, on peut alors supposer que ces gènes sont un ensemble de gènes d'orthologues. La validation de phylogénies connues : Quand l'arbre des espèces donne lieu à des débats, il peut est possible d'interroger une large collection d'arbres de gènes pour voir combien de familles de gènes correspondent à chaque hypothèse. Un autre programme, tpms_computations, permet d'effectuer des opérations en parallèle sur tous les arbres, et propose notamment l'enracinement automatique des arbres via différents critères, ainsi que l'extraction de sous arbres d'orthologues (séquence unique par espèce). Il propose aussi une méthode de détection automatique d'incongruences. La thèse présente le contexte, les différents algorithmes à la base de ces programmes, ainsi que plusieurs utilisations qui en ont été faites