Thèse soutenue

= Méthodes de superarbres pour la phylogénomique

FR  |  
EN
Auteur / Autrice : Céline Scornavacca
Direction : Olivier Gascuel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2009
Etablissement(s) : Montpellier 2
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)

Mots clés

FR

Résumé

FR  |  
EN

Les relations évolutives entre les espèces peuvent être résumées dans un arbre communément appelé “arbre des espèces”. Ces arbres sont principalement estimés en analysant des “arbres de gènes”, ie, des arbres évolutifs construits par l'analyse d'une famille de gènes. Toutefois, pour des raisons méthodologiques et biologiques, un arbre de gènes peut différer de l'arbre des espèces. Pour estimer ce dernier, les biologistes analysent plusieurs jeux de données à la fois. Cette thèse se focalise sur l'approche “super-arbre” pour combiner les jeux de données, qui consiste à construire des arbres “sources” à partir de données primaires puis à les assembler en un arbre plus grand. Au sein d'une approche “diviser pour régner” dans le but de reconstituer l'Arbre de Vie, il est préférable d'utiliser une méthode conservative afin d'obtenir des arbres fiables. Dans ce contexte, une méthode de super-arbre doit afficher seulement des informations présentes ou induites par les arbres sources (propriété d'induction), et qui n'entrent pas en conflit avec ces derniers ou avec une de leurs combinaisons (propriété de non contradiction). Nous avons défini de manière formelle ces deux propriétés et développé un algorithme permettant de modifier un super-arbre afin qu'il les satisfasse. Nous avons également conçu deux méthodes, PhySIC et PhySIC_IST, qui construisent directement des super-arbres satisfaisant ces deux propriétés. Les événements de duplication aboutissent souvent à la présence de plusieurs copies du même gène dans les génomes. Les arbres de gènes sont donc généralement multi-étiquetés, ie, une seule espèce étiquette plusieurs feuilles. Comme aucune méthode n'existe actuellement pour combiner ces arbres, ils sont ignorés dans un approche super-arbre. Dans cette thèse, nous proposons plusieurs algorithmes permettant d'obtenir, à partir d'un arbre multi-étiqueté, un arbre classique contenant un maximum d'informations de spéciation présentes dans l'arbre initial