Thèse soutenue

Estimation de l’histoire démographique des populations à partir de génomes entièrement séquencés.

FR  |  
EN
Auteur / Autrice : Willy Rodriguez Valcarce
Direction : Olivier MazetLounès Chikhi
Type : Thèse de doctorat
Discipline(s) : Mathématiques Appliquées
Date : Soutenance le 20/06/2016
Etablissement(s) : Toulouse, INSA
Ecole(s) doctorale(s) : Mathématiques Informatique Télécommunications de Toulouse
Partenaire(s) de recherche : Laboratoire : Institut de Mathématiques de Toulouse - Institut de Mathématiques de Toulouse UMR5219 / IMT
Jury : Président / Présidente : Béatrice Laurent-Bonneau
Examinateurs / Examinatrices : Olivier Mazet, Lounès Chikhi, Rasmus Heller
Rapporteurs / Rapporteuses : Mark Beaumont, Olivier Francois

Résumé

FR  |  
EN

Le développement des nouvelles techniques de séquençage élargit l' horizon de la génétique de populations. Une analyse appropriée des données génétiques peut augmenter notre capacité à reconstruire l'histoire des populations. Cette énorme quantité de données disponibles peut aider les chercheurs en biologie et anthropologie à mieux estimer les changements démographiques subis par une population au cours du temps, mais induit aussi de nouveaux défis. Lorsque les modèles sous-jacents sont trop simplistes il existe unrisque très fort d'être amené à des conclusions erronées sur la population étudiée. Il a été montré que certaines caractéristiques présentes dans l'ADN des individus d'une population structurée se trouvent aussi dans l'ADN de ceux qui proviennent d'une population sans structure dont la taille a changé au cours du temps. Par conséquent il peut s'avérer très difficile de déterminer si les changements de taille inférés à partir des données génétiquesont vraiment eu lieu ou s'il s'agit simplement des effets liés à la structure. D'ailleurs la quasi totalité des méthodes pour inférer les changements de taille d'une population au cours du temps sont basées sur des modèles qui négligent la structure.Dans cette thèse, de nouveaux résultats de génétique de populations sont présentés. Premièrement, nous présentons une méthodologie permettant de faire de la sélection de modèle à partir de l'ADN d'un seul individudiploïde. Cette première étude se limite à un modèle simple de population non structurée avec un changement de taille et à un modèle considérant une population de taille constante mais structurée. Cette nouvelle méthode utilise la distribution des temps de coalescence de deux gènes pour identifier le modèle le plus probable et ouvreainsi la voie pour de nouvelles méthodes de sélection de modèles structurés et non structurés, à partir de données génomiques issues d'un seul individu. Deuxièmement, nous montrons, par une ré-interprétation du taux de coalescence que, pour n'importe quel scénario structuré, et plus généralement n'importe quel modèle, il existe toujours un scénario considérant une population panmictique avec une fonction précise de changements de taille dont la distribution des temps de coalescence de deux gènes est identique a celle du scénario structuré. Cela non seulement explique pourquoi les méthodes d'inférence démographique détectent souvent des changements de taille n'ayant peut-être jamais eu lieu, mais permet aussi de prédire les changements de taille qui seront reconstruits lorsque des méthodes basées sur l'hypothèse de panmixie sont appliquées à des données issues de scénarios plus complexes. Finalement, une nouvelle approche basée sur un processus de Markov est développée et permet de caractériser la distribution du temps de coalescence de deux gènes dans une population structurée soumise à des événements démographiques tel que changement de flux de gènes et changements de taille. Une discussion est menée afin de décrire comment cette méthode donne la possibilité de reconstruire l'histoire démographique à partir de données génomiques tout en considérant la structure.