Thèse soutenue

Inférence d’histoires démographiques de populations structurées et application à l’évolution humaine.

FR  |  
EN
Auteur / Autrice : Armando Arredondo Soto
Direction : Lounès ChikhiOlivier Mazet
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Applications
Date : Soutenance le 07/12/2021
Etablissement(s) : Toulouse, INSA
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : IMT : Institut de Mathématiques de Toulouse - Institut de Mathématiques de Toulouse UMR5219 / IMT
Jury : Président / Présidente : Beatrice Laurent-Bonneau
Examinateurs / Examinatrices : Lounès Chikhi, Olivier Mazet, Asger Hobolth, Guillaume Achaz, Hilde Wilkinson-Herbots
Rapporteurs / Rapporteuses : Asger Hobolth, Guillaume Achaz

Résumé

FR  |  
EN

Déduire l'histoire démographique des espèces est l'un des plus grands défis de la génétique des populations. Cette histoire est souvent représentée comme une histoire de changements de taille, ignorant la structure de la population. Alternativement, lorsque la structure est supposée, elle est définie a priori comme un arbre de population et non inférée. Cette thèse vise à apporter des méthodes et des outils pour reconstruire l'histoire démographique de populations qui ont été structurées en un nombre inconnu de sous-populations pendant de longues périodes de temps.Nous présentons deux approches de l'inférence démographique en présence de structure. La première est basée sur l'IICR (Inverse Instantaneous Coalescence Rate) qui est une fonction du modèle démographique et du schéma d'échantillonnage, et qui peut être estimée pour un seul individu diploïde. La méthode proposée ajuste les courbes IICR observées avec les courbes IICR exactes obtenues dans le cadre de modèles d'îles symétriques stationnaires par morceaux, et déduit le nombre d'îles, leur taille commune et l'importance du flux génétique à différentes périodes de temps. Notre application à un ensemble de cinq PSMCs humains a donné des histoires démographiques qui sont en accord avec des études précédentes suggérant une structure humaine ancienne.La seconde approche suppose des échantillons génétiques multiples, et est centrée sur l'utilisation du SFS (Site Frequency Spectrum) comme statistique sommaire pour l'inférence démographique. Nous nous concentrons sur le calcul efficace du SFS exact attendu dans le cadre d'un modèle général de structure de population, et nous montrons que, pour des tailles d'échantillon allant jusqu'à 26 haploïdes, il est possible d'obtenir une bonne précision numérique et de bonnes performances dans les modèles d'îles symétriques en exploitant le modèle de sparsité de la matrice de transition pour le processus de Markov associé.