Thèse soutenue

Méthodes particulaires et vraisemblances pour l'inférence de modèles d'évolution avec dépendance au contexte

FR  |  
EN
Auteur / Autrice : Alexis Huet
Direction : Anne-Laure FougèresJean Bérard
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 27/06/2014
Etablissement(s) : Lyon 1
Ecole(s) doctorale(s) : École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche : Laboratoire : Institut Camille Jordan (Rhône ; 2005-....) - Institut Camille Jordan
Jury : Président / Présidente : Didier Piau
Examinateurs / Examinatrices : Michaël Blum, Nicolas Lartillot
Rapporteur / Rapporteuse : Catherine Matias, Éric Moulines

Résumé

FR  |  
EN

Cette thèse est consacrée à l'inférence de modèles stochastiques d'évolution de l'ADN avec dépendance au contexte, l'étude portant spécifiquement sur la classe de modèles stochastiques RN95+YpR. Cette classe de modèles repose sur un renforcement des taux d'occurrence de certaines substitutions en fonction du contexte local, ce qui introduit des phénomènes de dépendance dans l'évolution des différents sites de la séquence d'ADN. Du fait de cette dépendance, le calcul direct de la vraisemblance des séquences observées met en jeu des matrices de dimensions importantes, et est en général impraticable. Au moyen d'encodages spécifiques à la classe RN95+YpR, nous mettons en évidence de nouvelles structures de dépendance spatiales pour ces modèles, qui sont associées à l'évolution des séquences d'ADN sur toute leur histoire évolutive. Ceci rend notamment possible l'utilisation de méthodes numériques particulaires, développées dans le cadre des modèles de Markov cachés, afin d'obtenir des approximations consistantes de la vraisemblance recherchée. Un autre type d'approximation de la vraisemblance, basé sur des vraisemblances composites, est également introduit. Ces méthodes d'approximation de la vraisemblance sont implémentées au moyen d'un code en C++. Elles sont mises en œuvre sur des données simulées afin d'étudier empiriquement certaines de leurs propriétés, et sur des données génomiques, notamment à des fins de comparaison de modèles d'évolution