Thèse soutenue

Comprendre et améliorer les modèles statistiques de séquences de protéines

FR  |  
EN
Auteur / Autrice : Pierre Barrat-Charlaix
Direction : Martin Weigt
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/11/2018
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : Biologie computationnelle et quantitative (Paris ; 2011-....)
Jury : Président / Présidente : Aleksandra Walczak
Examinateurs / Examinatrices : Guillaume Achaz
Rapporteurs / Rapporteuses : Clément Nizak, Alessandro Laio

Résumé

FR  |  
EN

Dans les dernières décennies, les progrès des techniques expérimentales ont permis une augmentation considérable du nombre de séquences d'ADN et de protéines connues. Cela a incité au développement de méthodes statistiques variées visant à tirer parti de cette quantité massive de données. Les méthodes dites co-évolutives en font partie, utilisant des idées de physique statistique pour construire un modèle global de la variabilité des séquences de protéines. Ces méthodes se sont montrées très efficaces pour extraire des informations pertinentes des seules séquences, comme des contacts structurels ou les effets mutationnels. Alors que les modèles co-évolutifs sont pour l'instant utilisés comme outils prédictifs, leur succès plaide pour une meilleure compréhension de leur fonctionnement. Dans cette thèse, nous proposons des élaborations sur les méthodes déjà existantes tout en questionnant leur fonctionnement. Nous étudions premièrement sur la capacité de l'Analyse en Couplages Directs (DCA) à reproduire les motifs statistiques rencontrés dans les séquences des familles de protéines. La possibilité d'inclure d'autres types d'information comme des effets mutationnels dans cette méthode est présentée, suivie de corrections potentielles des biais phylogénétiques présents dans les données utilisées. Finalement, des considérations sur les limites des modèles co-évolutifs actuels sont développées, de même que des suggestions pour les surmonter.