Thèse soutenue

Méthodes statistiques pour l'analyse structurale des protéines hautement flexibles

FR  |  
EN
Auteur / Autrice : Javier González Delgado
Direction : Juan CortésPierre Neuvial
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 11/10/2023
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de mathématiques de Toulouse (2007-....) - Laboratoire d'Analyse et d'Architecture des Systèmes (Toulouse ; 1968-....)
Jury : Président / Présidente : Philippe Berthet
Examinateurs / Examinatrices : Juan Cortés, Pierre Neuvial, Philippe Berthet, Yohann de Castro, Élodie Laine, Nathalie Sibille, Pau Bernadó
Rapporteurs / Rapporteuses : Yohann de Castro, Élodie Laine

Résumé

FR  |  
EN

A reconnaissance de la pertinence fonctionnelle des protéines désordonnées a entraîné un changement de paradigme en biologie structurale. Avec les progrès des méthodes de simulation et des modèles génératifs, la communauté scientifique a désormais accès à des ensembles conformationnels à résolution atomique d'un grand nombre de systèmes. Cependant, l'analyse structurale de ces objets ne peut pas être réalisée en utilisant les mêmes techniques que celles employées dans l'étude des protéines rigides ou globulaires. Leur nature intrinsèquement probabiliste exige l'adoption d'une perspective plaçant la statistique comme un prisme fondamental pour comprendre la relation séquence-structure. Dans cette thèse, nous présentons des outils statistiques pour la caractérisation et la comparaison, à la fois à l'échelle locale et globale, d'ensembles de protéines hautement flexibles. La stratégie générale consiste à définir des distributions de probabilité qui capturent avec précision la variabilité structurale des ensembles, puis à utiliser des techniques statistiques avancées pour caractériser et comparer de manière appropriée ces descripteurs. Dans certains cas, l'absence d'outils bien adaptés au problème nous amènera à définir de nouvelles méthodes statistiques qui seront utiles d'un point de vue plus général. La première partie de la thèse se concentre sur l'analyse structurale locale. Dans le chapitre 2, nous démontrons l'interdépendance des influences des acides aminés voisins sur la structure protéique locale. Ensuite, dans le chapitre 3, nous utilisons la théorie du Transport Optimal pour définir des tests d'homogénéité à deux échantillons pour des mesures sur le tore plat bidimensionnel, où sont supportées les distributions de probabilité décrivant la structure locale des protéines. Ces outils sont appliqués dans le chapitre 4 pour évaluer l'effet du codon traduit sur la conformation locale. La deuxième partie du manuscrit aborde l'analyse structurale globale. Dans le chapitre 5, nous présentons WASCO, un outil pour comparer des ensembles de protéines désordonnées basé sur la distance de Wasserstein. Dans le chapitre 6, nous fournissons des garanties statistiques pour des méthodes classiques de regroupement conformationnel couramment utilisées pour caractériser des ensembles. Plus précisément, nous étendons la théorie de l'inférence après regroupement lorsque les observations et les variables présentent des structures de dépendance arbitraires. Enfin, nous concluons en introduisant WARIO dans le chapitre 7, une méthode de caractérisation des ensembles qui généralise les cartes de contact au cadre des protéines flexibles, en incorporant des techniques de regroupement avancées qui dévoilent la variabilité des interactions résidu-résidu. Les méthodes présentées dans cette thèse sont développées avec rigueur mathématique et visent à fournir des garanties statistiques chaque fois que cela est possible. Leur implémentation a été rendue disponible à la communauté sous forme de logiciel open-source, assurant également la reproductibilité des résultats présentés.