Thèse soutenue

Analyse différentielle de données de sondage pour la prédiction des structures d'acides ribonucléiques
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Afaf Saaidi
Direction : Mireille RégnierYann Ponty
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/10/2018
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Interfaces : matériaux, systèmes, usages (Palaiseau, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau, Essonne)
Jury : Président / Présidente : Bruno Sargueil
Examinateurs / Examinatrices : Mireille Régnier, Yann Ponty, Fabrice Leclerc, Ronny Lorenz, Pierre Peterlongo
Rapporteurs / Rapporteuses : Mathieu Giraud, Alain Laederach

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

En bioinformatique structurale, la prédiction de la (des) structure(s) secondaire(s) des acides ribonucléiques (ARNs) constitue une direction de recherche majeure pour comprendre les mécanismes cellulaires. Une approche classique pour la prédiction de la structure postule qu'à l'équilibre thermodynamique, l'ARN adopte plusieurs conformations, caractérisées par leur énergie libre, dans l’ensemble de Boltzmann. Les approches modernes privilégient donc une considération des conformations dominantes. Ces approches voient leur précision limitées par l'imprécision des modèles d'énergie et les restrictions topologiques pesant sur les espaces de conformations.Les données expérimentales peuvent être utilisées pour pallier aux lacunes des méthodes de prédiction. Différents protocoles permettent ainsi la révélation d'informations structurales partielles via une exposition à un réactif chimique/enzymatique, dont l'effet dépend, et est donc révélateur, de la (les) structure(s) adoptée(s). Les données de sondage mono-réactif sont utilisées pour valider et complémenter les modèles d’énergie libre, permettant ainsi d’améliorer la précision des prédictions. En pratique, cependant, les praticiens basent leur modélisation sur des données de sondage produites dans diverses conditions expérimentales, utilisant différents réactifs ou associées à une collection de séquences mutées. Une telle approche intégrative est répandue mais reste manuelle, onéreuse et subjective. Au cours de cette thèse, nous avons développé des méthodes in silico pour une modélisation automatisée de la structure à partir de plusieurs sources de données de sondage.En premier lieu, nous avons établi des pipelines d’analyse automatisés pour l'acquisition de profils de réactivité à partir de données brutes produites à travers une série de protocoles. Nous avons ensuite conçu et implémenté une nouvelle méthode qui permet l'intégration simultanée de plusieurs profils de sondage. Basée sur une combinaison d'échantillonnage de l'ensemble de Boltzmann et de clustering structurel, notre méthode produit des conformations dominantes, stables et compatible avec les données de sondage. En favorisant les structures récurrentes, notre méthode permet d’exploiter la complémentarité entre plusieurs données de sondage. Ses performances dans le cas mono-sondage sont comparables ou meilleures que celles des méthodes prédictives de pointe.Cette méthode a permis de proposer des modèles pour les régions structurées des virus. En collaboration avec des expérimentalistes, nous avons suggéré une structure raffinée de l'IRES du VIH-1 Gag, compatible avec les données de sondage chimiques et enzymatiques, qui nous a permis d’identifier des sites d'interactions putatifs avec le ribosome. Nous avons également modélisé la structure des régions non traduites d'Ebola. Cohérents avec les données de sondage SHAPE et les données de covariation, nos modèles montrent l’existence d'une tige-boucle conservée et stable à l'extrémité 5', une structure typiquement présente dans les génomes viraux pour protéger l'ARN de la dégradation par les nucléases.L’extension de notre méthode pour l’analyse simultanée de variants, appliquée dans un premier temps sur des mutants produits par le protocole Mutate-and-Map et sondés par le DMS, a permis d'enregistrer une amélioration en précision de prédiction. Pour éviter la production systématique de mutants ponctuels et exploiter le protocole récent SHAPEMap, nous avons conçu un protocole expérimental basé sur une mutagenèse non dirigé et le séquençage, où plusieurs ARN mutés sont produits et simultanément sondés. Nous avons traité l’affectation des reads aux mutants de références à l'aide d'une instance de l'algorithme "Expectation-Maximization" dont les résultats préliminaires, sur un échantillon de reads réduit/simulé, ont montré un faible taux d’erreurs d'assignation par rapport à une affectation classique des reads aux séquences d'ARN de référence.