Thèse soutenue

Modélisation et score de complexes protéine-ARN

FR  |  
EN
Auteur / Autrice : Adrien Guilhot-Gaudeffroy
Direction : Christine Froidevaux
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/09/2014
Etablissement(s) : Paris 11
Ecole(s) doctorale(s) : Ecole doctorale Informatique de Paris-Sud
Partenaire(s) de recherche : Laboratoire : Laboratoire de recherche en informatique (Orsay, Essonne ; 1998-2020) - Laboratoire de Recherche en Informatique
Jury : Examinateurs / Examinatrices : Anne Poupon, Céline Rouveirol, Jérôme Azé, Julie Bernauer, Philippe Dague, Béatrice Duval
Rapporteur / Rapporteuse : Anne Poupon, Céline Rouveirol

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse présente des résultats dans le domaine de la prédiction d’interactions protéine-ARN. C’est un domaine de recherche très actif, pour lequel la communauté internationale organise régulièrement des compétitions pour évaluer différentes techniques de prédictions in silico d’interactions protéine-protéine et protéine-ARN sur des données benchmarks (CAPRI, Critical Assessment of PRedictedInteractions), par prédiction en aveugle et en temps limité. Dans ce cadre, de nombreuses approches reposant sur des techniques d’apprentissage supervisé ont récemment obtenus de très bons résultats.Nos travaux s’inscrivent dans cette démarche.Nous avons travaillé sur des jeux de données de 120 complexes protéine-ARN extraits de la PRIDB non redondante (Protein-RNA Interface DataBase, banque de données de référence pour les interactions protéine-ARN). La méthodologie de prédiction d'interactions protéine-ARN a aussi été testée sur 40 complexes issus de benchmarks de l'état de l'art et indépendants des complexes de la PRIDB non redondante. Le faible nombre de structures natives et la difficulté de générer in silico des structures identiques à la solution in vivo nous a conduit à mettre en place une stratégie de génération de candidats par perturbation de l’ARN partenaire d’un complexe protéine-ARN natif. Les candidats ainsi obtenus sont considérés comme des conformations presque-natives si elles sont suffisamment proches du natif. Les autres candidats sont des leurres. L’objectif est de pouvoir identifier les presque natifs parmi l’ensemble des candidats potentiels, par apprentissage supervisé d'une fonction de score.Nous avons conçu pour l'évaluation des fonctions de score une méthodologie de validation croisée originale appelée le leave-''one-pdb''-out, où il existe autant de strates que de complexes protéine-ARN et où chaque strate est constituée des candidats générés à partir d'un complexe. L’une des approches présentant les meilleures performances à CAPRI est l’approche RosettaDock, optimisée pour la prédiction d’interactions protéine-protéine. Nous avons étendu la fonction de score native de RosettaDock pour résoudre la problématique protéine-ARN. Pour l'apprentissage de cette fonction de score, nous avons adapté l'algorithme évolutionnaire ROGER (ROC-based Genetic LearnER) à l'apprentissage d'une fonction logistique. Le gain obtenu par rapport à la fonction native est significatif.Nous avons aussi mis au point d'autres modèles basés sur des approches de classifieurs et de métaclassifieurs, qui montrent que des améliorations sont encore possibles.Dans un second temps, nous avons introduit et mis en oeuvre une nouvelle stratégie pour l’évaluation des candidats qui repose sur la notion de prédiction multi-échelle. Un candidat est représenté à la fois au niveau atomique, c'est-à-dire le niveau de représentation le plus détaillé, et au niveau dit “gros-grain”où nous utilisons une représentation géométrique basée sur des diagrammes de Voronoï pour regrouper ensemble plusieurs composants de la protéine ou de l’ARN. L'état de l'art montre que les diagrammes de Voronoï ont déjà permis d'obtenir de bons résultats pour la prédiction d'interactions protéine-protéine. Nous en évaluons donc les performances après avoir adapté le modèle à la prédiction d'interactions protéine-ARN. L’objectif est de pouvoir rapidement identifier la zone d’interaction (épitope) entre la protéine et l’ARN avant d’utiliser l’approche atomique, plus précise,mais plus coûteuse en temps de calcul. L’une des difficultés est alors de pouvoir générer des candidats suffisamment diversifiés. Les résultats obtenus sont prometteurs et ouvrent desperspectives intéressantes. Une réduction du nombre de paramètres impliqués de même qu'une adaptation du modèle de solvant explicite pourraient en améliorer les résultats.