Thèse en cours

Méthodes computationnelles basées sur l'apprentissage profond pour la prédiction des structures 3D d'ARN

FR  |  
EN
Auteur / Autrice : Clément Bernard
Direction : Fariza Tahi
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/10/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : IBISC - Informatique, BioInformatique, Systèmes Complexes
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique
Référent : Université d'Évry Val d'Essonne

Résumé

FR  |  
EN

Les ARN sont, comme les protéines, des molécules biologiques jouant des rôles essentiels à divers stades de la vie d'un organisme et impliqués dans diverses maladies. Déterminer leur structure, notamment 3D, est un enjeu essentiel pour mieux comprendre leur fonction. Or il s'agit d'un problème difficile à résoudre, aussi bien par des méthodes expérimentales (cristallographie, RMN) qui sont très coûteuses en temps et en argent, que computationnelles. Très récemment, DeepMind a proposé une méthode, appelée AlphaFold, pour la prédiction de la structure 3D des protéines basée sur du deep learning, qui a révolutionné le domaine, en montrant une efficacité des prédictions très largement au- dessus de l'état de l'art. Dans ce projet, nous proposons de développer des méthodes de deep learning pour prédire la structure 3D des ARN en tenant compte de différentes spécificités de ces molécules (en comparaison aux protéines) : (i) La faible quantité de données disponibles et de structures 3D d'ARN connues ; (ii) la possibilité pour un ARN d'avoir plusieurs conformations 3D possibles (les ARN ne sont pas stables contrairement aux protéines) ; (iii) la taille très variable des séquences d'ARN, allant de quelques nucléotides à plusieurs dizaines de milliers de nucléotides. Nous proposons ici d'utiliser et d'adapter les méthodes récentes de deep learning utilisées en Traitement Automatique des Langues. L'idée est que les séquences d'ARN peuvent être considérées comme des textes exprimant un langage avec une grammaire, ce langage correspondant aux conformations 3D de ces séquences.