Méthodes de deep learning pour la prédiction des ARNs longs non-codants. Application au cancer
Auteur / Autrice : | Loïc Omnes |
Direction : | Fariza Tahi |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/02/2022 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
Partenaire(s) de recherche : | Laboratoire : IBISC - Informatique, BioInformatique, Systèmes Complexes |
Equipe de recherche : AROBAS : Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique | |
Référent : Université d'Évry Val d'Essonne |
Mots clés
Résumé
Contexte Les ARN, et plus précisément les ARN non-codants (ARNncs, ARN non traduits en protéines), suscitent depuis quelques années un intérêt croissant auprès de la communauté scientifique internationale, de par leur implication avérée dans de nombreux processus biologiques et le rôle important qu'ils peuvent jouer dans des processus pathologiques comme le cancer. Ils sont ainsi de plus en plus considérés comme de potentiels cibles thérapeutiques ou biomarqueurs (marqueurs diagnostiques et pronostiques). Récemment, de nombreux longs ARNncs (ARNlncs), de taille supérieure à 200 nucléotides, ont été identifiés comme de potentiels régulateurs. Mais contrairement aux petits ARNncs, leur caractérisation par leur structure et leur fonction sont loin d'être établies. La détermination de la structure, 2D ou 3D d'un ARNlnc par des méthodes expérimentales (cristallographie, RMN) ou bioinformatiques est un challenge majeur, puisque cela contribue à élucider sa fonction. Les ARN d'une même famille partagent en effet la même structure, leur conférant la même fonction, la structure guidant notamment les interactions de cet ARN avec des protéines ou d'autres ARN. Objectifs Dans ce projet, nous proposons de développer des méthodes computationnelles basées sur du Deep Learning pour prédire et caractériser er les ARNlncs en intégrant différentes sources de données : la séquence, la structure 2D et 3D, l'interaction avec des gènes codants ou non-codants et les altérations génétiques et épigénétiques. Le développement de méthodes pour prédire la structure 3D des ARN, telles que celles développées par DeepMind (la filiale IA de Google), pourra également être envisagé. Les méthodes développées seront appliquées au cancer et permettront de mieux comprendre l'implication des ARN dans cette pathologie. Un cancer dans un tissu donné est une maladie hétérogène ; plusieurs sous-types de cancers peuvent être identifiés. Les traitements et le diagnostic doivent être adaptés à chaque sous-type. Dans ce projet, nous nous intéresserons aux ARNlncs dans un cancer fréquent, le cancer de vessie (4ème cancer en termes d'incidence chez l'homme) ainsi que dans un cancer pédiatrique, le rétinoblastome. Un petit nombre d'ARNlncs prédits comme potentiellement impliqués seront validés fonctionnellement par l'équipe de biologistes. Nous espérons in fine pouvoir proposer aux cliniciens de nouveaux marqueurs diagnostiques ou pronostiques et leur permettre de mieux comprendre les causes biologiques de la maladie afin d'optimiser les traitements. L'objectif final du projet sera de mettre en uvre des méthodes et des outils génériques pour la prédiction des ARNlncs. Les outils développés seront mis à disposition de la communauté scientifique via notre plateforme EvryRNA : http://EvryRNA.ibisc.univ-evry.