Thèse soutenue

Méthodes de découverte de nouveaux domaines dans les séquences biologiques : application à Plasmodium falciparum

FR  |  
EN
Auteur / Autrice : Christophe Menichelli
Direction : Olivier GascuelLaurent Bréhélin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 26/11/2019
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)
Jury : Président / Présidente : Sophie Schbath
Examinateurs / Examinatrices : Olivier Gascuel, Laurent Bréhélin, Sophie Schbath, Cedric Notredame, Jacques Van Helden, Isabelle Florent, Annie Chateau
Rapporteurs / Rapporteuses : Cedric Notredame, Jacques Van Helden

Résumé

FR  |  
EN

Identifier les différentes parties d’une séquence biologique (séquence nucléique, ou séquence d’acides aminés) constitue un premier pas vers la compréhension de la biologie de l’organisme dont elle est issue. Étant donné un ensemble de séquences biologiques d’un organisme, nous nous intéressons dans cette thèse à la découverte de «domaines», c-à-d de sous-séquences relativement grandes (plusieurs dizaines de nucléotides ou d’acides aminés) que l’on retrouve dans un nombre important de séquences. Cette thèse est décomposée en deux axes correspondant à la découverte de domaines dans les séquences protéiques et dans les séquences nucléiques. Dans chaque axe, les méthodes développées sont appliquées à Plasmodium falciparum, le pathogène responsable du paludisme chez l’Homme, et pour lequel les méthodes bio-informatiques classiques peinent à produire des annotations satisfaisantes. Le premier axe développé porte sur la découverte de domaines dans les séquences protéiques. Une approche commune pour identifier les domaines d’une protéine consiste à exécuter des comparaisons de paires de séquences avec des outils d’alignements locaux comme BLAST. Cependant, ces approches manquent parfois de sensibilité, en particulier pour les espèces phylogénétiquement éloignées des organismes de référence classiques. Nous proposons ici une approche pour augmenter la sensibilité des comparaisons de paires de séquences. Cette nouvelle approche utilise le fait que les domaines protéiques ont tendance à apparaître avec un nombre limité d’autres domaines sur une même protéine. Chez Plasmodium falciparum, cette méthode permet la découverte de 2 240 nouveaux domaines pour lesquels, dans la majorité des cas, il n’existe pas de modèle semblable dans les bases de données de domaines. Le deuxième axe développé porte sur la découverte de domaines dans les séquences régulatrices (séquences ADN). Plusieurs études ont montré qu’il existe un lien fort entre la composition nucléotidique de régions particulières (séquences promotrices notamment) et l’expression des gènes. Nous proposons ici une nouvelle approche permettant de découvrir de manière automatique ces régions, que l’on nomme domaines de régulation. Plus précisément notre approche est basée sur une stratégie d’exploration itérative des compositions nucléotidiques, des plus simples (dinucléotides) aux plus complexes (k-mers), ainsi qu’une stratégie de segmentation supervisée pour découvrir les compositions et les régions d’intérêt. En utilisant les domaines ainsi identifiés, nous montrons que l’on peut prédire l’expression des gènes de Plasmodium falciparum avec une étonnante précision. Appliquée à différentes autres espèces eucaryotes, cette approche montre des résultats très différents suivant les espèces (entre 40 et 70 % de corrélation) ce qui laisse entrevoir un mécanisme de régulation sans doute partagé par toutes les espèces eucaryotes mais dont l’importance varie d’une espèce à l’autre.