Etude fonctionnelle d'un centre d'interactions protéiques chez Bacillus subtilis par une approche intégrée
Auteur / Autrice : | Elodie Sylviane Germaine Marchadier |
Direction : | Philippe Noirot, Vincent Fromion |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences biologiques |
Date : | Soutenance en 2009 |
Etablissement(s) : | Paris 11 |
Partenaire(s) de recherche : | Autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Le protéome qui est l’ensemble des protéines exprimées par un génome, est organisé en réseaux structurés d’interactions protéiques : l’interactome. Dans ces réseaux d’interactions, la plupart des protéines ont un petit nombre d’interactions alors que quelques protéines, appelées centres d’interactions ou hubs, ont un grand nombre de connexions. Cette thèse s’est concentrée sur une question biologique importante : comprendre la fonction biologique d’un cluster de hubs (CoH), découvert chez Bacillus subtilis, et qui se situe à l’interface de plusieurs processus cellulaires essentiels : la réplication de l’ADN, la division cellulaire, la ségrégation des chromosomes, la réponse au stress et la biogenèse de la paroi bactérienne. Les partenaires des protéines du cluster de hub ont tout d’abord été identifiés par la technique du double-hybride en levure, ce qui a permis de le définir de façon rigoureuse au sein d’un réseau composé de 287 protéines connectées par 787 interactions spécifiques. Ce réseau place de nombreuses protéines dans un contexte nouveau, facilitant ainsi l’analyse fonctionnelle des protéines individuelles et des liens entre les grands processus cellulaires. Après avoir réalisé une analyse du contexte génomique des gènes codant pour les protéines du CoH, une démarche de biologie intégrative a été amorcée en analysant des données transcriptomiques hétérogènes disponibles dans des bases de données publiques. L'analyse statistique de ces données a permis d’identifier des groupes de gènes co-régulés avec les gènes du CoH. En première approche, l’analyse des corrélations entre l’expression des gènes à travers diverses conditions a été menée sur la base de l’utilisation classique de la statistique telle que la classification non supervisée. Cette première analyse, nous a permis d'associer certains gènes du hub à des groupes fonctionnels, de valider et d'identifier des régulons. Elle nous a aussi permis de mettre en évidence les limites d’une telle approche et la nécessité de recourir à des méthodes permettant d’identifier les conditions dans lesquelles les gènes sont co-régulés. A cette fin, nous avons (i) généré des données transcriptomiques visant à favoriser l’expression différentielle des gènes codant pour les protéines du CoH et (ii) utilisé des méthodes de bi-clustering, qui permettent d’identifier des groupes de gènes co-exprimés dans un ensemble significatif de conditions. Ceci nous a conduit à identifier des associations d’expression spécifiques de certaines conditions parmi les gènes du CoH. Il nous a donc été possible de combiner deux approches : l'étude du transcriptome et celle de l'interactome, l'une comme l'autre ont été menées de façon systématique à l'échelle du génome complet. L'intégration de ces deux types de données nous permet d'éclairer le contexte fonctionnel de certains gènes de notre étude et d'émettre des hypothèses quant à la nature des interactions entre protéines du cluster de hub. Celui-ci apparaît finalement composé de quelques groupes de protéines co-exprimées (party hubs) capables d’interagir entre eux et avec les autres protéines du CoH exprimées de façon non corrélée (date hubs). Le CoH pourrait donc former un vaste groupe de date hubs dont la fonction pourrait être d’assurer la connexion entre processus cellulaires essentiels quelque soient les conditions environnementales auxquelles B. Subtilis pourrait être exposé. La génération et le traitement d'un tel jeu de données répond à des enjeux scientifiques majeurs, nécessitant la mobilisation des compétences, des connaissances, et des outils pour accéder à une compréhension plus globale du fonctionnement des organismes vivants. Le jeu de données constitué peut être utilisé pour mettre en œuvre d’autres méthodes statistiques ou informatiques. Tout cela nous permettra de disposer de méthodes permettant in fine d’extraire des informations de grands jeux de données en cours de production, ce qui constitue un enjeu majeur de la biologie intégrative.