Sciences de l'information pour l'étude des systèmes biologiques (exemple du vieillissement du système immunitaire)
Auteur / Autrice : | Walid Bedhiafi |
Direction : | Amel Benammar Elgaaied, Adrien Six |
Type : | Thèse de doctorat |
Discipline(s) : | Bioinformatique |
Date : | Soutenance le 20/09/2017 |
Etablissement(s) : | Paris 6 en cotutelle avec Université de Tunis El Manar |
Ecole(s) doctorale(s) : | École doctorale Complexité du vivant (Paris ; 2009-....) |
Partenaire(s) de recherche : | Laboratoire : Immunologie, immunopathologie, immunothérapie (Paris ; 2009-....) - Laboratoire de génétique, immunologie et pathologies humaines (Tunis) |
Jury : | Président / Présidente : Frédérique Peronnet |
Examinateurs / Examinatrices : Olivier Dameron, Véronique Thomas-Vaslin | |
Rapporteurs / Rapporteuses : Ahmed Rebai, Amel Borgi |
Mots clés
Mots clés contrôlés
Résumé
Le laboratoire i3 et le laboratoire LGIPH, utilisent des approches à haut débit pour l’étude du système immunitaire et ces disfonctionnements. Des limites ont été observées quant à l’utilisation des approches classiques pour l’annotation des signatures d’expression des gènes. L’objectif principal a été de développer une approche d’annotation pour répondre à ce besoin. L’approche que nous avons développée est une approche basée sur la contextualisation des gènes et de leurs produits puis sur la modélisation des voies biologiques pour la production de bases de connaissances pour l’étude de l’expression des gènes. Nous définissons ici un contexte d’expression des gènes comme suit : population cellulaire+compartiment anatomique+état pathologique. Pour connaitre ces contextes, nous avons opté pour la fouille de la littérature et nous avons développé un package Python, qui permet d’annoter les textes automatiquement en fonction de trois ontologies choisies en fonction de notre définition du contexte. Nous montrons ici que notre package a des performances meilleures que un outil de référence. Nous avons l’avons utilisé pour le criblage d’un corpus sur le vieillissement du système immunitaire dont on présente ici les résultats. Pour la modélisation des voies biologiques nous avons développé en collaboration avec le LIPAH une méthode de modélisation basée sur un algorithme génétique qui permet de combiner les résultats de mesure de la proximité sémantique sur la base des annotations des gènes et les données d’interactions. Nous avons réussis retrouver des réseaux de références avec un taux d’erreur de 0,47.