Thèse soutenue

Prédiction de liens dans les réseaux bipartis multicouche, avec une application à la prédiction d’interaction médicament-cible thérapeutique

FR  |  
EN
Auteur / Autrice : Maksim Koptelov
Direction : Bruno CrémilleuxLina Fatima Soualmia
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 30/09/2020
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Laboratoire : Groupe de recherche en informatique, image, automatique et instrumentation de Caen (1995-....)
établissement de préparation : Université de Caen Normandie (1971-....)
Jury : Président / Présidente : Céline Rouveirol
Examinateurs / Examinatrices : Bruno Crémilleux, Lina Fatima Soualmia, Tijl De Bie, Christel Vrain, Erwin Bakker, Albrecht Zimmermann
Rapporteur / Rapporteuse : Tijl De Bie, Christel Vrain

Résumé

FR  |  
EN

De nombreux problèmes réels relèvent d’une structure bi-relationnelle et peuvent être modélisés suivant des réseaux bipartis. Une telle modélisation permet l'utilisation de solutions standards pour la prédiction et/ou la recommandation de nouvelles relations entre objets de ces réseaux. La tâche de prédiction de liens est un problème largement étudié dans les réseaux simples, c’est-à-dire les réseaux avec un seul type d'interaction entre sommets. Cependant, pour les réseaux multicouche (i.e. réseaux avec plusieurs types d'arêtes entre sommets), ce problème n'est pas encore entièrement résolu.Cette thèse est motivée par l'importance d'une tâche réelle, à savoir la prédiction d'interaction entre un médicament et une cible thérapeutique. La recherche de candidats médicaments prometteurs pour une cible thérapeutique biologique donnée est une partie essentielle de la conception d’un médicament moderne. Dans cette thèse, nous modélisons ce problème comme une tâche de prédiction de lien dans un réseau multicouche biparti. Cette modélisation du problème permet de rassembler différentes sources d'information en une seule structure et ainsi d'améliorer la qualité de la prédiction d’un lien.Cette thèse se concentre sur le problème de la prédiction de liens dans les réseaux multicouches bipartis et apporte deux contributions principales à ce sujet. La première contribution est une solution pour résoudre la prédiction de liens sans limiter le nombre et le type de réseaux, ce qui est le principal défaut des méthodes de l'état de l'art. L'algorithme que nous avons développé modélise une marche aléatoire à la manière du PageRank et est capable de prédire de nouvelles interactions dans le réseau que nous construisons à partir de différentes sources d'information. La deuxième contribution, qui porte aussi sur ce problème, s’appuie sur les méthodes de détection de communautés. Cette solution, moins immédiate et plus dépendante du choix des valeurs des paramètres, donne de meilleurs résultats. Pour cela, nous adaptons des mesures utilisées pour la détection de communautés à la problématique de la prédiction de liens dans les réseaux multicouche bipartis et nous développons de nouvelles méthodes associant des communautés pour la prédiction de liens. Nous évaluons aussi nos méthodes sur des données autres que celles des interactions entre médicaments et cibles thérapeutiques montrant ainsi le caractère générique de notre approche.D’autre part, nous proposons un protocole expérimental de validation des interactions prédites reposant sur l’exploitation de ressources externes. Fondé sur une collection de concepts biomédicaux utilisés comme source de connaissances, ce protocole effectue une validation des paires de médicaments-cibles thérapeutiques qui sont prédites à partir de scores de confiance que nous avons définis. Une évaluation des interactions prédites sur des données tests montre l'efficacité de ce protocole.Enfin, nous nous intéressons au problème de l'identification et de la caractérisation de composés promiscues qui existe dans le processus de développement de médicaments. Nous modélisons ce problème comme une tâche de classification et le résolvons par l'apprentissage automatique. Notre contribution repose sur une approche d'exploration de graphes et d'échantillonnage. De plus, nous avons développé une interface graphique pour fournir un retour d'information aux experts sur les résultats.