Thèse soutenue

Conduite d'expériences par apprentissage actif pour l'identification de systèmes dynamiques biologiques : application à l'estimation de paramètres d'équations différentielles ordinaires

FR  |  
EN
Auteur / Autrice : Adel Mezine
Direction : Florence d' Alché-BucVéronique Letort
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/10/2016
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université d'Évry-Val-d'Essonne (1991-....)
Laboratoire : Informatique, Biologie Intégrative et Systèmes Complexes (Evry, Essonne)
Jury : Président / Présidente : Jean-Christophe Janodet
Examinateurs / Examinatrices : Nathalie Leblanc - Fournier
Rapporteurs / Rapporteuses : Pierre Geurts, Grégory Batt

Résumé

FR  |  
EN

Ces dernières années, les progrès continuels des techniques de criblage et de séquençage à haut débit ont nourri la biologie des systèmes, ouvrant la voie à l’identification de systèmes dynamiques biologiques tels que des réseaux de régulation génique. Cependant, l’insuffisance et la mauvaise qualité des données expérimentales se traduisent trop souvent par des estimations incertaines des paramètres d’intérêt des systèmes étudiés : ces incertitudes peuvent être levées en produisant de nouvelles données dans des conditions expérimentales variées, ce qui implique un coût potentiellement élevé. Dans cette thèse, nous proposons un nouvel algorithme d’apprentissage actif, destiné à recommander de manière séquentielle les expériences les plus utiles à l’identification de systèmes dynamiques biologiques modélisés par des équations différentielles. Le problème est formulé sous la forme d’un jeu à un joueur : le joueur se voit attribuer un budget dédié aux expérimentations, et un coût spécifique est affecté à chaque expérience ; à chaque tour, il est amené à choisir une, voire plusieurs expériences réalisées sur le système étudié dans le but de maximiser la qualité de l’estimation, une fois le budget épuisé. Notre approche, intitulée « ExperimentalDEsign for Network inference » (EDEN), s’appuie sur la classe d’algorithme UCT (Upper Confidence bounds for Trees search) qui allie la souplesse de la recherche arborescente de Monte-Carlo à l’efficacité des algorithmes de bandits multi-bras pour parcourir l’ensemble des séquences d’expériences possibles en privilégiant surtout celles qui sont les plus prometteuses. EDEN présente le grand avantage d’anticiper les expériences suivantes en sélectionnant à chaque tour des expériences sachant qu’elles seront suivies par un certain nombre d’autres expériences. Illustrée sur deux cas d’étude, le réseau de signalisation JAK/STAT et un des réseaux de régulation génique proposé dans la compétition internationale DREAM7, EDEN, entièrement automatique, obtient de très bonnes performances pour un budget limité et un large choix d’expériences (perturbations, mesures).