Recherche arborescente Monte Carlo et évolution artificielle pour l'identification de paramètres dynamiques dans les réseaux de régulation génétiques hybrides
Auteur / Autrice : | Romain Michelucci |
Direction : | Jean-paul Comet |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/10/2021 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication |
Partenaire(s) de recherche : | Laboratoire : I3S - Informatique, Signaux et Systèmes de Sophia-Antipolis |
Résumé
Un réseau de régulation des gènes, modélisé sous forme de graphe, définit les interactions statiques entre les gènes et le point clé de l'activité de modélisation reste l'identification des nombreux paramètres qui régissent la dynamique associée. R. Thomas a proposé un cadre de modélisation discret, qui a été transformé en un cadre hybride capable de prendre en compte les aspects temporels qui jouent un rôle crucial dans une majorité de réponses de l'organisme humain. Néanmoins, le problème principal reste la détermination de valeurs précises pour tous les nombreux paramètres. Pour répondre à cette question, nous avons développé un ''calcul de précondition la plus faible'' inspiré de la logique de Hoare (initialement dédiée aux programmes impératifs) qui conduit à des contraintes sur les paramètres. Malheureusement, les solveurs de contraintes classiques ne sont pas capables d'extraire des solutions. Pour surmonter ce problème, nous envisageons d'utiliser des techniques d'Intelligence Artificielle (IA). Dans une première approche, nous considérons ce problème comme un problème d'optimisation à grande échelle en introduisant une distance entre les traces du modèle paramétré et les observations expérimentales. Cette distance étant continue mais non différentiable, des méta-heuristiques bio-inspirées seront considérées car elles sont très compétitives. Une alternative consiste à considérer le problème comme un problème de décision séquentielle, et de l'aborder avec l'apprentissage par renforcement. Cette technique se concentre sur la façon dont certains agents logiciels devraient entreprendre des actions dans un environnement afin de maximiser une certaine notion de récompense cumulative. Ainsi, l'apprentissage par renforcement est particulièrement bien adapté aux problèmes qui incluent un compromis entre récompense à long terme et récompense à court terme. Ici, la récompense est déduite de la mesure de proximité entre les traces temporelles du modèle actuel et les traces observées expérimentalement. L'une des techniques les plus connues de l'apprentissage par renforcement est la recherche arborescente de Monte Carlo (utilisée pour battre le champion du monde de Go) qui utilise une politique d'équilibre entre exploration et exploitation lors de la sélection de l'état le plus ''intéressant'' dans l'espace de recherche. La limite supérieure de confiance est l'une de ces politiques, mais il en existe de nombreuses autres variantes. Le choix de l'une d'entre elles génère un arbre de recherche différent, permettant de choisir un chemin sous-optimal. La tendance actuelle est d'optimiser à la volée, pendant la simulation, la politique basée sur le calcul bio-inspiré. Impact scientifique : La chronothérapie est devenue un domaine de recherche plein d'espoir, et il devient crucial de développer des cadres capables de gérer à la fois la dynamique qualitative et les aspects temporels associés. L'équipe a souligné depuis plusieurs années le potentiel des méthodes formelles pour l'étude de différents modèles (horloge circadienne, régulation du métabolisme et cycle cellulaire). L'intégration de ces trois modèles dans le cadre du temps continu, serait d'une grande aide pour déchiffrer les principales causalités qui pourraient expliquer l'impact du temps d'administration quotidien des médicaments sur l'efficacité. Pour plus d'informations, cliquez sur le lien suivant : https://www.i3s.unice.fr/~comet/THESES/2021-2022_hybrid+evol.pdf