Thèse en cours

Machine Learning : prise de décision précoce en environnement non-stationnaire

FR  |  
EN
Auteur / Autrice : Aurélien Renault
Direction : Antoine Cornuejols
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 09/10/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : MIA-Paris-Saclay - Mathématiques et Informatique Appliquées
Equipe de recherche : EKINOCS
Référent : Faculté des sciences d'Orsay

Résumé

FR  |  
EN

Dans de nombreux cas d'usage en Machine Learning, des décisions doivent être prises précocement, c'est-à-dire, en l'absence d'une connaissance complète du problème à résoudre. Par exemple, il est parfois nécessaire de déclencher une intervention technique dès les prémices d'une panne réseau, avant même que les perturbations ne soient importantes. Dans de telles situations, plus la décision est retardée, plus le dénouement probable est clair (ex : l'état critique - ou non - d'un équipement réseau) et également plus le coût de retarder la décision est élevé : des décisions prises plus tôt permettent généralement de mieux se préparer et de réaliser les bonnes actions correctives. L'objectif est donc de prendre des décisions à des moments qui semblent être de bons compromis entre la précocité et la qualité de la décision. Ce dilemme a été particulièrement étudié dans le domaine de la « classification précoce des séries temporelles » [1]. Plus récemment, ce problème a été généralisé à un large éventail de contextes où les données sont collectées au cours du temps, donnant lieu à un nouveau champ de recherche nommé le « Machine Learning based Early Decision Making » (ML-EDM) [2]. Les approches de l'état de l'art souffrent de limitations importantes qui limitent leur utilisation en pratique. Cette thèse a pour ambition de lever certaines limitations, comme par exemple, (ii) la difficulté de ces approches à prédire des événements localisés dans le temps (ex : il y aura une panne réseau de 14h à 14h30) (ii) la difficulté de ces approches à apprendre les modèles en ligne à partir d'un flux de données non-stationnaire, i.e. présentant des dérives de concept.