Classification précoce de séquences temporelles par de l'apprentissage par renforcement profond
Auteur / Autrice : | Coralie Martinez |
Direction : | Michèle Rombaut, Emmanuel Ramasso |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, image, paroles, télécoms |
Date : | Soutenance le 04/12/2019 |
Etablissement(s) : | Université Grenoble Alpes (ComUE) |
Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Laboratoire : Grenoble Images parole signal automatique (2007-....) |
Jury : | Président / Présidente : Latifa Oukhellou |
Examinateurs / Examinatrices : Christian Wolf | |
Rapporteur / Rapporteuse : Marc Sebban, Germain Forestier |
Résumé
La classification précoce (CP) de séquences temporelles est un sujet de recherche récent dans le domaine de l'analyse des données séquentielles. Le problème consiste à attribuer une étiquette à des données qui sont collectées séquentiellement avec de nouvelles mesures arrivant au cours du temps. La prédiction d’une étiquette doit être faite en utilisant le moins de mesures possible dans la séquence. Le problème de CP a une importance capitale pour de nombreuses applications, allant du contrôle des processus à la détection de fraude. Il est particulièrement intéressant pour les applications qui cherchent à minimiser les coûts d’acquisition des mesures, ou qui cherchent une prédiction rapide des étiquettes afin de pouvoir entreprendre des actions rapides. C'est par exemple le cas dans le domaine de la santé, où il est nécessaire de fournir dès que possible un diagnostic médical à partir de la séquence d'observations médicales collectées au fil du temps. Un autre exemple est la maintenance prédictive où le but est d’anticiper la panne d’une machine à partir des signaux de ses capteurs. Dans ce travail de doctorat, nous avons développé une nouvelle approche pour ce problème, basée sur la formulation d'un problème de prise de décision séquentielle. Nous considérons qu’un modèle de CP doit décider entre classer une séquence incomplète ou retarder la prédiction afin de collecter des mesures supplémentaires. Plus précisément, nous décrivons ce problème comme un processus de décision de Markov partiellement observable noté EC-POMDP. L'approche consiste à entraîner un agent pour la CP à partir d’apprentissage par renforcement profond dans un environnement caractérisé par le EC-POMDP. La principale motivation de cette approche est de proposer un modèle capable d’effectuer la CP de bout en bout, en étant capable d’apprendre simultanément les caractéristiques optimales dans les séquences pour la classification et les décisions stratégiques optimales pour le moment de la prédiction. En outre, la méthode permet de définir l’importance du temps par rapport à la précision de la prédiction dans la définition des récompenses, et ce en fonction de l’application et de sa volonté de faire un compromis. Afin de résoudre le EC-POMDP et de modéliser la politique de l'agent, nous avons appliqué un algorithme existant, le Double Deep-Q-Network, dont le principe général est de mettre à jour la politique de l'agent pendant des épisodes d'entraînement, à partir d’expériences passées stockées dans une mémoire de rejeu. Nous avons montré que l'application de l'algorithme original au problème de CP entraînait des problèmes de mémoire déséquilibrée, susceptibles de détériorer l’entrainement de l'agent. Par conséquent, pour faire face à ces problèmes et permettre un entrainement plus robuste de l'agent, nous avons adapté l'algorithme aux spécificités du EC-POMDP et nous avons introduit des stratégies de gestion de la mémoire et des épisodes. Expérimentalement, nous avons montré que ces contributions amélioraient les performances de l'agent par rapport à l'algorithme d'origine et que nous étions en mesure de former un agent à faire un compromis entre la vitesse et la précision de la classification, individuellement pour chaque séquence. Nous avons également pu former des agents sur des jeux de données publics pour lesquels nous n’avons aucune expertise, ce qui montre que la méthode est applicable à divers domaines. Enfin, nous avons proposé des stratégies pour interpréter, valider ou rejeter les décisions de l'agent. Lors d'expériences, nous avons montré comment ces solutions peuvent aider à mieux comprendre le choix des actions effectuées par l'agent.