Thèse en cours

Evaluation des techniques de clustering pour l'inférence de processus à l'aide de techniques de model-checking
FR  |  
EN
Auteur / Autrice : Pierre Cry
Direction : Pascale Le Gall
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 30/09/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale INTERFACES : approches interdisciplinaires, fondements, applications et innovation
Partenaire(s) de recherche : Laboratoire : Mathématiques et Informatique pour la Complexité et les Systèmes - EA 4037
référent : CentraleSupélec

Résumé

FR  |  
EN

Le process mining est une méthodologie qui englobe une famille de techniques reliant les domaines de la science des données et de la gestion des processus pour soutenir l'analyse des processus opérationnels à partir des journaux d'événements appelés event log. Ces event log répertorient des évènements temporisés permettant d'obtenir des parcours types et des traces (parcours uniques) empruntés par des utilisateurs. La première étape d'une méthode de process mining a comme but l'extraction d'un modèle (process discovery) à partir d'un event log. L'une des problématiques les plus complexes dans cet contexte est du au fait que les modèles résultants du process discovery souvent sont très complexes et donc leur compréhension et analyse (vérification de la conformité ou simulation) devient trop compliqué. Pour faire face à cette difficulté les méthodes de clustering des event logs ont gagné popularité dans la communauté. L'idée de base du clustering est de regrouper les traces d'un event log , de telle sorte que les traces dans chaque groupe (appelé cluster) sont plus similaires les unes aux autres que celles en dehors du groupe, en gardant les clusters aussi distincts que possible. L'application du process discovery sur ces clusters permet d'obtenir des modèles moins complexes et plus lisibles, qui ne représentent pas l'ensemble du journal des événements en une seule fois. Lorsqu'il est appliqué aux séries temporelles, le clustering est proposé à but exploratoire via une approche non supervisée. Il existe un grand nombre de méthodes de clustering par partitionnement ou hiérarchiques, basées sur la similarité, la densité des données ou sur l'observation des distributions. Pour mettre en oeuvre un clustering, il est nécessaire de fixer une mesure de similarité. En effet, dans les méthodes de clustering de séries temporelles, pour comparer des séries à échantillonnages irréguliers ou bien de tailles différentes, une attention particulière doit être portée sur le choix la mesure de similarité. Cependant, il n'existe à notre connaissance, aucun moyen de savoir automatiquement quelle technique de clustering est adaptée ou quel paramètre choisir (comme le nombre de clusters ou le seuil de métrique) en fonction de l' event log. Ces paramètres sont généralement choisis manuellement par un expert. Pour pallier ce verrou, nous proposons d'utiliser des outils de Model Checking couplés à un jeu de données de tests (non utilisées pour l'apprentissage des clusters).