Analyse de séquences avec GALACTIC – Approche générique combinant analyse formelle des concepts et fouille de motifs
Auteur / Autrice : | Salah Eddine Boukhetta |
Direction : | Karell Bertet, Christophe Demko |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 30/08/2022 |
Etablissement(s) : | La Rochelle |
Ecole(s) doctorale(s) : | École doctorale Euclide (La Rochelle ; 2018-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle) |
Jury : | Président / Présidente : Florence Le Ber |
Examinateurs / Examinatrices : Karell Bertet, Christophe Demko, Florence Le Ber, Thomas Guyet, Sébastien Ferré, Marianne Huchard, Gaël Lejeune, Nathalie Girard | |
Rapporteur / Rapporteuse : Florence Le Ber, Thomas Guyet |
Résumé
Une séquence est une suite d’éléments ordonnés comme par exemple les trajectoires de déplacement ou les séquences d’achats de produits dans un supermarché. La fouille de séquences est un domaine de la fouille de données qui vise à extraire des motifs séquentiels fréquents à partir d’un ensemble de séquences, où ces motifs sont le plus souvent des sous-séquences. Plusieurs algorithmes ont été proposés pour l’extraction des motifs séquentiels fréquents. Avec l’évolution des capacités de calcul, la tâche d’extraction des motifs séquentiels fréquents est devenue plus rapide. La difficulté réside alors dans le trop grand nombre de motifs séquentiels extraits, qui en rend difficile la lisibilité et donc l’interprétation. On parle de déluge de motifs. L’Analyse Formelle de Concepts (AFC) est un domaine d’analyse de données permettant d’identifier des relations à partir d’un ensemble de données binaires. Les structures de motifs étendent l’AFC pour traiter des données complexes comme les séquences. La plateforme GALACTIC implémente l’algorithme Next Priority Concept qui propose une approche d’extraction de motifs pour des données hétérogènes et complexes. Il permet un calcul de motifs génériques à travers des descriptions spécifiques d’objets par des prédicats monadiques. Il propose également de raffiner un ensemble d’objets à travers des stratégies d’explorations spécifiques, ce qui permet de réduire le nombre de motifs. Dans ce travail, nous nous intéressons à l’analyse de données séquentielles en utilisant GALACTIC. Nous proposons plusieurs descriptions et stratégies adaptées aux séquences. Nous proposons également des mesures de qualité non supervisées pour pouvoir comparer entre les motifs obtenus. Une analyse qualitative et quantitative est menée sur des jeux de données réels et synthétiques afin de montrer l’efficacité de notre approche.