Thèse soutenue

Analyse de séquences avec GALACTIC – Approche générique combinant analyse formelle des concepts et fouille de motifs

FR  |  
EN
Auteur / Autrice : Salah Eddine Boukhetta
Direction : Karell BertetChristophe Demko
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 30/08/2022
Etablissement(s) : La Rochelle
Ecole(s) doctorale(s) : École doctorale Euclide (La Rochelle ; 2018-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle)
Jury : Président / Présidente : Florence Le Ber
Examinateurs / Examinatrices : Karell Bertet, Christophe Demko, Florence Le Ber, Thomas Guyet, Sébastien Ferré, Marianne Huchard, Gaël Lejeune, Nathalie Girard
Rapporteurs / Rapporteuses : Florence Le Ber, Thomas Guyet

Résumé

FR  |  
EN

Une séquence est une suite d’éléments ordonnés comme par exemple les trajectoires de déplacement ou les séquences d’achats de produits dans un supermarché. La fouille de séquences est un domaine de la fouille de données qui vise à extraire des motifs séquentiels fréquents à partir d’un ensemble de séquences, où ces motifs sont le plus souvent des sous-séquences. Plusieurs algorithmes ont été proposés pour l’extraction des motifs séquentiels fréquents. Avec l’évolution des capacités de calcul, la tâche d’extraction des motifs séquentiels fréquents est devenue plus rapide. La difficulté réside alors dans le trop grand nombre de motifs séquentiels extraits, qui en rend difficile la lisibilité et donc l’interprétation. On parle de déluge de motifs. L’Analyse Formelle de Concepts (AFC) est un domaine d’analyse de données permettant d’identifier des relations à partir d’un ensemble de données binaires. Les structures de motifs étendent l’AFC pour traiter des données complexes comme les séquences. La plateforme GALACTIC implémente l’algorithme Next Priority Concept qui propose une approche d’extraction de motifs pour des données hétérogènes et complexes. Il permet un calcul de motifs génériques à travers des descriptions spécifiques d’objets par des prédicats monadiques. Il propose également de raffiner un ensemble d’objets à travers des stratégies d’explorations spécifiques, ce qui permet de réduire le nombre de motifs. Dans ce travail, nous nous intéressons à l’analyse de données séquentielles en utilisant GALACTIC. Nous proposons plusieurs descriptions et stratégies adaptées aux séquences. Nous proposons également des mesures de qualité non supervisées pour pouvoir comparer entre les motifs obtenus. Une analyse qualitative et quantitative est menée sur des jeux de données réels et synthétiques afin de montrer l’efficacité de notre approche.