Thèse soutenue

Contributions à la fouille d'ensembles de motifs : des données complexes à des ensembles de motifs signifiants et réutilisables

FR  |  
EN
Auteur / Autrice : Tatiana Makhalova
Direction : Amedeo NapoliSergei O. Kuznetsov
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/06/2021
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : François Charoy
Examinateurs / Examinatrices : Sergei O. Kuznetsov, Arnaud Soulet, Jilles Vreeken, Antoine Cornuéjols, Élisa Fromont, Christel Vrain
Rapporteur / Rapporteuse : Arnaud Soulet, Jilles Vreeken

Résumé

FR  |  
EN

Nous étudions différents aspects de l’exploration ou fouille de motifs dans des jeux de données tabulaires binaires et numériques. L’objectif de l’exploration de motifs est de découvrir un petit ensemble de motifs non redondants qui peuvent recouvrir presque entièrement un ensemble de données et être interprétés comme des unités de connaissances significatives et utiles. Nous nous concentrons sur les questions clés telles que la définition formelle de l’intérêt des motifs, la minimisation de l’explosion combinatoire des motifs, la définition de mesures pour évaluer les performances des méthodes d’exploration de motifs, et le rapprochement entre l’intérêt et la qualité des ensembles de motifs. Nous proposons une structure dite “de niveaux de fermetures” et l’algorithme GDPM qui la calcule. Cette structure nous permet d’estimer à la fois la complexité des données et celle des motifs. En pratique, cette structure peut être utilisée pour représenter la topologie des données par rapport à une mesure d’intérêt. Du point de vue conceptuel, cette structure autorise un analyste à comprendre la configuration intrinsèque des données avant de sélectionner une mesure d’intérêt plutôt que de comprendre les données au moyen d’une mesure d’intérêt choisie arbitrairement. Nous discutons également de la différence entre l’intérêt et la qualité des ensembles de motifs. Nous proposons d’adopter les bonnes pratiques de l’apprentissage supervisé et de les adapter à la fouille de motifs. Ainsi, nous avons développé un algorithme d’exploration d’ensembles de motifs appelé KeepItSimple, qui met en relation l’intérêt et la qualité des ensembles de motifs et qui permet de retrouver de façon efficace un ensemble de motifs intéressants sans craindre d’explosion combinatoire. De plus, nous proposons un algorithme glouton d’énumération de motifs susceptibles d’intérêt qui remplace les méthodes classiques d’énumération de motifs fermés fréquents lorsque les motifs sont trop nombreux. Enfin une dernière contribution porte sur le développement d’un algorithme qui s’appuie sur le principe MDL appelé Mint qui a pour objectif d’extraire des ensembles de motifs dans les données numériques. Il repose sur des bases théoriques solides tout en ayant l’objectif pratique de retourner un ensemble concis de motifs numériques qui sont non redondants et informatifs. Les expérimentations montrent que Mint surpasse généralement ses concurrents en efficacité et qualité des motifs retournés.