Contributions à la fouille d'ensembles de motifs : des données complexes à des ensembles de motifs signifiants et réutilisables

par Tatiana Makhalova

Thèse de doctorat en Informatique

Sous la direction de Amedeo Napoli et de Sergei O. Kuznetsov.

Le président du jury était François Charoy.

Le jury était composé de Sergei O. Kuznetsov, Arnaud Soulet, Jilles Vreeken, Antoine Cornuéjols, Élisa Fromont, Christel Vrain.

Les rapporteurs étaient Arnaud Soulet, Jilles Vreeken.


  • Résumé

    Nous étudions différents aspects de l’exploration ou fouille de motifs dans des jeux de données tabulaires binaires et numériques. L’objectif de l’exploration de motifs est de découvrir un petit ensemble de motifs non redondants qui peuvent recouvrir presque entièrement un ensemble de données et être interprétés comme des unités de connaissances significatives et utiles. Nous nous concentrons sur les questions clés telles que la définition formelle de l’intérêt des motifs, la minimisation de l’explosion combinatoire des motifs, la définition de mesures pour évaluer les performances des méthodes d’exploration de motifs, et le rapprochement entre l’intérêt et la qualité des ensembles de motifs. Nous proposons une structure dite “de niveaux de fermetures” et l’algorithme GDPM qui la calcule. Cette structure nous permet d’estimer à la fois la complexité des données et celle des motifs. En pratique, cette structure peut être utilisée pour représenter la topologie des données par rapport à une mesure d’intérêt. Du point de vue conceptuel, cette structure autorise un analyste à comprendre la configuration intrinsèque des données avant de sélectionner une mesure d’intérêt plutôt que de comprendre les données au moyen d’une mesure d’intérêt choisie arbitrairement. Nous discutons également de la différence entre l’intérêt et la qualité des ensembles de motifs. Nous proposons d’adopter les bonnes pratiques de l’apprentissage supervisé et de les adapter à la fouille de motifs. Ainsi, nous avons développé un algorithme d’exploration d’ensembles de motifs appelé KeepItSimple, qui met en relation l’intérêt et la qualité des ensembles de motifs et qui permet de retrouver de façon efficace un ensemble de motifs intéressants sans craindre d’explosion combinatoire. De plus, nous proposons un algorithme glouton d’énumération de motifs susceptibles d’intérêt qui remplace les méthodes classiques d’énumération de motifs fermés fréquents lorsque les motifs sont trop nombreux. Enfin une dernière contribution porte sur le développement d’un algorithme qui s’appuie sur le principe MDL appelé Mint qui a pour objectif d’extraire des ensembles de motifs dans les données numériques. Il repose sur des bases théoriques solides tout en ayant l’objectif pratique de retourner un ensemble concis de motifs numériques qui sont non redondants et informatifs. Les expérimentations montrent que Mint surpasse généralement ses concurrents en efficacité et qualité des motifs retournés.

  • Titre traduit

    Contributions to pattern set mining : from complex datasets to significant and useful pattern sets


  • Résumé

    In this thesis, we study different aspects of pattern mining in binary and numerical tabular datasets. The objective of pattern mining is to discover a small set of non-redundant patterns that may cover entirely a given dataset and be interpreted as useful and significant knowledge units. We focus on some key issues such as (i) formal definition of pattern interestingness, (ii) the minimization of pattern explosion, (iii) measure for evaluating the performance of pattern mining, and (iv) the discrepancy between interestingness and quality of the discovered pattern sets. Moreover, we go beyond the typical perspectives of pattern mining and investigate the intrinsic structure underlying a tabular dataset. The main contributions of this research work are theoretical, conceptual, and practical. Regarding the theoretical novelty, we propose a so-called closure structure and the GDPM algorithm for its computing. The closure structure allows us to estimate both the data and pattern complexity. Furthermore, practically the closure structure may be used to represent the data topology w.r.t. an interestingness measure. Conceptually, the closure structure allows an analyst to understand the intrinsic data configuration before selecting any interestingness measure rather than to understand the data by means of an arbitrarily selected interestingness measure. In this research work, we also discuss the difference between interestingness and quality of pattern sets. We propose to adopt the best practices of supervised learning in pattern mining. Based on that, we developed an algorithm for itemset mining, called KeepItSimple, which relates interestingness and the quality of pattern sets. In practice, KeepItSimple allows us to efficiently mine a set of interesting and good-quality patterns without any pattern explosion. In addition, we propose an algorithm for a greedy enumeration of likely-occurring itemsets that can be used when frequent closed itemset miners return too many itemsets. The last practical contribution consists in developing an MDL-based algorithm called Mint for mining pattern sets in numerical data. The Mint algorithm relies on a strong theoretical foundation and at the same time has a practical objective in returning a small set of numerical, non-redundant, and informative patterns. The experiments show that Mint has very good behavior in practice and usually outperforms its competitors.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Lorraine. Direction de la Documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.