Thèse soutenue

Mesures d'intérêts pour règles d'association dans un processus d'ECD : post-traitement des règles avec l'outil ARQAT (résumé)

FR  |  
EN
Auteur / Autrice : Hiep Xuan Huynh
Direction : Henri BriandFabrice Guillet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2006
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale sciences et technologies de l'information et des matériaux (Nantes)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Ce travail s'insère dans le cadre de l'extraction de connaissances dans les données (ECD), souvent dénommé "fouille de données". Ce domaine de recherche multidisciplinaire offre également de nombreuses applications en entreprises. L'ECD s'attache à la découverte de connaissances cachées au sein de grandes masses de données. Parmi les modèles d'extraction de connaissances disponibles, celui des règles d'association est fréquemment utilisé. Il offre l'avantage de permettre une découverte non supervisée de tendances implicatives dans les données, mais, en retour, délivre malheureusement de grandes quantités de règles. Son usage nécessite donc la mise en place d'une phase de post-traitement pour aide l'utilisateur final, un décideur expert des données, à réduire la masse de règles produites. Une manière de réduire la quantité de règles consiste à utiliser des indicateurs numériques de la qualité des règles, appelés "mesures d'intérêts". La littérature propose de nombreuses mesures de ce type, et étudie leurs propriétés. Cette thèse se propose d'étudier la panoplie de mesures d'intérêts disponibles afin d'évaluer leur comportement en fonction d'une part, de la nature des données et d'autre part, des préférences du décideur. L'objectif final étant de guider le choix de l'utilisateur vers les mesures les mieux adaptées à ses besoins et in fine de sélectionner les meilleures règles. A cette fin, nous proposons une approche novatrice implémentée dans un nouvel outil, ARQAT (Association Rule Quality Analysis Tool), afin de faciliter l'analyse du comportement des 40 mesures d'intérêt recensées. En plus de statistiques élémentaires, l'outil permet une analyse poussée des corrélations entre mesures à l'aide de graphes de corrélation s'appuyant sur les coefficients proposés par Pearson, Spearman et Kendall. Ces graphes sont également utilisés pour l'identification de clusters de mesures similaires. En outre, nous avons proposé une série d'études comparatives sur les corrélations entre les mesures d'intérêt sur plusieurs jeux de données. A l'issue de ces études, nous avons découvert un ensemble de correlations peu sensibles à la nature des données utilisées, que nous avons appelées corrélations stables. Enfin, nous présentons 14 graphiques et vues complémentaires structures en 5 niveaux d'analyse : l'analyse de jeu de règles, l'analyse de corrélation et de clustering, l'analyse des meilleures règles, l'analyse de sensibilité, et l'analyse comparative. Au travers d’exemples nous montrons l'intérêt de l'approche exploratoire et de l'utilisation des vues complémentaires.