Thèse soutenue

Un système de visualisation pour l'extraction, l'évaluation, et l'exploration interactives des règles d'association

FR
Auteur / Autrice : Julien Blanchard
Direction : Henri Briand
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2005
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale sciences et technologies de l'information et des matériaux (Nantes)
Partenaire(s) de recherche : autre partenaire : Centrale Nantes - École nationale supérieure des mines (Nantes1990-2016)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

De nombreuses méthodes d'Extraction de Connaissances dans les Données (ECD) produisent des résultats sous forme de règles. Les règles ont l'avantage de représenter les connaissances de manière explicite, ce qui en fait des modèles tout à fait intelligibles pour un utilisateur. Elles sont d'ailleurs au fondement de la plupart des théories de représentation de la connaissance en sciences cognitives. En fouille de données, la principale technique à base de règles est l'extraction de règles d'association, qui a donné lieu à de nombreux travaux de recherche. La limite majeure des algorithmes d'extraction de règles d'association est qu'ils produisent communément de grandes quantités de règles, dont beaucoup se révèlent même sans aucun intérêt pour l'utilisateur. Ceci s'explique par la nature non supervisée de ces algorithmes : ne considérant aucune variable endogène, ils envisagent dans les règles toutes les combinaisons possibles de variables. Dans la pratique, l'utilisateur ne peut pas exploiter les résultats tels quels directement à la sortie des algorithmes. Un post-traitement consistant en une seconde opération de fouille se révèle indispensable pour valider les volumes de règles et découvrir des connaissances utiles. Cependant, alors que la fouille de données est effectuée automatiquement par des algorithmes combinatoires, la fouille de règles est une tâche laborieuse à la charge de l'utilisateur. La thèse développe deux approches pour assister l'utilisateur dans le post-traitement des règles d'association : la mesure de la qualité des règles par des indices numériques, la supervision du post-traitement par une visualisation interactive. Pour ce qui concerne la première approche, nous formalisons la notion d'indice de qualité de règles et réalisons une classification inédite des nombreux indices de la littérature, permettant d'aider l'utilisateur à choisir les indices pertinents pour son besoin. Nous présentons également trois nouveaux indices aux propriétés originales : l'indice probabiliste d'écart à l'équilibre, l'intensité d'implication entropique, et le taux informationnel. Pour ce qui concerne la seconde approche, nous proposons une méthodologie de visualisation pour l'exploration interactive des règles. Elle est conçue pour faciliter la tâche de l'utilisateur confronté à de grands ensembles de règles en prenant en compte ses capacités de traitement de l'information. Dans cette méthodologie, l'utilisateur dirige la découverte de connaissances par des opérateurs de navigation adaptés en visualisant des ensembles successifs de règles décrits par des indices de qualité. Les deux approches sont intégrées au sein de l'outil de visualisation ARVis (Association Rule Visualization) pour l'exploration interactive des règles d'association. ARVis implémente notre méthodologie au moyen d'une représentation 3D, inédite en visualisation de règles, mettant en valeur les indices de qualité. De plus, ARVis repose sur un algorithme spécifique d'extraction sous contraintes permettant de générer les règles interactivement au fur et à mesure de la navigation de l'utilisateur. Ainsi, en explorant les règles, l'utilisateur dirige à la fois l'extraction et le post-traitement des. . .