Thèse soutenue

Mesurer la qualité des règles d'association : études formelles et expérimentales

FR  |  
EN
Auteur / Autrice : Benoît Vaillant
Direction : Alain Hillion
Type : Thèse de doctorat
Discipline(s) : Informatique et mathématiques
Date : Soutenance en 2006
Etablissement(s) : Télécom Bretagne

Résumé

FR  |  
EN

L'extraction de connaissances à partir de données vise à extraire des motifs contenus dans des entrepôts de données, dont la taille ne cesse de croître. C'est un processus complexe dans lequel plusieurs experts (métier, analyste, informaticien. . . ) doivent coopérer afin de révéler des motifs qui seront évalués selon différents critères : validités, nouveauté, compréhensibilité, exploitabilité, etc. Or, ces dernier critères sont fortement liés au contexte applicatif et peuvent être formulés de différentes manières. De plus, les progrès techniques et méthodologiques permanents permettent de traiter des volumes de données de plus en plus importants. Par voie de conséquence, le nombre de motifs extraits est également de plus en plus grand, sans pour autant qu'ils soient tous valides - bien au contraire. Force est de constater que la validation de connaissances ne peut maintenant plus se faire sans assistance au décideur, ce dernier ayant bien souvent comme tâche la validation des motifs. Afin de permettre de procéder à cette tâche finale de validation lors du processus, un moyen couramment retenu est l'utilisation de fonctions quantifiant numériquement la pertinence des connaissances. De telles fonctions, dites mesures de qualité, mettent en avant une typologie de connaissance donnée, en induisant un ordre sur celles-ci. De nombreuses mesures ont été proposées, chacune étant liée à des situations précises. Nous adressons la problématique de l'évaluation objective de la qualité d'un type de motif particulier, les règlesd'association, par de telles mesures. Considérant que la sélection des « bonnes » règles repose sur l'utilisation d'une mesure adaptée, nous proposons une étude systématique de ces dernières, basée sur une analyse de propriétés formelles, énoncées selon des termes les plus compréhensibles possibles. De cette étude, on produit une classification d'un nombre important de mesures classiques, que nous confrontons à une classification expérimentale, obtenue en comparant les rangements induits par les mesures pour plusieurs jeux de données. L'étude des propriétés classiques et la définition de nouvelles nous a également permis de mettre en avant certaines particularités des mesures. Nous en déduisons un cadre généralisant la plupart d'entre elles. Nous appliquons également deux méthodes d'Aide Multicritère à la Décision afin de résoudre le problème de la sélection des règles pertinentes. La première approche se fonde sur la prise en compte d'un système de préférences exprimé par un expert de données sur les propriétés précédemment définies, en vue d'orienter le choix de mesure(s) adaptée(s) au contexte applicatif. La seconde approche adresse le problème de la prise en compte des valeurs potentiellement discordantes qu'expriment les mesures sur l'intérêt des règles, et construisons une vue agrégée de leur ordonnancement, en prenant en compte les écarts d'évaluation. Ces méthodes sont appliquées à des situations pratiques. Ce travail nous a aussi conduit au développement d'un outil spécifique performant, Herbs. Nous présentons les traitements qu'il permet d'effectuer, tant en termes de sélection de règles, d'analyse du comportement des mesures et de visualisation.