Thèse soutenue

Data mining : algorithmes d'extraction et de reduction des regles d'association dans les bases de donnees

FR
Auteur / Autrice : Nicolas Pasquier
Direction : Lotfi Lakhal
Type : Thèse de doctorat
Discipline(s) : Sciences et techniques
Date : Soutenance en 2000
Etablissement(s) : Clermont-Ferrand 2

Résumé

FR

L'extraction de connaissances dans les bases de donnees, egalement appele data mining, designe le processus non trivial permettant d'extraire des informations et des connaissances utiles qui sont enfouies dans les bases de donnees, les entrepots de donnees (data warehouses) ou autres sources de donnees. Dans ce memoire, nous traitons des problemes de la generation efficace des regles d'association et de la pertinence et de l'utilite des regles d'association extraites. Une regle d'association est une implication conditionnelle entre ensembles d'attributs binaires appeles items. Dans l'ensemble des travaux existants, l'extraction de regles d'association est decomposee en deux sous-problemes qui sont la recherche des ensembles frequents d'items et la generation des regles d'association a partir de ces ensembles. Le premier sous-probleme, dont la complexite est exponentielle dans la taille de la relation et qui necessite de parcourir a plusieurs reprises celle-ci, constitue la phase la plus couteuse en termes de temps d'execution et d'espace memoire. Nous proposons une nouvelle semantique pour le probleme de l'extraction des regles d'association basee sur la connexion de galois d'une relation binaire finie. Utilisant cette semantique, nous demontrons que les ensembles fermes frequents d'items constituent un ensemble generateur non redondant pour les ensembles frequents d'items et les regles d'association. Nous proposons deux nouveaux algorithmes, nommes close et a-close, permettant l'extraction des ensembles fermes frequents d'items, a partir desquels les ensembles frequents d'items et les regles d'association peuvent etre derives sans acceder au jeu de donnees. Les resultats experimentaux demontrent que ces algorithmes permettent de reduire les temps d'extraction et l'espace memoire necessaire dans le cas de jeux de donnees constitues de donnees denses ou correlees. Utilisant la semantique definie, nous proposons d'ameliorer la pertinence et l'utilite des regles d'association extraites en limitant l'extraction a des bases pour les regles d'association. Nous adaptons pour cela les bases pour les regles d'implication definies en analyse de donnees et nous definissons de nouvelles bases constituees des regles non redondantes d'antecedents minimaux et de consequences maximales a partir des ensembles fermes frequents. Nous proposons egalement des algorithmes efficaces de generation de ces bases.