Thèse soutenue

Reduction de donnees : une approche basee sur la theorie des ensembles approximatifs

FR
Auteur / Autrice : MOUSSA BOUSSOUF
Direction : Jean-François Nicaud
Type : Thèse de doctorat
Discipline(s) : Sciences et techniques communes
Date : Soutenance en 2000
Etablissement(s) : Nantes

Résumé

FR

Cette these etudie le probleme de selection de donnees representatives dans le cadre de la theorie des ensembles approximatifs (rst). Notre travail de recherche s'est focalise sur deux axes principaux : la selection des attributs pertinents et des instances representatives. La premiere partie de cette these est consacree a la selection des attributs. Pour prendre en compte les donnees imparfaites et vagues, on s'est place dans le cadre d'une version generalisee de la theorie des ensembles approximatifs, appelee -rst. Nous avons adapte l'algorithme de base de calcul de reductions (une reduction est un sous-ensemble d'attributs minimal ayant le meme pouvoir discriminant que l'ensemble d'attributs de depart) pour calculer les -reductions. Nous avons ensuite ameliore cet algorithme a l'aide d'une methode d'elagage basee sur le controle de la taille des reductions. Nous avons pose le probleme d'evaluation des reductions ainsi calculees. Pour cela, nous avons propose une methode d'evaluation hybride combinant les deux methodes d'evaluation existantes (filtre et wrapper). Notre methode offre un bon compromis : on reduit au mieux le temps d'execution et on degrade peu la qualite de la reduction ainsi selectionnee. Pour pouvoir calculer des reductions a partir des bases de donnees volumineuses, nous avons propose un algorithme probabiliste, de complexite lineaire. Les resultats de nos experimentations montrent que, par rapport a l'algorithme classique, le temps de calcul de notre algorithme est enormement reduit et les reductions obtenues sont beaucoup moins larges et plus precises. La deuxieme partie concerne la selection des instances representatives. Pour cela, nous avons developpe de nouvelles notions dans le cadre de la rst et nous avons propose deux methodes de selection basees sur la normalisation de conflit des donnees. La premiere est de complexite quadratique, tandis que le deuxieme est adaptee pour pouvoir traiter des bases de donnees volumineuses.