Organisation et interprétation par les treillis de Galois de données de type multivalué, intervalle ou histogramme
Auteur / Autrice : | Géraldine Polaillon |
Direction : | Edwin Diday |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 1998 |
Etablissement(s) : | Paris 9 |
Mots clés
Mots clés contrôlés
Résumé
Nous nous intéressons à la classification par les treillis de Galois de données plus complexes que celles utilisées habituellement et pouvant comporter des données manquantes. Le contexte du travail est l’analyse de données symboliques qui a pour but d’étendre les méthodes d’analyse de données classique à des données de type multivalué, intervalle ou histogramme selon le formalisme des ''objets symboliques”. Les treillis de Galois permettent naturellement une représentation duale intension/extension, et font ressortir l’ordre entre les individus, entre les attributs, mais également entre les individus et les attributs. Dans une première partie, nous étendons la construction des treillis de Galois des tableaux binaires à des tableaux de données complexes avec des algorithmes incrémentaux et non-incrémentaux. Deux types de treillis de Galois peuvent être obtenus : dans un cas, nous nous intéressons à des classes dont les propriétés sont communes aux individus de la classe ; dans l’autre cas, nous nous intéressons à des classes dont les propriétés sont satisfaites par au moins un individu de la classe. Les nœuds du treillis sont des objets ''complets”, qui sont intuitivement l’extension des concepts binaires. Des contraintes exprimées par l’expert sur le contenu des nœuds peuvent intervenir durant la construction du treillis. Dans une seconde partie, nous nous intéressons à l’élagage des treillis de données complexes. En effet, les treillis représentent un espace de travail très riche, mais leur taille croit très vite en fonction des données, ce qui les rend illisibles et difficilement manipulables. Nous pouvons voir que des classifications et des arbres de décision sont inclus dans le treillis. Nous proposons différentes méthodes d’élagage basées sur des heuristiques liées à des distances entre objets symboliques et des heuristiques liées aux propriétés du treillis. Selon le but recherché, nous pouvons obtenir des règles entre les objets, des graphes hiérarchiques �����généralisés”, des graphes pyramidaux “généralisés”, ou des arbres de décision issus des deux treillis. L’interprétation du treillis se fait directement et automatiquement à partir des données initiales