Classification non supervise à deux niveaux guidée par le voisinage et la densité
Auteur / Autrice : | Guénaël Cabanes |
Direction : | Younès Bennani |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2010 |
Etablissement(s) : | Paris 13 |
Mots clés
Résumé
Le travail de recherche exposé dans cette thèse concerne le développement d'approches à base de Cartes Auto-Organisatrices (SOM) pour la découverte et le suivi de structures de classes dans les données par apprentissage non supervisé. Nous proposons des méthodes de classification à deux niveaux simultanés qui se basent sur l'estimation, à partir des données, de valeurs de connectivité et de densité des prototypes de la SOM. Le nombre de clusters est détecté automatiquement et la complexité est linéaire selon le nombre de données. Nous montrons aussi qu’il est relativement simple et efficace d’adapter ces algorithmes aux variantes de l’algorithme SOM, de façon à obtenir une méthode très polyvalente capable par exemple d’analyser différents types de données. Nous proposons en outre une amélioration de la qualité de la SOM en utilisant les valeurs de connectivité lors de l'apprentissage des prototypes. Nous décrivons une nouvelle méthode de description condensée de la distribution des données, ainsi qu’une mesure heuristique de similarité entre ces modèles. Par ailleurs, nous proposons un algorithme de suivi des données d'un flux. Ces algorithmes se basent sur une estimation de la densité sous-jacente des données pendant l'apprentissage d'une SOM modifiée. Enfin, nous présentons deux applications réelles pour le suivi d'individus dans un dispositif RFID. La première application est une étude du comportement d'une colonie de fourmis pendant un déménagement. La deuxième est une étude commerciale nécessitant le suivi de clients dans un magasin pendant leurs achats.