Thèse soutenue

Partitionnement d’objets complexes : méthodes et algorithmes

FR  |  
EN
Auteur / Autrice : Said Fouchal
Direction : Ivan Lavallée
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2011
Etablissement(s) : Paris 8

Résumé

FR  |  
EN

Le clustering est une notion importante dans les sciences, il est appliqué dans beaucoup de domaine, il permet la maîtrise de l'information et ainsi sa bonne exploitation. Son objectif est de ranger des éléments similaires dans des groupes homogènes. La notion de proximité est élémentaire dans ce processus elle a un effet considérable sur le résultat puisque elle permet de décrire les données selon le besoin recherché. Le travail que nous avons mené, dans la première partie de la thèse, se focalise essentiellement sur une mesure de proximité universelle, NCD (Normalized Compression Distance), elle se fonde sur le contenu absolu en information (la complexité de kolmogorov) afin de traiter des données de types différents. Notre contribution a consisté à introduire cette mesure et à démontrer qu’elle peut s'adapter à une méthode de clustering rapide afin de permettre le traitement d'un nombre important de données de tout genre de façon universelle. La deuxième partie de la thèse a consisté à développer deux nouvelles solutions théoriques pour les problèmes du clustering. Elles se basent sur les propriétés classificatoires des ultramétriques, notamment pour choisir les éléments graines avant d’établir un partitionnement, ce qui fait l'originalité de notre approche. En effet, nous avons écrit une première méthode rapide, qui a une complexité algorithmique de l'ordre de O(n). Cette première méthode est spécifique aux données décrites par une distance ultramétrique. La deuxième méthode est plus générale, elle est applicable pour tout type de données puisque elle utilise une distance (métrique). Elle est également flexible quant au contexte étudié car l'utilisateur peut manipuler la taille des clusters résultants d'une part, et fournir la taille de l'échantillon représentatif des données traitées d'autre part. De plus, cette deuxième méthode a une complexité moyenne, fréquente, de O(n) et une complexité dans le pire cas, rare, de l'ordre de O(n^2), ce qui lui offre la possibilité de traiter des larges bases de données.