Clustering et volume des données

Marc-Ismaël Jeannin Akodjénou

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Marc-Ismaël Jeannin Akodjénou
Direction :	Patrick Gallinari
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance en 2008
Etablissement(s) :	Paris 6

Mots clés

FR

Mots clés libres

Clustering

Classification automatique

Volume des données

Résumé

FR

Le clustering est une tâche fondamentale de la fouille de données. Ces dernières années, le volume de données (à la fois le nombre d'objets et le nombre de caractéristiques, de "dimensions", les décrivant) croît sans arrêt. Les méthodes de clustering doivent s'adapter à cette évolution qui a des impacts à la fois qualitatifs (la pertinence des résultats) et opérationnels (la complexité du traitement). Nous étudions dans cette thèse comment se sont adaptées les méthodes de clustering le long de ces deux axes. Après une analyse des méthodes existantes à travers ce prisme, nous en arrivons au constat que les méthodes qui se concentrent sur la réduction de la complexité opérationnelle ne sont généralement pas efficaces en haute dimension, et réciproquement. Nous développons une démarche abstraite proche de celle des méthodes à base de grille : le clustering est effectué indirectement à travers un résumé des données. Le résumé est constitué d'indices de proximité entre les points et doit se construire avec une complexité opérationnelle respectant des contraintes strictes. Nous proposons ensuite une méthode basée sur cette démarche : le résumé est construit à partir de projections linéaires des données. Les indices de proximité ainsi accumulés sont agrégés pour obtenir le clustering. La méthode a une complexité opérationnelle satisfaisante et a de bonnes performances en haute dimension.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Clustering et volume des données

Mots clés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Clustering et volume des données

Mots clés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses