Opérateurs de régularisation pour le subspace clustering flou

par Arthur Guillon

Thèse de doctorat en Informatique

Sous la direction de Christophe Marsala et de Marie-Jeanne Lesot.

Le président du jury était Matthieu Cord.

Le jury était composé de Carl Frélicot, Antoine Cornuéjols.

Les rapporteurs étaient Julien Velcin, Nicolas Labroche.


  • Résumé

    Cette thèse considère une tâche de fouille de données appelée subspace clustering, qui consiste à simultanément identifier des groupes de données similaires et à expliciter cette similarité, notamment en mettant en avant les attributs caractéristiques de ces différents groupes. Nous proposons l'étude d'une famille particulière de modèles de subspace clustering flou, qui reposent sur la minimisation d'une fonction de coût. Nous formulons trois propriétés souhaitables en clustering, dont nous montrons qu'elles sont absentes des minima du modèle que nous étudions. Nous les reformulons sous forme de fonctions de pénalité, que nous rajoutons aux fonctions de coût des algorithmes initiaux. Certaines de ces pénalités étant non différentiables, les techniques d'optimisation usuelles en clustering flou ne sont pas applicables; nous proposons un algorithme de subspace clustering générique qui étend l'approche classique et combine optimisation alternée et descente proximale. Nous appliquons ensuite cet algorithme aux trois pénalités précédentes et montrons que les algorithmes qui en résultent satisfont les propriétés correspondantes.

  • Titre traduit

    Regularization operators for fuzzy subspace clustering


  • Résumé

    Subspace clustering is a data mining task which consists in simultaneously identifiying groups of similar data and making this similarity explicit, for example by selecting features characteristic of the groups. In this thesis, we consider a specific family of fuzzy subspace clustering models, which are based on the minimization of a cost function. We propose three desirable qualities of clustering, which are absent from the solutions computed by the previous models. We then propose simple penalty terms which we use to encode these properties in the original cost functions. Some of these terms are non-differentiable and the techniques standard in fuzzy clustering cannot be applied to minimize the new cost functions. We thus propose a new, generic optimization algorithm, which extends the standard approach by combining alternate optimization and proximal gradient descent. We then instanciate this algorithm with operators minimizing the three previous penalty terms and show that the resulting algorithms posess the corresponding qualities.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Sorbonne Université. Bibliothèque des thèses électroniques.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.