Thèse soutenue

Apprentissage de représentations de données dans un apprentissage non-supervisé

FR  |  
EN
Auteur / Autrice : Maziar Moradi Fard
Direction : Éric Gaussier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 24/11/2020
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Equipe de recherche : Analyse de données, Modélisation et Apprentissage automatique (Grenoble)
Jury : Président / Présidente : Sihem Amer-Yahia
Examinateurs / Examinatrices : Julien Velcin
Rapporteurs / Rapporteuses : Mustapha Lebbah, Marc Tommasi

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

En raison du grand impact de l’apprentissage profond sur divers domaines de l’apprentissage automatique, leurs capacités à améliorer les approches de clustering ont récemment été étudiées. Dans un premier temps, des approches d’apprentissage profond (principalement des autoencodeurs) ont été utilisées pour réduire la dimensionnalité de l’espace d’origine et pour supprimer les éventuels bruits (également pour apprendre de nouvelles représentations de données). De telles approches de clustering qui utilisent des approches d’apprentissage en profondeur sont appelées deep clustering. Cette thèse se concentre sur le développement de modèles de deep clustering qui peuvent être utilisés pour différents types de données (par exemple, des images, du texte). Tout d’abord, nous proposons un algorithme DKM (Deep k-means) dans lequel l’apprentissage des représentations de données (via un autoencodeur profond) et des représentants de cluster (via k-means) est effectué de manière conjointe. Les résultats de notre approche DKM indiquent que ce modèle est capable de surpasser des algorithmes similaires en Deep Clustering. En effet, notre cadre proposé est capable de propager de manière lisse l’erreur de la fonction de coût à travers toutes les variables apprenables.De plus, nous proposons deux modèles nommés SD2C et PCD2C qui sont capables d’intégrer respectivement des mots d’amorçage et des contraintes par paires dans des approches de Deep Clustering de bout en bout. En utilisant de telles approches, les utilisateurs peuvent observer le reflet de leurs besoins en clustering. Enfin, les résultats obtenus à partir de ces modèles indiquent leur capacité à obtenir des résultats plus adaptés.