Thèse soutenue

Parcimonie dans les modèles probabilistes pour l'analyse de données complexes

FR  |  
EN
Auteur / Autrice : Margot Selosse
Direction : Julien JacquesChristophe Biernacki
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 13/11/2020
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (2009-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Lumière (Lyon ; 1969-....)
Laboratoire : Entrepôts, Représentation et Ingénierie des Connaissances
Jury : Président / Présidente : Stéphane Chrétien
Examinateurs / Examinatrices : Charles Bouveyron, Claire Gormley, Charlotte Laclau
Rapporteurs / Rapporteuses : Pierre Latouche, Bettina Grün

Résumé

FR  |  
EN

Ces dernières années, la production d'informations numériques a fortement augmenté. Les sites web, les réseaux sociaux et l'Internet des Objets en général ont contribué à une production massive de données de tous genres. Cette sur-production a aussi conduit à des jeux de données plus complexes, dans la mesure où ils sont devenus de haute dimension, sparses, hétérogènes, ou encore qu'ils contiennent des valeurs manquantes. Les algorithmes et méthodes traditionnelles ne sont donc plus suffisants pour gérer ce type de données car ils ne prennent pas en compte ces particularités, et ne peuvent se mettre à l'échelle du phénomène ``Big-Data". Heureusement, l'accès à des machines de plus en plus puissantes a permis aux experts de concevoir des algorithmes plus complexes, adaptés à la complexité de ces données.L'apprentissage non-supervisé concerne un type d'algorithmes en analyse statistique (ou apprentissage automatique) qui apporte à l'utilisateur un nouveau point de vue sur les données. Quelques exemples de méthodes dites non-supervisées sont la réduction de dimension, la détection de motifs, ou encore la segmentation de données (ou analyse de clusters). L'objectif de la segmentation de données est de trouver des groupes d'observations dans un jeu de données. Ces groupes sont appelés ``clusters". Dans chaque cluster, les membres ont quelque chose en commun qu'ils ne partagent pas avec les membres des autres clusters. Utiliser un algorithme de clustering aide à trouver une structure dans le jeu de données, ce qui peut-être utile dans différents domaines comme la médecine, le marketing ou la vision par ordinateur.Les modèles probabilistes pour le clustering regroupent des méthodes d'apprentissage non-supervisé pour la segmentation de données. Définir un modèle probabiliste apporte de nombreux avantages comme l'interprétabilité, la sélection de modèle ou la possibilité d'estimer des intervalles de confiance. Grâce à leur flexibilité, ces approches ont prouvé leur efficacité dans différents domaines, et elles sont souvent utilisées pour analyser des données. Un désavantage des modèles probabilistes pour le clustering classiques, c'est qu'ils requièrent le calcul de nombreux paramètres, ce qui peut ralentir les différents algorithmes d'inférence et donner de mauvais résultats dans le contexte de données complexes. Introduire de la parcimonie (i.e. réduire le nombre de paramètres à estimer) est une manière efficace de pallier ce problème.Cette thèse regroupe plusieurs contributions pour introduire de la parcimonie dans les modèles probabilistes pour le clustering dans le cadre de données complexes. Dans les deux premiers chapitres, nous nous concentrons sur le co-clustering. Le co-clustering consiste à effectuer un clustering simultané des lignes et des colonnes d'une matrice (ou des observations et des variables d'un jeu de données). Nous décrivons deux approches innovantes de co-clustering probabiliste pour gérer des données hétérogènes et des données textuelles. La troisième contribution investigue les modèles de mélange gaussiens profonds (ou Deep Gaussian Mixture Model), qui couple les modèles probabilistes et des techniques de réseau profond, plus communément appelées Deep Learning. Les aspects méthodologiques sont détaillés, et des expériences numériques sont réalisées sur des jeux de données simulés et réels.