Unsupervised learning of huge data sets with limited computed resources

Filippo Antonazzo

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage non supervisé pour données extrêmement volumineuses en situation de ressources informatiques arbitrairement limitées

FR |

EN

Auteur / Autrice :	Filippo Antonazzo
Direction :	Christophe Biernacki, Christine Keribin
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques et leurs interactions
Date :	Soutenance le 30/09/2022
Etablissement(s) :	Université de Lille (2022-....)
Ecole(s) doctorale(s) :	École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire Paul Painlevé - Centre Inria de l'Université de Lille
Jury :	Président / Présidente : Mustapha Lebbah
	Examinateurs / Examinatrices : Cathy Maugis
	Rapporteurs / Rapporteuses : Cinzia Viroli, Allou Badara Samé

Mots clés

FR |

EN

Mots clés contrôlés

Algorithmes EM

Modèles de mélanges gaussiens

Classification

Données massives

Mots clés libres

Apprentissage non supervisé

Modèles de mélange de distributions

Partitionnement de données

Résumé

FR |

EN

Par nature, le clustering révèle tout son intérêt lorsque le volume des jeux de données augmente considérablement, parce qu’il y ainsi l’opportunité de découvrir des classes potentiellement petites mais inconnues jusqu'alors puisque indétectables avec des tailles d'échantillons plus réduits. L'intérêt de telles classes peut être en outre inversement proportionnel à leur taille, signe de phénomènes atypiques mais à forte valeur comme des anomalies, des fraudes, etc. Toutefois, classifier de tels volumes de données peut facilement rencontrer des limitations informatiques fortes, demandant en effet potentiellement d'énormes quantité de mémoire vive et d'autres ressources informatiques substantielles (calcul, énergie, flux). Par conséquent, si l'on souhaite effectivement mettre en oeuvre des algorithmes de classification sur de très grands jeux de données tout en limitant les ressources informatiques à mobiliser (pour des raisons de coût ou d'écologie), il est nécessaire d'envisager des approches beaucoup plus frugales que les approches actuelles, tout en garantissant des résultats d'estimation de haute qualité. La classification sur modèle de mélange gaussien étant certainement l'approche la plus populaire (ne serait-ce par son lien structurel avec les méthodes de k-means), ce travail de thèse explore prioritairement la frugalité du clustering dans ce cadre. Il est à noter que des stratégies fondées sur de l'échantillonnage, bien qu'ayant de bonnes propriétés de frugalité, doivent être écartées car elles s'avèrent incapables de détecter des partitions extrêmement déséquilibrées, ce qui est un prérequis essentiel dans notre contexte. Par conséquent, dans cette thèse, on adopte une stratégie frugale alternative qui repose sur une compression des données à la fois par axe et par intervalles (on parle alors de ''bin-marginal''). Après une analyse préliminaire en situation simplifiée (univarié avec bins) qui révèle le potentiel de notre proposition, nous abordons le cas multivarié (combinant cette fois bins et marginalisation) qui sera le coeur de ce travail. Malgré la réduction extrême des données permise par le ''bin-marginal'', nous montrons que cette perte drastique d’information n'est pas préjudiciable à l'objectif de clustering par mélanges gaussiens dans le cas diagonal. Dans un premier temps, nous montrons l’identifiabilité de ces mélanges diagonaux et nous introduisons un algorithme spécifique similaire à EM mais associé à une approche basée sur une vraisemblance composite qui s'appuie sur une garantie de consistance des estimateurs. Des expériences numériques illustrent que notre méthode est beaucoup plus performante que le sous-échantillonnage soit dans des simulations, soit dans des applications réelles où les classes sont fortement déséquilibrées par nature, comme la segmentation d'images, la reconnaissance d'astéroïdes dangereux ou la détection de fraudes. Ensuite, des sujets supplémentaires concernant le choix de modèle, la problématique des maxima locaux et l’impact de notre compression sur le clustering sont traités avec un point de vue plus expérimental. Finalement, une application pratique de détection d’anomalies sur des séries temporelles (potentiellement très volumineuse), et réalisée dans le cadre d'un partenariat avec une petite entreprise spécialisée en maintenance prédictive, est menée pour évaluer la potentialité de notre approche dans un domaine d’application connexe.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage non supervisé pour données extrêmement volumineuses en situation de ressources informatiques arbitrairement limitées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage non supervisé pour données extrêmement volumineuses en situation de ressources informatiques arbitrairement limitées

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses