Efficient Approximations of High-Dimensional Data - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Efficient Approximations of High-Dimensional Data

Approximations efficaces de données en grande dimension

Mónika Csikós
  • Fonction : Auteur
  • PersonId : 1166565
  • IdRef : 264319745

Résumé

In this thesis, we study approximations of set systems (X,S), where X is a base set and S consists of subsets of X called ranges. Given a finite set system, our goal is to construct a small subset of X set such that each range is `well-approximated'. In particular, for a given parameter epsilon in (0,1), we say that a subset A of X is an epsilon-approximation of (X,S) if for any range R in S, the fractions |A cap R|/|A| and |R|/|X| are epsilon-close.Research on such approximations started in the 1950s, with random sampling being the key tool for showing their existence. Since then, the notion of approximations has become a fundamental structure across several communities---learning theory, statistics, combinatorics and algorithms. A breakthrough in the study of approximations dates back to 1971 when Vapnik and Chervonenkis studied set systems with finite VC-dimension, which turned out a key parameter to characterise their complexity. For instance, if a set system (X,S) has VC dimension d, then a uniform sample of O(d/epsilon^2) points is an epsilon-approximation of (X,S) with high probability. Importantly, the size of the approximation only depends on epsilon and d, and it is independent of the input sizes |X| and |S|!In the first part of this thesis, we give a modular, self-contained, intuitive proof of the above uniform sampling guarantee .In the second part, we give an improvement of a 30 year old algorithmic bottleneck---constructing matchings with low crossing number. This can be applied to build approximations with improved guarantees.Finally, we answer a 30 year old open problem of Blumer etal. by proving tight lower bounds on the VC dimension of unions of half-spaces - a geometric set system that appears in several applications, e.g. coreset constructions
Dans cette thèse, nous étudions les approximations de systèmes d'ensembles (X,S), où X est un ensemble de base et S est constitué de sous-ensembles de X appelés plages. Étant donné un système d'ensembles finis, notre objectif est de construire un petit sous-ensemble de X tel que chaque plage soit `bien-approximée'. En particulier, pour un paramètre epsilon donné dans (0,1), nous disons qu'un sous-ensemble A de X est une epsilon-approximation de (X,S) si pour toute plage R dans S, les fractions |A cap R|/|A| et |R|/|X| sont proches de epsilon.La recherche sur de telles approximations a commencé dans les années 1950, l'échantillonnage aléatoire étant l'outil clé pour montrer leur existence. Depuis lors, la notion d'approximations est devenue une structure fondamentale dans plusieurs communautés - théorie de l'apprentissage, statistiques, combinatoire et algorithmes. Une percée dans l'étude des approximations remonte à 1971, lorsque Vapnik et Chervonenkis ont étudié les systèmes d'ensembles avec une VC-dimension finie, qui s'est avérée être un paramètre clé pour caractériser leur complexité. Par exemple, si un système d'ensembles (X, S) a une VC-dimension d, alors un échantillon uniforme de O(d/epsilon^2) points est une approximation epsilon de (X, S) avec une probabilité élevée. Il est important de noter que la taille de l'approximation ne dépend que d'epsilon et de d, et qu'elle est indépendante des tailles d'entrée |X| et |S| !Dans la première partie de cette thèse, nous donnons une preuve modulaire, autonome et intuitive de la garantie d'échantillonnage uniforme ci-dessus. Dans la deuxième partie, nous donnons une amélioration d'un goulot d'étranglement algorithmique vieux de 30 ans - la construction d'appariements avec un faible nombre de croisements. Ceci peut être appliqué pour construire des approximations avec des garanties améliorées. Enfin, nous répondons à un problème ouvert vieux de 30 ans de Blumer etal. en prouvant des bornes inférieures serrées sur la dimension VC des unions de demi-espaces - un système d'ensembles géométriques qui apparaît dans plusieurs applications, par exemple les constructions de coresets
Fichier principal
Vignette du fichier
TH2022UEFL2004.pdf (15.57 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03783594 , version 1 (22-09-2022)

Identifiants

  • HAL Id : tel-03783594 , version 1

Citer

Mónika Csikós. Efficient Approximations of High-Dimensional Data. Logic [math.LO]. Université Gustave Eiffel, 2022. English. ⟨NNT : 2022UEFL2004⟩. ⟨tel-03783594⟩
58 Consultations
35 Téléchargements

Partager

Gmail Facebook X LinkedIn More