From weakly supervised learning to active labeling

Vivien Cabannes

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

De l'apprentissage faiblement supervisé au catalogage en ligne

FR |

EN

Auteur / Autrice :	Vivien Cabannes
Direction :	Francis Bach, Alessandro Rudi
Type :	Thèse de doctorat
Discipline(s) :	Apprentissage statistique
Date :	Soutenance le 18/07/2022
Etablissement(s) :	Université Paris sciences et lettres
Ecole(s) doctorale(s) :	École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche :	Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
	Equipe de recherche : Statistical machine learning and parsimony (Paris)
	Établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury :	Président / Présidente : Marc Lelarge
	Examinateurs / Examinatrices : Francis Bach, Alessandro Rudi, Marc Lelarge, Eyke Hüllermeier, Guillaume Lecué, Joan Bruna
	Rapporteurs / Rapporteuses : Eyke Hüllermeier, Guillaume Lecué

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage automatique

Mots clés libres

Apprentissage statistique

Données faiblement supervisées

Acquisition active d’informations partielles

Résumé

FR |

EN

Les mathématiques appliquées et le calcul nourrissent beaucoup d’espoirs à la suite des succès récents de l’apprentissage supervisé. Dans l’industrie, beaucoup d’ingénieurs cherchent à remplacer leurs anciens paradigmes de pensée par l’apprentissage machine. Étonnamment, ces ingénieurs passent plus de temps à collecter, annoter et nettoyer des données qu’à raffiner des modèles. Ce phénomène motive la problématique de cette thèse : peut-on définir un cadre théorique plus général que l’apprentissage supervisé pour apprendre grâce à des données hétérogènes ? Cette question est abordée via le concept de supervision faible, faisant l’hypothèse que le problème que posent les données est leur annotation. On modélise la supervision faible comme l’accès, pour une entrée donnée, non pas d’une sortie claire, mais d’un ensemble de sorties potentielles. On plaide pour l’adoption d’une perspective « optimiste » et l’apprentissage d’une fonction qui vérifie la plupart des observations. Cette perspective nous permet de définir un principe pour lever l’ambiguïté des informations faibles. On discute également de l’importance d’incorporer des techniques sans supervision d’appréhension des données d’entrée dans notre théorie, en particulier de compréhension de la variété sous-jacente via des techniques de diffusion, pour lesquelles on propose un algorithme réaliste afin d’éviter le fléau de la dimension, à l’inverse de ce qui existait jusqu’alors. Enfin, nous nous attaquons à la question de collecte active d’informations faibles, définissant le problème de « catalogage en ligne », où un intendant doit acquérir une maximum d’informations fiables sur ses données sous une contrainte de budget. Entre autres, nous tirons parti du fait que pour obtenir un gradient stochastique et effectuer une descente de gradient, il n’y a pas besoin de supervision totale.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

De l'apprentissage faiblement supervisé au catalogage en ligne

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

De l'apprentissage faiblement supervisé au catalogage en ligne

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses