Thèse soutenue

Algorithmes de poursuite stochastiques et inégalités de concentration empiriques pour l'apprentissage statistique

FR  |  
EN
Auteur / Autrice : Thomas Peel
Direction : Liva RalaivolaSandrine Anthoine
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/11/2013
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : École doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....)
Jury : Président / Présidente : François Denis
Examinateurs / Examinatrices : Sandrine Anthoine, Matthieu Kowalski, Éric Debreuve
Rapporteur / Rapporteuse : Laurent Daudet, Nicolas Vayatis

Résumé

FR  |  
EN

La première partie de cette thèse introduit de nouveaux algorithmes de décomposition parcimonieuse de signaux. Basés sur Matching Pursuit (MP) ils répondent au problème suivant : comment réduire le temps de calcul de l'étape de sélection de MP, souvent très coûteuse. En réponse, nous sous-échantillonnons le dictionnaire à chaque itération, en lignes et en colonnes. Nous montrons que cette approche fondée théoriquement affiche de bons résultats en pratique. Nous proposons ensuite un algorithme itératif de descente de gradient par blocs de coordonnées pour sélectionner des caractéristiques en classification multi-classes. Celui-ci s'appuie sur l'utilisation de codes correcteurs d'erreurs transformant le problème en un problème de représentation parcimonieuse simultanée de signaux. La deuxième partie expose de nouvelles inégalités de concentration empiriques de type Bernstein. En premier, elles concernent la théorie des U-statistiques et sont utilisées pour élaborer des bornes en généralisation dans le cadre d'algorithmes de ranking. Ces bornes tirent parti d'un estimateur de variance pour lequel nous proposons un algorithme de calcul efficace. Ensuite, nous présentons une version empirique de l'inégalité de type Bernstein proposée par Freedman [1975] pour les martingales. Ici encore, la force de notre borne réside dans l'introduction d'un estimateur de variance calculable à partir des données. Cela nous permet de proposer des bornes en généralisation pour l'ensemble des algorithmes d'apprentissage en ligne améliorant l'état de l'art et ouvrant la porte à une nouvelle famille d'algorithmes d'apprentissage tirant parti de cette information empirique.