Sur l'apprentissage des paramètres pour les modèles Perturb-and-MAP
Auteur / Autrice : | Tatiana Shpakova |
Direction : | Francis Bach |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 21/02/2019 |
Etablissement(s) : | Paris Sciences et Lettres (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique |
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....) | |
Equipe de recherche : Statistical machine learning and parsimony (Paris) | |
Jury : | Président / Présidente : Ivan Laptev |
Examinateurs / Examinatrices : Francis Bach, Ivan Laptev, Matthew B. Blaschko, Florence D'Alché-Buc, Umut Şimşekli | |
Rapporteur / Rapporteuse : Matthew B. Blaschko, Florence D'Alché-Buc |
Résumé
Les modèles graphiques probabilistes codent les dépendances entre les variables aléatoires et l’estimation des paramètres fait partie du traitement des modèles probabilistes. Ces modèles ont été utilisés dans des domaines tels que la vision par ordinateur, le traitement du signal, le traitement du langage naturel. Nous nous sommes concentrés sur les modèles log-supermodulaires, qui font partie des distributions familiales exponentielles, où la fonction potentielle est la fonction négative d’une fonction sous-modulaire. Malgré la restriction du modèle, est couvert une grande partie des familles exponentielles, car il y a beaucoup de fonctions qui sont sous-modulaires, par exemple, les coupes graphiques, entropie et autres. Le traitement probabiliste est habituellement difficile, mais nous avons été en mesure de relever certains des défis au moins approximativement. Nous exploitons les idées perturb-and-MAP pour l’approximation des fonctions de partition et l’apprentissage efficace des paramètres. Nous proposons une méthode d’estimation et d’inférence approximative des paramètres pour les modèles où l’apprentissage et l’inférence exacts sont difficiles à gérer dans le cas général. La première partie de la thèse est consacrée aux garanties théoriques. Étant donné les modèles logsupermodulaires, nous tirons parti de la propriété de minimisation efficace liée à la sous-modularité. En introduisant et en comparant deux limites supérieures existantes de la fonction de partition, nous démontrons leur relation en prouvant un résultat théorique. Nous introduisons une approche pour les données manquantes comme sous-routine naturelle de la modélisation probabiliste. Il semble que nous puissions appliquer une technique stochastique à l’approche d’approximation par perturbation et carte proposée tout en maintenant la convergence tout en la rendant plus rapide dans la pratique. Une autre contribution est une généralisation efficace et évolutive de l’approche d’apprentissage des paramètres. Nous développons des algorithmes pour effectuer l’estimation des paramètres pour diverses fonctions de perte, différents niveaux de supervision et nous travaillons sur l’évolutivité. Nous incorporons également certaines techniques d’accélération. Comme troisième contribution, nous abordons le problème général de l’apprentissage des signaux continus. Nous nous concentrons sur les représentations de modèles graphiques clairsemés et nous considérons les régularisateurs à faible densité comme des densités logarithmiques négatives pour la distribution antérieure. Les techniques de débruitage proposées ne nécessitent pas le choix d’un redresseur précis à l’avance. Pour effectuer un apprentissage de représentation clairsemée, la communauté du traitement du signal utilise souvent des pertes symétriques telles que `1, mais nous proposons de paramétrer la perte et d’apprendre le poids de chaque composante de perte à partir des données. Nous avons effectué des expériences informatiques pour illustrer l’idée générale ou la comparer à des repères existants, et démontrer sa performance dans la pratique.