Thèse soutenue

Une approche Markovienne à la sémantique distributionnelle

FR  |  
EN
Auteur / Autrice : Edouard Grave
Direction : Francis BachGuillaume Obozinski
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 20/01/2014
Etablissement(s) : Paris 6
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
Jury : Examinateurs / Examinatrices : David Meir Blei, François Yvon, Patrick Gallinari, Benoît Sagot

Résumé

FR  |  
EN

Cette thèse, organisée en deux parties indépendantes, a pour objet la sémantique distributionnelle et la sélection de variables. Dans la première partie, nous introduisons une nouvelle méthode pour l'apprentissage de représentations de mots à partir de grandes quantités de texte brut. Cette méthode repose sur un modèle probabiliste de la phrase, utilisant modèle de Markov caché et arbre de dépendance. Nous présentons un algorithme efficace pour réaliser l'inférence et l'apprentissage dans un tel modèle, fondé sur l'algorithme EM en ligne et la propagation de message approchée. Nous évaluons les modèles obtenus sur des taches intrinsèques, telles que prédire des jugements de similarité humains ou catégoriser des mots et deux taches extrinsèques~: la reconnaissance d'entités nommées et l'étiquetage en supersens. Dans la seconde partie, nous introduisons, dans le contexte des modèles linéaires, une nouvelle pénalité pour la sélection de variables en présence de prédicteurs fortement corrélés. Cette pénalité, appelée trace Lasso, utilise la norm trace des prédicteurs sélectionnés, qui est une relaxation convexe de leur rang, comme critère de complexité. Le trace Lasso interpole les normes ℓ 1 et ℓ 2. En particulier, lorsque tous les prédicteurs sont orthogonaux, il est égal à la norme ℓ 1, tandis que lorsque tous les prédicteurs sont égaux, il est égal à la norme ℓ 2. Nous proposons deux algorithmes pour calculer la solution du problème de régression aux moindres carrés régularisé par le trace Lasso et réalisons des expériences sur des données synthétiques.