Neural language models : Dealing with large vocabularies | Theses.fr

Matthieu Labeau

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Modèles de langue neuronaux : Gestion des grands vocabulaires

FR |

EN

Auteur / Autrice :	Matthieu Labeau
Direction :	Alexandre Allauzen
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 21/09/2018
Etablissement(s) :	Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020)
	établissement opérateur d'inscription : Université Paris-Sud (1970-2019)
Jury :	Président / Présidente : Pierre Zweigenbaum
	Examinateurs / Examinatrices : Alexandre Allauzen, Pierre Zweigenbaum, Phil Blunsom, Armand Joulin, André Martins
	Rapporteurs / Rapporteuses : Massih-Reza Amini, Phil Blunsom

Mots clés

FR |

EN

Mots clés contrôlés

Réseaux neuronaux (informatique)

Intelligence artificielle

Apprentissage automatique

Traitement automatique du langage naturel

Mots clés libres

Réseaux de Neurones

Modèles de Langue

Grands Vocabulaires

Résumé

FR |

EN

Le travail présenté dans cette thèse explore les méthodes pratiques utilisées pour faciliter l'entraînement et améliorer les performances des modèles de langues munis de très grands vocabulaires. La principale limite à l'utilisation des modèles de langue neuronaux est leur coût computationnel: il dépend de la taille du vocabulaire avec laquelle il grandit linéairement. La façon la plus aisée de réduire le temps de calcul de ces modèles reste de limiter la taille du vocabulaire, ce qui est loin d'être satisfaisant pour de nombreuses tâches. La plupart des méthodes existantes pour l'entraînement de ces modèles à grand vocabulaire évitent le calcul de la fonction de partition, qui est utilisée pour forcer la distribution de sortie du modèle à être normalisée en une distribution de probabilités. Ici, nous nous concentrons sur les méthodes à base d'échantillonnage, dont le sampling par importance et l'estimation contrastive bruitée. Ces méthodes permettent de calculer facilement une approximation de cette fonction de partition. L'examen des mécanismes de l'estimation contrastive bruitée nous permet de proposer des solutions qui vont considérablement faciliter l'entraînement, ce que nous montrons expérimentalement. Ensuite, nous utilisons la généralisation d'un ensemble d'objectifs basés sur l'échantillonnage comme divergences de Bregman pour expérimenter avec de nouvelles fonctions objectif. Enfin, nous exploitons les informations données par les unités sous-mots pour enrichir les représentations en sortie du modèle. Nous expérimentons avec différentes architectures, sur le Tchèque, et montrons que les représentations basées sur les caractères permettent l'amélioration des résultats, d'autant plus lorsque l'on réduit conjointement l'utilisation des représentations de mots.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modèles de langue neuronaux : Gestion des grands vocabulaires

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modèles de langue neuronaux : Gestion des grands vocabulaires

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses