Apprendre par imitation : applications à quelques problèmes d'apprentissage structuré en traitement des langues

Elena Knyazeva

Thèse Année : 2018

Imitation learning : application to several structured learning tasks in natural language processing

Apprendre par imitation : applications à quelques problèmes d'apprentissage structuré en traitement des langues

(1)

Elena Knyazeva

Fonction : Auteur

Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

Résumé

Structured learning has become ubiquitousin Natural Language Processing; a multitude ofapplications, such as personal assistants, machinetranslation and speech recognition, to name just afew, rely on such techniques. The structured learningproblems that must now be solved are becomingincreasingly more complex and require an increasingamount of information at different linguisticlevels (morphological, syntactic, etc.). It is thereforecrucial to find the best trade-off between the degreeof modelling detail and the exactitude of the inferencealgorithm. Imitation learning aims to perform approximatelearning and inference in order to better exploitricher dependency structures. In this thesis, we explorethe use of this specific learning setting, in particularusing the SEARN algorithm, both from a theoreticalperspective and in terms of the practical applicationsto Natural Language Processing tasks, especiallyto complex tasks such as machine translation.Concerning the theoretical aspects, we introduce aunified framework for different imitation learning algorithmfamilies, allowing us to review and simplifythe convergence properties of the algorithms. With regardsto the more practical application of our work, weuse imitation learning first to experiment with free ordersequence labelling and secondly to explore twostepdecoding strategies for machine translation.

L’apprentissage structuré est devenu omniprésent dans le traitement automatique des langues naturelles. De nombreuses applications qui font maintenant partie de notre vie telles que des assistants personnels, la traduction automatique, ou encore la reconnaissance vocale, reposent sur ces techniques. Les problèmes d'apprentissage structuré qu’il est nécessaire de résoudre sont de plus en plus complexes et demandent de prendre en compte de plus en plus d’informations à des niveaux linguistiques variés (morphologique, syntaxique, etc.) et reposent la question du meilleurs compromis entre la finesse de la modélisation et l’exactitude des algorithmes d’apprentissage et d’inférence. L’apprentissage par imitation propose de réaliser les procédures d’apprentissage et d’inférence de manière approchée afin de pouvoir exploiter pleinement des structures de dépendance plus riches. Cette thèse explore ce cadre d’apprentissage, en particulier l’algorithme SEARN, à la fois sur le plan théorique ainsi que ses possibilités d’application aux tâches de traitement automatique des langues, notamment aux plus complexes telles que la traduction. Concernant les aspects théoriques, nous présentons un cadre unifié pour les différentes familles d’apprentissage par imitation, qui permet de redériver de manière simple les propriétés de convergence de ces algorithmes; concernant les aspects plus appliqués, nous utilisons l’apprentissage par imitation d’une part pour explorer l’étiquetage de séquences en ordre libre; d’autre part pour étudier des stratégies de décodage en deux étapes pour la traduction automatique.

Mots clés

Structured learning Imitation learning Natural language processing

Apprentissage structuré Apprentissage par imitation Traitement automatique des langues naturelles naturelles

Domaines

Apprentissage [cs.LG]

Fichier principal

74646_KNYAZEVA_2018_diffusion.pdf (1.58 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-01906278

Soumis le : vendredi 26 octobre 2018-15:59:05

Dernière modification le : samedi 7 octobre 2023-21:36:20

Archivage à long terme le : dimanche 27 janvier 2019-15:03:53

Dates et versions

tel-01906278 , version 1 (26-10-2018)

Identifiants

HAL Id : tel-01906278 , version 1

Citer

Elena Knyazeva. Apprendre par imitation : applications à quelques problèmes d'apprentissage structuré en traitement des langues. Apprentissage [cs.LG]. Université Paris Saclay (COmUE), 2018. Français. ⟨NNT : 2018SACLS134⟩. ⟨tel-01906278⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS STAR LIMSI UNIV-PARIS-SACLAY SORBONNE-UNIVERSITE LISN GS-ENGINEERING GS-COMPUTER-SCIENCE

294 Consultations

170 Téléchargements

Imitation learning : application to several structured learning tasks in natural language processing

Apprendre par imitation : applications à quelques problèmes d'apprentissage structuré en traitement des langues

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager