Analyse automatique par transitions pour l'identification des expressions polylexicales
Auteur / Autrice : | Hazem Al Saied |
Direction : | Matthieu Constant, Marie-Hélène Candito |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 20/12/2019 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....) |
Partenaire(s) de recherche : | Laboratoire : Analyse et traitement informatique de la langue française (Nancy) |
Jury : | Président / Présidente : Sophie Rosset |
Examinateurs / Examinatrices : Matthieu Constant, Marie-Hélène Candito, Emmanuel Morin, Benoît Sagot, Christophe Cerisara | |
Rapporteurs / Rapporteuses : Sophie Rosset, Emmanuel Morin |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse porte sur l'identification des expressions polylexicales, abordée au moyen d'une analyse par transitions. Une expression polylexicale (EP) est une construction linguistique composée de plusieurs éléments dont la combinaison montre une irrégularité à un ou plusieurs niveaux linguistiques. La tâche d'identification d'EPs consiste à annoter en contexte les occurrences d'EPs dans des textes, i.e à détecter les ensembles de tokens formant de telles occurrences. L'analyse par transitions est une approche célèbre qui construit une sortie structurée à partir d'une séquence d'éléments, en appliquant une séquence de «transitions» choisies parmi un ensemble prédéfini, pour construire incrémentalement la sortie. Dans cette thèse, nous proposons un système par transitions dédié à l'identification des EPs au sein de phrases représentées comme des séquences de tokens, et étudions diverses architectures pour le classifieur qui sélectionne les transitions à appliquer, permettant de construire l'analyse de la phrase. La première variante de notre système utilise un classifieur linéaire de type machine à vecteur support. Les variantes suivantes utilisent des modèles neuronaux: un simple perceptron multicouche, puis des variantes intégrant une ou plusieurs couches récurrentes. Le scénario privilégié est une identification d'EPs n'utilisant pas d'informations syntaxiques, alors même que l'on sait les deux tâches liées. Nous étudions ensuite une approche par apprentissage multitâche, réalisant conjointement l’étiquetage morphosyntaxique, l’identification des EPs par transitions et l’analyse syntaxique en dépendances par transitions. La thèse comporte une partie expérimentale importante. Nous avons d'une part étudié quelles techniques de ré-échantillonnage des données permettent une bonne stabilité de l'apprentissage malgré des initialisations aléatoires. D'autre part, nous avons proposé une méthode de réglage des hyperparamètres de nos modèles par analyse de tendances au sein d'une recherche aléatoire de combinaison d'hyperparamètres. Nous utilisons en effet de manière privilégiée les données des deux compétitions internationales PARSEME des EPs verbales. Nos variantes produisent de très bons résultats, et notamment les scores d’état de l’art pour de nombreuses langues de PARSEME. L’une des variantes s'est classée première pour la plupart des langues de PARSEME 1.0. Pourtant, nos modèles ont des performances faibles sur les EPs non vues à l'apprentissage.