Distributional models of multiword expression compositionality prediction

Silvio Ricardo Cordeiro

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Modèles distributionnels pour la prédiction de compositionnalité d’expressions polylexicales

FR |

EN

Auteur / Autrice :	Silvio Ricardo Cordeiro
Direction :	Alexis Nasr, Carlos Eduardo Ramisch, Aline Villavicencio
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 18/12/2017
Etablissement(s) :	Aix-Marseille en cotutelle avec Universidade Federal do Rio Grande do Sul (Porto Alegre, Brésil)
Ecole(s) doctorale(s) :	École doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique fondamentale (Marseille)
Jury :	Président / Présidente : Antoine Doucet
	Examinateurs / Examinatrices : Helena Caseli
	Rapporteur / Rapporteuse : Stefan Evert, Timothy T. Baldwin

Mots clés

FR |

EN

Mots clés contrôlés

Syntaxe

Compositionnalité

Figement (linguistique)

Mots clés libres

Expressions polylexicales

Sémantique distributionnelle

Compositionalité

Idiomaticité

Résumé

FR |

EN

Les systèmes de traitement automatique des langues reposent souvent sur l'idée que le langage est compositionnel, c'est-à-dire que le sens d'une entité linguistique peut être déduite à partir du sens de ses parties. Cette supposition ne s’avère pas vraie dans le cas des expressions polylexicales (EPLs). Par exemple, une ''poule mouillée'' n'est ni une poule, ni nécessairement mouillée. Les techniques pour déduire le sens des mots en fonction de leur distribution dans le texte ont obtenu de bons résultats sur plusieurs tâches, en particulier depuis l'apparition des word embeddings. Cependant, la représentation des EPLs reste toujours un problème non résolu. En particulier, on ne sait pas comment prédire avec précision, à partir des corpus, si une EPL donnée doit être traitée comme une unité indivisible (p.ex. ''carton plein'') ou comme une combinaison du sens de ses parties (p.ex. ''eau potable''). Cette thèse propose un cadre méthodologique pour la prédiction de compositionnalité d'EPLs fondé sur des représentations de la sémantique distributionnelle, que nous instancions à partir d’une variété de paramètres. Nous présenterons une évaluation complète de l'impact de ces paramètres sur trois nouveaux ensembles de données modélisant la compositionnalité d'EPLs, en anglais, français et portugais. Finalement, nous présenterons une évaluation extrinsèque des niveaux de compositionnalité prédits par le modèle dans le contexte d’un système d'identification d'EPLs. Les résultats suggèrent que le choix spécifique de modèle distributionnel et de paramètres de corpus peut produire des prédictions de compositionnalité qui sont comparables à celles présentées dans l'état de l'art.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modèles distributionnels pour la prédiction de compositionnalité d’expressions polylexicales

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modèles distributionnels pour la prédiction de compositionnalité d’expressions polylexicales

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses