Thèse soutenue

Détection et extraction de néologismes sémantiques spécialisés : une approche au moyen de classification automatique de documents avec des stratégies d'apprentissage profond

FR  |  
ES
Auteur / Autrice : Andrés Torres Rivera
Direction : Juan-Manuel Torres-MorenoRosa Estopà
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 31/10/2019
Etablissement(s) : Avignon en cotutelle avec Universitat Pompeu Fabra (Barcelone, Espagne)
Ecole(s) doctorale(s) : École doctorale Sciences et agrosciences (Avignon)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique d'Avignon
Jury : Président / Présidente : Judit Freixa
Examinateurs / Examinatrices : Judit Freixa, Mikel Iruskieta, Eric Sanjuan, Gerardo Sierra
Rapporteur / Rapporteuse : Judit Freixa, Mikel Iruskieta

Résumé

FR  |  
BAS  |  
EN  |  
ES

Dans le domaine de la néologie, différentes approches méthodologiques ont été développées pour la détection et l’extraction de néologismes sémantiques. Ces approches utilisent des stratégies telles que la désambiguïsation sémantique et la modélisation thématique,mais il n’existe aucun système complet de détection de néologismes sémantiques.Ainsi, nous proposons dans cette thèse le développement des algorithmes qui permettent d’identifier et d’extraire les néologismes sémantiques au moyen de méthodes statistiques,d’extraction d’information et d’apprentissage automatique. La méthodologie proposée est basée sur le traitement du processus de détection et d’extraction en tant que problème de classification. Il consiste à analyser la proximité des thèmes entre le champ sémantique de la signification principale d’un terme et son contexte. Pour la construction du système nous avons étudié cinq méthodes de classification automatique supervisée et trois modèles pour la génération de représentations vectorielles de mots par apprentissage profonde. Le corpus d’analyse est composé de néologismes sémantiques du domaine informatique appartenant à la base de données de l’Observatoire de Néologie de l’Université Pompeu Fabra, enregistrés de 1989 à 2015. Nous utilisons ce corpus pour évaluer les différentes méthodes mises en oeuvre par le système : classification automatique, extraction de mots à partir de contextes courts et génération de listes de mots similaires. Cette première approche méthodologique cherche à établir un cadre de référence en termes de détection et d’extraction de néologismes sémantiques.