Détection et extraction de néologismes sémantiques spécialisés : une approche au moyen de classification automatique de documents avec des stratégies d'apprentissage profond
Auteur / Autrice : | Andrés Torres Rivera |
Direction : | Juan-Manuel Torres-Moreno, Rosa Estopà |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 31/10/2019 |
Etablissement(s) : | Avignon en cotutelle avec Universitat Pompeu Fabra (Barcelone, Espagne) |
Ecole(s) doctorale(s) : | École doctorale Sciences et agrosciences (Avignon) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire informatique d'Avignon |
Jury : | Président / Présidente : Judit Freixa |
Examinateurs / Examinatrices : Judit Freixa, Mikel Iruskieta, Eric Sanjuan, Gerardo Sierra | |
Rapporteur / Rapporteuse : Judit Freixa, Mikel Iruskieta |
Mots clés
Résumé
Dans le domaine de la néologie, différentes approches méthodologiques ont été développées pour la détection et l’extraction de néologismes sémantiques. Ces approches utilisent des stratégies telles que la désambiguïsation sémantique et la modélisation thématique,mais il n’existe aucun système complet de détection de néologismes sémantiques.Ainsi, nous proposons dans cette thèse le développement des algorithmes qui permettent d’identifier et d’extraire les néologismes sémantiques au moyen de méthodes statistiques,d’extraction d’information et d’apprentissage automatique. La méthodologie proposée est basée sur le traitement du processus de détection et d’extraction en tant que problème de classification. Il consiste à analyser la proximité des thèmes entre le champ sémantique de la signification principale d’un terme et son contexte. Pour la construction du système nous avons étudié cinq méthodes de classification automatique supervisée et trois modèles pour la génération de représentations vectorielles de mots par apprentissage profonde. Le corpus d’analyse est composé de néologismes sémantiques du domaine informatique appartenant à la base de données de l’Observatoire de Néologie de l’Université Pompeu Fabra, enregistrés de 1989 à 2015. Nous utilisons ce corpus pour évaluer les différentes méthodes mises en oeuvre par le système : classification automatique, extraction de mots à partir de contextes courts et génération de listes de mots similaires. Cette première approche méthodologique cherche à établir un cadre de référence en termes de détection et d’extraction de néologismes sémantiques.