Deteccion y extraccion de neologismos semanticos especializados : un acercamiento mediante clasificacion automatica de documentos y estrategias de aprendieaje profundo

par Andrés Torres Rivera

Thèse de doctorat en Informatique

Sous la direction de Juan-Manuel Torres-Moreno et de Rosa Estopà.

Soutenue le 31-10-2019

à Avignon en cotutelle avec l'Universitat Pompeu Fabra (Barcelone, Espagne) , dans le cadre de École doctorale 536 « Sciences et agrosciences » (Avignon) , en partenariat avec Laboratoire informatique d'Avignon (laboratoire) .

Le président du jury était Judit Freixa.

Le jury était composé de Judit Freixa, Mikel Iruskieta, Eric SanJuan, Gerardo Sierra.

Les rapporteurs étaient Judit Freixa, Mikel Iruskieta.

  • Titre traduit

    Détection et extraction de néologismes sémantiques spécialisés : une approche au moyen de classification automatique de documents avec des stratégies d'apprentissage profond


  • Résumé

    Dans le domaine de la néologie, différentes approches méthodologiques ont été développées pour la détection et l’extraction de néologismes sémantiques. Ces approches utilisent des stratégies telles que la désambiguïsation sémantique et la modélisation thématique,mais il n’existe aucun système complet de détection de néologismes sémantiques.Ainsi, nous proposons dans cette thèse le développement des algorithmes qui permettent d’identifier et d’extraire les néologismes sémantiques au moyen de méthodes statistiques,d’extraction d’information et d’apprentissage automatique. La méthodologie proposée est basée sur le traitement du processus de détection et d’extraction en tant que problème de classification. Il consiste à analyser la proximité des thèmes entre le champ sémantique de la signification principale d’un terme et son contexte. Pour la construction du système nous avons étudié cinq méthodes de classification automatique supervisée et trois modèles pour la génération de représentations vectorielles de mots par apprentissage profonde. Le corpus d’analyse est composé de néologismes sémantiques du domaine informatique appartenant à la base de données de l’Observatoire de Néologie de l’Université Pompeu Fabra, enregistrés de 1989 à 2015. Nous utilisons ce corpus pour évaluer les différentes méthodes mises en oeuvre par le système : classification automatique, extraction de mots à partir de contextes courts et génération de listes de mots similaires. Cette première approche méthodologique cherche à établir un cadre de référence en termes de détection et d’extraction de néologismes sémantiques.


  • Résumé

    In the field of neology, different methodological approaches for the detection and extractionof semantic neologisms have been developed using strategies such as word sensedisambiguation and topic modeling, but there is still not a proposal for a system for thedetection of these units. Beginning from a detailed study on the necessary theoreticalassumptions required to delimit and describe semantic neologisms, in this thesis, we proposethe development of an application to identify and extract said units using statistical,data mining and machine learning strategies. The proposed methodology is based ontreating the process of detection and extraction as a classification task, which consists onanalyzing the concordance of topics between the semantic field from the main meaningof a word and the text where it is found. To build the architecture of the proposed system,we analyzed five automatic classification methods and three deep learning based wordembedding models. Our analysis corpus is composed of the semantic neologisms of thecomputer science field belonging to the database of the Observatory of Neology of thePompeu Fabra University, which have been registered from 1989 to 2015. We used thiscorpus to evaluate the different methods that our system implements: automatic classification,keyword extraction from short contexts, and similarity list generation. This firstmethodological approach aims to establish a framework of reference in terms of detectionand extraction of semantic neologisms.


  • Résumé

    En el campo de la neología, se han desarrollado diferentes acercamientos metodológicospara la detección y extracción de neologismos semánticos empleando estrategias comola desambiguación semántica y el modelado de temas, pero todavía no existe una propuestade un sistema para la detección de estas unidades. A partir de un estudio detalladosobre los supuestos teóricos necesarios para delimitar y describir los neologismos semánticos,en esta tesis proponemos el desarrollo de una aplicación para identificar y vaciardichas unidades mediante estrategias estadísticas, de minería de datos y de aprendizajeautomático. La metodología planteada se basa en el tratamiento del proceso de deteccióny extracción como un problema de clasificación, que consiste en analizar la concordanciade temas entre el campo semántico del significado principal de una palabra y el texto enel que se encuentra. Para constituir la arquitectura del sistema propuesto, analizamos cincométodos de clasificación automática supervisada y tres modelos para la generación derepresentaciones vectoriales de palabras mediante aprendizaje profundo. Nuestro corpusde análisis está compuesto por los neologismos semánticos del ámbito de la informáticapertenecientes a la base datos del Observatorio de Neologia de la Universitat Pompeu Fabra,que han sido registrados desde 1989 hasta 2015. Utilizamos este corpus para evaluarlos distintos métodos que implementa el sistema: clasificación automática, extracción depalabras a partir de contextos cortos y generación de listas de palabras similares. Esteprimer acercamiento metodológico busca establecer un marco de referencia en materia dedetección y extracción de neologismos semánticos.


  • Résumé

    Dins del camp de la neologia, s’han dissenyat diferents aproximacions metodològics pera la detecció i extracció de neologismes semàntics amb tècniques com la desambiguaciósemàntica i el modelatge de temes, però encara no existeix cap proposta d’un sistema pera la detecció d’aquestes unitats. A partir d’un estudi detallat sobre els supòsits teòricsnecessaris per identificar i descriure els neologismes semàntics, en aquesta tesi proposemel desenvolupament d’una aplicació per identificar i buidar aquestes unitats mitjançantestratègies estadístiques, de mineria de dades i d’aprenentatge automàtic. La metodologiaque es planteja es basa en el tractament del procés de detecció i extracció com un problemade classificació, que consisteix a analitzar la concordança de temes entre el campsemàntic del significat principal d’una paraula i el text en què es troba aquesta paraula.Per constituir l’arquitectura del sistema proposat, analitzem cinc mètodes de classificacióautomàtica supervisada i tres models per a la generació de representacions vectorials deparaules mitjançant aprenentatge profund. El nostre corpus d’anàlisi està format pels neologismessemàntics de l’àmbit de la informàtica pertanyents a la base de dades de l’Observatoride Neologia de la Universitat Pompeu Fabra, que s’han registrat des de 1989 fins a2015. Utilitzem aquest corpus per avaluar els diferents mètodes que implementa el sistema:classificació automàtica, extracció de paraules a partir de contextos breus i generacióde llistes de paraules similars. Aquesta primera aproximació metodològica busca establirun marc de referència en matèria de detecció i extracció de neologismes semàntics.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université d'Avignon et des Pays de Vaucluse. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.