Thèse soutenue

Vers un traitement automatique de la néosémie : approche textuelle et statistique

FR  |  
EN
Auteur / Autrice : Coralie Reutenauer
Direction : Jean-Marie PierrelEvelyne JacqueyMathieu Valette
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 20/01/2012
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : Ecole doctorale Langages, Temps, Sociétés (LTS) (Nancy-Metz)
Partenaire(s) de recherche : Laboratoire : ATILF - Analyse et traitement informatique de la langue française - UMR 7118
Jury : Président / Présidente : Alain Polguère
Examinateurs / Examinatrices : Ludovic Lebart
Rapporteurs / Rapporteuses : Anne Condamines, Jean-François Sablayrolles

Résumé

FR  |  
EN

L'enjeu de cette thèse est l'acquisition automatique de nouveaux sens lexicaux.Nous définissons un modèle théorique sur l'émergence d'un nouveau sens pour une unité lexicale ayant déjà un sens codé. Le phénomène ciblé est la néologie sémantique, ou néosémie, définie comme une variation sémantique marquée en cours de diffusion. Nous la modélisons à partir d'indices quantitatifs articulés à des principes issus de la sémantique textuelle. Le sens codé est représentécomme un ensemble structuré de traits sémantiques. Il est modulé en discours sous l'effet de récurrences d'autres traits. La dynamique du sens est représentée à l'aide de descripteurs de granularité sémantique variable.Ensuite, nous proposons des ressources et outils adaptés, relevant de la linguistique de corpus. Les ressources sont de deux types, lexicographiques pour le sens codé et textuelles pour le sens en discours. En pratique, le Trésor de la Langue Française informatisé fournit les sens codés. Une plateforme transforme ses définitions en ensembles de traits sémantiques. Trois corpus journalistiques des années 2000 servent de ressources textuelles. Les outils mathématiques, essentiellementstatistiques, permettent de jouer sur la structure des ressources, d'extraire des unités saillantes et d'organiser l'information.Enfin, nous établissons les grandes lignes d'une procédure pour allouer de façon semi-automatique un nouveau sens. Elles sont étayées par des expériences illustratives. Le déroulement de la procédure repose sur des niveaux de description de plus en plus fins (domaines, unités lexicales puis traits sémantiques). Il s'appuie sur des jeux de contrastes multiples, permettant de nuancer l'informationsémantique.