Thèse soutenue

Identification de relations sémantiques dans des textes scientifiques et techniques en exploitant le raisonnement à partir de cas

FR
Auteur / Autrice : Fairouz Arina Chakkour
Direction : Amedeo Napoli
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2003
Etablissement(s) : Nancy 1
Partenaire(s) de recherche : autre partenaire : Université Henri Poincaré Nancy 1. Faculté des sciences et techniques

Résumé

FR  |  
EN

Les énoncés en langue naturelle dans les domaines scientifiques et techniques présentent des constructions syntaxiques récurrentes. Nous proposons de mettre en oeuvre un système de raisonnement à partir de cas pour construire une interprétation d'un énoncé en langue naturelle qui puisse être exploitée par un processus de fouille de données textuelle. L'interprétation d'un énoncé, dans le contexte où nous nous situons, consiste à identifier la relation sémantique exprimée par cet énoncé et les arguments liés par cette relation. La difficulté dans l'identification des relations sémantiques est notamment liée à deux phénomènes linguistiques : la polysémie des verbes et la paraphrase. Nous nous sommes intéressée, dans un premier temps, pour illustrer et valider notre modèle, aux relations partie-de et les relations qui peuvent être confondues avec elles comme les relations d'inclusion, de possession et d'attribution. Pour l'identification des relations sémantiques, nous exploitons et appliquons les principes du raisonnement à partir de cas (RàPC). Cette approche utilise plusieurs types de connaissances : une base de cas, une hiérarchie des index et une ontologie, pour construire l'analyse. Nous avons testé le modèle proposé sur deux corpus. Le premier est un corpus de textes sur le stress professionnel, et le deuxième est le corpus AGROVOC de résumés scientifiques en agriculture.