Thèse soutenue

Extraction d'information et modélisation de connaissances à partir de notes de communication orale

FR
Auteur / Autrice : Fabrice Even
Direction : Noureddine MouaddibChantal Enguehard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2005
Etablissement(s) : Nantes
Ecole(s) doctorale(s) : École doctorale sciences et technologies de l'information et des matériaux (Nantes)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Le travail présenté dans cette thèse porte sur l'Extraction d'Informations à partir de textes non-standards. Les textes non-standards sont des textes qui divergent syntaxiquement et lexicalement des normes usuelles de la langue (petites-annonces, comptes-rendus de conversations orales, etc. ) et possèdent souvent un contenu informatif très important (textes généralement issus d'entreprises). Néanmoins les systèmes traditionnels d'Extraction d'Information s'avèrent quasi-inopérants sur de tels textes. L'absence d'intérêt pour ces textes et la non prise en compte de leurs spécificités dans les recherches en TAL est à l'origine de l'inefficacité des systèmes actuels d'Extraction d'Information. Ces constats nous ont incités à nous pencher sur de tels documents du point de vue de l'extraction d'informations. Nous proposons la méthode MeGET (Méthode Générique d'Extraction d'informations à partir de Textes), une solution fondée sur une modélisation les connaissances contenues dans les textes et intéressantes du point de vue des informations à extraire. Le modèle (ontologie d'extraction) est construit en unifiant une ontologie des besoins décrivant les informations à extraire avec une ontologie des termes conceptualisant les termes du corpus en relation avec les informations recherchées. Le modèle est représenté par des règles de grammaire au formalisme simple et facilement exploitable par un système automatique. L'extraction des informations à partir du texte est réalisé via le système d'extraction SyGET (Système Générique d'Extraction d'informations à partir de Textes) qui procède à un étiquetage marquant dans les textes les instances des éléments de l'ontologie. Ces balises permettent de repérer les informations recherchées.