Extraction d'information et modélisation de connaissances à partir de notes de communication orale
Auteur / Autrice : | Fabrice Even |
Direction : | Noureddine Mouaddib, Chantal Enguehard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2005 |
Etablissement(s) : | Nantes |
Ecole(s) doctorale(s) : | École doctorale sciences et technologies de l'information et des matériaux (Nantes) |
Mots clés
Mots clés contrôlés
Résumé
Le travail présenté dans cette thèse porte sur l'Extraction d'Informations à partir de textes non-standards. Les textes non-standards sont des textes qui divergent syntaxiquement et lexicalement des normes usuelles de la langue (petites-annonces, comptes-rendus de conversations orales, etc. ) et possèdent souvent un contenu informatif très important (textes généralement issus d'entreprises). Néanmoins les systèmes traditionnels d'Extraction d'Information s'avèrent quasi-inopérants sur de tels textes. L'absence d'intérêt pour ces textes et la non prise en compte de leurs spécificités dans les recherches en TAL est à l'origine de l'inefficacité des systèmes actuels d'Extraction d'Information. Ces constats nous ont incités à nous pencher sur de tels documents du point de vue de l'extraction d'informations. Nous proposons la méthode MeGET (Méthode Générique d'Extraction d'informations à partir de Textes), une solution fondée sur une modélisation les connaissances contenues dans les textes et intéressantes du point de vue des informations à extraire. Le modèle (ontologie d'extraction) est construit en unifiant une ontologie des besoins décrivant les informations à extraire avec une ontologie des termes conceptualisant les termes du corpus en relation avec les informations recherchées. Le modèle est représenté par des règles de grammaire au formalisme simple et facilement exploitable par un système automatique. L'extraction des informations à partir du texte est réalisé via le système d'extraction SyGET (Système Générique d'Extraction d'informations à partir de Textes) qui procède à un étiquetage marquant dans les textes les instances des éléments de l'ontologie. Ces balises permettent de repérer les informations recherchées.