Thèse soutenue

SVETLAN', un système de structuration du lexique guidé par la détermination automatique du contexte thématique

FR  |  
EN
Auteur / Autrice : Gaël de Chalendar
Direction : Gérard SabahBrigitte Grau
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2001
Etablissement(s) : Paris 11

Mots clés

FR

Résumé

FR  |  
EN

Des connaissances sémantiques sont obligatoires pour le Traitement Automatique des Langues. Malheureusement, les classifications à visée universelle sont une utopie. Il existe des systèmes d'extraction de connaissances sémantiques des textes de spécialité par des approches terminologiques mais il est largement reconnu qu'il n'est pas possible d'effectuer une telle extraction de textes de la langue dite " générale ". Cette thèse a pour but de montrer que cette idée est fausse. Nous montrons qu'une analyse thématique de textes non spécialisés (journaux, dépêches de presse en texte intégral ou pages HTML moissonnées sur le Web) permet la plupart du temps de se ramener dans le cadre d'un problème classique de traitement de corpus spécialisé, tout en nécessitant des interventions humaines très réduites. Dans notre approche, le thème des segments de textes est détecté par l'analyse statistique des distributions des mots. Après avoir défini des notions de similarité et d'agrégation, les mots des segments similaires sont agrégés pour former des domaines thématiques dans lesquels les mots de poids élevés décrivent un thème. On regroupe les noms qui apparaissent comme argument d'un même verbe dans les divers segments de texte appartenant à un certain thème, ce qui forme des classes. Notre argumentation est implémentée dans un système informatique. SVETLAN', qui a été testé sur des corpus de plusieurs millions de mots en français et en anglais. L'analyse empirique des résultats montre que, comme prévu, les mots sont très souvent en relation sémantique forte les uns avec les autres dans les classes obtenues, et ce dans le contexte déterminé par le thème. Le jugement humain de classes n'étant pas suffisamment sûr, nous validons de manière indirecte les connaissances acquises par SVETLAN' en les utilisant dans une tâche d'extension de requêtes en vue de l'amélioration des performances d'un système de réponse à des questions en langue naturelle.