Classes d'objets et recherche d'information
Auteur / Autrice : | Adrian Toma |
Direction : | Gaston Gross |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage. Linguistique. Informatique |
Date : | Soutenance en 2007 |
Etablissement(s) : | Paris 13 |
Mots clés
Résumé
Cette thèse met en avant l’amélioration du processus de recherche d’information sur le Web par l’emploi des classes d’objets. Les disfonctionnements des outils de recherche proviennent principalement du fait pour le traitement automatique du corpus on a recours à des techniques linguistiques statistiques. Les imprécisions du découpage en mots, l’élimination erronée des mots vides sémantiquement, la polysémie des langues ou le figement sont autant de problèmes dont la solution réside dans l’utilisation d’une nouvelle technologie linguistique, le modèle des classes d’objets. Nous étudions la formalisation informatique des classes d'objets linguistiques, en réalisant une comparaison des notions de classe d’objets en linguistique et en informatique (programmation orientée objet). Dans la représentation informatique des classes – sous forme de bases de données ou fichiers XML – nous exploitons également les hiérarchies que les classes forment à travers les relations d’héritage. Nous nous intéressons aussi à la représentation informatique des domaines ainsi qu’à leur hiérarchie. Nous proposons l’emploi des classes d’objets dans l’amélioration du positionnement des pages Web, dans la reformulation de la requête ainsi que dans l’indexation des fichiers. L’utilisation des classes d’objets dans l’amélioration du positionnement se réalise par le traitement sémantique du contenu qui se sert des dictionnaires électroniques classes d’objets. Le traitement automatique de la requête se fait en ciblant le domaine de l’interrogation à l’aide de la hiérarchie des classes d’objets. Le prototype de logiciel que nous avons réalisé est illustré à l’aide des exemples. Nous analysons ensuite l’indexation « intelligente » des documents, basée sur le modèle des classes d’objets. Son unité d’indexation est non plus le mot mais la structure minimale d’indexation, extraite du schéma d’arguments. Nous montrons ensuite les avantages que ce type d’indexation fournit à la recherche d’information.