Thèse soutenue

Extraction de concepts et de relations entre concepts à partir des documents multilingues : approche statistique et ontologique
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Farah Harrathi
Direction : Sylvie CalabrettoMohamed Mohsen Gammoudi
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2009
Etablissement(s) : Lyon, INSA
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon
Partenaire(s) de recherche : Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Les travaux menés dans le cadre de cette thèse se situent dans la problématique de recherche- indexation des documents et plus spécifiquement dans celle de l’extraction des descripteurs sémantiques pour l’indexation. Le but de la Recherche d’Information (RI) est de mettre en œuvre un ensemble de modèles et de systèmes permettant la sélection d’un ensemble de documents satisfaisant un besoin utilisateur en termes d’information exprimé sous forme d’une requête. Un Système de Recherche d’Information (SRI) est composé principalement de deux processus. Un processus de représentation et un processus de recherche. Le processus de représentation est appelé indexation, il permet de représenter les documents et la requête par des descripteurs ou des indexes. Ces descripteurs reflètent au mieux le contenu des documents. Le processus de recherche consiste à comparer les représentations des documents à la représentation de la requête. Dans les SRIs classiques, les descripteurs utilisés sont des mots (simples ou composés). Ces SRIs considèrent le document comme étant un ensemble de mots, souvent appelé “ sac de mots ”. Dans ces systèmes, les mots sont considérés comme des graphies sans sémantique. Les seules informations exploitées concernant ces mots sont leurs fréquences d’apparition dans les documents. Ces systèmes ne prennent pas en considération les relations sémantiques entre les mots. Par exemple, il est impossible de trouver des documents représentés par un mot M1 synonyme d’un mot M2, dans le cas où la requête est représentée par M2. Aussi, dans un SRI classique un document indexé par le terme “ bus ” ne sera jamais retrouvé par une requête indexée par le terme “taxi ”, pourtant il s’agit de deux termes qui traitent le même thème “ moyen de transport ”. Afin de remédier à ces limites, plusieurs travaux se sont intéressés à la prise en compte de l’aspect sémantique des termes d’indexation. Ce type d’indexation est appelé indexation sémantique ou conceptuelle.