Thèse soutenue

Recherche d’information s´emantique : Graphe sémantico-documentaire et propagation d’activation

FR  |  
EN
Auteur / Autrice : Ines Bannour
Direction : Adeline NazarenkoHaïfa Zargayouna
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 09/05/2017
Etablissement(s) : Sorbonne Paris Cité
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : établissement de préparation : Université Sorbonne Paris Nord (Bobigny, Villetaneuse, Seine-Saint-Denis ; 1970-....)
Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
Jury : Président / Présidente : Lynda Tamine-Lechani
Examinateurs / Examinatrices : Thierry Charnois
Rapporteurs / Rapporteuses : Jean-Pierre Chevallet, Nathalie Pernelle

Résumé

FR  |  
EN

La recherche d’information sémantique (RIS), cherche à proposer des modèles qui permettent de s’appuyer, au delà des calculs statistiques, sur la signification et la sémantique des mots du vocabulaire, afin de mieux caractériser les documents pertinents au regard du besoin de l’utilisateur et de les retrouver. Le but est ainsi de dépasser les approches classiques purement statistiques (de « sac de mots »), fondées sur des appariements de chaînes de caractères sur la base des fréquences des mots et de l’analyse de leurs distributions dans le texte. Pour ce faire, les approches existantes de RIS, à travers l’exploitation de ressources sémantiques externes (thésaurus ou ontologies), procèdent en injectant des connaissances dans les modèles classiques de RI de manière à désambiguïser le vocabulaire ou à enrichir la représentation des documents et des requêtes. Il s’agit le plus souvent d’adaptations de ces modèles, on passe alors à une approche « sac de concepts » qui permet de prendre en compte la sémantique notamment la synonymie. Les ressources sémantiques, ainsi exploitées, sont « aplaties », les calculs se cantonnent, généralement, à des calculs de similarité sémantique. Afin de permettre une meilleure exploitation de la sémantique en RI, nous mettons en place un nouveau modèle, qui permet d’unifier de manière cohérente et homogène les informations numériques (distributionnelles) et symboliques (sémantiques) sans sacrifier la puissance des analyses. Le réseau sémantico-documentaire ainsi modélisé est traduit en graphe pondéré. Le mécanisme d’appariement est assuré par une propagation d’activation dans le graphe. Ce nouveau modèle permet à la fois de répondre à des requêtes exprimées sous forme de mots clés, de concepts oumême de documents exemples. L’algorithme de propagation a le mérite de préserver les caractéristiques largement éprouvéesdes modèles classiques de recherche d’information tout en permettant une meilleure prise en compte des modèles sémantiques et de leurs richesse. Selon que l’on introduit ou pas de la sémantique dans ce graphe, ce modèle permet de reproduire une RI classique ou d’assurer en sus certaines fonctionnalités sémantiques. La co-occurrence dans le graphe permet alors de révélerune sémantique implicite qui améliore la précision en résolvant certaines ambiguïtés sémantiques.L’exploitation explicite des concepts ainsi que des liens du graphe, permettent la résolution des problèmes de synonymie, de term mismatch et de couverture sémantique. Ces fonctionnalités sémantiques, ainsi que le passage à l’échelle du modèle présenté, sont validés expérimentalement sur un corpus dans le domaine médical.