Thèse soutenue

Construction automatique de hiérarchies sémantiques à partir du Trésor de la Langue Française informatisé (TLFi) : application à l'indexation et la recherche d'images

FR  |  
EN
Auteur / Autrice : Inga Gheorghita
Direction : Jean-Marie Pierrel
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 17/02/2014
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale SLTC - Sociétés, Langages, Temps, Connaissances (Nancy ; 2013-....)
Partenaire(s) de recherche : Laboratoire : Analyse et traitement informatique de la langue française (Nancy)
Jury : Président / Présidente : Alain Polguère
Examinateurs / Examinatrices : Cyril March, Yannick Toussaint
Rapporteur / Rapporteuse : Béatrice Daille, Brigitte Grau

Résumé

FR  |  
EN

L’objectif principal de cette thèse est de montrer que les informations lexicales issues d’un dictionnaire de langue, tel le Trésor de la langue française informatisé (TLFi), peuvent améliorer les processus d’indexation et de recherche d’images. Le problème d’utilisation d’une telle ressource est qu’elle n’est pas suffisamment formalisée pour être exploitée d’emblée dans un tel domaine d’application. Pour résoudre ce problème, nous proposons, dans un premier temps, une approche de construction automatique de hiérarchies sémantiques à partir du TLFi. Après avoir défini une caractéristique quantitative (mesurable) et comparable des noms apparaissant dans les définitions lexicographiques, à travers une formule de pondération permettant de sélectionner le nom de poids maximal comme un bon candidat hyperonyme pour un lexème donné du TLFi, nous proposons un algorithme de construction automatique de hiérarchies sémantiques pour les lexèmes des vocables du TLFi. Une fois notre approche validée à travers des évaluations manuelles, nous montrons, dans un second temps, que les hiérarchies sémantiques obtenues à partir du TLFi peuvent être utilisées pour l’enrichissement d’un thésaurus construit manuellement ainsi que pour l’indexation automatique d’images à partir de leurs descriptions textuelles associées. Nous prouvons aussi que l’exploitation d’une telle ressource dans le domaine de recherche d’images améliore la précision de la recherche en structurant les résultats selon les domaines auxquels les concepts de la requête de recherche peuvent faire référence. La mise en place d’un prototype nous a permis ainsi d’évaluer et de valider les approches proposées.