Construction automatique de hiérarchies sémantiques à partir du Trésor de la Langue Française informatisé (TLFi) : application à l'indexation et la recherche d'images
Auteur / Autrice : | Inga Gheorghita |
Direction : | Jean-Marie Pierrel |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage |
Date : | Soutenance le 17/02/2014 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale SLTC - Sociétés, Langages, Temps, Connaissances (Nancy ; 2013-....) |
Partenaire(s) de recherche : | Laboratoire : Analyse et traitement informatique de la langue française (Nancy) |
Jury : | Président / Présidente : Alain Polguère |
Examinateurs / Examinatrices : Cyril March, Yannick Toussaint | |
Rapporteur / Rapporteuse : Béatrice Daille, Brigitte Grau |
Mots clés
Résumé
L’objectif principal de cette thèse est de montrer que les informations lexicales issues d’un dictionnaire de langue, tel le Trésor de la langue française informatisé (TLFi), peuvent améliorer les processus d’indexation et de recherche d’images. Le problème d’utilisation d’une telle ressource est qu’elle n’est pas suffisamment formalisée pour être exploitée d’emblée dans un tel domaine d’application. Pour résoudre ce problème, nous proposons, dans un premier temps, une approche de construction automatique de hiérarchies sémantiques à partir du TLFi. Après avoir défini une caractéristique quantitative (mesurable) et comparable des noms apparaissant dans les définitions lexicographiques, à travers une formule de pondération permettant de sélectionner le nom de poids maximal comme un bon candidat hyperonyme pour un lexème donné du TLFi, nous proposons un algorithme de construction automatique de hiérarchies sémantiques pour les lexèmes des vocables du TLFi. Une fois notre approche validée à travers des évaluations manuelles, nous montrons, dans un second temps, que les hiérarchies sémantiques obtenues à partir du TLFi peuvent être utilisées pour l’enrichissement d’un thésaurus construit manuellement ainsi que pour l’indexation automatique d’images à partir de leurs descriptions textuelles associées. Nous prouvons aussi que l’exploitation d’une telle ressource dans le domaine de recherche d’images améliore la précision de la recherche en structurant les résultats selon les domaines auxquels les concepts de la requête de recherche peuvent faire référence. La mise en place d’un prototype nous a permis ainsi d’évaluer et de valider les approches proposées.