Thèse soutenue

Représentation des mots et des connaissances : construction, utilisation et évaluation des plongements euclidiens et hyperboliques

FR  |  
EN
Auteur / Autrice : François Torregrossa
Direction : Guillaume GravierVincent Claveau
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 16/12/2021
Etablissement(s) : Rennes 1
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - LinkMedia
Jury : Président / Présidente : Céline Hudelot
Examinateurs / Examinatrices : Benjamin Piwowarski
Rapporteurs / Rapporteuses : Alexandre Allauzen, Elena Cabrio

Résumé

FR  |  
EN

Les données présentent des natures hétérogènes: textes, graphes et hiérarchies. Dans cette thèse, nous traitons l’ensemble des manières de représenter ces trois types en tirant profit d’espaces géométriques adaptés à chacun. Au départ, nous étudions les plongements de mots pour la représentation de textes et tentons d’évaluer leur qualité et de proposer des propriétés déterminant leur efficacité. L’enrichissement de ces plongements par des connaissances expertes nous permet de mieux traiter une tâche industrielle. À partir de ce constat, nous cherchons d’autres moyens pour obtenir des connaissances structurées (hiérarchies) à partir de sources disponibles gratuitement (Linked Open Data) ou à partir d’informations à plat contenus dans des textes (induction de taxonomies) ou d’autre types de bases de données. Ces hiérarchies de connaissances sont représentés au mieux par des plongements hyperboliques, et nous proposons une nouvelle méthode de plongement dans ces espaces. Le but est de limiter la perte d’information de la hiérarchie à l’espace continue, puis de déterminer une manière de combiner ces nouvelles connaissances dans les plongements de mots usuels.