Thèse soutenue

Modèles neuronaux pour la représentation et l'appariement d'objets géotextuels

FR  |  
EN
Auteur / Autrice : Paul Mousset
Direction : Lynda Tamine-LechaniYoann Pitarch
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 08/07/2020
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)

Résumé

FR  |  
EN

Stimulée par l'usage intensif des téléphones mobiles, l'exploitation conjointe des données textuelles et des données spatiales présentes dans les objets géotextuels (p. ex. tweets, photos Flickr, critiques de points d'intérêt) est devenue la pierre angulaire à de nombreuses applications utilisées quotidiennement, telles que la gestion de crise, l'assistance touristique ou la recommandation de points d'intérêts (POIs). Du point de vue scientifique, ces tâches reposent de façon critique sur la représentation d'objets spatiaux et la définition de fonctions d'appariement entre ces objets. Dans de précédents travaux, ce problème a principalement été traité au moyen de modèles linguistiques qui reposent sur une estimation coûteuse de probabilité de la pertinence des mots dans les régions spatiales. Cependant, ces approches traditionnelles se sont révélées peu efficaces face aux textes issus des réseaux sociaux. En effet, ces derniers sont généralement de courte longueur, utilisent des mots non conventionnels ou ambiguës et peuvent difficilement être mis en correspondance avec d'autres documents, notamment à cause de l'inadéquation du vocabulaire. De fait, les approches proposées jusqu'à présent conduisent généralement à de faibles taux de rappel et de précision. Les travaux réalisés dans cette thèse s'inscrivent dans ce contexte et visent à réduire la discordance de vocabulaire dans les représentations et l'appariement de tweets géotaggés et de POIs. Nous proposons ainsi de tirer parti des contextes géographiques et de la sémantique distributionnelle pour résoudre la tâche de prédiction sémantique de l'emplacement. Notre travail se compose de deux principales contributions : (1) améliorer les plongements lexicaux pouvant être combinés pour construire des représentations d'objets, grâce aux répartitions spatiales des mots ; (2) exploiter les réseaux de neurones profonds pour réaliser un appariement sémantique de tweets avec des POIs. Concernant l'amélioration des représentations de textes, nous proposons une approche de régularisation a posteriori qui intègre l'information spatiale dans l'apprentissage des plongements lexicaux. L'objectif sous-jacent est de révéler d'éventuelles relations sémantiques locales entre les mots, ainsi que la multiplicité des sens d'un même mot. Pour déceler les spécificités locales des différents sens d'un mot, nous proposons deux solutions, l'une s'appuyant sur une technique de partitionnement spatial, via l'algorithme des k-moyennes, l'autre sur un partitionnement probabiliste à l'aide d'estimation de densités (KDE). Les plongements lexicaux sont ensuite corrigés à l'aide d'une fonction de régularisation qui intègre les répartitions spatiales pour déterminer les relations sémantiques locales entre les mots. [...]