Modèles neuronaux pour la représentation et l'appariement d'objets géotextuels
Auteur / Autrice : | Paul Mousset |
Direction : | Lynda Tamine-Lechani, Yoann Pitarch |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et Télécommunications |
Date : | Soutenance le 08/07/2020 |
Etablissement(s) : | Toulouse 3 |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, informatique et télécommunications (Toulouse) |
Partenaire(s) de recherche : | Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....) |
Mots clés
Résumé
Stimulée par l'usage intensif des téléphones mobiles, l'exploitation conjointe des données textuelles et des données spatiales présentes dans les objets géotextuels (p. ex. tweets, photos Flickr, critiques de points d'intérêt) est devenue la pierre angulaire à de nombreuses applications utilisées quotidiennement, telles que la gestion de crise, l'assistance touristique ou la recommandation de points d'intérêts (POIs). Du point de vue scientifique, ces tâches reposent de façon critique sur la représentation d'objets spatiaux et la définition de fonctions d'appariement entre ces objets. Dans de précédents travaux, ce problème a principalement été traité au moyen de modèles linguistiques qui reposent sur une estimation coûteuse de probabilité de la pertinence des mots dans les régions spatiales. Cependant, ces approches traditionnelles se sont révélées peu efficaces face aux textes issus des réseaux sociaux. En effet, ces derniers sont généralement de courte longueur, utilisent des mots non conventionnels ou ambiguës et peuvent difficilement être mis en correspondance avec d'autres documents, notamment à cause de l'inadéquation du vocabulaire. De fait, les approches proposées jusqu'à présent conduisent généralement à de faibles taux de rappel et de précision. Les travaux réalisés dans cette thèse s'inscrivent dans ce contexte et visent à réduire la discordance de vocabulaire dans les représentations et l'appariement de tweets géotaggés et de POIs. Nous proposons ainsi de tirer parti des contextes géographiques et de la sémantique distributionnelle pour résoudre la tâche de prédiction sémantique de l'emplacement. Notre travail se compose de deux principales contributions : (1) améliorer les plongements lexicaux pouvant être combinés pour construire des représentations d'objets, grâce aux répartitions spatiales des mots ; (2) exploiter les réseaux de neurones profonds pour réaliser un appariement sémantique de tweets avec des POIs. Concernant l'amélioration des représentations de textes, nous proposons une approche de régularisation a posteriori qui intègre l'information spatiale dans l'apprentissage des plongements lexicaux. L'objectif sous-jacent est de révéler d'éventuelles relations sémantiques locales entre les mots, ainsi que la multiplicité des sens d'un même mot. Pour déceler les spécificités locales des différents sens d'un mot, nous proposons deux solutions, l'une s'appuyant sur une technique de partitionnement spatial, via l'algorithme des k-moyennes, l'autre sur un partitionnement probabiliste à l'aide d'estimation de densités (KDE). Les plongements lexicaux sont ensuite corrigés à l'aide d'une fonction de régularisation qui intègre les répartitions spatiales pour déterminer les relations sémantiques locales entre les mots. [...]