Thèse soutenue

Dynamique de l’annotation sémantique, une perspective des systèmes d’accès à l’information

FR  |  
EN
Auteur / Autrice : Ivan Garrido Marquez
Direction : Adeline Nazarenko
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/02/2019
Etablissement(s) : Sorbonne Paris Cité
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Sorbonne Paris Nord (Bobigny, Villetaneuse, Seine-Saint-Denis ; 1970-....)
Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
Jury : Président / Présidente : Patrice Bellot
Examinateurs / Examinatrices : François Lévy, Jorge Juárez García-Flores, Karën Fort
Rapporteurs / Rapporteuses : Nathalie Aussenac-Gilles, Gregory Grefenstette

Mots clés

FR  |  
EN

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

A travers cette étude, se présente une perspective dynamique de l'annotation sémantique. Cette perspective considère le passage du temps et les flux permanents de documents qui font croître les collections et étendre leurs systèmes d'annotation. Nous apportons également une vision de la qualité des systèmes d'annotations basée sur la notion d'accès à l'information et de cohérence. Dans notre vision de la qualité, l'information de vocabulaire d'annotation est la complexité à parcourir par un utilisateur à la recherche d'un certain sujet.Pour répondre au problème de la dynamique dans l'annotation sémantique, cette thèse propose une architecture modulaire pour l'annotation sémantique dynamique. Cette architecture modélise les activités impliquées dans le processus d'annotation sémantique en modules abstraits avec des considérations particulières en fonction de la tâche spécifique.Comme cas d'étude, nous prenons l’annotation de blogs. Nous rassemblâmes un corpus contenant jusqu'à 10 ans de billets de blog annotés avec des catégories et des tags et analysé les habitudes d'annotation observées. Nous explorons la suggestion automatique de tags et de catégories afin de mesurer l'impact de la dynamique dans le système d'annotation. Certaines stratégies pour faire face à cet impact ont été évaluées pour caractériser l'importance de l'âge des exemples.Enfin, nous proposons un cadre de trois mesures de qualité et une méthode interactive pour récupérer la qualité d'un système d'indexation basé sur des annotations sémantiques appuyée par les métriques. Les mesures ont été évaluées au fil du temps pour observer la dégradation de la qualité de l'indexation. Une série d'exemples étudiés sont présentés pour observer la performance des mesures visant à guider la restructuration du système d'annotation de l'indexation.