Thèse soutenue

Exploration interactive de collections de données guidée par l'humain
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Mehrdad Farokhnejad
Direction : Genoveva Vargas-SolarJavier Alfonso Espinosa Oviedo
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 15/10/2021
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble
Jury : Président / Présidente : Claudia Lucia Roncancio
Examinateurs / Examinatrices : Bernd Amann, Tania Cerquitelli, Vassilis Christophides, Maria-Esther Vidal
Rapporteurs / Rapporteuses : Laurent D'Orazio, Karine Bennis-Zeitouni

Résumé

FR  |  
EN

L’exploration des données vise à guider la compréhension des collections de données et à définir le type de questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. Questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. L’exploration de données traite l’exploration de données porte sur des collections de données numériques brutes et fait face à l’incertitude du contenu et de l’analyse des données. Résultats des requêtes ne peuvent pas être nécessairement corrects et complets (c’est-à-dire des résultats comprenant tous les tuples de données respectant les exigences exprimées par une question). Les moteurs d’exploration de données seront des systèmes de nouvelle génération promouvant une nouvelle philosophie d’interrogation qui converge progressivement vers des requêtes capables d’exploiter des données brutes. Des collections de données qui répondent aux attentes des explorateurs de données (i.e., les utilisateurs). Cette thèse propose HILDEX, un système d’exploration de données basé sur le ”human in the loop” qui permet aux utilisateurs d’explorer des collections de données textuelles en raffinant progressivement les requêtes et les résultats associés. Les collections de données textuelles sont prétraitées à l’aide d’algorithmes de traitement de texte de type Machine Learning et Intelligence Artificielle. HILDEX propose des algorithmes d’exploration (query morphing, queryby example, queries as answers, query generation) qui permettent de raffiner une requête initiale en considérant le contenu des collections à explorer pour augmenter la possibilité de mieux explorer les données. Par conséquent, HILDEX propose un flux de travail pour explorer des textes en analysant des échantillons de données obtenus par des requêtes qui peuvent être affinées par des tâches basées sur le ”human in the loop”. Les résultats de l’exploration partielle sont évalués à l’aide de métriques (rappel, précision, score F1) et d’informations expliquant pourquoi certains documents sont contenus dans ces résultats. En explorant les documents dans les résultats partiels, les explications et les métriques, l’utilisatrice peut décider de continuer à interagir avec HILDEX pour réécrire des requêtes jusqu’à ce qu’elle soit satisfaite à la fois des requêtes et des résultats. Les algorithmes et HILDEX ont été expérimentés sur des données relatives aux crises naturelle (informatique urbaine) et à l’exploration des informations sur la COVID-19.