Human-guided exploration of datasets - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Human-guided exploration of datasets

Exploration interactive de collections de données guidée par l'humain

Résumé

Data exploration aims to guide the understanding of data collections anddefine the type of questions that can be asked on top, often in interactiveexploration processes. Data exploration deals with raw digital data collectionscoping with the uncertainty of data content and analysis where query resultscannot be necessarily correct and complete (i.e., results consisting in allthe data tuples respecting requirements expressed by a question). Dataexploration engines will be next-generation systems promoting a new queryingphilosophy that gradually converges into queries that can exploit raw datacollections that cope with data explorers (i.e., users) expectations.This thesis proposes HILDEX, a human in the loop-based data explorationsystem that enables users to explore textual data collections by graduallyrefining queries and associated results. Textual data collections are pre-processed using Machine Learning and Artificial Intelligence text processingalgorithms.HILDEX implements exploration algorithms proposed in this work (querymorphing, query by example, queries as answers) that allow refining aninitial query by considering the content of the collections to be exploredto increase the possibility to explore the data better. Therefore, HILDEXproposes a workflow to explore texts by analysing data samples obtained byqueries that can be refined through human in the loop-based tasks. Partialexploration results are assessed through metrics ( precision, similarity) andinformation that explains why some documents are contained in these results.By exploring documents in partial results, explanations and metrics, the usercan decide to continue interacting with HILDEX for rewriting queries untilshe is satisfied with both queries and results. The algorithms and HILDEXhave been experimented on data related to crises in urban computing andthe exploration of information on COVID-19.
L’exploration des données vise à guider la compréhension des collections de données et à définir le type de questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. Questions qui peuvent être posées dessus, souvent dans le cadre de processus d’exploration interactifs. L’exploration de données traite l’exploration de données porte sur des collections de données numériques brutes et fait face à l’incertitude du contenu et de l’analyse des données. Résultats des requêtes ne peuvent pas être nécessairement corrects et complets (c’est-à-dire des résultats comprenant tous les tuples de données respectant les exigences exprimées par une question). Les moteurs d’exploration de données seront des systèmes de nouvelle génération promouvant une nouvelle philosophie d’interrogation qui converge progressivement vers des requêtes capables d’exploiter des données brutes. Des collections de données qui répondent aux attentes des explorateurs de données (i.e., les utilisateurs). Cette thèse propose HILDEX, un système d’exploration de données basé sur le ”human in the loop” qui permet aux utilisateurs d’explorer des collections de données textuelles en raffinant progressivement les requêtes et les résultats associés. Les collections de données textuelles sont prétraitées à l’aide d’algorithmes de traitement de texte de type Machine Learning et Intelligence Artificielle. HILDEX propose des algorithmes d’exploration (query morphing, queryby example, queries as answers, query generation) qui permettent de raffiner une requête initiale en considérant le contenu des collections à explorer pour augmenter la possibilité de mieux explorer les données. Par conséquent, HILDEX propose un flux de travail pour explorer des textes en analysant des échantillons de données obtenus par des requêtes qui peuvent être affinées par des tâches basées sur le ”human in the loop”. Les résultats de l’exploration partielle sont évalués à l’aide de métriques (rappel, précision, score F1) et d’informations expliquant pourquoi certains documents sont contenus dans ces résultats. En explorant les documents dans les résultats partiels, les explications et les métriques, l’utilisatrice peut décider de continuer à interagir avec HILDEX pour réécrire des requêtes jusqu’à ce qu’elle soit satisfaite à la fois des requêtes et des résultats. Les algorithmes et HILDEX ont été expérimentés sur des données relatives aux crises naturelle (informatique urbaine) et à l’exploration des informations sur la COVID-19.
Fichier principal
Vignette du fichier
FAROKHNEJAD_2021_archivage.pdf (35.68 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03580594 , version 1 (18-02-2022)

Identifiants

  • HAL Id : tel-03580594 , version 1

Citer

Mehrdad Farokhnejad. Human-guided exploration of datasets. Artificial Intelligence [cs.AI]. Université Grenoble Alpes [2020-..], 2021. English. ⟨NNT : 2021GRALM039⟩. ⟨tel-03580594⟩
104 Consultations
3 Téléchargements

Partager

Gmail Facebook X LinkedIn More