Optimisation et analyse interactive de données : le Problème du Voyageur de Données

par Alexandre Chanson

Projet de thèse en Informatique

Sous la direction de Patrick Marcel et de Vincent T'kindt.

Thèses en préparation à Tours , dans le cadre de Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes - MIPTIS , en partenariat avec Laboratoire d'Informatique Fondamentale et Appliquée de Tours (laboratoire) depuis le 01-11-2020 .


  • Résumé

    L'analyse interactive de données est un processus itératif consistant à effectuer une action (par exemple une requête sur des données), recevoir le résultat et décider de l'action suivante à effectuer. L'automatisation de cette tâche rencontre un certain nombre de verrous : comment déterminer parmi la multitude de données le chemin d'analyse à suivre, comment enchainer au mieux les différents types d'actions (requêtes, calcul de modèles, etc.) comment déterminer qu'un résultat est intéressant pour un objectif d'analyse donné, comment raconter, sous forme de narration de données (data storytelling) le résultat d'une analyse, etc. Le problème qui nous intéresse dans le cadre de cette thèse, est de déterminer un ensemble de requêtes à exécuter en séquence de sorte à maximiser l'intérêt du résultat de ces requêtes par rapport au besoin initial de l'utilisateur. Il est également nécessaire de prendre en compte la durée d'exécution de l'ensemble de ces requêtes de sorte à ce que l'obtention des résultats soit fait dans un temps raisonnable pour l'utilisateur. La problématique soulevée ainsi dans le domaine des bases de données fait ressortir un problème d'optimisation pour lequel les outils de la Recherche Opérationnelle sont pertinents. Une analyse préliminaire fait ressortir une première modélisation de ce problème d'optimisation sous la forme d'un problème de voyageur de commerce (PVC) avec des contraintes particulières : – les villes du PVC sont les requêtes d'analyse, – les distances entre villes correspondent au coût cognitif de passer d'une requête à l'autre dans la construction de la narration. Le coût cognitif total (donc la distance totale entre ville) doit être minimisé, – contrairement au PVC classique : – il est ici possible de ne pas visiter toutes les villes. Il faudra donc envisager de rejeter des villes (requêtes), faisant ainsi ressortir une problématique de type sac à dos (knapsack). Chaque ville étant dotée d'une valeur numérique représentant le gain espéré vis-à-vis de la tâche d'analyse à réaliser, il faudra donc sélectionner les villes maximisant le gain total, – chaque ville aura également une durée de visite qui représente la durée d'exécution de la requête. La somme des durées de visite ne doit pas dépasser un budget imparti. Ce problème d'optimisation est NP-difficile et n'a pas fait l'objet d'études dans la littérature consacrée. Notons que d'autres modélisation pourront être proposées, par exemple, en prenant en compte une contrainte globale sur la diversité des requêtes sélectionnées.

  • Titre traduit

    Optimisation and interactive data analysis: the Traveling Analyst Problem


  • Résumé

    Interactive data analysis is an iterative process of performing an action (such as a query on data), receiving the result, and deciding on the next action to take. The automation of this task encounters a certain number of obstacles: how to determine among the multitude of data the analysis path to follow, how to best chain the different types of actions (queries, model calculation, etc.) how to determine that a result is interesting for a given analysis objective, how to tell, in the form of data storytelling, the result of an analysis, etc. The problem we address in the context of this thesis is to determine a set of queries to be executed in sequence so as to maximize the interest of the result of these queries in relation to the user's initial need. It is also necessary to take into account the execution time of all these queries so that the results are obtained in a reasonable time for the user. The issue thus raised in the field of databases highlights an optimization problem for which the tools of Operational Research are relevant.