Thèse soutenue

Sélection de données guidée pour les modèles prédictifs

FR  |  
EN
Auteur / Autrice : Marie Le Guilly
Direction : Jean-Marc PetitVasile-Marian Scuturici
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 24/09/2020
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (Lyon ; 2009-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Institut national des sciences appliquées (Lyon ; 1957-....)
Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS
Equipe de recherche : Base de Données
Jury : Président / Présidente : Nicole Bidoit-Tollu
Examinateurs / Examinatrices : Jean-Marc Petit, Vasile-Marian Scuturici, Nicole Bidoit-Tollu, Antoine Cornuejols, Sebastian Link, Mohand-Saïd Hacid
Rapporteurs / Rapporteuses : Antoine Cornuejols, Sebastian Link

Résumé

FR  |  
EN

Les bases de données et l'apprentissage ont historiquement évolués comme deux domaines distincts: alors que les bases de données sont utilisées pour stocker et interroger les données, l'apprentissage se consacre à la détermination de modèle prédictifs, au clustering, etc. Malgré son apparente simplicité, la phase de sélection des données pour l'apprentissage est souvent très chronophage en pratique. Il est intéressante de noter que cet étape fait le pont entre les bases de données et l'apprentissage. Dans ce contexte, nous soulevons et considérons trois problèmes liés à la sélection de données pour les modèles prédictifs. Premièrement, la base de données contient généralement plus que les données d'intérêt: comment séparer les données que l'analyste veut de celles qu'elle ne veut pas? Nous proposons de voir ce problème comme une classification déséquilibrée entre les tuples d'intérêt et le reste de la base de données. Nous développons une méthode de sous-échantillonnage basée sur les dépendances fonctionnelles de la base de données. Deuxièmement, nous discutons de l'écriture de la requête renvoyant les tuples d'intérêt. Nous proposons une solution de complétion de requête SQL basée sur la sémantique des données, qui part d'une requête très générale, et aide un analyste à l'affiner jusqu'à ce qu'elle sélectionne ses données d'intérêt. Ce processus vise à aider l'analyste à concevoir la requête qui finira par sélectionner les données dont elle a besoin. Troisièmement, en supposant que les données ont été extraites avec succès de la base de données, on peut se poser la question suivante: les données sélectionnées sont-elles adaptées pour répondre au problème d'apprentissage considéré ? Puisque construire un modèle prédictif est équivalent à déterminer une fonction, nous soulignons qu'il est logique de d'abord évaluer l'existence de cette fonction dans les données. Cette existence peut être étudiée à travers le prisme des dépendances fonctionnelles, et nous montrons comment elles peuvent être utilisées pour comprendre les limitations d'un modèle et affiner la sélection initiale des données si nécessaire.