Thèse soutenue

Généralisation de motifs séquentiels pour la fouille de données multi-sources

FR  |  
EN
Auteur / Autrice : Julie Bu Daher
Direction : Armelle Brun
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/12/2020
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Isabelle Debled-Rennesson
Examinateurs / Examinatrices : Armelle Brun, Marie-Hélène Abel, Nicolas Lachiche
Rapporteur / Rapporteuse : Marie-Hélène Abel, Nicolas Lachiche

Résumé

FR  |  
EN

La digitalisation de notre monde est souvent associée à une production de grandes quantités de données. Ainsi, des outils de collecte et de stockage de données ont dû être développés, à des fins d’exploitation en recherche ou dans l’industrie. Les données collectées peuvent provenir de plusieurs sources, formant ainsi de gros corpus de données hétérogènes. Ces corpus peuvent être analysés pour extraire de l’information. C’est l’objet de la fouille de données, qui fait l’objet d’un intérêt grandissant depuis de nombreuses années. Différentes approches de fouille de données ont été proposées, parmi lesquelles la très populaire fouille de motifs. La fouille de motifs, qui inclut la fouille de motifs séquentiels, vise à extraire des motifs ordonnés fréquents dans les données.Dans le cadre de sources de données multiples, les données peuvent représenter des points de vue différents sur le phénomène représenté. Par ailleurs, la présence de similarité entre certains éléments de données est une caractéristique classique, qui mène à la perte d’information lors du processus de fouille. L’objectif de cette thèse est de concevoir un algorithme de fouille des motifs dans des données multi-source dans le but d’extraire une information pertinente tout en compensant la perte de motifs due à la similarité entre éléments et en limitant la redondance entre motifs. Plusieurs approches ont été proposées dans la littérature. Certaines fusionnent l’ensemble des sources dans un seul ensemble de données et exploitent un algorithme classique de fouille de motifs, ce qui mène à un algorithme complexe qui extrait un grand nombre de motifs redondants. D’autres fouillent les sources séparément ce qui peut mener à une perte potentielle de motifs. Nous proposons G_SPM, un algorithme de fouille de motifs séquentiels qui tire avantage des multiples sources de données à disposition dans le but de pallier le problème de la similarité entre éléments, en formant des motifs généraux. G_SPM adopte une stratégie de fouille sélective de sources, ce qui lui permet d’avoir une complexité limitée. Par ailleurs, G_SPM fouille dans un premier temps une unique source de données, celle qui lui permet d’avoir des motifs séquentiels les plus précis possibles. Les expérimentations menées confirment que G_SPM identifie des motifs généraux avec un temps d’exécution limité, il permet donc de gérer la similarité entre les éléments en compensant l’éclatement des occurrences sur plusieurs motifs.