Thèse soutenue

Capturer les contraintes temporelles des modèles graduels

FR  |  
EN
Auteur / Autrice : Dickson Odhiambo Owuor
Direction : Anne LaurentJoseph Onderi Orero
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/10/2020
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)
Jury : Président / Présidente : Pascal Poncelet
Examinateurs / Examinatrices : Anne Laurent, Joseph Onderi Orero, Pascal Poncelet, Marie-Jeanne Lesot, Maria Rifqi, Nicolas Sicard
Rapporteurs / Rapporteuses : Marie-Jeanne Lesot, Maria Rifqi

Résumé

FR  |  
EN

La recherche de motifs fréquents permet d’extraire les corrélations d’attributs par le biais de règles graduelles comme: “plus il y a de X, plus il y a de Y”. Ces corrélations sont utiles pour identifier et isoler des relations entre les attributs qui peuvent ne pas être évidentes grâce à des analyses rapides des données. Par exemple, un chercheur peut appliquer une telle recherche pour déterminer quels attributs d’un ensemble de données présentent des corrélations inconnues afin de les isoler pour une exploration plus approfondie ou une analyse. Supposons que le chercheur dispose d’un ensemble de données qui possède les attributs suivants : âge, montant du salaire, du nombre d’enfants et du niveau d’éducation. Un motif graduel extrait peut prendre la forme “plus le niveau d’éducation est bas, plus le salaire est élevé”. Étant donné que cette relation est rare, il peut être intéressant pour le chercheur de mettre davantage l’accent sur ce phénomène afin de comprendre. Les techniques de recherche de motifs graduels existantes extraient des motifs graduels en (1) générant des les candidats de l’ensemble d’éléments, (2) validant des candidats et (3) en élaguant des candidats invalides en fonction sur la propriété d’anti-monotonie. Cette propriété d’anti-monotonie est telle qu’un candidat est considéré comme invalide si l’un de ses sous-ensembles est invalide. Cette propriété améliore l’efficacité du processus d’élagage. L’efficacité de la génération d’ensembles de candidats peut être améliorée en utilisant une approche heuristique qui optimise le processus. Dans ce travail, nous proposons une technique d’optimisation par des colonies de fourmis qui utilise une approche probabiliste imitant le comportement des fourmis biologiques en cherchant le chemin le plus court pour trouver de la nourriture afin de résoudre des problèmes combinatoires. Nous appliquons la technique d’optimisation des colonies de fourmis afin de générer des candidats des motifs graduels dont la probabilité d’être valide est élevée. Ceci, couplé avec la propriété d'anti-monotonie, se traduit par le développement d’une méthode efficace. Dans notre deuxième contribution, nous étendons l’extraction de modèles graduels existante à l’extraction de motifs graduels avec un décalage temporel approximatif entre ses attributs affectés. Un tel modèle est appelé motif graduel temporel flou. Cela peut prendre par exemple la forme: “plus il y a de X, plus il y a de Y presque 3 mois plus tard” Ces modèles ne peuvent être extraits que de séries de données chronologiques car ils impliquent la présence de l’aspect temporel. Dans notre troisième contribution, nous proposons une donnée modèle de croisement qui permet l’intégration d’implémentations d’algorithmes d’exploration de modèle graduel dans une plateforme Cloud. Cette contribution est motivée par la prolifération des applications IoT dans presque tous les domaines de notre société, ce qui s’accompagne de la fourniture de données chronologiques à grande échelle de différentes sources. Il peut être intéressant pour un chercheur de croiser différentes données de séries chronologiques dans le but d’extraire des motifs graduels temporels des attributs cartographiés. Par exemple un ensemble de données ‘humidité’ peut être temporairement croisé avec un ensemble de données indépendant qui enregistre ‘Population de mouches’, et un schéma peut prendre la forme: “plus l’humidité est élevée, plus vole presque 2 heures plus tard”. Notre méthode met l’accent sur l’intégration de l’exploitation des techniques les plus récentes de plate-formes Cloud, car cela facilite l’accès à nos méthodes en allégeant l’installation et la configuration pour les utilisateurs, permettant ainsi aux utilisateurs de passer plus de temps à se concentrer sur les phénomènes qu’ils analysent.