Thèse soutenue

Extraction de motifs séquentiels dans les flux de données

FR  |  
EN
Auteur / Autrice : Alice-Maria Marascu
Direction : Yves Lechevallier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2009
Etablissement(s) : Nice
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Sophia Antipolis, Alpes-Maritimes)

Mots clés

FR

Résumé

FR  |  
EN

Ces dernières années ont vu apparaître de nombreuses applications traitant des données générées en continu et à de grandes vitesses ; Ces données sont désormais connues sous le nom de flux de données. Leurs quantités de données potentiellement infinies ainsi que les contraintes qui en dérivent posent de nombreux problèmes de traitement. Parmi ces contraintes, citons par exemple l’impossibilité de bloquer un flux de données, ou encore le besoin de produire des résultats en temps réel. Néanmoins, les multiples domaines d’application de ces traitements (comme les transactions bancaires, l��usage du Web, la surveillance des réseaux, etc. ) ont suscité beaucoup d’intérêt tant dans les milieux industriels qu’académiques. Ces quantités potentiellement infinies de données interdisent tout espoir de stockage complet ; toutefois, on a besoin de pouvoir interroger l’historique des flux. Cela conduit au compromis des « résumés » des flux de données et des résultats « approximatifs ». Aujourd’hui, un grand nombre de méthodes propose différents types de résumés des flux de données. Mais le développement incessant de la technologie et des applications afférentes demande un développement au moins équivalent des méthodes d’analyse et de résumé. De plus, l’extraction de motifs séquentiels y est encore peu étudiée : au commencement de cette thèse, il n’existait aucune méthode d’extraction de motifs séquentiels dans les flux de données. Motivés par ce contexte, nous nous sommes intéressés à une méthode qui résume les flux de données d’une manière efficace et fiable et qui permet principalement d’en extraire des motifs séquentiels. Dans cette thèse, nous proposons l’approche CLARA (Classification, Résumés et Anomalies). CLARA permet d’obtenir des clusters à partir d’un flux de séquences d’itemsets, de calculer et gérer des résumés de ces clusters et d’y détecter des anomalies. Les différentes contributions détaillées dans ce mémoire concernent : i) la classification non supervisée de séquences d’itemsets sous forme de flux. A notre connaissance, cette technique est la première à permettre une telle classification. Ii) les résumés de flux de données à l’aide de l’extraction de motifs. Les résumés de CLARA sont composés de motifs séquentiels alignés représentant les clusters associés à leur historique dans le flux. L’ensemble de ces motifs permet de résumé le flux de manière fiable à un instant t. La gestion de l’historique de ces motifs est un point essentiel dans l’analyse des flux. CLARA introduit une nouvelle gestion de la granularité temporelle afin d’optimiser cet historique. Iii) la détection d’anomalies. Cette détection, quand elle concerne les flux, doit être rapide et fiable. En particulier, les contraintes liées aux flux interdisent de consulter l’utilisateur final pour ajuster des paramètres (une anomalie détectée trop tard peu avoir de graves conséquences). Avec CLARA, cette détection est automatique et auto-adaptative. Nous proposons également un cas d’étude sur des données réelles, réalisé en collaboration avec Orange Labs.