Thèse soutenue

Extraction de motifs séquentiels sous contraintes dans des données contenant des répétitions consécutives
FR
Accès à la thèse
Auteur / Autrice : Marion Leleu
Direction : Jean-François Boulicaut
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2004
Etablissement(s) : Lyon, INSA
Partenaire(s) de recherche : Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Un axe de recherche typique du data mining, et qui nous concerne dans cette thèse, est la recherche de régularités dans des bases de séquences (e. G. , séquences d'achats, de navigation, d'ADN). De nombreux algorithmes ont été proposés pour traiter l'extraction de motifs séquentiels satisfaisant des contraintes variées. Parmi ceux existants, certains exploitent une représentation en mémoire des positions des motifs (listes d'occurences), ce qui permet de réduire les coûts liés aux accès disque lors de l'exécution d'un processus. Cependant, leurs performances peuvent être grandement améliorées lorsque ces données comportent des répétitions consécutives, c'est-à-dire, en quelque sorte, une redondance de certaines informations dans le temps. Par exemple, un client peut acheter plusieurs fois le même article lors d'achats successifs, la même erreur peut se reproduire plusieurs fois d'affilé sur un réseau informatique, ou encore, comme c'est le cas dans notre contexte d'application (traitement de données financières où l'évolution de produits boursiers est représentée par des séquences d'évènements), lorsque les séquences sont construites à partir de données quantitatives discrétisées. Dans cette thèse, nous tentons d'apporter des solutions efficaces au problème de l'extraction, contrainte ou non, de motifs séquentiels, dans le cas de données contenant des répétitions consécutives. Celles-ci s'appuient sur une généralisation des listes d'occurences et proposent de condenser les informations qu'elles contiennent, sans perte pour les extractions. Cette nouvelle représentation a donné lieu aux développements d'extracteurs de motifs séquentiels, GoSpade (traitement de la seule contrainte de fréquence minimum) et GoSpec (traitement de contraintes temporelles), particulièrement bien adaptés à la présence de répétitions consécutives dans les données. Les algorithmes correspondants ont respectivement fait l'objet d'une démonstration de justesse et de complétude afin d'assurer la correction des résultats qu'ils retournent. De plus, il a été montré, par des expérimentations sur des jeux de données réelles et synthétiques, que ces extracteurs présentaient une nette amélioration des performances en présence de répétitions consécutives. Les gains obtenus, en terme d'espace mémoire et de temps d'exécution, permettent de travailler sur des volumes de données plus importants et à des seuils de fréquence plus faibles, dans des temps raisonnables. Enfin, une application dans le domaine des marchés financiers, visant à construire une représentation synthétique de différentes tendances boursières sous forme de motifs séquentiels caractéristiques, a été effectuée. Nous avons pu montrer que des motifs fréquents constituant une tendance contiennent une information qui est bien spécifique de la tendance représentée.