Découverte interactive et complète de chroniques : application à la co-construction de connaissances à partir de traces
Auteur / Autrice : | Damien Cram |
Direction : | Alain Mille |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 30/09/2010 |
Etablissement(s) : | Lyon 1 |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) |
Jury : | Président / Présidente : Mireille Ducassé |
Examinateurs / Examinatrices : Alain Mille, Florence Le Ber | |
Rapporteur / Rapporteuse : Fabien Gandon, Maguelonne Teisseire |
Mots clés
Résumé
Cette thèse se situe dans le cadre de l'ingénierie de la dynamique des connaissances et s'intéresse plus particulièrement à la découverte interactive de connaissances dans les traces d'interactions. La gestion de la dynamique des connaissances liée à la mise en place d'un environnement de gestion de connaissances constitue le cadre applicatif principal du travail. Les contributions théoriques concernent d'une part la proposition d'un processus de co-construction de connaissances exploitant les capacités d'apprentissage automatique de la machine et les capacités d'interprétation de l'utilisateur et d'autre part une contribution algorithmique permettant d'exploiter de manière interactive un processus de découverte dans des séquences temporelles d'événements. Les traces d'interactions sont des informations que les utilisateurs d'un système informatique laissent lors de leurs activités. Ces informations sont collectées volontairement ou non par le concepteur du système. Lors de la collecte, elles sont représentées dans un format expressif dédié à l'ingénierie des traces, le format des traces modélisées, et sont accessibles par l'intermédiaire d'un système de gestion des traces (SBT) qui gère leur stockage. Nous argumentons que ces traces d'interactions sont des conteneurs de connaissances riches en informations contextuelles et qu'il est possible de les utiliser pour inférer des connaissances pertinentes sur l'activité tracée et exploitables par des systèmes d'assistance à l'utilisateur. Nous proposons un processus de co-construction de connaissances à partir de traces, qui est itératif et interactif. L'humain et la machine jouent tour à tour un rôle dans la construction des connaissances : la machine propose des motifs de comportement de l'utilisateur à partir des traces et l'humain valide ces motifs s'il les reconnaît et les juge intéressants. Dans le cas contraire, il formule de nouvelles requêtes à la machine qui lui propose alors de nouveaux motifs, et ainsi de suite. L'idée est d'implémenter un processus de construction de connaissances ascendant qui prenne en compte les aspects dynamique et contextuel de la connaissance. Pour que la machine puisse jouer un tel rôle pro-actif dans la construction, il faut concevoir un algorithme d'extraction de motifs temporels à partir de traces qui soit complet et qui permette de fournir des motifs en temps réel à l'humain, de sorte que le processus prenne la forme d'un dialogue avec la machine. Une chronique est une structure de motif spécifiant des contraintes temporelles numériques. L'algorithme d'extraction de chroniques fréquentes que nous présentons dans cette thèse pour implémenter ce processus est le premier algorithme d'extraction complète de chroniques à partir de séquences d'événements. Il permet l'interactivité en temps réel avec son utilisateur en affichant les résultats partiels de l'extraction à tout moment. L'algorithme supporte l'intégration de plusieurs types de contraintes temporelles et structurelles permettant à l'utilisateur de faire converger la découverte plus rapidement vers les chroniques d'intérêt. L'algorithme se comporte comme un framework dans la mesure où il peut être configuré pour agir comme les algorithmes d'extraction de chroniques non complets existants, pour découvrir l'ensemble véritablement complet des chroniques fréquentes, ou encore l'ensemble complet des épisodes hybrides fréquents, une certaine forme résumée et simplifiée des chroniques. Lorsqu'il est comparé aux algorithmes existants dans les mêmes conditions, notre algorithme montre des performances tout à fait comparables. L'inconvénient du problème de découverte de chroniques est que l'espace d'exploration s'agrandit exponentiellement avec la longueur des chroniques, si bien qu'il n'est possible de découvrir que des chroniques de faibles longueurs, introduisant la nécessité de réaliser la découverte de manière incrémentale [etc...]