Cadre général pour la recherche d'information et l'extraction de connaissances par l'exploration de treillis - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2017

General framework for information retrieval and knowledge discovery through lattice exploration

Cadre général pour la recherche d'information et l'extraction de connaissances par l'exploration de treillis

Résumé

During the last two decades, data have literrally overwhelmed the world. Indeed a huge amount of heterogenous data is daily produced, so that techniques of Information Retrieval have to evolve to order them and select relevant ones. On the other side, techniques of Knowledge Discovery are able to extract a potentially exponential number of patterns from data, especially association rules, so that new tools have to be defined to help data analysts in their job. Both information retrieval and knowledge discovery address the same issue : they structure and organize data. Nevertheless their points of view are different : the former selects and ranks data whether the latter classifies and clusters them. Formal Concept Analysis (FCA), introduced by R. Wille, uses concept lattices to reveal both an order and a classification inside data. However, it is well known in the FCA community, that these concept lattices may have an exponential size with respect to data. For all these reasons, tools to reduce the size of data, or lattices, are needed. In this thesis, some distributed algorithms for FCA have been designed in order to reduce input data into small pieces. Different decompositions of lattices have also been studied or defined, some based on congruence relations, other on tolerance relations. At last, to help the user in his choices of reduction, a general framework, named LattExp, have been defined. LattExp provides a navigation facility through reductions/decompositions and guide the user in his choices.
Au cours des deux dernières décennies, nous avons été littéralement submergés par les données. Nous recevons, rapidement, un flux colossal de données hétérogènes. Les techniques issues de la recherche d’information doivent évoluer afin de les ordonner et de les sélectionner. D’un autre côté, les techniques d’extraction de connaissances sont capables d’extraire une quantité (exponentielle) de connaissances des données, en particulier lors de la fouille de règles d’association. De nouveaux outils doivent être fournis aux analystes des données. La recherche d’information et l’extraction de connaissances abordent la même problématique : elles structurent et organisent les données. La première sélectionne et attribue un rang, l’autre partitionne et hiérarchise. L’Analyse des Concepts Formels (FCA), introduite par R. Wille, utilise les treillis de concepts afin de mettre en évidence à la fois un ordre (au sens d’attribuer un rang) et une classification (au sens de partition). Cependant, il est bien connu de la communauté FCA que ces treillis peuvent avoir une taille exponentielle. Pour toutes ces raisons, des outils pour réduire la taille des données ou des treillis, sont nécessaires. Dans cette thèse, nous avons utilisé différentes approches. Des algorithmes distribués pour la FCA ont été définis afin de réduire la taille des données d’entrée en petits morceaux. Différentes méthodes de décomposition de treillis ont été étudiées ou définies. Certaines sont basées sur les relations de congruence, d’autres sur les relations de tolérance. Pour aider l’utilisateur dans ses choix de réduction, un cadre général, nommé LattExp, a été mis en place. LattExp fournit une possibilité de navigation à travers les réductions/décompositions et aide l’utilisateur dans ses choix.
Fichier principal
Vignette du fichier
2017Viaud101487.pdf (2.52 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)
Loading...

Dates et versions

tel-01765724 , version 1 (13-04-2018)

Identifiants

  • HAL Id : tel-01765724 , version 1

Citer

Jean-François Viaud. Cadre général pour la recherche d'information et l'extraction de connaissances par l'exploration de treillis. Recherche d'information [cs.IR]. Université de La Rochelle, 2017. Français. ⟨NNT : 2017LAROS012⟩. ⟨tel-01765724⟩
235 Consultations
310 Téléchargements

Partager

Gmail Facebook X LinkedIn More