Génération et sélection d’ensembles de motifs de graphes avec le principe MDL
Auteur / Autrice : | Francesco Bariatti |
Direction : | Sébastien Ferré |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 23/11/2021 |
Etablissement(s) : | Rennes 1 |
Ecole(s) doctorale(s) : | MATHSTIC |
Partenaire(s) de recherche : | Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - SemLIS |
Equipe de recherche : SemLIS | |
Jury : | Président / Présidente : Alexandre Termier |
Examinateurs / Examinatrices : Peggy Cellier, Nathalie Pernelle, Arnaud Soulet, Matthijs van Leeuwen | |
Rapporteur / Rapporteuse : Bruno Crémilleux, Jilles Vreeken |
Mots clés
Mots clés contrôlés
Résumé
De nos jours, dans de nombreux domaines, de grandes quantités de données sont disponibles sous la forme de graphes. En les analysant, un utilisateur peut en extraire de la connaissance utile. Cependant, la taille et la complexité des données rendent leur exploitation complexe pour un humain. Afin de faciliter l’analyse de ces données, des approches de fouille de motifs ont été développées. Elles permettent d’extraire des structures locales fréquentes, appelées motifs, desquels l’utilisateur peut déduire de la connaissance, au lieu d’analyser l’intégralité des données. Un problème courant en fouille de motifs est l’explosion du nombre de motifs extraits. Même sur de petits jeux de données, les ensembles de motifs extraits par les approches classiques sont de très grande taille et contiennent de nombreuses redondances. Dans cette thèse, nous proposons trois approches qui utilisent le principe Minimum Description Length (MDL) afin de générer et de sélectionner des petits ensembles de motifs descriptifs de type graphe à partir de données de type graphe. Pour cela, nous instancions le principe MDL dans un contexte de fouille de motifs de graphe et nous proposons des mesures MDL pour évaluer des ensembles de motifs. Nous introduisons également la notion de ports, permettant de décrire les données comme une composition d’occurrences de motifs sans perte d’information. Nous évaluons toutes nos contributions sur des jeux de données de graphes provenant de différents domaines, y compris du web sémantique.