Thèse soutenue

Génération et sélection d’ensembles de motifs de graphes avec le principe MDL

FR  |  
EN
Auteur / Autrice : Francesco Bariatti
Direction : Sébastien Ferré
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/11/2021
Etablissement(s) : Rennes 1
Ecole(s) doctorale(s) : MATHSTIC
Partenaire(s) de recherche : Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) - SemLIS
Equipe de recherche : SemLIS
Jury : Président / Présidente : Alexandre Termier
Examinateurs / Examinatrices : Peggy Cellier, Nathalie Pernelle, Arnaud Soulet, Matthijs van Leeuwen‎
Rapporteurs / Rapporteuses : Bruno Crémilleux, Jilles Vreeken

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

De nos jours, dans de nombreux domaines, de grandes quantités de données sont disponibles sous la forme de graphes. En les analysant, un utilisateur peut en extraire de la connaissance utile. Cependant, la taille et la complexité des données rendent leur exploitation complexe pour un humain. Afin de faciliter l’analyse de ces données, des approches de fouille de motifs ont été développées. Elles permettent d’extraire des structures locales fréquentes, appelées motifs, desquels l’utilisateur peut déduire de la connaissance, au lieu d’analyser l’intégralité des données. Un problème courant en fouille de motifs est l’explosion du nombre de motifs extraits. Même sur de petits jeux de données, les ensembles de motifs extraits par les approches classiques sont de très grande taille et contiennent de nombreuses redondances. Dans cette thèse, nous proposons trois approches qui utilisent le principe Minimum Description Length (MDL) afin de générer et de sélectionner des petits ensembles de motifs descriptifs de type graphe à partir de données de type graphe. Pour cela, nous instancions le principe MDL dans un contexte de fouille de motifs de graphe et nous proposons des mesures MDL pour évaluer des ensembles de motifs. Nous introduisons également la notion de ports, permettant de décrire les données comme une composition d’occurrences de motifs sans perte d’information. Nous évaluons toutes nos contributions sur des jeux de données de graphes provenant de différents domaines, y compris du web sémantique.