Extraction objective et signifiante de motifs intéressants sur la base de leur fréquence
Auteur / Autrice : | Thomas Delacroix |
Direction : | Philippe Lenca |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 21/05/2021 |
Etablissement(s) : | Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) |
Partenaire(s) de recherche : | Laboratoire : Equipe DECIDE - Département Logique des Usages, Sciences sociales et Sciences de l'Information - Laboratoire en sciences et techniques de l'information, de la communication et de la connaissance |
Jury : | Président / Présidente : Jérôme Azé |
Examinateurs / Examinatrices : Philippe Lenca, Pascale Kuntz-Cosperec, Franck Vermet | |
Rapporteurs / Rapporteuses : Jean-Paul Haton, Gilbert Saporta |
Résumé
L'objet de cette thèse est l'étude des processus d'extraction d'informations objectives et intéressantes dans une base de données portant sur la fréquence de cooccurrence de différents attributs dans une population statistique (telles qu'utilisées en itemset mining notamment). On s'intéresse aux notions d’objectivité et de la signification des processus d'extraction. On relie la question de la signification d'un processus à celle de sa modélisation mathématique qui lui est sous-jacente, et on présente une étude détaillée des impacts, en terme de signification, des différents choix de modélisations que l'on peut opérer. Notre analyse fait ressortir la pertinence de l'utilisation de modèles de maximum d'entropie dans ces processus d'extraction. On présente une nouvelle construction mathématique de ces modèles, autour d'une notion d'indépendance contrainte, spécifiquement adaptée au contexte des itemsets. En s'appuyant sur cette construction et sur des outils de géométrie algébrique, on présente une approche exacte pour le calcul des modèles de maximum d'entropie.Enfin, en s'appuyant sur l'ensemble des recommandations sur la modélisation des processus d'extraction ainsi que sur la notion d'indépendance contrainte, on présente un nouvel algorithme d'extraction.