Caractérisation logique de données : application aux données biologiques
Auteur / Autrice : | Arthur Chambon |
Direction : | Frédéric Saubion, Frédéric Lardeux |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 13/12/2017 |
Etablissement(s) : | Angers |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et mathématiques (Nantes) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Etudes et de Recherche en Informatique d'Angers - Laboratoire d'Etudes et de Recherche en Informatique d'Angers / LERIA |
Jury : | Président / Présidente : Arnaud Lallouet |
Examinateurs / Examinatrices : Tristan Boureau, Bruno Zanuttini | |
Rapporteurs / Rapporteuses : Laetitia Jourdan, Lakhdar Saïs |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
L’analyse de groupes de données binaires est aujourd’hui un défi au vu des quantités de données collectées. Elle peut être réalisée par des approches logiques. Ces approches identifient dessous-ensembles d’attributs booléens pertinents pour caractériser les observations d’un groupe et peuvent aider l’utilisateur à mieux comprendre les propriétés de ce groupe.Cette thèse présente une approche pour caractériser des groupes de données binaires en identifiant un sous-ensemble minimal d’attributs permettant de distinguer les données de différents groupes.Nous avons défini avec précision le problème de la caractérisation multiple et proposé de nouveaux algorithmes qui peuvent être utilisés pour résoudre ses différentes variantes. Notre approche de caractérisation de données peut être étendue à la recherche de patterns (motifs) dans le cadre de l’analyse logique de données. Un pattern peut être considéré comme une explication partielle des observations positives pouvant être utilisées par les praticiens, par exemple à des fins de diagnostic. De nombreux patterns existent et plusieurs critères de préférence peuvent être ajoutés pour se concentrer sur des ensembles plus restreints (prime patterns,strong patterns,. . .). Nous proposons donc une comparaison entre ces deux méthodologies ainsi que des algorithmes pour générer des patterns. Un autre objectif est d’étudier les propriétés des solutions calculées en fonction des propriétés topologiques des instances. Des expériences sont menées sur de véritables ensembles de données biologiques.