Thèse soutenue

Caractérisation logique de données : application aux données biologiques

FR  |  
EN
Auteur / Autrice : Arthur Chambon
Direction : Frédéric SaubionFrédéric Lardeux
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/12/2017
Etablissement(s) : Angers
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Etudes et de Recherche en Informatique d'Angers - Laboratoire d'Etudes et de Recherche en Informatique d'Angers / LERIA
Jury : Président / Présidente : Arnaud Lallouet
Examinateurs / Examinatrices : Tristan Boureau, Bruno Zanuttini
Rapporteurs / Rapporteuses : Laetitia Jourdan, Lakhdar Saïs

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

L’analyse de groupes de données binaires est aujourd’hui un défi au vu des quantités de données collectées. Elle peut être réalisée par des approches logiques. Ces approches identifient dessous-ensembles d’attributs booléens pertinents pour caractériser les observations d’un groupe et peuvent aider l’utilisateur à mieux comprendre les propriétés de ce groupe.Cette thèse présente une approche pour caractériser des groupes de données binaires en identifiant un sous-ensemble minimal d’attributs permettant de distinguer les données de différents groupes.Nous avons défini avec précision le problème de la caractérisation multiple et proposé de nouveaux algorithmes qui peuvent être utilisés pour résoudre ses différentes variantes. Notre approche de caractérisation de données peut être étendue à la recherche de patterns (motifs) dans le cadre de l’analyse logique de données. Un pattern peut être considéré comme une explication partielle des observations positives pouvant être utilisées par les praticiens, par exemple à des fins de diagnostic. De nombreux patterns existent et plusieurs critères de préférence peuvent être ajoutés pour se concentrer sur des ensembles plus restreints (prime patterns,strong patterns,. . .). Nous proposons donc une comparaison entre ces deux méthodologies ainsi que des algorithmes pour générer des patterns. Un autre objectif est d’étudier les propriétés des solutions calculées en fonction des propriétés topologiques des instances. Des expériences sont menées sur de véritables ensembles de données biologiques.