Thèse soutenue

Méthodes de description de classes " minimisant " le débordement combinant classification et discrimination en analyse de données symboliques

FR  |  
EN
Auteur / Autrice : Mohamed Mehdi Limam
Direction : Edwin Diday
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2005
Etablissement(s) : Paris 9

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Dans ce travail, nous nous intéressons au problème d'une classe d'individus issue d'une population. Pour cela, notre intérêt se porte sur deux familles de méthodes apportant un grand potentiel descriptif qui sont les méthodes descendantes de classification et les méthodes descendantes de discrimination ou de segmentation. En effet, les méthodes de classification ont été conçues pour diviser une population d'individus afin d'obtenir une partition en plusieurs classes homogènes par rapport aux variables décrivant ces individus. Les méthodes de segmentation consistent à diviser une population afin d'obtenir une partition en plusieurs classes homogènes par rapport à une variable à expliquer. La recherche d'une description d'une classe d'individus en utilisant l'une de ces deux familles est alors basée sur la recherche de groupes ayant l'une des qualités suivantes: les groupes sont homogènes soit par rapport à une variable à expliquer soit par rapport aux variables descriptives. Nous proposons alors dans ce travail une méthode permettant de trouver une description à partir d'une recherche de classes ayant ces deux qualités simultanément. De plus, la description recherchée doit inclure le moins possible d'individus n'appartenant pas à la classe à décrire. Notre approche est basée sur une méthode descendante, qui divise successivement la population en deux classes. On utilise une approche monothétique donnant une interprétation claire des classes trouvées. La division repose sur une combinaison de trois sous-critères: un critère d'inertie, un critère d'impureté et un critère de débordement. La description recherchée doit pouvoir exprimer la variation interne à la classe d'individus. Pour cela, nous plongeons la problématique ci-dessus dans le cadre de l'analyse de données symboliques qui permet une meilleure modélisation des variations et des imprécisions des données réelles. Une seconde contribution porte sur le résumé d'une information détaillée stockée dans une base de données et structurée en groupes disjoints d'individus, à une information résumée de chacun de ces groupes sous forme de données symboliques. Lorsque les données à résumer sont hétérogènes, les données symboliques obtenues incluent des observations potentielles. Nous proposons alors une méthode d'extraction de descriptions symboliques par partitionnement de chacun des groupes à résumer en groupes homogènes. Cette méthode est basée sur l'approche présentée ci-dessus. Chaque groupe est résumé par plusieurs descriptions symboliques qui ont la particularité d'exprimer les caractéristiques qui soit distinguent soit rapproche ce groupe des autres. Analyse de données, analyse de données symboliques, classification automatique, discrimination, segmentation, arbre de décision, dissimilarité, base de données relationnelles.