Classification automatique et données manquantes
Auteur / Autrice : | Mohamed Nadif |
Direction : | Gérard Govaert |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 1991 |
Etablissement(s) : | Metz |
Mots clés
Mots clés contrôlés
Résumé
Face à un problème pratique de traitements de données, il arrive souvent qu'un certain nombre desdites données se trouve manquer, et dont l'absence peut être imputable à diverses raisons comme une erreur de saisie ou d'expérimentation ou un refus de répondre. Notre travail a consisté à classifier un ensemble d'individus décrits par des variables binaires ou qualitatives nominales sachant que certaines de ces variables n'ont pas été relevées. Les modèles probabilistes étant notre principal outil pour étudier et proposer des solutions au problème de la classification automatique en présence de données manquantes, nous commencons par rappeler comment la classification peut être vue comme une solution à un problème d'estimation de paramètres d'un modèle de mélanges et comment associer à l'algorithme EM (Estimation, Maximisation) un algorithme CEM (Classification, Estimation, Maximisation). En nous appuyant sur les modèles de Bernoulli et en faisant une hypothèse sur la distribution des données manquantes, nous retenons comme critère, l'espérance de la vraisemblance classifiante. Ensuite, nous utilisons le processus de l'algorithme EM en supposant que les données manquantes suivent le modèle de Bernoulli choisi. De plus, l'extension de cet algorithme est étudiée dans ce travail. Nous nous sommes aussi intéressés à la reconstitution des données non observées. Toutes les méthodes proposées dans cette thèse ont été programmées et intégrées au logiciel d'analyse de données SICLA (système interactif de classification automatique, INRIA) et ont été appliquées sur des données simulées et réelles