Thèse soutenue

Classification et modèles linéaires en analyse des données symboliques

FR
Auteur / Autrice : Oldemar Rodriguez-Rojas
Direction : Edwin Diday
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2000
Etablissement(s) : Paris 9

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Ce travail s'inscrit dans le cadre de l'analyse de données symboliques. Le but de ce travail est de généraliser au cas symbolique certaines techniques de la classification automatique, aussi bien que quelques modèles lineaux. Ces généralisations seront toujours faites d'après deux principes fondamentaux de l'analyse de données symbolique, à savoir : l'analyse de données classique devrait être toujours un cas particulier de l'analyse de données symbolique et dans une analyse de données symbolique, tant la sortie comme l'entrée devraient être symboliques. Nous présentons deux nouveaux algorithmes, qui généralisent au cas symbolique de l'algorithme cap, l'algorithme cap et l'algorithme capso. Nous généralisons, pour les variables de type intervalle, la moyenne, la médiane, la moyenne des valeurs extrèmes, l'écart type, la déviation quartile, boites de dispersion (boxplot) et la correlation. Trois nouvelles méthodes sont aussi présentées pour effectuer la regression simple pour les variables de type intervalle. Nous étendons la methode d'analyse en composantes principales pour données de type histogramme, nous généralisons le cercle des corrélations au cas des variables de type intervalle. Nous proposons une méthode pour l'analyse des tableaux de proximités (multidimensional scaling) pour des données de type intervalle, que nous avons dénommée interscal. Pour chacune des méthodes présentées dans cette thèse un outil de logiciel a été mis en application. Ce logiciel a été dénommé PIMAD symbolique (programme integré de méthodes d'analyse de données symbolique).