Méthodes de sélection de variables, parmi un grand nombre, dans un cadre de discrimation

par Jean-François Robineau

Thèse de doctorat en Informatique et statistique

Sous la direction de Catherine Garbay.

Soutenue en 2004

à Grenoble 1 .


  • Résumé

    L'objet de ces travaux est le développement de méthodes de sélections de variables en apprentissage supervisé. La problématique de sélection de prédicteurs se rencontre dans le domaine émergeant de la fouille de données qui fait intervenir un grand nombre de variables. Nous cherchons a développer un environnement, a la fois théorique et pratique, afin de mettre en place des méthodes de sélection indépendantes de tout modèle probabiliste et autre méthode de discrimination. En s'inspirant de critères entropiques issus de la théorie de l'information nous proposons un processus de quantisation supervisée des prédicteurs continus suivant la variable de classe préalablement a la sélection des sous-ensembles de variables pertinentes. Les mesures d'information utilisées pour la quantisation supervisée sont par la suite mises en oeuvre dans la procédure de sélection de variables. Divers méthodes de sélection sont proposées, soulignant l'impossibilité pratique de découvrir le sous-ensemble idéal.

  • Titre traduit

    Feature selection supervised learning


  • Résumé

    The purpose of this document is the development of a practical framework for feature selection in supervised learning task. The issue of feature selection is mainly known from data-mining, where one has to deal with many irrelevant variables. We want to develop an environment, both at the same time theoretical and applied, in order to implement feature selection methods independent from any probabilistic model and disciminant algorithm. We propose supervised quantization methods based upon information measures. These methods perform discretization of continuous attribute following the class variable distribution. Following this pre-processing, feature selection methods use similar criteria to generate relevant variable subsets. Several methods are proposed, enlightening the impossible quest for the ideal subset.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 182 f.
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 138 réf.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Service interétablissements de Documentation (Saint-Martin-d'Hères, Isère). Bibliothèque universitaire Médecine Pharmacie.
  • Disponible pour le PEB
  • Cote : TM04/9009
  • Bibliothèque : Bibliothèque interuniversitaire de santé (Paris). Pôle pharmacie, biologie et cosmétologie.
  • Non disponible pour le PEB
  • Cote : MFTH 6528
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.