Thèse soutenue

Méthodes d'apprentissage statistique pour le scoring

FR  |  
EN
Auteur / Autrice : Marine Depecker
Direction : Stephan ClémençonFrançois Roueff
Type : Thèse de doctorat
Discipline(s) : Signal et images
Date : Soutenance en 2010
Etablissement(s) : Paris, Télécom ParisTech

Résumé

FR  |  
EN

Cette thèse porte sur le développement d'une méthode non-paramétrique pour l'apprentissage supervisé de règles d'ordonnancement à partir de données étiquetées de façon binaire. Cette méthode repose sur le partitionnement récursif de l'espace des observations et généralise la notion d'arbre de décision au problème de l'ordonnancement, les règles de score produites pouvant être représentées graphiquement par des arbres binaires et orientés. Afin de proposer une méthode d'apprentissage flexible, nous introduisons une procédure permettant, à chaque itération de l'algorithme, de scinder l'espace des observations selon diverses règles, adaptatives et complexes, choisies en fonction du problème considéré. De plus, pour lutter contre le phénomène de sur-apprentissage, nous proposons deux procédures de sélection de modèle, fondées sur la maximisation de l'ASC empirique pénalisée par une mesure de la complexité du modèle. Enfin, dans le but de réduire l'instabilité des arbres d'ordonnancement, inhérente à leur mode de construction, nous adaptons deux procédures d'agrégation de règles de prédiction ré-échantillonnées : le bagging (Breiman, 1996) et les forêts aléatoires (Random Forests, Breiman, 2001). Une étude empirique comparative entre différentes configurations de l'algorithme et quelques méthodes de l'état de l'art est présentée, ainsi que l'application à la problématique industrielle de l'objectivation des prestations d'un véhicule automobile. De plus, nous exploitons cette méthode de scoring pour introduire une heuristique de test d'homogénéité entre deux populations, permettant de généraliser les tests de rangs au cas multi-dimensionnel.