Thèse soutenue

Approches d'apprentissage automatique pour la modélisation des effets d'un traitement sur une sous-population

FR  |  
EN
Auteur / Autrice : Atef Shaar
Direction : Talel AbdessalemHajer Kefi
Type : Thèse de doctorat
Discipline(s) : Informatique et Réseaux
Date : Soutenance le 14/12/2018
Etablissement(s) : Paris, ENST
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Laboratoire : Laboratoire Traitement et Communication de l'Information / LTCI
Jury : Président / Présidente : Albert Bifet
Examinateurs / Examinatrices : Albert Bifet, Rokia Missaoui, Stéphane Bressan, Olivier Segard
Rapporteur / Rapporteuse : Rokia Missaoui, Stéphane Bressan

Résumé

FR  |  
EN

La modélisation des effets de traitement de sous-population (STEM) est une technique d'apprentissage automatique utilisée pour choisir le traitement optimal (c'est-à-dire un stimulus) pour chaque sous-groupe. L'incertitude de l'information est unproblème critique pour le STEM. L'incertitude sur les données existe en raison du problème fondamental de l'inférence causale, c'est-à-dire que seul un sous-ensemble des réponses des traitements est observé. Dans le domaine de l'apprentissage automatique, des techniques de tri spécifiques sont appliquées pour contourner le problème de l'incertitude. Cependant, l'un des inconvénients des méthodes de tri STEM actuelles est le traitement médiocre des variables de données continues, ordonnées et chronologiques, ce qui conduit à des résultats peu fiables et non interprétables.Dans cette thèse, nous avons d'abord comblé les lacunes de la littérature et proposé une étude détaillée des techniques actuelles. Deuxièmement, nous résolvons les insuffisances en STEM concernant l'incertitude dans les données en proposant des arbres à effet de traitement de sous-population glissant. Troisièmement, nous proposons les forêts aléatoires de voisinage avec effet de traitement des sous-populations afin de minimiser l'effet du bruit dans les données. Quatrièmement, nous abordons le problème de la perturbation dans les données en proposant la technique de modélisation équilibrée du soulèvement par réflexion. Nous évaluons la performance des solutions proposées en utilisant des jeux de données simulés et réels, et nous montrons comment nos approches surpassent les autres méthodes en termes de coefficient de corrélation de rang de Qini et Spearman.