Approches d'apprentissage automatique pour la modélisation des effets d'un traitement sur une sous-population
Auteur / Autrice : | Atef Shaar |
Direction : | Talel Abdessalem, Hajer Kefi |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et Réseaux |
Date : | Soutenance le 14/12/2018 |
Etablissement(s) : | Paris, ENST |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) |
Laboratoire : Laboratoire Traitement et Communication de l'Information / LTCI | |
Jury : | Président / Présidente : Albert Bifet |
Examinateurs / Examinatrices : Albert Bifet, Rokia Missaoui, Stéphane Bressan, Olivier Segard | |
Rapporteur / Rapporteuse : Rokia Missaoui, Stéphane Bressan |
Résumé
La modélisation des effets de traitement de sous-population (STEM) est une technique d'apprentissage automatique utilisée pour choisir le traitement optimal (c'est-à-dire un stimulus) pour chaque sous-groupe. L'incertitude de l'information est unproblème critique pour le STEM. L'incertitude sur les données existe en raison du problème fondamental de l'inférence causale, c'est-à-dire que seul un sous-ensemble des réponses des traitements est observé. Dans le domaine de l'apprentissage automatique, des techniques de tri spécifiques sont appliquées pour contourner le problème de l'incertitude. Cependant, l'un des inconvénients des méthodes de tri STEM actuelles est le traitement médiocre des variables de données continues, ordonnées et chronologiques, ce qui conduit à des résultats peu fiables et non interprétables.Dans cette thèse, nous avons d'abord comblé les lacunes de la littérature et proposé une étude détaillée des techniques actuelles. Deuxièmement, nous résolvons les insuffisances en STEM concernant l'incertitude dans les données en proposant des arbres à effet de traitement de sous-population glissant. Troisièmement, nous proposons les forêts aléatoires de voisinage avec effet de traitement des sous-populations afin de minimiser l'effet du bruit dans les données. Quatrièmement, nous abordons le problème de la perturbation dans les données en proposant la technique de modélisation équilibrée du soulèvement par réflexion. Nous évaluons la performance des solutions proposées en utilisant des jeux de données simulés et réels, et nous montrons comment nos approches surpassent les autres méthodes en termes de coefficient de corrélation de rang de Qini et Spearman.