Some statistical learning problems with incomplete data - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Some statistical learning problems with incomplete data

Quelques problèmes d’apprentissage statistique en présence de données incomplètes

Résumé

Most statistical methods are not designed to directly work with incomplete data. The study of data incompleteness is not new and strong methods have been established to handle it prior to a statistical analysis. On the other hand, deep learning literature mainly works with unstructured data such as images, text or raw audio, but very few has been done on tabular data. Hence, modern machine learning literature tackling data incompleteness on tabular data is scarce. This thesis focuses on the use of machine learning models applied to incomplete tabular data, in an insurance context. We propose through our contributions some ways to model complex phenomena in presence of incompleteness schemes, and show that our approaches outperform the state-of-the-art models
La plupart des méthodes statistiques ne sont pas nativement conçues pour fonctionner sur des données incomplètes. L’étude des données incomplètes n’est pas nouvelle et de nombreux résultats ont été établis pour pallier l’incomplétude en amont de l’étude statistique. D’autre part, les méthodes de deep learning sont en général appliquées à des données non structurées de type image, texte ou audio, mais peu de travaux s’intéressent au développement de ce type d’approche sur des données tabulaires, et encore moins sur des données incomplètes. Cette thèse se concentre sur l’utilisation d’algorithmes de machine learning appliqués à des données tabulaires, en présence d’incomplétude et dans un cadre assurantiel. Au travers des contributions regroupées dans ce document, nous proposons différentes façons de modéliser des phénomènes complexes en présence de schémas d’incomplétude. Nous montrons que les approches proposées donnent des résultats de meilleure qualité que l’état de l’art
Fichier principal
Vignette du fichier
TH2020BAUDRYMAXIMILIEN.pdf (10.66 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-02467765 , version 1 (05-02-2020)

Identifiants

  • HAL Id : tel-02467765 , version 1

Citer

Maximilien Baudry. Some statistical learning problems with incomplete data. Statistics [math.ST]. Université de Lyon, 2020. English. ⟨NNT : 2020LYSE1002⟩. ⟨tel-02467765⟩
723 Consultations
274 Téléchargements

Partager

Gmail Facebook X LinkedIn More