Quelques problèmes d’apprentissage statistique en présence de données incomplètes

par Maximilien Baudry

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Christian Yann Robert.

Soutenue le 08-01-2020

à Lyon , dans le cadre de École doctorale en Informatique et Mathématiques de Lyon , en partenariat avec Université Claude Bernard (Lyon) (établissement opérateur d'inscription) et de Laboratoire des Sciences Actuarielles et Financières (laboratoire) .

Le président du jury était Julie Josse.

Le jury était composé de Christian Yann Robert, Gérard Biau, Anne-Laure Fougères.

Les rapporteurs étaient Thierry Artières, Olivier Lopez.


  • Résumé

    La plupart des méthodes statistiques ne sont pas nativement conçues pour fonctionner sur des données incomplètes. L’étude des données incomplètes n’est pas nouvelle et de nombreux résultats ont été établis pour pallier l’incomplétude en amont de l’étude statistique. D’autre part, les méthodes de deep learning sont en général appliquées à des données non structurées de type image, texte ou audio, mais peu de travaux s’intéressent au développement de ce type d’approche sur des données tabulaires, et encore moins sur des données incomplètes. Cette thèse se concentre sur l’utilisation d’algorithmes de machine learning appliqués à des données tabulaires, en présence d’incomplétude et dans un cadre assurantiel. Au travers des contributions regroupées dans ce document, nous proposons différentes façons de modéliser des phénomènes complexes en présence de schémas d’incomplétude. Nous montrons que les approches proposées donnent des résultats de meilleure qualité que l’état de l’art

  • Titre traduit

    Some statistical learning problems with incomplete data


  • Résumé

    Most statistical methods are not designed to directly work with incomplete data. The study of data incompleteness is not new and strong methods have been established to handle it prior to a statistical analysis. On the other hand, deep learning literature mainly works with unstructured data such as images, text or raw audio, but very few has been done on tabular data. Hence, modern machine learning literature tackling data incompleteness on tabular data is scarce. This thesis focuses on the use of machine learning models applied to incomplete tabular data, in an insurance context. We propose through our contributions some ways to model complex phenomena in presence of incompleteness schemes, and show that our approaches outperform the state-of-the-art models


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Claude Bernard. Service commun de la documentation. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.