Semi-supervised learning in insurance : fairness and active learning - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Semi-supervised learning in insurance : fairness and active learning

Apprentissage semi-supervisé en assurance : équité et apprentissage actif

François Hu
  • Fonction : Auteur
  • PersonId : 1156281
  • IdRef : 263707172

Résumé

Insurance organisations store voluminous textual data sources on a daily basis (free text fields used by telephonists, emails, customer reviews, ...). However, this mass of textual data involves specific issues in terms of regulations, such as compliance with the privacy constraints imposed in Europe by the recent General Data Protection Regulation (GDPR) : this textual data may contain information that is not compliant with the RGPD standards, thus raising ethical issues and cannot be retained by the insurer. Today, this textual data is tagged by experts (oracles) and this process is not suitable for managing large volumes and near real-time information. Therefore, the implementation of an accurate (in terms of prediction), low-cost (in terms of labelling) and ethical (in terms of fairness) learning system is needed in insurance and this thesis addresses and solves some of these challenges. The first challenge is to reduce the labelling effort (thus focusing on data quality) with the help of active learning, a feedback loop between model inference and an oracle: since in insurance unlabelled data is usually abundant, active learning can become an important asset to reduce the cost of labelling. Another major challenge is the issue of fairness in Machine Learning model inferences. Since inequalities and discriminations can be found in the data, learning models are likely to reproduce some unfairness, making them unusable in production. This thesis explores these problems and proposes solutions, especially for multi-class classification tasks. In particular, we propose an algorithmic fairness method that guarantees either exact fairness at the expense of model accuracy, or a compromise between fairness and accuracy called epsilon-fairness. In addition, we propose a fair active learning method that requests informative instances while making the model fair. The proposed methodologies have the advantage of being agnostic with respect to the statistical learning model. These results are studied and applied on real and synthetic datasets.
Les organismes d'assurance stockent quotidiennement des sources de données textuelles volumineuses (zones de texte libre utilisées par les téléconseillers, courriers électroniques, avis des clients, etc.). Cependant, cette masse de données textuelles comporte des enjeux spécifiques en termes de réglementations comme par exemple le respect des contraintes de protection de la vie privée, imposées en Europe par le récent Règlement général sur la protection des données (RGPD) : ces données textuelles peuvent contenir des informations non-conformes aux normes RGPD, soulevant ainsi des questions éthiques et ne peuvent pas être conservées par l'assureur. Aujourd'hui, ces données textuelles sont étiquetées par des experts (oracles) et ce processus n'est pas adapté à la gestion de grands volumes ni à une gestion de l'information en temps quasi réel. Par conséquent, la mise en place d'un système d'apprentissage précis (en termes de prédiction), peu coûteux (en termes d'étiquetage) et éthique (en termes d'équité) est nécessaire en assurance et cette thèse aborde et résout certains de ces défis. Le premier défi est de réduire l'effort d'étiquetage (se concentrant ainsi sur la qualité des données) avec l'aide de l'apprentissage actif, une boucle de rétroaction entre l'inférence du modèle et un oracle : puisqu'en assurance les données non étiquetées sont généralement abondantes, l'apprentissage actif peut devenir un atout important pour réduire le coût de l'étiquetage. Un autre défi majeur est la question de l'équité dans les inférences de modèles ML. Puisque des inégalités et des discriminations peuvent être trouvées dans les données, les modèles d'apprentissage sont susceptibles de reproduire certaines injustices, ce qui les rend inutilisables en production. Cette thèse explore ces problèmes et propose des solutions, notamment pour les tâches de classification multi-classes. En particulier, nous proposons une méthode d'équité algorithmique qui garantit soit une équité exacte au détriment de la précision du modèle, soit un compromis entre équité et précision appelé epsilon-fairness. En outre, nous proposons une méthode d'apprentissage actif équitable qui requête les instances informatives tout en rendant le modèle équitable. Les méthodologies proposées ont l'avantage d'être agnostiques par rapport au modèle d'apprentissage statistique. Ces résultats sont étudiés et appliqués sur des jeux de données réels et synthétiques.
Fichier principal
Vignette du fichier
108571_HU_2022_archivage.pdf (3.6 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03752063 , version 1 (16-08-2022)

Identifiants

  • HAL Id : tel-03752063 , version 1

Citer

François Hu. Semi-supervised learning in insurance : fairness and active learning. Statistics [math.ST]. Institut Polytechnique de Paris, 2022. English. ⟨NNT : 2022IPPAG002⟩. ⟨tel-03752063⟩
262 Consultations
228 Téléchargements

Partager

Gmail Facebook X LinkedIn More