Approches séquentielles d'apprentissage profond pour la classification multi-labels de courriers électroniques et l'aide à la décision Application au domaine des Assurances.
Auteur / Autrice : | Haytame Fallah |
Direction : | Patrice Bellot, Elisabeth Murisasco |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/10/2020 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....) |
Partenaire(s) de recherche : | Laboratoire : LIS Laboratoire d'Informatique et Systèmes |
Mots clés
Mots clés libres
Résumé
L'objet de cette thèse consiste à développer des approches et des architectures nouvelles du traitement automatique des langues pour la classification automatique multi-labels de courriers électroniques dans le domaine des Assurances. Le grand volume des données disponibles (courriers échangés) ainsi que la variabilité naturelle de la langue utilisée par les assurés dans leurs courriers incitent à l'adoption d'approches numériques du traitement automatique des langues et plus particulièrement des réseaux neuronaux profonds. L'objectif de la thèse est de proposer une architecture neuronale efficace pour la création d'un classificateur de texte multi-labels, pour de pouvoir comprendre la demande d'un client de l'agence, en identifiant toutes les requêtes qu'il a formulé dans son courrier électronique. Après la classification de la demande, une ou plusieurs actions seront proposées à l'utilisateur du système pour répondre à la demande du client. Pour aider les opérateurs humains à décider s'ils doivent ou non suivre la suggestion automatique d'actions, on pourra effectuer des recherches de cas similaires dans l'historique par des approches de recherche d'information (similarités entre courriers, recherche de paraphrases). Les verrous scientifiques se situent au niveau de la variabilité linguistique présente dans les courriers à traiter (données brutes) et dans la nécessaire prise en compte du contexte pour une bonne interprétation des contenus et une aide à la décision efficace. Le contexte consiste non seulement en des connaissances sur les émetteurs des courriers, les assurés, et en un historique, les courriers précédemment échangés. Les approches numériques pour la classification de textes sont nombreuses et ceci pour chacune des étapes du processus : mise en forme des données en entrée, extraction de descripteurs pertinents, réduction éventuelle du nombre de descripteurs, méthode de classification, mesure de la qualité de la classification. En plus des réseaux neuronaux, plusieurs méthodes de classification seront étudiées afin de comparer les résultats obtenues. Principales étapes de la thèse : 1. Considérer le problème comme étant un problème de classification multi-classes mono-label. 2. Considérer le problème comme celui d'une classification multi-labels. 3. Prendre en compte l'historique des courriers échangés. 4. Au-delà de la classification multi-labels, la segmentation permettra de présenter à l'opérateur humain une justification des labels trouvés (des actions proposées) en mettant en regard les zones correspondantes des courriers. 5. Exploiter les retours des opérateurs humains par renforcement pour améliorer les performances de la classification et éviter la reproduction d'erreurs récurrentes.