Classification d’intentions de requêtes générées par utilisateurs en régime «few-shot» : Application aux agents conversationnels
Auteur / Autrice : | Thomas Dopierre |
Direction : | Christophe Gravier |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 26/11/2021 |
Etablissement(s) : | Lyon |
Ecole(s) doctorale(s) : | École doctorale Sciences Ingénierie Santé (Saint-Etienne) |
Partenaire(s) de recherche : | établissement opérateur d'inscription : Université Jean Monnet (Saint-Étienne ; 1969-....) |
Laboratoire : Laboratoire Hubert Curien (Saint-Etienne ; 1995-....) | |
Jury : | Président / Présidente : Frédérique Laforest |
Examinateurs / Examinatrices : Laure Soulier | |
Rapporteur / Rapporteuse : Jian-Yun Nie, Sophie Rosset |
Mots clés
Résumé
Pour classifier des intentions utilisateurs, une annotation rigoureuse doit être menée. Afin de palier au problème du manque de données annotées, nous avons recours au méthodes de classification ''few-shot''.Dans un premier temps, cette thèse se concentre sur une nouvelle comparaison des méthodes de classification ''few-shot''. Les méthodes étaient comparées avec des encodeurs de textes différents, ce qui amenait à une comparaison biaisée. Lorsqu'on équipe chaque méthode du même encodeur de phrase basé sur un transformer (BERT), des méthodes de classification few-shot plus anciennent reprennent le dessus.Ensuite, nous étudions le pseudo-labeling, c'est à dire l'attribution automatique des pseudo-labels à des données non annontées. Dans ce cadre, nous introduisons une nouvelle méthode de pseudo-labeling inspirée du clustering hiérarchique. Notre méthode, dépourvue de tout hyper-paramètre, sait ignorer les exemples non labelisés qui se trouveraient trop éloignés de la distribution connue. Nous démontrerons également qu'elle est complémentaire aux autres méthodes existantes.En guise de dernière contribution, nous introduisons ProtAugment, une architecture de méta-apprentissage pour le problème de détection d’intention. Cette nouvelle extension entraîne le modèle à retrouver la phrase originale sur la base des prototypes calculés à partir de paraphrases. Nous introduirons également notre propre méthode pour générer des paraphrases, et verrons que la façon dont sont générées ces paraphrases joue un rôle important.Tout le code utilisé pour exécuter les expériences présentées dans cette thèse est disponible sur mon compte github (https://github.com/tdopierre/).