Apprentissage Few Shot et méthode d'élagage pour la détection d'émotions sur bases de données restreintes
Auteur / Autrice : | Kergann Le Cornec |
Direction : | Vincent Barra |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 03/10/2020 |
Etablissement(s) : | Université Clermont Auvergne (2017-2020) |
Ecole(s) doctorale(s) : | École doctorale des sciences pour l'ingénieur (Clermont-Ferrand) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes |
Jury : | Examinateurs / Examinatrices : Violaine Antoine, Gérard Bailly, Engelbert Mephu-Nguifo |
Rapporteur / Rapporteuse : Stéphane Canu, Antoine Cornuéjols |
Mots clés
Mots clés contrôlés
Résumé
La détection d'émotions joue un rôle majeur dans les relations humaines: une bonne compréhension de l'état émotionnel de l'interlocuteur mène à une bonne compréhension de son discours.De fait, elle est aussi très importante dans les relations humain-machine.Dans le domaine de la détection des émotions par ordinateur,l'apprentissage profond s'est imposé comme l'état de l'art. Cependant,les techniques classiques d'apprentissage profond ne fonctionnent plus lorsque la base d'apprentissage est petite.Cette thèse explore deux pistes de réponse: l'élagage et quelques méthodes d'apprentissage few shot. De nombreuses techniques d'élagage existent, mais se concentrent souvent sur un équilibre entre le pourcentage des poids supprimés et la précision. Nous proposons une nouvelle méthode d'élagage, améliorant le choix des poids à supprimer. Cette technique est basée sur la mise en compétition de deux réseaux : le réseau original et un réseau que nous nommons rival. L'idée est de partager les poids entre ces deux réseaux dans le but de maximiser la précision du modèle. Pendant l'apprentissage, les poids ayant un impact négatif sur la précision vont être supprimés, optimisant ainsi le modèle, tout en améliorant la précision. Cette technique est testée sur différents réseaux et différentes bases de données et atteint l'état de l'art en améliorant la précision tout en supprimant un pourcentage de poids non négligeable. La seconde contribution concerne l'utilisation de réseaux correspondants (réseaux siamois et triple), comme réponse à l'apprentissage sur bases multimodales restreintes. Les deux modalités son et image sont combinées afin d'apprendre leurs caractéristiques principales, pour la détection d'émotions. Nous montrons qu'en se limitant à 200 instances d'entrainement par classe, le réseau triple atteint l'état de l'art (appris sur des centaines de milliers d'instances) sur certaines bases de données.Nous montrons aussi que, pour la classification d'émotions, les réseaux triples offrent une meilleure représentation des émotions, et par conséquent présentent de meilleurs résultats que les réseaux siamois. Une nouvelle fonction de perte basée sur le triplet loss est introduite facilitant l'apprentissage de ces réseaux. Différentes méthodes sont aussi appliquées, offrant des éléments de comparaisons du modèle et plus précisément de la représentation vectorielle. A terme, ces deux méthodes pourront être combinées pour proposer des modèles légers et performants. Comme le nombre de paramètres à apprendre sera plus faible, un réseau triple élagué donnera possiblement de meilleurs résultats.