Thèse soutenue

Méthodes d'apprentissage approfondi pour l'extraction et le transfert de style

FR  |  
EN
Auteur / Autrice : Omar Mohammed
Direction : Gérard BaillyDamien Pellier
Type : Thèse de doctorat
Discipline(s) : Signal image parole telecoms
Date : Soutenance le 12/11/2019
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Grenoble Images parole signal automatique (2007-....)
Jury : Président / Présidente : Éric Gaussier
Examinateurs / Examinatrices : Damien Pellier, Vincent Barra
Rapporteur / Rapporteuse : Christian Viard-Gaudin, Sylvain Calinon

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L'un des aspects d'une interface homme-machine réussie (p. ex. interaction homme-robot, chatbots, parole, écriture manuscrite, etc.) est la possibilité d'avoir une interaction personnalisée. Cela affecte l'expérience humaine globale et permet une interaction plus fluide. Actuellement, il y a beaucoup de travaux qui utilisent l'apprentissage machine afin de modéliser de telles interactions. Cependant, ces modèles n'abordent pas la question du comportement personnalisé : ils tentent de faire la moyenne des différents exemples provenant de différentes personnes. L'identification des styles humains (persona) ouvre la possibilité de biaiser la sortie des modèles pour prendre en compte la préférence humaine. Dans cette thèse, nous nous sommes concentrés sur le problème des styles dans le contexte de l'écriture manuscrite.L'objectif de cette thèse est d'étudier ces problèmes de styles, dans le domaine de l'écriture. Nous disposons d'un jeu de données IRONOFF, un jeu de données d'écriture manuscrite en ligne, avec 410 rédacteurs, avec ~25K exemples de dessins en majuscules, minuscules et chiffres. Pour le problème de l'apprentissage par transfert, nous avons utilisé un jeu de données supplémentaire, QuickDraw ! (disponible gratuitement sur Google), un jeu de données de dessin d'esquisses contenant environ 50 millions de dessins sur 345 catégories.Les principales contributions de ma thèse sont :1) Proposer un pipeline de travail pour étudier le problème des styles d'écriture. Il s'agit de proposer une méthodologie, des repères et des paramètres d'évaluation (et de fonder ces paramètres d'évaluation).Nous choisissons le paradigme des modèles génératifs temporels dans l'apprentissage profond afin de générer des dessins et d'évaluer leur proximité/pertinence par rapport aux dessins de vérité voulus/de terrain. Nous avons proposé deux métriques, pour évaluer la courbure et la longueur des dessins générés. Afin d'enraciner ces métis, nous avons proposé de multiples repères - dont nous connaissons le pouvoir relatif à l'avance -, puis vérifié que les mesures respectent effectivement la relation de pouvoir relatif.2) Proposer un cadre pour l'étude et l'extraction des styles, et vérifier son avantage par rapport aux repères proposés précédemment.Nous nous sommes mis d'accord sur l'idée d'utiliser un auto-encodeur conditionné en profondeur pour résumer et extraire les informations de style, sans avoir besoin de nous concentrer sur l'identité de la tâche (puisqu'elle est donnée comme une condition). Nous validons ce cadre par rapport au repère proposé précédemment à l'aide de nos paramètres d'évaluation. Nous visualisons également les styles extraits, ce qui nous permet d'obtenir des résultats passionnants !3) En utilisant le cadre proposé, proposer un moyen de transférer l'information sur les styles entre les différentes tâches, et un protocole afin d'évaluer la qualité du transfert.Nous avons exploité le codeur automatique conditionné profond utilisé précédemment, en extrayant la partie codeur - qui, selon nous, contenait les informations pertinentes sur les styles - et en l'utilisant dans de nouveaux modèles formés sur de nouvelles tâches. Nous testons intensivement ce paradigme sur une gamme différente de tâches, à la fois sur les ensembles de données IRONOFF et QuickDraw!. Nous montrons que nous pouvons transférer avec succès les informations de style entre différentes tâches.