Thèse soutenue

Modélisation automatique des conversations en tant que processus d'intentions de discours interdépendantes
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Elena Viorica Epure
Direction : Camille Salinesi
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/12/2018
Etablissement(s) : Paris 1
Ecole(s) doctorale(s) : École doctorale de Management Panthéon-Sorbonne (Paris)
Partenaire(s) de recherche : Equipe de recherche : Université Paris 1 Panthéon-Sorbonne. Centre de recherche en informatique (1986-....)
Laboratoire : Université Paris 1 Panthéon-Sorbonne. Centre de recherche en informatique (1986-....)
Jury : Examinateurs / Examinatrices : Camille Salinesi, David Naccache, Frank Hopfgartner, Christophe Cerisara, Rébecca Deneckere, Alain Wegmann

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

La prolifération des données numériques a permis aux communautés de scientifiques et de praticiens de créer de nouvelles technologies basées sur les données pour mieux connaître les utilisateurs finaux et en particulier leur comportement. L’objectif est alors de fournir de meilleurs services et un meilleur support aux personnes dans leur expérience numérique. La majorité de ces technologies créées pour analyser le comportement humain utilisent très souvent des données de logs générées passivement au cours de l’interaction homme-machine. Une particularité de ces traces comportementales est qu’elles sont enregistrées et stockées selon une structure clairement définie. En revanche, les traces générées de manière proactive sont très peu structurées et représentent la grande majorité des données numériques existantes. De plus, les données non structurées se trouvent principalement sous forme de texte. À ce jour, malgré la prédominance des données textuelles et la pertinence des connaissances comportementales dans de nombreux domaines, les textes numériques sont encore insuffisamment étudiés en tant que traces du comportement humain pour révéler automatiquement des connaissances détaillées sur le comportement.L’objectif de recherche de cette thèse est de proposer une méthode indépendante du corpus pour exploiter automatiquement les communications asynchrones en tant que traces de comportement générées de manière proactive afin de découvrir des modèles de processus de conversations,axés sur des intentions de discours et des relations, toutes deux exhaustives et détaillées.Plusieurs contributions originales sont faites. Il y est menée la seule revue systématique existante à ce jour sur la modélisation automatique des conversations asynchrones avec des actes de langage. Une taxonomie des intentions de discours est dérivée de la linguistique pour modéliser la communication asynchrone. Comparée à toutes les taxonomies des travaux connexes,celle proposée est indépendante du corpus, à la fois plus détaillée et exhaustive dans le contexte donné, et son application par des non-experts est prouvée au travers d’expériences approfondies.Une méthode automatique, indépendante du corpus, pour annoter les énoncées de communication asynchrone avec la taxonomie des intentions de discours proposée, est conçue sur la base d’un apprentissage automatique supervisé. Pour cela, deux corpus "ground-truth" validés sont créés et trois groupes de caractéristiques (discours, contenu et conversation) sont conçus pour être utilisés par les classificateurs. En particulier, certaines des caractéristiques du discours sont nouvelles et définies en considérant des moyens linguistiques pour exprimer des intentions de discours,sans s’appuyer sur le contenu explicite du corpus, le domaine ou les spécificités des types de communication asynchrones. Une méthode automatique basée sur la fouille de processus est conçue pour générer des modèles de processus d’intentions de discours interdépendantes à partir de tours de parole, annotés avec plusieurs labels par phrase. Comme la fouille de processus repose sur des logs d’événements structurés et bien définis, un algorithme est proposé pour produire de tels logs d’événements à partir de conversations. Par ailleurs, d’autres solutions pour transformer les conversations annotées avec plusieurs labels par phrase en logs d’événements, ainsi que l’impact des différentes décisions sur les modèles comportementaux en sortie sont analysées afin d’alimenter de futures recherches.Des expériences et des validations qualitatives à la fois en médecine et en analyse conversationnelle montrent que la solution proposée donne des résultats fiables et pertinents. Cependant,des limitations sont également identifiées, elles devront être abordées dans de futurs travaux.