Interprétation sémantique de transcriptions verbales de dialogues techniques en Français et en Anglais

par Moncef Boukhatem

Projet de thèse en Informatique, données, IA

Sous la direction de Leo Liberti.

Thèses en préparation à l'Institut polytechnique de Paris , dans le cadre de École doctorale de l'Institut polytechnique de Paris , en partenariat avec LIX - Laboratoire d'informatique (laboratoire) depuis le 01-02-2020 .


  • Résumé

    Le principal sujet de cette thèse CIFRE, en partenariat avec le cabinet de conseil en IT Retail OneTeam, est le Natural Language Processing (NLP). Sa spécificité est la conception et la mise en œuvre d'un ChatBot à usage interne. Plus précisément, ses cas d'utilisation seront d'aider à la relation entre les clients de OneTeam et son service client en ligne, d'aider à gérer les tickets techniques concernant les difficultés des clients avec le logiciel de vente au détail. Un ChatBot est une interface NLP entre un humain et une machine. Il est censé comprendre un sous-ensemble limité de langage naturel pertinent pour le contexte de l'application, fournir une d'interaction sous forme de dialogue et être capable de traduire les demandes humaines dans un langage soit semi-formel (à communiquer à un responsable technique) , ou un langage formel (par exemple une requête de recherche), ou un contexte pragmatique (par exemple implémenter un ensemble d'actions tel que lancer un logiciel ou exécuter une requête SQL), ou une combinaison de ceux-ci. Dans le cadre de cette thèse, le ChatBot doit comprendre une description informelle d'un problème technique côté client lié à l'une des applications des suites logicielles de OneTeam, et fournir une interface conditionnelle basée sur un choix booléen: soit la description correspond à un problème existant dans les tickets fermés stockés dans la base de données, ou non. Dans le premier cas, le ChatBot devrait construire la description pragmatique formelle nécessaire pour résoudre le problème client à portée de main. Dans le deuxième cas, le ChatBot doit traduire la description informelle en un ticket ouvert semi-formel à écrire dans la base de données des tickets. Bien que la conception et le déploiement de ChatBots ne soient pas en soi nouveau, le système global requis par OneTeam présente des fonctionnalités qui offre du challenge : 1. la description informelle en entrée peut être une transcription d'un message téléphonique, ce qui rend le texte beaucoup plus entaché d'erreurs, de signes de ponctuation et donc plus difficile à comprendre; 2. le langage limité à comprendre comprend plusieurs acronymes qui peuvent être mal orthographiés dans la description informelle, ainsi que des phrases non grammaticales; 3. dans le cas où le ChatBot doit engendrer directement la solution, il n'y a aucune marge d'erreur dans la compréhension et la bonne traduction formelle pragmatique. Aborder ces caractéristiques nécessitera des recherches scientifiques entre l'algorithmique et la linguistique computationnelle. Un autre défi est que le texte peut être en français ou en anglais, le français étant de loin plus probable. Bien que cette fonctionnalité en elle-même ne soit pas nécessairement originale, il existe une quantité considérablement plus limitée de ressources logicielles NLP disponibles en français par rapport à l'anglais. Cela nécessitera sans aucun doute une conception et une mise en œuvre supplémentaires des tâches de NLP de bas niveau.

  • Titre traduit

    Semantic interpretation of verbal transcriptions of spoken French and English technical dialogues


  • Résumé

    The main topic of investigation for this CIFRE Ph.D. , in partnership with the retail consultancy firm OneTeam, is Natural Language Processing (NLP). Its specificity is the conception and implementation of a ChatBot for internal use. More precisely, its use case will be to assist in the relationship between OneTeam's clients and its online customer service, to help handling technical tickets concerning client difficulties with OneTeam's retail support software. A ChatBot is a NLP interface between a human and the machine. It is supposed to understand a limited subset of natural language relevant to the application context, provide a dialogue-like interaction capability, and be able to translate the human requests into a either a semi-formal language (to be communicated to a technical manager), or a formal language (e.g. a search query), or a pragmatic context (e.g. implement a set of actions such as launch a piece of software or run a SQL query), or a combination thereof. In the context of this Ph.D. proposal, the ChatBot should understand an informal description of a client-side technical problem to do with one of the applications from OneTeam's software suites, and provide a conditional interface based on a boolean choice: either the description matches an existing issue in stored closed tickets database, or not. In the first case, the ChatBot should construct the formal pragmatic description necessary to solve the client problem at hand. In the second case, the ChatBot should translate the informal description to a semi-formal open ticket to be written in the ticket database. While the conception and deployment of ChatBots is not by itself new, the overall system required by OneTeam has some severely challenging features: 1. the informal description in input may be a transcription from a telephone message, which makes the text much more error-ridden, punctuation-challenged, and hence more difficult to understand; 2. the limited language to be understood includes several acronyms that may be mis-spelled in the informal description, as well as ungrammatical sentences; 3. in the case the ChatBot is to directly engender the solution, there is no margin of error in the understanding and translation to the correct formal pragmatics. Addressing these features will require scientific research at the interface between algorithmics and computational linguistics. A further challenge is that the text may be in French or English, with French being by far more likely. While this feature is in itself not necessarily original, there is a severely more limited amount of available NLP software resources in French as compared to English. This will undoubtedly call for some supplementary low-level NLP task conception, design and implementation.