Thèse soutenue

Amélioration du système de recueils d'information de l'entreprise Semantic Group Company grâce à la constitution de ressources sémantiques

FR  |  
EN
Auteur / Autrice : Mahaman Sanoussi Yahaya Alassan
Direction : Jean-Luc Minel
Type : Thèse de doctorat
Discipline(s) : Sciences du langage : traitement automatique des langues
Date : Soutenance le 05/10/2017
Etablissement(s) : Paris 10
Ecole(s) doctorale(s) : École doctorale Connaissance, langage, modélisation (Nanterre)
Partenaire(s) de recherche : Laboratoire : Laboratoire MoDyCo (Nanterre)
Jury : Président / Présidente : Delphine Battistelli
Examinateurs / Examinatrices : Jean-Luc Minel, Delphine Battistelli, Iris Eshkol, Guillaume Cleuziou, Thierry Charnois, Philippe Van Den Bulke
Rapporteurs / Rapporteuses : Iris Eshkol, Guillaume Cleuziou

Résumé

FR  |  
EN

Prendre en compte l'aspect sémantique des données textuelles lors de la tâche de classification s'est imposé comme un réel défi ces dix dernières années. Cette difficulté vient s'ajouter au fait que la plupart des données disponibles sur les réseaux sociaux sont des textes courts, ce qui a notamment pour conséquence de rendre les méthodes basées sur la représentation "bag of words" peu efficientes. L'approche proposée dans ce projet de recherche est différente des approches proposées dans les travaux antérieurs sur l'enrichissement des messages courts et ce pour trois raisons. Tout d'abord, nous n'utilisons pas des bases de connaissances externes comme Wikipedia parce que généralement les messages courts qui sont traités par l'entreprise proveniennent des domaines spécifiques. Deuxièment, les données à traiter ne sont pas utilisées pour la constitution de ressources à cause du fonctionnement de l'outil. Troisièment, à notre connaissance il n'existe pas des travaux d'une part qui exploitent des données structurées comme celles de l'entreprise pour constituer des ressources sémantiques, et d'autre part qui mesurent l'impact de l'enrichissement sur un système interactif de regroupement de flux de textes. Dans cette thèse, nous proposons la création de ressources permettant d'enrichir les messages courts afin d'améliorer la performance de l'outil du regroupement sémantique de l'entreprise Succeed Together. Ce dernier implémente des méthodes de classification supervisée et non supervisée. Pour constituer ces ressources, nous utilisons des techniques de fouille de données séquentielles.