Amélioration du système de recueils d'information de l'entreprise Semantic Group Company grâce à la constitution de ressources sémantiques
Auteur / Autrice : | Mahaman Sanoussi Yahaya Alassan |
Direction : | Jean-Luc Minel |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage : traitement automatique des langues |
Date : | Soutenance le 05/10/2017 |
Etablissement(s) : | Paris 10 |
Ecole(s) doctorale(s) : | École doctorale Connaissance, langage, modélisation (Nanterre) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire MoDyCo (Nanterre) |
Jury : | Président / Présidente : Delphine Battistelli |
Examinateurs / Examinatrices : Jean-Luc Minel, Delphine Battistelli, Iris Eshkol, Guillaume Cleuziou, Thierry Charnois, Philippe Van Den Bulke | |
Rapporteurs / Rapporteuses : Iris Eshkol, Guillaume Cleuziou |
Mots clés
Mots clés contrôlés
Résumé
Prendre en compte l'aspect sémantique des données textuelles lors de la tâche de classification s'est imposé comme un réel défi ces dix dernières années. Cette difficulté vient s'ajouter au fait que la plupart des données disponibles sur les réseaux sociaux sont des textes courts, ce qui a notamment pour conséquence de rendre les méthodes basées sur la représentation "bag of words" peu efficientes. L'approche proposée dans ce projet de recherche est différente des approches proposées dans les travaux antérieurs sur l'enrichissement des messages courts et ce pour trois raisons. Tout d'abord, nous n'utilisons pas des bases de connaissances externes comme Wikipedia parce que généralement les messages courts qui sont traités par l'entreprise proveniennent des domaines spécifiques. Deuxièment, les données à traiter ne sont pas utilisées pour la constitution de ressources à cause du fonctionnement de l'outil. Troisièment, à notre connaissance il n'existe pas des travaux d'une part qui exploitent des données structurées comme celles de l'entreprise pour constituer des ressources sémantiques, et d'autre part qui mesurent l'impact de l'enrichissement sur un système interactif de regroupement de flux de textes. Dans cette thèse, nous proposons la création de ressources permettant d'enrichir les messages courts afin d'améliorer la performance de l'outil du regroupement sémantique de l'entreprise Succeed Together. Ce dernier implémente des méthodes de classification supervisée et non supervisée. Pour constituer ces ressources, nous utilisons des techniques de fouille de données séquentielles.