Amélioration du système de recueils d'information de l'entreprise Semantic Group Company grâce à la constitution de ressources sémantiques

Mahaman Sanoussi Yahaya Alassan

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Mahaman Sanoussi Yahaya Alassan
Direction :	Jean-Luc Minel
Type :	Thèse de doctorat
Discipline(s) :	Sciences du langage : traitement automatique des langues
Date :	Soutenance le 05/10/2017
Etablissement(s) :	Paris 10
Ecole(s) doctorale(s) :	École doctorale Connaissance, langage, modélisation (Nanterre)
Partenaire(s) de recherche :	Laboratoire : Laboratoire MoDyCo (Nanterre)
Jury :	Président / Présidente : Delphine Battistelli
	Examinateurs / Examinatrices : Jean-Luc Minel, Delphine Battistelli, Iris Eshkol, Guillaume Cleuziou, Thierry Charnois, Philippe Van Den Bulke
	Rapporteurs / Rapporteuses : Iris Eshkol, Guillaume Cleuziou

Mots clés

FR |

EN

Mots clés contrôlés

Classification automatique

Linguistique -- Informatique

Exploration de données

Bases de données textuelles

Mots clés libres

Classification non supervisée de messages courts

Classification supervisée de messages courts

Fouille de motifs séquentielle

Extraction de ressources sémantiques

Méthodes d’évaluation des algorithmes de classification

Résumé

FR |

EN

Prendre en compte l'aspect sémantique des données textuelles lors de la tâche de classification s'est imposé comme un réel défi ces dix dernières années. Cette difficulté vient s'ajouter au fait que la plupart des données disponibles sur les réseaux sociaux sont des textes courts, ce qui a notamment pour conséquence de rendre les méthodes basées sur la représentation "bag of words" peu efficientes. L'approche proposée dans ce projet de recherche est différente des approches proposées dans les travaux antérieurs sur l'enrichissement des messages courts et ce pour trois raisons. Tout d'abord, nous n'utilisons pas des bases de connaissances externes comme Wikipedia parce que généralement les messages courts qui sont traités par l'entreprise proveniennent des domaines spécifiques. Deuxièment, les données à traiter ne sont pas utilisées pour la constitution de ressources à cause du fonctionnement de l'outil. Troisièment, à notre connaissance il n'existe pas des travaux d'une part qui exploitent des données structurées comme celles de l'entreprise pour constituer des ressources sémantiques, et d'autre part qui mesurent l'impact de l'enrichissement sur un système interactif de regroupement de flux de textes. Dans cette thèse, nous proposons la création de ressources permettant d'enrichir les messages courts afin d'améliorer la performance de l'outil du regroupement sémantique de l'entreprise Succeed Together. Ce dernier implémente des méthodes de classification supervisée et non supervisée. Pour constituer ces ressources, nous utilisons des techniques de fouille de données séquentielles.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Amélioration du système de recueils d'information de l'entreprise Semantic Group Company grâce à la constitution de ressources sémantiques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Amélioration du système de recueils d'information de l'entreprise Semantic Group Company grâce à la constitution de ressources sémantiques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses