Méthodes d’apprentissage interactif pour la classification des messages courts

Ameni Bouaziz

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Méthodes d’apprentissage interactif pour la classification des messages courts

FR |

EN

Auteur / Autrice :	Ameni Bouaziz
Direction :	Frédéric Precioso
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 19/06/2017
Etablissement(s) :	Université Côte d'Azur (ComUE)
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....)
Partenaire(s) de recherche :	établissement de soutenance : Université de Nice (1965-2019)
	Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes) - Scalable and Pervasive softwARe and Knowledge Systems
Jury :	Président / Présidente : Michaël Krajecki
	Examinateurs / Examinatrices : Frédéric Precioso, Michaël Krajecki, Laurent Heutte, Mathieu Roche, Célia Da Costa Pereira, Christel Dartigues-Pallez, Dario Malchiodi
	Rapporteurs / Rapporteuses : Laurent Heutte, Mathieu Roche

Mots clés

FR |

EN

Mots clés contrôlés

Forêts d'arbres de décision

Sémantique opérationnelle

Classification automatique

Courriels

Mots clés libres

Classification des messages courts

Sémantique

Forêts aléatoires

Interactivité

Résumé

FR |

EN

La classification automatique des messages courts est de plus en plus employée de nos jours dans diverses applications telles que l'analyse des sentiments ou la détection des « spams ». Par rapport aux textes traditionnels, les messages courts, comme les tweets et les SMS, posent de nouveaux défis à cause de leur courte taille, leur parcimonie et leur manque de contexte, ce qui rend leur classification plus difficile. Nous présentons dans cette thèse deux nouvelles approches visant à améliorer la classification de ce type de message. Notre première approche est nommée « forêts sémantiques ». Dans le but d'améliorer la qualité des messages, cette approche les enrichit à partir d'une source externe construite au préalable. Puis, pour apprendre un modèle de classification, contrairement à ce qui est traditionnellement utilisé, nous proposons un nouvel algorithme d'apprentissage qui tient compte de la sémantique dans le processus d'induction des forêts aléatoires. Notre deuxième contribution est nommée « IGLM » (Interactive Generic Learning Method). C'est une méthode interactive qui met récursivement à jour les forêts en tenant compte des nouvelles données arrivant au cours du temps, et de l'expertise de l'utilisateur qui corrige les erreurs de classification. L'ensemble de ce mécanisme est renforcé par l'utilisation d'une méthode d'abstraction permettant d'améliorer la qualité des messages. Les différentes expérimentations menées en utilisant ces deux méthodes ont permis de montrer leur efficacité. Enfin, la dernière partie de la thèse est consacrée à une étude complète et argumentée de ces deux prenant en compte des critères variés tels que l'accuracy, la rapidité, etc.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Méthodes d’apprentissage interactif pour la classification des messages courts

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Méthodes d’apprentissage interactif pour la classification des messages courts

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses