Domaines et fouille d'opinion : une étude des marqueurs multi-polaires au niveau du texte
Auteur / Autrice : | Morgane Marchand |
Direction : | Anne Vilnat, Romaric Besançon |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 04/03/2015 |
Etablissement(s) : | Paris 11 |
Ecole(s) doctorale(s) : | Ecole doctorale Informatique de Paris-Sud |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur [Orsay] / LIMSI - Laboratoire Vision et Ingénierie des Contenus / LVIC |
Jury : | Président / Présidente : Sophie Rosset |
Examinateurs / Examinatrices : Anne Vilnat, Romaric Besançon, Sophie Rosset, Béatrice Daille, Thierry Poibeau, Mathieu Valette | |
Rapporteur / Rapporteuse : Béatrice Daille, Thierry Poibeau |
Mots clés
Résumé
Cette thèse s’intéresse à l’adaptation d’un classifieur statistique d’opinion au niveau du texte d’un domaine à un autre. Cependant, nous exprimons notre opinion différemment selon ce dont nous parlons. Un même mot peut ne pas désigner pas la même chose ou bien ne pas avoir la même connotation selon le thème de la discussion. Si ces mots ne sont pas détectés, ils induiront des erreurs de classification.Nous appelons donc marqueurs multi-polaires des mots ou bigrammes dont la présence indique une certaine polarité du texte entier, différente selon le domaine du texte. Cette thèse est consacrées à leur étude. Ces marqueurs sont détectés à l’aide d’un test du khi2 lorsque l’on dispose d’annotations au niveau du texte dans les deux domaines d’intérêt. Nous avons également proposé une méthode de détection semi-supervisé. Nous utilisons une collections de mots pivots auto-épurés afin d’assurer une polarité stable d’un domaine à un autre.Nous avons également vérifié la pertinence linguistique des mots sélectionnés en organisant une campagne d’annotation manuelle. Les mots ainsi validés comme multi-polaires peuvent être des éléments de contexte, des mots exprimant ou expliquant une opinion ou bien désignant l’objet sur lequel l’opinion est portée. Notre étude en contexte a également mis en lumière trois causes principale de changement de polarité : le changement de sens, le changement d’objet et le changement d’utilisation.Pour finir, nous avons étudié l’influence de la détection des marqueurs multi-polaires sur la classification de l’opinion au niveau du texte par des classifieurs automatiques dans trois cas distincts : adaptation d’un domaine source à un domaine cible, corpus multi-domaine, corpus en domaine ouvert. Les résultats de ces expériences montrent que plus le transfert initial est difficile, plus la prise en compte des marqueurs multi-polaires peut améliorer la classification, allant jusqu’à plus cinq points d’exactitude.