Domain Adaptation and Model Combination for the Annotation of Multi-source, Multi-domain Texts

Tian Tian

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Adaptation au domaine et combinaison de modèles pour l’annotation de textes multi-sources et multi-domaines

FR |

EN |

ZH

Auteur / Autrice :	Tian Tian
Direction :	Thierry Poibeau, Marco Dinarelli
Type :	Thèse de doctorat
Discipline(s) :	Sciences du langage
Date :	Soutenance le 16/10/2019
Etablissement(s) :	Paris 3
Ecole(s) doctorale(s) :	École doctorale Langage et langues (Paris)
Partenaire(s) de recherche :	Laboratoire : Langues, textes, traitements informatiques, cognition (Montrouge, Hauts de Seine)
Jury :	Président / Présidente : Sophie Prévost
	Examinateurs / Examinatrices : Thierry Poibeau, Marco Dinarelli, Sophie Prévost, Iris Eshkol, Anne-Laure Ligozat, Patrick Marty
	Rapporteurs / Rapporteuses : Iris Eshkol, Anne-Laure Ligozat

Mots clés

FR |

EN |

ZH

Mots clés contrôlés

Fautes de langage

Web usage mining

Corpus linguistique

Apprentissage automatique

Traitement automatique du langage naturel

Réseaux neuronaux (informatique)

Mots clés libres

Adaptation au domaine

Reconnaissance des entités nommées

Apprentissage automatique

Champs aléaoitres conditionnels

Réseaux de neurones

Résumé

FR |

EN |

ZH

Internet propose aujourd’hui aux utilisateurs de services en ligne de commenter, d’éditer et de partager leurs points de vue sur différents sujets de discussion. Ce type de contenu est maintenant devenu la ressource principale pour les analyses d’opinions sur Internet. Néanmoins, à cause des abréviations, du bruit, des fautes d’orthographe et toutes autres sortes de problèmes, les outils de traitements automatiques des langues, y compris les reconnaisseurs d’entités nommées et les étiqueteurs automatiques morphosyntaxiques, ont des performances plus faibles que sur les textes bien-formés (Ritter et al., 2011).Cette thèse a pour objet la reconnaissance d’entités nommées sur les contenus générés par les utilisateurs sur Internet. Nous avons établi un corpus d’évaluation avec des textes multi-sources et multi-domaines. Ensuite, nous avons développé un modèle de champs conditionnels aléatoires, entrainé sur un corpus annoté provenant des contenus générés par les utilisateurs.Dans le but d’améliorer les résultats de la reconnaissance d’entités nommées, nous avons d’abord développé un étiqueteur morpho-syntaxique sur les contenus générés par les utilisateurs et nous avons utilisé les étiquettesprédites comme un attribut du modèle des champs conditionnels aléatoire. Enfin, pour transformer les contenus générés par les utilisateurs en textes bien-formés, nous avons développé un modèle de normalisation lexicale basé sur des réseaux de neurones pour proposer une forme correcte pour les mots non-standard.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Adaptation au domaine et combinaison de modèles pour l’annotation de textes multi-sources et multi-domaines

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Adaptation au domaine et combinaison de modèles pour l’annotation de textes multi-sources et multi-domaines

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses