Contributions à l'estimation de modèles probabilistes discriminants : apprentissage semi-supervisé et sélection de caractéristiques

Nataliya Sokolovska

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR

Auteur / Autrice :	Nataliya Sokolovska
Direction :	Olivier Cappé, François Yvon
Type :	Thèse de doctorat
Discipline(s) :	Informatique et réseaux
Date :	Soutenance en 2010
Etablissement(s) :	Paris, Télécom ParisTech

Mots clés

FR

Mots clés contrôlés

Traitement automatique du langage naturel

Apprentissage supervisé (intelligence artificielle)

Analyse stochastique

Résumé

FR |

EN

Dans cette thèse nous étudions l'estimation de modèles probabilistes discriminants, surtout des aspects d'apprentissage semi-supervisé et de sélection de caractéristiques. Le but de l'apprentissage semi-supervisé est d'améliorer l'efficacité de l'apprentissage supervisé en utilisant des données non-étiquetées. Cet objectif est difficile à atteindre dans les cas des modèles discriminants. Les modèles probabilistes discriminants permettent de manipuler des représentations linguistiques riches, sous la forme de vecteurs de caractéristiques de très grande taille. Travailler en grande dimension pose des problèmes, en particulier computationnels, qui sont exacerbés dans le cadre de modèles de séquences tels que les champs aléatoires conditionnels (CRF). Notre contribution est double. Nous introduisons une méthode originale et simple pour intégrer des données non étiquetées dans une fonction objectif semi-supervisée. Nous démontrons alors que l'estimateur semi-supervisé correspondant est asymptotiquement optimal. Le cas de la régression logistique est illustré par des résultats d'expèriences. Dans cette étude, nous proposons un algorithme d'estimation pour les CRF qui réalise une sélection de modèle, par le truchement d'une pénalisation L1. Nous présentons également les résultats d'expériences menées sur des tâches de traitement des langues (le chunking et la détection des entités nommées), en analysant les performances en généralisation et les caractéristiques sélectionnées. Nous proposons finalement diverses pistes pour améliorer l'efficacité computationelle de cette technique.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Mots clés

Mots clés contrôlés

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses