Apprentissage semi-supervisé basé sur les graphes avec des graphes manquants et bruités

Mariana Vargas Vieyra

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage semi-supervisé basé sur les graphes avec des graphes manquants et bruités

FR |

EN

Auteur / Autrice :	Mariana Vargas Vieyra
Direction :	Marc Tommasi
Type :	Thèse de doctorat
Discipline(s) :	Informatique et applications
Date :	Soutenance le 27/10/2021
Etablissement(s) :	Université de Lille (2018-2021)
Ecole(s) doctorale(s) :	Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
Partenaire(s) de recherche :	Laboratoire : Centre Inria de l'Université de Lille - Centre de Recherche en Informatique, Signal et Automatique de Lille
Jury :	Président / Présidente : Éric Gaussier
	Examinateurs / Examinatrices : Pascal Denis, Aurélien Bellet, Michalis Vazirgiannis
	Rapporteurs / Rapporteuses : Éric Gaussier, Céline Hudelot

Mots clés

FR |

EN

Mots clés contrôlés

Traitement du signal -- Techniques numériques

Représentations de graphes

Apprentissage supervisé (intelligence artificielle)

Traitement automatique du langage naturel

Mots clés libres

Apprentissage semi-supervisé basé sur les graphes

Données -- Étiquetage

Résumé

FR |

EN

Au cours des dernières années, les méthodes d'apprentissage automatique ont été intégrées dans divers systèmes de traitement du langage naturel. Ces méthodes ont montré des résultats impressionnants dans une variété de tâches dans de multiples domaines, en particulier par l'apprentissage supervisé. Cependant, ces méthodes reposent généralement sur de grandes quantités de données étiquetées, ce qui implique une forte intervention humaine dans le pipeline de modélisation et un coût potentiel élevé pour l'annotation des données. L'apprentissage semi-supervisé basé sur les graphes (GSSL) est un cadre théorique qui atténue ces problèmes en exploitant les informations fournies par les données non étiquetées.Il prend en entrée un ensemble de données et un graphe qui représente les connexions entre les éléments, étiquetés et non étiquetés. Un obstacle dans l'utilisation de GSSL est qu'un graphe n'est pas toujours disponible, et bien qu'il existe des techniques heuristiques pour les construire, elles ne parviennent généralement pas à capturer la véritable topologie des données. Dans cette thèse, nous proposons deux méthodes originales pour traiter les scénarios où les données étiquetées sont rares et où le graphe n'est disponible ou est seulement une observation bruitée d'un vrai graphe inconnu. Notre première méthode combine l'apprentissage des graphes et l'apprentissage des métriques pour apprendre conjointement un graphe et une transformation de données que nous pouvons ensuite insérer dans un algorithme GSSL standard, comme par exemple Label Spreading ou Graph Convolutional Networks. Pour notre deuxième méthode, nous adoptons une approche probabiliste et utilisons les outils des modèles génératifs pour construire un cadre dans lequel nous inférons conjointement un graphe et les paramètres d'un modèle de classification semi-supervisée "end-to-end". Nous montrons empiriquement que nos méthodes donnent des résultats compétitifs dans la classification de textes. De plus, nous obtenons des graphes spécifiques aux tâches qui capturent des propriétés intéressantes sur les données. Finalement, nous identifions les défis et discutons des directions potentielles pour les relever.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage semi-supervisé basé sur les graphes avec des graphes manquants et bruités

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage semi-supervisé basé sur les graphes avec des graphes manquants et bruités

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses