Semantic Annotations for Tabular Data Using Embeddings : Application to Datasets Indexing and Table Augmentation

Jixiong Liu

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Production d'annotations sémantiques pour des jeux de données tabulaires à partir de plongements pour l'indexation et la recommandation

FR |

EN

Auteur / Autrice :	Jixiong Liu
Direction :	Ulrich Finger, Raphaël Troncy, Yoan Chabot
Type :	Thèse de doctorat
Discipline(s) :	Sciences de l'ingénieur
Date :	Soutenance le 22/02/2023
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche :	Laboratoire : Institut EURECOM (Sophia-Antipolis, Alpes-Maritimes)
Jury :	Président / Présidente : Paolo Papotti
	Examinateurs / Examinatrices : Ernesto Jiménez-Ruiz
	Rapporteurs / Rapporteuses : Heiko Paulheim, Fatiha Saïs

Mots clés

FR |

EN

Mots clés contrôlés

Représentations de graphes

Sémantique opérationnelle

Données massives

Gestion des données (systèmes d'information)

Structures de données (informatique)

Mots clés libres

Annotation sémantique

Données tabulaires

Graphes de connaissances

Interprétation sémantique de tables

Augmentation de tables

Plongement

Résumé

FR |

EN

Avec le développement de l'Open Data, un grand nombre de sources de données sont mises à disposition des communautés (notamment les data scientists et les data analysts). Ces données constituent des sources importantes pour les services numériques sous réserve que les données soient nettoyées, non biaisées, et combinées à une sémantique explicite et compréhensible par les algorithmes afin de favoriser leur exploitation. En particulier, les sources de données structurées (CSV, JSON, XML, etc.) constituent la matière première de nombreux processus de science des données. Cependant, ces données proviennent de différents domaines pour lesquels l'expertise des consommateurs des données peut être limitée (knowledge gap). Ainsi, l'appropriation des données, étape critique pour la création de modèles d'apprentissage automatique de qualité, peut être complexe.Les modèles sémantiques (en particulier, les ontologies) permettent de représenter explicitement le sens des données en spécifiant les concepts et les relations présents dans les données. L'association d'étiquettes sémantiques aux ensembles de données facilite la compréhension et la réutilisation des données en fournissant une documentation sur les données qui peut être facilement utilisée par un non-expert. De plus, l'annotation sémantique ouvre la voie à des modes de recherche qui vont au-delà de simples mots-clés et permettent l'expression de requêtes d'un haut niveau conceptuel sur le contenu des jeux de données mais aussi leur structure tout en surmontant les problèmes d'hétérogénéité syntaxique rencontrés dans les données tabulaires. Cette thèse introduit un pipeline complet pour l'extraction, l'interprétation et les applications de tableaux de données à l'aide de graphes de connaissances. Nous rappelons tout d'abord la définition des tableaux du point de vue de leur interprétation et nous développons des systèmes de collecte et d'extraction de tableaux sur le Web et dans des fichiers locaux. Nous proposons ensuite trois systèmes d'interprétation de tableaux basés sur des règles heuristiques ou sur des modèles de représentation de graphes, afin de relever les défis observés dans la littérature. Enfin, nous présentons et évaluons deux applications d'augmentation des tables tirant parti des annotations sémantiques produites: l'imputation des données et l'augmentation des schémas.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Production d'annotations sémantiques pour des jeux de données tabulaires à partir de plongements pour l'indexation et la recommandation

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Production d'annotations sémantiques pour des jeux de données tabulaires à partir de plongements pour l'indexation et la recommandation

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses