Décompositions tensorielles pour la complétion de bases de connaissance
Auteur / Autrice : | Timothée Lacroix |
Direction : | Renaud Marlet |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 03/07/2020 |
Etablissement(s) : | Paris Est |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2010-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) |
Jury : | Président / Présidente : Anthony Nouy |
Examinateurs / Examinatrices : Renaud Marlet, Pierre Comon, Ryota Tomioka, Mikaella Keller, Nicolas Usunier, Guillaume Obozinski, Thomas Hofmann | |
Rapporteur / Rapporteuse : Pierre Comon, Ryota Tomioka |
Mots clés
Résumé
Dans cette thèse, nous abordons le problème de prédiction de liens dans des tenseurs binaires d'ordre trois et quatre contenant des observations positives uniquement. Ce type de tenseur apparaît dans les problèmes de recommandations sur le web, en bio-informatique pour compléter des bases d'interactions entre protéines, ou plus généralement pour la complétion bases de connaissances. Ces dernières nous permettent d'évaluer nos méthodes de complétion à grande échelle et sur des types de graphes relationnels variés.Notre approche est parallèle à celle de la complétion de matrice. Nous résolvons de manière non-convexe un problème de minimisation empirique régularisé sur des tenseurs de faible rangs. Dans un premier temps, nous validons empiriquement notre approche en obtenant des performances supérieures à l'état de l'art sur de nombreux jeux de données.Ces performances ne peuvent être atteintes que pour des rangs trop élevés pour que cette méthode soit applicable à l'échelle de bases de connaissances complètes. Nous nous intéressons dans un second temps à la décomposition Tucker, plus expressive que la décomposition Canonique, mais plus difficile à optimiser. En corrigeant l'algorithme adaptatif Adagrad, nous arrivons à optimiser efficacement des décompositions Tucker dont le cœur est aléatoire et fixé. Ces méthodes nous permettent d'améliorer les performances en complétion pour une quantité faible de paramètres par entités.Finalement, nous étudions le cas de base de connaissances temporelles, dans lesquels les prédicats ne sont valides que sur certains intervalles de temps. Nous proposons une formulation faible rang et une régularisation adaptée à la structure du problème, qui nous permet d'obtenir des performances supérieures à l'état de l'art.