Résolution d'entités à base de transformeurs : application à la validation des noms et adresses d'entreprises
Auteur / Autrice : | Yassine Guermazi |
Direction : | Omar Boucelma, Sana Sellami |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 03/07/2023 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | École Doctorale Mathématiques et Informatique de Marseille (Marseille) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’Informatique et Systèmes (Marseille ; La Garde, Var ; 2018-….) |
Jury : | Président / Présidente : Alexis Nasr |
Examinateurs / Examinatrices : Omar Boucelma, Sana Sellami, Genoveva Vargas-Solar, Ladjel Bellatreche, Ana-Maria Olteanu-Raimond | |
Rapporteurs / Rapporteuses : Genoveva Vargas-Solar, Ladjel Bellatreche |
Résumé
Pour de nombreuses entreprises, la validation des entités commerciales, définiespar une structure comprenant la raison sociale et l'adresse, est une activité crucialepour faciliter et sécuriser les échanges entre partenaires, comme par exemple dansle processus KYC (Know Your Customer) ou bien, tout simplement, faire parvenir uncolis à destination. Cette activité de validation soulève des défis complexes qui sontliés principalement à la qualité de ces entités et leur fiabilité.Dans cette thèse, nous nous proposons d'aborder cette problématique en répondantaux questions suivantes : 1) Comment qualifier et structurer ces entités en prenanten compte les problèmes liés à la qualité (e.g. typos, abréviations), et l'incomplétudedes données, la polysémie (i.e. des mêmes noms de lieux pouvant faire référenceà différentes localisations), la présence de doublons mais aussi leur fiabilité (e.g.,adresse d'entreprise inexistante)? et 2) Comment intégrer ces différentes entités, lessources de données qui les contiennent, afin de disposer d'un référentiel unique ?La résolution d'entités nous fournit un cadre formel pour répondre à ces questions,notamment en essayant d'identifier différentes descriptions qui réfèrent à une mêmeentité du monde réel. Les solutions récentes pour la résolution d'entités commerciales, particulièrement pour l'appariement des adresses, reposent sur des modèles(statiques) neuronaux de plongement de mots. Néanmoins, elles ne considèrent pasla polysémie ni la validité d'adresses. De plus, les plongements de mots générés parces modèles sont principalement linguistiques et ne prennent en compte le contextede géolocalisation. D'où la nécessite d'incorporer une connaissance supplémentairepermettant d'identifier les adresses ayant la même localisation mais décrites différemment.C'est dans ce cadre formel que nous avons développé une méthodologie comportantdeux phases : (1) la préparation des adresses dans l'objectif de les valider et, (2)l'appariement des entités afin de vérifier leur existence.Pour la préparation, nous proposons une approche de parsing des adresses et leurclassification, qui repose sur RoBERTa, un modèle de langage pré-entraîné à base detransformeurs, permettant d'identifier les cas de polysémie et de vérifier la validitédes adresses.Pour l'appariement des entités, nous proposons une approche de plongementscontextuels de mots générés par RoBERTa, et augmentés par des connaissances géographiques pour mieux capturer les similarités sémantiques entre les entités.Enfin, pour évaluer nos approches, nous avons développé le framework GeoRoBERTa-ER pour la résolution d'entités et nous avons mené des expérimentations sur des jeuxde données réels montrant l'efficacité de nos approches par rapport à des approchesexistantes à base d'apprentissage automatique (profond) issues de la littérature.