Veille stratégique assistée sur des bases de données d’appels d’offres par traitement automatique de la langue naturelle et fouille de textes
Auteur / Autrice : | Oussama Ahmia |
Direction : | Pierre-François Marteau, Nicolas Béchet |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 06/03/2020 |
Etablissement(s) : | Lorient |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) |
Partenaire(s) de recherche : | Equipe de recherche : Institut de recherche en informatique et systèmes aléatoires (Rennes) |
Laboratoire : Institut de Recherche en Informatique et Systèmes Aléatoires / IRISA | |
Jury : | Président / Présidente : Bruno Crémilleux |
Examinateurs / Examinatrices : Alexandre Garel, Nadir Farah, Jeanne Villaneau | |
Rapporteur / Rapporteuse : Mohamed Nadif, Thierry Charnois |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Cette thèse, effectuée dans le cadre d’un contrat CIFRE avec la société OctopusMind, est centrée sur le développement d'un outillage informatique dédié et optimisé pour l'assistance à l'exploitation de la base d'appels d'offres, dans une finalité de veille stratégique. Notre contribution se décline en trois chapitres : le premier concerne le développement d’une ressource multilingue partiellement comparable. Qui est construite à partir des appels d’offres européens publiés par le TED (Tenders Electronic Daily). Elle contient plus de deux millions de documents traduits dans 24 langues publiées durant les 9 dernières années. Le deuxième chapitre concerne une étude sur les questions de vectorisation de mots, phrases et documents susceptibles de capturer au mieux la sémantique selon différentes échelles. Nous avons proposé deux approches : la première est basée sur une combinaison entre word2vec et LSA. La deuxième est basée sur une architecture neuronale originale basée sur des réseaux d’attention convolutionnels à deux niveaux. Ces vectorisations sont exploitées à titre de validation sur des tâches de classification et de clustering de textes. Le troisième chapitre concerne l’extraction de relations sémantiques contenues dans des appels d’offres, permettant de relier des bâtiments à des surfaces, des lots à des budgets, etc... Les développées sont ici plus traditionnelles et reposent sur des CRF. La fin de ce chapitre concerne la mise en production dans l’environnement logiciel d’OctopusMind des différentes solutions, notamment l’extraction d’informations, le système de recommandation, ainsi que la combinaison de ces différents modules pour résoudre des problèmes plus complexes