Thèse soutenue

Veille stratégique assistée sur des bases de données d’appels d’offres par traitement automatique de la langue naturelle et fouille de textes

FR  |  
EN
Auteur / Autrice : Oussama Ahmia
Direction : Pierre-François MarteauNicolas Béchet
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/03/2020
Etablissement(s) : Lorient
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Equipe de recherche : Institut de recherche en informatique et systèmes aléatoires (Rennes)
Laboratoire : Institut de Recherche en Informatique et Systèmes Aléatoires / IRISA
Jury : Président / Présidente : Bruno Crémilleux
Examinateurs / Examinatrices : Alexandre Garel, Nadir Farah, Jeanne Villaneau
Rapporteur / Rapporteuse : Mohamed Nadif, Thierry Charnois

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse, effectuée dans le cadre d’un contrat CIFRE avec la société OctopusMind, est centrée sur le développement d'un outillage informatique dédié et optimisé pour l'assistance à l'exploitation de la base d'appels d'offres, dans une finalité de veille stratégique. Notre contribution se décline en trois chapitres : le premier concerne le développement d’une ressource multilingue partiellement comparable. Qui est construite à partir des appels d’offres européens publiés par le TED (Tenders Electronic Daily). Elle contient plus de deux millions de documents traduits dans 24 langues publiées durant les 9 dernières années. Le deuxième chapitre concerne une étude sur les questions de vectorisation de mots, phrases et documents susceptibles de capturer au mieux la sémantique selon différentes échelles. Nous avons proposé deux approches : la première est basée sur une combinaison entre word2vec et LSA. La deuxième est basée sur une architecture neuronale originale basée sur des réseaux d’attention convolutionnels à deux niveaux. Ces vectorisations sont exploitées à titre de validation sur des tâches de classification et de clustering de textes. Le troisième chapitre concerne l’extraction de relations sémantiques contenues dans des appels d’offres, permettant de relier des bâtiments à des surfaces, des lots à des budgets, etc... Les développées sont ici plus traditionnelles et reposent sur des CRF. La fin de ce chapitre concerne la mise en production dans l’environnement logiciel d’OctopusMind des différentes solutions, notamment l’extraction d’informations, le système de recommandation, ainsi que la combinaison de ces différents modules pour résoudre des problèmes plus complexes