Veille stratégique assistée sur des bases de données d’appels d’offres par traitement automatique de la langue naturelle et fouille de textes

Oussama Ahmia

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Veille stratégique assistée sur des bases de données d’appels d’offres par traitement automatique de la langue naturelle et fouille de textes

FR |

EN

Auteur / Autrice :	Oussama Ahmia
Direction :	Pierre-François Marteau, Nicolas Béchet
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 06/03/2020
Etablissement(s) :	Lorient
Ecole(s) doctorale(s) :	École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche :	Equipe de recherche : Institut de recherche en informatique et systèmes aléatoires (Rennes)
	Laboratoire : Institut de Recherche en Informatique et Systèmes Aléatoires / IRISA
Jury :	Président / Présidente : Bruno Crémilleux
	Examinateurs / Examinatrices : Alexandre Garel, Nadir Farah, Jeanne Villaneau
	Rapporteur / Rapporteuse : Mohamed Nadif, Thierry Charnois

Mots clés

FR |

EN

Mots clés contrôlés

Traitement automatique du langage naturel

Appels d'offres

Apprentissage profond

Exploration de données

Mots clés libres

TALN

Attention hiérarchique

Résumé

FR |

EN

Cette thèse, effectuée dans le cadre d’un contrat CIFRE avec la société OctopusMind, est centrée sur le développement d'un outillage informatique dédié et optimisé pour l'assistance à l'exploitation de la base d'appels d'offres, dans une finalité de veille stratégique. Notre contribution se décline en trois chapitres : le premier concerne le développement d’une ressource multilingue partiellement comparable. Qui est construite à partir des appels d’offres européens publiés par le TED (Tenders Electronic Daily). Elle contient plus de deux millions de documents traduits dans 24 langues publiées durant les 9 dernières années. Le deuxième chapitre concerne une étude sur les questions de vectorisation de mots, phrases et documents susceptibles de capturer au mieux la sémantique selon différentes échelles. Nous avons proposé deux approches : la première est basée sur une combinaison entre word2vec et LSA. La deuxième est basée sur une architecture neuronale originale basée sur des réseaux d’attention convolutionnels à deux niveaux. Ces vectorisations sont exploitées à titre de validation sur des tâches de classification et de clustering de textes. Le troisième chapitre concerne l’extraction de relations sémantiques contenues dans des appels d’offres, permettant de relier des bâtiments à des surfaces, des lots à des budgets, etc... Les développées sont ici plus traditionnelles et reposent sur des CRF. La fin de ce chapitre concerne la mise en production dans l’environnement logiciel d’OctopusMind des différentes solutions, notamment l’extraction d’informations, le système de recommandation, ainsi que la combinaison de ces différents modules pour résoudre des problèmes plus complexes

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Veille stratégique assistée sur des bases de données d’appels d’offres par traitement automatique de la langue naturelle et fouille de textes

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Veille stratégique assistée sur des bases de données d’appels d’offres par traitement automatique de la langue naturelle et fouille de textes

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses