Thèse soutenue

Détection et analyse des signaux faibles. Développement d’un framework d’investigation numérique pour un service caché Lanceurs d’alerte
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Julien Maitre
Direction : Alain BoujuMichel Ménard
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 06/04/2022
Etablissement(s) : La Rochelle
Ecole(s) doctorale(s) : École doctorale Euclide (La Rochelle ; 2018-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle)
Jury : Président / Présidente : Florence Sèdes
Examinateurs / Examinatrices : Alain Bouju, Michel Ménard, Florence Sèdes, Nicole Vincent, Ronan Champagnat, Guillaume Chiron
Rapporteurs / Rapporteuses : Florence Sèdes, Nicole Vincent

Résumé

FR  |  
EN

Ce manuscrit s’inscrit dans le cadre du développement d’une plateforme d’analyse automatique de documents associée à un service sécurisé lanceurs d’alerte, de type GlobalLeaks. Nous proposons une chaine d’extraction à partir de corpus de document, d’analyse semi-automatisée et de recherche au moyen de requêtes Web pour in fine, proposer des tableaux de bord décrivant les signaux faibles potentiels. Nous identifions et levons un certain nombre de verrous méthodologiques et technologiques inhérents : 1) à l’analyse automatique de contenus textuels avec un minimum d’a priori, 2) à l’enrichissement de l’information à partir de recherches Web 3) à la visualisation sous forme de tableau de bord et d’une représentation dans un espace 3D interactif. Ces approches, statique et dynamique, sont appliquées au contexte du data journalisme, et en particulier, au traitement, analyse et hiérarchisation d’informations hétérogènes présentes dans des documents. Cette thèse propose également une étude de faisabilité et de prototypage par la mise en œuvre d’une chaine de traitement sous forme d’un logiciel. La construction de celui-ci a nécessité la caractérisation d’un signal faible pour lequel nous avons proposé une définition. Notre objectif est de fournir un outil paramétrable et générique à toute thématique. La solution que nous proposons repose sur deux approches : statique et dynamique. Dans l’approche statique, contrairement aux approches existantes nécessitant la connaissance de termes pertinents dans un domaine spécifique, nous proposons une solution s’appuyant sur des techniques nécessitant une intervention moindre de l’expert du domaine. Dans ce contexte, nous proposons une nouvelle approche de modélisation thématique multi-niveaux. Cette méthode d’approche conjointe combine une modélisation thématique, un plongement de mots et un algorithme où le recours à un expert du domaine permet d’évaluer la pertinence des résultats et d’identifier les thèmes porteurs de signaux faibles potentiels. Dans l’approche dynamique, nous intégrons une solution de veille à partir des signaux faibles potentiels trouvées dans les corpus initiaux et effectuons un suivi pour étudier leur évolution. Nous proposons donc une solution d’agent mining combinant data mining et système multi-agents où des agents animés par des forces d’attraction/répulsion représentant documents et mots se déplacent. La visualisation des résultats est réalisée sous forme de tableau de bord et de représentation dans un espace 3D interactif dans unclient Unity. Dans un premier temps, l’approche statique a été évaluée dans une preuve de concept sur des corpus synthétiques et réelles utilisés comme vérité terrain. L’ensemble de la chaine de traitement (approches statique et dynamique), mise en œuvre dans le logiciel WILD, est dans un deuxième temps appliquée sur des données réelles provenant de bases documentaires.