Thèse en cours

Hybridation des méthodes d'IA symbolique et d'apprentissage profond appliquée à la détection de désinformation dans les bases de connaissances dynamiques

FR  |  
EN
Auteur / Autrice : Géraud Faye
Direction : Wassila Ouerdane
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/03/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Interfaces : matériaux, systèmes, usages (Palaiseau, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Mathématiques et Informatique pour la Complexité et les Systèmes - EA 4037
Référent : CentraleSupélec

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Enjeux Avec le fort développement des médias sociaux, le partage de la désinformation à grande échelle est devenu une chose commune qui n'est pas évidente à repérer pour les utilisateurs. La désinformation a récemment donné plus de voix à des groupes conspirationnistes et des groupes étrangers ont tenté plusieurs fois d'influencer des élections avec l'utilisation de contenus de désinformation. Ceci place le problème de la détection de la désinformation dans le domaine de la Lutte Informatique d'Influence, un sujet important pour les clients d'Airbus Defence and Space. La détection s'appuie aujourd'hui sur la reconnaissance de patterns ou de style (e.g., images modifiées, structures de phrases manipulatrices, etc) ou bien recourt à de l'information voire de la connaissance, actualisée et vérifiée (e.g., base de faits, empreintes d'images déjà publiées, fiches d'informations). Le premier type d'outils “périme” avec l'apparition de nouvelles techniques de publication de documents ; le second type nécessite actuellement une lourde charge organisationnelle et pourrait bénéficier d'une automatisation. Cependant, cette automatisation requiert une prise en compte à la fois d'un modèle appris, et d'éléments d'une base de connaissances. Approche Ce projet de thèse nommé Hybridation des méthodes d'IA symbolique et d'apprentissage profond appliquée à la détection de désinformation dans les bases de connaissances dynamiques cherche à caractériser et identifier la désinformation en utilisant des méthodes neuro-symboliques explicables et capables de raisonnement. Ce raisonnement s'appuiera à la fois sur le texte à classifier et ses métadonnées, ainsi que sur une base de connaissances dynamique spécifique au type de désinformation à détecter. Les principales problématiques qui seront traitées sont les suivantes : - Caractérisation et typologie de la désinformation (utilisation de biais, de raisonnements fallacieux, ou d'informations fausses …) - Proposition de modèles d'IA hybrides à la croisée de l'IA symbolique et de l'apprentissage profond. Ces approches auront vocation à pouvoir être réutilisées pour d'autres applications. - Utilisation de raisonnement au sein de la méthode de détection - Explicabilité des modèles d'IA Objectifs Le projet de thèse porte sur le développement de modèles hybrides incluant du raisonnement dans une architecture neuronale appliqués à l'exemple de la détection de la désinformation. Les principales problématiques que le projet de thèse traitera sont : - Le recours intelligent, par le réseau de neurones pré-entraîné, à de la connaissance structurée, mise à jour de manière continue, afin de se rapprocher du raisonnement humain. Cette hybridation entre réseau de neurones et raisonnement symbolique est au cœur du neuro-symbolisme, en fort développement. - L'explicabilité des modèles : l'opacité de des prises de décision des modèles d'apprentissage profond est un frein à leur utilisation opérationnelle à leur compréhension pour faciliter leur amélioration. Pour ces raisons, le projet vise à produire des modèles explicables. Pour traiter ces problématiques, le projet se concentrera sur les verrous technologiques suivants : - Développement d'approches neuro-symboliques incluant des règles d'IA symboliques au sein d'une architecture neuronale profonde. Ces approches sont relativement récentes et n'ont pas encore été appliquées dans le domaine du Traitement Automatique des Langues. - Utilisation de raisonnement entre les données textuelles et des bases de connaissances dynamiques. Ces raisonnements permettront d'obtenir une IA plus robuste, tout en permettant une explicabilité de la décision. - Inclusion de métadonnées concernant les auteurs et les sources dans le raisonnement.