Thèse en cours

Extraction multimodale de preuves et de théorèmes depuis la littérature scientifique

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 04/07/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Shrey Mishra
Direction : Pierre Senellart
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 04/07/2024
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : DIENS - Département d'informatique de l'École normale supérieure
Equipe de recherche : VALDA
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Jean Ponce
Examinateurs / Examinatrices : Pierre Senellart, Fabian Suchanek, Mohammed Hasanuzzaman, Eric Villemonte de la clergerie, Elena Cabrio
Rapporteurs / Rapporteuses : Fabian Suchanek, Elena Cabrio

Résumé

FR  |  
EN

Cette thèse examine l'extraction d'énoncés et de preuves mathématiques à partir d'articles scientifiques PDF en l'abordant comme un problème de classification multimodale. Elle fait partie du plus large projet TheoremKB, qui cherche à convertir la littérature scientifique en une base de connaissances complète et en libre accès d'énoncés mathématiques et de leurs preuves. La recherche exploite une gamme de techniques allant de l'apprentissage automatique traditionnel aux architectures avancées d'apprentissage profond, notamment les LSTM, les CNN, les détecteurs d'objets, les CRF, les transformeurs, etc. L'étude utilise une nouvelle combinaison de texte, de caractéristiques de police et d'images bitmap provenant de pages PDF comme modalités de saisie distinctes. Elle propose une stratégie d'apprentissage automatique multimodale modulaire et séquentielle qui intègre un mécanisme d'attention intermodale pour produire des plongements multimodaux de paragraphes. Ces plongements sont ensuite traités via une nouvelle architecture de transformeur à fenêtre glissante multimodale qui capture les données séquentielles dans les paragraphes. Cette approche innovante ne repose pas sur le prétraitement de reconnaissance optique de caractères (OCR), sur les sources LaTeX lors de l'inférence ou sur le pré-entraînement ad hoc avec des fonctions de perte spécialisées, ce qui la rend apte à gérer des documents multipages et des sauts de page typiques des textes mathématiques scientifiques complexes. Les résultats indiquent une nette amélioration des performances lors du passage du traitement unimodal au traitement multimodal et de l'intégration de la modélisation de paragraphes séquentiels, soulignant l'efficacité de la méthode proposée dans le traitement de documents scientifiques complexes.