Extraction multimodale de preuves et de théorèmes depuis la littérature scientifique
| Auteur / Autrice : | Shrey Mishra |
| Direction : | Pierre Senellart |
| Type : | Projet de thèse |
| Discipline(s) : | Informatique |
| Date : | Inscription en doctorat le Soutenance le 04/07/2024 |
| Etablissement(s) : | Université Paris sciences et lettres |
| Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
| Partenaire(s) de recherche : | Laboratoire : DIENS - Département d'informatique de l'École normale supérieure |
| Equipe de recherche : VALDA | |
| établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....) | |
| Jury : | Président / Présidente : Jean Ponce |
| Examinateurs / Examinatrices : Pierre Senellart, Fabian Suchanek, Mohammed Hasanuzzaman, Eric Villemonte de la clergerie, Elena Cabrio | |
| Rapporteurs / Rapporteuses : Fabian Suchanek, Elena Cabrio |
Mots clés
Résumé
Cette thèse examine l'extraction d'énoncés et de preuves mathématiques à partir d'articles scientifiques PDF en l'abordant comme un problème de classification multimodale. Elle fait partie du plus large projet TheoremKB, qui cherche à convertir la littérature scientifique en une base de connaissances complète et en libre accès d'énoncés mathématiques et de leurs preuves. La recherche exploite une gamme de techniques allant de l'apprentissage automatique traditionnel aux architectures avancées d'apprentissage profond, notamment les LSTM, les CNN, les détecteurs d'objets, les CRF, les transformeurs, etc. L'étude utilise une nouvelle combinaison de texte, de caractéristiques de police et d'images bitmap provenant de pages PDF comme modalités de saisie distinctes. Elle propose une stratégie d'apprentissage automatique multimodale modulaire et séquentielle qui intègre un mécanisme d'attention intermodale pour produire des plongements multimodaux de paragraphes. Ces plongements sont ensuite traités via une nouvelle architecture de transformeur à fenêtre glissante multimodale qui capture les données séquentielles dans les paragraphes. Cette approche innovante ne repose pas sur le prétraitement de reconnaissance optique de caractères (OCR), sur les sources LaTeX lors de l'inférence ou sur le pré-entraînement ad hoc avec des fonctions de perte spécialisées, ce qui la rend apte à gérer des documents multipages et des sauts de page typiques des textes mathématiques scientifiques complexes. Les résultats indiquent une nette amélioration des performances lors du passage du traitement unimodal au traitement multimodal et de l'intégration de la modélisation de paragraphes séquentiels, soulignant l'efficacité de la méthode proposée dans le traitement de documents scientifiques complexes.