au-delà de l'analyse systématique automatique de la littérature (ASLR) à l'aide du traitement du langage naturel (NLP) basé sur les grands modèles de langage (LLM)
Auteur / Autrice : | Xue He |
Direction : | Jean-Daniel Zucker |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 31/08/2024 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : Unité de Modélisation Mathématique et Informatique des Systèmes Complexes |
Résumé
La revue systématique est un processus crucial en médecine fondée sur les preuves et en recherche scientifique, où une recherche exhaustive et impartiale est menée pour identifier et évaluer toute la littérature pertinente sur un sujet spécifique. Cependant, ce processus est long et demande beaucoup de ressources, surtout pour les revues de littérature à grande échelle qui impliquent un nombre de publications en constante augmentation. Ces dernières années, les techniques de traitement du langage naturel (NLP) ont montré des résultats prometteurs pour automatiser certains aspects du processus de revue systématique, tels que le filtrage de la littérature et l'extraction de connaissances. Cependant, elles sont limitées dans leur capacité à capturer et analyser des informations contextuelles complexes et des relations hautement intriquées entre les concepts biologiques. Récemment, les grands modèles de langage tels que GPT-4, LLAMA2, etc., ont obtenu des résultats remarquables. Les LLM peuvent représenter les articles avec une représentation plus robuste et contextuellement complexe, ce qui pourrait être utilisé pour automatiser complètement les revues systématiques et développer des approches au-delà de l'ASR. Des articles de PMC (PubMed Central) (plus de 30 millions d'articles) ont été téléchargés sur des machines locales. L'annotation des ensembles de données à des fins d'extraction et de classification variées peut également être réalisée via l'ingénierie de prompts des résultats des LLM. Une pipeline d'ASLR (revue systématique automatisée de la littérature) a été développée à l'IRD/UMMISCO dans le cadre de la génération de preuves pour des règles de signature bactérienne afin de détecter la cirrhose hépatique saine et malsaine dans le microbiome humain. Ces règles ont été construites en utilisant différents algorithmes d'apprentissage automatique à partir d'une abondance d'espèces bactériennes, comme proposé par Prifti et al. (2019). Le pipeline se concentre sur le filtrage des articles selon différents critères d'inclusion, puis sur l'extraction de bio-concepts tels que les produits chimiques, les maladies, les gènes et les espèces. En outre, les relations entre ces entités ont été identifiées comme positives, négatives ou neutres. Ces entités et leurs relations sont ensuite utilisées pour construire un graphe de connaissances qui fournit des preuves pour un ensemble de règles de signature bactérienne. Cependant, des recherches et des investigations rigoureuses supplémentaires sont nécessaires pour construire un ASLR général, robuste et inclusif utilisant les LLM pour des applications dans différents domaines spécifiques de la biomédecine.