Thèse soutenue

Text mining sur rapports d'occurrences en aviation
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Samuel Kierszbaum
Direction : Thierry KleinPatrick Sénac
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Applications
Date : Soutenance le 14/12/2022
Etablissement(s) : Toulouse, ISAE
Ecole(s) doctorale(s) : École doctorale Aéronautique-Astronautique (Toulouse)
Partenaire(s) de recherche : Laboratoire : Laboratoire de recherche ENAC (Toulouse)
Jury : Président / Présidente : Erwan Le Pennec
Examinateurs / Examinatrices : Thierry Klein, Patrick Sénac, Yannick Toussaint, Patrice Bellot, Corinne Bieder
Rapporteurs / Rapporteuses : Yannick Toussaint, Patrice Bellot

Résumé

FR  |  
EN

Notre sujet de recherche se situe à l'intersection de la gestion de la sécurité aérienne et du traitement du langage naturel (TAL) par apprentissage automatique (ML).Nous nous intéressons aux applications qui exploitent le TAL dans les rapports d'occurrences à des fins de sécurité. Le terme "occurrence" désigne ici un événement ou une chaîne d'événements qui constitue une déviation de la normalité dans le contexte des opérations dans l'aviation civile.Les occurrences constituent une ressource précieuse pour la gestion de la sécurité, étant donné que :- Le niveau actuel de sécurité dans l'aviation fait qu'il y a très peu d'accidents/incidents graves dont on peut tirer des enseignements. Les occurrences constituent une ressource alternative dont on peut tirer des enseignements.- Une bonne utilisation des occurrences peut permettre d'identifier et d'atténuer les risques qui pourraient autrement entraîner des conséquences graves dans des conditions différentes.Les systèmes de comptes rendus d'occurrences sont omniprésents dans l'industrie aéronautique d'aujourd'hui. Une fois qu'ils ont été remplis par les rapporteurs, les rapports sont reçus et traités par des analystes, avant d'être stockés dans une collection.Les analystes utilisent les collections suivant différents scénarios d'utilisation, tels que (a) l'utilisation d'occurrences passées pour identifier des scénarios à risque dans des occurrences actuelles, (b) la production de statistiques informatives (par exemple, le graphique par mois du nombre de sorties de piste dans un aéroport particulier).Il peut être difficile de trouver ou de produire ce type d'informations à partir de collections d'occurrences. Par exemple, la production de statistiques est souvent rendue possible par l'ajout manuel par des analystes de métadonnées catégorielles aux rapports d'événements reçus. Ce "codage des événements", demande beaucoup de travail, étant donné la quantité d'occurrences à traiter.Dans ce contexte, plusieurs opportunités pour soutenir la gestion de la sécurité en utilisant le TAL ML sur des collections d'occurrences existent. Les quatre articles que nous présentons s'inscrivent dans ce cadre.Dans le premier article, nous effectuons une évaluation qualitative de l'utilité, du point de vue de la sécurité, d'un modèle extractif de questions-réponses sur des rapports.Dans le second article, nous proposons des lignes directrices pour augmenter la compatibilité sur le terrain des modèles de classification de texte, dans le but spécifique d'automatiser l'étape de codage des événements. Il s'agit d'une tâche classique dans le domaine du TAL ML appliqué aux occurrences. Dans notre troisième article, nous comparons deux modèles ML sur la tâche de codage des occurrences en utilisant deux critères : l'efficacité et la performance.Un point commun à nos trois premiers articles est l'utilisation de modèles de langage pré-entraînés basés sur des transformers. Au début de notre thèse, ces modèles étaient dans les premières positions des classements de divers benchmarks, qui visent à comparer la capacité de différents modèles à comprendre le langage.En utilisant ces modèles, en particulier pour nos deuxième et troisième articles, notre intention sous-jacente était d'essayer d'appliquer des outils plus avancés à des problèmes connus.S'il semble vrai que ce type de réflexion peut donner de bons résultats, les avancées technologiques telles que des modèles ML plus "performants" (du point de vue des normes propres au domaine de recherche dont ils sont issus) ne sont pas la seule voie possibles.Notre quatrième article reflète cela, puisqu'il présente une solution partiellement méthodologique au défi posé par la gestion des ressources expertes, dans le contexte de l'annotation de corpus spécifiques à un domaine, dans le but de la reconnaissance d'entités. Nous présentons une étude de cas utilisant des rapports d'occurrences d'Airbus.