Comprendre et gérer la nomenclature zoologique à l'ère du big data et de la science ouverte
Auteur / Autrice : | Elie Mario Saliba |
Direction : | Annemarie Ohler, Régine Vignes-Lebbe |
Type : | Thèse de doctorat |
Discipline(s) : | Biologie des organismes |
Date : | Soutenance le 06/12/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences de la nature et de l'Homme - Évolution et écologie (Paris ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Institut de systématique, évolution, biodiversité (Paris ; 2009-....) |
Jury : | Président / Présidente : Tony Robillard |
Examinateurs / Examinatrices : Walter G. Berendsohn, Francisco W. Welter-Schultes | |
Rapporteurs / Rapporteuses : Andrew Polaszek, Thomas Pape |
Mots clés
Résumé
La nomenclature est la branche de la taxonomie responsable de la création et de la gestion des noms scientifiques attribués aux catégories d’êtres vivants. Elle assure la continuité de la transmission de toutes sortes de données et de connaissances accumulées sur les taxons. Les zoologistes se réfèrent pour cela au Code International de Nomenclature Zoologique. Le Code contient les règles qui permettent de comprendre et d'appliquer correctement cette discipline. La nomenclature s'est complexifiée au fil des siècles, pour s'adapter aux changements scientifiques et technologiques. Aujourd’hui, la nomenclature joue, par l’intermédiaire des noms scientifiques, un rôle crucial dans les bases de données de biodiversité. Mais ces dernières présentent cependant des limitations en termes de modèles de données et de l’utilisation de celles-ci pour des travaux nomenclaturaux. Cette dimension de la nomenclature est explorée dans la thèse. Si les données nomenclaturales sont présentes en grande partie dans les bases de données en ligne, la discipline elle-même est restée relativement imperméable à l'informatisation. Une analyse approfondie du Code a permis d’établir une liste d’objets formels et des propriétés les accompagnant nécessaires pour modéliser les règles de cette discipline. En effet, la structure des règles du Code se veut logique et non-ambigüe, et est donc idéale pour une traduction de ces dernières en série d’algorithmes. Cette hypothèse a mené à la création d’une application web appelée Lognom, pour ‘logiciel de nomenclature’. Lognom est un logiciel basé sur des algorithmes aidant à la prise de décision en matière de nomenclature zoologique. L’application ne repose pas sur des bases de données préexistantes, mais fournit une réponse en fonction des données entrées par l'utilisateur. Ce logiciel vise à soutenir les taxonomistes dans leur gestion de la nomenclature au quotidien, en déterminant si un nom ou un travail est disponible, si les règles orthographiques ont été correctement appliquées et si toutes les exigences précédant la publication d’un nouveau nom ou d’un nouveau travail ont été respectées. Lognom permet également à l'utilisateur d’établir quel nom est le nom valide parmi plusieurs candidats préenregistrés, et la liste des synonymes qui résulte de cette détermination. Il comprend également quelques outils pour répondre à des questions diverses de nomenclature, telle que la détermination du genre grammatical d’un nom de genre. Toutes les règles du Code de nomenclature zoologique n’ont cependant pas pu être intégrées à l’application. Certaines règles reposent sur une interprétation sémantique qu’il est très complexe d’automatiser. De plus, même s’il contient quelques contrôles, Lognom est très sensible à la qualité des données fournies par ses utilisateurs. Une proposition de classification des règles est fournie, afin de mieux cerner les forces et les faiblesses du Code quant à sa possible informatisation exhaustive, ainsi que des recommandations quant à l’optimisation de son caractère logique et non-ambigu. De même, diverses questions en rapport avec la nomenclature et ses applications informatiques sont explorées, et une brève analyse expliquant les difficultés sociales liées à l’amélioration de ces règles est évoquée. Il y existe une multitude d’applications futures possibles pour les algorithmes développés lors de cette thèse. Ces perspectives incluent la possibilité de travailler collaborativement sur des projets concernant la nomenclature d’un même groupe taxonomique. Ceci pourrait conduire à établir des listes dynamiques de noms. Une modification de ces algorithmes pourraient également simuler l’impact d’une modification des règles du Code sur les noms et les travaux existants. Sur le long terme, un outil tel que Lognom pourrait conduire à la possibilité de modéliser la nomenclature dans sa totalité, et d’ouvrir la porte à une gestion plus efficace et plus coordonnée de cette discipline pluricentenaire.