Vers l'apprentissage de comportement de navire : prendre en considération les biais géographiques
Auteur / Autrice : | Raphael Sturgis |
Direction : | Hachem Kadri, Valentin Emiya, Basile Couëtoux, Pierre-Olivier Garreau |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 21/12/2023 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | École Doctorale Mathématiques et Informatique de Marseille (Marseille) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’Informatique et Systèmes (Marseille ; La Garde, Var ; 2018-….) |
Jury : | Président / Présidente : Frédéric Béchet |
Examinateurs / Examinatrices : Hachem Kadri, Valentin Emiya, Laetitia Chapel, Jean-Yves Tourneret, Kevin Tierney, Ricard Marxer | |
Rapporteurs / Rapporteuses : Laetitia Chapel, Jean-Yves Tourneret |
Résumé
Le système d’identification automatique (AIS) est un système de partage d’infor-mations qui permet aux navires commerciaux de communiquer entre eux et avec lesservices de trafic maritime (VTS). De ce fait, ce système produit de grandes quantitésde données. Ces données peuvent être interprétées comme des séries temporellesdécrivant la trajectoire des navires à travers leurs positions et d’autres variables tellesque la vitesse ou le cap. Dans cette thèse, nous étudions différentes méthodes pourexploiter ces données afin d’améliorer le routage des navires et détecter leurs compor-tements.Une première contribution de ce travail est l’introduction d’une méthode pourgénérer des graphes routables qui permet de régler un seul paramètre afin d’obtenirdes résultats satisfaisants pour une zone d’intérêt donnée. Au cours de ce travail,nous avons constaté que ces paramètres réglables nous permettaient d’améliorer laqualité des graphes routables produits dans certaines zones, mais que pour certainsendroits de cette zone, un seul paramètre ne permettait pas d’obtenir des résultatssatisfaisants partout. Afin de remédier à ce problème, nous proposons une méthodepour caractériser des zones afin de, par la suite, choisir les paramètres les mieuxadaptés aux différentes zones.Par la suite, l’accent a été mis sur la détection du comportement des navires porte-conteneurs, par exemple lorsqu’un navire est à quai ou à la dérive, grâce à l’utilisationde différentes techniques d’apprentissage automatique. Lors du traitement des don-nées AIS, nous avons constaté que la géographie était un aspect majeur qui devaitêtre pris en compte. En effet, la géographie permet de limiter les comportementssusceptibles d’être présents dans une zone, mais peut également biaiser les modèlesd’apprentissage automatique lorsque les données ne sont pas disponibles à l’échellemondiale. La quantité limitée de données annotées disponibles est également unproblème central à résoudre. L’une des contributions est la mise à disposition de lacommunauté de différents jeux de données de comportements des navires.L’une de nos contributions concernant la détection des comportements des naviresest une méthode qui utilise la géographie à notre avantage pour améliorer la détectiondes comportements. Notre méthode permet d’entraîner différents modèles dans deszones spécifiques où la disponibilité de données étiquetées n’est pas un problèmeet de transférer ces connaissances dans des zones où aucune donnée étiquetée n’estdisponible. Le choix des modèles à utiliser est fait en examinant la distribution desdonnées non étiquetées disponibles dans la zone cible et en choisissant les modèlespour lesquels les distributions des données d’entraînement sont les plus similaires.Enfin, nous explorons également différentes méthodes pour supprimer les biaisgéographiques, intrinsèques aux données AIS, afin d’améliorer la détection des comportements. Nous explorons deux méthodes pour ce faire, la première basée surl’ingénierie des caractéristiques et la seconde basée sur l’augmentation des données.Nous avons montré que notre méthode utilisant l’ingénierie des caractéristiques amé-liore les performances de nos différents modèles de détection de comportement. Nousprofitons également de l’occasion pour comparer différents modèles adaptés à cettetâche.