Couplage d'enregistrements et analyse des données couplées avec application dans le système national des données de santé français
Auteur / Autrice : | Thanh Huan Vo |
Direction : | Guillaume Chauvet, Valérie Garès |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques et leurs interactions |
Date : | Soutenance le 01/12/2022 |
Etablissement(s) : | Rennes, INSA |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) |
Partenaire(s) de recherche : | Institut de recherche : Institut de Recherche Technologique b<>com |
Laboratoire : Institut de recherche mathématique (Rennes ; 1996-....) | |
Jury : | Président / Présidente : Jean-François Dupuy |
Examinateurs / Examinatrices : Guillaume Chauvet, Valérie Garès, Jean-François Dupuy, Michael D. Larsen, Nicola Salvati, Tiziana Tuoto, Nicolas Courty, Cécile Chevrier | |
Rapporteur / Rapporteuse : Michael D. Larsen, Nicola Salvati |
Mots clés
Résumé
L’appariement probabiliste consiste à combiner des données de différentes sources, quand elles correspondent à une même entité mais qu’une variable d’identification n’est pas disponible. Le modèle de Fellegi et Sunter utilise des variables partiellement identifiantes, mais se limite à une comparaison binaire pour ces variables. Dans la première contribution, nous proposons une extension du modèle pour les vecteurs de comparaison de type mixte. Nous développons un modèle de mélange pour comparer les valeurs des variables d’appariement catégorielles présentant des prévalences faibles, et un mélange de distributions “hurdle gamma” pour les valeurs des variables d’appariement continues. Nous appliquons ce modèle pour apparier les données du SNDS avec un registre de patients de l’aire urbaine de Brest. Dans le second travail, nous proposons un modèle pour une régression de Cox avec des données appariées. Des erreurs d’appariement sont presque inévitables quelle que soit la méthode utilisée, et ignorer ces erreurs peut conduire à des estimations biaisées. Nous proposons une équation estimante ajustée adaptée au modèle de Cox, quand l’appariement a été réalisé par un opérateur tiers et que l’analyste ne connaît pas les variables d’appariement. Nous proposons un estimateur de variance asymptotiquement sans biais pour l’estimateur des paramètres du modèle de Cox. Le modèle est appliqué à une base de données appariées, correspondant à des AVC survenus à Brest.