Thèse soutenue

Couplage d'enregistrements et analyse des données couplées avec application dans le système national des données de santé français

FR  |  
EN
Auteur / Autrice : Thanh Huan Vo
Direction : Guillaume ChauvetValérie Garès
Type : Thèse de doctorat
Discipline(s) : Mathématiques et leurs interactions
Date : Soutenance le 01/12/2022
Etablissement(s) : Rennes, INSA
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Institut de recherche : Institut de Recherche Technologique b<>com
Laboratoire : Institut de recherche mathématique (Rennes ; 1996-....)
Jury : Président / Présidente : Jean-François Dupuy
Examinateurs / Examinatrices : Guillaume Chauvet, Valérie Garès, Jean-François Dupuy, Michael D. Larsen, Nicola Salvati, Tiziana Tuoto, Nicolas Courty, Cécile Chevrier
Rapporteur / Rapporteuse : Michael D. Larsen, Nicola Salvati

Résumé

FR  |  
EN

L’appariement probabiliste consiste à combiner des données de différentes sources, quand elles correspondent à une même entité mais qu’une variable d’identification n’est pas disponible. Le modèle de Fellegi et Sunter utilise des variables partiellement identifiantes, mais se limite à une comparaison binaire pour ces variables. Dans la première contribution, nous proposons une extension du modèle pour les vecteurs de comparaison de type mixte. Nous développons un modèle de mélange pour comparer les valeurs des variables d’appariement catégorielles présentant des prévalences faibles, et un mélange de distributions “hurdle gamma” pour les valeurs des variables d’appariement continues. Nous appliquons ce modèle pour apparier les données du SNDS avec un registre de patients de l’aire urbaine de Brest. Dans le second travail, nous proposons un modèle pour une régression de Cox avec des données appariées. Des erreurs d’appariement sont presque inévitables quelle que soit la méthode utilisée, et ignorer ces erreurs peut conduire à des estimations biaisées. Nous proposons une équation estimante ajustée adaptée au modèle de Cox, quand l’appariement a été réalisé par un opérateur tiers et que l’analyste ne connaît pas les variables d’appariement. Nous proposons un estimateur de variance asymptotiquement sans biais pour l’estimateur des paramètres du modèle de Cox. Le modèle est appliqué à une base de données appariées, correspondant à des AVC survenus à Brest.