Analyse des données massives de source assurantielle de la Mutualité Sociale Agricole, pour la surveillance en santé au travail des travailleurs agricoles en France

par Charlotte Maugard

Thèse de doctorat en Modèles, méthodes et algorithmes en biologie, santé et environnement

Sous la direction de Vincent Bonneterre et de Olivier François.

Soutenue le 25-11-2019

à l'Université Grenoble Alpes (ComUE) , dans le cadre de École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble) , en partenariat avec Techniques de l’ingénierie médicale et de la complexité - Informatique, Mathématiques et Applications (Grenoble) (laboratoire) , Environnement et prédiction de la santé des populations (équipe de recherche) et de Biologie computationnelle et mathématique (équipe de recherche) .

Le président du jury était Rémy Slama.

Le jury était composé de Pierre Lebailly, Marie Zins, Florence Forbes.

Les rapporteurs étaient Pierre Lebailly, Marie Zins.


  • Résumé

    Introduction : La surveillance sanitaire et la vigilance (identification de nouveaux risques en particulier) représentent un enjeu majeur dans le champ santé-travail. En complément des études épidémiologiques classiques, l’analyse systématique, sans a priori, de données collectées en routine pourrait être un atout pour la détection précoce de pathologies en lien avec le travail. Dans ce contexte, la Mutualité Sociale Agricole (MSA), le régime de protection sociale dédié aux travailleurs agricoles français, a souhaité développer son activité de vigilance en exploitant ses données médico-administratives, utilisées pour le remboursement de prestations de santé. En partenariat avec l’Agence nationale de sécurité sanitaire de l'alimentation, de l'environnement et du travail (Anses), un projet de fouille des données a donc été mis en place dans lequel ce travail de thèse s’inscrit. L’objectif de la thèse consiste plus précisément à tester, sans hypothèses préalables, l'existence ou non d'associations entre les activités agricoles et les pathologies reconnues en tant qu’affection de longue durée (ALD).Méthode : Les travaux présentés ont été menés sur la population de non-salariés (chefs d’exploitation ou d’entreprise) affiliés à la MSA, en disposant d’une part de données de cotisations, renseignant au niveau individuel, les activités professionnelles, caractéristiques démographiques et socio-économiques, et d’autre part, de données médico-administratives renseignant les déclarations de pathologies reconnues en ALD et informations associées dont la pathologie codée en CIM-10. Grâce à l’accord de la CNIL, un identifiant unique a été créé pour que, pour la première fois, ces données administratives et médico-administratives puissent être fusionnées et restructurées afin de permettre l’application de modèles. Des modèles de régression logistique ont été utilisés, en adaptant la sélection de variables pour chaque ALD et en utilisant la validation croisée afin de limiter le surajustement des modèles. Plusieurs méthodes ont été testées pour mieux prendre en compte les facteurs de confusion potentiels. Ces différents modèles ont ensuite été évalués via des mesures de robustesse et appliqués aux données à deux niveaux de précision pour la pathologie (ALD et CIM-10). Les associations statistiques entre chaque combinaison d’activité professionnelle et de pathologie ont été caractérisées par leur p-valeur, corrigées pour les tests multiples, et la valeur de l’odds ratio correspondant.Résultats : Le traitement des données a permis d’étudier une population constituée de 899 212 non-salariés affiliés entre 2006 et 2016. Au sein de cette population, il a été possible d’identifier 100 706 individus avec au moins une déclaration d’ALD sur la période d’observation. La méthodologie appliquée a mis en évidence 54 associations statistiquement significatives entre une activité professionnelle et une ALD, permettant à la fois de capturer des déterminants de santé déjà connus ou suspectés mais aussi de générer des hypothèses intéressantes. Après ajustement sur des facteurs de confusion, les secteurs agricoles les plus associés à des pathologies, faisant l’objet d’ALD chez les non-salariés, sont la viticulture, l’exploitation de bois, le paysagisme, et les entreprises de jardins ou de reboisement.Discussion : Ce travail de thèse apporte une première démonstration de la faisabilité et de la pertinence de l’analyse systématique des données collectées en routine à des fins assurantielles, sur l’ensemble de la population agricole, pour rechercher des risques sanitaires associés aux diverses activités professionnelles. Les « signaux » ainsi mis en évidence seront investigués à l’aide d’un groupe d’experts. D’autres modèles pourront être testés, au premier rang desquels les modèles de survie. Cette approche pourra ainsi constituer un outil précieux contribuant au dispositif de vigilance sanitaire des risques professionnels agricoles.

  • Titre traduit

    Health insurance data analysis for occupational health surveillance of French agricultural workers


  • Résumé

    Introduction: Health surveillance and vigilance (identification of new risks in particular) represent a major challenge in the field of occupational health. In addition to classical epidemiological studies, the systematic analysis, without a priori, of data collected routinely could be an asset for the early detection of diseases related to work. In this context, the social protection scheme dedicated to French agricultural workers, known as “Mutualité Sociale Agricole” (MSA), wanted to develop its vigilance activity by exploiting its medico-administrative data, used for the reimbursement of health expenditures. In partnership with the French Agency for Food, Environmental and Occupational Health & Safety (ANSES), a data mining project has been set up in which this thesis work fits. The aim of the thesis is, more precisely, to test, without any prior assumptions, the existence of associations between agricultural activities and pathologies recognized as long-term disease (LTD).Method: The work presented was conducted on self-employed population (heads of farms or enterprises) affiliated to the MSA. It relied on the one hand on a contributors’ database which includes, at the individual level, information about occupational activities, demographic and socio-economic characteristics, and on the other hand, on a medico-administrative database with declarations of long-term diseases (LTD) and associated information like ICD-10 diseases. Thanks to the agreement of the French Data Protection Authority (CNIL), a unique identifier was created so that, for the first time, these administrative and medico-administrative data could be merged and restructured to allow the application of models. Logistic regression models were performed, adapting variable selection for each LTD and using cross-validation to limit over-fitting of models. Several methods have been tested to better take into account potential confounders. These different models were evaluated via robustness measures and applied at two-level of precision for pathology (LTD and ICD-10). The statistical associations between each combination of occupational activity and LTD were characterized by p-values, corrected for multiple tests, and odds ratio.Results: Data management allowed us to consider a population of 899 212 self-employed affiliated between 2006 and 2016. Among them, it was possible to identify 100 706 individuals with at least one declaration of LTD over the observation period. The applied methodology revealed 54 statistically significant associations between an occupational activity and an LTD, making it possible to capture already known or suspected health determinants but also to generate interesting hypotheses. After adjusting for confounding factors, the agricultural sectors most associated with LTD, among the self-employed, are viticulture, timber exploitations, landscaping and gardening or reforestation.Discussion: This thesis provides a first demonstration of the feasibility and relevance of the systematic analysis of data collected routinely for insurance purposes, concerning the overall agricultural population, to search for health risks associated with occupational activities. The statistical "signals" thus highlighted will then be investigated by a group of experts from different scientific and occupational fields. Other models should be tested like survival models. This approach may thus be a valuable tool contributing to the health surveillance system dedicated to agricultural workers.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Bibliothèques universitaires. Bibliothèque électronique.
  • Bibliothèque : Université Grenoble Alpes. Bibliothèque et Appui à la Science Ouverte. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.