Thèse soutenue

Méthodes de fouille de données en épidémiologie psychiatrique : application à l’analyse des facteurs et marqueurs de risque de la symptomatologie dépressive à l’adolescence.

FR  |  
EN
Auteur / Autrice : Aminata Ali
Direction : Bruno FalissardCaroline Barry
Type : Thèse de doctorat
Discipline(s) : Santé publique - épidémiologie
Date : Soutenance le 03/03/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Santé Publique (Le Kremlin-Bicêtre, Val-de-Marne ; 2015-...)
Partenaire(s) de recherche : Laboratoire : Centre de recherche en épidémiologie et santé des populations (Villejuif, Val-de-Marne ; 2010-....)
Référent : Université Paris-Saclay. Faculté de médecine (Le Kremlin-Bicêtre, Val-de-Marne ; 2020-....)
Jury : Président / Présidente : Emmanuel Chazard
Examinateurs / Examinatrices : Maria Melchior, Cédric Galéra, Mohamed Sedki
Rapporteur / Rapporteuse : Maria Melchior, Cédric Galéra

Résumé

FR  |  
EN

L’adolescence est une période de vulnérabilité pour la dépression, sur le plan psychologique et biologique. La littérature sur la dépression à l’adolescence est très fournie sur ses facteurs de risque et de protection ainsi que sur les différentes manifestations externalisées pouvant servir de signe d’appel. Cependant, les modèles de prédiction du risque restent peu performants. La recherche systématique et approfondie des combinaisons entre marqueurs/facteurs de risque pourrait être un moyen d’améliorer ces modèles. Les techniques issues des méthodes de « fouille de données » (data mining, machine Learning DMML) semblent de plus en plus utilisées sur des problématiques similaires. Ce travail de thèse va s’intéresser à l’application des méthodes issues du DMML à la dépression durant l’adolescence. Dans ce contexte, l’objectif sera i) de cartographier l’utilisation réelle de ces méthodes en épidémiologie et santé publique ii) d’analyser les patterns d’interactions entre les facteurs/marqueurs de risque de la dépression à l’adolescence afin de développer de nouvelles pistes utiles dans le repérage de cette population.En premier lieu, une analyse bibliométrique de Medline, sera réalisée afin de quantifier l’essor des méthodes issues du DMML en santé publique et épidémiologie et d’en caractériser les domaines d’application majeurs. Dans un second temps, une comparaison de l’apport de deux méthodes de classification quant à leur capacité à modéliser le risque de dépression : ensemble d’arbres par régression boostée, des forêts aléatoires par rapport à une régression logistique LASSO sans interaction sera réalisée. Pour finir, une méthode de partitionnement supervisée, appelée « Régression sur profil», sera utilisée pour créer des clusters d’adolescents à partir des variables explicatives de la dépression et de la dépression. Les données issues de l’enquête transversale en milieu scolaire «Processus d’adolescence» seront utilisées. Elle inclut, 15235 adolescents, répondant à un auto-questionnaire anonyme contenant la dépression via l’Adolescent Depression Rating Scale et les variables explicatives de la dépression présentes dans l’enquête. Cette thèse a montré les intérêts et les difficultés quant à l’utilisation des méthodes issues du DMML pour la recherche d’associations pertinentes en épidémiologie psychiatrique.