Thèse soutenue

Méthodes neuronales dans l'analyse de survie

FR  |  
EN
Auteur / Autrice : Quoc Anh Trinh
Direction : Bernadette Dorizzi
Type : Thèse de doctorat
Discipline(s) : Optimisation et sûreté des systèmes
Date : Soutenance en 2007
Etablissement(s) : Evry, Institut national des télécommunications

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Les réseaux de neurones artificiels sont un outil statistique utile à la prédiction de la survie en médecine clinique qui connaît un certain succès comme en témoigne le numéro spécial de la revue Cancer du 15 avril 2001. Ce travail propose une généralisation des modèles classiques de survie où les variables prédictives linéaires sont remplacées par des variables prédictives non linéaires modélisées par des perceptrons multicouches non récurrents. Cette modélisation dont l'objectif est de prédire un temps de survie prend en compte les effets dépendant du temps et les interactions entre variables. Le modèle des réseaux de neurones permet de s'affranchir des restrictions du modèle de Cox car il peut estimer les effets dépendant du temps ainsi que des interactions éventuelles. En outre, la présence de données censurées, la particularité de l'analyse de survie, donne envie de prendre en compte toutes les connaissances disponibles sur les données pour l'apprentissage des modèles neuronaux afin d'avoir un meilleur modèle prédictif. L'approche bayésienne est donc une approche appropriée car elle permet une meilleure généralisation des réseaux pendant la phase d' apprentissage en évitant le sur-ajustement qui peut se produire au cours de l'apprentissage avec l'algorithme de rétro-propagation. De plus, un apprentissage bayésien hiérarchise des réseaux de neurones convient parfaitement à une sélection de variables pertinentes qui permet une meilleure explication des effets dépendant du temps et des interactions entre variables. La performance des approches à base d'apprentissage de réseaux de neurones dans l'analyse de survie dépend notamment de la taille de l'ensemble des données d'apprentissage et du taux de censure de données. En particulier, pour les données de génomes pour lesquelles les variables sont beaucoup plus nombreuses que les observations, une sélection des variables importantes peut être effectuée par des réseaux de neurones après une sélection automatique des variables pertinentes pour diminuer la dimension de l'espace des données. Une estimation plus précise du temps de survie permet une meilleure connaissance physiopathologique de la maladie et une meilleure stratégie thérapeutique. Celle-ci est obtenue grâce à la méthode de ré-échantillonnage de données et à l'adaptativité du modèle neuronal. La construction d'un arbre de décision sur des estimations du réseau permet une meilleure définition des groupes pronostiques de survie