Traitement des données massives de santé : Identification et caractérisation des patients résistants aux traitements d'oncologie.

Walid Zeghdaoui

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Walid Zeghdaoui
Direction :	Fadila Bentayeb, Omar Boussaid
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 08/07/2022
Etablissement(s) :	Lyon
Ecole(s) doctorale(s) :	École doctorale en Informatique et Mathématiques de Lyon
Partenaire(s) de recherche :	établissement opérateur d'inscription : Université Lumière (Lyon ; 1969-....)
	Laboratoire : Entrepôts, Représentation et Ingénierie des Connaissances
Jury :	Président / Présidente : Florent Masseglia
	Examinateurs / Examinatrices : Lynda Tamine-Lechani
	Rapporteurs / Rapporteuses : Baya Lydia Boudjeloud-Assala, Marie-Christine Jaulent

Mots clés

FR |

EN

Mots clés contrôlés

Informatique

Dossiers médicaux

Cancer -- Épidémiologie

Réseaux neuronaux (informatique)

Traitement automatique de la parole

Intelligence artificielle

Mots clés libres

Intelligence artificielle

Traitement automatique des langues

Fouille de texte

Apprentissage automatique

Apprentissage profond

Réseaux de neurones

Classification de textes

Plongement de mots

Résistances aux traitements d’oncologie

Cancer

Résumé

FR |

EN

Au cours de ces dernières années, l’information au sens large est devenue la pièce maîtresse pour révolutionner les projets de transformation numérique. Encore faut-il savoir l’exploiter d’une manière intelligente pour en tirer tous les bénéfices. L’informatisation des données textuelles concerne plusieurs secteurs d’activité, en particulier le domaine médical. Aujourd’hui, la médecine moderne est devenue presque inconcevable sans l’utilisation des données numériques, qui ont fortement affecté la compréhension scientifique des maladies. Par ailleurs, ces dernières années, les données médicales sont devenues de plus en plus complexes en raison de leur croissance exponentielle. Cette forte croissance engendre une quantité de données importante qui ne permet pas d’effectuer une lecture humaine complète dans un délai raisonnable. Ainsi, les professionnels de santé reconnaissent l’importance des outils informatiques pour identifier des modèles informatifs ou prédictifs à travers le traitement et l’analyse automatiques des données médicales. Notre thèse s’inscrit dans le cadre du projet ConSoRe, et vise à créer des cohortes de patients résistants aux traitements anticancéreux. L’identification de ces résistances nous permet de mettre en place des modèles de prédiction des éventuels risques qui pourraient apparaître pendant le traitement des patients, et nous facilite l’individualisation et le renforcement de la prévention en fonction du niveau de risque estimé. Cette démarche s’inscrit dans le cadre d’une médecine de précision, permettant de proposer de nouvelles solutions thérapeutiques adaptées à la fois aux caractéristiques de la maladie (cancer) et aux profils des patients identifiés. Pour répondre à ces problématiques, nous présentons dans ce manuscrit nos différentes contributions. Notre première contribution consiste en une approche séquentielle permettant de traiter les différents problèmes liés au pré-traitement et à la préparation des données textuelles. La complexité de ces tâches réside essentiellement dans la qualité et la nature de ces textes, et est liée étroitement aux particularités des comptes rendus médicaux traités. Outre les opérations de linguistiques standards telles que la tokenisation ou la segmentation en phrases, nous présentons un arsenal de techniques assez large pour la préparation et le nettoyage des données. Notre deuxième contribution consiste en une approche de classification automatique des phrases extraites des comptes rendus médicaux. Cette approche est constituée essentiellement de deux étapes. La première consiste à entraîner les vecteurs de mots pour représenter les textes de façon à extraire le plus de caractéristiques possibles. La seconde étape est une classification automatique de phrases selon leurs informations sémantiques. Nous étudions pour cela les différents algorithmes d’apprentissage automatique (classique et profond) qui fournissent les meilleures performances sur nos données, et nous présentons notre meilleur algorithme. Notre troisième et dernière contribution majeure est consacrée à notre approche de modélisation des résistances aux traitements d’oncologie. Pour cela, nous présentons deux modèles de structuration des données. Le premier modèle nous permet de structurer les informations identifiées au niveau de chaque document (ou compte rendu). Le second modèle est quant à lui introduit au niveau patient, et permet à partir des informations extraites dans plusieurs comptes rendus d’un même patient, reconstruire son parcours néoplasique. Cette structuration permet d’identifier les réponses aux traitements et les toxicités, qui constituent des composants élémentaires pour notre approche de modélisation des résistances aux traitements d’oncologie.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Traitement des données massives de santé : Identification et caractérisation des patients résistants aux traitements d'oncologie.

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Traitement des données massives de santé : Identification et caractérisation des patients résistants aux traitements d'oncologie.

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses