Thèse soutenue

Modélisation des arbres onco-généalogiques et application à la détermination de phénotypes cancéreux spécifiques favorisant une exploration génotypique ciblée
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Fabrice Kwiatkowski
Direction : Laurent SerletYves-Jean Bignon
Type : Thèse de doctorat
Discipline(s) : Mathématiques Appliquées
Date : Soutenance le 02/10/2020
Etablissement(s) : Université Clermont Auvergne‎ (2017-2020)
Ecole(s) doctorale(s) : École doctorale des sciences fondamentales (Clermont-Ferrand)
Partenaire(s) de recherche : Laboratoire : Laboratoire de Mathématiques Blaise Pascal
Jury : Examinateurs / Examinatrices : Élisabeth Lesquoy-de Turckheim, Mathilde Gay-Bellile, Stéphanie Léger, David Perol
Rapporteurs / Rapporteuses : Jean-Christophe Thalabard, Sergueï Dachian

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

En oncogénétique, c’est l’étude des cas de cancer dans l’arbre généalogique familial qui permet d’orienter le diagnostic vers certaines mutations voire certaines associations de mutations, ou bien de rejeter l’hypothèse d’une susceptibilité génétique de cancer dans la famille. Si ce diagnostic repose d’ordinaire sur l’oncogénéticien, il est possible de proposer une approche algorithmique pour traiter les informations contenues dans ces arbres. Trois méthodes ont été développées à cette fin : • Utilisation de l’arbre généalogique tel quel comme modèle puis calcul du risque mutationnel selon diverses hypothèses et conservation de celle la plus probable au vu du modèle.• Génération de sous-arbres (squelette contenant par ex. toutes les occurrences père-mère-fils-fille d’un arbre) résumant l’information oncogénétique et constitution par agrégation de profils familiaux. Détermination du risque mutationnel par calcul de distance entre les sous-arbres et les profils.• Utilisation du résumé statistique dénombrant les cas par type de cancer, par âge de diagnostic ainsi que d’autres données démographiques synthétiques (taux de célibat, indices de fertilité, précocité de la procréation…). Traitement de ces résumés à l’aide d’analyse en composantes principales (ACP) et de clustering afin de mettre en évidence des groupes de familles de phénotype similaire, susceptibles de correspondre à des génotypes spécifiques.Ces approches ont été testées tantôt sur des arbres générés aléatoirement à partir des risques connus de cancers sein/ovaire induits par les mutations sur les gènes BRCA, tantôt sur la base de données oncogénétique du Centre de lutte contre le cancer Jean Perrin qui contient plusieurs milliers d’arbres de familles prédisposées au cancer. Cela nous a permis de déterminer en particulier une taille optimale pour les arbres onco-généalogiques. La génération de sous-arbres n’a pas montré un intérêt supérieur à l’utilisation des résumés statistiques. A l’aide de ces derniers, nous avons développé un modèle de classement automatique doublement hiérarchique (CAH²), le premier niveau correspondant aux familles elles-mêmes et le second aux membres des familles. Ce CAH² nécessite encore quelques validations. Enfin les ACP sur les résumés nous ont permis de regrouper les familles de manière efficace, en discriminant bien, parmi les familles à risque sein/ovaire, les familles avec des mutations très pénétrantes (gènes BRCA) des autres familles chez lesquelles les mutations délétères devraient être sur un ou plusieurs autres gènes mais non encore répertoriés comme tels.