p a. gourraud - université de nantes
TRANSCRIPT
Potentialités du calcul intensif:Des exemples transformant en Santé
Prof. Pierre-Antoine Gourraud
ATIP-Avenir Team 6 "Translational Immunogenomics of Transplantation and Autoimmunity » ITUN - CRTI - UMR Inserm 1064 -CHU de Nantes
Pôle Hospitalo-Universitaire 11 : Santé Publique, Santé au Travail et Pharmacie Hôpital St-Jacques - CHU de Nantes - 44093 Nantes cedex
Associate Professor – Neurology Department University of California at San Francisco
petit-déjeuner atlanpolitain du mardi 21 novembre prochain de 7h45 à 10h à l’Ecole Centrale, sur le thème des potentialités du calcul intensif.
COI: Fondateur de www.Methodomics.com (2008) 1
Introduction
• Calcul intensif• Calcul : Notion de nature opératoire Transformation d'une quantité mathématique en appliquant les règles de techniques opératoires correspondant aux opérations qui interviennent.• Intensif : Notion de degré• Relatif a un domaine « en santé »• Relatif a une temporalité « par rapport à avant »
• Deux exemples d’un basculement vers du calcul intensif • 1- En Médecine régénérative avec 2 publications • 2- En Génomique – Imputation de marqueurs génétiques
• Quelques enseignements … • « Transformant »
Exemple 1 : Les donneurs “universels” en Médecine régénérative
• “The role of human leukocyte antigen matching in the development of multiethnic
"haplobank" of induced pluripotent stem cell lines.”
• Stem Cells. 2012 Feb;30(2):180-6. doi: 10.1002/stem.772.
• A Haplobank for California
• CIRM Report A. Trounson, N. De Witt, S. Talib
• Stem Cells
• Transl Med. 2015 May;4(5):413-8. doi: 10.5966/sctm.2015-0052.
• Proceedings: human leukocyte antigen haplo-homozygous induced pluripotent stem cell
haplobank modeled after the california population: evaluating matching in a multiethnic and
admixed population.
En 2010 … Un etude des Les donneurs “universels” en Médecine régénérative
Une solution mise en un ensemble d’équations
Paramètre clé : fréquence des haplotypes = Chromosome par les parents.
2014 : La modification des « règles du jeu mathématique » implique un changement de méthode
CIS Matching: Phased
Gourraud et al. 2012
Haplotype
Chromosome 1
Haplotype
Chromosome 2 Haploline
A*01:01g A*03:01g A*01:01g
B*08:01g B*07:02g B*08:01g
DRB1*03:01 DRB1*15:01 DRB1*03:01
TRANS Matching: Unphased
New
Haplotype
Chromosome 1
Haplotype
Chromosome 2 Haploline
A*01:01g A*03:01g A*01:01g
B*07:02g B*08:01g B*08:01g
DRB1*03:01 DRB1*15:01 DRB1*03:01
All phased alleles in Haploline overlap with at least 1 chromosome in a given subject.
All unphased alleles in Haploline overlap with a given subject’s alleles.
Population Simulation required
Computation Based on NMDP haplotype freq.Maiers et al Hum Immunol 2007 Gragert et al Hum Immunol 2013
AB(C)DR(DQ)Haplotype
Pool
Simulation par le calcul de la demande
• Two haplotypes per individual.
• Selected using the cumulative sum of the haplotype frequencies and random number generation.
Simulation par le calcul de l’offre
AB(C)DR(DQ)Haplotype
Pool
• One haplotype per cell.
• Selected using haplotype rank, e.g., top 100.
Analyse par simulation de l’entité élémentaire de production
• Compare all haplolines in haplobank to each subject in population.
• Count a match based on haplotype phasing, CIS or TRANS.
Analyse par simulation de l’entité globale de production
• Compare each subject in population to haplobank.
• Count a match based on haplotype phasing, CIS or TRANS.
On réalise plusieurs jours de calculs pour caractériser par simulations en grand nombre des événements relativement rares et leur variabilité
CIS MATCHING TRANS MATCHINGHaplotype % Average Match sd* % Average
Matchsd*
A*01:01g~B*08:01g~DRB1*03:01 6.3166 0.240791 6.6357 0.258102A*03:01g~B*07:02g~DRB1*15:01 3.4682 0.181611 4.0656 0.191598A*29:02g~B*44:03~DRB1*07:01 2.5671 0.146317 2.7098 0.155602A*02:01g~B*07:02g~DRB1*15:01 2.0342 0.152826 3.5958 0.195811A*02:01g~B*44:02g~DRB1*04:01 1.8538 0.134891 2.2172 0.152806A*01:01g~B*57:01g~DRB1*07:01 1.6857 0.125997 1.9554 0.141795A*03:01g~B*35:01g~DRB1*01:01 1.3464 0.110805 1.6062 0.112562A*02:01g~B*15:01g~DRB1*04:01 1.2386 0.115793 1.5716 0.137037A*30:01g~B*13:02g~DRB1*07:01 1.2365 0.119387 1.2966 0.123364A*33:01g~B*14:02~DRB1*01:02 0.9948 0.100408 1.0173 0.099553
2010 par modélisation 2014 par simulation
Résultats : global par population en CIS “comme en 2010.” mais par simulation
Gourraud et al 2012 Number of cell lines ~=~ Haplotype rank x3.5
Résultats : global par population en Trans obtenus que par simulation
Exemple 2: l’imputation de données génomiques
• Genes HLA - & marqueurs génétiques simples SNP • HLA- Human Leukocyte Antigen• SNP- Single Nucleotide Polymorphism
• Rôle de imputation statistique (inférence statistique)
Affectation d'une somme au crédit (au débit) d'un compte.
Opération par laquelle on passe d'une assertion considérée comme vraie à une autre assertion au moyen d'un système de règles qui rend cette deuxième assertion également vraie
• SNP SNP SNP HLA
• De multiples solutions dont des solutions qui ont recours calcul intensif • A la racine des ces problèmes un grande diversité souvent combinatoire du vivant
Un peu biologie :les Gènes “HLA”
• La “carte d’identité” génétique pour les greffes• 1‰ of the genome
• 1% of the genes
• Highest polymorphism
• Highest linkage disequilibrium
• Fonction Immunitaire• Human Leukocyte Antigen Genes
• HLA genes
• Self identity
• Self and foreign antigen presenting
HLA Class I
Gene A B C
Alleles 2,946 3,693 2,466
Proteins 2,077 2,741 1,739
Nulls 138 122 74
HLA Class II
Gene DRB1 DQB1
Alleles 1,582 712
Proteins 1,165 473
Nulls 36 17
Un peu de probabilités combinatoiresA vous de jouer !
• Quelle est la diversité HLA théorétiquement possible avec ces 5 gènes ?
HLA Class I HLA Class II
Gene A B C Gene DRB1 DQB1
Alleles 2,946 3,693 2,466 Alleles 1,582 712
Nombrede paires
? ? ?Nombrede paires
? ?
# ProfilsClass II
?# ProfilsClass II
?
# ProfilsI & II
??
Réponses
• Questions: Combien d’êtres humains ont jamais vécu sur terre ?Du rôle de la modélisation mathématique en Science du vivant … Est ce que ca représente bien la réalité ?
Gene A B C Gene DRB1 DQB1
Alleles 2,946 3,693 2,466 Alleles 1,582 712
4,340,931 6,820,971 3,041,811 1,252,153 253,828
4.3E+06 6.8E+06 3.0E+06 1.3E+06 2.5E+05
# Profils
I & II
28,625,839,903,171,300,000,000,000,000,000
2.9E+31
Presque trois cent mille milliards de millards de milliards
HLA Class I HLA Class II
Nombre
de paires
Nombre
de paires
# Profils
Class II
90,066,090,529,607,400,000 # Profils
Class II
317,831,491,684
9.0E+19 3.2E+11
18
(beaucoup) de “Mises en sac” imputation HLA – HIBAG
Zheng et al., Pharma. J., 2014
A G C 01:01
C A C 30:01
A A A 06:02
Genotypes
A G C
C A C
A A A
HLA allele
01:01
30:01
06:02
+
x 100
917 individuals with HLA NGS typed
29,960 SNPs in the MHC
19
HLA imputationLa capacité a produire ses propres références est un enjeu stratégique
97%
81%
94%
69%
97%
HLA-A HLA-B HLA-C HLA-DRB1 HLA-DQB1
Cal
l rat
e
81% 42% : test with embedded bagging (N = 300)
De la reference a l’Imputation
Not computationally intensive (few hours on personal computer for 10,000 samples)
Reliable imputation Post-probability > 0.5:
20
HLA imputation – Computation
Highly computationally demanding
Tools not available (R)
Installation of all dependencies and specific path
Easy to use
Application to genomics tools (Environment)
Pure computation project
Limited in that particular case
21
Ordre de grandeurs: HLA imputation – Computation
HLANumber of
allelesNumber of
SNPNumber of SNP
usedAverage number of
haplotypesTime in sec Time
A 49 5780 3562 931.99 96498 1D-2h-48m-18s
B 90 5846 3786 1084.9 1439831D-15h-59m-
43s
C 41 6112 3543 900.32 93214 1D-1h-53m-34s
DPB1 31 6674 2979 932.18 99437 1D-3h-37m-17s
DQB1 17 7185 2828 995.69 281955 3D-6h-19m-15s
DQA1 15 7156 3647 1272.41 1593481D-20h-15m-
48s
DRB1 49 6993 4013 1263.32 184512 2D-3h-15m-12s
K = 100
700 CPU simultaneously
>30,000 CPU-hrs (>3 years on standard computer)
Conclusion
• Weapon of “Math/Mass Destructions”• Modèles <<< Puissance de calcul
• Deux exemples • Publication en Médecine Régénérative
• Pappas et al. 2015 Stem Cell Translational Medicine
• Génomique statistique
• Savoirs- faire par rapport aux savoirs• Conséquences en enseignement - en professionnalisation
• Des opportunités multiples de transformations • Calculs à la demande• et donc des enjeux éthiques sous-jacents
Potentialités du calcul intensif:Des exemples transformants en Santé
Prof. Pierre-Antoine Gourraud
ATIP-Avenir Team 6 "Translational Immunogenomics of Transplantation and Autoimmunity » ITUN - CRTI - UMR Inserm 1064 -CHU de Nantes
Pôle Hospitalo-Universitaire 11 : Santé Publique, Santé au Travail et Pharmacie Hôpital St-Jacques - CHU de Nantes - 44093 Nantes cedex
Associate Professor – Neurology Department University of California at San Francisco
Petit-déjeuner atlanpolitain du mardi 21 novembre prochain de 7h45 à 10h à l’Ecole Centrale, sur le thème des potentialités du calcul intensif.
COI: Fondateur de www.Methodomics.com (2008) 23