génétique des maladies multifactorielles
DESCRIPTION
Génétique des Maladies Multifactorielles. Stéphanie Debette MCU-PH Epidémiologie – Neurologie Lariboisière [email protected]. Génétique des maladies multifactorielles. Approche épidémiologique Epidémiologie génétique = - PowerPoint PPT PresentationTRANSCRIPT
Génétique des
Maladies Multifactorielles
Stéphanie DebetteMCU-PH Epidémiologie – Neurologie Lariboisière
Approche épidémiologique
Epidémiologie génétique = Branche de l’épidémiologie qui étudie le rôle de
facteurs génétiques et de leur interaction avec des facteurs environnementaux dans la survenue de maladies
Khoury et al., Fundamentals of Genetic Epidemiology, Oxford University Press 1993
Génétique des maladies multifactorielles
Physiopathologie: Meilleure compréhension des mécanismes moléculaires
conduisant à la maladie
Prédiction de risque: Identification de populations à risque de développer
maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée »)
Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou
d’individus à risque accru d’effets secondaires « Traitement personnalisé »
McCarthy, Nat Rev Med 2008
Génétique des maladies multifactorielles:pourquoi?
Physiopathologie: Meilleure compréhension des mécanismes moléculaires
conduisant à la maladie
Prédiction de risque: Identification de populations à risque de développer
maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée »)
Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou
d’individus à risque accru d’effets secondaires « Traitement personnalisé »
McCarthy, Nat Rev Med 2008
Génétique des maladies multifactorielles:pourquoi?
McCarthy, Nat Rev Genet 2008
Epidemiologie génétique Physiopathologie
Identification de facteurs de susceptibilité génétique
Meilleure compréhension de biologie sous-jacente
Nouvelles Cibles thérapeutiques
Biomarqueurs Prévention
ex: monitorer évolution maladie
ex: mise en évidenceFDR environnemental
McCarthy, Nat Rev Genet 2008
Identification de facteurs de susceptibilité génétique
Meilleure compréhension de biologie sous-jacente
Nouvelles Cibles thérapeutiques
Biomarqueurs Prévention
ex: monitorer évolution maladie
ex: mise en évidenceFDR environnemental
Epidemiologie génétique Physiopathologie
Découverte gènes de susceptibilité maladie de Crohn a révélé rôle central autophagie et exposition à microbes intestinaux
Yano & Kurata, Nat Immunol 2009
Nouvelles voies pour approches thérapeutiques
Abraham, NEJM 2009; Feero, NEJM 2010
Exemple de la maladie de Crohn…
Gène NOD2: détecteur intracellulaire de peptidoglycanes bactériens Gène ATG16L1: dirige composants intracellulaires (microbes) vers lysosomes
Targeting the human microbiome with antibiotics, probiotics, and prebiotics: gastroenterology enters the metagenomics era. Preidis, Gastroenterology 2009
McCarthy, Nat Rev Genet 2008
Identification de facteurs de susceptibilité génétique
Meilleure compréhension de biologie sous-jacente
Nouvelles Cibles thérapeutiques
Biomarqueurs Prévention
ex: monitorer évolution maladie
ex: mise en évidenceFDR environnemental
Epidemiologie génétique Physiopathologie
Tabac ↗ risque de polyarthrite rhumatoïde de 1.5 en population générale, mais d’un facteur > 20 si certains variants génétiques sur HLA et PTPN22 sont présents!
Identification de FDR environnementaux par la génétique…
Klareskog, Arthritis Rheum 2006
Amish porteurs de variant génétique sur gène FTO ↗ risque obésité sont protégés de obésité par activité physique
Rampersaud, Arch Intern Med 2008;Kilpeläinen, PLOS Med 2011
Physiopathologie: Meilleure compréhension des mécanismes moléculaires
conduisant à la maladie
Prédiction de risque: Identification de populations à risque de développer
maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée »)
Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou
d’individus à risque accru d’effets secondaires « Traitement personnalisé »
McCarthy, Nat Rev Med 2008
Génétique des maladies multifactorielles:pourquoi?
Cho & Gregersen, NEJM 2011Ripatti, Lancet 2010
Epidemiologie génétique Prédiction de risque?
Décevant jusqu’ici, car variants génétiques identifiés jusqu’ici = associés à augmentation modeste de risque (OR < 1.5)
Même quand risque relatif plus élevé, pour l’instant pas d’application clinique dans majorité des cas: Allèle Epsilon4 de l’Apolipoprotéine E pour maladie d’Alzheimer
Allèles HLA pour maladies autoimmunes
Combiner Différents variants génétiques (« scores de risque »)
Variants génétiques + autres biomarqueurs (circulants, imagerie…)
Physiopathologie: Meilleure compréhension des mécanismes moléculaires
conduisant à la maladie
Prédiction de risque: Identification de populations à risque de développer
maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée »)
Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou
d’individus à risque accru d’effets secondaires « Traitement personnalisé »
McCarthy, Nat Rev Med 2008
Génétique des maladies multifactorielles:pourquoi?
CYP2C19 = enzyme impliquée dans bioactivation du clopidogrel
Allele CYP2C19*2 du variant génétique rs4244285 = associé à risque ↑ d’évènements cardiovasculaires
Scott, Clin Pharmacol Ther 2011
Pharmacogénétique, Exemple
FDA / AHA: « boxed warning », évaluer au cas par cas
Utilisation du Clopidogrel en fonction de génotype rs4244285 CYP2C19 chez patients traités par angioplastie pour syndrome coronarien aigu
I. Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappelsI. Variation génétiqueII. Equilibre de Hardy-WeinbergIII. Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)I. Etudes d’association sur « gènes candidats »II. Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAGI. Tests multiplesII. Hétérogénéité de populationIII. Réplication
VI. Caractérisation des signaux identifiés, perspectives
Génétique des maladies multifactorielles
I. Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappelsI. Variation génétiqueII. Equilibre de Hardy-WeinbergIII. Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)I. Etudes d’association sur « gènes candidats »II. Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAGI. Tests multiplesII. Hétérogénéité de populationIII. Réplication
VI. Caractérisation des signaux identifiés, perspectives
Génétique des maladies multifactorielles
Maladies mendéliennes
Maladies mendéliennes (ou monogéniques) = causées par mutation dans un seul gène
Trois modes de transmission:– Autosomique dominant– Autosomique récessif– Récessif lié à l’X
Maladies complexes ou multifactorielles
Maladies ayant de multiples facteurs de susceptibilité génétiques et facteurs de risque environnementaux
Ne suit pas un mode de transmission mendélien
Différentes façon de mesurer contribution de facteurs génétiques:
• Héritabilité: proportion de variance phénotypique due à effets génétiques
• Risque de récurrence: compare proportion d’apparentés de cas qui sont atteints par maladie versus proportion d’individus atteints en population générale
I. Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappelsI. Variation génétiqueII. Equilibre de Hardy-WeinbergIII. Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)I. Etudes d’association sur « gènes candidats »II. Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAGI. Tests multiplesII. Hétérogénéité de populationIII. Réplication
VI. Caractérisation des signaux identifiés, perspectives
Génétique des maladies multifactorielles
• Analyses de liaison (familles):
Examiner la co-transmission d’une génération à l’autre du phénotype et des allèles de marqueurs génétiques
• Etudes d’association génétique (population générale, cas/témoins):
Comparer fréquence des variants génétiques, entre patients et témoins
Outils en épidémiologie génétique
Courtesy Dr. Dupuis
• Analyses de liaison (familles):
Examiner la co-transmission d’une génération à l’autre du phénotype et des allèles de marqueurs génétiques
plus puissant pour maladies complexes Risch, Science 1996
• Etudes d’association génétique (population générale, cas/témoins):
Comparer fréquence des variants génétiques, entre patients et témoins
Outils en épidémiologie génétique
A A/CT G T T CCopie 1
A A/CT G T T CCopie 2
1000 témoins:
CC: n= 10AC: n= 180AA: n= 810
1000 patients avec AVC:
CC: n= 50AC: n= 250AA: n= 700
Single nucleotide polymorphism (SNP)
Etudes d’association génétique
• Un allèle est associé à un phénotype si sa fréquence diffère plus entre cas et témoins que par le simple hasard. Cela n’implique PAS nécessairement un lien de causalité
chromosome
Phénotype
AVariant génotypé
BVariant causal non observé
Déséquilibre de liaisonAssociation directe(non observée)
Association indirecte(observée)
Etudes d’association génétique
I. Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappelsI. Variation génétiqueII. Equilibre de Hardy-WeinbergIII. Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)I. Etudes d’association sur « gènes candidats »II. Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAGI. Tests multiplesII. Hétérogénéité de populationIII. Réplication
VI. Caractérisation des signaux identifiés, perspectives
Génétique des maladies multifactorielles
Quelques chiffres…
• ~3 milliards de paires de bases (nucléotides) dans séquence d’ADN humain
• 20,000 – 25,000 gènes:– 1.5% du génome (reste contient ADN non-codant,
dont introns et séquences régulatrices)– Taille variable, de x100 bases à > 2 millions de bases
• 99.9% de la séquence d’ADN est identique d’un individu à l’autre– Portion variable fait la différence…
Types de variation génétique
• Single Nucleotide Polymorphism (SNP) = polymorphisme mononucléotidique
– Variation individuelle dans séquence nucléotidique– Plusieurs millions de SNPs, fréq >1% (<1% = mutation ou SNV)
A A/CT G T T CCopie 1 Chr (brin+)
A A/CT G T T C
2 Allèles possibles:C ou A
3 Génotypes possibles:CC, CA, AA
Copie 2 Chr (brin+)
Types de variation génétique
Single Nucleotide Polymorphism (SNP) = polymorphisme mononucléotidique
– Variation individuelle dans séquence nucléotidique
– Plusieurs millions de SNPs, fréq >1% (<1% = mutation ou SNV)
– Conséquences:
• Neutre:─ Séquence non codante, non régulatrice─ Séquence codante mais « synonyme »:
exemple: ACC ou ACA même acide aminé (thréonine)
• Modification taux d’expression de gène─ Séquence régulatrice (non codante)
• Modification composition protéine:─ Séquence codante «non-synonyme» ou «missense»─ Séquence codante «non-sense» (induit codon stop)─ Intron, site d’épissage (non codante)
Types de variation génétique
« Copy number variants » = CNV: segment d’ADN ou gène présent en nombre variable de copies d’un individu à l’autre
– Perte ou gain– Taille variable (10,000 – 5,000,000 bases)– Découverte plus récente que SNPs– Intra- ou intergénique
Polymorphismes de répétition– Répétition de séquences en tandem, en nombre variable– Taille variable: Microsatellites, STR, VNTR– Intra- ou intergénique
Calcul de fréquences alléliques pour un SNP
Génotype N individus %
AA 200 20%
AG 500 50%
GG 300 30%
TOTAL 1000 100%
Quelle est la fréquence de l’allèle A?
Calcul de fréquences alléliques pour un SNP
Génotype N individus N allèles
AA 200 400 A
AG 500 500 A 500 G
GG 300 600 G
TOTAL 1000 2000
Quelle est la fréquence de l’allèle A?
Freq (A) = (200x2 + 500) / 2000 = 0.45
Quelle est la fréquence de l’allèle G?
Calcul de fréquences alléliques pour un SNP
Génotype N individus N allèles
AA 200 400 A
AG 500 500 A 500 G
GG 300 600 G
TOTAL 1000 2000
Quelle est la fréquence de l’allèle A?
Freq (A) = (200x2 + 500) / 2000 = 0.45
Quelle est la fréquence de l’allèle G?
Freq (G) = (300x2 + 500) / 2000 = 0.55
I. Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappelsI. Variation génétiqueII. Equilibre de Hardy-WeinbergIII. Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)I. Etudes d’association sur « gènes candidats »II. Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAGI. Tests multiplesII. Hétérogénéité de populationIII. Réplication
VI. Caractérisation des signaux identifiés, perspectives
Génétique des maladies multifactorielles
Equilibre de Hardy-Weinberg
Dans une population dont l'effectif est infini (très grand), panmictique (mariages au hasard), en l'absence de mutation et de sélection, les fréquences alléliques et génotypiques restent constantes d’une génération à l’autre:
Fréquence du génotype aa = p2
Fréquence du génotype aA = 2pq Fréquence du génotype AA = q2
où p = fréquence de l’allèle a
q = fréquence de l’allèle A
• Conditions de Hardy-Weinberg (HW) ne sont généralement pas strictement remplies dans la plupart des populations, mais généralement les génotypes suivent assez bien l’équilibre de HW
• En l’absence d’équilibre de HW on doit se poser la question des causes potentielles
Par exemple lors de génotypage sur plateformes à haut débit, l’absence d’équilibre de HW dans une population témoin est considéré un signe de génotypage de mauvaise qualité
Equilibre de Hardy-Weinberg
• Comment tester si équilibre de Hardy-Weinberg est présent?
Equilibre de Hardy-Weinberg
Test de « Goodness of Fit »
où Oi = effectif observé pour génotype i Ei = effectif attendu pour génotype i si équilibre
de HW X2 suit une loi de Chi-2 à 1 degré de liberté
En effet, normalement pour un test de chi-2 de 2 x 3 classes (observé/attendu, aa/aA/AA) il y a 2 degrés de liberté, mais ici on retire un degré de liberté supplémentaire, car on estime les fréquences alléliques à partir des génotypes observés
Si équilibre de HW, alors test de Chi-2 est non significatif
Déséquilibre de liaison
Soit 2 variants génétiques sur même chromosome -Variant 1: Alleles “a” et “A”, fréquences = p(a), p(A)-Variant 2: Alleles “b” et “B”, fréquences = p(b), p(B)
On a 4 combinaisons (ou haplotypes) possibles: AB Ab aB ab
Si les deux variants sont indépendants, i.e. en « équilibre de liaison », alors:p(AB)=p(A) x p(B)
A/a
B/b
Déséquilibre de liaison
Soit 2 variants génétiques sur même chromosome -Variant 1: Alleles “a” et “A”, fréquences = p(a), p(A)-Variant 2: Alleles “b” et “B”, fréquences = p(b), p(B)
On a 4 combinaisons (ou haplotypes) possibles: AB Ab aB ab
Si les deux variants ne sont pas indépendants, ils sont dits en déséquilibre de liaison, i.e. p(AB)≠p(A) x p(B)
Fréquence de AB dépend non seulement de p(A) et p(B) mais aussi du degré de déséquilibre de liaison (r2, D’)
A/a
B/b
A/a
B/b
Indépendants
Recombinaison
A/a
B/b
Dépendants
Recombinaison
• Un allèle est associé à un phénotype si sa fréquence diffère plus entre cas et témoins que par le simple hasard. Cela n’implique PAS nécessairement un lien de causalité
chromosome
Phénotype
AVariant génotypé
BVariant causal non observé
Déséquilibre de liaisonAssociation directe(non observée)
Association indirecte(observée)
Etudes d’association génétique
I. Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappelsI. Variation génétiqueII. Equilibre de Hardy-WeinbergIII. Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)I. Etudes d’association sur « gènes candidats »II. Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAGI. Tests multiplesII. Hétérogénéité de populationIII. Réplication
VI. Caractérisation des signaux identifiés, perspectives
Génétique des maladies multifactorielles
• Etudes d’association sur “gènes candidats”:
– Tester association de phénotype avec polymorphismes génétiques candidatsBasé sur hypothèses a priori sur physiopathologie
– Centaines d’études d’association gène candidat publiées sur AVC, HSB, infarctus: peu de loci répliqués de façon convaincante
– Principaux problèmes méthodologiques Petits effectifs Absence de réplication pré-planifiée Mauvais candidat ...
Etudes d’association génétique
• Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat:
– Expérimentation animale:
Etudes gène candidat
Inactivation gène LRP1 dans cell. Musculaires lisses souris
Anévrysmes
Variants génétiques
dans LRP1 =
associés aux
anévrysmes aorte
chez l’homme?
Boucher, Science 2003
• Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat:
– Association connue avec d’autres maladies qui sont corrélées avec la maladie d’intérêt
Etudes gène candidat
Alzheimer AVC
Variants génétiques associés:Gene SNP chr Fréq allèle OR (AD)ApoE epsilon 19 0.11 2.5CR1 rs3818361 1 0.17219 1.18BIN1 rs744373 2 0.27341 1.17CLU rs11136000 8 0.40328 0.85PICALM rs3851179 11 0.37258 0.87
Lambert, 2009; Seshadri, 2010; Naj, 2011; Hollingsworth, 2011
• Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat:– Fonction du gène laisse supposer que pourrait être impliqué dans
physiopathologie maladie
Etudes gène candidat
AVC
Debette & Seshadri, Circ Cardiovasc Genet 2009
Genes Polymorphisms OR (IC95%) PAI-1 (Plasminogen activator inhibitor 1)Catto, 1997 rs1799768 (-668/4G>5G) NSJood, 2005 rs1799768 NSCPB2 (Carbopeptidase B2, plasma = Thrombin-activable fibrinolysis inhibitor) Leebeek, 2005 -438A>G, 505A>G,1040C>T NSLadenvall, 2007 rs3742264/rs7337140/rs9526136/rs1926447/rs940 OR=2.5(1.4-4.4) PLAT (Plasminogen activator, tissue)Jood, 2005 rs2020918 NSYamada, 2006 rs2020918 NSVKORC1 (vitamin K epoxide reductase complex, subunit 1)Wang, 2006 rs2359612 (2255T>C) OR=1.8(1.3-2.3)Shen, 2007 rs2359612 OR=1.7(1.4-2.1)
Gène de coagulation,hémostase
Choix des SNPs:
• 1-100 par gènes, en fonction de coût et taille gène
• SNPs « indépendants » si possible, i.e. pas en déséquilibre de liaison
• SNPs potentiellement fonctionnels:
– Codant non-synonyme
– Dans région régulatrice (promoteur, 3’UTR, site de fixation facteur transcription)
– Dans intron, site épissage
Etudes gène candidat
• Etudes d’association génétique pangénomiques = GWAS (genome-wide association study)
– Génotyper un très grand nombre (500,000-5,000,000) de variants génétiques distribués sur l’ensemble des chromosomesPAS d’hypothèse a priori sur les loci d’intérêt
– Récemment possible grâce au projet HapMap et aux technologies de génotypage à haut débit HapMap = projet international décrivant les variations
génétiques fréquentes dans différents groupes ethniques Génotypage automatisé et rapide de milliers d’échantillons,
pour des x100,000 SNPs.
Zeggini, Nature Genet 2005
Etudes d’association génétique
Feero, NEJM 2010
Création micropuce Hybridisation d’ADN
« marqué »
Détectionde fixation « séquence-spécifique »
Interpretation informatisée
GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral)• Population: 19,602 individus d’origine européenne• Phénotype: AVC, 1,544 cas incidents• SNPs: 2.5 Millions, sur les 22 autosomes
GWAS – présentation résultats
« Manhattan plot »
GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral)• Population: 19,602 individus d’origine européenne• Phénotype: AVC, 1,544 cas incidents• SNPs: 2.5 Millions, sur les 22 autosomes
GWAS – présentation résultats
« Manhattan plot »
p = 5 x10-8rs11833579rs12425791
NINJ2 (chr12p13)
GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral)• Population: 19,602 individus d’origine européenne• Phénotype: AVC, 1,544 cas incidents• SNPs: 2.5 Millions, sur les 22 autosomes
GWAS – présentation résultats
« Manhattan plot »
p = 5 x10-8rs11833579rs12425791
NINJ2 (chr12p13)
Ikram et al., NEJM 2009
GWAS – présentation résultats
Représentation régionale des associations de SNPs avec AVC (chr 12p13)
Zondervan, Nature Protocols 2007
GWAS – contraintes logistiques
• Très grands effectifs nécessaires:– > 1,000, voire > 10,000
– Plus si variant rare
– Plus si risque relatif faible
Gènes candidat (18 ou 11 SNPs)
GWAS (500,000 ou 300,000 SNPs)
Zondervan, Nature Protocols 2007
GWAS – contraintes logistiques
• Très grands effectifs nécessaires:– > 1,000, voire > 10,000
– Plus si variant rare
– Plus si risque relatif faible
Gènes candidat (18 ou 11 SNPs)
GWAS (500,000 ou 300,000 SNPs)
GWAS – contraintes logistiques
• Supercalculateurs pour analyser données
prestige des U.S.A et d’AMD
http://www.abysse-tech.com
Nœud de connexion, travail sur
Unix
GWAS – contraintes logistiques
• Coût encore élevés:
– ~ 500 Euros pour génotyper 1 SNP sur 2000 sujets
– ~ 400,000 Euros pour un GWAS sur 600,000 SNPs sur 2000 sujets
– ~ 800,000 Euros pour un GWAS sur 5,000,000 SNPs sur 2000 sujets
• Gènes candidatsLimite analyse à régions sélectionnées sur données ou hypothèses préalables
Avantages:–Coûte moins cher–Nécessite effectifs moindres
Inconvénients:–Ne permet pas de découvrir de nouveaux gènes, non suspectés–Résultats très décevants en moyenne
• Genome-wideAnalyse de variants répartis sur l’ensemble du génome, sans hypothèse préalable
Avantages:–Permet de découvrir de nouveaux gènes (approche agnostique)–Couvre mieux variation génétique–A permis découverte x100 gènes
Inconvénients:–Nécessite très grands effectifs (collaborations…)–Coût élevé–Infrastructure (supercalculateur)
Etudes d’association génétique
I. Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappelsI. Variation génétiqueII. Equilibre de Hardy-WeinbergIII. Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)I. Etudes d’association sur « gènes candidats »II. Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAGI. Tests multiplesII. Hétérogénéité de populationIII. Réplication
VI. Caractérisation des signaux identifiés, perspectives
Génétique des maladies multifactorielles
• Tests multiples en étude d’association génétique
– Multiples SNPs
– Dans un ou plusieurs gènes candidats
– Genome-wide (500,000 à 5,000,000 SNPs)
– Multiples phénotypes
• Comment en tenir compte dans interprétation résultats?
Tests multiples
• H0: pas d’association entre SNP et M
Tests multiples
Réalité
Décision H0 faux H0 vrai
Rejeter H0 correct faux positif
Ne pas rejeter H0 faux négatif correct
α = probabilité d’erreur de type I = probabilité de rejeter H0, alors que H0 = vrai = probabilité de déclarer une association à tortα = seuil de significativité pour un seul test statistique (α = 0.05) ß = probabilité d’erreur de type II = probabilité de ne pas rejeter H0, alors que H0 = faux = probabilité de ne pas détecter une association qui existe1-ß = puissance du test
• H0: pas d’association entre SNP et M
Tests multiples
Réalité
Décision H0 faux H0 vrai
Rejeter H0 correct faux positif
Ne pas rejeter H0 faux négatif correct
α = probabilité d’erreur de type I = probabilité de rejeter H0, alors que H0 = vrai = probabilité de déclarer une association à tortα = seuil de significativité pour un seul test statistique (α = 0.05) ß = probabilité d’erreur de type II = probabilité de ne pas rejeter H0, alors que H0 = faux = probabilité de ne pas détecter une association qui existe1-ß = puissance du test
Correction de Bonferroni
• Si n tests:• seuil de significativité = 0.05/n
• ou garder seuil à 0.05 mais multiplier p par n
• Exemple
Test p
Test1 0.047
Test2 0.03
Test3 0.009
Test4 0.10
Test5 0.02
Correction de Bonferroni
• Si n tests:• seuil de significativité = 0.05/n
• ou garder seuil à 0.05 mais multiplier p par n
• Exemple
Test p
Test1 0.047
Test2 0.03
Test3 0.009
Test4 0.10
Test5 0.02
Surcorrige (conservateur) si tests ne sont pas indépendants, par exemple:SNPs en déséquilibre de liaison
• En pratique…
– Bonferroni
– Autres méthodes: False Discovery Rate, Permutations
– Dans GWAS, généralement seuil fixe à p=5x10-8
Correspond à ~ 1 Million de tests indépendants
Reflète à peu près la réalité, quelque soit la densité des puces
Pour populations européennes…
Tests multiples
• Il faut tenir compte de la structure de la population Faux positifs (associations faussement significatives) si « stratification »
de la population, i.e. si population contient plusieurs sous-populations différant par leur caractéristiques génétiques, notamment fréquences alléliques
Campbell, Nat Genet 2005
Hétérogénéité ethnique
0
50
100
150
200
250
cases controls
Population 1 Population 2
Allele 2 = 20% in cases and controls
Allele 2 = 60% in cases and controls
Population 1 + 2
Allele 2 = 33% in cases and 45% in controls!
0
50
100
150
200
250
cases controls
0
50
100
150
200
250
300
350
cases controls
cases
cases
casescontrols controls
controls
Il est donc essentiel de…– choisir des témoins de la même origine ethnique que les cas– autant que possible du même pays, voire de la même région
Si différentes origines géographiques dans population étudiée, on peut:– stratifier l’analyse par origine géographique (i.e. par pays)– effectuer une analyse groupée en corrigeant sur la
stratification par des méthodes statistiques (contrôle génomique, composantes principales)
Hétérogénéité ethnique
Analyse en composantes principales = appliquée aux donnéesGWAS (génotypes pangénomiques) pour inférer des axescontinus de variation génétique
Price, Nat Genet 2006
• Essentielle pour confirmer qu’une association est réelle• Importance d’utiliser des échantillons de réplication indépendants
Credibilité augmentée quand groupes d’investigateurs multiples
Réplication +++
Ikram, NEJM 2009
Réplication dans article initial• 652/3613 caucasiens• 2430 personnes avec 215 AVC
incidents afro-américains Réplication dans étude asiatique
• 3784/3102 asiatiques Matsushita, J Hum Genet 2010
• Essentielle pour confirmer qu’une association est réelle• Importance d’utiliser des échantillons de réplication indépendants
Crédibilité augmentée quand groupes d’investigateurs multiples
Réplication +++
Ikram, NEJM 2009
Réplication dans article initial• 652/3613 caucasiens• 2430 personnes avec 215 AVC
incidents afro-américains Réplication dans étude asiatique
• 3784/3102 asiatiques Matsushita, J Hum Genet 2010
Rosand, NEJM 2010
• Calcul d’effectif nécessaire doit tenir compte du “winner’s curse” L’étude initiale tend typiquement à surestimer la force de l’association
• Même groupe ethnique initialement Du fait de différences en fréquence allélique, déséquilibre de liaison,
force de l’association Extension à d’autres groupes ethniques dans un 2è temps:
Important pour la généralisabilité des résultats Permet d’affiner le signal du fait de différences de déséquilibre de liaison,
plus forte densité en SNPs...
Réplication +++
Nature 2011; 475:163-165
I. Maladies complexes/multifactorielles vs. mendéliennes
II. Etudes d’association génétique vs. analyses de liaison
III. Quelques rappelsI. Variation génétiqueII. Equilibre de Hardy-WeinbergIII. Déséquilibre de liaison
IV. Etudes d’association génétique (EAG)I. Etudes d’association sur « gènes candidats »II. Etudes d’association génétique pangénomiques
V. Analyse et interprétation des EAGI. Tests multiplesII. Hétérogénéité de populationIII. Réplication
VI. Caractérisation des signaux identifiés, perspectives
Génétique des maladies multifactorielles
Refining the signalRefining the signal
Ioannidis, Nat Rev Genet 2009
Where is the causative variant?
Refining the signalRefining the signal
Ioannidis, Nat Rev Genet 2009
Where is the causative variant?
Resequencing and fine mapping around confirmed signals
Refining the signalRefining the signal
Ioannidis, Nat Rev Genet 2009
Where is the causative gene?
Refining the signalRefining the signal
Ioannidis, Nat Rev Genet 2009
Where is the causative gene?
Genome annotationExpression quantitative trait lociExperiments…
• En ~5 ans, GWAS ont identifié des centaines de nouveaux loci associé avec diverses maladies, avec réplication solide
• La plupart dans gènes préalablement non suspectés
• Catalogue online (http://www.genome.gov/gwastudies)71 gènes pour maladie de Crohn Franke, Nat Genet 2010
38 gènes pour diabète de type 2 Voight, Nat Genet 2010
25 gènes pour maladie coronaire Shunkert, Nat Genet 2011
12 gènes pour Alzheimer Hollingworth, Nat Genet 2011
4 gènes pour AVC (problème hétérogénéité…)
Succès et limites des GWAS…
Published Genome-Wide Associations through 6/2010, 904 published GWA at p<5x10-8 for 165 traits
NHGRI GWA Catalogwww.genome.gov/GWAStudies
Prédisposition génétique aux AVC ischémiques
↑ Risque de et susceptibilité auxFacteurs de risque traditionnels
Influence méchanismes responsables des sous-types d’AVC ischémique
HTADiabète
HypercholObesité
Tabac
Athérome
Maladie petites artères
Fibrillation auriculaire
Dissection
Predispose to arterial thrombosis
Module tolérance à ischémie cérébrale
?
NINJ2
PITX2, ZFHX2
9p21, HDAC9
?Other
Gretarsdottir, Ann Neurol 2008Bellenguez, Nat Genet 2012Traylor, Lancet Neurol 2012
Ikram, NEJM 2009
• En ~5 ans, GWAS ont identifié des centaines de nouveaux loci associé avec diverses maladies, avec réplication solide
• La plupart dans gènes préalablement non suspectés
• Catalogue online (http://www.genome.gov/gwastudies)71 gènes pour maladie de Crohn 23% héritabilité 38 gènes pour diabète de type 2 10% héritabilité25 gènes pour maladie coronaire 10% heritabilité12 gènes pour Alzheimer4 gènes pour AVC (problème hétérogénéité…)
Succès et limites des GWAS…
• Variants rares ─ 1000 génome─ Séquençage exons / genome entier (ESP-GO, CHARGE-S…)─ Exome chip
• Copy number variants ─ Segments d’ADN présents en nombre variable de copies
• Modifications épigénétiques─ Modulent « emballage » ADN dans noyau et influencent
expression
• ADN mitochondrial
Perspectives
Au-delà du GWAS…
Merci pour votre attention!Merci pour votre attention!