1 les haplotypes : méthodes de reconstruction olivier delaneau et jean françois zagury chaire de...
TRANSCRIPT
1
Les haplotypes :Les haplotypes :
Méthodes de reconstructionMéthodes de reconstruction
Olivier DELANEAU et Jean François ZAGURY
Chaire de Bioinformatique - Conservatoire National des Arts et Métiers
2
PLANPLAN
I. Introduction : études d’association
génétique
II. Problématique des haplotypes.
III. Les principales méthodes de
reconstruction des haplotypes.
IV.Une nouvelle approche : ISHAPE.
V. Conclusion.
3
I. I. Introduction : études d’association génétique
4
LES VARIATIONS GENETIQUES DU GENOMELES VARIATIONS GENETIQUES DU GENOME
Père Mère
G
T
A
A
G
T
A
A
23 paires de chromosomes
Mutation
G
T
A
A
G
T
C
A
• SNP : Single Nucleotide Polymorphism.• 1 SNP tous les ~300 nucléotides.• Variation de l’ADN la plus fréquente chez l’homme (~90% de la variabilité observée).
APPROCHE ‘‘CLASSIQUE’’ DES ÉTUDES D’ASSOCIATION :APPROCHE ‘‘CLASSIQUE’’ DES ÉTUDES D’ASSOCIATION :
Études cas-contrÉtudes cas-contrôles sur des gôles sur des gèènes candidatsnes candidats
choix d’un gène candidat pertinent : suspicion d’un rôle dans la pathologie
comparaison de la répartition des différents allèles entre des personnes atteintes (‘cas’) et des personnes ‘contrôles’
Objectif :
identifier des différences statistiquement significatives indiquant que le gène ou son produit
interviendraient dans le développement de la maladie
5
INTÉRINTÉRÊTS DES ÉTUDES D’ASSOCIATION GÉNÉTIQUEÊTS DES ÉTUDES D’ASSOCIATION GÉNÉTIQUE
Identification des facteurs génétiques de risque impliqués dans la susceptibilité de la pathologie
Description de la variabilité génétique du génome
Amélioration de la compréhension des mécanismes de pathogenèse
Développement de nouvelles stratégies diagnostiques et thérapeutiques pour lutter contre la maladie
6
L’APPROCHE GÈNE CANDIDAT (1)L’APPROCHE GÈNE CANDIDAT (1)
1. Établissement d’une carte génétique
2. Analyse statistique SNP par SNP
pAllèle 1
Allèle 2
CAS CTR
7
L’APPROCHE GÈNE CANDIDAT (2)L’APPROCHE GÈNE CANDIDAT (2)
3. Calcul des haplotypes = combinaisons d’allèles sur un chromosome
4. Intérêt de l’analyse des haplotypes
Signal transmis de génération en génération : importance pour les maladies familiales
Les combinaisons d’allèles peuvent intervenir dans les maladies, notamment au niveau des variants protéiques
8
APPROCHE PAR PUCES DE GÉNOTYPAGEAPPROCHE PAR PUCES DE GÉNOTYPAGE
1. Analyse statistique TagSNP par TagSNP
2. Cartographie fine de la région d’intérêt
3. Analyse statistique SNP par SNP
4. Calcul des haplotypes
5. Analyse statistique sur les haplotypes
9
10
II. II. Problématique des haplotypes.
Combinaison d’allèles sur un même chromosome pour un locus donné.
Crées au cours de l’évolution par : 1. Les mutations :
2. Les recombinaisons :
3. Les dérives génétiques, les migrations, les sélections, etc...
11
DEFINITION DES HAPLOTYPESDEFINITION DES HAPLOTYPES
CA C A
TT G G
Mutation
Mutation
Recombinaison
A T G C
C G T A
A T T A
12
POURQUOI PARLE T-ON DE RECONSTRUCTION ?POURQUOI PARLE T-ON DE RECONSTRUCTION ?
Génotypage
Individu
C A
A G
C/A A/G
C A
A G
C G
A A
GénotypeGénotype
2 diplotypes possibles
4 haplotypes possibles
13
COMPLEXITE DU PROBLEMECOMPLEXITE DU PROBLEME
Un génotype de N SNPs avec S sites
hétérozygotes a :
2S haplotypes compatibles possibles,
2S-1 diplotypes compatibles possibles.
SNP 1 SNP 2 SNP 3 SNP N-2 SNP N-1 SNP N
Nb de sites hétérozygotes
Nb d’haplotypes possibles
Nb de diplotypes possibles
5 32 16
10 1 024 512
20 1 048 576 524 288
14
QUESTIONS OUVERTESQUESTIONS OUVERTES
Sur quel ensemble de SNPs doit on définir les haplotypes?• Gène, exons, promoteurs?• Blocs d’haplotypes de diversité limitée « haplotype blocks »?
Quel modèle génétique faut-il utiliser ?
Quelle confiance accorder à cette reconstruction in silico ?
Quel impact ont les erreurs sur les études d’associations ?
15
II. LES PRINCIPALES METHODES DE II. LES PRINCIPALES METHODES DE RECONSTRUCTION D’HAPLOTYPESRECONSTRUCTION D’HAPLOTYPES
16
II.1. DONNEES GENOMIQUESII.1. DONNEES GENOMIQUES
Génotype#1G G G G G T A T G A A A A T G G G G G T A T G A A A A T Génotype#2G G T T G T A T G A A A A T G G G G T T G G G A A A A T ................................................................................................Génotype#152G G G G T T G G G G A A A G G G G G G T A T G A A A A T Génotype#153G G G G G T A T G A A A A T G C G G T T A G G A A A A T
SNPs
Génotypes
17
g1 (2 SHs)
g2 (1 SH)
gi (8 SHs)
gN (4 SHs)
d11 d12
d21
di1 di128
dN1 dN8
h1
h2
hk
hM
Diplotypes possibles D
1,* 2
Population G Haplotypes possibles H
SH = Site Hétérozygote
II.2. REPRESENTATION PRATIQUEII.2. REPRESENTATION PRATIQUE
18
II.3. HISTORIQUEII.3. HISTORIQUE
1990 : Clark AG: Inference of haplotypes from PCR-amplified samples of diploid populations. Molecular biology and evolution.
1995 : Excoffier L, Slatkin M: Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population. Molecular biology and evolution.
2001 : Stephens M, Smith NJ, Donnelly P: A new statistical method for haplotype reconstruction from population data. Am J Hum Genet.
2007 : Delaneau O, Coulonges C, Boelle PY, Nelson G, Spadoni JL, Zagury JF : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics.
2005 : Stephens M, Scheet P : Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation. Am J Hum Genet.
2006 : Scheet P, Stephens M : A fast and flexible statistical model for large-scale population genotype data: applications to inferring missing genotypes and haplotypic phase. Am J Hum Genet.
COMPARAISON DES MÉTHODESCOMPARAISON DES MÉTHODES
Switch error Freq error
PHASE v2.1 2.41 35.46
fastPHASE 4.47 65.25
PHASE v1.0 6.53 88.62
PLEM (EM) 8.98 61.13
19
Switch Error : pourcentage de sites hétérozygotes mal reconstruits (cible les diplotypes).Freq error : Distance entre les fréquences réelles et estimées des haplotypes.
A noter : Les erreurs se situent surtout au niveau des haplotypes peu fréquents.
Résultats sur HapMap–CEU
J. Marchini et Al : A Comparison of Phasing Algorithms for Trios and Unrelated Individuals.Amercan Journal of Human Genetics 2006.
RA Adkins : Comparison of the accuracy of methods of computational haplotype inference using a large empirical dataset. BMC Genetics 2004.
20
EXEMPLE DE L’ALGORITHME DE PHASE (1)EXEMPLE DE L’ALGORITHME DE PHASE (1)
Pour tout i, on assigne à gi un di’ pris aléatoirement parmi les dij
(D’).
Soit O; un ordre aléatoire de traitement des gi .
On itère un grand nombre de fois :Pour chaque gi selon O :
On assigne un nouveau diplotype en fonction des autres.
1. Pour tout j, calcul de Pr(dij |D-i’) : probabilité de dij
sachant D-i’ = D’ – {di’}.2. Echantillonnage sur Pr(dij |D-i’) pour assigner un nouveau di
’ à gi
21
EXEMPLE DE L’ALGORITHME DE PHASE (2)EXEMPLE DE L’ALGORITHME DE PHASE (2)
2254422544225442254433334333342323314234
D-i’
Modèle naif (Haplotyper)
Modèle de coalescence (PHASE v1.0)
Modèle de recombinaison (PHASE v2.1)
dij:
dij:
dij:
gi:
gi:
gi:
Stephens M, Scheet P : Accounting for Decay of Linkage Disequilibrium in Haplotype Inference and Missing-Data Imputation. American Journal of Human Genetics 2005
Stephens M, Smith NJ, Donnelly P: A new statistical method for haplotype reconstruction from population data. American journal of human genetics 2001
Niu T et al : Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. The American Journal of Human Genetics 2002
3234423534
3244423434
3234423534
3233423544
3254423334
3253423344
3334422534
3333422544
3354422334
3353422344
3244423434
3243423444
3344422434
3343422444
2233322234
2233322234
2233422233
EXEMPLE DE L’ALGORITHME DE PHASE (3)EXEMPLE DE L’ALGORITHME DE PHASE (3)
Points forts :• Modèle génétique le plus réaliste et performant,• Fournit un ou plusieurs diplotypes probables pour chaque génotype (multi-diplotypes).
Points faibles :• Modèle génétique très intensif en temps de calculs.
22
23
II.6. ASTUCES : PLII.6. ASTUCES : PL
Gi
« Partition – Ligation » : stratégie diviser pour conquérir, permet de briser l’aspect exponentiel du problème, donc de traiter plus de SNPs.
Niu T et al : Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. The American Journal of Human Genetics 2002
1 segment de 32 sites hétérozygotes = ~2 000 000 000 de diplotypes possibles
8 segments de 4 sites hétérozygotes = 23 x 8 = 64 diplotypes possibles
24
III. UNE NOUVELLE APPROCHE : ISHAPEIII. UNE NOUVELLE APPROCHE : ISHAPE
25
UTILISATION D’IEMUTILISATION D’IEM
IEM (Itérative EM) : algorithme EM très rapide où les
haplotypes sont construits progressivement en
incluant les SNPS un par un.
Gi
=> Sur 32 diplotypes possibles, on en explore que 12 !
26
PROBLÈME : GÉNÉRATION DE DIVERSITÉ PROBLÈME : GÉNÉRATION DE DIVERSITÉ INSUFFISANTEINSUFFISANTE
Taux de capture de la diversité sur les données GH1 (14 SNPs et 150 individus)
Prog / MD 0% 2% 5% 10%
Phase 2.1 0.98 0.97 0.97 0.96
IEM 0.91 0.90 0.89 0.86
27
IDÉE : BOOTSTRAP-IEMIDÉE : BOOTSTRAP-IEM
Bootstrap IEM : On génère X (=500) échantillons bootstrap de
P dont on estime les fréquences haplotypiques par IEM avec un
ordre aléatoire d’inclusion des SNPs.
=> L’utilisation du bootstrap génére de la diversité !
Taux de capture sur GH1 (14 SNPs et 150 individus)
Delaneau et Al : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics 2007.
Prog / MD 0% 2% 5% 10%
Phase 2.1 0.98 0.97 0.97 0.96
IEM 0.91 0.90 0.89 0.86
BoostrapIEM 0.99 0.99 0.98 0.97
28
AVANTAGE DU BOOTSTRAP IEMAVANTAGE DU BOOTSTRAP IEM
=> Permet d’obtenir un espace de
diplotypes candidats de taille très réduite.
Réduction du nombre de diplotypes sur les données GH1
Delaneau et Al : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics 2007.
. / MD 0% 2% 5% 10%Nb de diplotypes possibles
9.6 18.7 48.7 244.1
Nb de diplotypespar Bootstrap-IEM
2.3 3.3 5.4 10.2
29
DERNIÈRE ÉTAPE DE ISHAPE : ADAPTATION DE PHASE SUR DERNIÈRE ÉTAPE DE ISHAPE : ADAPTATION DE PHASE SUR L’ESPACE DES SOLUTIONS LIMITÉ GRL’ESPACE DES SOLUTIONS LIMITÉ GRÂCE AUÂCE AU BOOTSTRAP- BOOTSTRAP-
IEMIEMISHAPE = Utilisation d’un échantilloneur de Gibbs de type
PHASE sur un nombre réduit de diplotypes candidats.
Prog. SER Class. Temps SER Class Temps
Ishape 1.10 1.83 34.8 3.60 1.92 66.1
Phase 2 1.17 2.11 215 3.57 2.03 702
Phase 1 1.39 2.67 52.1 4.92 3.81 142.5
fastPhase 1.31 2.73 100.3 3.98 2.71 88.8
PLEM 1.56 3.07 22.1 5.16 3.71 19.1
SNPs contigus SNPs 5kb
Résultats sur les données HapMap–CEU
( 10 à 80 SNPs et 60 individus)
30
II.4. CONCLUSIONII.4. CONCLUSION
31
II.4. Conclusion et perspectivesII.4. Conclusion et perspectives
Nouvelle méthode qui utilise la puissance de l’EM et la
précision de PHASE, en s’appuyant sur la réduction de l’espace
des solutions possibles.
Les résultats obtenus montrent que ce logiciel est jusqu’à 10
fois plus rapide que PHASE et aussi fiable.
Développer un algorithme de reconstruction des haplotypes
appliquant le modèle de PHASE en des temps linéaires au
nombre de SNPs traités.