1 les haplotypes : méthodes de reconstruction olivier delaneau et jean françois zagury chaire de...

31
1 Les haplotypes : Les haplotypes : Méthodes de reconstruction Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

Upload: clarisse-lenoir

Post on 03-Apr-2015

106 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

1

Les haplotypes :Les haplotypes :

Méthodes de reconstructionMéthodes de reconstruction

Olivier DELANEAU et Jean François ZAGURY

Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

Page 2: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

2

PLANPLAN

I. Introduction : études d’association

génétique

II. Problématique des haplotypes.

III. Les principales méthodes de

reconstruction des haplotypes.

IV.Une nouvelle approche : ISHAPE.

V. Conclusion.

Page 3: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

3

I. I. Introduction : études d’association génétique

Page 4: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

4

LES VARIATIONS GENETIQUES DU GENOMELES VARIATIONS GENETIQUES DU GENOME

Père Mère

G

T

A

A

G

T

A

A

23 paires de chromosomes

Mutation

G

T

A

A

G

T

C

A

• SNP : Single Nucleotide Polymorphism.• 1 SNP tous les ~300 nucléotides.• Variation de l’ADN la plus fréquente chez l’homme (~90% de la variabilité observée).

Page 5: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

APPROCHE ‘‘CLASSIQUE’’ DES ÉTUDES D’ASSOCIATION :APPROCHE ‘‘CLASSIQUE’’ DES ÉTUDES D’ASSOCIATION :

Études cas-contrÉtudes cas-contrôles sur des gôles sur des gèènes candidatsnes candidats

choix d’un gène candidat pertinent : suspicion d’un rôle dans la pathologie

comparaison de la répartition des différents allèles entre des personnes atteintes (‘cas’) et des personnes ‘contrôles’

Objectif :

identifier des différences statistiquement significatives indiquant que le gène ou son produit

interviendraient dans le développement de la maladie

5

Page 6: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

INTÉRINTÉRÊTS DES ÉTUDES D’ASSOCIATION GÉNÉTIQUEÊTS DES ÉTUDES D’ASSOCIATION GÉNÉTIQUE

Identification des facteurs génétiques de risque impliqués dans la susceptibilité de la pathologie

Description de la variabilité génétique du génome

Amélioration de la compréhension des mécanismes de pathogenèse

Développement de nouvelles stratégies diagnostiques et thérapeutiques pour lutter contre la maladie

6

Page 7: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

L’APPROCHE GÈNE CANDIDAT (1)L’APPROCHE GÈNE CANDIDAT (1)

1. Établissement d’une carte génétique

2. Analyse statistique SNP par SNP

pAllèle 1

Allèle 2

CAS CTR

7

Page 8: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

L’APPROCHE GÈNE CANDIDAT (2)L’APPROCHE GÈNE CANDIDAT (2)

3. Calcul des haplotypes = combinaisons d’allèles sur un chromosome

4. Intérêt de l’analyse des haplotypes

Signal transmis de génération en génération : importance pour les maladies familiales

Les combinaisons d’allèles peuvent intervenir dans les maladies, notamment au niveau des variants protéiques

8

Page 9: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

APPROCHE PAR PUCES DE GÉNOTYPAGEAPPROCHE PAR PUCES DE GÉNOTYPAGE

1. Analyse statistique TagSNP par TagSNP

2. Cartographie fine de la région d’intérêt

3. Analyse statistique SNP par SNP

4. Calcul des haplotypes

5. Analyse statistique sur les haplotypes

9

Page 10: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

10

II. II. Problématique des haplotypes.

Page 11: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

Combinaison d’allèles sur un même chromosome pour un locus donné.

Crées au cours de l’évolution par : 1. Les mutations :

2. Les recombinaisons :

3. Les dérives génétiques, les migrations, les sélections, etc...

11

DEFINITION DES HAPLOTYPESDEFINITION DES HAPLOTYPES

CA C A

TT G G

Mutation

Mutation

Recombinaison

A T G C

C G T A

A T T A

Page 12: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

12

POURQUOI PARLE T-ON DE RECONSTRUCTION ?POURQUOI PARLE T-ON DE RECONSTRUCTION ?

Génotypage

Individu

C A

A G

C/A A/G

C A

A G

C G

A A

GénotypeGénotype

2 diplotypes possibles

4 haplotypes possibles

Page 13: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

13

COMPLEXITE DU PROBLEMECOMPLEXITE DU PROBLEME

Un génotype de N SNPs avec S sites

hétérozygotes a :

2S haplotypes compatibles possibles,

2S-1 diplotypes compatibles possibles.

SNP 1 SNP 2 SNP 3 SNP N-2 SNP N-1 SNP N

Nb de sites hétérozygotes

Nb d’haplotypes possibles

Nb de diplotypes possibles

5 32 16

10 1 024 512

20 1 048 576 524 288

Page 14: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

14

QUESTIONS OUVERTESQUESTIONS OUVERTES

Sur quel ensemble de SNPs doit on définir les haplotypes?• Gène, exons, promoteurs?• Blocs d’haplotypes de diversité limitée « haplotype blocks »?

Quel modèle génétique faut-il utiliser ?

Quelle confiance accorder à cette reconstruction in silico ?

Quel impact ont les erreurs sur les études d’associations ?

Page 15: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

15

II. LES PRINCIPALES METHODES DE II. LES PRINCIPALES METHODES DE RECONSTRUCTION D’HAPLOTYPESRECONSTRUCTION D’HAPLOTYPES

Page 16: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

16

II.1. DONNEES GENOMIQUESII.1. DONNEES GENOMIQUES

Génotype#1G G G G G T A T G A A A A T G G G G G T A T G A A A A T Génotype#2G G T T G T A T G A A A A T G G G G T T G G G A A A A T ................................................................................................Génotype#152G G G G T T G G G G A A A G G G G G G T A T G A A A A T Génotype#153G G G G G T A T G A A A A T G C G G T T A G G A A A A T

SNPs

Génotypes

Page 17: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

17

g1 (2 SHs)

g2 (1 SH)

gi (8 SHs)

gN (4 SHs)

d11 d12

d21

di1 di128

dN1 dN8

h1

h2

hk

hM

Diplotypes possibles D

1,* 2

Population G Haplotypes possibles H

SH = Site Hétérozygote

II.2. REPRESENTATION PRATIQUEII.2. REPRESENTATION PRATIQUE

Page 18: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

18

II.3. HISTORIQUEII.3. HISTORIQUE

1990 : Clark AG: Inference of haplotypes from PCR-amplified samples of diploid populations. Molecular biology and evolution.

1995 : Excoffier L, Slatkin M: Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population. Molecular biology and evolution.

2001 : Stephens M, Smith NJ, Donnelly P: A new statistical method for haplotype reconstruction from population data. Am J Hum Genet.

2007 : Delaneau O, Coulonges C, Boelle PY, Nelson G, Spadoni JL, Zagury JF : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics.

2005 : Stephens M, Scheet P : Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation. Am J Hum Genet.

2006 : Scheet P, Stephens M : A fast and flexible statistical model for large-scale population genotype data: applications to inferring missing genotypes and haplotypic phase. Am J Hum Genet.

Page 19: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

COMPARAISON DES MÉTHODESCOMPARAISON DES MÉTHODES

Switch error Freq error

PHASE v2.1 2.41 35.46

fastPHASE 4.47 65.25

PHASE v1.0 6.53 88.62

PLEM (EM) 8.98 61.13

19

Switch Error : pourcentage de sites hétérozygotes mal reconstruits (cible les diplotypes).Freq error : Distance entre les fréquences réelles et estimées des haplotypes.

A noter : Les erreurs se situent surtout au niveau des haplotypes peu fréquents.

Résultats sur HapMap–CEU

J. Marchini et Al : A Comparison of Phasing Algorithms for Trios and Unrelated Individuals.Amercan Journal of Human Genetics 2006.

RA Adkins : Comparison of the accuracy of methods of computational haplotype inference using a large empirical dataset. BMC Genetics 2004.

Page 20: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

20

EXEMPLE DE L’ALGORITHME DE PHASE (1)EXEMPLE DE L’ALGORITHME DE PHASE (1)

Pour tout i, on assigne à gi un di’ pris aléatoirement parmi les dij

(D’).

Soit O; un ordre aléatoire de traitement des gi .

On itère un grand nombre de fois :Pour chaque gi selon O :

On assigne un nouveau diplotype en fonction des autres.

1. Pour tout j, calcul de Pr(dij |D-i’) : probabilité de dij

sachant D-i’ = D’ – {di’}.2. Echantillonnage sur Pr(dij |D-i’) pour assigner un nouveau di

’ à gi

Page 21: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

21

EXEMPLE DE L’ALGORITHME DE PHASE (2)EXEMPLE DE L’ALGORITHME DE PHASE (2)

2254422544225442254433334333342323314234

D-i’

Modèle naif (Haplotyper)

Modèle de coalescence (PHASE v1.0)

Modèle de recombinaison (PHASE v2.1)

dij:

dij:

dij:

gi:

gi:

gi:

Stephens M, Scheet P : Accounting for Decay of Linkage Disequilibrium in Haplotype Inference and Missing-Data Imputation. American Journal of Human Genetics 2005

Stephens M, Smith NJ, Donnelly P: A new statistical method for haplotype reconstruction from population data. American journal of human genetics 2001

Niu T et al : Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. The American Journal of Human Genetics 2002

3234423534

3244423434

3234423534

3233423544

3254423334

3253423344

3334422534

3333422544

3354422334

3353422344

3244423434

3243423444

3344422434

3343422444

2233322234

2233322234

2233422233

Page 22: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

EXEMPLE DE L’ALGORITHME DE PHASE (3)EXEMPLE DE L’ALGORITHME DE PHASE (3)

Points forts :• Modèle génétique le plus réaliste et performant,• Fournit un ou plusieurs diplotypes probables pour chaque génotype (multi-diplotypes).

Points faibles :• Modèle génétique très intensif en temps de calculs.

22

Page 23: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

23

II.6. ASTUCES : PLII.6. ASTUCES : PL

Gi

« Partition – Ligation » : stratégie diviser pour conquérir, permet de briser l’aspect exponentiel du problème, donc de traiter plus de SNPs.

Niu T et al : Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. The American Journal of Human Genetics 2002

1 segment de 32 sites hétérozygotes = ~2 000 000 000 de diplotypes possibles

8 segments de 4 sites hétérozygotes = 23 x 8 = 64 diplotypes possibles

Page 24: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

24

III. UNE NOUVELLE APPROCHE : ISHAPEIII. UNE NOUVELLE APPROCHE : ISHAPE

Page 25: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

25

UTILISATION D’IEMUTILISATION D’IEM

IEM (Itérative EM) : algorithme EM très rapide où les

haplotypes sont construits progressivement en

incluant les SNPS un par un.

Gi

=> Sur 32 diplotypes possibles, on en explore que 12 !

Page 26: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

26

PROBLÈME : GÉNÉRATION DE DIVERSITÉ PROBLÈME : GÉNÉRATION DE DIVERSITÉ INSUFFISANTEINSUFFISANTE

Taux de capture de la diversité sur les données GH1 (14 SNPs et 150 individus)

Prog / MD 0% 2% 5% 10%

Phase 2.1 0.98 0.97 0.97 0.96

IEM 0.91 0.90 0.89 0.86

Page 27: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

27

IDÉE : BOOTSTRAP-IEMIDÉE : BOOTSTRAP-IEM

Bootstrap IEM : On génère X (=500) échantillons bootstrap de

P dont on estime les fréquences haplotypiques par IEM avec un

ordre aléatoire d’inclusion des SNPs.

=> L’utilisation du bootstrap génére de la diversité !

Taux de capture sur GH1 (14 SNPs et 150 individus)

Delaneau et Al : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics 2007.

Prog / MD 0% 2% 5% 10%

Phase 2.1 0.98 0.97 0.97 0.96

IEM 0.91 0.90 0.89 0.86

BoostrapIEM 0.99 0.99 0.98 0.97

Page 28: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

28

AVANTAGE DU BOOTSTRAP IEMAVANTAGE DU BOOTSTRAP IEM

=> Permet d’obtenir un espace de

diplotypes candidats de taille très réduite.

Réduction du nombre de diplotypes sur les données GH1

Delaneau et Al : ISHAPE: new rapid and accurate software for haplotyping. BMC Bioinformatics 2007.

. / MD 0% 2% 5% 10%Nb de diplotypes possibles

9.6 18.7 48.7 244.1

Nb de diplotypespar Bootstrap-IEM

2.3 3.3 5.4 10.2

Page 29: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

29

DERNIÈRE ÉTAPE DE ISHAPE : ADAPTATION DE PHASE SUR DERNIÈRE ÉTAPE DE ISHAPE : ADAPTATION DE PHASE SUR L’ESPACE DES SOLUTIONS LIMITÉ GRL’ESPACE DES SOLUTIONS LIMITÉ GRÂCE AUÂCE AU BOOTSTRAP- BOOTSTRAP-

IEMIEMISHAPE = Utilisation d’un échantilloneur de Gibbs de type

PHASE sur un nombre réduit de diplotypes candidats.

Prog. SER Class. Temps SER Class Temps

Ishape 1.10 1.83 34.8 3.60 1.92 66.1

Phase 2 1.17 2.11 215 3.57 2.03 702

Phase 1 1.39 2.67 52.1 4.92 3.81 142.5

fastPhase 1.31 2.73 100.3 3.98 2.71 88.8

PLEM 1.56 3.07 22.1 5.16 3.71 19.1

SNPs contigus SNPs 5kb

Résultats sur les données HapMap–CEU

( 10 à 80 SNPs et 60 individus)

Page 30: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

30

II.4. CONCLUSIONII.4. CONCLUSION

Page 31: 1 Les haplotypes : Méthodes de reconstruction Olivier DELANEAU et Jean François ZAGURY Chaire de Bioinformatique - Conservatoire National des Arts et Métiers

31

II.4. Conclusion et perspectivesII.4. Conclusion et perspectives

Nouvelle méthode qui utilise la puissance de l’EM et la

précision de PHASE, en s’appuyant sur la réduction de l’espace

des solutions possibles.

Les résultats obtenus montrent que ce logiciel est jusqu’à 10

fois plus rapide que PHASE et aussi fiable.

Développer un algorithme de reconstruction des haplotypes

appliquant le modèle de PHASE en des temps linéaires au

nombre de SNPs traités.