introduction à la génomique fonctionnelle
Post on 13-Jan-2022
4 Views
Preview:
TRANSCRIPT
1
Introduction à la génomique fonctionnelle
http://www.unil.ch/dbmv/page26947_en.html
Cours aux étudiants de BSc Biologie 3ème annéePhilippe Reymond, MER
PLAN DU COURS
- Séquençage des génomes
- Méthodes globales d'analyse du génome
- Analyse des données, applications
2
Analyse globale du génome dʼun organisme
Tous les gènes et régions intergéniques
1. Génomique structurelle
- Organisation et position des gènes, taille du génome- Séquençage de lʼADN et analyse des séquences
2. Génomique fonctionnelle
Analyse du génome pour comprendre la fonction des gènes- Comparaisons de génomes entre organismes- Expression du génome- Variabilité du génome
Génomique
3
AngiospermesOiseauxMammifèresReptilesAmphibiensPoissons osseuxPoissons cartilagineuxEchinodermesCrustacésInsectesMollusquesVersMoisissuresAlguesChampignonsBactéries gram-positivesBactéries gram-négativesMycoplasmes
100 101 102 103 104 105
Millions de bases
Taille des génomes
4
Historique du séquençage de génomes
5
Séquençage du génome(méthode "shotgun")
…TAGCCCGTTGAATTCGGAATT CGGAATTGGCGGTAACCCGTGCCGAATTT TGCCGAATTTCTAGGCCGGCCT...
6Craig Venter (Celera Inc.)
Francis Collins, Human Genome Project
Séquençage du génome humain
7
Human Genome Project Celera
QUI SÉQUENCER?
Plusieurs donneurs anonymes 5 donneurs anonymes(5-10) hommes et femmes 2 hommes, 3 femmes
COMMENT ?
"BAC to BAC" "Whole genome shotgun"
20 groupes 65 techniciensgels et capillaires 250 ABI Prism 3700 Analyzer (96 capillaires)
max 200'000 réactions/24h 175'000 réactions/24h
max 1000 b/sec 1100 b/sec
23.1 Mia bases séq. (7.5 génomes) 14.8 Mia bases séquencées (5.1 génomes)
10 ordinateurs (4 processeurs, 4 Gb RAM)1 ordinateur (16 processeurs, 64 Gb RAM)Calcul 20'000 heures
4 années 9 mois
Séquençage du génome humain
8
Séquençage du génome de James WatsonNature (2008) 452: 872-877Méthode 454 (2 mois) < 1 mio $
3.3 mio SNPs11'000 SNPs changent la séquence d'une protéine
Séquençage du génome de Craig VenterPLOS Biology (2007) 5: e254Methode Sanger (9 mois)
44% des gènes présentent des variations de séquence4107 protéines sont modifiées
Différence dans 7648 protéines
Séquençage personnalisé
En cours: 1000 genomes humains 1001 genomes d'Arabidopsiswww.1000genomes.org http://1001genomes.org
9
Séquençage 454 (Roche)(http://www.454.com/)
Nouvelles méthodes de séquençage à haut débit
Pyrophosphate + 5'-Adenylsulfate (APS)
ATP + sulfate
Luciferase + luciferin
Lumière + oxyluciferin
Camera CCD
Sulfurylase
Exemple:Séquençage d'ADN de NeanderthalScience (2006) 314: 1113-1118Nature (2006) 444: 330-336
PyroséquençagePCR
CCD camera
Séquençage de environ 400 nt/fragment d'ADN
10
Illumina Genome Analyzer
11
Le séquenceur Illumina du CIG
24 mio fragments d'ADN / ligneSéquençage de environ de 75 nt/fragment
--> 1 ligne = 1.8 mia bp
12
Annotation du génome
TGACGCAATGAACGATGGCTAGGCTTAGCTTTTGGCCAGCATTACCCGGTACCTGTTACTGCGATTGGCTAACCAGGCCGGATTTCCAAGGTTCGCCAGGGGCTAATTGACACCACCACCTTACCTGGTATTCCCTAATGGTAAGCGCGATGCTA....
algorithmes de prédiction
Comment améliorer les prédictions?- génomique comparative- analyse de cDNAs complets- entraînement des algorithmes sur des gènes connus- vérification expérimentale
A64 G73 G100 T100 A62 G84 T63 ………6 Py74-87 N C65 A100 G100 NN% = fréquence du nucléotide N à cette position
Epissage
13
050
100150200250300350
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19Position sur le chromosome 2 (Mb)
Nom
bre
de g
ènes
TIGR-AGIEuGène
centromere
EuGène
TIGR-AGIgène A
gène A
Start Stop
Start StopStartStop
gène B
--> Les algorithmes d'annotation font des prédictionsqu'il faut vérifier par le séquençage de cDNAs
Prédictions de gènes chez Arabidopsis
14
"ADN poubelle?"
Des régions non transcrites du génome sont extrêmement bien conservées entre organismesdepuis des millions d'années. Leur fonction est toujours inconnue.
15
Organisme Nb de gènes prédits % gènes connus
M. genitalium 470 69%H. influenza 1ʼ709 58%E. coli 4ʼ288 62%S. cerevisiae 6ʼ034 63%T. pseudonanna 11'242 50%D. melanogaster 13ʼ601 46%C. elegans 18ʼ424 42%A. thaliana 27'029 69%M. musculus 24'502 50%P. troglodytes 20'947 50%H. sapiens 22'763 50%
Nombre de gènes chez les organismes modèles
Quelle est la taille minimum du génome pour quʼune cellule fonctionne?
Mutations systématiques par transposons du génome de Mycoplasma genitalium:265-350 gènes sont essentiels pour une croissance en laboratoire (100 nʼont pas de fonction connue!)
Hutchinson et al. (1999) Science 286: 2165-2169
Tous les gènes d'un organisme sont-ils nécessaires?
Une délétion de chaque gène de levure ne présente pas de phénotype dans 80% des cas en milieu richemais 97% des gènes sont nécessaires en condition de stress, de traitement chimique ou d'environnement modifié.
Hillenmeyer et al. (2008) Science 320: 362-365
16
Organismes modèlesEscherichia coli Blattner et al. (1997) Science 277: 1453-1462
Saccharomyces cerevisiae Goffeau et al. (1996) Science 274: 546-567
Caenorhabditis elegans The C. elegans consortium (1998) Science 282: 2012-2046
Drosophila melanogaster Adams et al. (2000) Science 287: 2185-2195
Arabidopsis thaliana The Arabidopsis genome initiative (2000) Nature 408: 796-815
Homo sapiens International Human Genome Sequencing Consortium (2001) Nature 409: 860-921Venter et al. (2001) Science 291: 1304-1351
Mus musculus Mouse Genome Sequencing Consortium (2002) Nature 420: 520-562
Takifugu rubripes Aparicio et al. (2002) Science 297: 1301-1310
Rattus norvegicus Rat Genome Sequencing project Consortium (2004) Nature 428: 493-521
Gallus gallus International Chicken genome Sequencing Consortium (2004) Nature 432: 695-716
Pan troglodytes (chimpanze) The Chimpanzee Sequencing and Analysis consortium (2005) Nature 437:69-87
Apis mellifera The Honeybee genome Sequencing consortium (2006) Nature 443:931-949
Autreshttp://www.genomenewsnetwork.org/resources/sequenced_genomes/genome_guide_p1.shtmlhttp://www.ncbi.nlm.nih.gov/Genomes/index.htmlhttp://hgsc.bcm.tmc.edu/projects/http://www.sanger.ac.uk/Projects/
Séquençage des génomes (références)
17
AAAAAA
AAAAAATTTTTT
AAAAAATTTTTT
AAAAAATTTTTT
primerreversetranscription
RNase H
AAAAAADNA pol 1
TTTTTT
ligationtransformation
Plasmide
séquençage partiel
5' 3'
TGACGCAATGAACGGCTAGGCTTAGCTTTTGGCCAGCATTACCCGGTACCTGTTACTGCGATTGGCTAACCAGGCCGGATTTCCAAGGTTCGCCAGGTTGACACCACCACCTTACCTGGTATTCCC....
vecteur cDNA
EST (Expressed Sequence Tag)
Gène
<
Vecteur
18http://www.ncbi.nlm.nih.gov/dbEST/dbEST_summary.html
EST (Expressed Sequence Tag)
19
Comparaisons de génomes(homme-mouche-ver-levure-plante-algue)
La plus grande différence entre lʼêtre humain et le ver our la mouche résidedans la complexité des protéines : il y a plus de domaines par protéine et beaucoupplus de combinaisons de domaines.
Nouvelles familles de protéines ou expansion de familles chez lʼêtre humain:
-réponse immunitaire-développement, structure et fonction du système nerveux-signalisation intra- et intercellulaire dans le développement et lʼhomeostasie-système sanguin-apoptose
Les fonctions cellulaires élémentaires – métabolisme de base, réplication, transcription de lʼADN, traduction- sont présentes partout, sont apparues une fois dans lʼévolution et sont restéesfixées depuis.
Seulement 94 familles de protéines (sur 1278)sont uniques aux vertébrés.
20
Duplications du génome d'Arabidopsis
Nature (2001), 408: 796-815
3 duplications: 221 Mio années 162 Mio années 75 Mio années
(calcul: 6.1 mutations synonymes/Mia années/site)
Chr1
Chr2
Chr3
Chr4
Chr5
21
Comment déterminer la fonction d'un gène
- Analyse de la séquence, comparaison avec des gènes similaires (motifs conservés, homologues dans d'autres espèces, etc…)
- Localisation dans la cellule, tissu, organisme
- Intéractions avec d'autres produits de gènes
- Mutants, surexpression, knock-outs
- Analyse de l'expression
- Corrélation entre génotype et phénotype
22
-
+
Analyse de l'expression d'un gène par Northern blot
1 2 3 4 5
Gel d'agarose Membrane de nylon
Echantillons d'ARN sonde ADN marquée
Transfert
23
Mesure globale de lʼexpression génétiqueRecherche fondamentale et appliquée dans tous les domainesDiagnostic médical, nouveaux médicaments
Applications
Analyse dʼamplifications et de délétions de gènesCaractéristique de certains cancers
Analyses des variabilités génomiques et corrélations avec des phénotypesSingle Nucleotide Polymorphisms (SNP), mutations,séquences répétées
Etc…
Les puces à ADN(DNA microarrays, DNA chips)
M. Schena, D. Shalon, R. Davis, P. Brown (1995) Quantitative monitoring of gene expression patterns with a complementary DNA microarray.Science 270: 467-470
Lipshutz, R. J.; Morris, D.; Chee, M.; Hubbell, E.; Kozal, M. J.; Shah, N.; Shen, N.; Yang, R.; Fodor, S. P. (1995) Using oligonucleotide probe arraysto access genetic diversity. BioTechniques 19(3), 442-7
24
A B CADN
ARN
Protéine
Métabolite METABOLOMIQUE
PROTEOMIQUE
GENOMIQUE
Révolution « -omique »
Puces à ADN(DNA microarrays)
(DNA chips)
25
PCR
purification
stockage -20°C
oligonucléotide synthétisé(50-70bp)
cDNA dans E.coli
culturepréparation de plasmide
ADN génomique
Préparation d'ADN pour microarrays
26
Impression de microarrays
Lames de microscope modifiées chimiquement
ADNen solution
27
Robot d'impression
28
DNA microarray
29
Echantillon contrôle
Transcription inverse
Scan de fluorescencecanal Cy3 + canal Cy5
Echantillon test
Cy5-dCTPCy3-dCTP
Hybridation 12-16 hr (64°C)
microarray
analyse d'image
Marquage et hybridation
Extraction d'ARN
lavages
cDNA simple brin marqué
image recomposée
30
Cy3-dCTP
dCTP
Cy5-dCTP
dCTP
Nucléotides fluorescents
31
AAAAAAAAAAATTTTTTT(18-21)
mRNA
Eucaryotes
TTTTTTT(18-21)AAAAAAAAAAA
Transcriptase inverseCy3-dCTP (ou Cy5-dCTP)
C C
OligodT
RNAou
RNA
Procaryotes Transcriptase inverseCy3-dCTP (ou Cy5-dCTP)
C C
hexamers
Préparation de cDNA
32
Hybridation
Gène xmicroarrayGène y
Gène z
33
Scanner de fluorescence
34
image recomposée
35
Analyse d'image
Spot Cy3 Cy5 RapportA 1 3500 4305 1.2
A 2 28000 32000 1.1A 3 1500 14800 9.9*A 4 18089 21456 1.2A 5 43789 44005 1.0A 6 679 890 1.3
A 7 3560 18900 5.3*
1 2 3 4 5 6 7 8 9 10
ABCDEFGHIJ
36
Microarray d'Arabidopsis contenant 12'000 gènes
37
65000
Signal Cy3
Sign
al C
y5
0 65000
0
Normalisation des signaux
Itérations mathématiques pour que la médiane des rapports Cy3/Cy5 soient de 1.0
38
Inte
nsité
du
signa
l
A B CGènes
Cy3Cy5
Mesure du rapport dʼexpression
R = signal Cy5*F / signal Cy3
F=facteur de normalisation
39
Fabrication de puces à oligonucléotides (10-70 nt)
Synthèse chimique sur une surface de verre par photolithogravure
Chips Affymetrix et Chips NimbleGen
GCG
ACGT
GT
GGT
40
Affymetrix GenechipsFabrication par photolithogravure
41
GeneChip ®
1.28 cm
Sondes≈ 500 000 zones de synthèse
106 to 107 oligonucleotides (25 mer) identiques dans chaque zone
ATCG
Wafer
12.7cm
Affymetrix Genechips
42
Affymetrix chipsMarquage de transcripts
FAvidin-Fluorescein
ARN
Transcriptioninverse
In vitrotranscription
cRNA-biotin
Fragmentation
Affymetrix chip
Hybridization
LavageMarquage
ScanAnalyse
A
43
Affymetrix chipsAnalyse du signal
Applications:-mesure d'expression des gènes-reséquençage-analyse de SNP
Image de fluorescence
Sondes oligonucléotides
Perfect match oligos
Mismatch oligos
Séquence de référence
44
Séquence …GATAACCGTAACGAATGCCATATCGGCTGGAAATT… ||||||||||||||||||||||||oligos ggcattgcttacggtatagccgac ggcattgcttaaggtatagccgac ggcattgcttagggtatagccgac ggcattgcttatggtatagccgac
Affymetrix chipsAnalyse de SNPs ou reséquençage
SNP
ACGT
1 2 3 4 5 6 7 8 9 10
oligos
SNPs1112 1314 1516 17
ex: Genome-Wide Human SNP 5.0 chips : 500'000 SNPs
Pour le marquage d'ADN génomique: fragmentation par enzymes de restrictions, ligation d'adapteurs, amplification par PCR, ajout de nucléotide biotinylé par terminal transferase
45
Etude sur 14'000 patientset 3'000 contrôles
Affymetrix Human 500K SNPs
Wellcome Trust Case Control Consortium, Nature (2007) 447:661-678
Association entre génotype et phénotype
46
Annotation expérimentale du génome(tiling arrays)
Schoemaker et al. (2002) Nature 409: 922-927
47Stolc et al. (2005) PNAS 102, 4453-4458
Nimblegen "tiling array"
Annotation expérimentale du génome d'Arabidopsis5 millions d'oligos 36-mer couvrant les deux brins (13 arrays)
>60% des transcripts annotés sont détectés
>1000 nouveaux gènes (en plus de Yamada et al.)12'090 transcripts en antisense
Affymetrix
Nimblegen
48
NimbleGen oligonucleotide chip
Méthode et utilisation identique à Affymetrix mais meilleur marché
49
Affymetrix: normalisation des signaux
Intensité du signal
50
Analyse des données Affymetrix d'expression
Chips 1Chips 2
Inte
nsité
du
signa
l nor
mal
isé
Gènes
Rapport d'expression :Signal Chips2/ Signal Chips1
51
Intensité du signal
Rapp
ort d
'exp
ress
ion
(Log
2 Cy5
/Cy3
)(moyenne de 6 réplicats indépendants)
CTL vs CTLPas de traitement
> 2 fois
> -2 fois
Comment identifier un gène différentiellement exprimé?
52
Effet de Pieris rapae sur l'expression génétique chez Arabidopsis thaliana(moyenne de 5 réplicats indépendants)
Intensité du signal
Rapp
ort d
'exp
ress
ion(
log2
Cy5
/Cy3
)
CTL vs insecte
Comment identifier un gène différentiellement exprimé?
Pieris rapae
53
Effet de Pieris rapae sur l'expression génétique chez Arabidopsis thaliana
Répression > 2 fois Induction > 2 fois
Analyse statistique du changement d'expression
P<0.05
Comment identifier un gène induit ou réprimé?
1. Seuil arbitraire (signal 2 fois plus grand dans la condition 1 que dans la condition 2)
2. Analyse statistique sur plusieurs réplicats (>3): test student t H0 µi=0Si µi différent de 0, le gène est induit avec P<0.05
Rapport d'expression
54
Corrections pour tests multiples
Errreur de Type I: un gène est déclaré différentiellement exprimé alors quece n'est pas le cas
-correction de Bonferroni: valeur p divisée par le nombre de tests -> tropconservateur-FDR (false discovery rate): proportion de faux positifs parmi les gènesdifférentiellement exprimés
-Correction Benjamini Hochberg-q value Storey Tibshirani
Cui and Churchil (2003) Genome Biology 4:210
55
Test t µ1= µ2 et rapport > ou < 1
Comparaison de deux expériences
Gènes induits par l'insecte dans le type sauvage (WT) et dans le mutant (coi1-1)Gènes induits par l'insecte seulement dans le type sauvage
Gènes pas induitsGènes induits par l'insecte seulement dans le mutant
Rapport 1: WT + insecte/ WT contrôle
Rapport 2: coi1-1 + insecte / coi1-1 contrôle
Plantes d'Arabidopsis attaquées pardes chenilles de Pieris rapae
56
Gènes
Expériences
Rapport d'expression
Comparaison de plusieurs expériencesHierarchical clustering
57
Comportement d'un groupe de répresseurs d'Arabidopsis
http://www.genevestigator.com
58
Cancer du sein
Tumeurs impossibles à différencierpar analyses classiques
patients
gènes
59Van't Veer et al. (2002) Nature 415:530-535
Le microarray comme outil diagnostique
60
Analyse de correspondance
Toutes les mesures d'expression (tous les gènes) d'une expérience sontcomparées à celles d'autres expériences
61
Analyse de promoteurs
62
Nouvel élément contrôlant l'induction par la blessure chez Arabidopsis
Walley et al. (2007) PLOS Genetics 10:e172
Analyse de promoteurs: un exemple
Motif RSRE (Rapid Stress Response Element) trouvé dans le promoteur de gènes induits rapidement par la blessureCGGGTT
63
ChIP-chipQuels sont les gènes contrôlés par un facteur de transcription
GENE X
FixationSonication
Récupération et marquaged'ADN lié au facteur de transcription
Immunoprécipitation
Cy5Cy3
Contrôle:ADN génomique marqué
Microarray contenantdes régions intergéniques
Facteur de transcription
Glucose --> Galactose
Ren et al. (2000) Science 290:2306
promoteur
anticorps
et tous les autres gènes cibles
64
GENE Y
FixationSonication
ImmunoprécipitationElimination du facteur de transcription
Facteur de transcriptionpromoteur
ChIP-seqQuels sont les gènes contrôlés par un facteur de transcription
anticorps
Séquençage à haut débit (454, Illumina)
GENE X
promoteur
GENE Z
promoteur
GENE X
65
Evolution expérimentale(250 générations)
Levures dans un milieu pauvreen glucose
Analyse globale de l'expression génétique(tous les gènes: 6124)
Résultats3% de changement d'expression
Utilisation optimale du glucosepour la production d'ATP-diminution de la fermentation-augmentation de la respirationn
DiscussionL'identité des mutations n'est pasconnue et ne peut être mesurée:on mesure le résultat et pas la cause
Analyse de changements d'expression au cours de l'évolution
Ferea et al. (1999) PNAS 96:9721-9726
66
L'avenir
-séquençage à haut débit sans amplification d'ADN ni marquage
-séquençage et assemblage de génomes inconnus grace à des séquences plus longues
-analyses d'expression des génomes par séquençage à haut débit
-beaucoup plus de génomique pour les organismes non-modèles
67
Résumé
ADN
ARN codants
ARN non codants
SNP
AAA AAA
Facteur de transcription
(Re)séquençage:- shotgun (Sanger) Génome inconnu- Illumina/454 Génome connu
Analyse des variations- Affymetrix
Recherche de promoteurs:- microarrays- séquençage Illumina/454
Analyse de l'expression- Affymetrix- microarrays
Annotation du transcriptome- Affymetrix tiling array
Identification de mutations- séquençage Illumina/454
Analyse de l'expression- séquençage Illumina/454
68
Session de printemps 2006
A. Vous avez à disposition 12 puces Affymetrix qui contiennent chacune des sondes pour tous les
gènes humains. Décrivez le design expérimental qui vous permette d’identifier avec une certaine
fiabilité statistique tous les gènes qui sont induits dans les premiers stades d’un type de tumeur de la
peau causé par un fort rayonnement UV.
B. Quel outil diagnostique développez-vous par la suite pour analyser une population de personnes
à risque?
Session de mars 2007
Les racines de luzerne (Medicago truncatula) forment des nodules avec les bactéries du genre
Rhizobium, dont le génome est complètement séquencé. Pour Medicago, il y a une collection de
cDNAs disponible.
A. Décrivez les expériences qui permettent d'identifier quels sont les gènes qui sont exprimés lors de
la symbiose, tant chez la luzerne que chez Rhizobium.
B. Comment savoir si des gènes de défenses de la plante sont réprimés lors de la symbiose?
Session de janvier 2008
Vous découvrez un nouvel ecotype d'Arabidopsis thaliana qui est très résistant aux chenilles de la
piéride du chou.
A. Quelle méthode est appropriée pour séquencer rapidement le génome de ce nouvel écotype?
Comment procède-t-on?
B. Décrivez une expérience pour savoir si la résistance aux insectes de cet écotype est due à une
plus grande expression de gènes de défense?
Session de janvier 2009
Vous obtenez la séquence du génome de 10 souris récoltées en Suisse qui manifestent des signes
d'obésité. Après analyse bioinformatique, vous découvrez 2 millions de mutations ponctuelles dans
ces génomes. Certains SNPs modifient la séquence de 1500 protéines.
A. Quelle méthode vous permet de savoir si il y a une association entre l'obésité et les 2 mio de
SNPs chez les souris d'Europe?
B. Décrivez une expérience pour savoir l'expression des gènes codant pour les 1500 protéines
modifiées est corrélée à la prise de poids des souris.
Questions d'examen
top related