les biopuces et le grand séquençage: des outils pour comprendre le vivant à léchelle génomique...
TRANSCRIPT
Les biopuces et le grand séquençage: des outils pour comprendre le vivant
à l’échelle génomique
Philippe Kastner
ESBS – septembre 2009
Partie 3: applications
Utilisation des biopuces pour l’étude du transcriptome
1. Conception d’une expérience de microarray
2. Méthodes d’analyse
3. Exemples d’application
Comment concevoir une expérience de microarrays ?
But: déterminer les variations biologiques entre différents échantillons.
Mais il faut distinguer celles-ci des variations
liées à la technologie, ou à celles liées à la variabililé intrinsèque des échantillons
Thomas Hudson, Montreal Genome Center
Intensité croissante
6 échantillons: A1, A2, A3, B1, B2, B3
Microarray comprenant 20 000 gènes
échelle d’expression: 1- 10000
Mesures pour un gène X
A1 A2 A3 B1 B2 B3
25 30 35 55 50 66
Test t: p = 0,01
Pour combien de gènes une telle valeur peut-elle être obtenue par hasard ? (« false discovery rate », ou FDR)
Différences d’expression réelles ou artéfactuelle ?
Comparaison Nombre de gènes différentiels
(Changement > 2x, p <0,01)
(A1, A2, A3) vs (B1, B2, B3) 300
(A1, B2, A3) vs (B1, A2, B3) 150
(A1, B2, B3) vs (B1, A2, A3) 200
(A1, A2, B1) vs (B2, B3, A3) 100
Estimation du nombre de gènes différentiels « réels »
La moitié des gènes différentiels est artéfactuelle !
Solutions: multiplier les réplicats
augmenter la stringence des critères de sélection.
Number of replicates Type of sample
Cell lines
Mouse cells
Mouse organs
Human cells
Human tumors
Interested by Big changes
2 2-3 3-4 5-6 >30
Small changes
4-5 5-6 10 10-15 >60
variabilité
Combien de réplicats sont-ils nécessaires pour une expérience réussie ?
Deux grands types de méthodes de « clustering »
A. Méthodes hiérarchique: génération d’un dendogramme (arbre) qui relie tous les gènes ou échantillons entre eux.
B. Méthodes par partitionnement, qui divise les gènes en K classes ayant des profils similaires (K défini par l’utilisateur)
- K-means
- Self-organizing maps (SOM)
- analyse par composantes principales (PCA)
Regroupement en fonction de profils d’expression
similaires
1. Gènes
Évolution temporelle de l’expression des gènes dans des fibroblastes humains stimulés par du sérum (Pat Brown, 1997)
Visualisation d’une chorégraphie de l’expression génique dans le temps.
700 gènes
(Première expérience publiée de microarrays)
Different cell lines to be compared
Genes belonging to one cluster
Fold Changes
1-2-4-6 +6+4+2
Regroupement en fonction de profils d’expression similaires
2. échantillons
– N expériences
– chaque gène est considéré comme un vecteur dans un espace de dimension N (coordonnées = valeurs d’expression dans chaque expérience)
– Partitionnement des gènes en K classes optimisées selon des critères de proximité des gènes dans l’espace vectoriel
Méthodes par partitionnement
(K-means, Fuzzy C-means, Self organizing maps)
Analyse par partitionnement de données correspondant à 5 types de leucémies T (20 groupes)
Visualisation et sélection des classses de gènes intéressantes
Ikaros
TelJak2 Tal-Lmo1
bcat
Analyse par partitionnement de données correspondant à 5 types de leucémies T (20 groupes)
B-catenin ICN1 Ikaros TelJak2 Tal-Lmo1
Visualisation des clusters FCM (4208 genes)
Applications des microarrays
1. Expression différentielleQuestion: pourquoi B est-il différent de A ?
(KO vs WT; effet d’un traitement; sain vs malade, etc …)
Comparaison de A et B 200 gènes différentiels !!
Et ensuite ??? …. Extraction d’un sens biologique
-Analyse biographique- Annotation fonctionnelle des gènes (gene ontology: codification des annotations)
Identification de gènes candidats ou voies moléculaires
Exemple 1: Lymphomes thymiques chez des souris mutantes pour le gène Ikaros
Recherche de la voie moléculaire impliquée dans le développement de ces tumeurs par une analyse du transcriptome.
6 IkL/L tumors
4 Tel-Jak2 tumors
5 non tumoral thymocytes
Genes specifically deregulated in IkL/L tumors ?
Conception expérimentale
Hes1
Notch1Deltex 1
pT
Notch upregulation is associated with tumors lacking Ikaros
IkL/L tumors
IkL/L tumor
TelJak2 tumors
Notch pathway signature
Expérience fondatrice d’un projet concernant le rôle d’Ikaros dans la régulation de la voie Notch.
Applications des microarrays
2. Transcriptome comme mesure phénotypique d’un système biologique
Concept: Profil apparenté de l’expression des gènes implique une similitude d’état biologique
Application principale: classification des tumeurs
2285 échantillons de tumeursde 20 types de cancer différents
2198 probe sets
Meta-analysis of 2285 tumors, from 20 different cancer types
Projet « carte d’identité des tumeurs » de la Ligue contre le Cancer
Example 2 : Cancer Expression Analysis•Large Diffuse B-Cell Lymphomas (LDBCL)
•No reliable indicators to subtype them
• Analysis of >100 LDBCL samples, as well as normal subsets of B lymphocytes
•Hybridise to 18K human “lymphoma” slide
•Alizadeh et al. , Nature 2000
• Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling.
Identification de deux groupes de tumeurs distincts
Mortality and LDBCL
Pronostic différent pour les deux groupes de tumeurs
Signature transcriptomique
Ensemble de gènes caractéristiques d’un état biologique donné- type cellulaire (ex: signature des pDCs)- stimulation d’une voie moléculaire (ex: Notch)
Exemple 3: analyse de la signature de cellules dendritiques plasmacytoïdes
Liu et al, Nature Immunol, 2004
Comment les pDCs se développent-elles ?
Controverses dans la littérature:
Les pDCs sont-elles apparentées aux cellules myéloïdes (macrophages, monocytes) ou lymphoïdes (lymphocytes) ?
Les pDCs sont-elles apparentées aux autres types de cellules dendritiques « conventionnelles », impliquées dans la présentation des antigènes ?
Une vue génomique des cellules dendritiques
1. Assemblage de profils d’expression génique pour la plupart des types cellulaires immunitaires (macrophages, neutrophiles, lymphocytes B, T, NK, pDCs, cDCs) = « compendium »
2. Pour l’homme et la souris
3. Clustering pour visualiser les distances entre lignage
4. Identification de programmes d’expression géniques conservés
Robbins et al, 2008 (Genome Biology)
Hierarchical clustering Principal component analysis (PCA)
(Projection on first 2 dimensions)
1. SOURIS
Similitude des profils transcriptomiques des DC
2. HOMME
Publicly available datasets on Affymetrix U133 v2
Similitude des profils transcriptomiques des DC
Pan-DC genes
pDC specific genes (500 genes)
Conventional DC genes
Signature des DC de souris
(Fuzzy C-means clustering)
Signatures des DC humaines
pDC genes
Pan DC genes
Conventional DC genes
B cells T cells pDCs cDCs
Ebf1 Camk4 Epha2 Arhgap22
Cd19 4430004N04Rik Pacsin1 Btbd4
Klhl14 Trat1 Zfp521 Slamf8
Bank1 CxCr6 Sh3bgr 9130211l03Rik
Pax5 Tnfrsf25 Tex2 Nav1
Blr1 Ccdc64 Runx2 Ct2a
Ralgps2 Plcg1 Atp13a2 Avpi1
CD79b Lat Maged1 Spint1
Gènes les plus fortement associés à des types de cellules spécifiques
Rouge: connu pour être spécifique de ces lignages
Conclusion des études transcriptomiques
Proximité des programmes géniques des pDC et cDC: les DC constituent-elles une branche développementale séparée du système hématopoîétique ?
Signatures conservées entre l’homme et la souris
Les gènes spécifiques des DCs sont largement inconnus
Exemple 4: Absence de cellules dendritiques plasmacytoïdes (pDC) chez les mutants IkL/L
B220
120G8
Spleen LN Blood
0.21 0.08 0.04
0.01 0.01 0.0
WT
IkL/L
B220
120G8
Spleen LN Blood
0.21 0.08 0.04
0.01 0.01 0.0
WT
IkL/L
Les pDC sont-elles bloquées dans leur différenciation dans la moelle osseuse ?
120G8
B220
WT
B220
120G8
IkL/L
Gated on CD11c + cells41.4
120G8
B220
WT
B220
120G8
IkL/L
Gated on CD11c + cells
120G8
B220
WT
B220
120G8
IkL/L
Gated on CD11c + cells41.4
Présence d’une population exprimant un marqueur des pDC, 120G8, mais pas B220
Analyse du transcriptome (Affymetrix: 45000 gènes)
Comparaison à divers types cellulaires hématopoïétiques
La population 120G8+ mutante appartient-elle au lignage des pDC ?
Surexpression de la plupart des gènes dérégulés
(scatter plot)
Les pDC IkL/L possèdent la signature pDC
Dérégulation (surexpression) d’un grand nombre de gènes
Sous-signature commune avec les DC conventionnelles
Visualisation des gènes spécifiques des populations WT et mutantes
Clustering hiérarchique)
Applications des microarrays
3. Data mining
Recherche d’informations « cachées » dans les données de transcriptome
Confrontation des données:
- à d’autres sets de données transcriptomiques
- aux données de séquence et d’organisation des génomes
- aux données de fonctions des gènes
Nature Genetics 22, 281 (1999)
Question: En confrontant les séquences des promoteurs de gènes co-régulés, peut-on découvrir de nouvelles séquences régulatrices ?
Données: de transcriptome du cycle cellulaire de levure (2 cycles)
1. partition en 30 classes de gènes (K-means)
2. pour chaque classe:
Enrichissement par rapport à une fonction ?
Présence de motifs spécifiques dans les promoteurs (1kb en amont du site d’initiation)?
méthode: déplacement d’une fenêtre de 10pb à travers la séquence, recherche de séquences homologues dans les autres gènes du cluster
calcul d’un score (MAP score). Si MAP score >10 , = significatif
Exemple 5: Profils d’expression et recherche de motifs régulateurs
18 motifs dans 12 clusters
Motifs spécifiques d’un cluster donné
Éléments régulateurs connus et inconnus
Identification de nouveaux sites régulateurs
Gènes co-exprimés Motif régulateur commun ?
Présence d’un ou plusieurs motifs donné
Gènes corégulés ?
General scheme (1)
• clustering-based approaches for finding motifs from gene expression and sequence data
classify
General scheme (2)
• sequence(/knowledge)-based approaches for finding motifs from gene expression and sequence data
Données: levures cultivées dans différentes conditions
Etude des promoteurs des groupes 1 et 4: enrichissement de deux motifs régulateurs, PAC et RRPE, souvent présents de façon conjointe.
Question: la présence de l’un ou des deux motifs PAC et/ou RRPE permet-elle de prédire la régulation du gène correspondant?
Très bonne corrélation des profils d’expression qui contiennent la suite RRPE, PAC
Idée: gènes aux fonctions similaires sont régulés de façon similaire
Compendium : base de données de profils d’expression
(levures cultivées dans différentes conditions, souches mutantes, etc …)
Gène à la fonction inconnue:
- profil d’expression similaire à ???
- Souche mutante pour ce gène: profil similaire à ???
Exemple 6: découverte de fonction de gènes
Exemple: découverte de la fonction du gène YER044C
Gènes
Souches mutantes
Forte association avec des gènes impliqués dans la synthèse de l’ergostérol
Validation fonctionelle
Question: la comparaison des profils d’expression géniques et des localisations chromosomiques permet-elle d’identifier des région de gènes corégulés ?
Données: cycle cellulaire de la levure
1. Pour tous les couples de gènes, calcul des corrélation des profils d’expression (valeurs entre -1 et 1)
2. Représentation par ordre sur les chromosomes
Exemple 7: recherche de gènes voisins co-régulés
Exemple de résultats
Question: l’expression des gènes humains varie-t-elle en fonction de domaines chromosomiques ?
1. Mesure du niveau d’expression de tous les gènes humains dans 12 tissus (SAGE)
2. Représentation du niveau d’expression en fonction de la position géographique sur les chromosomes
Exemple 8: influence de la localisation chromosomique sur le niveau d’expression génique
Exemple: chromosome 11
tissus
Intégration du niveau d’expression sur une fenêtre de 39 gènes
Positions sur le chromosome
Identification de domaines d’expression génique élevée (RIDGE)
influence de l’environnement chromosomique large sur la façon dont un gène est exprimé
Variations importantes des niveaux d’expression entre chromosomes
Corrélation entre densité génique et niveaux d’expression
Biopuces
• Analyse sans à priori des systèmes biologique: outils puissant générer des hypothèses
• Analyse globale, permettant de révéler des propriétés nouvelles, non visibles par des études restreintes.