2 interactomique : interactions protéine- protéinelecompte/cours/coursinteractomic10.pdf ·...
TRANSCRIPT
Anne [email protected]
Laboratoire de Génétique Moléculaire, Génomique, Microbiologie
Interactomique :
Interactions protéine-protéine
Christine Brun, LGPD, MarseilleKathryn Crist, Montana State UniversityCarl Herrmann, IDBM, MarseilleOlivier Poch, IGBMC, Illkirch
Fortement inspiré deprésentations/cours de :
2
Plan du cours : Interactome
Introduction générale : contexte post-génomique
Diversité des interactions protéine-protéine (IPPs)
Méthodes de détection d’IPPs
Approches indirectes
Approches directes
Détection d’IPPs à l’échelle du protéome
“protein chips”
électrophorèse 2D
double hybride dans la levure
TAP-Tag
Analyse des interactomes
Archivage des interactions : les banques de données
Représentation des réseaux d’interaction
Evaluation/interprétation des données expérimentales
Pla
n
3
Evolution de la notion de fonction des protéines
Vue traditionnelle Vue actuelle
Eisenberg et al., Protein function in the post-genomic areaNature, 2000
Intr
od
uct
ion
fonction « locale »ou moléculaire
fonction « contextuelle »ou cellulaire
4
Ce qu’il faut savoir….
Intr
od
uct
ion
de nombreux génomescomplets sont disponibles
connaître les gènesn’est pas suffisant pourcomprendre les fonctionsbiologiques
ce sont les protéines etnon les gènes qui sontresponsables de laplupart des activitéscellulaires
les protéinesfonctionnent eninteragissant avecd’autres protéines etbiomolécules
5
Suffixes “–omes”
Intr
od
uct
ion
« blablabla-OME » signifie : « le set entier de blablabla »
Génome : le set de tous les gènes d’un organisme – l’ensemble du matériel
génétique d'un individu
Protéome : le set de toutes les protéines dans une cellule d’un organisme
Interactome : le set de toutes les interactions au sein d’une cellule dans un
organisme (protéine-protéine, protéine-ADN, protéine-ARN, ARN-ADN...)
Génome Protéome Interactome
6
A propos des “–omics”…
Vidal & Furlong, “From OMICS to systems biology”
7
Interactome
Intr
od
uct
ion
Une protéine n’agit jamais seule, mais interagit avec d’autres macromolécules
pour assurer sa (ou ses) fonction(s)
“all interactions… in an organism between allproteins, in all cells, all tissues, at all ages,… to all possible environmental conditions…”
La définition d’un interactome...
Marc VidalDana Farber Cancer InstituteBoston, USA
Au niveau d’un organisme:Génome : entité (+/-) stableInteractome: dynamique et variable d’une cellule à l’autre,d’une condition à l’autre etc. (en perpétuel mouvement…)
8
Complexité de l’information
Intr
od
uct
ion
Le nombre de gènes d’un génome n’est pas êtreproportionnel à la complexité de l’organisme en question E.coli ~ 4 200 gènes
S.cerevisiae ~ 6 400 gènes
H.sapiens ~ 25 000 gènes
O. sativa ~ 40 000 gènes
La complexité d’un organisme est un résultat de lacomplexité de son « interactome »
(ou PINs pour Protein-protein Interaction Networks)
9
Complexité de l’information
Intr
od
uct
ion
10
Div
ers
ité d
es
IPP
s
Diversité des InteractionsProtéine/Protéine
(IPPs)
11
Diversité des IPPs
2 grands types d’interactions entre 2 protéines interactions fonctionnelles
2 protéines impliquées dans un même processus, une mêmevoie de communication, etc. sans qu’il y ait forcément interactiondirecte entre elles
interactions physiques
Div
ers
ité d
es
IPP
s
12
Diversité des IPPs d'après Nooren & Thornton
l’interaction a lieu entre homo- ou hétéro-oligomères
chaînes identiques chaînes différentes
Diversité structurale
l’association est isologue ou hétérologue surfaces de contact identiques (homo-oligomères) surfaces de contact différentes (homo-/hétéro-oligomères)
Div
ers
ité d
es
IPP
s
13
IPPs obligatoires les protéines ne sont pas stables indépendamment les protéines ne sont pas fonctionnelles indépendamment l’interaction est nécessaire à la stabilité et à la fonction ex : gros complexes protéiques (ADN polymérase, ARNpolymérase, ribosome, etc.)
IPPs non-obligatoires les protéines sont stables indépendamment les protéines sont fonctionnelles indépendamment l’interaction est responsable d’une action ex : complexes antigène-anticorps, enzyme-inhibiteur,complexes de signalisation intracellulaire, etc.
Diversité fonctionnelle
Diversité des IPPs d'après Nooren & Thornton
Div
ers
ité d
es
IPP
s
14
IPPs permanentes les protéines n’existent qu’au sein d’un complexe les IPPs obligatoires sont généralement permanentes
IPPs transitoires les protéines s’associent et se dissocient in vivo les IPPs non-obligatoires peuvent être transitoires oupermanentes
Diversité dynamique
Diversité des IPPs d'après Nooren & Thornton
Div
ers
ité d
es
IPP
s
15
Déte
ctio
n d
es
IPP
s
Méthodes de détectiond’IPPs
2 grands types- Approches indirectes- Approches directes
16
Interactions par approches indirectes
Génome
Génome/Protéome
Protéome
Génétique
Transcriptome
Position des gènes (co-localisation de gènes) Overbeek et al., PNAS 1999
Dandekar et al., Trends in Biochem. Sci, 1998
Profils phylogénétiques Pellegrini et al., PNAS 1999
Fusion de domaines (Rosetta stone) Enrigth et al., Nature 1999
Marcotte et al., Science 1999
Profils d’expression Eisen et al., PNAS 1998
Létalité synthétique Tong et al., Methods Mol.biol. 2001
Co-évolution de séquences Goh et al., J Mol Biol 2000
Déte
ctio
n d
es
IPP
sGénome/Protéome
17
Position des gènes
Corrélation entre gènes voisins pour l’inférence de liensfonctionnels
constat : la synténie (conservation de l’ordre des gènes) est trèsfaible entre génomes éloignés
2 gènes (bleu et jaune) sont voisins dans plusieurs génomes
un lien fonctionnel peut être inféré entre les protéines pourlesquelles ces gènes codent
Eisenberg et al., Protein function in the post-genomic areaNature, 2000
Déte
ctio
n d
es
IPP
s
18
Corrélation entre gènes voisins pour l’inférence de liensfonctionnels
méthode robuste pour les génomes procaryotes
a permis la mise en évidence d’un lien fonctionnel entre 8 enzymesimpliquées dans la voie de biosynthèse de l’arginine chezMycobacterium tuberculosis
peut aussi être appliquée aux gènes humains dans le cas degènes situés dans des structures de type “opéron-like”
Position des gènes
Déte
ctio
n d
es
IPP
s
19
Les protéines qui interagissent tendent à être co-présentes /co-absentes dans les génomes connus
Profils phylogénétiques
Déte
ctio
n d
es
IPP
s Eisenberg et al., Protein function in the post-genomic areaNature, 2000
20
Profils phylogénétiques : exemple
Déte
ctio
n d
es
IPP
s
Etude des ARPs (Actin Related Proteins) : rôle clef dans lesactivités du cytosquelette
groupes de protéines similaires à l’actine, divisés en 11 familles
ARPs cytoplasmiques (ARP1-2-3-10-11) : contrôle spatio-temporelde l’assemblage de l’actine, mouvement
ARPs nucléaires (ARP4-5-6-7-8-9) : remodelage de la chromatine,régulation de la transcription, réparation de l’ADN
Muller et al., Sequence and comparative genomic analysis of actin-related proteinsMol Biol Cell, 2005
21
Profils phylogénétiques : exemple
Déte
ctio
n d
es
IPP
s
19 génomescomplets
actin polymerizationcomplex
INO080 chromatin remodeling complex
SWI/SNF chromatin remodeling complex
dynactin complex
Déte
ctio
n d
es
IPP
s
Muller et al., Sequence and comparative genomic analysis of actin-related proteinsMol Biol Cell, 2005
ARPs 10 et 11 =une seule famille
22
« Rosetta Stone »
Basé sur la comparaison des protéomes de 2 organismes
les gènes impliqués dans un même complexe ou une mêmevoie métabolique peuvent fusionner au cours de l’évolution
Si une protéine constituée de 2 domaines fusionnés dansl’organisme A est représentée par 2 protéines différentes dansl’organisme B
ces 2 protéines interagissent dans l’organisme B
Déte
ctio
n d
es
IPP
s
23
« Rosetta Stone »
Eisenberg et al., Protein function in the post-genomic areaNature, 2000
Déte
ctio
n d
es
IPP
s
Exemples : S. cerevisiae : Pur2 et Pur3 = enzymes intervenant dans labiosynthèse de la purine. Chez C. elegans : Ade5,7,8.
S. cerevisiae : TrG et TrpF = enzymes intervenant dans labiosynthèse du tryptophane. Chez E. coli : TrpC
24
Avantages entièrement in silico (coût réduit)
la puissance de ces méthodes continue d’augmenter avec lenombre de génomes séquencés
Inconvénients pas toutes applicables à tous les organismes restriction aux génomes procaryotes pour la méthode de la“position des gènes”
les difficultés à identifier les “vrais” orthologues
la répétition de certains motifs dans de nombreuses protéines (ex
zinc finger) pour « Rosetta stone »
le lien entre les protéines n’est pas forcément direct mise en évidence d’interactions fonctionnelles, mais pasforcément d’interactions physiques
Ces 3 méthodes peuvent être combinées pour augmenter la“confiance” dans le résultat
Déte
ctio
n d
es
IPP
s
Bilan pour ces 3 méthodes
25
Profils d’expression
Déte
ctio
n d
es
IPP
s
Expression corrélée des ARNm DNA microarray: analyse simultanée du niveau d’expression desARNm pour l’ensemble des gènes d’un organisme
hypothèse : si 2 gènes sont toujours sur/sous exprimés de manièrecoordonnée, les produits de leurs expressions sont fonctionnellementliés
Avantages :
in vivo
couverture très large (tous les gènes, tous les temps)
Inconvénients :
le niveau des protéines et de l’ARNm peut ne pas être corrélé
permet de mettre en évidence des interactions fonctionnelles, maispas forcément physiques
la difficulté de l’analyse et interprétation des données
26
Profils d’expression
Déte
ctio
n d
es
IPP
s
Expression corrélée des ARNm plusieurs laboratoires ont générés des profils d’expression mesurésdans un grand nombre de conditions (réponse au stress, cyclecellulaire, …) dans plusieurs organismes modèles
étude de 3 182 DNA microarrays (H. sapiens, D. melanogaster,C. elegans, S. cerevisiae)
mise en évidence de 22 163 relations de “co-expression conservée”au cours de l’évolution
conservation de la co-expression de paires de gènes confère unavantage sélectif
gènes fonctionnellement liés
Stuart et al., A gene coexpression network for global discovery of conserved genetic modulesScience, 2003
Mise en évidence de l’implication de nouveaux gènes dansdes fonctions biologiques centrales (cycle cellulaire, sécrétion etc.)
27
Létalité synthétique
Déte
ctio
n d
es
IPP
s
Létalité synthétique : reflète une interaction génétique la combinaison de mutations entre 2 (ou plusieurs) gènes nonessentiels conduit à la mort cellulaire
Boone et al.,Exploring genetic interactions and network with yeastNature reviews, 2007
a | Souche MATα : mutation + marqueur de sélectiondominant. Croisement de cette souche avec une soucheMATa délétée (xxxΔ).
Dans chacune de ces souches délétères, un gène estinterrompu par l’insertion d’un marqueur de sélectiondominant (ex module de résistance à la kanamycine)
b | Sporulation du diploïde hétérozygote, formation despores haploïdes.
c | Les spores sont transférés sur un milieu synthétiquepermettant la germination spécifique des MATa
d | Les cellules haploïdes issues de la méiose sonttransférées sur un milieu contenant de la kanamycine, quipermet la sélection des “single” mutants type MATa etdouble mutants.
e,f | Les doubles mutants sont sélectionnés sur un milieucontenant kanamycine et nourseothricine.
28
Létalité synthétique
Déte
ctio
n d
es
IPP
s La létalité synthétique
Etude Tong et al. : 80% des gènes chez S. cerevisiae sont non-essentiels
croisement de 8 souches mutantes délétées pour un gène avec dessouches mutantes délétées pour chacun des gènes non-essentiels(~4 700)
mise en évidence de 291 interactions par létalité synthétiqueimpliquant 204 gènes différents
avantages :
in vivo
couverture très large peut être genome-wide
peut être testée sous diverses conditions
inconvénients :
fonctionne uniquement avec les gènes non-essentiels
la relation entre les gènes peut ne pas être directe
spécifique de la levure
Tong et al., Systematic Genetic Analysis with Ordered Arrays of YeastScience, 2001
Remarque : Peut à présent être réalisé sur une puce (Tong & Boone, 2006)
29
Co-évolution des séquences
Evolution simultanée de 2 “partenaires”, par application d’unepression de sélection réciproque
Beaucoup étudié dans le cadre de relation hôte / parasite
co-évolution d’organismes
Applicable à 2 protéines interagissantes (physiquement) tout changement divergent au niveau de la surface d’interactiond’un des partenaires doit être compensé par un changement sur lasurface d’interaction de l’autre partenaire
mutations compensatoires
étude comparative de phylogénies
Déte
ctio
n d
es
IPP
s
30
Méthodes de détectiond’IPPs
2 grands types- Approches indirectes- Approches directes
Déte
ctio
n d
es
IPP
s
31
Méthodes de détection d’interactions physiques
Méthodes
X-ray crytallography
Yeast two-hybrid
Affinity purification –mass spectrometry
Protein chips
2D electrophoresis
Protein-fragmentComplementation
assays
Phage display
Fluorescenceresonance energytransfer (FRET)
Surface plasmonresonance
Atomic forcemicroscopy
Living cellassay
In vitro
In vivo
In vitro
In vitro
In vivo
In vivo
In vitro
In vivo
In vitro
In vitro
Type ofinteractions
Physical(complex)
Physical(binary)
Physical(complex)
Physical(complex)
Physical(complex)
Physical(binary)
Physical(complex)
Physical(binary)
Physical(complex)
Physical(binary)
Type ofcharacterization
Structural andbiological
identification
identification
identification
identification
Identification
identification
biological
Kinetics, dynamics
Kinetics, dynamics
Déte
ctio
n d
es
IPP
s
32
Méthodes de détection d’interactions physiques
Déte
ctio
n d
es
IPP
s
Structure 3D de complexes protéiques (rayon X) “vue” la plus précise de l’interaction! Les surfaces/résidus impliquésdans l’interaction sont clairement identifiables etc.
MAIS: difficultés de l’obtention des cristaux etc.
Dans la PDB (décembre 2010) : ~69 650 structures déposées,dont ~2 950 complexes
cf vos cours…
33
Méthodes de détection d’interactions physiques
Déte
ctio
n d
es
IPP
s
Structure 3D de complexes protéiques (rayon X)
Phage display « présentation de peptides » à la surface de phages filamenteux :fusion des protéines d’intérêt en Nter des protéines pIII ou pVIII
sélection des phages recombinants selon leur capacité de liaison àune cible
permet le criblage rapide d’une grande quantité de clones
(Sidhu et al., 2003)(M/S, 14, 300-309, 1998)
Sélection in vitro d’interactants avec phage display
Les polypeptides sont “présentés” à la surface desphages.La libairie est incubée avec des cibles immobiliséespour la sélection de protéines interagissantes (lesphages non-interagissants sont éliminés au cours delavage).
Les phages liants sont élués et amplifiés dans E.coli.
Les phages amplifiés peuvent subir des roundssupplémentaires de sélection ou séquençace despolypeptides interagissants.
34
Méthodes de détection d’interactions physiques
Déte
ctio
n d
es
IPP
s
Structure 3D de complexes protéiques (rayon X)
Phage display
FRET : Fluorescence Resonance Energy Transfer définition : processus non radiatif par lequel de l’énergie d’unfluorophore donneur à l’état excité est transmis à un fluorophoreaccepteur à proximité immédiate (distance < 10 nm)
excitation du donneur diminution de l’intensité de fluorescence dudonneur et augmentation de l’intensité de fluoresence de l’accepteur
(Bastiaens and Pepperkok, 2000)
35
Méthodes de détection d’interactions physiques
Déte
ctio
n d
es
IPP
s
Structure 3D de complexes protéiques (rayon X)
Phage display
FRET : Fluorescence Resonance Energy Transfer
Résonance plasmonique de surface caractérisation de différents paramètres cinétiques ou à l'équilibre del'interaction (constantes d’affinités et cinétiques) + détection et dosagede molécules interagissant entre elles
Utilisation d’une onde évanescente de surface pour analyserles interactions entre des molécules immobilisées sur unesurface et des molécules passant sur cette surface.
Lorsqu'il y a une interaction entre les molécules greffées etcelles en solution, l'indice de réfraction à cet endroit estlégèrement modifié.
Cette information est récupéréesur une caméra CCD (ChargeCoupled Device),
filme en direct des phénomènesintermoléculaires se passant à lasurface de la biopuce
36
Méthodes de détection d’interactions physiques
Déte
ctio
n d
es
IPP
s
Structure 3D de complexes protéiques (rayon X)
Phage display
FRET : Fluorescence Resonance Energy Transfer
Résonance plasmonique de surface
Microscopie à force atomique techniques d’analyse de la surface basées sur l'interaction à trèscourte portée entre une pointe et l’échantillon technique qui consisteà venir « palper » les macromolécules par un micro-levier vibrant enphase liquide (mesure de l’interaction mécanique)
permet le suivi en temps réel de modifications structurales induitespar les interactions entre 2 protéines
37
Méthodes de détection d’interactions
Adapté de Panchenko & Shoemaker. 2006. ISMB Tutorial.
Méthodes Type ofinteractions
Type ofcharacterization
Living cellassay
HTPapproach
X-raycrytallography
Physical(complex)
Structural andbiological
In vitro -
Yeast two-hybridPhysical(binary)
identification In vivo +
Affinity purification –mass spectrometry
Physical(complex)
identification In vitro +
Protein chipsPhysical
(complex)identification In vitro +
2D electrophoresisPhysical
(complex)identification In vivo +
Protein-fragmentComplementation assay
Physical(binary)
identification In vivo +
Phage displayPhysical
(complex)identification In vitro +
Fluorescence resonanceenergy transfer (FRET)
Physical(binary) biological In vivo -
Surface plasmonresonance
Physical(complex)
Kinetics, dynamics In vitro -
Atomic forcemicroscopy
Physical(binary)
Kinetics, dynamics In vitro -
Déte
ctio
n d
es
IPP
s
38
Méthodes de détection d’interactions
Adapté de Panchenko & Shoemaker. 2006. ISMB Tutorial.
Méthodes Type ofinteractions
Type ofcharacterization
Living cellassay
HTPapproach
X-raycrytallography
Physical(complex)
Structural andbiological
In vitro -
Yeast two-hybridPhysical(binary)
identification In vivo +
Affinity purification –mass spectrometry
Physical(complex)
identification In vitro +
Protein chipsPhysical
(complex)identification In vitro +
2D electrophoresisPhysical
(complex)identification In vivo +
Protein-fragmentComplementation assay
Physical(binary)
identification In vivo +
Phage displayPhysical
(complex)identification In vitro +
Fluorescence resonanceenergy transfer (FRET)
Physical(binary) biological In vivo -
Surface plasmonresonance
Physical(complex)
Kinetics, dynamics In vitro -
Atomic forcemicroscopy
Physical(binary)
Kinetics, dynamics In vitro -
Déte
ctio
n d
es
IPP
s
39
Comment identifier les interactions protéine-protéine à l'échelle du protéome entier?
5 méthodes automatisées
“protein chips”
électrophorèse 2D
double hybride dans la levure (Yeast-two hybrid, Y2H)
TAP-tag (Tandem Affinity Purification)
PCA (Protein-fragment Complementation Assay)
Détection d’IPPs à l’échelle du protéome
Déte
ctio
n d
es
IPP
s
40
Pro
tein
ch
ip
Protein chip
Basé sur la technologie des “microarray” incontournable en biologie à grande échelle et haut-débit
permet une détection aisée et rapide de milliers de signaux enparallèle
cf vos cours de transcriptomique
“Protein microarray” grilles qui contiennent de petites quantités de protéines
purifiées, en forte densité
2 types
protein microarray analytique : puce antigène-anticorps
protein microarray fonctionnelle : protein chip
41
Pro
tein
ch
ip
Protein chip
Zhu and Snider, Protein chip technologyCurr Op Chem Biol, 2003
42
Pro
tein
ch
ip
Protein chip
Elles peuvent être criblées pour mettre en évidence des
activités biochimiques
interactions protéine/protéine
interactions protéine/ADN ou protéine/ARN
interactions protéine/ligand
43
Zhu and Snider, Protein chip technologyCurr Op Chem Biol, 2003
Pro
tein
ch
ip
Protein chip44
Pro
tein
ch
ip
Exemple de Protein chip
Zhu et al., Analysis of yeast protein kinases using protein chipNature, 2000
Développement d’une Protein chip pour tester les activitésbiochimiques de l’ensemble des kinases de levures
Surexpression des protéines kinases
« Using the recombination strategy, 119 yeastprotein kinases were cloned in a high-copy URA3expression vector (pEG(KG)) that produces GSTfusion proteins under the control of thegalactoseinducible GAL1 promoter9. GST:kinaseconstructs were rescued into E. coli, and sequencesat the 5´ of each construct were determined. »
Fabrication de la Protein chip
PDMS (poly(dimethylsiloxane)) was pouredover the acrylic mold. After curing, the chipcontaining the wells was peeled away andmounted on a glass slide. The next stepincluded modification of the surface and thenattachment (covalent) of proteins to thewells. (…) For 12 substrates each kinaseassay was repeated at least twice; for theremaining 5 the assays were performed once.
45
Test des activités kinases in vitro avec 17 substrats différents
signaux de phosphorylation récupérés et quantifiés à l’aide d’unphosphoimager à haute résolution
“certaines protéines représentent des substrats préférentiels decertaines kinases et, inversement, de nombreuses kinasesprésentent une meilleure affinité vis à vis de certains substrats ”
Exemple de Protein chip
Problèmes de contaminations?
Interaction in vitro ne signifie pas in vivo! tests supplémentaires
Cette étude a néanmoins révélée que certaines protéines sontcapables de servir de substrat pour des kinases spécifiques,permettant de poser de nouvelles hypothèses…
Zhu et al., Analysis of yeast protein kinases using protein chipNature, 2000
Pro
tein
ch
ip
46
Pro
tein
ch
ip
Analyse d’interactions par Protein chip
Service, Protein Chips Map Yeast Kinase NetworkScience, 2005
Depuis… 160 interactions spécifiques des kinases de levure et leurs
cibles ont été identifiées précédemment
une étude a permis d’en mettre en évidence plus de 4 000supplémentaires
ces résultats ont révélé 4 192 interactions entre les kinases delevure et 1 300 protéines cibles
4 088 des 6 000 protéines de levure sont disponiblescommercialement par invitrogen
1ere high-density functional protein microarray
47
Pro
tein
ch
ip
Protein chip
Avantages
très bon ratio signal/bruit (10X meilleur qu’une plaque demicrotitration)
petite quantité de matériel nécessaire (1/20ème de ce qui estnécessaire pour une plaque de 384 puits)
les tests sont extrèmement sensibles : même les protéines nondétectables en immunoblot peuvent être testées
peu cher
largement applicable
Problèmes rencontrés
les protéines sont plus difficiles à préparer au format “microarray”que l’ADN
la fonction d’une protéine dépend de son état
modifications post-traductionnelles
partenariat avec d’autres protéines
localisation sub-cellulaire
etc.
48
Analyse d’interactions par Protein chip
Pro
tein
ch
ip
Zhu et al., Global analysis of protein activities using proteome chipsScience, 2001
La même équipe, quelques mois plus tard…
microarray du protéome de la levure
5 800 ORFs de levure clonées et sur-exprimées
purification des protéines correspondantes
fixation sur le support à haute densité spatiale
identification de nouvelles protéines interagissant avec lacalmoduline et certains phospholipides
Criblage sur capacité à interagir aveccertaines protéines et phospholipides
49
Analyse d’interactions par Protein chip
Pro
tein
ch
ip
Calmoduline = calcium-binding protein 6/12 cibles calmoduline connues ont été trouvées (Cmk1,
Cmk2, Cmp2, Dst1, Myo4, Arc35)
6/12 cibles calmodulin connues n’ont pas été trouvées (2 noncontenues dans les 5800 ORFs, 4 non produits en tant quefusion GST)
33 nouvelles cibles potentielles retrouvées
étude de similarité de séquences: 14/39 protéines liant lacalmodulin contiennent un motif
Motif de liaison à la calmoduline?
50
Comment identifier les interactions protéine-protéine à l'échelle du protéome entier?
5 méthodes automatisées
“protein chips”
électrophorèse 2D
double hybride dans la levure (Yeast-two hybrid, Y2H)
TAP-tag (Tandem Affinity Purification)
PCA (Protein-fragment Complementation Assay)
Détection d’IPPs à l’échelle du protéome
Déte
ctio
n d
es
IPP
s
51
Electrophorèse 2D
électrophorese bi-dimensionnelle en gels bleu natif et SDS(ou BN/SDS PAGE, pour “Blue Native/SDS PolyAcrylamide GelElectrophoresis")
repose sur la double séparation des protéines selon leur pI par focalisation isoélectrique (1ère dimension)
selon leur poids moléculaire (2ème dimension, perpendiculaireà la 1ère)
(Schägger et al., 1996, Camacho-Carvajal et al., 2004)
Etapes un mélange de cellules est lysé en conditions natives
(A) séparation par électrophorèse en conditions non dénaturantes (bleunatif): les complexes protéiques et les protéines seules se séparent enfonction de leurs charges
(B) 1er gel placé en entrée du 2ème; séparation en conditiondénaturantes (SDS PAGE) : chacune des protéines de chacun descomplexes migre selon son poids moléculaire
identification des protéines par spectrométrie de masse
52
Electrophorèse 2D
53
Electrophorèse 2D
(A) Electrophorèse bidimensionnelle
(B) Spectromètrie de masse:Les peptides sont ionisés par un laser,
puis accélérés dans une colonnejusqu’à un détecteur.
Le temps de trajet de chaque peptidedépend du rapport entre sa masse etsa charge.
Les résultats sont confrontés à unebanque de données qui contienttoutes les masses théoriques de tousles peptides de toutes les protéines.
54
Electrophorèse 2D
Avantages séparation de complexes protéiques à partir d’extraits
cellulaires obtenus en conditions naturelles
ne nécéssite pas de modification de séquences ADN / decellules hôtes
permet de tester différentes conditions/tissus etc.
permet de déconvoluer un mélange de plusieurs 100aines deformes polypeptidiques
analyse quantitative des variations de l’expression protéique
Inconvénients la phase d’obtention des extraits cellulaires est délicate
peut casser les interactions de faible intensité
peut provoquer des interactions non physiologiques
protéines doivent être solubles et en quantité “suffisamment”abondante
(Schägger et al., 1996, Camacho-Carvajal et al., 2004)
55
Iden
tifi
cati
on
de P
PI Comment identifier les interactions protéine-protéine à
l'échelle du protéome entier?
5 méthodes automatisées
“protein chips”
électrophorèse 2D
double hybride dans la levure (Yeast-two hybrid, Y2H)
TAP-tag (Tandem Affinity Purification)
PCA (Protein-fragment Complementation Assay)
Détection d’IPPs à l’échelle du protéome56
DF
DA
Gène
Facteur de transcription:
Domaine de fixation à l'ADN (DF) +
Domaine d'activation de la transcription (DA), capable d'activer lamachinerie basale de transcription(utilisation courante du système GAL4)
Site de fixation pour lefacteur de transcription
Facteur de transcription ARN messager
ARN messager
ARN messagerARN messager
ARN messager
ARN messager
ARN messagerARN messagerDF
DA
Y2
H
Double hybride dans la levure
Principe basé sur la modularité des facteurs de transcription
57
DFAppât X
DAProie Y
Gène rapporteur
La protéine appât X (dont on veut identifier les interacteurs) estfusionnée au domaine de fixation à l'ADN DF d'un facteur detranscription
Les protéines proies Y (interacteurs potentiels) sont fusionnées audomaine d'activation de la machinerie basale de transcription DA d'unfacteur de transcription
Les protéines fusions sont exprimées dans des cellules de levurecontenant un gène rapporteur dont l'expression est placée sous lecontrôle du site de fixation pour le domaine de fixation à l'ADN DF
Y2
H
Double hybride dans la levure58
Lorsque la protéine proie Y est capable d'interagir avec la protéineappât X, le domaine d'activation se retrouve à proximité dupromoteur du gène rapporteur et la transcription a lieu
DFAppât X
DAProie Y
Gène rapporteur
ARN rapporteurARN rapporteur
ARN rapporteurARN rapporteur
ARN rapporteur
ARN rapporteur
ARN rapporteurARN rapporteur
DAProie Y
Double hybride dans la levure
Y2
H
A savoir : en pratique, plusieurs gènes rapporteurs (souvent 3) sonttestés en parallèle pour augmenter la fiabilité des résultats
59
Quelles sont les interactions identifiées ? interactions permanentes
interactions transitoires dont les interactions enzyme-substrat(ex: 10 à 40 % des interactions kinase-substrat)
interactions qui n'existent pas physiologiquement
Faux-positifs
taux de faux positifs estimés à 40-70%
DFAppât X
Gène rapporteur
ARN rapporteurARN rapporteur
ARN rapporteurARN rapporteur
ARN rapporteur
ARN rapporteur
ARN rapporteurARN rapporteur
L'appât auto-activateur(activation de la transcription en absence
d'interacteur)
DFAppât X
DAProie Y
DFAppât A
DFAppât B
DFAppât C
La proie collante(interagit avec un très grand nombre
d'appâts)
Double hybride dans la levure
Y2
H
60
Quelles interactions ne sont pas identifiées? interactions impliquant des protéines présentant des problèmes :
structuraux
de stabilité
de toxicité
de mauvaise localisation (protéines membranaires)
de modifications post-traductionnelles
On estime que 70 à 90 % des interactions sensées exister ne sontpas détectées
Faux-négatifs
Double hybride dans la levure
évolution des méthodes de double-hybrides pour palier à cesproblèmes exemple : permutation des protéines de fusion (Stellbergeret al., 2010 )
Y2
H
61
Différentes approches pour le Y2H
Pro
teom
e Y
2H
A: Matrix approach. In the Uetz et al.(2000) screen 192 bait strains (bait1–bait 192) were individually matedagainst arrays of yeast strains thatrepresent approximately 6,000 preyproteins.
Causier, Studying the interactome with the yeast two-hybrid system and mass spectrometryMass Spectrom Rev, 2004
62
Pro
teom
e Y
2H
Différentes approches pour le Y2H
63
LSM8 is a yeast protein involved in splicing.
LSM8 against 6 000 preys. Positives from two independent screens are shown in redand green.
Common positives in both screens are labelled in yellow with gene names attached.
Note that the two screens generated 70 positives of which only 12 were reproducible.
All non-reproducible positives are considered as false positives.
Pro
teom
e Y
2H
Uetz, Two-hybrid arrayCur Opin Chem Biol, 2002
Among the 12 positives, 9 are known to beinvolved in RNA processing or RNA binding.
Another two, RPS28A and B, are ribosomalproteins. YLR269C and YEL015W are proteinsof unknown function.
DSS4 is the only positive whose associationwith LSM8 cannot be explained easilybecause it is a guaninenucleotide exchangefactor for Sec4.
Among the 58 non-reproduciblepositives, only 3 are known to be involvedin RNA processing or translation (i.e. RNAbinding)
Différentes approches pour le Y2H64
Différentes approches pour le Y2H
Pro
teom
e Y
2H
A: Matrix approach. In the Uetz et al.(2000) screen 192 bait strains (bait1–bait 192) were individually matedagainst arrays of yeast strains thatrepresent approximately 6,000 preyproteins.
B: The Uetz et al. (2000) libraryapproach. The 6,144 prey strains werepooled to generate a library. Bait strains(5,345 in total) were individually matedagainst the prey library to identifypotential interactors.
Causier, Studying the interactome with the yeast two-hybrid system and mass spectrometryMass Spectrom Rev, 2004
65
Pro
teom
e Y
2H
Différentes approches pour le Y2H66
Différentes approches pour le Y2H
Pro
teom
e Y
2H
Causier, Studying the interactome with the yeast two-hybrid system and mass spectrometryMass Spectrom Rev, 2004
A: Matrix approach. In the Uetz et al.(2000) screen 192 bait strains (bait1–bait 192) were individually matedagainst arrays of yeast strains thatrepresent approximately 6,000 preyproteins.
B: The Uetz et al. (2000) libraryapproach. The 6,144 prey strains werepooled to generate a library. Bait strains(5,345 in total) were individually matedagainst the prey library to identifypotential interactors.
C: The library approach adopted byIto et al. (2000, 2001). Almost all yeastopen reading frame (ORFs) were clonedas bait and prey constructs in yeaststrains of opposite mating type, andwere subdivided into 62 pools thatcontained 96 clones. Each bait pool wassystematically mated with each preypool, and the diploids were assayed forprotein–protein interactions.
67
Pro
teom
e Y
2H
Différentes approches pour le Y2H68
Pro
teom
e Y
2H
Différentes approches pour le Y2H
Génération d’un très grand nombre d’ORFs pour réaliser lesdouble-hybrides à haut débit
Alternative : travailler avec une banque de cDNA « randomprimed » (Hybrigenics)
69
Pro
teom
e Y
2H
Différentes approches pour le Y2H
Reporter gene : HIS3
BD
Y
ADXPrey
Bait
Protéine/ domaine d’intérêt
Gal4 DNA-BindingDomain Fragment Y
Plasmide appât
Banque de cDNA« random-primed »
Plasmide proieGal4 Activating
DomainFragment X
Mating
50 millioninteractions tested
Y1Yeast bait
cloneX1 X3X2
XiX4Xn
Yeast preylibrary
• 10 millions de clones de levures indépendants
Prey fragment Xi identification
70
Avantages random / ORFs pas besoin de cloner des milliers d’ORFs(travail préalable très lourd)
permet de travailler sur des protéines spécifiquement exprimées danscertains tissus
ex: banque de cDNA du muscle humain
informations sur la région de la proie impliquée dans l’interaction
Inconvénients random / ORFs séquençage des proies
de nombreuses interactions ne sont pas détectées car la protéinen’est pas forcément complète
mise en évidence de séquences « inconnues » : interprétation?
Différentes approches pour le Y2H
71
Reproductibilité du Y2H
Pro
teom
e Y
2H
(B) Uetz et al. (2000)691
(A) Uetz et al. (2000)281
(C) Ito et al. (2001)841
Recouvrement extrèmement faible
Beaucoup de faux-négatifs (p.ex sous-représentation des protéines membranaires)
Limitation de la méthode
Néanmoins
Génération d’énormément de donnéespotentiellement intéressantes
A été appliqué à d’autres organismes…
72
Les principaux cribles double hybride à grande échelle
Double hybride dans la levure
Helicobacter pylori 1 524 Rain et al.
Saccharomyces cerevisiae 840 Uetz et al. 4 500 Ito et al.
Caenorhabditis elegans 4 000 Li et al.
Drosophila melanogaster 2 060 Formstecher et al. 20 500 Giot et al.
1 800 Stanyon et al.Y
2H
organismes nb interactions références
73
Crible double hybride de la drosophile
Pro
teom
e Y
2H
10 623 predicted transcripts isolated and screened against standard and normalized cDNAlibraries
draft map of 7 048 proteins and 20 405 interactions
rating two-hybrid interaction confidence based on a computational/statisctical method
higher confidence map of 4 679 proteins and 4 780 interactions
statistical modeling of the network showed two levels of organization
a short-range organization, presumably corresponding to multiprotein complexes
a more global organization, presumably corresponding to intercomplex connections
74
Comparaison des résultats des 3 cribles double-hybride
Giot et al.Science 2003
Formstecher et al.Genome Res 2005
Stanyon et al. Genome Biol 2004
interactionsextraites dela littérature
(20/885=2.3%)(51/2787=1.8%)
(9/605=1.5%)
peu de recouvrement entre expériences
peu de recouvrement avec la littérature, mais des recouvrements du mêmeordre quelle que soit l'expérience
meilleur recouvrement entre expériences et littérature qu'entre expériences
Pro
teom
e Y
2H
Crible double hybride dans la drosophile
75
192 63823Giot et al.
Science 2003Formstecher et al.Genome Res 2005
Le 'faible' recouvrement s’explique en partie par les méthodologiesemployées:
- Giot et al. protéines entières
- Formstecher et al. fragments de protéines
Les résultats des deux approches sont complémentaires.
Pro
teom
e Y
2H
Crible double hybride dans la drosophile
Comparaison des résultats de 2 cribles double-hybride sur 30appâts identiques
76
Pro
teom
e Y
2H
Y2H : Interactome de C.elegans
Li et al., A map of the interactome network of the metazoan C. elegansScience, 2004
Représentation des interactomes :Graphiques non orientés Nœuds = protéinesArêtes = interactions
77
Pro
teom
e Y
2H
Y2H : Interactome de C.elegans
Li et al., A map of the interactome network of the metazoan C. elegansScience, 2004
Double-hybride dans la levure à haut-débit 3 024 protéines spécifiques des métazoaires potentiellement liées à des fonctions multicellulaires
proies
AD-wrmcDNA
AD-ORFeome1.0
paires d’interactants qui activent 2 des 3 gènes rapporteurs testés
clones positifs
retestés pour confirmer l’interaction
IST (Interaction Sequence Tags) pour confirmer l’identité des appâts(et ne pas travailler sur « hors phase ») obtention d’~16 000 ISTs
Analyse : 3 classes de scores de confiance
core 1 : 3X et AD-Y en phase : 858 interactions
core 2 : <3X, retesté et AD-Y en phase : 1 299 interactions
non-core : 1892 interactions
4 2
88
78
Pro
teom
e Y
2H
Y2H : Interactome de C.elegans
Résultats : 4 288 interactions totales Core (core-1 + core-2)
2 157 interactions « fiables »
2 135 interactions uniques
2 783 de AD-wrmcDNA
1 505 de AD-ORFeome1.0
239 en commun
Evaluation de la qualité des données test : co-Affinity purification GST pull-down
Li et al., A map of the interactome network of the metazoan C. elegansScience, 2004
79
Y2H : Interactome de C.elegans
Core-1 : 14 / 17 (82%)Core-2 : 17 / 29 (59%)Core-3 : 8 / 23 (35%)
Pro
teom
e Y
2H
Li et al., A map of the interactome network of the metazoan C. elegansScience, 2004
80
Pro
teom
e Y
2H
Y2H : Interactome de C.elegans
Résultats : 4 288 interactions totales Core (core-1 + core-2)
2 157 interactions « fiables »
2 135 interactions uniques
2 783 de AD-wrmcDNA
1 505 de AD-ORFeome1.0
239 en commun
Evaluation de la qualité des données test : co-Affinity purification GST pull-down
études des interactions chez les orthologues
notion d’interologues
Li et al., A map of the interactome network of the metazoan C. elegansScience, 2004
81
Pro
teom
e Y
2H
Y2H : Interactome de C.elegans
Résultat final : Worm Interactome 5 (WI5)
2 898 noeuds (protéines)5 460 arêtes (interactions)15% du protéome
Couleur des noeuds selon la classephylogénétique - rouge : anciens - jaune : organismes multicellulaires - bleu : spécifiques de C. elegans
Li et al., A map of the interactome network of the metazoan C. elegansScience, 2004
82
Pro
teom
e Y
2H
Y2H : Interactome de C.elegans
Résultat final : Worm Interactome 5 (WI5)
Les 3 groupes semblent interagir de manière similaire suggère que les nouvelles fonctions cellulaires reposentsur une combinaison de nouveaux et d’anciens éléments en accord avec la proposition classique qui voitl'évolution comme un « bricolage » dans lequel lesstructures existantes sont modifiées et complétées pouren créer des nouvelles
Li et al., A map of the interactome network of the metazoan C. elegansScience, 2004
- rouge : orthologue chez la levure - jaune : orthologue chez la mouche,ou arabidopsis ou l’homme mais pas lalevure - bleu : pas d’orthologue
83
Pro
teom
e Y
2H
Y2H : variations
Yeast one-hybrid :Detection of DNA-binding proteins
Causier, Studying the interactome with the yeast two-hybrid system and mass spectrometryMass Spectrom Rev, 2004
Yeast three-hybrid :Detection of complexes
(proteins, RNA, small molecules)
Reverse yeast two-hybrid :Detection of inhibitors of binding
84
Iden
tifi
cati
on
de P
PI Comment identifier les interactions protéine-protéine à
l'échelle du protéome entier?
5 méthodes automatisées
“protein chips”
électrophorèse 2D
double hybride dans la levure (Yeast-two hybrid, Y2H)
TAP-tag (Tandem Affinity Purification)
PCA (Protein-fragment Complementation Assay)
Détection d’IPPs à l’échelle du protéome
85
TAP-Tag
TA
P-T
ag
TAP : Tandem Affinity Purification
Méthode de purification de complexes protéiques par affinité
2 étapes Immunoprécipitation
repose sur une double purification par des colonnes d'affinité
spectrométrie de masse
Avantages maintient du niveau d'expression physiologique de la protéine
conditions natives
applicable de façon systématique
construction de carte d’interactions protéine-protéine à l’échelledu protéome
86Protéine recombinante fusionnée à son marqueur :Le marqueur est constitué de trois éléments fusionnés quivont permettre la double purification :
- un peptide liant la Calmoduline et qui se lie à la protéine d’intérêt (généralement en Cter)
- un site de clivage aux protéases TEV (Tobacco EtchVirus)- la protéine A
Expression de la forme recombinante de la protéine enlui fusionnant le marqueur.Protéine recombinante marquée est introduite dans lacellule hôte de l’organisme l'expression de la protéineest proche de son taux d'expression naturel
TAP-Tag : principes
Cellule
TA
P-T
ag
87Protéine recombinante fusionnée à son marqueur :Le marqueur est constitué de trois éléments fusionnés quivont permettre la double purification :
- un peptide liant la Calmoduline et qui se lie à la protéine d’intérêt (généralement en Cter)
- un site de clivage aux protéases TEV (Tobacco EtchVirus)- la protéine A
Expression de la forme recombinante de la protéine enlui fusionnant le marqueur.Protéine recombinante marquée est introduite dans lacellule hôte de l’organisme l'expression de la protéineest proche de son taux d'expression naturel
TAP-Tag : principes
Cellule
Protéines non-taggéesprésentent dans lacellule
Complexe protéique se formantnaturellement dans la cellule
TA
P-T
ag
88Protéine recombinante fusionnée à son marqueur :Le marqueur est constitué de trois éléments fusionnés quivont permettre la double purification :
- un peptide liant la Calmoduline et qui se lie à la protéine d’intérêt (généralement en Cter)
- un site de clivage aux protéases TEV (Tobacco EtchVirus)- la protéine A
Expression de la forme recombinante de la protéine enlui fusionnant le marqueur.Protéine recombinante marquée est introduite dans lacellule hôte de l’organisme l'expression de la protéineest proche de son taux d'expression naturel
TAP-Tag : principes
Rupture desmembranes
Extrait cellulaire
Étapes de purification
TA
P-T
ag
89
TAP-Tag : principes
Protéine marquée aprèsintroduction dans l’organisme
Protéine recombinantefusionnée à son marqueur
1ère colonne d’affinitéPurification de la protéine et ses partenaires àpartir d'extraits cellulaires par purificationd'affinité sur des billes d'IgG reconnaissant laprotéine A.Le complexe est ensuite libéré en ajoutant laprotéase TEV qui agit au niveau de son site declivage.
2ème colonne d’affinité Repurification par passage sur une colonne debilles de Calmoduline par reconnaissance de lapartie peptidique liant la Calmoduline (CBP) dumarqueur.
TA
P-T
ag
90
TAP-Tag : principes
1ère colonne d’affinité
2ème colonne d’affinité
Le complexe natif est finalement obtenu parélution en conditions non dénaturantes.
Identification des protéinesdu complexe parspectrométrie de masse
http://www.univ-lille1.fr/lea/Menu_du_Site/activites%20du%20laboratoire/projet.htm
TA
P-T
ag
91
TAP-Tag : exemple
TA
P-T
ag
Ho et al., Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometryNature, 2002
Interactome de S. cerevisiae par TAP-tag 725 appâts représentatifs de différentes classes fonctionnelles (100
kinases, 36 phosphatases, 86 protéines impliquées dans le DNADamage Repair, etc.)
92
TA
P-T
ag
Ho et al., Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometryNature, 2002
725 baits
Proteins from 1 558 individualIP resolved from SDS-PAGE A total of 15 683 gel
slices were processed
940 000 MS/MS spectra that matchedsequences in the protein sequence database
3 617 interactions(1 578 proteins)
TAP-Tag : exemple
93
TAP-Tag : exemple
TA
P-T
ag
Ho et al., Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometryNature, 2002
Interactome de S. cerevisiae par TAP-tag 725 appâts représentatifs d’une variété de différentes classes
fonctionnelles (100 kinases, 36 phosphatases, 86 protéinesimpliquées dans le DNA Damage Repair, etc.)
10 % du protéome en tant qu’appâts
30 % de couverture de l’interactome
94
Quelles interactions sont identifiées par le TAP-Tag ? interactions permanentes complexe(interactions transitoires ne sont pas détectées!) faux-positifs 20% (estimation)
TA
P-T
ag
TAP-Tag : principes
Avantages
complexes identifiés en conditions quasi physiologiques(cellules, animaux entiers) variation de la composition des complexes (par exemple, enfonction d'un stimulus, de l'activation d'une voie…)
conformation gènes essentiels très petites protéines protéines non solubles
Problèmes
95
Iden
tifi
cati
on
de P
PI Comment identifier les interactions protéine-protéine à
l'échelle du protéome entier?
5 méthodes automatisées
“protein chips”
électrophorèse 2D
double hybride dans la levure (Yeast-two hybrid, Y2H)
TAP-tag (Tandem Affinity Purification)
PCA (Protein-fragment Complementation Assay)
Détection d’IPPs à l’échelle du protéome96
PCA
PC
A
Mise en évidence d’interactions « biologique » au sein de cellulesintactes
Une protéine (enzyme ou protéine fluorescente) est divisée en 2fragments qui ne peuvent pas fonctionner de manière isolée
= protéine rapportrice
Les protéines d’intérêt sont couplées à ces fragments
SI interactions entre les 2 protéines
les 2 fragments sont assez proches pour se complémenter
restauration de la fonction de la protéine rapportrice(fluorescence ou reconstitution de l’activité enzymatique)
K Tarassov et al. Science 2008;320:1465-1470Published by AAAS
PCA
PC
A
In vivo map of Yeast Protein Interactome 2 770 interactions among 1 124endogeneous expressed proteins 80% d’interactions non-reportées
Modularity andInterconnection in the PINs
98
PCA
PC
A
Avantages
interactions moléculaires visualisées directement (et non autravers d’évènements secondaires comme une activationtranscriptionnelle, cf Y2H)
réalisable dans tous les types cellulaires (cf problèmes relatifs àl’expression des protéines à tester dans la levure etc )
localisation cellulaire peut être choisie (noyau, cytoplasme,reticulum endoplasmique…) grâce à la protéine rapportrice
information sur l’organisation structurale du PINs
Inconvénients
peut manquer de sensibilité si les constantes d’affinité entre lesprotéines sont faibles
99
Bilan100
Comparaison des méthodes
Von Mering et al., Comparative assessment of large scale data sets of protein-protein interactionsNature, 2002
Interactions physiques
Interactionsfonctionnelles
Comparaison des méthodes de détection d’interaction à haut-débit : biais dans le recouvrement des données?
Etude de données relatives au protéome de la levure issues de double hybride dans la levure
TAP-tag
profils d’expression corrélée d’ARNm
méthodes in silico d’analyse du contexte génétique
80 000 interactions +/- “fiables” disponibles 2 400 par plus d’une méthodes
taux élevé de faux-positifs
taux élevé de faux-négatifs
certaines méthodes + spécifiques decertains types d’interactions que d’autres...
101
Von Mering et al., Comparative assessment of large scale data sets of protein-protein interactionsNature, 2002
Etude de la distribution des interactions selon les catégoriesfonctionnelles des interactants
Comparaison des méthodes
Chaque technique présente une distribution unique :
forces/faiblesses spécifiques TAP-tag : peu d’interactions pour protéines impliquées dans le transport, souventenrichies en protéines transmembranaires plus difficiles à purifier
102
Von Mering et al., Comparative assessment of large scale data sets of protein-protein interactionsNature, 2002
Etude de la distribution des interactions selon les catégoriesfonctionnelles des interactants
Comparaison des méthodes
Chaque technique présente une distribution unique :
forces/faiblesses spécifiques
Complémentarité des données
103
Von Mering et al., Comparative assessment of large scale data sets of protein-protein interactionsNature, 2002
Recouvrement et précision des méthodes : comparaison desméthodes avec un “Benchmark” MIPS + YPD (~11 000 int.)
Comparaison des méthodes
Chaque point représente un jeu entierd’interactions et sa position spécifie sonrecouvrement et sa précision / benchmark
En rouge, interactions retrouvées par 2 ou3 méthodes
104
Les 2 approches génétiques (Y2H etlétalité synthétique) sont relativementpeu biaisée / abondance des ARNm
Identification des biais majeurs taux élevé de mRNA
Comparaison des méthodes
Von Mering et al., Comparative assessment of large scale data sets of protein-protein interactionsNature, 2002
105
Identification des biais majeurs taux élevé de mRNA
localisation cellulaire
Comparaison des méthodes
Biais dans la représentation des protéinesmitochondriales pour les méthodes in silico Remarque :
localisation = information sur la qualité
Von Mering et al., Comparative assessment of large scale data sets of protein-protein interactionsNature, 2002
106
Von Mering et al., Comparative assessment of large scale data sets of protein-protein interactionsNature, 2002
~6 200 ORFs dans la levure estimation minimale du nombre d’interactions : 30 000
années 90 : quelques 100aines d’interactions connues
+ de 80 000 interactions potentielles détectéesmais seules 2 400 (3%) confirmées par +sieurs méthodes
non-saturation des méthodes et/ou faux positifs
la plupart des méthodes : > 50% de faux-positifs
aucune méthode ne couvre plus de 60% du jeu d’interactionscontrôle
biais dans les jeux de données (/taux mRNA, /localisation desprotéines, /conservation au cours évolution)
Comparaison des méthodes : bilan
107
Interactome humain
si on exclut les variants d’épissage, sa taille est estimée entre74 000 et 200 000 interactions binaires
(selon M. Vidal, 2009)
actuellement, environ 10 000 interactions de « bonnequalité » ont été mappées
Comparaison des méthodes : bilan
Jeffrey M. Perkel, 2010Protein-Protein Interaction Technologies : Toward a Human Interactomewww.sciencemag.org
108
Après la détection...l’analyse...
- Archivage des interactions- Représentation des réseaux- Evaluation/interprétation
Ap
rès
la d
éte
ctio
n
109
Banques de données d’interactions
De nombreuses banques d’interactions sont disponibles en ligne
Principales différences entre les banques organismes
multi-organismes
spécifiques d’un organisme (levure, drosophile, homme, ...)
types d’interactions
fonctionnelles
physiques
origine/qualité des données
expérimentales
littérature (text-mining)
prédiction
qualité de la « saisie » des données
vérification des données par un expert
automatique
110
http://www.pathguide.org/
Banques de données d’interactions
111
Banques de données d’interactions
Banque Protéine/domaine
Type Adresse
DIP Protéine E,S http://dip.doe-mbi.ucla.edu
BIND Protéine E,C,S www.bind.ca/
MPact/MIPS Protéine E,C,F http://mips.helmholtz-muenchen.de/genre/proj/mpact
STRING Protéine E,P,F http://string.embl.de/
MINT Protéine E,C http://mint.bio.uniroma2.it/mint
IntAct Protéine E,C www.ebi.ac.uk/intact
BioGRID Protéine E,C http://www.thebiogrid.org/
HPRD Protéine E,C http://www.hprd.org/
ModBase Domaine S,H http://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi
iPfam Domaine S http://ipfam.sanger.ac.uk
InterDom Domaine P http://interdom.i2r.a-star.edu.sg/
The International MolecularExchange Consortium
E ExperimentalS Structure detailP Predicted (P=physical, F Functional)C CuratedH Homology modelling
112
Banques de données d’interactions
Ce qu’on y trouve (généralement...) le nom des 2 interactants
la méthode qui a permis de mettre l’interaction en évidence
une référence à l’article qui cite l’interaction / l’expérience menée
parfois : un score de « confiance » que l’on peut accorder àl’interaction
113
http://www.pathguide.org/
Banques de données d’interactions114
Banques de données d’interactions
A savoir... format standardisé PSI-MI (Proteomics Standards Initiative –Molecular Interactions) http://www.psidev.info/index.php?q=node/277
format balisé (type XML)
facilite représentation/échange de données d’interaction
115
Les interactomes actuels sont des sous-ensemblesd’interactions existant entre les protéines d’un organisme
Analyse de réseaux d’interactions
Rése
au
x d
’in
tera
ctio
ns
On peut parler de réseaux d’interactions
116
Représentation des réseaux d’interactions
Rep
rése
nta
tion
L’outil le plus utilisé : cytoscape (www.cytoscape.org) outil de visualisation des réseaux d’interaction
plug-ins d’analyses
ajout régulier de fonctionnalités
inférence de réseaux
intégration de profils d’expression, etc...
open source
117
Le problème de la représentation des résultats de TAP-Tagdans les graphes
Y2H interactions directes TAP-Tag composition des complexes
Qui interagit avec qui? Quelle représentation dans les graphes?
Matrix model Spoke model
ExpériencesTap-TAG
Données dela littérature
Réalité
Analyse de réseaux d’interactions
Rése
au
x d
’in
tera
ctio
ns
118
L'intégration des données pour 'valider' les interactions issues desexpériences à grande échelle
Une interaction a plus de chance d'exister lorsque
l'interaction a été identifiée par des méthodes expérimentalesdifférentes
les protéines contiennent des domaines connus pour interagir
les deux protéines sont localisées dans le même compartimentcellulaire
leur expression est corrélée (corrélation interactome-transcriptome)
leurs annotations fonctionnelles (Gene Ontology) sont corrélées
l'interaction est connue chez un autre organisme (notiond'interologue)
Rése
au
x d
’in
tera
ctio
ns
Analyse de réseaux d’interactions
119
Inférence d’interaction entre plusieurs organismes
difficulté majeure: distinction des orthologues / paralogues
Rése
au
x d
’in
tera
ctio
ns
Notions d’interologues120
Inférence d’interaction entre plusieurs organismes
difficulté majeure: distinction des orthologues / paralogues
Rése
au
x d
’in
tera
ctio
ns
Notions d’interologues
« Toward the mammalian interactome: inference off a coremammalian interaction set in mouse », (Shin et al., 2009)
souris = organisme modèle, mais remarquablement peu de PPIsdisponibles dans les banques de données
inférence des données de PPI humaines
interactome :
all interologs: 13 370 nœuds et 90 242 arêtes
core interologs: 8 295 nœuds et 48 907 arêtes
121
L'intégration des données pour 'valider' les interactions issues desexpériences à grande échelle
Une interaction a plus de chance d'exister lorsque
l'interaction a été identifiée par des méthodes expérimentalesdifférentes
les protéines contiennent des domaines connus pour interagir
les deux protéines sont localisées dans le même compartimentcellulaire
leur expression est corrélée (corrélation interactome-transcriptome)
leurs annotations fonctionnelles (Gene Ontology) sont corrélées
l'interaction est connue chez un autre organisme (notiond'interologue)
BEMOLCes notions sont restrictives…
…et ne laissent pas la place à la nouveauté et à lapossibilité de découvrir de nouveaux phénomènes
Rése
au
x d
’in
tera
ctio
ns
Analyse de réseaux d’interactions122
Des solutions alternatives
les jeux de données
des jeux de données d'interactions mixant des interactionsd'origines différentes: littérature, expériences à petite et à grandeéchelles
multiplicité des jeux de données, de 'stringences' différentes
adaptation des jeux de données à la question biologique posée
(analyse globale jeux de données de haute confiance, analyselocale jeux de données le plus large possible)
analyses structurales complémentaires (p.e. docking (Mosca et al.,
2009)) les méthodes d'analyses
validées statistiquement
résistantes au bruit
la représentation dans les graphes
poids des arêtes
adaptation des méthodes d'analyses
Rése
au
x d
’in
tera
ctio
ns
Analyse de réseaux d’interactions
123
Sommets = protéines Arêtes = interactions physiques
Rése
au
x d
’in
tera
ctio
ns
Des interactions aux informations fonctionnelles
ANALYSER LES RESEAUX D’INTERACTIONS=
APPORTER DE L’INFORMATION SUR LA FONCTIONCELLULAIRE DES GENES/PROTEINES
124
PRINCIPE: …ne pas comparer les protéines elles-mêmes……mais leurs groupes d’interacteurs respectifs…
HYPOTHESE: plus les protéines possèdent d’interacteurs communs,plus elles doivent être fonctionnellement reliées
A B
D
C
Des interactions aux informations fonctionnelles
Rése
au
x d
’in
tera
ctio
ns
125
| X∪Y | + | X∩Y |
| X \ (X∩Y) | + | Y \ (X∩Y) | D(X, Y) =
YX
e c a
fghd b
8 + 3
2 + 3 =
Des interactions aux informations fonctionnelles
Rése
au
x d
’in
tera
ctio
ns Une traduction mathématique possible de cette hypothèse :
la distance de Czekanowski-Dice
126
PRODISTIN : une méthode de classification fonctionnelle desprotéine basée sur le score de distance de Czekanowski-Dice
Principales étapes de la méthodes pré-requis : disposer d’une liste d’interactions entre protéines
calcul de la distance entre les protéines
X Y Z T
X - 0.4 0.5 0.7
Y - 0.6 0.6
Z - 0.8
T -
Tableau de distances
Rése
au
x d
’in
tera
ctio
ns
PRODISTIN : Protein Distance Based on Interactions
Brun et al., Functional classification of proteins for the prediction of cellularfunction from a protein-protein interaction networkGenome Biology, 2003
127
PRODISTIN : une méthode de classification fonctionnelle desprotéine basée sur le score de distance de Czekanowski-Dice
Principales étapes de la méthodes pré-requis : disposer d’une liste d’interactions entre protéines
calcul de la distance entre les protéines
construction d’un arbre de classification à partir des distances
identification de classes fonctionnelles de protéines d’après
les annotations fonctionnelles des protéines
la topologie des sous-arbresXYZT
X Y Z T
X - 0.4 0.5 0.7
Y - 0.6 0.6
Z - 0.8
T -
Tableau de distances
XYZT
Rése
au
x d
’in
tera
ctio
ns
PRODISTIN : Protein Distance Based on Interactions128
Arbre prodistin de protéines de levure
Quelle est la signification biologique duregroupement des protéines dans l’arbre ?
2139 protéines2946 interactions
Rése
au
x d
’in
tera
ctio
ns
PRODISTIN : exemple
129
Utilisation des annotations fonctionnelles pour identifier desclasses dans un arbre
une classe contient au moins 3 protéines partageant la mêmeannotation fonctionnelle
ces protéines représentent au moins 50% de la classe
Cycle cellulaire
Cycle cellulaire
Cycle cellulaireRése
au
x d
’in
tera
ctio
ns
PRODISTIN : exemple130
- 67% desprotéines del’arbre classées- 64 classes- 3-36 protéines- 30/44 fonctionscellulaires
Arbre declassification
fonctionnelle de602 protéines delevure selon la
fonction cellulaire
Rése
au
x d
’in
tera
ctio
ns
PRODISTIN : exemple
131
PRODISTIN est une méthode de classification fonctionnelle desprotéines à partir du réseau d’interactions protéine-protéine,validée statistiquement
extrait de l’information fonctionnelle à partir d’un réseau complexe endonnant une vision intégrée des fonctions
regroupe les protéines impliquées dans les mêmes fonctionscellulaires
prédiction de fonction cellulaire pour les protéines de fonctioninconnue (67% de taux de succès)
un nouvel outil complémentaire à l’analyse de séquence pour laprédiction de fonction, permettant une nouvelle approche de lafonction des gènes/protéines au niveau cellulaire
Prodistin Web Server: http://gin.univ-mrs.fr/webdistin
PRODISTIN : conclusions
Rése
au
x d
’in
tera
ctio
ns
Inte
rpré
tati
on
Décrire les caractéristiques de l’organisation de l’interactome
statistique, approche descriptive connectivité
Connectivité dans un graphique : le nombre de voisins
Graphique non-orienté
Graphique orienté
k = 4
kin = 1kout = 3
Que faire avec cette masse de données ??132
Inte
rpré
tati
on
Distribution de connectivité
Connectivité
1 2 3 4 5 6 7 8 9 10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
1
10
100
1000
levure S. cerevisae
connectivité k
nom
bre
de g
ènes
beaucoup de protéinesfaiblement connectées
quelques protéinesfortement connectées = « hub »
133
Inte
rpré
tati
on
Distribution de connectivité
particularité des protéines ayant un grand nombre d’interacteurs
protéines structurantes
ex : PBS2 chez S. cerevisae, k=15 protéine structurante(« échaffaudage ») pour le complexe MAP-kinase
protéines létales
ex : Jeong et al. ont montré une corrélation entre la connectivitéd'une protéine et son caractère létal chez la levure« plus une protéine a de partenaires, plus elle est essentielle »
Connectivité134
Inte
rpré
tati
on
Décrire les caractéristiques de l’organisation de l’interactome
statistique, approche descriptive connectivité
longueur / diamètre
Chemin entre les noeuds
Que faire avec cette masse de données ??
A B C D E F G
A 0 3 4 1 2 3 3
B 0 1 2 1 2 2
C 0 3 2 3 1
D 0 1 2 2
E 0 1 1
F 0 1
chemin moyen: 1.95
G
D
B
F
A
E
C
135
Que faire avec cette masse de données ??
Inte
rpré
tati
on
Décrire les caractéristiques de l’organisation de l’interactome
statistique, approche descriptive connectivité
longueur / diamètre
modules
Certaines zones semblent plus denses que d’autres
comment
- les identifier précisément?
- les interpréter?
136
Inte
rpré
tati
on
Qu’est-ce qu’une zone dense?
plutôt pas dense... ...plutôt dense !
d=6/21=0.28 d=14/21=0.67
Définition rigoureuse le nombre maximal de connections entre N Protéines est 2N(N-1)
on définit la densité comme
d = Nombre de connectionsNombre maximal de connections
Modules137
Autre notion de densité
6 voisins...
...qui ne se « parlent » pas! ...qui « communiquent »!
r = 0r = 0.6
On définit un coefficient r qui mesure la densité de connectionsentres les voisins d’une protéine
densité locale définie pour chaque protéineInte
rpré
tati
on
Modules138
Si des protéines ont une grande densité de connection...
... c’est qu’elles forment un module fonctionnel
Modules
Inte
rpré
tati
on
On distingue 2 types de modules fonctionnels les complexes protéiques (interactions simultanées)
les voies de signalisation/voies métaboliques (interactionsconsécutives)
Spirin & Mirny, PNAS 2003
levureVoie de transduction du signaldéclenchée par la phéromone
Module impliqué dans larégulation du cycle cellulaire
139
Que faire avec cette masse de données ??
Inte
rpré
tati
on
Décrire les caractéristiques de l’organisation de l’interactome
statistique, approche descriptive connectivité
longueur / diamètre
modules
Prédire des « règles » à partir de l’observation de l’interactome
inférence, approche prédictive
140
Le réseau d’interaction protéine-protéine est une vue statique del’interactome
toutes ces interactions n’ont pas forcément lieu de manièresimultanée
information dynamique : données d’expression issues des puces
Remarque importante
Inte
rpré
tati
on
expre
ssio
n
des
gènes
temps
on off on
141
Le réseau d’interaction protéine-protéine est une vue statique del’interactome
toutes ces interactions n’ont pas forcément lieu de manièresimultanée
information dynamique : données d’expression issues des puces
Interprétation différentes des hubs
Remarque importante
Inte
rpré
tati
on
phase M ducycle cellulaire
phase S ducycle cellulaire
1ère possibilité :interactions simultaneés(party hubs)
2ème possibilité :interactions successives(date hubs)
Han et al.,Evidence for dynamically organized modularity in the yeast protein-protein interaction network Nature 2004
142
143
Bilan
Détection d’IPPs
approches indirectes : interactions fonctionnelles
approches directes : interactions physiques
méthodes applicables à haut-débit
“protein chips”
électrophorèse bi-dimensionnelle
double hybride dans la levure
TAP-Tag
problèmes
faux-positifs : interactions physiologiques non détectées
faux-négatifs : interactions non physiologiques détectées
reproductibilité des expériences
Analyse d’interactomes
foultitude de banques…
évaluation/interprétation des données expérimentales
croisement avec données issues d’autres expériencesà haut-débit / in silico
Bilan