2 interactomique : interactions protéine- protéinelecompte/cours/coursinteractomic10.pdf ·...

Anne [email protected]

Laboratoire de Génétique Moléculaire, Génomique, Microbiologie

Interactomique :

Interactions protéine-protéine

Christine Brun, LGPD, MarseilleKathryn Crist, Montana State UniversityCarl Herrmann, IDBM, MarseilleOlivier Poch, IGBMC, Illkirch

Fortement inspiré deprésentations/cours de :

2

Plan du cours : Interactome

Introduction générale : contexte post-génomique

Diversité des interactions protéine-protéine (IPPs)

Méthodes de détection d’IPPs

Approches indirectes

Approches directes

Détection d’IPPs à l’échelle du protéome

“protein chips”

électrophorèse 2D

double hybride dans la levure

TAP-Tag

Analyse des interactomes

Archivage des interactions : les banques de données

Représentation des réseaux d’interaction

Evaluation/interprétation des données expérimentales

Pla

n

3

Evolution de la notion de fonction des protéines

Vue traditionnelle Vue actuelle

Eisenberg et al., Protein function in the post-genomic areaNature, 2000

Intr

od

uct

ion

fonction « locale »ou moléculaire

fonction « contextuelle »ou cellulaire

4

Ce qu’il faut savoir….

Intr

od

uct

ion

de nombreux génomescomplets sont disponibles

connaître les gènesn’est pas suffisant pourcomprendre les fonctionsbiologiques

ce sont les protéines etnon les gènes qui sontresponsables de laplupart des activitéscellulaires

les protéinesfonctionnent eninteragissant avecd’autres protéines etbiomolécules

5

Suffixes “–omes”

Intr

od

uct

ion

« blablabla-OME » signifie : « le set entier de blablabla »

Génome : le set de tous les gènes d’un organisme – l’ensemble du matériel

génétique d'un individu

Protéome : le set de toutes les protéines dans une cellule d’un organisme

Interactome : le set de toutes les interactions au sein d’une cellule dans un

organisme (protéine-protéine, protéine-ADN, protéine-ARN, ARN-ADN...)

Génome Protéome Interactome

6

A propos des “–omics”…

Vidal & Furlong, “From OMICS to systems biology”

7

Interactome

Intr

od

uct

ion

Une protéine n’agit jamais seule, mais interagit avec d’autres macromolécules

pour assurer sa (ou ses) fonction(s)

“all interactions… in an organism between allproteins, in all cells, all tissues, at all ages,… to all possible environmental conditions…”

La définition d’un interactome...

Marc VidalDana Farber Cancer InstituteBoston, USA

Au niveau d’un organisme:Génome : entité (+/-) stableInteractome: dynamique et variable d’une cellule à l’autre,d’une condition à l’autre etc. (en perpétuel mouvement…)

8

Complexité de l’information

Intr

od

uct

ion

Le nombre de gènes d’un génome n’est pas êtreproportionnel à la complexité de l’organisme en question E.coli ~ 4 200 gènes

S.cerevisiae ~ 6 400 gènes

H.sapiens ~ 25 000 gènes

O. sativa ~ 40 000 gènes

La complexité d’un organisme est un résultat de lacomplexité de son « interactome »

(ou PINs pour Protein-protein Interaction Networks)

9

Complexité de l’information

Intr

od

uct

ion

10

Div

ers

ité d

es

IPP

s

Diversité des InteractionsProtéine/Protéine

(IPPs)

11

Diversité des IPPs

2 grands types d’interactions entre 2 protéines interactions fonctionnelles

2 protéines impliquées dans un même processus, une mêmevoie de communication, etc. sans qu’il y ait forcément interactiondirecte entre elles

interactions physiques

Div

ers

ité d

es

IPP

s

12

Diversité des IPPs d'après Nooren & Thornton

l’interaction a lieu entre homo- ou hétéro-oligomères

chaînes identiques chaînes différentes

Diversité structurale

l’association est isologue ou hétérologue surfaces de contact identiques (homo-oligomères) surfaces de contact différentes (homo-/hétéro-oligomères)

Div

ers

ité d

es

IPP

s

13

IPPs obligatoires les protéines ne sont pas stables indépendamment les protéines ne sont pas fonctionnelles indépendamment l’interaction est nécessaire à la stabilité et à la fonction ex : gros complexes protéiques (ADN polymérase, ARNpolymérase, ribosome, etc.)

IPPs non-obligatoires les protéines sont stables indépendamment les protéines sont fonctionnelles indépendamment l’interaction est responsable d’une action ex : complexes antigène-anticorps, enzyme-inhibiteur,complexes de signalisation intracellulaire, etc.

Diversité fonctionnelle


Div

ers

ité d

es

IPP

s

14

IPPs permanentes les protéines n’existent qu’au sein d’un complexe les IPPs obligatoires sont généralement permanentes

IPPs transitoires les protéines s’associent et se dissocient in vivo les IPPs non-obligatoires peuvent être transitoires oupermanentes

Diversité dynamique


Div

ers

ité d

es

IPP

s

15

Déte

ctio

n d

es

IPP

s

Méthodes de détectiond’IPPs

2 grands types- Approches indirectes- Approches directes

16

Interactions par approches indirectes

Génome

Génome/Protéome

Protéome

Génétique

Transcriptome

Position des gènes (co-localisation de gènes) Overbeek et al., PNAS 1999

Dandekar et al., Trends in Biochem. Sci, 1998

Profils phylogénétiques Pellegrini et al., PNAS 1999

Fusion de domaines (Rosetta stone) Enrigth et al., Nature 1999

Marcotte et al., Science 1999

Profils d’expression Eisen et al., PNAS 1998

Létalité synthétique Tong et al., Methods Mol.biol. 2001

Co-évolution de séquences Goh et al., J Mol Biol 2000

Déte

ctio

n d

es

IPP

sGénome/Protéome

17

Position des gènes

Corrélation entre gènes voisins pour l’inférence de liensfonctionnels

constat : la synténie (conservation de l’ordre des gènes) est trèsfaible entre génomes éloignés

2 gènes (bleu et jaune) sont voisins dans plusieurs génomes

un lien fonctionnel peut être inféré entre les protéines pourlesquelles ces gènes codent


Déte

ctio

n d

es

IPP

s

18

Corrélation entre gènes voisins pour l’inférence de liensfonctionnels

méthode robuste pour les génomes procaryotes

a permis la mise en évidence d’un lien fonctionnel entre 8 enzymesimpliquées dans la voie de biosynthèse de l’arginine chezMycobacterium tuberculosis

peut aussi être appliquée aux gènes humains dans le cas degènes situés dans des structures de type “opéron-like”

Position des gènes

Déte

ctio

n d

es

IPP

s

19

Les protéines qui interagissent tendent à être co-présentes /co-absentes dans les génomes connus

Profils phylogénétiques

Déte

ctio

n d

es

IPP

s Eisenberg et al., Protein function in the post-genomic areaNature, 2000

20

Profils phylogénétiques : exemple

Déte

ctio

n d

es

IPP

s

Etude des ARPs (Actin Related Proteins) : rôle clef dans lesactivités du cytosquelette

groupes de protéines similaires à l’actine, divisés en 11 familles

ARPs cytoplasmiques (ARP1-2-3-10-11) : contrôle spatio-temporelde l’assemblage de l’actine, mouvement

ARPs nucléaires (ARP4-5-6-7-8-9) : remodelage de la chromatine,régulation de la transcription, réparation de l’ADN

Muller et al., Sequence and comparative genomic analysis of actin-related proteinsMol Biol Cell, 2005

21

Profils phylogénétiques : exemple

Déte

ctio

n d

es

IPP

s

19 génomescomplets

actin polymerizationcomplex

INO080 chromatin remodeling complex

SWI/SNF chromatin remodeling complex

dynactin complex

Déte

ctio

n d

es

IPP

s

Muller et al., Sequence and comparative genomic analysis of actin-related proteinsMol Biol Cell, 2005

ARPs 10 et 11 =une seule famille

22

« Rosetta Stone »

Basé sur la comparaison des protéomes de 2 organismes

les gènes impliqués dans un même complexe ou une mêmevoie métabolique peuvent fusionner au cours de l’évolution

Si une protéine constituée de 2 domaines fusionnés dansl’organisme A est représentée par 2 protéines différentes dansl’organisme B

ces 2 protéines interagissent dans l’organisme B

Déte

ctio

n d

es

IPP

s

23

« Rosetta Stone »


Déte

ctio

n d

es

IPP

s

Exemples : S. cerevisiae : Pur2 et Pur3 = enzymes intervenant dans labiosynthèse de la purine. Chez C. elegans : Ade5,7,8.

S. cerevisiae : TrG et TrpF = enzymes intervenant dans labiosynthèse du tryptophane. Chez E. coli : TrpC

24

Avantages entièrement in silico (coût réduit)

la puissance de ces méthodes continue d’augmenter avec lenombre de génomes séquencés

Inconvénients pas toutes applicables à tous les organismes restriction aux génomes procaryotes pour la méthode de la“position des gènes”

les difficultés à identifier les “vrais” orthologues

la répétition de certains motifs dans de nombreuses protéines (ex

zinc finger) pour « Rosetta stone »

le lien entre les protéines n’est pas forcément direct mise en évidence d’interactions fonctionnelles, mais pasforcément d’interactions physiques

Ces 3 méthodes peuvent être combinées pour augmenter la“confiance” dans le résultat

Déte

ctio

n d

es

IPP

s

Bilan pour ces 3 méthodes

25

Profils d’expression

Déte

ctio

n d

es

IPP

s

Expression corrélée des ARNm DNA microarray: analyse simultanée du niveau d’expression desARNm pour l’ensemble des gènes d’un organisme

hypothèse : si 2 gènes sont toujours sur/sous exprimés de manièrecoordonnée, les produits de leurs expressions sont fonctionnellementliés

Avantages :

in vivo

couverture très large (tous les gènes, tous les temps)

Inconvénients :

le niveau des protéines et de l’ARNm peut ne pas être corrélé

permet de mettre en évidence des interactions fonctionnelles, maispas forcément physiques

la difficulté de l’analyse et interprétation des données

26

Profils d’expression

Déte

ctio

n d

es

IPP

s

Expression corrélée des ARNm plusieurs laboratoires ont générés des profils d’expression mesurésdans un grand nombre de conditions (réponse au stress, cyclecellulaire, …) dans plusieurs organismes modèles

étude de 3 182 DNA microarrays (H. sapiens, D. melanogaster,C. elegans, S. cerevisiae)

mise en évidence de 22 163 relations de “co-expression conservée”au cours de l’évolution

conservation de la co-expression de paires de gènes confère unavantage sélectif

gènes fonctionnellement liés

Stuart et al., A gene coexpression network for global discovery of conserved genetic modulesScience, 2003

Mise en évidence de l’implication de nouveaux gènes dansdes fonctions biologiques centrales (cycle cellulaire, sécrétion etc.)

27

Létalité synthétique

Déte

ctio

n d

es

IPP

s

Létalité synthétique : reflète une interaction génétique la combinaison de mutations entre 2 (ou plusieurs) gènes nonessentiels conduit à la mort cellulaire

Boone et al.,Exploring genetic interactions and network with yeastNature reviews, 2007

a | Souche MATα : mutation + marqueur de sélectiondominant. Croisement de cette souche avec une soucheMATa délétée (xxxΔ).

Dans chacune de ces souches délétères, un gène estinterrompu par l’insertion d’un marqueur de sélectiondominant (ex module de résistance à la kanamycine)

b | Sporulation du diploïde hétérozygote, formation despores haploïdes.

c | Les spores sont transférés sur un milieu synthétiquepermettant la germination spécifique des MATa

d | Les cellules haploïdes issues de la méiose sonttransférées sur un milieu contenant de la kanamycine, quipermet la sélection des “single” mutants type MATa etdouble mutants.

e,f | Les doubles mutants sont sélectionnés sur un milieucontenant kanamycine et nourseothricine.

28

Létalité synthétique

Déte

ctio

n d

es

IPP

s La létalité synthétique

Etude Tong et al. : 80% des gènes chez S. cerevisiae sont non-essentiels

croisement de 8 souches mutantes délétées pour un gène avec dessouches mutantes délétées pour chacun des gènes non-essentiels(~4 700)

mise en évidence de 291 interactions par létalité synthétiqueimpliquant 204 gènes différents

avantages :

in vivo

couverture très large peut être genome-wide

peut être testée sous diverses conditions

inconvénients :

fonctionne uniquement avec les gènes non-essentiels

la relation entre les gènes peut ne pas être directe

spécifique de la levure

Tong et al., Systematic Genetic Analysis with Ordered Arrays of YeastScience, 2001

Remarque : Peut à présent être réalisé sur une puce (Tong & Boone, 2006)

29

Co-évolution des séquences

Evolution simultanée de 2 “partenaires”, par application d’unepression de sélection réciproque

Beaucoup étudié dans le cadre de relation hôte / parasite

co-évolution d’organismes

Applicable à 2 protéines interagissantes (physiquement) tout changement divergent au niveau de la surface d’interactiond’un des partenaires doit être compensé par un changement sur lasurface d’interaction de l’autre partenaire

mutations compensatoires

étude comparative de phylogénies

Déte

ctio

n d

es

IPP

s

30

Méthodes de détectiond’IPPs

2 grands types- Approches indirectes- Approches directes

Déte

ctio

n d

es

IPP

s

31

Méthodes de détection d’interactions physiques

Méthodes

X-ray crytallography

Yeast two-hybrid

Affinity purification –mass spectrometry

Protein chips

2D electrophoresis

Protein-fragmentComplementation

assays

Phage display

Fluorescenceresonance energytransfer (FRET)

Surface plasmonresonance

Atomic forcemicroscopy

Living cellassay

In vitro

In vivo

In vitro

In vitro

In vivo

In vivo

In vitro

In vivo

In vitro

In vitro

Type ofinteractions

Physical(complex)

Physical(binary)

Physical(complex)

Physical(complex)

Physical(complex)

Physical(binary)

Physical(complex)

Physical(binary)

Physical(complex)

Physical(binary)

Type ofcharacterization

Structural andbiological

identification

identification

identification

identification

Identification

identification

biological

Kinetics, dynamics

Kinetics, dynamics

Déte

ctio

n d

es

IPP

s

32


Déte

ctio

n d

es

IPP

s

Structure 3D de complexes protéiques (rayon X) “vue” la plus précise de l’interaction! Les surfaces/résidus impliquésdans l’interaction sont clairement identifiables etc.

MAIS: difficultés de l’obtention des cristaux etc.

Dans la PDB (décembre 2010) : ~69 650 structures déposées,dont ~2 950 complexes

cf vos cours…

33


Déte

ctio

n d

es

IPP

s

Structure 3D de complexes protéiques (rayon X)

Phage display « présentation de peptides » à la surface de phages filamenteux :fusion des protéines d’intérêt en Nter des protéines pIII ou pVIII

sélection des phages recombinants selon leur capacité de liaison àune cible

permet le criblage rapide d’une grande quantité de clones

(Sidhu et al., 2003)(M/S, 14, 300-309, 1998)

Sélection in vitro d’interactants avec phage display

Les polypeptides sont “présentés” à la surface desphages.La libairie est incubée avec des cibles immobiliséespour la sélection de protéines interagissantes (lesphages non-interagissants sont éliminés au cours delavage).

Les phages liants sont élués et amplifiés dans E.coli.

Les phages amplifiés peuvent subir des roundssupplémentaires de sélection ou séquençace despolypeptides interagissants.

34


Déte

ctio

n d

es

IPP

s


Phage display

FRET : Fluorescence Resonance Energy Transfer définition : processus non radiatif par lequel de l’énergie d’unfluorophore donneur à l’état excité est transmis à un fluorophoreaccepteur à proximité immédiate (distance < 10 nm)

excitation du donneur diminution de l’intensité de fluorescence dudonneur et augmentation de l’intensité de fluoresence de l’accepteur

(Bastiaens and Pepperkok, 2000)

35


Déte

ctio

n d

es

IPP

s


Phage display

FRET : Fluorescence Resonance Energy Transfer

Résonance plasmonique de surface caractérisation de différents paramètres cinétiques ou à l'équilibre del'interaction (constantes d’affinités et cinétiques) + détection et dosagede molécules interagissant entre elles

Utilisation d’une onde évanescente de surface pour analyserles interactions entre des molécules immobilisées sur unesurface et des molécules passant sur cette surface.

Lorsqu'il y a une interaction entre les molécules greffées etcelles en solution, l'indice de réfraction à cet endroit estlégèrement modifié.

Cette information est récupéréesur une caméra CCD (ChargeCoupled Device),

filme en direct des phénomènesintermoléculaires se passant à lasurface de la biopuce

36


Déte

ctio

n d

es

IPP

s


Phage display

FRET : Fluorescence Resonance Energy Transfer

Résonance plasmonique de surface

Microscopie à force atomique techniques d’analyse de la surface basées sur l'interaction à trèscourte portée entre une pointe et l’échantillon technique qui consisteà venir « palper » les macromolécules par un micro-levier vibrant enphase liquide (mesure de l’interaction mécanique)

permet le suivi en temps réel de modifications structurales induitespar les interactions entre 2 protéines

37

Méthodes de détection d’interactions

Adapté de Panchenko & Shoemaker. 2006. ISMB Tutorial.

Méthodes Type ofinteractions


Living cellassay

HTPapproach

X-raycrytallography

Physical(complex)


In vitro -

Yeast two-hybridPhysical(binary)

identification In vivo +


Physical(complex)

identification In vitro +

Protein chipsPhysical

(complex)identification In vitro +

2D electrophoresisPhysical

(complex)identification In vivo +

Protein-fragmentComplementation assay

Physical(binary)


Phage displayPhysical


Fluorescence resonanceenergy transfer (FRET)

Physical(binary) biological In vivo -


Physical(complex)

Kinetics, dynamics In vitro -


Physical(binary)


Déte

ctio

n d

es

IPP

s

38

Méthodes de détection d’interactions

Adapté de Panchenko & Shoemaker. 2006. ISMB Tutorial.

Méthodes Type ofinteractions


Living cellassay

HTPapproach

X-raycrytallography

Physical(complex)


In vitro -

Yeast two-hybridPhysical(binary)



Physical(complex)

identification In vitro +

Protein chipsPhysical


2D electrophoresisPhysical

(complex)identification In vivo +

Protein-fragmentComplementation assay

Physical(binary)


Phage displayPhysical


Fluorescence resonanceenergy transfer (FRET)

Physical(binary) biological In vivo -


Physical(complex)



Physical(binary)


Déte

ctio

n d

es

IPP

s

39

Comment identifier les interactions protéine-protéine à l'échelle du protéome entier?

5 méthodes automatisées

“protein chips”

électrophorèse 2D

double hybride dans la levure (Yeast-two hybrid, Y2H)

TAP-tag (Tandem Affinity Purification)

PCA (Protein-fragment Complementation Assay)


Déte

ctio

n d

es

IPP

s

40

Pro

tein

ch

ip

Protein chip

Basé sur la technologie des “microarray” incontournable en biologie à grande échelle et haut-débit

permet une détection aisée et rapide de milliers de signaux enparallèle

cf vos cours de transcriptomique

“Protein microarray” grilles qui contiennent de petites quantités de protéines

purifiées, en forte densité

2 types

protein microarray analytique : puce antigène-anticorps

protein microarray fonctionnelle : protein chip

41

Pro

tein

ch

ip

Protein chip

Zhu and Snider, Protein chip technologyCurr Op Chem Biol, 2003

42

Pro

tein

ch

ip

Protein chip

Elles peuvent être criblées pour mettre en évidence des

activités biochimiques

interactions protéine/protéine

interactions protéine/ADN ou protéine/ARN

interactions protéine/ligand

43

Zhu and Snider, Protein chip technologyCurr Op Chem Biol, 2003

Pro

tein

ch

ip

Protein chip44

Pro

tein

ch

ip

Exemple de Protein chip

Zhu et al., Analysis of yeast protein kinases using protein chipNature, 2000

Développement d’une Protein chip pour tester les activitésbiochimiques de l’ensemble des kinases de levures

Surexpression des protéines kinases

« Using the recombination strategy, 119 yeastprotein kinases were cloned in a high-copy URA3expression vector (pEG(KG)) that produces GSTfusion proteins under the control of thegalactoseinducible GAL1 promoter9. GST:kinaseconstructs were rescued into E. coli, and sequencesat the 5´ of each construct were determined. »

Fabrication de la Protein chip

PDMS (poly(dimethylsiloxane)) was pouredover the acrylic mold. After curing, the chipcontaining the wells was peeled away andmounted on a glass slide. The next stepincluded modification of the surface and thenattachment (covalent) of proteins to thewells. (…) For 12 substrates each kinaseassay was repeated at least twice; for theremaining 5 the assays were performed once.

45

Test des activités kinases in vitro avec 17 substrats différents

signaux de phosphorylation récupérés et quantifiés à l’aide d’unphosphoimager à haute résolution

“certaines protéines représentent des substrats préférentiels decertaines kinases et, inversement, de nombreuses kinasesprésentent une meilleure affinité vis à vis de certains substrats ”

Exemple de Protein chip

Problèmes de contaminations?

Interaction in vitro ne signifie pas in vivo! tests supplémentaires

Cette étude a néanmoins révélée que certaines protéines sontcapables de servir de substrat pour des kinases spécifiques,permettant de poser de nouvelles hypothèses…

Zhu et al., Analysis of yeast protein kinases using protein chipNature, 2000

Pro

tein

ch

ip

46

Pro

tein

ch

ip

Analyse d’interactions par Protein chip

Service, Protein Chips Map Yeast Kinase NetworkScience, 2005

Depuis… 160 interactions spécifiques des kinases de levure et leurs

cibles ont été identifiées précédemment

une étude a permis d’en mettre en évidence plus de 4 000supplémentaires

ces résultats ont révélé 4 192 interactions entre les kinases delevure et 1 300 protéines cibles

4 088 des 6 000 protéines de levure sont disponiblescommercialement par invitrogen

1ere high-density functional protein microarray

47

Pro

tein

ch

ip

Protein chip

Avantages

très bon ratio signal/bruit (10X meilleur qu’une plaque demicrotitration)

petite quantité de matériel nécessaire (1/20ème de ce qui estnécessaire pour une plaque de 384 puits)

les tests sont extrèmement sensibles : même les protéines nondétectables en immunoblot peuvent être testées

peu cher

largement applicable

Problèmes rencontrés

les protéines sont plus difficiles à préparer au format “microarray”que l’ADN

la fonction d’une protéine dépend de son état

modifications post-traductionnelles

partenariat avec d’autres protéines

localisation sub-cellulaire

etc.

48


Pro

tein

ch

ip

Zhu et al., Global analysis of protein activities using proteome chipsScience, 2001

La même équipe, quelques mois plus tard…

microarray du protéome de la levure

5 800 ORFs de levure clonées et sur-exprimées

purification des protéines correspondantes

fixation sur le support à haute densité spatiale

identification de nouvelles protéines interagissant avec lacalmoduline et certains phospholipides

Criblage sur capacité à interagir aveccertaines protéines et phospholipides

49


Pro

tein

ch

ip

Calmoduline = calcium-binding protein 6/12 cibles calmoduline connues ont été trouvées (Cmk1,

Cmk2, Cmp2, Dst1, Myo4, Arc35)

6/12 cibles calmodulin connues n’ont pas été trouvées (2 noncontenues dans les 5800 ORFs, 4 non produits en tant quefusion GST)

33 nouvelles cibles potentielles retrouvées

étude de similarité de séquences: 14/39 protéines liant lacalmodulin contiennent un motif

Motif de liaison à la calmoduline?

50

Comment identifier les interactions protéine-protéine à l'échelle du protéome entier?


“protein chips”

électrophorèse 2D





Déte

ctio

n d

es

IPP

s

51

Electrophorèse 2D

électrophorese bi-dimensionnelle en gels bleu natif et SDS(ou BN/SDS PAGE, pour “Blue Native/SDS PolyAcrylamide GelElectrophoresis")

repose sur la double séparation des protéines selon leur pI par focalisation isoélectrique (1ère dimension)

selon leur poids moléculaire (2ème dimension, perpendiculaireà la 1ère)

(Schägger et al., 1996, Camacho-Carvajal et al., 2004)

Etapes un mélange de cellules est lysé en conditions natives

(A) séparation par électrophorèse en conditions non dénaturantes (bleunatif): les complexes protéiques et les protéines seules se séparent enfonction de leurs charges

(B) 1er gel placé en entrée du 2ème; séparation en conditiondénaturantes (SDS PAGE) : chacune des protéines de chacun descomplexes migre selon son poids moléculaire

identification des protéines par spectrométrie de masse

52

Electrophorèse 2D

53

Electrophorèse 2D

(A) Electrophorèse bidimensionnelle

(B) Spectromètrie de masse:Les peptides sont ionisés par un laser,

puis accélérés dans une colonnejusqu’à un détecteur.

Le temps de trajet de chaque peptidedépend du rapport entre sa masse etsa charge.

Les résultats sont confrontés à unebanque de données qui contienttoutes les masses théoriques de tousles peptides de toutes les protéines.

54

Electrophorèse 2D

Avantages séparation de complexes protéiques à partir d’extraits

cellulaires obtenus en conditions naturelles

ne nécéssite pas de modification de séquences ADN / decellules hôtes

permet de tester différentes conditions/tissus etc.

permet de déconvoluer un mélange de plusieurs 100aines deformes polypeptidiques

analyse quantitative des variations de l’expression protéique

Inconvénients la phase d’obtention des extraits cellulaires est délicate

peut casser les interactions de faible intensité

peut provoquer des interactions non physiologiques

protéines doivent être solubles et en quantité “suffisamment”abondante

(Schägger et al., 1996, Camacho-Carvajal et al., 2004)

55

Iden

tifi

cati

on

de P

PI Comment identifier les interactions protéine-protéine à

l'échelle du protéome entier?


“protein chips”

électrophorèse 2D




Détection d’IPPs à l’échelle du protéome56

DF

DA

Gène

Facteur de transcription:

Domaine de fixation à l'ADN (DF) +

Domaine d'activation de la transcription (DA), capable d'activer lamachinerie basale de transcription(utilisation courante du système GAL4)

Site de fixation pour lefacteur de transcription

Facteur de transcription ARN messager

ARN messager

ARN messagerARN messager

ARN messager

ARN messager

ARN messagerARN messagerDF

DA

Y2

H

Double hybride dans la levure

Principe basé sur la modularité des facteurs de transcription

57

DFAppât X

DAProie Y

Gène rapporteur

La protéine appât X (dont on veut identifier les interacteurs) estfusionnée au domaine de fixation à l'ADN DF d'un facteur detranscription

Les protéines proies Y (interacteurs potentiels) sont fusionnées audomaine d'activation de la machinerie basale de transcription DA d'unfacteur de transcription

Les protéines fusions sont exprimées dans des cellules de levurecontenant un gène rapporteur dont l'expression est placée sous lecontrôle du site de fixation pour le domaine de fixation à l'ADN DF

Y2

H

Double hybride dans la levure58

Lorsque la protéine proie Y est capable d'interagir avec la protéineappât X, le domaine d'activation se retrouve à proximité dupromoteur du gène rapporteur et la transcription a lieu

DFAppât X

DAProie Y

Gène rapporteur

ARN rapporteurARN rapporteur


ARN rapporteur

ARN rapporteur


DAProie Y


Y2

H

A savoir : en pratique, plusieurs gènes rapporteurs (souvent 3) sonttestés en parallèle pour augmenter la fiabilité des résultats

59

Quelles sont les interactions identifiées ? interactions permanentes

interactions transitoires dont les interactions enzyme-substrat(ex: 10 à 40 % des interactions kinase-substrat)

interactions qui n'existent pas physiologiquement

Faux-positifs

taux de faux positifs estimés à 40-70%

DFAppât X

Gène rapporteur



ARN rapporteur

ARN rapporteur


L'appât auto-activateur(activation de la transcription en absence

d'interacteur)

DFAppât X

DAProie Y

DFAppât A

DFAppât B

DFAppât C

La proie collante(interagit avec un très grand nombre

d'appâts)


Y2

H

60

Quelles interactions ne sont pas identifiées? interactions impliquant des protéines présentant des problèmes :

structuraux

de stabilité

de toxicité

de mauvaise localisation (protéines membranaires)

de modifications post-traductionnelles

On estime que 70 à 90 % des interactions sensées exister ne sontpas détectées

Faux-négatifs


évolution des méthodes de double-hybrides pour palier à cesproblèmes exemple : permutation des protéines de fusion (Stellbergeret al., 2010 )

Y2

H

61

Différentes approches pour le Y2H

Pro

teom

e Y

2H

A: Matrix approach. In the Uetz et al.(2000) screen 192 bait strains (bait1–bait 192) were individually matedagainst arrays of yeast strains thatrepresent approximately 6,000 preyproteins.

Causier, Studying the interactome with the yeast two-hybrid system and mass spectrometryMass Spectrom Rev, 2004

62

Pro

teom

e Y

2H


63

LSM8 is a yeast protein involved in splicing.

LSM8 against 6 000 preys. Positives from two independent screens are shown in redand green.

Common positives in both screens are labelled in yellow with gene names attached.

Note that the two screens generated 70 positives of which only 12 were reproducible.

All non-reproducible positives are considered as false positives.

Pro

teom

e Y

2H

Uetz, Two-hybrid arrayCur Opin Chem Biol, 2002

Among the 12 positives, 9 are known to beinvolved in RNA processing or RNA binding.

Another two, RPS28A and B, are ribosomalproteins. YLR269C and YEL015W are proteinsof unknown function.

DSS4 is the only positive whose associationwith LSM8 cannot be explained easilybecause it is a guaninenucleotide exchangefactor for Sec4.

Among the 58 non-reproduciblepositives, only 3 are known to be involvedin RNA processing or translation (i.e. RNAbinding)

Différentes approches pour le Y2H64


Pro

teom

e Y

2H


B: The Uetz et al. (2000) libraryapproach. The 6,144 prey strains werepooled to generate a library. Bait strains(5,345 in total) were individually matedagainst the prey library to identifypotential interactors.


65

Pro

teom

e Y

2H



Pro

teom

e Y

2H



B: The Uetz et al. (2000) libraryapproach. The 6,144 prey strains werepooled to generate a library. Bait strains(5,345 in total) were individually matedagainst the prey library to identifypotential interactors.

C: The library approach adopted byIto et al. (2000, 2001). Almost all yeastopen reading frame (ORFs) were clonedas bait and prey constructs in yeaststrains of opposite mating type, andwere subdivided into 62 pools thatcontained 96 clones. Each bait pool wassystematically mated with each preypool, and the diploids were assayed forprotein–protein interactions.

67

Pro

teom

e Y

2H


Pro

teom

e Y

2H


Génération d’un très grand nombre d’ORFs pour réaliser lesdouble-hybrides à haut débit

Alternative : travailler avec une banque de cDNA « randomprimed » (Hybrigenics)

69

Pro

teom

e Y

2H


Reporter gene : HIS3

BD

Y

ADXPrey

Bait

Protéine/ domaine d’intérêt

Gal4 DNA-BindingDomain Fragment Y

Plasmide appât

Banque de cDNA« random-primed »

Plasmide proieGal4 Activating

DomainFragment X

Mating

50 millioninteractions tested

Y1Yeast bait

cloneX1 X3X2

XiX4Xn

Yeast preylibrary

• 10 millions de clones de levures indépendants

Prey fragment Xi identification

70

Avantages random / ORFs pas besoin de cloner des milliers d’ORFs(travail préalable très lourd)

permet de travailler sur des protéines spécifiquement exprimées danscertains tissus

ex: banque de cDNA du muscle humain

informations sur la région de la proie impliquée dans l’interaction

Inconvénients random / ORFs séquençage des proies

de nombreuses interactions ne sont pas détectées car la protéinen’est pas forcément complète

mise en évidence de séquences « inconnues » : interprétation?


71

Reproductibilité du Y2H

Pro

teom

e Y

2H

(B) Uetz et al. (2000)691

(A) Uetz et al. (2000)281

(C) Ito et al. (2001)841

Recouvrement extrèmement faible

Beaucoup de faux-négatifs (p.ex sous-représentation des protéines membranaires)

Limitation de la méthode

Néanmoins

Génération d’énormément de donnéespotentiellement intéressantes

A été appliqué à d’autres organismes…

72

Les principaux cribles double hybride à grande échelle


Helicobacter pylori 1 524 Rain et al.

Saccharomyces cerevisiae 840 Uetz et al. 4 500 Ito et al.

Caenorhabditis elegans 4 000 Li et al.

Drosophila melanogaster 2 060 Formstecher et al. 20 500 Giot et al.

1 800 Stanyon et al.Y

2H

organismes nb interactions références

73

Crible double hybride de la drosophile

Pro

teom

e Y

2H

10 623 predicted transcripts isolated and screened against standard and normalized cDNAlibraries

draft map of 7 048 proteins and 20 405 interactions

rating two-hybrid interaction confidence based on a computational/statisctical method

higher confidence map of 4 679 proteins and 4 780 interactions

statistical modeling of the network showed two levels of organization

a short-range organization, presumably corresponding to multiprotein complexes

a more global organization, presumably corresponding to intercomplex connections

74

Comparaison des résultats des 3 cribles double-hybride

Giot et al.Science 2003

Formstecher et al.Genome Res 2005

Stanyon et al. Genome Biol 2004

interactionsextraites dela littérature

(20/885=2.3%)(51/2787=1.8%)

(9/605=1.5%)

peu de recouvrement entre expériences

peu de recouvrement avec la littérature, mais des recouvrements du mêmeordre quelle que soit l'expérience

meilleur recouvrement entre expériences et littérature qu'entre expériences

Pro

teom

e Y

2H

Crible double hybride dans la drosophile

75

192 63823Giot et al.

Science 2003Formstecher et al.Genome Res 2005

Le 'faible' recouvrement s’explique en partie par les méthodologiesemployées:

- Giot et al. protéines entières

- Formstecher et al. fragments de protéines

Les résultats des deux approches sont complémentaires.

Pro

teom

e Y

2H

Crible double hybride dans la drosophile

Comparaison des résultats de 2 cribles double-hybride sur 30appâts identiques

76

Pro

teom

e Y

2H

Y2H : Interactome de C.elegans

Li et al., A map of the interactome network of the metazoan C. elegansScience, 2004

Représentation des interactomes :Graphiques non orientés Nœuds = protéinesArêtes = interactions

77

Pro

teom

e Y

2H



Double-hybride dans la levure à haut-débit 3 024 protéines spécifiques des métazoaires potentiellement liées à des fonctions multicellulaires

proies

AD-wrmcDNA

AD-ORFeome1.0

paires d’interactants qui activent 2 des 3 gènes rapporteurs testés

clones positifs

retestés pour confirmer l’interaction

IST (Interaction Sequence Tags) pour confirmer l’identité des appâts(et ne pas travailler sur « hors phase ») obtention d’~16 000 ISTs

Analyse : 3 classes de scores de confiance

core 1 : 3X et AD-Y en phase : 858 interactions

core 2 : <3X, retesté et AD-Y en phase : 1 299 interactions

non-core : 1892 interactions

4 2

88

78

Pro

teom

e Y

2H


Résultats : 4 288 interactions totales Core (core-1 + core-2)

2 157 interactions « fiables »

2 135 interactions uniques

2 783 de AD-wrmcDNA

1 505 de AD-ORFeome1.0

239 en commun

Evaluation de la qualité des données test : co-Affinity purification GST pull-down


79


Core-1 : 14 / 17 (82%)Core-2 : 17 / 29 (59%)Core-3 : 8 / 23 (35%)

Pro

teom

e Y

2H


80

Pro

teom

e Y

2H


Résultats : 4 288 interactions totales Core (core-1 + core-2)

2 157 interactions « fiables »

2 135 interactions uniques

2 783 de AD-wrmcDNA

1 505 de AD-ORFeome1.0

239 en commun

Evaluation de la qualité des données test : co-Affinity purification GST pull-down

études des interactions chez les orthologues

notion d’interologues


81

Pro

teom

e Y

2H


Résultat final : Worm Interactome 5 (WI5)

2 898 noeuds (protéines)5 460 arêtes (interactions)15% du protéome

Couleur des noeuds selon la classephylogénétique - rouge : anciens - jaune : organismes multicellulaires - bleu : spécifiques de C. elegans


82

Pro

teom

e Y

2H


Résultat final : Worm Interactome 5 (WI5)

Les 3 groupes semblent interagir de manière similaire suggère que les nouvelles fonctions cellulaires reposentsur une combinaison de nouveaux et d’anciens éléments en accord avec la proposition classique qui voitl'évolution comme un « bricolage » dans lequel lesstructures existantes sont modifiées et complétées pouren créer des nouvelles


- rouge : orthologue chez la levure - jaune : orthologue chez la mouche,ou arabidopsis ou l’homme mais pas lalevure - bleu : pas d’orthologue

83

Pro

teom

e Y

2H

Y2H : variations

Yeast one-hybrid :Detection of DNA-binding proteins


Yeast three-hybrid :Detection of complexes

(proteins, RNA, small molecules)

Reverse yeast two-hybrid :Detection of inhibitors of binding

84

Iden

tifi

cati

on

de P




“protein chips”

électrophorèse 2D





85

TAP-Tag

TA

P-T

ag

TAP : Tandem Affinity Purification

Méthode de purification de complexes protéiques par affinité

2 étapes Immunoprécipitation

repose sur une double purification par des colonnes d'affinité

spectrométrie de masse

Avantages maintient du niveau d'expression physiologique de la protéine

conditions natives

applicable de façon systématique

construction de carte d’interactions protéine-protéine à l’échelledu protéome

86Protéine recombinante fusionnée à son marqueur :Le marqueur est constitué de trois éléments fusionnés quivont permettre la double purification :

- un peptide liant la Calmoduline et qui se lie à la protéine d’intérêt (généralement en Cter)

- un site de clivage aux protéases TEV (Tobacco EtchVirus)- la protéine A

Expression de la forme recombinante de la protéine enlui fusionnant le marqueur.Protéine recombinante marquée est introduite dans lacellule hôte de l’organisme l'expression de la protéineest proche de son taux d'expression naturel

TAP-Tag : principes

Cellule

TA

P-T

ag





TAP-Tag : principes

Cellule

Protéines non-taggéesprésentent dans lacellule

Complexe protéique se formantnaturellement dans la cellule

TA

P-T

ag





TAP-Tag : principes

Rupture desmembranes

Extrait cellulaire

Étapes de purification

TA

P-T

ag

89

TAP-Tag : principes

Protéine marquée aprèsintroduction dans l’organisme

Protéine recombinantefusionnée à son marqueur

1ère colonne d’affinitéPurification de la protéine et ses partenaires àpartir d'extraits cellulaires par purificationd'affinité sur des billes d'IgG reconnaissant laprotéine A.Le complexe est ensuite libéré en ajoutant laprotéase TEV qui agit au niveau de son site declivage.

2ème colonne d’affinité Repurification par passage sur une colonne debilles de Calmoduline par reconnaissance de lapartie peptidique liant la Calmoduline (CBP) dumarqueur.

TA

P-T

ag

90

TAP-Tag : principes

1ère colonne d’affinité

2ème colonne d’affinité

Le complexe natif est finalement obtenu parélution en conditions non dénaturantes.

Identification des protéinesdu complexe parspectrométrie de masse

http://www.univ-lille1.fr/lea/Menu_du_Site/activites%20du%20laboratoire/projet.htm

TA

P-T

ag

91

TAP-Tag : exemple

TA

P-T

ag

Ho et al., Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrometryNature, 2002

Interactome de S. cerevisiae par TAP-tag 725 appâts représentatifs de différentes classes fonctionnelles (100

kinases, 36 phosphatases, 86 protéines impliquées dans le DNADamage Repair, etc.)

92

TA

P-T

ag


725 baits

Proteins from 1 558 individualIP resolved from SDS-PAGE A total of 15 683 gel

slices were processed

940 000 MS/MS spectra that matchedsequences in the protein sequence database

3 617 interactions(1 578 proteins)

TAP-Tag : exemple

93

TAP-Tag : exemple

TA

P-T

ag


Interactome de S. cerevisiae par TAP-tag 725 appâts représentatifs d’une variété de différentes classes

fonctionnelles (100 kinases, 36 phosphatases, 86 protéinesimpliquées dans le DNA Damage Repair, etc.)

10 % du protéome en tant qu’appâts

30 % de couverture de l’interactome

94

Quelles interactions sont identifiées par le TAP-Tag ? interactions permanentes complexe(interactions transitoires ne sont pas détectées!) faux-positifs 20% (estimation)

TA

P-T

ag

TAP-Tag : principes

Avantages

complexes identifiés en conditions quasi physiologiques(cellules, animaux entiers) variation de la composition des complexes (par exemple, enfonction d'un stimulus, de l'activation d'une voie…)

conformation gènes essentiels très petites protéines protéines non solubles

Problèmes

95

Iden

tifi

cati

on

de P




“protein chips”

électrophorèse 2D




Détection d’IPPs à l’échelle du protéome96

PCA

PC

A

Mise en évidence d’interactions « biologique » au sein de cellulesintactes

Une protéine (enzyme ou protéine fluorescente) est divisée en 2fragments qui ne peuvent pas fonctionner de manière isolée

= protéine rapportrice

Les protéines d’intérêt sont couplées à ces fragments

SI interactions entre les 2 protéines

les 2 fragments sont assez proches pour se complémenter

restauration de la fonction de la protéine rapportrice(fluorescence ou reconstitution de l’activité enzymatique)

K Tarassov et al. Science 2008;320:1465-1470Published by AAAS

PCA

PC

A

In vivo map of Yeast Protein Interactome 2 770 interactions among 1 124endogeneous expressed proteins 80% d’interactions non-reportées

Modularity andInterconnection in the PINs

98

PCA

PC

A

Avantages

interactions moléculaires visualisées directement (et non autravers d’évènements secondaires comme une activationtranscriptionnelle, cf Y2H)

réalisable dans tous les types cellulaires (cf problèmes relatifs àl’expression des protéines à tester dans la levure etc )

localisation cellulaire peut être choisie (noyau, cytoplasme,reticulum endoplasmique…) grâce à la protéine rapportrice

information sur l’organisation structurale du PINs

Inconvénients

peut manquer de sensibilité si les constantes d’affinité entre lesprotéines sont faibles

99

Bilan100

Comparaison des méthodes

Von Mering et al., Comparative assessment of large scale data sets of protein-protein interactionsNature, 2002

Interactions physiques

Interactionsfonctionnelles

Comparaison des méthodes de détection d’interaction à haut-débit : biais dans le recouvrement des données?

Etude de données relatives au protéome de la levure issues de double hybride dans la levure

TAP-tag

profils d’expression corrélée d’ARNm

méthodes in silico d’analyse du contexte génétique

80 000 interactions +/- “fiables” disponibles 2 400 par plus d’une méthodes

taux élevé de faux-positifs

taux élevé de faux-négatifs

certaines méthodes + spécifiques decertains types d’interactions que d’autres...

101


Etude de la distribution des interactions selon les catégoriesfonctionnelles des interactants


Chaque technique présente une distribution unique :

forces/faiblesses spécifiques TAP-tag : peu d’interactions pour protéines impliquées dans le transport, souventenrichies en protéines transmembranaires plus difficiles à purifier

102


Etude de la distribution des interactions selon les catégoriesfonctionnelles des interactants


Chaque technique présente une distribution unique :

forces/faiblesses spécifiques

Complémentarité des données

103


Recouvrement et précision des méthodes : comparaison desméthodes avec un “Benchmark” MIPS + YPD (~11 000 int.)


Chaque point représente un jeu entierd’interactions et sa position spécifie sonrecouvrement et sa précision / benchmark

En rouge, interactions retrouvées par 2 ou3 méthodes

104

Les 2 approches génétiques (Y2H etlétalité synthétique) sont relativementpeu biaisée / abondance des ARNm

Identification des biais majeurs taux élevé de mRNA



105

Identification des biais majeurs taux élevé de mRNA

localisation cellulaire


Biais dans la représentation des protéinesmitochondriales pour les méthodes in silico Remarque :

localisation = information sur la qualité


106


~6 200 ORFs dans la levure estimation minimale du nombre d’interactions : 30 000

années 90 : quelques 100aines d’interactions connues

+ de 80 000 interactions potentielles détectéesmais seules 2 400 (3%) confirmées par +sieurs méthodes

non-saturation des méthodes et/ou faux positifs

la plupart des méthodes : > 50% de faux-positifs

aucune méthode ne couvre plus de 60% du jeu d’interactionscontrôle

biais dans les jeux de données (/taux mRNA, /localisation desprotéines, /conservation au cours évolution)

Comparaison des méthodes : bilan

107

Interactome humain

si on exclut les variants d’épissage, sa taille est estimée entre74 000 et 200 000 interactions binaires

(selon M. Vidal, 2009)

actuellement, environ 10 000 interactions de « bonnequalité » ont été mappées

Comparaison des méthodes : bilan

Jeffrey M. Perkel, 2010Protein-Protein Interaction Technologies : Toward a Human Interactomewww.sciencemag.org

108

Après la détection...l’analyse...

- Archivage des interactions- Représentation des réseaux- Evaluation/interprétation

Ap

rès

la d

éte

ctio

n

109

Banques de données d’interactions

De nombreuses banques d’interactions sont disponibles en ligne

Principales différences entre les banques organismes

multi-organismes

spécifiques d’un organisme (levure, drosophile, homme, ...)

types d’interactions

fonctionnelles

physiques

origine/qualité des données

expérimentales

littérature (text-mining)

prédiction

qualité de la « saisie » des données

vérification des données par un expert

automatique

110

http://www.pathguide.org/


111


Banque Protéine/domaine

Type Adresse

DIP Protéine E,S http://dip.doe-mbi.ucla.edu

BIND Protéine E,C,S www.bind.ca/

MPact/MIPS Protéine E,C,F http://mips.helmholtz-muenchen.de/genre/proj/mpact

STRING Protéine E,P,F http://string.embl.de/

MINT Protéine E,C http://mint.bio.uniroma2.it/mint

IntAct Protéine E,C www.ebi.ac.uk/intact

BioGRID Protéine E,C http://www.thebiogrid.org/

HPRD Protéine E,C http://www.hprd.org/

ModBase Domaine S,H http://modbase.compbio.ucsf.edu/modbase-cgi/index.cgi

iPfam Domaine S http://ipfam.sanger.ac.uk

InterDom Domaine P http://interdom.i2r.a-star.edu.sg/

The International MolecularExchange Consortium

E ExperimentalS Structure detailP Predicted (P=physical, F Functional)C CuratedH Homology modelling

112


Ce qu’on y trouve (généralement...) le nom des 2 interactants

la méthode qui a permis de mettre l’interaction en évidence

une référence à l’article qui cite l’interaction / l’expérience menée

parfois : un score de « confiance » que l’on peut accorder àl’interaction

113

http://www.pathguide.org/

Banques de données d’interactions114


A savoir... format standardisé PSI-MI (Proteomics Standards Initiative –Molecular Interactions) http://www.psidev.info/index.php?q=node/277

format balisé (type XML)

facilite représentation/échange de données d’interaction

115

Les interactomes actuels sont des sous-ensemblesd’interactions existant entre les protéines d’un organisme

Analyse de réseaux d’interactions

Rése

au

x d

’in

tera

ctio

ns

On peut parler de réseaux d’interactions

116

Représentation des réseaux d’interactions

Rep

rése

nta

tion

L’outil le plus utilisé : cytoscape (www.cytoscape.org) outil de visualisation des réseaux d’interaction

plug-ins d’analyses

ajout régulier de fonctionnalités

inférence de réseaux

intégration de profils d’expression, etc...

open source

117

Le problème de la représentation des résultats de TAP-Tagdans les graphes

Y2H interactions directes TAP-Tag composition des complexes

Qui interagit avec qui? Quelle représentation dans les graphes?

Matrix model Spoke model

ExpériencesTap-TAG

Données dela littérature

Réalité


Rése

au

x d

’in

tera

ctio

ns

118

L'intégration des données pour 'valider' les interactions issues desexpériences à grande échelle

Une interaction a plus de chance d'exister lorsque

l'interaction a été identifiée par des méthodes expérimentalesdifférentes

les protéines contiennent des domaines connus pour interagir

les deux protéines sont localisées dans le même compartimentcellulaire

leur expression est corrélée (corrélation interactome-transcriptome)

leurs annotations fonctionnelles (Gene Ontology) sont corrélées

l'interaction est connue chez un autre organisme (notiond'interologue)

Rése

au

x d

’in

tera

ctio

ns


119

Inférence d’interaction entre plusieurs organismes

difficulté majeure: distinction des orthologues / paralogues

Rése

au

x d

’in

tera

ctio

ns

Notions d’interologues120

Inférence d’interaction entre plusieurs organismes

difficulté majeure: distinction des orthologues / paralogues

Rése

au

x d

’in

tera

ctio

ns

Notions d’interologues

« Toward the mammalian interactome: inference off a coremammalian interaction set in mouse », (Shin et al., 2009)

souris = organisme modèle, mais remarquablement peu de PPIsdisponibles dans les banques de données

inférence des données de PPI humaines

interactome :

all interologs: 13 370 nœuds et 90 242 arêtes

core interologs: 8 295 nœuds et 48 907 arêtes

121

L'intégration des données pour 'valider' les interactions issues desexpériences à grande échelle

Une interaction a plus de chance d'exister lorsque

l'interaction a été identifiée par des méthodes expérimentalesdifférentes

les protéines contiennent des domaines connus pour interagir

les deux protéines sont localisées dans le même compartimentcellulaire

leur expression est corrélée (corrélation interactome-transcriptome)

leurs annotations fonctionnelles (Gene Ontology) sont corrélées

l'interaction est connue chez un autre organisme (notiond'interologue)

BEMOLCes notions sont restrictives…

…et ne laissent pas la place à la nouveauté et à lapossibilité de découvrir de nouveaux phénomènes

Rése

au

x d

’in

tera

ctio

ns

Analyse de réseaux d’interactions122

Des solutions alternatives

les jeux de données

des jeux de données d'interactions mixant des interactionsd'origines différentes: littérature, expériences à petite et à grandeéchelles

multiplicité des jeux de données, de 'stringences' différentes

adaptation des jeux de données à la question biologique posée

(analyse globale jeux de données de haute confiance, analyselocale jeux de données le plus large possible)

analyses structurales complémentaires (p.e. docking (Mosca et al.,

2009)) les méthodes d'analyses

validées statistiquement

résistantes au bruit

la représentation dans les graphes

poids des arêtes

adaptation des méthodes d'analyses

Rése

au

x d

’in

tera

ctio

ns


123

Sommets = protéines Arêtes = interactions physiques

Rése

au

x d

’in

tera

ctio

ns

Des interactions aux informations fonctionnelles

ANALYSER LES RESEAUX D’INTERACTIONS=

APPORTER DE L’INFORMATION SUR LA FONCTIONCELLULAIRE DES GENES/PROTEINES

124

PRINCIPE: …ne pas comparer les protéines elles-mêmes……mais leurs groupes d’interacteurs respectifs…

HYPOTHESE: plus les protéines possèdent d’interacteurs communs,plus elles doivent être fonctionnellement reliées

A B

D

C


Rése

au

x d

’in

tera

ctio

ns

125

| X∪Y | + | X∩Y |

| X \ (X∩Y) | + | Y \ (X∩Y) | D(X, Y) =

YX

e c a

fghd b

8 + 3

2 + 3 =


Rése

au

x d

’in

tera

ctio

ns Une traduction mathématique possible de cette hypothèse :

la distance de Czekanowski-Dice

126

PRODISTIN : une méthode de classification fonctionnelle desprotéine basée sur le score de distance de Czekanowski-Dice

Principales étapes de la méthodes pré-requis : disposer d’une liste d’interactions entre protéines

calcul de la distance entre les protéines

X Y Z T

X - 0.4 0.5 0.7

Y - 0.6 0.6

Z - 0.8

T -

Tableau de distances

Rése

au

x d

’in

tera

ctio

ns

PRODISTIN : Protein Distance Based on Interactions

Brun et al., Functional classification of proteins for the prediction of cellularfunction from a protein-protein interaction networkGenome Biology, 2003

127

PRODISTIN : une méthode de classification fonctionnelle desprotéine basée sur le score de distance de Czekanowski-Dice

Principales étapes de la méthodes pré-requis : disposer d’une liste d’interactions entre protéines

calcul de la distance entre les protéines

construction d’un arbre de classification à partir des distances

identification de classes fonctionnelles de protéines d’après

les annotations fonctionnelles des protéines

la topologie des sous-arbresXYZT

X Y Z T

X - 0.4 0.5 0.7

Y - 0.6 0.6

Z - 0.8

T -

Tableau de distances

XYZT

Rése

au

x d

’in

tera

ctio

ns

PRODISTIN : Protein Distance Based on Interactions128

Arbre prodistin de protéines de levure

Quelle est la signification biologique duregroupement des protéines dans l’arbre ?

2139 protéines2946 interactions

Rése

au

x d

’in

tera

ctio

ns

PRODISTIN : exemple

129

Utilisation des annotations fonctionnelles pour identifier desclasses dans un arbre

une classe contient au moins 3 protéines partageant la mêmeannotation fonctionnelle

ces protéines représentent au moins 50% de la classe

Cycle cellulaire

Cycle cellulaire

Cycle cellulaireRése

au

x d

’in

tera

ctio

ns

PRODISTIN : exemple130

- 67% desprotéines del’arbre classées- 64 classes- 3-36 protéines- 30/44 fonctionscellulaires

Arbre declassification

fonctionnelle de602 protéines delevure selon la

fonction cellulaire

Rése

au

x d

’in

tera

ctio

ns

PRODISTIN : exemple

131

PRODISTIN est une méthode de classification fonctionnelle desprotéines à partir du réseau d’interactions protéine-protéine,validée statistiquement

extrait de l’information fonctionnelle à partir d’un réseau complexe endonnant une vision intégrée des fonctions

regroupe les protéines impliquées dans les mêmes fonctionscellulaires

prédiction de fonction cellulaire pour les protéines de fonctioninconnue (67% de taux de succès)

un nouvel outil complémentaire à l’analyse de séquence pour laprédiction de fonction, permettant une nouvelle approche de lafonction des gènes/protéines au niveau cellulaire

Prodistin Web Server: http://gin.univ-mrs.fr/webdistin

PRODISTIN : conclusions

Rése

au

x d

’in

tera

ctio

ns

Inte

rpré

tati

on

Décrire les caractéristiques de l’organisation de l’interactome

statistique, approche descriptive connectivité

Connectivité dans un graphique : le nombre de voisins

Graphique non-orienté

Graphique orienté

k = 4

kin = 1kout = 3

Que faire avec cette masse de données ??132

Inte

rpré

tati

on

Distribution de connectivité

Connectivité

1 2 3 4 5 6 7 8 9 10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

1

10

100

1000

levure S. cerevisae

connectivité k

nom

bre

de g

ènes

beaucoup de protéinesfaiblement connectées

quelques protéinesfortement connectées = « hub »

133

Inte

rpré

tati

on

Distribution de connectivité

particularité des protéines ayant un grand nombre d’interacteurs

protéines structurantes

ex : PBS2 chez S. cerevisae, k=15 protéine structurante(« échaffaudage ») pour le complexe MAP-kinase

protéines létales

ex : Jeong et al. ont montré une corrélation entre la connectivitéd'une protéine et son caractère létal chez la levure« plus une protéine a de partenaires, plus elle est essentielle »

Connectivité134

Inte

rpré

tati

on



longueur / diamètre

Chemin entre les noeuds

Que faire avec cette masse de données ??

A B C D E F G

A 0 3 4 1 2 3 3

B 0 1 2 1 2 2

C 0 3 2 3 1

D 0 1 2 2

E 0 1 1

F 0 1

chemin moyen: 1.95

G

D

B

F

A

E

C

135


Inte

rpré

tati

on




modules

Certaines zones semblent plus denses que d’autres

comment

- les identifier précisément?

- les interpréter?

136

Inte

rpré

tati

on

Qu’est-ce qu’une zone dense?

plutôt pas dense... ...plutôt dense !

d=6/21=0.28 d=14/21=0.67

Définition rigoureuse le nombre maximal de connections entre N Protéines est 2N(N-1)

on définit la densité comme

d = Nombre de connectionsNombre maximal de connections

Modules137

Autre notion de densité

6 voisins...

...qui ne se « parlent » pas! ...qui « communiquent »!

r = 0r = 0.6

On définit un coefficient r qui mesure la densité de connectionsentres les voisins d’une protéine

densité locale définie pour chaque protéineInte

rpré

tati

on

Modules138

Si des protéines ont une grande densité de connection...

... c’est qu’elles forment un module fonctionnel

Modules

Inte

rpré

tati

on

On distingue 2 types de modules fonctionnels les complexes protéiques (interactions simultanées)

les voies de signalisation/voies métaboliques (interactionsconsécutives)

Spirin & Mirny, PNAS 2003

levureVoie de transduction du signaldéclenchée par la phéromone

Module impliqué dans larégulation du cycle cellulaire

139


Inte

rpré

tati

on




modules

Prédire des « règles » à partir de l’observation de l’interactome

inférence, approche prédictive

140

Le réseau d’interaction protéine-protéine est une vue statique del’interactome

toutes ces interactions n’ont pas forcément lieu de manièresimultanée

information dynamique : données d’expression issues des puces

Remarque importante

Inte

rpré

tati

on

expre

ssio

n

des

gènes

temps

on off on

141

Le réseau d’interaction protéine-protéine est une vue statique del’interactome

toutes ces interactions n’ont pas forcément lieu de manièresimultanée

information dynamique : données d’expression issues des puces

Interprétation différentes des hubs

Remarque importante

Inte

rpré

tati

on

phase M ducycle cellulaire

phase S ducycle cellulaire

1ère possibilité :interactions simultaneés(party hubs)

2ème possibilité :interactions successives(date hubs)

Han et al.,Evidence for dynamically organized modularity in the yeast protein-protein interaction network Nature 2004

142

143

Bilan

Détection d’IPPs

approches indirectes : interactions fonctionnelles

approches directes : interactions physiques

méthodes applicables à haut-débit

“protein chips”

électrophorèse bi-dimensionnelle

double hybride dans la levure

TAP-Tag

problèmes

faux-positifs : interactions physiologiques non détectées

faux-négatifs : interactions non physiologiques détectées

reproductibilité des expériences

Analyse d’interactomes

foultitude de banques…

évaluation/interprétation des données expérimentales

croisement avec données issues d’autres expériencesà haut-débit / in silico

Bilan

2 interactomique : interactions protéine- protéinelecompte/cours/coursinteractomic10.pdf ·...

Documents