quantification des peptides -...
TRANSCRIPT
Exemple : Echantillons de feuilles de tournesol, analyses shotgun● Gamme de quantité de protéine : 200, 400, 600, 800, 1000 ng● 2 répétitions techniques
Exemple : Echantillons de feuilles de tournesol, analyses shotgun● Gamme de quantité de protéine : 200, 400, 600, 800, 1000 ng● 2 répétitions techniques
Réponse à la gamme pour les 3818 peptides corrélés avec ρ>0.78
Quantification des peptides
4771 peptides quantifiés dans les 10 échantillons1263 protéines quantifiées grâce à ces peptides
80% des peptides sont corrélés à la quantité de protéine avec r > 0.78
Quantification des peptides
Exemple : échantillons de soies de maïs, analyses shotgun● 3 génotypes, 4 traitements● 3 répétitions biologiques
Exemple : échantillons de soies de maïs, analyses shotgun● 3 génotypes, 4 traitements● 3 répétitions biologiques
Quantification des protéines
Exemple : Echantillons de levure, analyses shotgun● 3 répétitions biologiques● Corrélation entre un réplicat et la moyenne des réplicats biologiques
Exemple : Echantillons de levure, analyses shotgun● 3 répétitions biologiques● Corrélation entre un réplicat et la moyenne des réplicats biologiques
Quantification des protéines
XtandemMascot
X!TandemPipeline
MassChroQ
Protein identification
Protein inference,filtering
Peptide quantification
Protein quantification
AllPSumMean
Statistics(R scripts)
Quantitative comparisons
Workflow
PROTICdb
Quantification des protéines
Problèmes :
● Les peptides partagés : comment faire pour tenir compte du fait que la valeur quantitative observée sur certains peptides est le résultat de la présence de plusieurs protéines ?
● Effet peptide : tous les peptides ne répondent pas de la même façon.
● Effet MPT ou artefact : certains peptides répondent de façon non corrélé aux autres
● Données manquantes : les données manquantes ne doivent pas induire une variation importante de l'estimation de la quantité.
Comment fabriquer une valeur quantitative par protéine à partir de la quantification des peptides ?
On cherche à obtenir une valeur fiable, si possible comparable entre protéines différentes.
Quantification des protéines
Solutions pour quantifier les protéines
● Utiliser des modèles statistiques sophistiqués permettant de prendre en compte les peptides partagés et d'estimer leur contribution aux différentes protéines présentes dans l'échantillon (Blein-Nicolas et al 2012)
● Quantifier les protéines uniquement à partir de peptides protéotypiques, en utilisant les méthodes de type SRM
● Ne pas tenir compte des peptides partagés dans la quantification:se servir uniquement des peptides spécifiques
Résoudre la question des peptides partagés
Résoudre la question de la réponse spécifique des peptides
● Modéliser l'effet peptide dans des analyses de variance après retrait des peptides partagés
● IBAQ : somme de tous les peptides quantifiés, normalisés par le nombre de peptides théoriquement observables
● Moyenne des intensités de tous les peptides quantifiés● Top3 : somme des 3 peptides les plus intenses
Top3 est apparemment meilleure que IBAQ et Moyenne (Ahrné et al 2013, Proteomics 13, 2567–2578)
Quantification des protéines – validation des données
Avant de quantifier les protéines, s'assurer de la validité des données quantitatives mesurées
● Eliminer les données non fiables
● Eventuellement éliminer les échantillons non fiables
● Normaliser les données quantitatives
Exemple :
Comparaison entre quatre méthodes d'extraction des protéines de feuilles de maïs
Quantification des protéines - jeu de données
Quatre méthodes d'extraction des protéines sur un échantillon de feuille de maïs
● solubilisation dans une solution urée-thiourée avec ZALS (UTZE) ● solubilisation dans une solution urée-thiourée sans ZALS (UTEt)● solubilisation dans le SDS puis élimination du SDS par ion pairing (SDSR)● précipitation TCA/acétone (TCAA)
5 réplicats par méthode (4 pour TCAA)
Méthode shotgun (pas de séparation préalable)Analyse : LC-MS sans séparation préalable, Q-Exactive Méthode « Top8 » : 8 MS2 pour une MS, cycles de 1 à 1,5 secondes.Identification X!Tandem, filtrage X!TandemPipeline, quantification MassChroQ
MassChroQ produit :
● un fichier de résultats « peptides » :1 ligne par peptide*z dans chaque échantillon
● un fichier « protéines » : liaison peptide-protéine et descripteur de la protéine
Quantification des protéines - jeu de données
Nous produisons :● les métadonnées des échantillons (méthode d'extraction, génotype, organe, traitement,...)
Scripts R pour la validation des données, la construction de la valeur quantitative des protéines et les traitements statistiques
12697 peptides*z quantifiés
1859 protéines différentes (sous-groupes) identifiées
Quantification des protéines – Validation des données
Critère : largeur des pics chromatographiques
On peut décider d'éliminer les pics trop larges (peptides traînants)
Quantification des protéines – Validation des données
Critère : Ecart-type du temps de rétention
Les LC ont été alignées, donc dans le cas idéal le temps de rétention d'un peptide devrait être constant. On s'attend donc à un écart type proche de 0.
On peut décider d'éliminer les peptides dont le temps de rétention est trop variable : c'est le signe d'un problème (mauvais appariement, mauvaise détection).
Ici on a pris un seuil à 15 sec, 71 peptides*z éliminés. Reste 12626 peptides*z
Quantification des protéines – Validation des données
Critère : Répétabilité
On peut décider d'éliminer les peptides quantifiés trop rarement.● Critère de reproductibilité intra-goupe : combien de fois le peptide doit-il être présent pour être considéré comme répétable dans ce groupe (dans cette méthode d'extraction) ?
● Critère de reproductibilité inter-groupe : dans combien de groupes au moins le critère de reproductibilité intra-groupe doit-il être rempli ?
Attention à ne pas éliminer les variants qualitatifs.
Ici, au moins 4 fois quantifié par groupe, au moins dans 2 groupes. Reste 11497 peptides*z
Quantification des protéines – Normalisation
Vérification de la distribution des intensités dans chaque échantillons
Remarque : transformation log des intensités : log10(area)
Quantification des protéines – Normalisation
Visualisation des différences entre échantillons
log1
0(area
)
Echantillons
Un effet global affecte de la même façon tous les peptide*z de chaque échantillon.Nécessité de normaliser pour que les données se rapportent à une quantité constante.La normalisation affectera tous les peptides*z d'un échantillon de la même façon.
Quantification des protéines – Normalisation
On choisit un échantillon de référence puis
Dans chaque échantillon
● Pour chaque peptide présent dans la référence et dans l'échantillon
Calcul du rapport intensité échantillon/intensité référence (soit calcul de la différence log(Iéchantillon)-log(Iréférence))
● Calcul de la valeur médiane du rapport (de la différence)● Normalisation per se : multiplication de chaque intensité par l'inverse du rapport
(soustraction de la différence de log)
Méthode de normalisation utilisée
0.0000000000 0.0892062234 -0.1517961202 -0.0076519826 0.0355483579-0.0532138647 0.0346179697 0.0018421322 0.0055344169 0.1784791405-0.1758227232 0.0190976121 -0.0046634622 0.0597356655 -0.1217228606 0.0008669232 0.0721730464 -0.0546791840 -0.1710141057
Facteurs de normalisation
Quantification des protéines – Normalisation
Effet de la normalisation
Quantification – réduction à une valeur par protéine
Méthode utilisée : somme des peptides normalisés, répétables et spécifiques
Ici, réduction à 9363 peptides*z, 1823 protéines
Critère additionnel : élimination des protéines quantifiées avec un seul peptide+ critère de répétabilité sur les protéines
Ici, réduction à 1362 protéines
On a maintenant une valeur par protéine dans chaque échantillon :Possibilité de réaliser des analyses statistiques « classiques » :ACP, analyses de variance,...
Quantification des protéines – ACP
ACP : bonne séparation des échantillons en fonction de la méthodeLes 2 méthodes à base d'urée sont confondues
Langella et al, Proteomics 2013
ACP sur les protéines présentes dans tous les échantillons
Quantification des protéines
ACP : bonne séparation des échantillons en fonction de la méthodeLes 2 méthodes à base d'urée sont confondues
Cercle de corrélations :Pas d'effet des méthodes sur les compartiments cellulaires (termes GO)
ACP sur les protéines présentes dans tous les échantillons
Langella et al, Proteomics 2013
Quantification des protéines
ACP : bonne séparation des échantillons en fonction de la méthodeLes 2 méthodes à base d'urée sont confondues
Cercle de corrélations :Pas d'effet des méthodes sur les compartiments cellulaires (termes GO)
Les protéines intrinsèques aux membranes sont mieux extraites avec la méthode basée sur une extraction SDS
ACP sur les protéines présentes dans tous les échantillons
Langella et al, Proteomics 2013
Quantification des protéines
ACP : bonne séparation des échantillons en fonction de la méthodeLes 2 méthodes à base d'urée sont confondues
Cercle de corrélations :Pas d'effet des méthodes sur les compartiments cellulaires (termes GO)
Les protéines intrinsèques aux membranes sont mieux extraites avec la méthode basée sur une extraction SDS
Les protéines ribosomales sont moins bien extraites avec la méthode TCA/Acétone
ACP sur les protéines présentes dans tous les échantillons
Langella et al, Proteomics 2013
Quantification des protéines
ACP : bonne séparation des échantillons en fonction de la méthodeLes 2 méthodes à base d'urée sont confondues
Cercle de corrélations :Pas d'effet des méthodes sur les compartiments cellulaires (termes GO)
Les protéines intrinsèques aux membranes sont mieux extraites avec la méthode basée sur une extraction SDS
Les protéines ribosomales sont moins bien extraites avec la méthode TCA/Acétone
Tonoplast monosaccharide transporter
ACP sur les protéines présentes dans tous les échantillons
Langella et al, Proteomics 2013
Quantification des protéines
Utilisation de MeV (http://www.tm4.org/mev.html)
Importation dans MeV des données protéines sous forme de ficher .csv
Ex : classification hiérarchique à partir des protéines significatives dans une ANOVA à 1 facteur
Langella et al, Proteomics 2013
Quantification des protéines
Utilisation de MeV (http://www.tm4.org/mev.html)
Ex : Clustering, méthode de SOTA
Langella et al, Proteomics 2013