tout sur les p values

Présentation Ifsttar 04012011

TOUT Ce que vous avez toujours voulu savoir

SUR les “P-VALUES” Sans jamais oser le demander

Guillaume SAINT PIERRE 13/03/2014

Séminaire LEPSIS

Marnes

13 mars 2014


Contexte

• Le papier de Johnson n’est qu’une critique

supplémentaire d’un « rituel » des utilisateurs de la

statistique :

– Le test de signification de l’hypothèse nulle

• La controverse dure depuis une centaine d’année, et

confronte différentes philosophies de la construction du

savoir

• En effet, la Statistique (et la théorie des tests) n’est

qu’un outil pour « construire » une connaissance

• Il s’agit donc d’un problème de méthode scientifique


Contexte

• Aristote est le premier à réfléchir à l’élaboration d’une « méthode »

• Privilégie l'idée d'une science déductive, mais reconnaît une place à

l'induction

• « Ce qui ne veut pas dire que par l'observation répétée de cet

événement, nous ne puissions, en poursuivant l'universel, arriver à

une démonstration, car c'est d'une pluralité de cas particuliers que se

dégage l'universel. » (Seconds Analytiques I, 31, 88a, 4)

• Descartes « Discours de la méthode » (1637)

• Structure des révolutions scientifiques de Thomas Kuhn :

Lorsque plusieurs chercheurs ont répété des expériences sur un même phénomène

avec diverses variations (de conditions expérimentales, d'instruments de mesures, de

types de preuves…) ces constats élémentaires se confirment mutuellement sans qu'il

n'y ait de limite précise ni de moment particulier qui les valident, c'est l'appréciation de

plusieurs chercheurs qui conduit à un consensus progressif. Les expériences et

constats élémentaires forment alors un corps confirmé de preuves de l'existence du

phénomène.


Tester la signification de l’hypothèse nulle

• Une fois le phénomène « découvert », les chercheurs

tentent de l’expliquer en faisant des hypothèses

• Une hypothèse, pour être scientifiquement admissible,

doit être réfutable, c'est-à-dire doit permettre des

expérimentations qui la corroborent (la confirment) ou la

réfutent (l'infirment).

• La version statistique consiste à

– Définir une hypothèse « nulle » (H0)

– Mettre en place une expérience pour la réfuter

– Confronter cette hypothèse aux données :

• Cad : Supposer H0 vraie et calculer la probabilité d’observer

les données obtenues (ou au moins aussi extrêmes)


Tester H0 : exemple

• Par exemple, ayant observé un certain nombre de tirages « pile ou

face » produit par une pièce, on peut se demander si celle-ci est

biaisée (c'est-à-dire possède une probabilité différente de 1/2 de

tomber sur une face donnée).

– H0 : P=1/2

• Dans cette situation, l'approche par test d'hypothèse consiste à

supposer que la pièce est non biaisée (hypothèse nulle), et à

calculer la probabilité d'observer des tirages au moins aussi

extrêmes que celui effectivement observé (grâce à une loi

binomiale).

• Si cette probabilité est faible (en pratique, inférieure à un seuil fixé,

en général de 5%), on rejette l'hypothèse nulle de l'équiprobabilité

des faces de la pièce, et on décide qu'elle est biaisée.


Quel est le problème ?

• Cette approche ne nous dit pas ce que nous voulons savoir

• Mais nous voulons tellement le savoir, que nous croyons tout de

même avoir la réponse

• Alors, que voulons nous savoir ?

– Ayant observé ces données, quelle est la probabilité que H0 soit

vraie ?

– P(H0/D)

• Mais en fait, tester H0 donne la réponse à la question suivante :

– Ayant supposé H0 vraie, quelle est la probabilité d’avoir observé

ces données ?

– P(D/H0)


La grande illusion (Gigerenzer, 1993)

• La croyance commune (quasi unanimement partagée

par la plupart des utilisateurs de la Statistique) consiste

à considérer que :

– Le niveau de signification pour lequel on rejette H0

(en général 0.05)

– Est la probabilité que celle çi soit vraie

– Sous entendu que a contrario, H1 est vraie avec une

probabilité de 0.95

• C’est FAUX !


Pourquoi est ce faux ? (Jacob Cohen, "The Earth is round (p < .05)", American Psychologist 49 (12), 1994)

• C’est une contraposition

– puisque la cause d'une implication engendre la conséquence,

alors l'absence de la conséquence implique automatiquement

l'absence de la cause

– AB est équivalent à Non BNon A

• Raisonnement correct, à ne pas confondre avec la négation de

l’antécédent

– Non ANon B

• Le test d’hypothèse rend le raisonnement probabiliste, ce qui est faux

If the null hypothesis is correct, then this datum (D) can not occur. • It has, however, occurred. • Therefore, the null hypothesis is false.

If the null hypothesis is correct, then these data are highly unlikely. • These data have occurred. • Therefore, the null hypothesis is highly unlikely.


Pourquoi est ce faux ? (2)

• Raisonnement juste mais prémisse fausse

• Donc conclusion fausse

If a person is a Martian, then he is not a member of Congress. •This person is a member of Congress. •Therefore, he is not a Martian.

If a person is an American, then he is not a member of Congress. (WRONG!) •This person is a member of Congress. •Therefore, he is not an American.

• Raisonnement juste (contraposition)


Pourquoi est ce faux ? (3)

• Si la prémisse est rendue « aléatoire » :

• Alors le raisonnement n’est plus formellement juste, et la

conclusion est improbable

• C’est la même chose que de dire :

If a person is an American, then he is probably not a member of Congress. (TRUE, RIGHT?) •This person is a member of Congress. •Therefore, he is probably not an American. (Pollard & Richardson. 1987)

If Ho is true, then this result (statistical significance) would probably not occur. •This result has occurred. •Then Ho is probably not true and therefore formally invalid


Pourquoi P(D/H0) ≠ P(H0/D) ?

• Pour connaître P(H0/D), il faudrait connaître P(H0) et appliquer le

théorème de Bayes (on y revient + tard)

• Hélas on ne connait jamais P(H0)

• Un exemple pour évaluer l’ampleur du problème :

– La Schizophrénie touche 2% de la population

– On dispose d’un test très fiable :

• Sensibilité = P(Schizo/H1)=0.95

• Spécificité = P(normal/H0)=0.97

– Avec :

• H0 : le cas est « normal »

• H1 : le cas est « schizophrène »

– Soit donc D le résultat positif d’un test pour une personne

donnée (D=schizo)

• Etant donné la sensibilité, peut on dire que le sujet testé est

« normal » avec une probabilité < 5% ?


P(H0/D) ≈ 0.6 !

• La théorie Bayesienne permet de calculer P(H0/D)


C’est grave docteur ?

• http://www.stat.duke.edu/~berger/applet2/pvalue.html

• Cas du test z : test de la moyenne µ pour un échantillon N(µ,σ2) de

variance connue.

• H0 : µ=0

• L’applet ci-dessous génère des échantillons soit sous H0, soit sous

H1 (à spécifier), calcule une p-value, stocke les résultats des p-

values significatives (rejet de H0), et indique quelle était la réalité

des échantillons.

http://www.stat.duke.edu/~berger/applet2/pvalue.html

http://www.stat.duke.edu/~berger/applet2/pvalue.html


De l’intérêt d’un « a priori »

R. NUZZO; SOURCE: T. SELLKE ET AL. AM. STAT. 55, 62–71 (2001)


Et si vous étiez un Bayesien qui s’ignore ?

• Selon Aristote, une proposition est soit vraie, soit fausse

• La théorie de Bayes s'intéresse aux cas où une proposition pourrait être

vraie ou fausse, selon des observations où subsiste une incertitude.

• On attribue à toute proposition une valeur entre 0 (faux à coup sûr) et 1

(vrai à coup sûr)

• L'inférence bayesienne révise la probabilité des propositions au fur et à

mesure des observations, incluant la première opinion (a priori) sur la

probabilité des prémisses.

Pasteur Thomas

Bayes, 1702-1761

Théorème de Bayes


L’approche Bayesienne

• Seule la théorie de Bayes permet d’accéder à P(H0/D)

• Moyennant la connaissance de P(H0) … dont on ne dispose pas …

• Les Bayesiens utilisent donc la notion d’ « a priori » :

– Fixer une probabilité à H0 selon une connaissance « a priori »

– Ou fixer une probabilité « vague », cad la plus diffuse possible,

pour représenter l’absence de connaissance a priori.

• La difficulté de cette approche est dans le choix de l’a priori

• Mais :

– L’effet de l’a priori s’estompe

– Les a priori existent aussi en stat classique mais sont souvent

cachés (choix d’un critère à maximiser etc …)

– Notre cerveau lui-même fonctionne selon un modèle Bayesien (Stanislas Dehaene : Le cerveau Bayesien, collège de France)


Jeffrey : tests bayesiens

• Expérience :

• On teste H0 : θ=θ0 contre H1 : θ=θ1

• On définit le « Bayes factor » (rapport de vraisemblance) :

• Rejeter H0 si

• Donner la probabilité a posteriori :

xfX

1)( xB

1

0)(

xf

xfxB

xB

xBxH

1Pr 0

xBxH

1

1Pr 1


Quid de la théorie des tests « classique » ?

• En fait il y en a 2 …

• Là aussi, les approches sont différentes et conduisent à

des confusions

Ronald Fisher Jerzy Neyman


FISHER : test de signification

• Expérience :

• On teste H0 : θ=θ0

• Choisir une statistique de test T=t(x) telle que des

grandes valeurs de T représentent une « évidence »

contre H0

• Calculer la p-value pour les données observées

• Rejeter H0 si p est petite

• Justification : p peut être vue comme un index de la

« force de l’évidence » contre H0

xfX

0HxtXtPp


Illustration

• Dans le cas d’un t-test, la statistique de test

suit une loi de student (n-1).

• Si p-value très petite : « soit qque chose de très rare s’est

passé, soit H0 est fausse »

T-observée

P-value=Prob(T≥Tobs|H0)

Loi de Student « théorique »

Cad, si H0 vraie


Neyman-Pearson : test d’hypothèses

• On teste H0 : θ=θ0 contre H1 : θ=θ1

• On rejette H0 si T>c

• avec c lié à une valeur critique (seuil) préalablement

choisie

• On calcule ensuite les erreurs de type I et type II :

• Justification par le principe fréquentiel : Si on répète la

même procédure, l’erreur moyenne ne devrait pas

dépasser l’erreur calculée pour celle çi

00 HrejetHP 10 HacceptHP


Illustration

• H0 : µ=µ0 VS H1: µ=µ1

µ0 µ1 Puissance (1-β)

α (alpha)

β (beta)

Seuil de

décision


Remarques (1)

• α est lié à la probabilité d’observer l’effet de H0 sachant

les données

• α est choisi « a priori », souvent 5%

• Le seuil de décision Tcut est choisi de façon à ce que :

• Si T (stat de test) > Tcut, on dit que H0 est rejetée au

niveau 1- (95%)

• Une des difficultés consiste à «bien» choisir H1, ce qui

est souvent difficile.

Prob(T≥Tcut)=


Remarques (2)

• α et β antagonistes : abaisser l'une augmente immédiatement

l'autre, et la décision que doit prendre le chercheur est un

compromis adapté à la situation.

– erreur de type I (α) = condamner un innocent ;

– erreur de type II (β) = laisser un coupable en liberté.

• Plus la différence entre H1 et H0 est grande, plus les conclusions

qu'on peut tirer d'un test sont fiables, puisqu'à la fois les erreurs de

type I et II diminuent.

• On ne maîtrise pas ce paramètre, puisqu'il dépend des données que

l'on examine.

– On peut estimer la fiabilité d'un test avant de commencer une

expérience, et le cas échéant, on peut décider de ne pas l'entreprendre

si le test résultant s'annonce comme peu fiable.

– Par ex, une puissance inférieure à 80% est trop faible

– On peut ainsi décider d'une taille d'échantillon plus grande


Différences entre Fisher et NP

• Hypothèses :

– Fisher ne fait qu’une seule hypothèse (H0)

– NP a besoin de 2 hypothèses (bien spécifier H1)

• Rejet de H0 :

– Fisher : p-value de 10-30 rejette plus fortement que 10-2

– NP : la p-value importe peu, il faut seulement que p<alpha. Seul

le niveau de rejet de H0 est donné (95%)

• La théorie de Fisher est faite pour rejeter H0.

– Elle « exagère » l’effet en calculant une p-value dépendant de

l’ensemble des données qu’on aurait du observer sous H0


Les 3 options dans la pratique

• Revenons au z-test, cad H0: µ=0 contre H1 : µ≠0 dans le cas

gaussien

• Soit (ou z=2.9)

– Fisher dit :

• rejet de H0 avec p=0.021 (ou p=0.0037)

– Jeffrey (Bayes) dit :

• P(H0/D)=0.3 (ou P(H0/D) =0.1) • (en utilisant un a priori cauchy(0,σ))

– Neyman dit :

• rejet de H0 au seuil α=0.05 (pré-spécifié)

• Dans les deux cas

3.2n

xz


L’erreur à ne pas commettre

• Utiliser l’approche « classique » de Neyman et

l’interpréter selon Fisher.

• Cad, ne pas confondre p-value et alpha (P(rejeter H0/H0

vraie))

• Les p-values ne peuvent pas être interprétées comme

une probabilité !

• Rassurez vous, l’erreur est commune, y compris chez

les statisticiens


Et Johnson alors ?

• Fait partie de l’école Bayesienne

• A mis au point des tests bayesiens aux propriétés

comparables aux tests « classiques » (validés car

publiés)

• Compare le « bayes factor » et les p-values pour 765 t-

tests (Wetzel et al. 2011)

• En gros, il montre que des p-values très petites ne sont

pas forcément associées à des facteur de Bayes très

grands.

• Ce qui implique que nombre de conclusions ne sont pas

si solides que ça …


Argument visuel :

• Cela ressemble à un mélange de deux lois : les p-values

vraiment associées à un effet, plus un bruit uniforme


Il n’est pas seul

• En effet, le papier de Johnson est le dernier d’une très

longue série

• A mon sens, le fait que p<0.05 est insuffisant est bien

établi

• Dans tous les cas, j’espère vous avoir convaincu de ne

pas (trop) regarder p<0.1, et à éviter de parler de

« tendance »

• Ses conseils :

– Signification pour p<0.005

– Grande signification pour p<0.001

– Donner le Bayes factor quand cela est possible


Quelques conseils aux auteurs

• Utiliser le cadre de Neyman-Pearson, et ne pas interpréter les p-values

• Décider d’une règle pour terminer la collecte de données AVANT de la

commencer, et l’écrire dans l’article

• Au moins 20 observations par cellule, sinon produire une justification

sérieuse

• Lister l’ensemble des variables de l’étude

• Décrire toutes les conditions expérimentales testées, incluant les non-

significatives

• Si des observations sont enlevées, donner quand même les résultats

avec

• Si l’analyse inclut une covariable, il faut aussi donner les résultats sans

celle çi • Source : False-positive psychology undisclosed flexibility in data collection and analysis allows presenting anything as

significant, JP Simmons, LD Nelson, U Simonsohn - Psychological science, 2011


Quelques conseils (2)

• Ne pas attendre une méthode « magique » de la part des statisticiens

– La controverse dure depuis longtemps et il s’agit + de philosophie

que de maths !

• Modifier la façon de construire H0

– Remplacer H0 : μ =0 par H0 : |μ|<ε

• Ne pas éliminer les p-values, mais donner AUSSI les intervalles de

confiance

– En effet, un intervalle de confiance fournit toutes les informations

nécessaires

• Essayer de présenter les résultats graphiquement (boxplots etc.)

• Mettre en évidence un effet = mener une enquête et déterminer le

coupable !

– Un indice seul ne suffit pas

– Un faisceau d’indices peut constituer une preuve

– Mais généralement, un jury doit délibérer …


Attention cependant

• D’autres problèmes et pièges existent :

• Eviter les modèles trop complexes par rapport aux

données

– Ex : interaction triple pour un échantillon de taille 30

– C’est le principe de parcimonie

• Pb des tests multiples

– Tests de comparaisons multiples suivant une anova

par ex

– Pour 100 tests effectués, 5 résultats sont faux, mais

on ne sait pas lesquels …

• Etc …


N’oubliez pas :

• Les données finissent toujours par parler sous la torture

• Mais ce qu’elles disent n’a alors plus beaucoup de valeur.


Merci pour votre attention

Guillaume SAINT PIERRE

[email protected]

http://perso.lcpc.fr/guillaume.saint-pierre/

Tél. +33 (0)1 40 43 29 33

LIVIC - Laboratoire sur les Interactions Véhicules-Infrastructure-Conducteurs

14 , route de la Minière - Bâtiment 824 - Satory

78000 Versailles

http://www.inrets.fr/linstitut/unites-de-recherche-unites-de-service/livic/

Tél. +33 (0)1 40 43 29 01

















tout sur les p values

Data & Analytics