risques derreur statistique et test statistique origine de la problématique

Post on 03-Apr-2015

113 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Risques d’erreur statistique et test statistique

Origine de la problématique

Obtenir pile à pile ou face(Probabilité = 50%)

Échantillon 148%

Échantillon 252%

Échantillon 350%

Échantillon 445%

Fluctuations aléatoires

Même type de patients(Probabilité d'AVC = 12%)

Échantillon 19%

Échantillon 212%

Échantillon 316%

Échantillon 426%

Fluctuations aléatoires

Fluctuations aléatoires d'échantillonnage

Fortes pour des effectifs petits et moyens

Faibles pour des grands effectifs

Jamais nulles

Conséquences pour la comparaison de 2 échantillons

– les proportions observées dans 2 échantillons peuvent être différentes

– uniquement du fait du hasard– même si dans ces 2 échantillons la vraie probabilité était la même

les FAE sont susceptibles de fausser les comparaisons

Groupe T+ Groupe T-

Vrai risque = 10% Vrai risque = 10%

Effet du traitement = 0

Risque observé = 6% Risque observé = 12%

Différence observée = -6%

Conséquences des fluctuations

Problématique des comparaisons

Quand on ignore la réalité,

la différence observée de -6% est-elle ?

– une manifestation des fluctuations aléatoires, donc due uniquement au hasard

– la traduction d’une réelle différence entre les deux groupes, donc d’un effet non nul du traitement

Comment départager ces 2 possibilités ?

Solution : test statistique .

Conclure à l'existence d'une

différence

Décider d'utiliser le nouveau traitement

Grp T

Grp C

diff -6%

La conclusion doit être conforme à la réalitémais elle se base uniquement sur l’observé

But des comparaisons

Quel est le but des comparaisons ?

Effets des fluctuations dans une comparaison

Le hasard peut faire apparaître une différence qui n'existe pas en réalité

Inversement, le hasard peut réduire une différence qui existe réellement

donc 2 façons de fausser la conclusion

Risques d’erreur statistique

Risques de conclusions erronées

Deux risques d'erreur – Risque alpha– Risque bêta

Erreurs statistiques– dues uniquement au hasard

Vrai valeur12%

Échantillon 17.5%

Échantillon 215%

Différencenon réelle

Erreur statistique alpha

Conclure à l'existence d'une différence qui n'existe pas en réalité : faux positif

Vrai valeur12%

Échantillon 115%

Échantillon 215%

Fausse absencede différence

Vrai valeur19%

Erreur statistique bêta

Ne pas conclure à une différence qui existe pourtant en réalité : faux négatif

Risques d'erreur statistiques

Risque alpha : risque de conclure à une différence qui n’existe pas

Risque bêta : risque de ne pas mettre en évidence une différence qui existe réellement

Puissance : 1 - bêta : probabilité de mettre en évidence une différence qui existe réellement

Application à l’essai thérapeutique

Risque alpha : considérer comme efficace un traitement qui ne l’est pas

Risque bêta : ne pas conclure alors que le traitement est efficace

Puissance : montrer l’efficacité d’un traitement réellement efficace

Erreur alpha

Erreur bêtaDifférence

Pas de différence

Différence Pas de différence

alit

é

Conclusion

Tests statistiques

Outils d'aide à la décision

Principe– conclure à une différence– que si le risque de faire une erreur (de première espèce) est faible

Quantification du risque d'erreur alpha– à partir des données disponibles

(Risque de commettre une erreur alpha = risque alpha)

Principe général

p1 = 7%

p0 = 13%

Quelle est la probabilité de commettre une erreur

si je conclus à partir de ces données

à l'existence d'une réelle différence

Probabilité faible

Conclusion

Probabilité forte

Pas de conclusion

Conclure à l'existence d'une différence que si le risque de faire une conclusion erronée est faible

Démarche du test statistique

Calcul de la probabilité p p : probabilité que "la différence observée soit due

uniquement au hasard" p représente le risque de faire une conclusion erronée si

l'on décidait de conclure p est une quantification du risque alpha On ne conclut que si ce risque d'erreur est suffisamment

petit

Seuil de risque

Seuil de risque de conclusion erronée acceptable– seuil de risque alpha = 5%

p < 5%– on prend le risque de conclure

p > 5%– on ne conclut pas

< ou ?

Différence observée

Test

Différence significativep<0.05Il est peu probable que la différence observée soit due au hasard

Différence non significativep>0.05La probabilité que la différence observée soit due au hasard est forte

Signification statistique

Seuil de signification statistique

Le test statistique est un moyen

qui autorise à conclure à l'existence d'une différence

que si le risque de commettre une erreur est faible

Risque d'erreur faible = 5% (en général)– seuil de décision

Contrôle du risque alpha– mais le risque d'erreurs alpha persiste– 100 essais avec un traitement sans efficacité

• conclusion à tort à l'efficacité dans 5 essais

Réalisation du test

Calcul à partir des données de la probabilité de commettre une erreur alpha = p

p1 = 7%

p0 = 13%p = 0.04

p<5% conclusion à l'existence de la différenceparce que le risque de faire une conclusion fausse est faible

p1 = 20%

p0 = 17%p = 0.25

p>5% impossible de conclure à l'existence d'une différencecar si on concluait à une différence, le risque d'erreur serait trop fort

P < 0.05

En concluant à l'efficacité, on prend un risque de 5% de faire une conclusion erronée

5% est un risque d'erreur élevé– en pratique 2 essais significatifs– risque = 5% * 5% = 2.5/1000

Disparition du risque d'erreur bêta

Le risque bêta est incalculable Impossible de quantifier le risque d'erreur quand on fait

une conclusion d'absence de différence– il est donc impossible de faire ce type de conclusion– les tests permettent seulement de conclure à l'existence d'une

différence

– en cas de différence non signification• impossible de conclure

• et ne permet surtout pas de conclure à l'absence de différence vu que le risque d'erreur est inconnu

• "l'absence de preuve n'est pas la preuve de l'absence"

Résultatnon significatif

Résultatnon significatif

Absence réelle d'effet

Absence réelle d'effet

Manque de puissance

Manque de puissance

?

Différence non significative

Impossible de conclure Ne pas conclure à l’absence de différence «L’absence de preuve n’est pas la preuve de l’absence»

OBJECTIF : Evaluer l’efficacité d’une injection unique de tobramycine (T) chez des patientes traitées pour une pyélonéphrite aiguë noncompliquée par de la ciprofloxacine (CIP) (500 mg 2 fois par jourper os).RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupetobramycine et 58 dans le groupe placebo. E. coli a été isolé de façonprédominante et tous les germes isolés étaient sensibles à la ciprofloxacineRÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon prédominante et tous les germes isolés étaient sensibles à la ciprofloxacine et à la tobramycine. Deux échecs sont survenus dans le groupe CIP + T et 4 dans le groupe CIP + P (non significatif).CONCLUSION : L’administration d’une dose de tobramycine n’améliore aucun paramètre clinique dans le traitement des pyélonéphrites aiguës non compliquées traitées par de la ciprofloxacine par voie orale.

Dualité entre test et intervalle de confiance

définition des IC

Intervalle qui a 95% de chance de contenir la vraie valeur

il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%)

il est peu probable (prob 5%)– que la vraie valeur soit > à bs– ou que la vraie valeur soit < à bi– il est donc peu raisonnable de parier que la vraie valeur soit à

l'extérieur de l'IC

Intervalle de confiance

Différence = -6%

IC 95% = [-8%;-4%]

L’intervalle [-8%;-4%] à 95% de chance de contenir la vraie

valeur de la différence

reflète l'incertitude de l'estimation

Il n'est pas possible d'exclure que le vrai effet ne soit que

de -4%– situation la pire

– efficacité plus faible que les -6% de l'estimation ponctuelle

Ensemble des valeurs non statistiquement différentes du résultats

Résultat observé

NSp<0.05

IC 95%

Relation entre IC et test

IC d’une différence n'incluant pas 0– [-10% ; -4%]

– la probabilité d’avoir ce type d’intervalle si la vraie valeur est zero est <=5%

– donc il est possible de conclure à une différence non nulle car le risque d’erreur alpha est <=5%

= différence significative (au seuil de 5%)

IC de la différence des risques incluant 0– [-20% ; 20%]

= différence non significative

Différence0

P<0.05

NS

-5% [-10%,-2%]

-2% [-9%;+2%]

Pertinence clinique

Signification statistique pertinence clinique

Réduction de mortalité de 25% à 12%, p<0.05– réduction statistiquement significative– pertinente cliniquement

Réduction de mortalité de 2.3% à 2.1%, p<0.05– réduction statistiquement significative– peu pertinente cliniquement

Présentation théorique

Théorie des tests d'hypothèses

Hypothèse nulle– H0 : p1 - p0 = 0 (p1 = p0) (le traitement n'a pas

d'effet)

Hypothèse alternative– H1 : p1 - p0 0 (p1 p0) (le traitement à un effet)

Test statistique =– retenir une de ces 2 hypothèses– en fonction des données recueillies

Risques d'erreur alpha et bêta

= Prob[ accepter H1 alors que H0 est vraie ]

= Prob[ accepter H0 alors que H1 est vraie ]

RappelH0 : p1 = p0

H1 : p1 <> p0

Calcul de p

p = prob [ d'observer une différence au moins aussi importante que ce que l'on a observé alors que H0 est vraie ]

soit z = p1 - p0 la différence entre les 2 prop. p1 et p0 si H0 est vraie, z suit une loi normale (si n grand)

– moyenne 0 (H0)– écart type

– Principe du test : calculer la probabilité d'observer dans ce cas une différence au moins aussi grande que celle qui a été effectivement observée (par exemple 7% - 13% = -6%)

0 01 1

1 0

(1 )(1 ) p pp p

n n

z

f(x)

0

z observé

-6%

p = surface sous la courbePr(Z -6%)

Distribution de Z sous l'hypothèses nulle

p quantifie le degré de désaccord entre l'hypothèse nulle et ce qui a été observé

Rejet de l'hypothèse nulle H0

Autre façon de réaliser un test

But du test – rejeter H0 ( p1 - p0 = 0 )

– pour accepter H1 ( p1 - p0 0 )

– rejeter H0 conclusion = diff. significative– ne pas rejeter H0 conclusion = diff. non significative

– sans évaluation précise du p

Limites de rejet– valeurs de décision pour le rejet de H0– valeurs de différences observées– notées L (et -L)

Diff observée0-L L

PAS de rejet de H0Rejet Rejet

L est déterminé par le seuil choisi (5%)– par définition = Prob [conclure si H0]– Prob [ diff. observée <-L ou >L si H0] =

L défini les différences qui ont une probabilité faible d'être observées sous l'hypothèse nulle

-L LDifférence z

2.5% 2.5%

L = 1.96 – ( = écart type de la différence)

-1.96 1.96 x

95 %

Loi normale N(0,)

0

Rappel

– Exemple 1• diff. observée z = -5%

• L = 7% pour alpha=5% (-L = -7%)

• pas de rejet de H0

– Exemple 2• diff. observée z = 12%

• L = 7%

• rejet de H0

• conclusion : diff. significative au seuil de 5%

– Exemple 3• diff. observée z = -4%

• L = 2% (-L = -2%)

• rejet de H0

• conclusion : diff. significative au seuil de 5%

Possibilité de diff. significative aussi bien en cas de :– différence positive (p1 > p0)

– différence négative (p1 < p0)

Test bilatéral

Comparaison des 2 approches

Rejet de l'hypothèse nulle– calcul de L– si diff. observée <-L ou diff. observée >L

rejet de h0

diff significative

– si -L < diff observée < L pas de rejet de H0

diff non significative

Calcul de p– si p<0.05 diff. significative – si p>0.05 diff. non significative

L dépend de– alpha– p1 p0– n1 n0

p dépend de – différence observée– p1 p0– n1 n0

Écart type de la différence (erreur standard)

Écart type de la différence (erreur standard)

Exemple : – Diff. Observée = -5%– approche par rejet de H0

• conclusion : diff. Significative

• le risque d'erreur encouru en concluant à la différence est < 5%

– approche par calcul de p • résultat : p = 0.03

• prob de cette diff. soit due uniquement au hasard est de 0.03

• le risque d'erreur encouru en concluant à la différence est de 3%

Résumé

Erreur alpha– type d'erreur statistique

Risque alpha– risque de commettre une erreur alpha

Seuil de la signification statistique– valeur de risque alpha consenti– en général 5%

p – quantification à partir des données observées du risque alpha

Erreurs d'interprétation

p n’est pas la prob. de l’hypothèse nulle– p est la prob. d’obtenir le résultat observé si H0 est vraie

p n’est pas la prob. que le ttt. n’ait pas d’effet– p est la prob. d’obtenir le résultat qui a été observé si le ttt. est en

réalité inefficace

"obtenir le résultat observé" = obtenir une diff. au moins aussi importante que le résultat observé– cf. définition de p– rappel : avec une VA continue, la prob d'une valeur est nulle

p<0.05 ne signifie pas qu’il y a moins de 5% de chance que le ttt. soit sans effet

p<0.05 ne signifie pas qu’il y a 95% de chance que le ttt. est un effet– il y a moins de 5% de chance d’observer le résultat obtenu si le ttt.

est sans effet

p n’est pas Pr(H0) ou 1-Pr(H1)

Bilatéral / unilatéral

Valeur de la différence

0traitement A > traitement B traitement A < traitement B

Différence non significative

Différence non significative

Diff. significative Diff. significative

Diff. significativeTest unilatéral

Test bilatéral

Risque relatif

1

Différence non significative

Différence non significative

Diff. significative Diff. significative

Diff. significativeTest

unilatéral

Test bilatéral

0,70 0,980,79 1,45

Conséquences

Un résultat NS en bilatéral peut être significatif en unilatéral pas de choix a posteriori

Répétitions des tests statistiques

Répétition des tests

Plusieurs tests réalisés pour répondre à une même question– par exemple plusieurs critère de jugement

Conclusion à un effet à partir du moment où il existe au moins un test significatif

Le risque de la conclusion est bien supérieure à 5% Inflation du risque alpha

Rappel, avec un ttt. sans effet,– sur 100 tests, il y en aura 5 significatifs (en moyenne)

Conclusion1 test Contrôle parfait du risque alpha (5%)

Conclusion

Test 1

Test 2

Test 3

Test 4

Le risque de conclure à tort est > à 5%

(seuil de 5%)

A partir du moment où au moins 1 test est

significatif

Test 1

Risque de conclure à tort à une différence

= 5%

Test 2

Risque de conclure à tort à une différence

= 5%

Test 4

Risque de conclure à tort à une différence

= 5%

Test 3

Risque de conclure à tort à une différence

= 5%

Globalement, le risque de conclure à tort à une différence lors de ces 4 comparaisons est bien plus important que 5%.

Aux dés, la probabilité d ’obtenir un six est plus forte avec 3 dés qu ’avec un seul

Comparaisons multiples

Comparaisons multiples

Avec un traitement sans efficacité en faisant 10 tests statistiques (p.e. 10 essais) nous avons 40% de risque de faire au moins une

conclusion (à tort)

Nb de tests Risque alpha global

5 0.23

10 0.40

20 0.64

50 0.92

1 1k

global

Critères de jugement

Aspirine pour la prévention des événements cardiovasculaires

Critères de jugement– mortalité totale– Événements cardiovasculaires mortels ou non mortels– DC cardiovasculaires– Mort subite– Infarctus– Accident vasculaire cérébraux– Interventions de revascularisation

Risque alpha de conclure à tort à l'efficacité ?

Critère principal

• Décès de toute cause

Critères secondaires

• Décès cardiovasculaire

• Mort subite

• Infarctus

• Accident vasculaire cérébraux

• Chirurgie

• Décès de toute cause

• Décès cardiovasculaire

• Mort subite

• Infarctus

• Accident vasculaire cérébraux

• Chirurgie

Pas de définition de critère principal

Risque de conclure à tort à l ’efficacité du traitement = 30%

Risque de conclure à tort à l ’efficacité du traitement = 30%

7 tests statistiques

Risque de conclure à tort à l ’efficacité du

traitement = 5%

Risque de conclure à tort à l ’efficacité du

traitement = 5%

Définition a priori d ’un critère principal

Un seul test statistique

Critère de jugement principal

Critère principal

Conclusion que si le critère principal est significatif Critères secondaires : explicatifs

Multiplicité des critères de jugement - Exemple

In women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Ward’striangle in the 60–69 y group, and upper and total radius in the 70–79 y group.

Autres situations de répétition des tests

mesures répétées au cours du temps

Essai 0.92 NS

1 Age<75 0.92 NS2 Age>75 0.95 NS

3 Hommes 0.92 NS4 Femmes 0.99 NS

5 Antécédents d'infarctus 0.87 NS6 Pas d'antécédents d'infarctus 1.03 NS

7 Prise d'aspirine 0.78 p<0.058 Pas d'aspirine 1.09 NS

Analyse en sous-groupes - Essai non concluant

1 Age<75 test 1 risque erreur 5%2 Age>75 test 2 risque erreur 5%

3 Hommes test 3 risque erreur 5%4 Femmes test 4 risque erreur 5%

5 Antécédents d'infarctus test 5 risque erreur 5%6 Pas d'ATCD d'infarctus test 6 risque erreur 5%

7 Prise d'aspirine test 7 risque erreur 5%8 Pas d'aspirine test 8 risque erreur 5%

Limites- Multiplicité des tests

Essai 0.78 p<0.05

1 Age<75 0.65 p<0.012 Age>75 0.90 NS

3 Hommes 0.76 p<0.054 Femmes 0.78 p<0.05

5 Antécédent d'infarctus 0.97 NS6 Pas d'antécédent d'infarctus 0.70 p<0.01

7 Diabétique 0.50 p<0.0018 Non diabétique 0.91 p<0.05

Analyses en sous groupes - Essai concluant

Analyses intermédiaires

en cours d’essai, avant que tous les patients prévus aient été recrutés

et/ou avant la fin de la période de suivi initialement prévue

But arrêter prématurément– pour efficacité– pour toxicité– pour futilité

Ajustement du seuil de signification

Méthode de Bonferroni– Pour k comparaisons, le seuil ajusté est :

– Pour k=3, saj = 5% / 3 = 1.67%

– Quand est petit,

– Donc pour conserver un risque alpha global de 5% :

– Inconvénient : fait l’hypothèse d’une stricte indépendance des variables testées méthode conservatrice

ajsk

1 1

1 1

k

k

k

k

0.05

0.05

k

k

Ajustement du seuil de signification - 2

Méthode de Tukey

– Pour k=3, saj = 5% / 1.73 = 2.89%

ajsk

Cas 1

3 analyses intermédiaires + 1 analyse finale = 4 comparaisons

Arrêt prématuré de l’essai

Analyse intermédiaire

1 2 3

Analyse finale

p = 0.10 p = 0.011

5% / 4 1.25%ajs

Cas 2

Pas d’arrêt prématuré mais conclusion à l’efficacité

Analyse intermédiaire

1 2 3

Analyse finale

p = 0.25 p = 0.08 p = 0.04 p = 0.01

Cas 3

Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)

Analyse intermédiaire

1 2 3

Analyse finale

p = 0.42 p = 0.28 p = 0.12 p = 0.04

Cas 4

Résultat non significatif

Analyse intermédiaire

1 2 3

Analyse finale

P = 0.89 p = 0.48 p = 0.25 p = 0.10

Conclusion essai 1– pas de démonstration de l'efficacité

Conclusion essai 2– démonstration de l'efficacité de manière statistiquement

significative (p<0.05)– sur les 3 premiers critères de jugement

Essai 1 Essai 2

Infarctus mortels et non mortels p=0.03 p=0.001

infarctus non mortels p=0.05 p=0.010

décès par infarctus p=0.02 p=0.010

décès de toute cause p=0.06 p=0.03

Catalogue des tests statistiques

Taille de l’échantillon

Avec les échantillons de grandes tailles– les distributions des

• moyennes

• proportions

• différence de moyenne

• différence de proportions

sont des distributions normales

--> calcul simple de p et des IC

Avec les échantillons de petites tailles (n<30)– ces distributions ne sont pas normales (en général)

• (en général inconnues)

– techniques spéciales dites "non paramétriques"

Variable continue– Données : distribution normale

• moyenne : distribution normale qq soit n

– Données : distribution quelconque symétrique• moyenne : distribution normale qq n>30

– Données : distribution quelconque• moyenne : distribution normale qq n>100

Variable binaire– proportion : distribution normale qd n>30

Séries statistiques appariées

2 séries statistiques provenant de l'observation des mêmes sujets (unités statistiques)

2 méthodes de dosage de la glycémie A et B

les 2 méthodes sont appliquées aux mêmes sujets– pour chaque patient : 2 valeurs, une avec chaque méthode– = 2 séries appariées

2 groupes de patients différents– méthode A utilisée avec le 1er grp– méthode B utilisée avec le 2e grp– = 2 séries non appariées

Catalogue des tests statistiques

Le test utilisé doit être précisé avec le résultat

Un test pour chaque situation définie par :

– type de la variable (continue, binaire)

– petit ou grand effectif

– séries appariées ou non

Var. continues (comparaison des moyennes)

– Séries non appariées• grand effectif

– test t (test de Student), Test z

• test non paramétrique– Test de Wilcoxon (Mann-Whitney)

– Séries appariées• grand effectif

– test t pour séries appariées (Student pour séries appariées)

• test non paramétrique– Test de Wilcoxon pour séries appariées

2

Var. binaires (comparaison des proportions)

– Séries non appariées• grand effectif

– Chi 2 ( )

• test non paramétrique– Test exact de Fisher

– Séries appariées– test de McNemar

Var. qualitative à plusieurs modalités– idem var. binaires

top related