statistique de l'essai clinique

54
Comprendre les résultats statistiques Michel Cucherat

Upload: michel-cucherat

Post on 14-Jun-2015

1.012 views

Category:

Documents


6 download

DESCRIPTION

Concepts statistiques utilisés dasn l'essai clinique

TRANSCRIPT

Page 1: Statistique de l'essai clinique

Comprendre les résultats statistiques

Michel Cucherat

Page 2: Statistique de l'essai clinique

Obtenir pile à pile ou face(Probabilité = 50%)

Échantillon 148%

Échantillon 252%

Échantillon 350%

Échantillon 445%

Fluctuations aléatoires

Page 3: Statistique de l'essai clinique

Même type de patients(Probabilité d'AVC = 12%)

Échantillon 19%

Échantillon 212%

Échantillon 316%

Échantillon 426%

Fluctuations aléatoires

Page 4: Statistique de l'essai clinique

Conséquences pour la comparaison de 2 échantillons

– les proportions observées dans 2 échantillons peuvent être différentes

– uniquement du fait du hasard– même si dans ces 2 échantillons la vraie probabilité était la même

les FAE sont susceptibles de fausser les comparaisons

Page 5: Statistique de l'essai clinique

Groupe T+ Groupe T-

Vrai risque = 10% Vrai risque = 10%

Effet du traitement = 0

Risque observé = 6% Risque observé = 12%

Différence observée = -6%

Conséquences des fluctuations

Page 6: Statistique de l'essai clinique

Problématique des comparaisons

Quand on ignore la réalité,

la différence observée de -6% est-elle ?

– une manifestation des fluctuations aléatoires, donc due uniquement au hasard

– la traduction d’une réelle différence entre les deux groupes, donc d’un effet non nul du traitement

Comment départager ces 2 possibilités ?

Solution : test statistique .

Page 7: Statistique de l'essai clinique

Conclure à l'existence d'une

différence

Décider d'utiliser le nouveau traitement

Grp T

Grp C

diff -6%

La conclusion doit être conforme à la réalitémais elle se base uniquement sur l’observé

But des comparaisons

Quel est le but des comparaisons ?

Page 8: Statistique de l'essai clinique

Effets des fluctuations dans une comparaison

Le hasard peut faire apparaître une différence qui n'existe pas en réalité

Inversement, le hasard peut réduire une différence qui existe réellement

donc 2 façons de fausser la conclusion

Page 9: Statistique de l'essai clinique

Vrai valeur12%

Échantillon 17.5%

Échantillon 215%

Différencenon réelle

Erreur statistique alpha

Conclure à l'existence d'une différence qui n'existe pas en réalité : faux positif

Page 10: Statistique de l'essai clinique

Vrai valeur12%

Échantillon 115%

Échantillon 215%

Fausse absencede différence

Vrai valeur19%

Erreur statistique bêta

Ne pas conclure à une différence qui existe pourtant en réalité : faux négatif

Page 11: Statistique de l'essai clinique

Tests statistiques

Outils d'aide à la décision

Principe– conclure à une différence– que si le risque de faire une erreur (de première espèce) est faible

Quantification du risque d'erreur alpha– à partir des données disponibles

(Risque de commettre une erreur alpha = risque alpha)

Page 12: Statistique de l'essai clinique

Démarche du test statistique

Calcul de la probabilité p– p : probabilité que "la différence observée soit due uniquement au

hasard"

p représente le risque de faire une conclusion erronée si l'on décidait de conclure

p est une quantification du risque alpha On ne conclut que si ce risque d'erreur est suffisamment

petit

Page 13: Statistique de l'essai clinique

5% ?

Un risque de 5% est-il acceptable pour décider de l'utilisation d'un traitement ?

Exigence réglementaire de 2 essais significatifs– alpha de la décision 5%*5%=2.5/1000

Page 14: Statistique de l'essai clinique

Résultatnon significatif

Résultatnon significatif

Absence réelle d'effet

Absence réelle d'effet

Manque de puissance

Manque de puissance

?

Différence non significative

Impossible de conclure Ne pas conclure à l’absence de différence «L’absence de preuve n’est pas la preuve de l’absence»

Page 15: Statistique de l'essai clinique

OBJECTIF : Evaluer l’efficacité d’une injection unique de tobramycine (T) chez des patientes traitées pour une pyélonéphrite aiguë noncompliquée par de la ciprofloxacine (CIP) (500 mg 2 fois par jour per os)

RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon prédominante et tous les germes isolés étaient sensibles à la ciprofloxacine et à la tobramycine. Deux échecs sont survenus dans le groupe CIP + T et 4 dans le groupe CIP + P (non significatif).

CONCLUSION : L’administration d’une dose de tobramycine n’améliore aucun paramètre clinique dans le traitement des pyélonéphrites aiguës non compliquées traitées par de la ciprofloxacine par voie orale.

Page 16: Statistique de l'essai clinique
Page 17: Statistique de l'essai clinique

Répétitions des tests statistiques

Page 18: Statistique de l'essai clinique

Répétition des tests

Plusieurs tests réalisés pour répondre à une même question– par exemple plusieurs critère de jugement

Conclusion à un effet à partir du moment où il existe au moins un test significatif

Le risque de la conclusion est bien supérieure à 5%= Inflation du risque alpha

Rappel, avec un ttt. sans effet,– sur 100 tests, il y en aura 5 significatifs (en moyenne)

Page 19: Statistique de l'essai clinique

Conclusion1 test Contrôle parfait du risque alpha (5%)

Conclusion

Test 1

Test 2

Test 3

Test 4

Le risque de conclure à tort est > à 5%

(seuil de 5%)

A partir du moment où au moins 1 test est

significatif

Page 20: Statistique de l'essai clinique

Test 1

Risque de conclure à tort à une différence

= 5%

Test 2

Risque de conclure à tort à une différence

= 5%

Test 4

Risque de conclure à tort à une différence

= 5%

Test 3

Risque de conclure à tort à une différence

= 5%

Globalement, le risque de conclure à tort à une différence lors de ces 4 comparaisons est bien plus important que 5%.

Aux dés, la probabilité d ’obtenir un six est plus forte avec 3 dés qu ’avec un seul

Comparaisons multiples

Page 21: Statistique de l'essai clinique

Comparaisons multiples

Avec un traitement sans efficacité en faisant 10 tests statistiques (p.e. 10 essais) nous avons 40% de risque de faire au moins une

conclusion (à tort)

Nb de tests Risque alpha global

5 0.23

10 0.40

20 0.64

50 0.92

1 1k

global

Page 22: Statistique de l'essai clinique

Inflation risque alpha

Situations d’inflation du risque par répétition des comparaisons :– Absence de critère principal – Analyses en sous groupes– Recherche de l’effet répété dans le temps– Analyses intermédiaires « non protégées »

Page 23: Statistique de l'essai clinique

Critère principal

• Décès de toute cause

Critères secondaires

• Décès cardiovasculaire

• Mort subite

• Infarctus

• Accident vasculaire cérébraux

• Chirurgie

• Décès de toute cause

• Décès cardiovasculaire

• Mort subite

• Infarctus

• Accident vasculaire cérébraux

• Chirurgie

Pas de définition de critère principal

Risque de conclure à tort à l ’efficacité du traitement = 30%

Risque de conclure à tort à l ’efficacité du traitement = 30%

6 tests statistiques

Critère de jugement principal

Risque de conclure à tort à l ’efficacité du

traitement = 5%

Risque de conclure à tort à l ’efficacité du

traitement = 5%

Définition a priori d ’un critère principal

Un seul test statistique

Page 24: Statistique de l'essai clinique

Critère principal

Conclusion que si le critère principal est significatif Critères secondaires : explicatifs

Page 25: Statistique de l'essai clinique

Multiplicité des comparaisons - Exemple

In women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Ward’s triangle in the 60–69 y group, and upper and total radius in the 70–79 y group.

Page 26: Statistique de l'essai clinique

Autres situations de répétition des tests

mesures répétées au cours du temps

Page 27: Statistique de l'essai clinique

Sous groupe

Page 28: Statistique de l'essai clinique

On a comparé sur 2 groupes de 120 malades un oxygénateur cérébral à un placebo.

Le critère d’évaluation principal était évalué par l’échelle d’appréciation clinique en gériatrie (EACG).

Globalement les résultats ne montraient pas de différence significative.

Cependant, si l’on éliminait les gens trop anxieux (score d’Hamilton >18), en ne prenant en compte que les femmes (les hommes semblent moins répondeurs), la différence devient hautement significative sur la tranche d’âge 70 à 80 ans, ce qui montre bien l’activité du produit chez les gens âgés.

Page 29: Statistique de l'essai clinique

Essai 0.92 NS

1 Age<75 0.92 NS2 Age>75 0.95 NS

3 Hommes 0.92 NS4 Femmes 0.99 NS

5 Antécédents d'infarctus 0.87 NS6 Pas d'antécédents d'infarctus 1.03 NS

7 Prise d'aspirine 0.78 p<0.058 Pas d'aspirine 1.09 NS

Analyse en sous-groupes - Essai non concluant

Page 30: Statistique de l'essai clinique

1 Age<75 test 1 risque erreur 5%2 Age>75 test 2 risque erreur 5%

3 Hommes test 3 risque erreur 5%4 Femmes test 4 risque erreur 5%

5 Antécédents d'infarctus test 5 risque erreur 5%6 Pas d'ATCD d'infarctus test 6 risque erreur 5%

7 Prise d'aspirine test 7 risque erreur 5%8 Pas d'aspirine test 8 risque erreur 5%

Limites- Multiplicité des tests

Page 31: Statistique de l'essai clinique

Essai 0.78 p<0.05

1 Age<75 0.65 p<0.012 Age>75 0.90 NS

3 Hommes 0.76 p<0.054 Femmes 0.78 p<0.05

5 Antécédent d'infarctus 0.97 NS6 Pas d'antécédent d'infarctus 0.70 p<0.01

7 Diabétique 0.50 p<0.0018 Non diabétique 0.91 p<0.05

Analyses en sous groupes - Essai concluant

Page 32: Statistique de l'essai clinique

Lancet 2005; 365: 176–86

Page 33: Statistique de l'essai clinique

Analyses en sous groupes

Résultat de nature exploratoire– hypothèse non formulée a priori– aucune conclusion définitive possible– inflation risque alpha et bêta

Page 34: Statistique de l'essai clinique

Sous groupes (suite)

Résultat global négatif– recherche du sous groupe dans lequel le traitement marche– comparaisons multiples : inflation du risque alpha– approche post hoc

• l'hypothèse est testée sur les données qui ont permis de la générer

Résultats global positif– recherche des patients chez lequel le traitement ne marche pas– inflation risque bêta– hypothèse d'absence d'effet

• donc limite de non infériorité

Page 35: Statistique de l'essai clinique

Hétérogénéité

Utilisation des sous groupes pour vérifier la stabilité de l'effet

Test d'interaction– RRsg1<>RRsg2

Aspect cognitif (non décisionnel) Génération de nouvelles hypothèses

Page 36: Statistique de l'essai clinique
Page 37: Statistique de l'essai clinique
Page 38: Statistique de l'essai clinique
Page 39: Statistique de l'essai clinique
Page 40: Statistique de l'essai clinique
Page 41: Statistique de l'essai clinique

Analyses intermédiaires

Page 42: Statistique de l'essai clinique

Analyses intermédiaires

en cours d’essai, avant que tous les patients prévus aient été recrutés

et/ou avant la fin de la période de suivi initialement prévue

But arrêter prématurément– pour efficacité– pour toxicité– pour futilité

Page 43: Statistique de l'essai clinique

Ajustement du seuil de signification

Méthode de Bonferroni– Pour k comparaisons, le seuil ajusté est :

– Pour k=3, saj = 5% / 3 = 1.67%

– Quand est petit,

– Donc pour conserver un risque alpha global de 5% :

– Inconvénient : fait l’hypothèse d’une stricte indépendance des variables testées méthode conservatrice

ajs k

1 1

1 1

k

k

k

k

0.05

0.05

k

k

Page 44: Statistique de l'essai clinique

Ajustement du seuil de signification - 2

Méthode de Tukey

– Pour k=3, saj = 5% / 1.73 = 2.89%

ajsk

Page 45: Statistique de l'essai clinique

Cas 1

3 analyses intermédiaires + 1 analyse finale = 4 comparaisons

Arrêt prématuré de l’essai

Analyse intermédiaire

1 2 3

Analyse finale

p = 0.10 p = 0.011

5% / 4 1.25%ajs

Page 46: Statistique de l'essai clinique

Cas 2

Pas d’arrêt prématuré mais conclusion à l’efficacité

Analyse intermédiaire

1 2 3

Analyse finale

p = 0.25 p = 0.08 p = 0.04 p = 0.01

Page 47: Statistique de l'essai clinique

Cas 3

Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)

Analyse intermédiaire

1 2 3

Analyse finale

p = 0.42 p = 0.28 p = 0.12 p = 0.04

Page 48: Statistique de l'essai clinique

Cas 4

Résultat non significatif

Analyse intermédiaire

1 2 3

Analyse finale

P = 0.89 p = 0.48 p = 0.25 p = 0.10

Page 49: Statistique de l'essai clinique

Autres méthodes

Fonctions de dépenses du risque alpha

Méthode Analyses intermédiaires

1 2 3 4

Analyse finale

Pocock 0.017 0.017 0.017 0.017 0.017

O’Brien et Flemming

0.00005 0.004 0.012 0.025 0.04

Lan et Demets 1

0.015 0.016 0.017 0.018 0.019

Lan et Demets 2

0.00001 0.002 0.011 0.025 0.041

Peto 0.001 0.001 0.001 0.001 0.05

Page 50: Statistique de l'essai clinique

P ajusté

Problème : différents p donnés par les tests– exemple : 0.01, 0.02, 0.20

Problème de l'intervalle de confiance

ajp pk

Page 51: Statistique de l'essai clinique

Méthode séquentielle

Analyse en continue Test triangulaire

Page 52: Statistique de l'essai clinique

CARDS

interim analysis when 25%, 50%, and 75% of the total anticipated primary endpoints had accrued.

The interim analyses used an asymmetric (Peto-Haybittle) type rule and we prespecified that the board might advise termination if a significant difference emerged – in favour of atorvastatin (at p<0·0005 one-sided, p<0·001

twosided at any analysis) or – in favour of placebo (at p<0·005, 0·1, and 0·2 one-sided,

for the three interim analyses, respectively).

At the second interim analysis a significant difference was reported in favour of atorvastatin at p<0·001 (two-sided)

Page 53: Statistique de l'essai clinique

CARDS

Page 54: Statistique de l'essai clinique

Ajustement pour les critères secondaires

Conclusion essai 1– pas de démonstration de l'efficacité

Conclusion essai 2– démonstration de l'efficacité de manière statistiquement

significative (p<0.05)– sur les 3 premiers critères de jugement

Essai 1 Essai 2

Infarctus mortels et non mortels p=0.03 p=0.001

infarctus non mortels p=0.05 p=0.010

décès par infarctus p=0.02 p=0.010

décès de toute cause p=0.06 p=0.03