statistique de l'essai clinique

Comprendre les résultats statistiques

Michel Cucherat

Obtenir pile à pile ou face(Probabilité = 50%)

Échantillon 148%

Échantillon 252%

Échantillon 350%

Échantillon 445%

Fluctuations aléatoires

Même type de patients(Probabilité d'AVC = 12%)

Échantillon 19%

Échantillon 212%

Échantillon 316%

Échantillon 426%

Fluctuations aléatoires

Conséquences pour la comparaison de 2 échantillons

– les proportions observées dans 2 échantillons peuvent être différentes

– uniquement du fait du hasard– même si dans ces 2 échantillons la vraie probabilité était la même

les FAE sont susceptibles de fausser les comparaisons

Groupe T+ Groupe T-

Vrai risque = 10% Vrai risque = 10%

Effet du traitement = 0

Risque observé = 6% Risque observé = 12%

Différence observée = -6%

Conséquences des fluctuations

Problématique des comparaisons

Quand on ignore la réalité,

la différence observée de -6% est-elle ?

– une manifestation des fluctuations aléatoires, donc due uniquement au hasard

– la traduction d’une réelle différence entre les deux groupes, donc d’un effet non nul du traitement

Comment départager ces 2 possibilités ?

Solution : test statistique .

Conclure à l'existence d'une

différence

Décider d'utiliser le nouveau traitement

Grp T

Grp C

diff -6%

La conclusion doit être conforme à la réalitémais elle se base uniquement sur l’observé

But des comparaisons

Quel est le but des comparaisons ?

Effets des fluctuations dans une comparaison

Le hasard peut faire apparaître une différence qui n'existe pas en réalité

Inversement, le hasard peut réduire une différence qui existe réellement

donc 2 façons de fausser la conclusion

Vrai valeur12%

Échantillon 17.5%

Échantillon 215%

Différencenon réelle

Erreur statistique alpha

Conclure à l'existence d'une différence qui n'existe pas en réalité : faux positif

Vrai valeur12%

Échantillon 115%

Échantillon 215%

Fausse absencede différence

Vrai valeur19%

Erreur statistique bêta

Ne pas conclure à une différence qui existe pourtant en réalité : faux négatif

Tests statistiques

Outils d'aide à la décision

Principe– conclure à une différence– que si le risque de faire une erreur (de première espèce) est faible

Quantification du risque d'erreur alpha– à partir des données disponibles

(Risque de commettre une erreur alpha = risque alpha)

Démarche du test statistique

Calcul de la probabilité p– p : probabilité que "la différence observée soit due uniquement au

hasard"

p représente le risque de faire une conclusion erronée si l'on décidait de conclure

p est une quantification du risque alpha On ne conclut que si ce risque d'erreur est suffisamment

petit

5% ?

Un risque de 5% est-il acceptable pour décider de l'utilisation d'un traitement ?

Exigence réglementaire de 2 essais significatifs– alpha de la décision 5%*5%=2.5/1000

Résultatnon significatif

Résultatnon significatif

Absence réelle d'effet

Absence réelle d'effet

Manque de puissance

Manque de puissance

?

Différence non significative

Impossible de conclure Ne pas conclure à l’absence de différence «L’absence de preuve n’est pas la preuve de l’absence»

OBJECTIF : Evaluer l’efficacité d’une injection unique de tobramycine (T) chez des patientes traitées pour une pyélonéphrite aiguë noncompliquée par de la ciprofloxacine (CIP) (500 mg 2 fois par jour per os)

RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon prédominante et tous les germes isolés étaient sensibles à la ciprofloxacine et à la tobramycine. Deux échecs sont survenus dans le groupe CIP + T et 4 dans le groupe CIP + P (non significatif).

CONCLUSION : L’administration d’une dose de tobramycine n’améliore aucun paramètre clinique dans le traitement des pyélonéphrites aiguës non compliquées traitées par de la ciprofloxacine par voie orale.

Répétitions des tests statistiques

Répétition des tests

Plusieurs tests réalisés pour répondre à une même question– par exemple plusieurs critère de jugement

Conclusion à un effet à partir du moment où il existe au moins un test significatif

Le risque de la conclusion est bien supérieure à 5%= Inflation du risque alpha

Rappel, avec un ttt. sans effet,– sur 100 tests, il y en aura 5 significatifs (en moyenne)

Conclusion1 test Contrôle parfait du risque alpha (5%)

Conclusion

Test 1

Test 2

Test 3

Test 4

Le risque de conclure à tort est > à 5%

(seuil de 5%)

A partir du moment où au moins 1 test est

significatif

Test 1

Risque de conclure à tort à une différence

= 5%

Test 2


= 5%

Test 4


= 5%

Test 3


= 5%

Globalement, le risque de conclure à tort à une différence lors de ces 4 comparaisons est bien plus important que 5%.

Aux dés, la probabilité d ’obtenir un six est plus forte avec 3 dés qu ’avec un seul

Comparaisons multiples

Comparaisons multiples

Avec un traitement sans efficacité en faisant 10 tests statistiques (p.e. 10 essais) nous avons 40% de risque de faire au moins une

conclusion (à tort)

Nb de tests Risque alpha global

5 0.23

10 0.40

20 0.64

50 0.92

1 1k

global

Inflation risque alpha

Situations d’inflation du risque par répétition des comparaisons :– Absence de critère principal – Analyses en sous groupes– Recherche de l’effet répété dans le temps– Analyses intermédiaires « non protégées »

Critère principal

• Décès de toute cause

Critères secondaires

• Décès cardiovasculaire

• Mort subite

• Infarctus

• Accident vasculaire cérébraux

• Chirurgie

• Décès de toute cause

• Décès cardiovasculaire

• Mort subite

• Infarctus

• Accident vasculaire cérébraux

• Chirurgie

Pas de définition de critère principal

Risque de conclure à tort à l ’efficacité du traitement = 30%

Risque de conclure à tort à l ’efficacité du traitement = 30%

6 tests statistiques

Critère de jugement principal

Risque de conclure à tort à l ’efficacité du

traitement = 5%

Risque de conclure à tort à l ’efficacité du

traitement = 5%

Définition a priori d ’un critère principal

Un seul test statistique

Critère principal

Conclusion que si le critère principal est significatif Critères secondaires : explicatifs

Multiplicité des comparaisons - Exemple

In women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Ward’s triangle in the 60–69 y group, and upper and total radius in the 70–79 y group.

Autres situations de répétition des tests

mesures répétées au cours du temps

Sous groupe

On a comparé sur 2 groupes de 120 malades un oxygénateur cérébral à un placebo.

Le critère d’évaluation principal était évalué par l’échelle d’appréciation clinique en gériatrie (EACG).

Globalement les résultats ne montraient pas de différence significative.

Cependant, si l’on éliminait les gens trop anxieux (score d’Hamilton >18), en ne prenant en compte que les femmes (les hommes semblent moins répondeurs), la différence devient hautement significative sur la tranche d’âge 70 à 80 ans, ce qui montre bien l’activité du produit chez les gens âgés.

Essai 0.92 NS

1 Age<75 0.92 NS2 Age>75 0.95 NS

3 Hommes 0.92 NS4 Femmes 0.99 NS

5 Antécédents d'infarctus 0.87 NS6 Pas d'antécédents d'infarctus 1.03 NS

7 Prise d'aspirine 0.78 p<0.058 Pas d'aspirine 1.09 NS

Analyse en sous-groupes - Essai non concluant

1 Age<75 test 1 risque erreur 5%2 Age>75 test 2 risque erreur 5%

3 Hommes test 3 risque erreur 5%4 Femmes test 4 risque erreur 5%

5 Antécédents d'infarctus test 5 risque erreur 5%6 Pas d'ATCD d'infarctus test 6 risque erreur 5%

7 Prise d'aspirine test 7 risque erreur 5%8 Pas d'aspirine test 8 risque erreur 5%

Limites- Multiplicité des tests

Essai 0.78 p<0.05

1 Age<75 0.65 p<0.012 Age>75 0.90 NS

3 Hommes 0.76 p<0.054 Femmes 0.78 p<0.05

5 Antécédent d'infarctus 0.97 NS6 Pas d'antécédent d'infarctus 0.70 p<0.01

7 Diabétique 0.50 p<0.0018 Non diabétique 0.91 p<0.05

Analyses en sous groupes - Essai concluant

Lancet 2005; 365: 176–86

Analyses en sous groupes

Résultat de nature exploratoire– hypothèse non formulée a priori– aucune conclusion définitive possible– inflation risque alpha et bêta

Sous groupes (suite)

Résultat global négatif– recherche du sous groupe dans lequel le traitement marche– comparaisons multiples : inflation du risque alpha– approche post hoc

• l'hypothèse est testée sur les données qui ont permis de la générer

Résultats global positif– recherche des patients chez lequel le traitement ne marche pas– inflation risque bêta– hypothèse d'absence d'effet

• donc limite de non infériorité

Hétérogénéité

Utilisation des sous groupes pour vérifier la stabilité de l'effet

Test d'interaction– RRsg1<>RRsg2

Aspect cognitif (non décisionnel) Génération de nouvelles hypothèses

Analyses intermédiaires

Analyses intermédiaires

en cours d’essai, avant que tous les patients prévus aient été recrutés

et/ou avant la fin de la période de suivi initialement prévue

But arrêter prématurément– pour efficacité– pour toxicité– pour futilité

Ajustement du seuil de signification

Méthode de Bonferroni– Pour k comparaisons, le seuil ajusté est :

– Pour k=3, saj = 5% / 3 = 1.67%

– Quand est petit,

– Donc pour conserver un risque alpha global de 5% :

– Inconvénient : fait l’hypothèse d’une stricte indépendance des variables testées méthode conservatrice

ajs k

1 1

1 1

k

k

k

k

0.05

0.05

k

k

Ajustement du seuil de signification - 2

Méthode de Tukey

– Pour k=3, saj = 5% / 1.73 = 2.89%

ajsk

Cas 1

3 analyses intermédiaires + 1 analyse finale = 4 comparaisons

Arrêt prématuré de l’essai

Analyse intermédiaire

1 2 3

Analyse finale

p = 0.10 p = 0.011

5% / 4 1.25%ajs

Cas 2

Pas d’arrêt prématuré mais conclusion à l’efficacité


1 2 3

Analyse finale

p = 0.25 p = 0.08 p = 0.04 p = 0.01

Cas 3

Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)


1 2 3

Analyse finale

p = 0.42 p = 0.28 p = 0.12 p = 0.04

Cas 4

Résultat non significatif


1 2 3

Analyse finale

P = 0.89 p = 0.48 p = 0.25 p = 0.10

Autres méthodes

Fonctions de dépenses du risque alpha

Méthode Analyses intermédiaires

1 2 3 4

Analyse finale

Pocock 0.017 0.017 0.017 0.017 0.017

O’Brien et Flemming

0.00005 0.004 0.012 0.025 0.04

Lan et Demets 1

0.015 0.016 0.017 0.018 0.019

Lan et Demets 2

0.00001 0.002 0.011 0.025 0.041

Peto 0.001 0.001 0.001 0.001 0.05

P ajusté

Problème : différents p donnés par les tests– exemple : 0.01, 0.02, 0.20

Problème de l'intervalle de confiance

ajp pk

Méthode séquentielle

Analyse en continue Test triangulaire

CARDS

interim analysis when 25%, 50%, and 75% of the total anticipated primary endpoints had accrued.

The interim analyses used an asymmetric (Peto-Haybittle) type rule and we prespecified that the board might advise termination if a significant difference emerged – in favour of atorvastatin (at p<0·0005 one-sided, p<0·001

twosided at any analysis) or – in favour of placebo (at p<0·005, 0·1, and 0·2 one-sided,

for the three interim analyses, respectively).

At the second interim analysis a significant difference was reported in favour of atorvastatin at p<0·001 (two-sided)

Ajustement pour les critères secondaires

Conclusion essai 1– pas de démonstration de l'efficacité

Conclusion essai 2– démonstration de l'efficacité de manière statistiquement

significative (p<0.05)– sur les 3 premiers critères de jugement

Essai 1 Essai 2

Infarctus mortels et non mortels p=0.03 p=0.001

infarctus non mortels p=0.05 p=0.010

décès par infarctus p=0.02 p=0.010

décès de toute cause p=0.06 p=0.03

statistique de l'essai clinique

Documents