statistique de l'essai clinique
DESCRIPTION
Concepts statistiques utilisés dasn l'essai cliniqueTRANSCRIPT
Comprendre les résultats statistiques
Michel Cucherat
Obtenir pile à pile ou face(Probabilité = 50%)
Échantillon 148%
Échantillon 252%
Échantillon 350%
Échantillon 445%
Fluctuations aléatoires
Même type de patients(Probabilité d'AVC = 12%)
Échantillon 19%
Échantillon 212%
Échantillon 316%
Échantillon 426%
Fluctuations aléatoires
Conséquences pour la comparaison de 2 échantillons
– les proportions observées dans 2 échantillons peuvent être différentes
– uniquement du fait du hasard– même si dans ces 2 échantillons la vraie probabilité était la même
les FAE sont susceptibles de fausser les comparaisons
Groupe T+ Groupe T-
Vrai risque = 10% Vrai risque = 10%
Effet du traitement = 0
Risque observé = 6% Risque observé = 12%
Différence observée = -6%
Conséquences des fluctuations
Problématique des comparaisons
Quand on ignore la réalité,
la différence observée de -6% est-elle ?
– une manifestation des fluctuations aléatoires, donc due uniquement au hasard
– la traduction d’une réelle différence entre les deux groupes, donc d’un effet non nul du traitement
Comment départager ces 2 possibilités ?
Solution : test statistique .
Conclure à l'existence d'une
différence
Décider d'utiliser le nouveau traitement
Grp T
Grp C
diff -6%
La conclusion doit être conforme à la réalitémais elle se base uniquement sur l’observé
But des comparaisons
Quel est le but des comparaisons ?
Effets des fluctuations dans une comparaison
Le hasard peut faire apparaître une différence qui n'existe pas en réalité
Inversement, le hasard peut réduire une différence qui existe réellement
donc 2 façons de fausser la conclusion
Vrai valeur12%
Échantillon 17.5%
Échantillon 215%
Différencenon réelle
Erreur statistique alpha
Conclure à l'existence d'une différence qui n'existe pas en réalité : faux positif
Vrai valeur12%
Échantillon 115%
Échantillon 215%
Fausse absencede différence
Vrai valeur19%
Erreur statistique bêta
Ne pas conclure à une différence qui existe pourtant en réalité : faux négatif
Tests statistiques
Outils d'aide à la décision
Principe– conclure à une différence– que si le risque de faire une erreur (de première espèce) est faible
Quantification du risque d'erreur alpha– à partir des données disponibles
(Risque de commettre une erreur alpha = risque alpha)
Démarche du test statistique
Calcul de la probabilité p– p : probabilité que "la différence observée soit due uniquement au
hasard"
p représente le risque de faire une conclusion erronée si l'on décidait de conclure
p est une quantification du risque alpha On ne conclut que si ce risque d'erreur est suffisamment
petit
5% ?
Un risque de 5% est-il acceptable pour décider de l'utilisation d'un traitement ?
Exigence réglementaire de 2 essais significatifs– alpha de la décision 5%*5%=2.5/1000
Résultatnon significatif
Résultatnon significatif
Absence réelle d'effet
Absence réelle d'effet
Manque de puissance
Manque de puissance
?
Différence non significative
Impossible de conclure Ne pas conclure à l’absence de différence «L’absence de preuve n’est pas la preuve de l’absence»
OBJECTIF : Evaluer l’efficacité d’une injection unique de tobramycine (T) chez des patientes traitées pour une pyélonéphrite aiguë noncompliquée par de la ciprofloxacine (CIP) (500 mg 2 fois par jour per os)
RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon prédominante et tous les germes isolés étaient sensibles à la ciprofloxacine et à la tobramycine. Deux échecs sont survenus dans le groupe CIP + T et 4 dans le groupe CIP + P (non significatif).
CONCLUSION : L’administration d’une dose de tobramycine n’améliore aucun paramètre clinique dans le traitement des pyélonéphrites aiguës non compliquées traitées par de la ciprofloxacine par voie orale.
Répétitions des tests statistiques
Répétition des tests
Plusieurs tests réalisés pour répondre à une même question– par exemple plusieurs critère de jugement
Conclusion à un effet à partir du moment où il existe au moins un test significatif
Le risque de la conclusion est bien supérieure à 5%= Inflation du risque alpha
Rappel, avec un ttt. sans effet,– sur 100 tests, il y en aura 5 significatifs (en moyenne)
Conclusion1 test Contrôle parfait du risque alpha (5%)
Conclusion
Test 1
Test 2
Test 3
Test 4
Le risque de conclure à tort est > à 5%
(seuil de 5%)
A partir du moment où au moins 1 test est
significatif
Test 1
Risque de conclure à tort à une différence
= 5%
Test 2
Risque de conclure à tort à une différence
= 5%
Test 4
Risque de conclure à tort à une différence
= 5%
Test 3
Risque de conclure à tort à une différence
= 5%
Globalement, le risque de conclure à tort à une différence lors de ces 4 comparaisons est bien plus important que 5%.
Aux dés, la probabilité d ’obtenir un six est plus forte avec 3 dés qu ’avec un seul
Comparaisons multiples
Comparaisons multiples
Avec un traitement sans efficacité en faisant 10 tests statistiques (p.e. 10 essais) nous avons 40% de risque de faire au moins une
conclusion (à tort)
Nb de tests Risque alpha global
5 0.23
10 0.40
20 0.64
50 0.92
1 1k
global
Inflation risque alpha
Situations d’inflation du risque par répétition des comparaisons :– Absence de critère principal – Analyses en sous groupes– Recherche de l’effet répété dans le temps– Analyses intermédiaires « non protégées »
Critère principal
• Décès de toute cause
Critères secondaires
• Décès cardiovasculaire
• Mort subite
• Infarctus
• Accident vasculaire cérébraux
• Chirurgie
• Décès de toute cause
• Décès cardiovasculaire
• Mort subite
• Infarctus
• Accident vasculaire cérébraux
• Chirurgie
Pas de définition de critère principal
Risque de conclure à tort à l ’efficacité du traitement = 30%
Risque de conclure à tort à l ’efficacité du traitement = 30%
6 tests statistiques
Critère de jugement principal
Risque de conclure à tort à l ’efficacité du
traitement = 5%
Risque de conclure à tort à l ’efficacité du
traitement = 5%
Définition a priori d ’un critère principal
Un seul test statistique
Critère principal
Conclusion que si le critère principal est significatif Critères secondaires : explicatifs
Multiplicité des comparaisons - Exemple
In women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Ward’s triangle in the 60–69 y group, and upper and total radius in the 70–79 y group.
Autres situations de répétition des tests
mesures répétées au cours du temps
Sous groupe
On a comparé sur 2 groupes de 120 malades un oxygénateur cérébral à un placebo.
Le critère d’évaluation principal était évalué par l’échelle d’appréciation clinique en gériatrie (EACG).
Globalement les résultats ne montraient pas de différence significative.
Cependant, si l’on éliminait les gens trop anxieux (score d’Hamilton >18), en ne prenant en compte que les femmes (les hommes semblent moins répondeurs), la différence devient hautement significative sur la tranche d’âge 70 à 80 ans, ce qui montre bien l’activité du produit chez les gens âgés.
Essai 0.92 NS
1 Age<75 0.92 NS2 Age>75 0.95 NS
3 Hommes 0.92 NS4 Femmes 0.99 NS
5 Antécédents d'infarctus 0.87 NS6 Pas d'antécédents d'infarctus 1.03 NS
7 Prise d'aspirine 0.78 p<0.058 Pas d'aspirine 1.09 NS
Analyse en sous-groupes - Essai non concluant
1 Age<75 test 1 risque erreur 5%2 Age>75 test 2 risque erreur 5%
3 Hommes test 3 risque erreur 5%4 Femmes test 4 risque erreur 5%
5 Antécédents d'infarctus test 5 risque erreur 5%6 Pas d'ATCD d'infarctus test 6 risque erreur 5%
7 Prise d'aspirine test 7 risque erreur 5%8 Pas d'aspirine test 8 risque erreur 5%
Limites- Multiplicité des tests
Essai 0.78 p<0.05
1 Age<75 0.65 p<0.012 Age>75 0.90 NS
3 Hommes 0.76 p<0.054 Femmes 0.78 p<0.05
5 Antécédent d'infarctus 0.97 NS6 Pas d'antécédent d'infarctus 0.70 p<0.01
7 Diabétique 0.50 p<0.0018 Non diabétique 0.91 p<0.05
Analyses en sous groupes - Essai concluant
Lancet 2005; 365: 176–86
Analyses en sous groupes
Résultat de nature exploratoire– hypothèse non formulée a priori– aucune conclusion définitive possible– inflation risque alpha et bêta
Sous groupes (suite)
Résultat global négatif– recherche du sous groupe dans lequel le traitement marche– comparaisons multiples : inflation du risque alpha– approche post hoc
• l'hypothèse est testée sur les données qui ont permis de la générer
Résultats global positif– recherche des patients chez lequel le traitement ne marche pas– inflation risque bêta– hypothèse d'absence d'effet
• donc limite de non infériorité
Hétérogénéité
Utilisation des sous groupes pour vérifier la stabilité de l'effet
Test d'interaction– RRsg1<>RRsg2
Aspect cognitif (non décisionnel) Génération de nouvelles hypothèses
Analyses intermédiaires
Analyses intermédiaires
en cours d’essai, avant que tous les patients prévus aient été recrutés
et/ou avant la fin de la période de suivi initialement prévue
But arrêter prématurément– pour efficacité– pour toxicité– pour futilité
Ajustement du seuil de signification
Méthode de Bonferroni– Pour k comparaisons, le seuil ajusté est :
– Pour k=3, saj = 5% / 3 = 1.67%
– Quand est petit,
– Donc pour conserver un risque alpha global de 5% :
– Inconvénient : fait l’hypothèse d’une stricte indépendance des variables testées méthode conservatrice
ajs k
1 1
1 1
k
k
k
k
0.05
0.05
k
k
Ajustement du seuil de signification - 2
Méthode de Tukey
– Pour k=3, saj = 5% / 1.73 = 2.89%
ajsk
Cas 1
3 analyses intermédiaires + 1 analyse finale = 4 comparaisons
Arrêt prématuré de l’essai
Analyse intermédiaire
1 2 3
Analyse finale
p = 0.10 p = 0.011
5% / 4 1.25%ajs
Cas 2
Pas d’arrêt prématuré mais conclusion à l’efficacité
Analyse intermédiaire
1 2 3
Analyse finale
p = 0.25 p = 0.08 p = 0.04 p = 0.01
Cas 3
Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)
Analyse intermédiaire
1 2 3
Analyse finale
p = 0.42 p = 0.28 p = 0.12 p = 0.04
Cas 4
Résultat non significatif
Analyse intermédiaire
1 2 3
Analyse finale
P = 0.89 p = 0.48 p = 0.25 p = 0.10
Autres méthodes
Fonctions de dépenses du risque alpha
Méthode Analyses intermédiaires
1 2 3 4
Analyse finale
Pocock 0.017 0.017 0.017 0.017 0.017
O’Brien et Flemming
0.00005 0.004 0.012 0.025 0.04
Lan et Demets 1
0.015 0.016 0.017 0.018 0.019
Lan et Demets 2
0.00001 0.002 0.011 0.025 0.041
Peto 0.001 0.001 0.001 0.001 0.05
P ajusté
Problème : différents p donnés par les tests– exemple : 0.01, 0.02, 0.20
Problème de l'intervalle de confiance
ajp pk
Méthode séquentielle
Analyse en continue Test triangulaire
CARDS
interim analysis when 25%, 50%, and 75% of the total anticipated primary endpoints had accrued.
The interim analyses used an asymmetric (Peto-Haybittle) type rule and we prespecified that the board might advise termination if a significant difference emerged – in favour of atorvastatin (at p<0·0005 one-sided, p<0·001
twosided at any analysis) or – in favour of placebo (at p<0·005, 0·1, and 0·2 one-sided,
for the three interim analyses, respectively).
At the second interim analysis a significant difference was reported in favour of atorvastatin at p<0·001 (two-sided)
CARDS
Ajustement pour les critères secondaires
Conclusion essai 1– pas de démonstration de l'efficacité
Conclusion essai 2– démonstration de l'efficacité de manière statistiquement
significative (p<0.05)– sur les 3 premiers critères de jugement
Essai 1 Essai 2
Infarctus mortels et non mortels p=0.03 p=0.001
infarctus non mortels p=0.05 p=0.010
décès par infarctus p=0.02 p=0.010
décès de toute cause p=0.06 p=0.03