lecture critique des essais cliniques pour la pratique médicale
TRANSCRIPT
Lecture critique et interprétation
des essais cliniques pour la pratique
médicale
Michel Cucherat
Faculté de médecine Laennec - Lyon
But de la lecture critique
Juger de
– la validité scientifique (fiabilité du résultat) et
– de l'intérêt clinique
d'un résultat d’essai thérapeutique dans le but de
modifier ou ne pas modifier la pratique
Objectif
le bénéfice apporté par ce traitement est-il suffisamment
établi et cliniquement pertinent pour justifier son utilisation
?
Trois axes
la validité interne
– est-ce que le résultat est exact ?
– juger de la fiabilité de l’étude
la pertinence clinique
– ce résultat représente-t-il un bénéfice intéressant en pratique et
pour quels patients ?
la validité externe
– est-ce que ce résultat est concordant avec les autres
connaissances sur le sujet ?
Validité interne
Validité interne
Écarter un faux positif du au hasard
– réalité statistique
Écarter un faux positif du à un biais
– le résultat est sûr (exempt de biais)
– « faux positif » : argument en faveur de l’efficacité d’un traitement
en réalité sans effet
Réalité statistique des résultats
Éliminer le rôle du hasard
– Voir si la différence est statistiquement significative (p 0.05,
risque de faux positif)
– Écarter un risque d’inflation du risque par répétition des analyses
Inflation du risque alpha
– absence de critère de jugement principal
– résultat de sous groupe
– répétition des mesures au cours du temps
– analyse intermédiaire non protégée
Multiplicité des critères de
jugement - Exemple
In women, however (Table 2), a positive effect on
BMD was observed at several sites (mostly
trabecular bone zones), namely the femoral neck and
the Ward’s
triangle in the 60–69 y group, and upper and total
radius in the 70–79 y group.
Critère principal
Conclusion que si le critère principal est significatif
Critères secondaires : explicatifs
The significance level used in the pairwise comparisons
between the groups receiving experimental treatment and the
group receiving standard treatment was 0.017 on the basis of
the Bonferroni correction for multiple comparisons,
corresponding to an overall type I error rate of 0.05.
Suvimax
Lancet 2005; 365: 176–86
Utilisation correcte des sous groupes
Résultatnon significatif
Absence réelle d'effet
Manque de puissance
?
Différence non significative
Impossible de conclure
Ne pas conclure à l’absence de différence
«L’absence de preuve n’est pas la preuve de l’absence»
OBJECTIF : Évaluer l’efficacité d’une injection unique de tobramycine (T)
chez des patientes traitées pour une pyélonéphrite aiguë noncompliquée par de
la ciprofloxacine (CIP) (500 mg 2 fois par jour
per os).
RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupe
tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon
prédominante et tous les germes isolés étaient sensibles à la ciprofloxacine et
à la tobramycine. Deux échecs sont survenus dans le groupe CIP + T et 4 dans
le groupe CIP + P (non significatif)
CONCLUSION : L’administration d’une dose de tobramycine n’améliore
aucun paramètre clinique dans le traitement des pyélonéphrites aiguës non
compliquées traitées par de la ciprofloxacine par voie orale.
Analyses intermédiaires
en cours d’essai, avant que tous les patients prévus aient
été recrutés
et/ou avant la fin de la période de suivi initialement prévue
But arrêter prématurément
– pour efficacité
– pour toxicité
– pour futilité
Ajustement du seuil de signification
Méthode de Bonferroni
– Pour k comparaisons, le seuil ajusté est :
– Pour k=3, saj = 5% / 3 = 1.67%
– Quand est petit,
– Donc pour conserver un risque alpha global de 5% :
– Inconvénient : fait l’hypothèse d’une stricte indépendance des
variables testées méthode conservatrice
ajsk
1 1
1 1
k
k
k
k
0.05
0.05
k
k
Cas 1
3 analyses intermédiaires + 1 analyse finale = 4
comparaisons
Arrêt prématuré de l’essai
Analyse intermédiaire
1 2 3
Analyse finale
p = 0.10 p = 0.011
5%/ 4 1.25%ajs
Cas 2
Pas d’arrêt prématuré mais conclusion à l’efficacité
Analyse intermédiaire
1 2 3
Analyse finale
p = 0.25 p = 0.08 p = 0.04 p = 0.01
Cas 3
Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)
Analyse intermédiaire
1 2 3
Analyse finale
p = 0.42 p = 0.28 p = 0.12 p = 0.04
Cas 4
Résultat non significatif
Analyse intermédiaire
1 2 3
Analyse finale
P = 0.89 p = 0.48 p = 0.25 p = 0.10
Tests hiérarchiques
The primary endpoint was analysed with a closed test
procedure applying a hierarchical testing process.
– In the first step, this endpoint was tested in the population of
patients not taking low-dose aspirin.
– If this test was positive the second step was to analyse the
endpoint in the overall population.
– If this test was positive the third and final step was to do the
analysis in the population of patients taking low-dose aspirin.
Hypotheses were tested at a one-sided 2·5% level of
significance, using the logrank test stratified by substudy
and low-dose aspirin use, as appropriate
Lancet 2004; 364: 665–74
For the primary efficacy end point, comparisions were
made sequentially by a two-step closed-testing procedure:
– first, each febuxostat group was compared with the allopurinol
group for noninferiority by using binomial confidence intervals for
the difference between groups;
– second, each febuxostat group shown to be noninferior to the
allopurinol group was tested for superiority to the allopurinol group
by Fisher’s exact test.
N Engl J Med 2005;353:2450-61.
Absence de biais
S’assurer de l’absence de biais potentiel à toutes les
étapes (protocole, réalisation et analyse)
– le résultat est-il à l’abris du
• biais de confusion
• biais de sélection
• biais de suivi
• biais d’évaluation
• biais d’attrition
Validité interne - Biais
Biais
– Le résultat observé peut provenir d’une autre cause que le traitement
– la méthodologie empêche la survenue de biais
Essai biaisé
– Il existe un défaut dans la méthodologie ou la réalisation
– qui est susceptible d’entraîner une différence au niveau du critère de
jugement, même en l’absence d’effet du traitement
Impossible de savoir si un essai est effectivement biaisé
– déterminer si la méthode utilisée protège contre les biais
Exemple de biais patent
6%
10%
Ev. cardiovasculaires
Traitement
Diabétique 45%
Diabétique 15%
La différence de fréquence des ev. cardiovasculaires
peut provenir de la différence de pronostic et non pas
de l’effet traitement
Biais potentiel : il y a un défaut dans la méthodologie
qui n’empêche pas de sélection les patients dans les
groupes
Les différents biais
Un biais de sélection est évoqué
– quand le résultat présenté peut provenir d’une différence dans le
pronostic de base des patients
Biais de réalisation
– différence dans le suivi et les soins appliqués aux patients
Biais de mesure
– différence dans l'évaluation du critère de jugement
Biais d'attrition
– différence au niveau des "sorties" d‘analyse
Biais de sélection
Ce qui met à l’abris de ce biais :
– randomisation
– le processus de randomisation ne doit pas être prévisible par les
investigateurs : randomisation centralisée
Comment évaluer l’absence de biais en fin d’essai
– imprévisibilité de la rando
– (comparabilité des groupes)
Danger des randomisations
prévisibles
CAPP
– hypertension, captopril vs traitement standard par diurétique ou
bêta-bloquants
– 10 985 patients suivis en moyenne 6,1 ans
– PA initiale : 166.6/103.6 vs 163.3/101.2 mm Hg, p<0·0001
Concealment of allocation
(inadequate or unclear versus adequate)
Schultz 1995
Kjaergard 2000
Jüni 2000
Combined
Moher 1998
//
0.4 0.5 0.6 0.7 0.8 0.9 1 1.2 1.4 1.6 1.8 2
0.66 (0.59 - 0.73)
0.63 (0.45 - 0.88)
0.60 (0.31 - 1.15)
0.79 (0.70 - 0.89)
0.70 (0.62 - 0.80)
Jüni et al. BMJ 2001;323:42-46
Validation empirique des
marqueurs de qualité
ROR
Biais de suivi
Ce qui met à l’abris de ce biais :
– le double aveugle
Comment évaluer l’absence de biais en fin d’essai:
– Le double aveugle a-t-il été réellement respecté ?
– Comparer dans les 2 groupes (et particulièrement si essai en
ouvert) : violations de protocole, arrêts de traitements, traitements
concomitants…
Biais d’évaluation
Ce qui met à l’abris de ce biais :
– le double aveugle
– en cas de double aveugle impossible (essai ouvert)
• évaluation à l’aveugle
• choix de critères objectifs
Biais de mesure - mécanisme
Prophylaxie des TVP en chirurgie
Les HBPM sont considérés comme plus efficace que l'HNF
– Subjectivement les TVP sont plus facilement suspectées devant
des signes cliniques avec l'HNF
– Recours à la phlébographie plus facile
Sensibilité Incidence réelle Test positif
HBPM 70% 10% 7%
HNF 90% 10% 9%
méta-analyse en chirurgie générale : HBPM versus HNF
Mise en évidence - Biais de suivi
et de mesure
10,5en faveur HBPM en faveur HNF
Mismetti et al. Br J Surg 01;88:913-30
TVP « phlébographiques »
double aveugle
ouvert
TVP + EP cliniquesdouble aveugle
ouvert
n = 12 698
n = 5 297
Biais des études en ouvert
Recherche empirique de biais
– Pour un domaine donné
– comparaison des résultats des essais en ouvert au essai en double
aveugle
– calcul du rapport des odds ratio (ROR)
Jüni P BMJ 2001;323:42-
Jüni et al. BMJ 2001;323:42-46
Biais d’attrition
Situation potentiellement biaisée :
– Tous les patients randomisés ne sont pas analysés.
Ce qui met à l’abris de ce biais :
– L’analyse en intention de traiter avec remplacement des données
manquantes
Comment évaluer l’absence de biais en fin d’essai
– nb malades analysés / nb malades randomisés
– robustesse du résultat vis à vis de l’hypothèse de biais maximum
Biais d'attrition
Nouveau traitement
Traitement standard
Patients randomisés
Effectif randomisé 1000 1000
Fréquence échec 10.0% 10.0%
Échecs thérapeutiques (non rép.) 100 100
Patients analysés
taux d'arrêts chez les répondeurs 13% 2%
taux d'arrêts chez les non répondeurs
26% 4%
sortie d’étude chez les répondeurs 117 18
sorties d’étude chez les non rép. 26 4
Répondeurs 783 882
non répondeurs 74 96
Effectif 857 978
fréquence échec 8.6% 9.8%
risque relatif 0.88
G traité G contrôle
n randomisé 100 100
pdv 10 30
n analysable 90 70
événement 10 20 Risque relatif
fréquence mesurable 10 / 90 20 / 70
% 11% 29% 0.39biais maximum (10+10)/100 20/100
% 20% 20% 1.00
Biais maximum
MMSE
Essai contrôlé randomisé en
double aveugle
Randomisation
Grp T
Grp C
Critère
Critère
Groupe
comparableMaintient de la comparabilité
Biais de sélection Biais de réalisation Biais d'évaluation
Biais d'attrition
Randomisation Double aveugle
ITT
Pertinence clinique
Pertinence clinique
Pertinence de l'objectif de l'essai
le critère de jugement est pertinent cliniquement et
correspond à l’objectif thérapeutique
le résultat est de taille suffisante pour être intéressant en
pratique,
la balance bénéfice risque est acceptable,
le résultat a été obtenu sur des patients représentatifs de
ceux vus en pratique,
le traitement a été utilisé dans un contexte de soins
similaires à celui de la pratique quotidienne.
Question cliniquement pertinente
Problème médical réel (et non résolu)
– FSAD (female sexual arousal disorder)
• créé de toute pièce en 1997
• pour créer une utilisation potentielle du sildenafil
• BMJ 2003;326:45-47
Traitement du groupe contrôle
Placebo
– en l’absence de traitement de référence
Traitement de référence
– si déjà validé contre placebo
• choix acceptable ?
• traitement optimal (posologie, administration) ?
Placebo + traitement de référence
– 2 groupes contrôles différents si « traitement de référence » mal
validé
Critères de jugement
Pertinence du critère principal d’évaluation
– Critère clinique
– Et non pas critère intermédiaire
Critères cliniques
Critères intermédiaires
Critères de substitution
– succès sur CS succès critère clinique !
Exemples
fluorure de sodium vs placebo
– augmentation de la DO p<0.001
– fractures vertébrales 163 vs 136
– fractures non vertébrales 72 vs 24 p=0.01
Pertinence de l'outil de mesure
Artériopathie des membres inférieurs
Mesure du périmètre de marche
– augmentation significative de 20 m
– quel est le service médical rendu au patient ?
– Quel intérêt de passer de 200m à 220m
Fréquence du succès
– fréquence des patients retrouvant sous traitement un périmètre de
marche de 500m
Pertinence des patients
Voir les critères d’éligibilité
Voir la population réellement incluse– Généralisation des résultats ?
Définition de la maladie– Critères actuels
– Examens couramment disponibles
Critères d'exclusion– Absence de critères d'exclusion arbitraires : age, sexe
Origine géo-ethnique– différences génétiques
– différences environnementales
Pertinence de la prise en charge
médicale
Circonstances de la "vraie vie"
– Accès aux soins similaire à celui disponible en dehors d'une étude
Durée du suivi pertinente
– Ni trop long, ni trop court
Taille et précision de l’effet
thérapeutique
Effet représenté avec un IC à 95 % ?
Taille de l’effet : pertinence clinique ?
Précision de l’effet : la borne péjorative de l’IC représente
le plus petit effet du traitement que l’on ne peut
raisonnablement exclure
cet effet reste-t-il intéressant cliniquement ?
Zone de bénéfice insuffisant
0.40 0.60 0.80 1.00 1.20 1.40
Risque relatif
Essai A
Essai B
Essai C
Essai D
Essai E
Pertinence de la taille
Essai DAIS
Effet du fénofibrate sur la progression des plaques
d'athérosclérose coronarien chez le diabétique
– fénofibrate vs placebo
– 731 hommes et femmes suivi 3 ans
Résultat
– ralentissement de la progression des plaques
– le traitement a réduit de 0.04 mm la diminution du diamètre moyen
sur 3 ans (p=0.028)
Quid des événement clinique ?
Lancet 2001
Évaluation de la balance bénéfice
/ risque
Effets indésirables de gravité supérieure à la maladie ?
Fréquence des effets indésirables trop importante par
rapport au bénéfice ?
Comparaison avec les effets indésirables des traitements
existants
Cohérence externe
Cohérence externe
Concordance avec d’autres essais sur le même domaine :
– un seul essai ne suffit pas
– intérêt de la méta-analyse (hétérogénéité ?)
Concordance avec les autres connaissances dans le
domaine (physiopathologie, épidémiologie,
pharmacologie, …)
Un essai de grande taille (1000 patients) montre bien
l’efficacité du traitement
2 essais
– le premier mené en Europe de l’Est est concluant
– le second réalisé aux USA est non concluant
Conclusion
– l’effet du traitement n’est pas le même aux USA et en Europe
– car les contextes de soins sont différents avec un sous traitement
en Europe de l’est
3 essais ont été réalisés pour évaluer le même traitement
ils sont tous négatifs
conclusion : ce traitement n’a pas d’efficacité
www.spc.univ-lyon1.fr/lecture-critique
www.spc.univ-lyon1.fr/user/mcu/polycop