erreur standard
TRANSCRIPT
1
Biostatistique (Niveau 2)
Ch. Mélot, MD, PhD, MSciBiostatService des Urgences
Hôpital Universitaire Erasme
14 février 2013
Comment mesurer la précision de l ’estimation d’une moyenne ou d’une proportion (degré d ’incertitude) ?
ERREUR STANDARD
SE(m) =SD
nSE(p) =
p (1-p)
n
Si n augmente, SE diminueet la puissance augmente
Exemple: TAm = 110 mmHgSD = 25 mmHgn = 100SE = 25 / 10 = 2.5 mmHgn = 10000SE = 25 / 100 = 0.25 mmHg
Exemple: p = 0.55 (55 %)SD = 0.55 * 0.45 = 0.49n = 100SE = 0.49 / 10 = 0.049 (4.9 %)n = 10000SE = 0.49 / 100 = 0.0049 (0.5 %)
2
INTERVALLE DE CONFIANCE à 95 %IC 95 % = m ± 2 SE(m) IC 95 % = p ± 2 SE(p)
L’intervalle de confiance donne une estimation de la précision de la moyenne ou de la proportion calculée sur l ’échantillon de taille n
Exemple: TAm = 110 mmHgn = 100SE = 2.5 mmHgIC 95 % = 105 à 115 mmHgn = 10000SE = 0.25 mmHgIC 95 % = 109.5 à 111.5 mmHg
Exemple: p = 0.55 (55 %)n = 100SE = 0.049 (4.9 %)IC 95 % = 0.45 à 0.65 (45 à 65 %)n = 10000SE = 0.0049 (0.5 %)IC 95 % = 0.54 à 0.56
(54 à 56 %)
Probabilité: intervalle de confiance
JET D'UNE PIECE
0.000.100.200.300.400.500.600.700.800.901.00
0 10 20 30 40 50 1000
NOMBRE D'ESSAIS (N)
PRO
PORT
ION
DE
FACE
S
Intervalle de confiance à 95 %
!! IC 95 %: contient (100 %) ou ne contient pas (0 %) la valeur
réelle
∞
Il n’y a plus d’erreurIC = 0
SE(p) =p (1-p)
nVariance d'une proportion
0
0.05
0.1
0.15
0.2
0.25
0.3
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Proportion (p)
Vari
ance
(p)
SE(0.5) = 0.25
783= 0.0178
IC 95 % = ±1.96 SE = ± 0.0350
3
Comment évaluer l’importance des résultats ?
Odds (Cote) et Probabilité
Probabilité = = 0.166
Odds en faveur = = 0.2056
61
61
Odds contre = = 5 contre 116
65
Odds ratio (Rapport des Cotes), Rapport de Risque et Différence de risque
Odds ratio = Odds effet traitement A
Odds effet traitement B
Rapport de risque = Probabilité effet traitement A
Probabilité effet traitement B
Différence de risque = Prob effet A – Prob effet B
4
Diagramme de Forest: interprétation du Odds Ratio et de son intervalle de confiance à 95%
1 3 ∞0 0.5
a bc d
OR = a d b c
SE(ln(OR)) = d1c
1b
1a1 +++
p = ns
p < 0.05
p < 0.05
2OR
IC 95 % = OR ± 1.96 SE
Trt B > Trt A Trt A > Trt B
Amplitude de l’effet observé
Précision de l’effet observé
Diagramme de Forest: interprétation du Risque Relatif et de son intervalle de confiance à 95%
1 30 0.5
a bc d
RR = a/(a+b) c /(c+d)
p = ns
p < 0.05
p < 0.05
2RR
IC 95 % = RR ± 1.96 SE
Trt B > Trt A Trt A > Trt B
Amplitude de l’effet observé
Précision de l’effet observé
Diagramme de Forest: interprétation de la Différence de Risque et de son intervalle de
confiance à 95%
0 + 0.04- 0.02
a bc d
DR = [a/(a+b)] - [c/(c+d)p = ns
p < 0.05
p < 0.05
+ 0.02DR
IC 95 % = DR ± 1.96 SE
Trt B > Trt A Trt A > Trt B
Amplitude de l’effet observé
Précision de l’effet observé
5
Exemple
PROGRESS, Lancet 2001;358:1033-1041
significatifnon significatif
significatifsignificatifsignificatif
significatif
significatifsignificatifsignificatif
non significatif
Relative Risk Reduction(0.10-0.14)/0.14 = - 0.28 (-28 %)
Réduction relative versus réduction absolue du risque
Réduction absolue:– Différence de risque:
(307/3051) – (420/3054) = 0.10 – 0.14 = - 0.04 (- 4 %)
Réduction relative:- Risque relatif ou rapport de risque:
0.10/0.14 = 0.72- Réduction relative du risque:
(0.10-0.14)/0.14 = - 0.28 (- 28 %)
Réduction relative versus réduction absolue du risque
50 %45 %
25 %20 %
10 %0
100200300400500600700800900
1000
X Y Z
PlaceboActive
5 %
ARR = - 5 % (50 / 1000 patients)
RRR = - 10 %
RRR = - 20 %
RRR = - 50 %
6
Exemple
PROGRESS, Lancet 2001;358:1033-1041
4 %
Différence de risqueou réduction absolue du risque
Mesure du bénéfice: NNT
NNT: number needed to treat, nombre de patient à traiter pour éviter un effet délétère ou pour obtenir un effet bénéfique.
NNT = 1/DR
Exemple: DR = - 4 % (- 0.04) NNT = 1/0.04 = 25
PROGRESS, Lancet 2001;358:1033-1041
7
REGRESSION et CORRELATION
TerminologieREGRESSION: l’analyse de régression est un outil qui permet de calculer le type de relation entre deux ou plusieurs variables.
VARIABLE DEPENDANTE: variable prédite (Y) par une ou plusieurs variables indépendantes (X ou prédicteurs)
VARIABLE(S) INDEPENDANTE(S): la ou les variables utilisées pour prédire la variable dépendante (Y)
Y
X
8
TerminologieTYPES DE REGRESSION LORSQU’IL N’Y A QU’UN SEUL Y:
– Si la variable dépendante est une variable continue: Régression linéaire simple (une seule variable indépendante, X)Régression linéaire multiple (plusieurs variables indépendantes: X1, X2,…)
– Si la variable dépendante est une variable discrète dichotomique: Régression logistique univariable (un seul X)Régression logistique multivariable (plusieurs X: X1, X2, …)
– Si la variable dépendante est un nombre d’événements par unité de temps:
Régression de Poisson univariable (un seul X)Régression de Poisson multivariable (plusieurs X:X1, X2,…)
– Si la variable dépendante est le temps nécessaire à la réalisation de l’événement:
Régression de Cox univariable (un seul X)Régression de Cox multivariable (plusieurs X: X1, X2, …)
REGRESSION AVEC PLUSIEURS Y:– Analyses multivariées
REGRESSION LINEAIRE SIMPLE: HYPOTHESESVariable dépendante
Y
XVariable indépendante
yi^
xi, yiσ
σ
σ
(distribuée normallement avec une variance constante, σ)
(sans erreur de mesure)(Il s’agit de la variable manipulée pendant l’expérimentation)
REGRESSION LINEAIRE SIMPLE: PARAMETRES
Variable dépendanteY
XVariable indépendante
Yi ^
xi, yi
Paramètres:b = pentea = interceptIntercept (a)
Equation: y = a + b x
estimée par la méthode des moindres carrés: minimiser la somme des carrés des écarts par rapport à la droite (verticalement)
pente (b) = ΔyΔx
Pente = coefficient de régression
9
TerminologieCORRELATION: – Le coefficient de corrélation simple (r) est une mesure de
l’intensité de la relation entre deux variables aléatoires– Le coefficient de corrélation varie de -1 à +1– Une valeur positive indique une relation linéaire positive entre X
et Y, c’est-à-dire Y augmente lorsque X augmente– Une valeur négative indique une relation linéaire négative entre
X et Y, c’est-à-dire Y diminue lorsque X augmente.– Une valeur nulle indique l’absence de relation linéaire.
REMARQUES:– Une corrélation significative (r avec p < 0.05) n’indique pas
nécessairement un lien de causalité entre X (cause) et Y (effet).
– Une corrélation peut être faussement significative lorsque les deux variables X et Y partagent la même variable (couplage mathématique):
exemple:X = transport d’oxygène (débit cardiaque x Ca O2)Y = consommation d’oxygène (débit cardiaque x (CaO2 - CvO2)
COVARIANCE
• Variables indépendantes (Cov(X,Y) = 0):
Variance SGOT Variance SGPT
• Variables non indépendantes (Cov(X, Y) ≠ 0:
Var X Var YCov
(X,Y)
Var X – Cov (X,Y) Var Y – Cov (X,Y)Var (X-Y) =
Var X + Var Y – 2 Cov (X,Y)
Var (X-Y) = Var X + Var Y
COVARIANCE
X = SGOT Y = SGPT (X i - mean) (Yi - mean) (X i - mean) (Yi - mean)23 52 5.2 11.4 59.322 45 4.2 4.4 18.517 42 -0.8 1.4 -1.115 39 -2.8 -1.6 4.512 25 -5.8 -15.6 90.5
Somme 89 203 0 0 171.6 Produit croisén 5 5 4 ddlMoyenne 17.8 40.6 42.9 Cov (X,Y)
Covariance: lien entre deux variables (Cov(X,Y)):
Si les variables sont indépendantes, Cov = 0
10
STRUCTURE DE LA COVARIANCE
Cov (x, y) =
Somme des produits croisés
Degré de liberté(n = nombre de paires)
n - 1(Xi - X) (Yi - Y)
n
∑i = 1
CORRELATION
)XX(r(x, y) =
n
1ii −∑
=
Covariance
)YY( i −
)²XX(n
1ii −∑
=)²YY(
n
1ii −∑
=
Racine carrée du produit des variances
Le coefficient de corrélation à l’avantage de varier entre 0 (absence de corrélation) et +1 ou -1 (parfaite corrélation).
CALCUL de r
Racine carrée du produit des variances
X = SGOT Y = SGPT23 52 Cov (x, y) 42.922 4517 42 Var (x) 21.715 3912 25 Var (y) 99.3
Cov (x, y) 42.9r (x,y) = ———————–– = —————— 0.924
√ Var(x) √ Var(y) 4.66 x 9.96
11
CORRELATION (r)
• Variables indépendantes: Cov(X,Y) = 0 et r = 0
Variance X Variance Y
• Variables parfaitement corrélées: r =1
Variance XVariance YCov (X,Y)
COEFFICIENT DE CORRELATION DE BRAVAIS-PEARSON
Y
X
Y
X
Y
X
r = - 1
r = 0
r = 1
TESTER LA SIGNIFICATION DE r
Le coefficient simple de corrélation peut être testé par comparaison avec 0 (absence de corrélation), en utilisant le test t suivant:
rt =
1 – r²(n - 2)
avec n – 2 degrés de libertés (2 paramètres) avec n = nombre de couples x,y.
Exemple: r = 0.924, ddl = 3, t = 4.19, p = 0.0248
12
Exemple
23 52 12824 54 10525 56 14526 57 14127 58 15328 59 15729 63 15530 67 17631 71 17232 77 17833 81 217
12 41 13913 41 17114 46 13715 47 11116 48 11517 49 13318 49 12819 50 18320 51 13021 51 13322 51 144
1 22 1312 23 1283 24 1164 27 1065 28 1146 29 1237 30 1178 32 1229 33 9910 35 12111 40 147
Patient Age TAsystPatient Age TAsystPatient Age TAsyst
Régression linéaire: diagramme des points(scatter plot)
0 10 20 30 40 50 60 70 80 90Age, années
220200
180160140120100806040200
Pres
sion
art
érie
lle s
ysto
lique
, m
mH
g
Régression linéaire
0 10 20 30 40 50 60 70 80 90Age, années
220200
180160140120100806040200
Pres
sion
art
érie
lle s
ysto
lique
, m
mH
g
y = 81.5 + 1.22 x
13
REGRESSION LINEAIRE: ANALYSE DES COEFFICIENTS (PARAMETRES) DE L’EQUATION
PARAMETER COEFFICIENT SE t-value p
Intercept
Slope
81.52
1.22
10.47
0.21
7.79
5.74
0.0001
0.0001
SBP (mmHg) = 81.52 + 1.22 AGE (yrs)
1.22 = coefficient de régression (pente)
0 10 20 30 40 50 60 70 80 90
240
220
200
180
160140
120
100
80
60
4020
0
Bande de confiance à 95 %
Bande de prédiction à 95 %
Droite derégression
Régression linéaire: bande de prédiction et bande de confiance
0 10 20 30 40 50 60 70 80 90Age, années
220200
180160140120
100806040200
Pres
sion
art
érie
lle s
ysto
lique
, m
mH
g
r = 0.718 (coefficient de corrélation)
r² = 0.515 (coefficient de détermination)
51.5 % des variations de la pression artérielle sont expliqués par l’âge
Régression linéaire: coefficients de corrélation et de détermination
14
COEFFICIENT OF CORRELATION
r = 0.718
t = r n - 21 – r²
avec n - 2 ddl
t = 5.74 avec 31 ddl, p < 0.0001
Coefficient de détermination (r²)
Le coefficient de détermination est le carré du coefficient de corrélation. Il varie aussi entre 0 et 1. Il est égal au quotient de la variance expliquée et la variance totale dans un modèle de régression linéaire simple.
Le coefficient de détermination (r² = 0.515) indique que 51.5 % de la variation de la TA systolique est expliquée par les variation de l’âge.
Il reste donc 48.5 % de la variation de la TA systolique qui n’est pas expliquée par l’âge (par exemple: d’autres facteurs comme l’obésité, le stress,…)
REGRESSION LINEAIRE: APPROCHE PAR LA VARIANCE
Variable dépendante
Y
X Variable indépendante
y
yi^
xi, yi
yi - y = variation totale (SSY)yi - y = variation expliquée par la régression (SSY-SSE)^
y = a + b x
SSE
SSY - SSESSY
Intercepta
pente, b
yi - yi = variation non expliquée (résidu) (SSE)^
15
Source of variation
Sum of squares
(SS)
Degree of freedom
(df)
Mean squareMS = SS/df
FMSb/MSw
p
Regression(SSY – SSE)
Residual(SSE)
11449.9
10769.7
1
31
11449.9
347.4
32.96 0.0001
Total(SSY)
22219.6 32
r² = r = 0.718SSY - SSE
SSY= 0.515
Determination coefficient Correlation coefficient
LINEAR REGRESSION: ANOVA TABLE
Normal probability plot: distribution gaussienne de la variable Y
80 100 120 140 160 180 200 220
SBP, mmHg
3
2
1
0
-1
-2
-3Stan
dard
Nor
mal
dev
iate
20 30 40 50 60 70 80 90
AGE, années
50
40
30
20
10
0
-10
-20
-30
-40
-50
Rési
du: P
art
-F(
x)
Analyse des résidus: constance de la variance
16
ANALYSE DES RESIDUS
REGRESSION LOGISTIQUE
La régression logistique repose sur le même principe que la régression linéaire mais est utilisable lorsque la variable dépendante (y) est qualitative à 2 niveaux (dichotomique). Cette variable dichotomique va être transformée en variable continue par la transformation logistique.
Par exemple: y-a-t-il une relation entre l’âge et la survenue d’une coronaropathie (CHD: coronaryheart disease)
PATID AGEGRP AGE CHD1 1 20 02 1 23 03 1 24 04 1 25 05 1 25 16 1 26 07 1 26 08 1 28 09 1 28 010 1 29 011 2 30 012 2 30 013 2 30 014 2 30 015 2 30 016 2 30 117 2 32 018 2 32 019 2 33 020 2 33 021 2 34 022 2 34 023 2 34 124 2 34 025 2 34 026 3 35 027 3 35 028 3 36 029 3 36 130 3 36 031 3 37 032 3 37 133 3 37 0
PATID AGEGRP AGE CHD34 3 38 035 3 38 036 3 39 037 3 39 138 4 40 039 4 40 140 4 41 041 4 41 042 4 42 043 4 42 044 4 42 045 4 42 146 4 43 047 4 43 048 4 43 149 4 44 050 4 44 051 4 44 152 4 44 153 5 45 054 5 45 155 5 46 056 5 46 157 5 47 058 5 47 059 5 47 160 5 48 061 5 48 162 5 48 163 5 49 064 5 49 065 5 49 166 6 50 0
PATID AGEGRP AGE CHD67 6 50 168 6 51 069 6 52 070 6 52 171 6 53 172 6 53 173 6 54 174 7 55 075 7 55 176 7 55 177 7 56 178 7 56 179 7 56 180 7 57 081 7 57 082 7 57 183 7 57 184 7 57 185 7 57 186 7 58 087 7 58 188 7 58 189 7 59 190 7 59 191 8 60 092 8 60 193 8 61 194 8 62 195 8 62 196 8 63 197 8 64 098 8 64 199 8 65 1
100 8 69 1
Base de données: 100 sujets avec ou sans CHD.
17
REGRESSION LINEAIRE
y = 0.0218 x - 0.538r² = 0.264
0
0.2
0.4
0.6
0.8
1.0
0 20 40 60 80Age, années
Coro
naro
path
ie (0
= Non
, 1
= Oui
REGRESSIONN LOGISTIQUE
0
5
10
15
20
"20-29" "30-34" "35-39" "40-44" "45-49" "50-54" "55-59" "60-69"
Groupe d’âge (années)
Nom
bre
de p
atie
nts
CHD=0 (n = 57)CHD=1 (n = 43)
REGRESSION LOGISTIQUE
0%
20%
40%
60%
80%
100%
"20-29" "30-34" "35-39" "40-44" "45-49" "50-54" "55-59" "60-69"
Groupe d’âge (années)
NU
MB
ER O
F PA
TIEN
TS
CHD=0 (n = 57)CHD=1 (n = 43)
Pour
cent
age
de p
atie
nts
18
REGRESSION LOGISTIQUE.VARIABLE INDEPENDANTE CONTINUE
0.8064.5108260-69
0.7657.01713455-59
0.6352.085350-54
0.4647.0136745-49
0.3342.01551040-44
0.2537.0123935-39
0.1332.01521330-34
0.1024.5101920-29
Proportion CHDAge moyennCHD = 1CHD = 0Groupe d’âge
LOGISTIC REGRESSION
0.000.100.200.300.400.500.600.700.800.901.00
20 30 40 50 60 70
AGE, yrs
Prop
orti
on d
eco
rona
ropa
thie
(CH
D)
REGRESSION LOGISTIQUE
0
0.2
0.4
0.6
0.8
1
0 10 20 30 40 50 60 70 80 90 100
AGE, années
Prop
orti
on d
eco
rona
ropa
thie
(CH
D)
(x) 1 + e
e - 5.31 + 0.111 age
=π- 5.31 + 0.111 age
(x) = E (Y|x)π
19
REGRESSION LOGISTIQUE: ANALYSE DES COEFFICIENTS (PARAMETRES) DE L’EQUATION
PARAMETER COEFFICIENT (β) SE Coeff/SE p
Constant
Age
-5.31
0.111
1.13
0.024
-4.69
4.61
0.0001
0.0001
Deviance: 107.35p-value: 0.2435df: 98
TRANSFORMATION LOGISTIQUE
Logit [π(x)] = ln [ ]π(x)
1 - π(x)
π (x) = eβ0 + β1 x
1 + eβ0 + β1 xe = 2.71828
Proportion de patients avec coronaropathie (y=1):
Logit de la proportion de patients avec coronaropathie:
Relation linéaire entre le Logit et le prédicteur x:
Logit [π(x)] = βo + β1 x
REGRESSION LOGISTIQUE
Logit π(x) = -5.31 + 0.111 age
-3
-2
-1
0
1
2
3
0 10 20 30 40 50 60 70 80 90 100
AGE, années
Logi
tde
la p
ropo
rtio
n de
cor
onar
opat
hie
20
REGRESSION LOGISTIQUE et ODDS RATIO
OR =
π(y=1|x)
1 - π(y=1|x)
π(y=0|x)
1 - π(y=0|x)
= eβ1
Ln(OR) = β1
IC 95 % du OR = eβ1 ± 1.96 SE(β1)
Odds en faveur de la coronaropathie
Odds en faveur de l’absence de coronaropathie
REGRESSION LOGISTIQUE: ANALYSE DES COEFFICIENTS (PARAMETRES) DE L’EQUATION
PARAMETER COEFFICIENT (β) SE Coeff/SE p
Constant
Age
-5.31
0.111
1.13
0.024
-4.69
4.61
0.0001
0.0001
PARAMETER OR(= eβ) 95 % CI p
Age 1.12 1.07 – 1.17 0.0001
= e (0.111 – 1.96*0.024)
REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE CONTINUE
Exemple:– Relation entre l’âge (en années) et coronaropathie (CHD)
π (x) = e-5.31 + 0.111 âge
1 + e-5.31 + 0.111 âge
Interprétation (1):– Pour un nouveau patient de 52 ans, la probabilité d’avoir
une coronaropathie est de 61 % de chance
π (x) = e-5.31 + 0.111 x 52
1 + e-5.31 + 0.111 x 52= 0.61
(x) = E (Y|x)π
21
REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE CONTINUE
Interprétation (2):– Déterminer le OR en faveur d’une coronaropathie selon
l’âge:
– Un patient à 1.12 fois plus de chance d’avoir une CHD par année d’âge
OR = e0.111 = 1.12
IC 95 % : 1.07 à 1.17
REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE
73
51
22
Age < 55 (x = 0)
27
6
21
Age ≥ 55 (x = 1)
Age (x)
100Total
57non = 0
43oui = 1CHD
Total
REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE
1.01.0Total
y = 0
y = 1Variable
dépendante
x = 0x = 1
Variable indépendante
π (1) =eβ0 + β1
1 + eβ0 + β1
1 − π (1) = 11 + eβ0 + β1
π (0) = eβ0
1 + eβ0
1 − π (0) = 11 + eβ0
22
REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE
Le Odds du devenir des patients âgés avec x = 1 est défini par:
De même, le Odds du devenir des patients jeunes avec x = 0 est défini par:
Odds (x=1) = π(x=1)
1 - π(x=1)
π(x=0)
1 - π(x=0)
Odds (x=0) =
REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE
Le Odds Ratio en faveur d’une coronaropathie entre les patients âgés et jeunes est défini comme le rapport du Odds pour x = 1 divisé par le Odds pour x = 0. Il est calculé par l’équation:
OR =
π(x=1)
1 - π(x=1)
π(x=0)
1 - π(x=0)
= eβ1 ⇒ Ln (OR) = β1
IC 95 % du OR = eβ1 ± 1.96 SE(β1)
REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE
Equation de régression logistique:
π (x) = e-0.841 + 2.094 x
1 + e-0.841 + 2.094 x
Interprétation (1):– Pour un nouveau patient de 52 ans (< 55 ans, x = 0), la
probabilité d’avoir une coronaropathie est de 30 % de chance
π (x) = e-0.841
1 + e-0.841= 0.30
23
REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE
Interprétation (2):– Déterminer le OR en faveur d’une coronaropathie selon la
catégorie d‘âge:
– Un patient de 55 ans ou plus à 8 fois plus de chance d’avoir une CHD qu’un patient de moins de 55 ans
OR = e2.094 = 8.12
IC 95 % : 2.88 à 22.84
REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE CONTINUE
Exemple:– Relation entre l’âge (en années) et coronaropathie (CHD)
π (x) = e-5.31 + 0.111 âge
1 + e-5.31 + 0.111 âge
Interprétation (1):– Pour un nouveau patient de 52 ans, la probabilité d’avoir
une coronaropathie est de 61 % de chance
π (x) = e-5.31 + 0.111 x 52
1 + e-5.31 + 0.111 x 52= 0.61
REGRESSION LOGISTIQUE: VARIABLE INDEPENDANTE DISCRETE
Interprétation (2):– Déterminer le OR en faveur d’une coronaropathie selon
l’‘âge:
– Un patient à 1.12 fois plus de chance d’avoir une CHD par année d’âge
OR = e0.111 = 1.12
IC 95 % : 1.07 à 1.17
24
REGRESSION LOGISTIQUE MULTIVARIABLELa régression logistique multivariable va mettre en relation plusieurs prédicteurs x pour prédire l’outcome (y).
Exemple:– Le score de gravité APACHE II calculé à l’admission en
soins intensifs permet de prédire la mortalité hospitalière du patient en fonction du score APACHE et du diagnostic principal à l’admission (par exemple: embolie pulmonaire, EP) selon une équation de régression logistique:
π (x) = e-3.517 + 0.146 APACHE – 0.128 EP
1 + e-3.517 + 0.146 APACHE – 0.128 EP
– Si le patient a un score APACHE = 25 et présente une embolie pulmonaire (EP = 1):
Ainsi la probabilité de déceder est de 50 chances sur 100.
π (x) = 0.50
REGRESSION LOGISTIQUE MULTIVARIABLE
A partir de la mortalité prédite par le modèle logistique pour chaque patient et de la mortalité observée, on peut calculer le SMR (Standardized Mortality Ratio) pour une année complète:
– Mortalité observée: 82 décès sur 353 patients/an– Mortalité prédite par le score APACHE (somme des
probabilités: 78.6 décès sur 353 patients/an– SMR = 100 * taux observé/ taux prédit: 104 (Nor = 100).– SE SMR= 1.15– Intervalle de confiance à 95 %: 82 à 127
LES ETUDES LONGITUDINALES DE SURVIE
25
ETUDES DE SURVIEDATE D’ORIGINE:– Le terme «durée de survie» sans autre précision désigne le temps écoulé entre la naissance et la mort.
– Dans les études de survie, la durée de survie est calculée depuis le diagnostic ou le début du traitement qui correspond à la date d’origine.
DATE DES DERNIERES NOUVELLES:– Au moment de l’analyse, il faut disposer de la date des dernières nouvelles, c’est-à-dire la date la plus récente où l’on a recueilli des renseignements sur l’état de santé du patient.
DATE DE POINT:– Date choisie pour calculer la durée de survie.
6.2
ETUDES DE SURVIE
DUREE DE SURVEILLANCE:– La durée de surveillance est le délai écoulé entre la date d’origine et la date des dernières nouvelles.
DUREE DE PARTICIPATION:– Si les dernières nouvelles sont antérieures à la date de point, le temps de participation est égal au délai entre la date d’origine et la date des dernières nouvelles.
– Si les dernières nouvelles sont postérieures à la date de point, le temps de participation est égal au délai entre la date d’origine et la date de point.
TEMPS A L’EVENEMENT: – Le temps entre l’admission dans l’étude et l’événementd’intérêt (décès, récidive, …)
6.3
ETUDES DE SURVIE
PERDU DE VUE:– Un sujet dont on ne connaît pas l’état de santé à la date de point.
– On cherche toujours à réduire le nombre de sujets perdus de vue,
• d’une part parce que ces observations représentent une perte d’information et
• d’autre part parce qu’elles sont sources de biais.
EXCLU-VIVANT:– Un sujet qui est vivant à la date de point et après cette date est dit «exclu-vivant».
6.4
26
ETUDES DE SURVIE
OBSERVATIONS CENSUREES:Les sujets qui n’ont pas présenté l’événement d’intérêt. Il s’agit des sujets perdus de vue et des sujets exclus-vivants. Les deux mécanismes de censure sont de nature différente.Il faut que ces données censurées soient non informatives, c’est-à-dire aléatoires.
OBSERVATIONS NON CENSUREES:Les sujets qui ont présenté l’événement d’intérêt (décès, récidive,…) avant la date de point.
6.4
Analyse de survie: structure des données
Variable temps: ti = temps de la dernière visite (en vie sans l’événement d’intérêt) ou temps de l’événement d’intérêt (décès, récidive,…).
Variable de censure: ci = 0 si l’événement d’intérêts’est réalisé (donnée non censurée); ci = 1 sil’événement ne s’est pas réalisé au temps ti(donnée censurée)
Variable d’état (décès): di =1 si l’événementd’intérêt s’est réalisé; di =0 si l’événement ne s’estpas réalisé au temps ti
ETUDES DE SURVIE 6.5
Calendrier
01-jan-05 01-jan-06 01-jan-07 01-jan-08 01-jan-09Date
Suje
t
1
2
3
4
5
Décédé
Décédé
En vie
En vieEn vie
DécédéEn vie
DécédéEn vieEn vie
181412924
1/7/20061/3/20071/1/20061/1/20061/1/2008
1/1/20051/1/20061/1/20051/4/20051/6/2006
12345
EtatDurée de surveillance (mois)
DateDernières nouvellesDate
d’origineSujet
27
ETUDES DE SURVIE 6.6
Décédé
DécédéEn vie
En vieEn vie
Durée de surveillance
0 6 12 18 24 30Temps (mois)
Suje
t
1
2
3
4
5
DécédéEn vie
DécédéEn vieEn vie
181412924
1/7/20061/3/20071/1/20061/1/20061/1/2008
1/1/20051/1/20061/1/20051/4/20051/6/2006
12345
EtatDurée de surveillance (mois)
DateDernières nouvellesDate
d’origineSujet
ETUDES DE SURVIE 6.5
Calendrier
01-jan-05 01-jan-06 01-jan-07 01-jan-08 01-jan-09Date
Suje
t
1
2
3
4
5
Décédé
Décédé
Perdu de vue
Exclu vivantPerdu de vue
1/7/20061/3/20071/1/20061/1/20061/1/2008
1/1/20051/1/20061/1/20051/4/20051/6/2006
12345
EtatDurée de participation (mois)
DateDate de point: 1/2/2008Date
d’origineSujet
Date de point
1814129
20
DécédéPerdu de vue
DécédéPerdu de vueExclu vivant
ETUDES DE SURVIE 6.6
Décédé
DécédéPerdu de vue
Exclu vivantPerdu de vue
Durée de participation
0 6 12 18 24 30Temps (mois)
Suje
t
1
2
3
4
5
DécédéPerdu de vue
DécédéPerdu de vueExclu vivant
181412924
1/7/20061/3/20071/1/20061/1/20061/1/2008
1/1/20051/1/20061/1/20051/4/20051/6/2006
12345
EtatDurée de surveillance (mois)
DateDate de point: 1/2/2008Date
d’origineSujet
Non censuré
Non censuréCensuré
Censuré
Censuré
28
COURBES DE SURVIE NON PARAMETRIQUES DE KAPLAN-MEIER
La méthode de Kaplan-Meier (1958) repose sur l’idée intuitive suivante:
« être encore en vie après l’instant t, c’est être en vie juste avant l’instant t et ne pas mourir à l’instant t »
Pour estimer la fonction de survie S(t) d’une population à partir d’un échantillon de taille n (nombre de patients), il faut classer les observations par ordre croissant de temps de participation.
On définit:- ti, les instants auxquels les décès sont observés- ni, le nombre de sujets en vie juste avant ti, c’est-à-
dire, le nombre de sujets exposés au risque de décéder au temps ti
- di, le nombre de décès au temps ti- ci, le nombre de données censurées entre [ti et ti+1[
6.9
ETUDES DE SURVIE 6.6
Durée de participation
0 6 12 18 24 30Temps (mois)
Suje
t
1
2
3
4
5
DécédéPerdu de vue
DécédéPerdu de vueExclu vivant
181412924
1/7/20061/3/20071/1/20061/1/20061/1/2008
1/1/20051/1/20061/1/20051/4/20051/6/2006
12345
EtatDurée de surveillance (mois)
DateDate de point: 1/2/2008Date
d’origineSujet
(18, 1)
(12, 1)(14, 0)
(20, 0)(9, 0)
(ti, di)
METHODE DE KAPLAN-MEIERClasser les temps de décès par ordre croissant
Calculer le nombre de perdus de vue et d ’exclus vivant dans l ’intervalle (données censurées)
Calculer les taux de décès (et de survie) instantanés
Calculer les taux de survie globale
6.11
37.5 %(0.75 x 0.50)
1/(5-2-1) = 0.50(survie = 50 %)
1118
75%(1 x 0.75)
1/(5-1) = 0.25(survie = 75 %
1112
100 %(1 x 1)
0/5 = 0(survie 100%)
0-0
Survie globale
Taux de décès instantané
Nombre décèsNombres censurés dans
l’intervalle précédent
Temps décès(mois)
29
METHODE DE KAPLAN-MEIER
6.12
0
20
40
60
80
100
0 5 10 15 20 25 30
Temps (mois)
Surv
ie (%)
Médiane de survie18 mois
COURBES DE SURVIE NON PARAMETRIQUES DE KAPLAN-MEIER
A l’origine:t0 = 0 et d0 = 0
Pour tout i = 1, 2, …., k on a le nombre de sujets exposés au risque au temps ti
L’estimation de Kaplan-Meier de S(t) est:
6.13
ni = n0 - Σ dj - Σ cjj = 1
i - 1
j = 1
i - 1
t ≤ tiS(t) = Π [ ]^ ni - di
ni
Var [S(t)] =^ S(t) [1 – S(t)]n0
^ ^
COURBE DE SURVIE NON PARAMETRIQUE DE KAPLAN-MEIER
0.00000.00580.00740.00880.01020.01110.01180.0118
1.0000.8570.8070.7530.6900.6270.5380.448
21/21 = 1.00018/21 = 0.85716/17 = 0.94114/15 = 0.93311/12 = 0.91710/11 = 0.9096/7 = 0.8575/6 = 0.833
21211715121176
03111111
-0112030
0671013162223
Var[S(ti)]S(ti)(ni-di)/ninidiCi-1ti
Probabilité de survie sans rechute
Probabilitéconditionnelle
Nombre exposés en
ti
Nombre de rechutes
NombreCensures [ti-1, ti[
Tempsrechute(sem)
KAPLAN MEIER
Exemple: durées de rémission en semaines de patients atteints de leucémie traités par chimiothérapie au 6-MP (Freireich, 1963)
Probabilité de ne pas rechuter à l’instant t en n’étant pas en rechute avant l’instant t
Survie = 0.857 x 1.000
30
0 10 20 30 40Temps, semaines
100
80
60
40
20
0Surv
ie s
ans
réci
dive
(%)
6-MP
COURBE DE SURVIE NON PARAMETRIQUE DE KAPLAN-MEIER
médiane de survie: 23 semaines
COMPARAISON DE DEUX COURBES DE SURVIE DE KAPLAN-MEIER
La comparaison des courbes de survie de type Kaplan-Meier se fait grâce au test du Logrank.
Test du Logrank pour deux groupes A (traité 6-MP) et B (placebo):– Au temps ti, l’espérance mathématique du nombre
de rechute (dBi) dans le groupe B placebo (eBi) est:
6.16
eBi = (dAi + dBi) nBi
(nAi + nBi)
COMPARAISON DE DEUX COURBES DE SURVIE DE KAPLAN-MEIER
Test du Logrank pour deux groupes A (traité) et B (placebo):
– Avec une variance (vi):
– Logrank test:
6.16
[(nAi + nBi) - (dAi + dBi)][(nAi + nBi) – 1]
Vi = (dAi + dBi)nAi nBi
(nAi + nBi)²
χ² = (Σ dBi - Σ eBi)²
t
i - 1
t
i - 1
Σ vi
t
i - 1
avec ddl = 1
31
Comparaison de 2 courbes de Kaplan-Meier
6.2610.75219Total
Test du Logrank (Chi²) = 16.78 ddl = 2 – 1 = 1 p = 0.00042
-0.490.490.250.480.470.650.240.870.230.450.420.190.200.170.180.300.20
-1.000.950.450.860.801.090.411.710.350.760.670.250270.210.230.440.29
1.0000.9050.8100.7620.6670.5710.5710.5710.3810.3810.2860.1900.1900.1430.1430.0950.0480.000
1.0000.9050.8950.9410.8750.8571.0001.0000.6671.0000.7500.6671.0000.7501.0000.6670.5000.000
212119171614121212886443321
022122004022010111
1.0001.0001.0001.0001.0001.0000.8570.8070.8070.7530.7530.7530.6900.6900.6270.6270.5380.448
1.0001.0001.0001.0001.0001.0000.8570.9411.0000.9331.0001.0000.9171.0000.9091.0000.8570.833
2121212121212117161513121211111076
000000310100101011
012345678101112131516172223
VieBiSB(ti)(nBi-dBi)/nBinBidBiSA(ti)(nAi-dAi)/nAinAidAiti
Espérance (e) et variance (v) de mB
Survie sans rechute
Probabilitéconditonnelle
Nombre exposés en ti
Nombre rechutes
Survie sans rechute
Probabilitéconditionnelle
Nombreexposés en ti
Nombrerechutes
Tempsrechute(sem)
Groupe placeboGroupe 6-MP
KAPLAN MEIER
0 10 20 30 40Temps, semaines
100
80
60
40
20
0Surv
ie s
ans
réci
dive
(%)
6-MP
Placebo
Logrank = 16.78p = 0.00042
Comparaison de 2 courbes de Kaplan-Meier
COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)
Le modèle de Cox (1972) permet la prise en compte simultanée de plusieurs variables pour expliquer la survie sans donner aux fonctions de survie des formes paramétriques précises.
Ce modèle est utile dans de nombreux types d’études: – Ajustement sur les variables pronostiques dans un
essai thérapeutique.– Identification des variables pertinentes à des fins
pronostiques.
6.23
32
COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)
Définition du modèle de Cox:– Les modèles de régression pour les
données de survie s’écrivent sous la forme d’une relation entre le risque instantané de décès h(t) et les covariables (par exemple: x1 = sexe, x2 = age, …)
avec ho(t) étant le risque instantané lorsque les covariables sont égales à zéro.
6.23
....2211 ++ xbxbeh(t) = h0(t)Non paramétrique Paramétrique
COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)
Définition du modèle de Cox:– Ce modèle est souvent appelé « régression de
Cox car il peut s’écrire sous la forme:
– Hazard ratio = risque relatif lié aux covariables de l’occurrence d’un événement (décès) à l’instant t
6.23
Hazard ratio for x1 (= eb1)
Loge ...2211 ++= xbxbh0(t)h(t)
COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)
Dans le modèle de Cox, la fonction de risque cumulée (cumulative hazard function) Ho(ti) est:
La survie (S(ti)) est estimée par:
6.24
Ho (ti) = Σgroupe =1
2 dgroupe
Σ eb1 x1 + b2 x2 + …
S(ti) = e-Ho(ti)^
33
COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)
Le modèle de Cox est également appelé modèle des taux de risques proportionnels (proportional hazards) car il assume que chaque facteur qui affecte le risque l’affecte du même rapport à tous les instants. Ainsi, un facteur qui double le risque de décès au jour 1 doublera également le risque aux jours 5, 10, 50, ….
6.25
COURBES DE SURVIE PAR LE MODELE DE COX (approche semi-paramétrique)
Dans ce type d’analyse, le risque relatif (relative hazard) lié à une covariable correspond à:
Son intervalle de confiance à 95 % est calculé par la formule:
6.25
h(t, x1 = 1)h(t, x1 = 0) =
e(b1, x1 = 1)
e(b1, x1 = 0) = e b1
IC 95 % du HR = eb1 ± 1.96 SE(b1)
Comparaison de 2 courbes de survie (modèle de Cox)
10.930.850.790.740.660.550.520.400.340.310.240.210.180.150.120.070.03
10.980.960.950.930.910.880.860.820.800.770.730.710.680.660.630.560.46
00.01720.03590.04060.06750.09120.13110.14510.2020.22160.28230.31340.34660.3810.42170.46410.58870.7788
00.01720.01870.01020.02140.02370.03990.01400.05690.00980.04070.05110.03320.01720.04070.02490.02490.1901
212119171614121212886443321
2121212121212117161513121211111076
022122314122111122
012345678101112131516172223
b = 1.51 SE(b) = 0.41 t = b/SE(b) = 3.685 ddl = 2 – 1 = 1 p = 0.002
So(ti)exp(b)So(ti)Ho(ti)ho(ti)nBinAiditi
Survie sans rechute6 – MP Placebo
Risque cumulé
Risque instantané
Nombreexposés en ti
(groupe placebo)x = 1
Nombreexposés en ti(groupe 6-MP)
x = 0
Nombrerechutes
Tempsrechute(sem)
Modèle de COX
34
MODELE DE COX
100
80
60
40
20
0Surv
ie s
ans
réci
dive
(%)
0 10 20 30 40Temps, semaines
Placebo
6-MP
HR = 4.5IC 95 %: 2.0 à 10.1p = 0.002
Régression de Cox versus régression logistique
Mesures utilisées en médecine
Mesures de la fréquence d’un événement défini:– Proportion– Risque– Taux
35
Proportion
Rapport [ratio] : a/b (a , b ∈ Z)– valeur comprise entre – ∞ et + ∞ , pas d’unité
Proportion : a/b (a ≤ b ∈ N)– avec : effectif du numérateur relatif à un
sous-ensemble de l’effectif du dénominateur (a ≤ b)
– valeur comprise entre 0 et 1 (ou 0 % et 100 %), pas d’unité
Risque
Risque brut [crude risk] : probabilité– valeur comprise entre 0 et 1, pas d’unité
Risque relatif [relative risk] : rapport de deux risques– valeur comprise entre 0 et + ∞ , pas d’unité
Taux
Taux [rate] : mesure de la vitesse de survenue d’un événement (maladie)– valeur comprise entre 0 et + ∞, – unité : [temps]-1 (par exemple: /année)
36
Taux d’incidence – Proportion d’incidence
Incidence
0.01
0.02
0.03
0.00
0 1 2 3
Taux d’incidence: 0.01 (= 1% ou 10 cas pour 1000 personnes-année)
Incidence cumulée: 0.02(proportion)
Incidence cumulée: 0.03(proportion)
Régression de Cox vs régression logistique
Distinction entre rapport de taux de risque (hazard/rate ratio) et rapport de risque (odds ratio /risk ratio):– Hazard/rate ratio: rapport de taux
d’incidence– Odds/risk ratio: rapport de proportions
En prenant en compte le temps, on prend en compte plus d’information que simplement une réponse binaireoui/non.
Gain en puissance/précision.
La régression logistique a pour but d’estimer le rapport de risque (odds ratio); La régression de Cox a pour but d’estimer le rapport de taux de risque (hazard ratio)
Régression de Cox vs régression logistique.
Distinction entre taux (rate) et proportion:
– Taux d’incidence (risque, ‘hazard’): nombre de nouveaux cas de maladie pour la population à risque par unité de temps (ou taux de mortalité, si le résultat(‘outcome’) est le décès).
– Incidence cumulée: proportion de nouveaux cas qui sont apparus dans la période de temps donnée
37
Risks vs Rates
Relation entre risque and taux de risque:
R(t) = 1 – e-ht
h = taux de risque constant (hazard rate)
R(t) = probabilité de la maladieau temps t (risque)
Risque versus Taux de risque
Par exemple, si le taux de risque est de 5 cas/1000 personnes-année, la probabilité de développer la maladie (risque) sur 10 ans est:
A comparer à 0.005 (10) = 5% La perte de personnes à
risque car elles ontdéveloppé la maladiedurant la période estfaible par rapport à la taille de la population.
R(t) = 1 - .951 = 0.0488
R(t) = 1 – e -.05
R(t) = 1 – e –(.005) (10)
Risque versus Taux de risque
Si le taux de risque est de 50 cas/1000 personnes-année, la probabilité de développer la maladie en 10 ans est:
A comparer à .05(10) = 50%
R(t) = 1 - .607 = 0.393
R(t) = 1 – e -0.5
R(t) = 1 – e –(.05) (10)
38
Risque versus Taux de risque
Année Personnes à risque Taux: 0.05012345678910
1000950903858816776738702668635
50474542403836343331
396
Risque cumulé en 10 ans de 39.6% pour un taux de risque de 5 % par année
Cox regression vs Logistic regression
0 1 2 3 4 5 6 7 8 9 100
102030405060708090
100
Time
Surv
ival
prob
abili
ty(%
)
ORage = 0.998 (0.987- 1.009)Survival 59.7 %
Observational time: 10 years (tous les patients ont été observés pendant 10 ans)
HRage = 0.996 (0.988-1.004)Survival 61.2 %
Cox regression vs Logistic regression
0 1 2 3 4 5 6 7 8 9 100
102030405060708090
100
Time2
Surv
ival
prob
abili
ty(%
)
ORage = 0.998 (0.987- 1.009)Survival 59.7 %
Observational time: 6 to 10 years (censoring)
HRage = 0.994 (0.986-1.002)Survival 45.1 %
39
REGRESSION MULTIVARIABLE
Type de régression et modélisation
La modélisation de risques différentiels: la régression linéaire
La modélisation de cotes proportionnelles : la régression logistique
La modélisation des risques proportionnels: la régression de Poisson
La modélisation des taux de risques proportionnels: la régression de Cox.
Si y = variable continue -> régression linéaire
Si y = variable catégorielle dichotomique (1 or 0) -> régression logistique
Si y = compte d’événements sur une période de temps-> régression de Poisson
Si y = temps à l’événement (données censurées) -> régression de Cox
Types of regression
40
REGRESSION MULTIVARIABLE
Si y = variable continue: régression multiple
y = βo + β1 x1 + β2 x2 + β3 x3
β1 = coefficient de régression partielle pour le factor de risque x1 (pente)
REGRESSION MULTIVARIABLE
Si y = variable dichotomique: régression logistique multiple
y = βo + β1 x1 + β2 x2 + β3 x3e
1 + e βo + β1 x1 + β2 x2 + β3 x3
Logit(y) = βo + β1 x1 + β2 x2 + β3 x3
Relation linéaire
e = odds ratio pour le factor de risque x1β1
REGRESSION MULTIVARIABLE
Si y = nombre d’événements durant une période de temps: régression multivariable de Poisson.
βo + β1 x1 + β2 x2 + β3 x3y = ti e
Ln(y/ti) = βo + β1 x1 + β2 x2 + β3 x3
Relation linéaire
e = rapport d’incidence (incidence ratio) pour le factor de risque x1
β1
41
REGRESSION MULTIVARIABLE
Si y = temps à l’événement: régression de Cox multivariable (régression des taux de risqueproportionnels)
β1 x1 + β2 x2 + β3 x3y = h0 (t) e
Ln(y/h0 (t)) =β1 x1 + β2 x2 + β3 x3
Relation linéaire
e = Rapport des taux de risque(hazard ratio, HR) pour le facteurde risque x1
β1
COMMENT CONSTRUIRE UN MODELE MULTIVARIABLE?
STRATEGIE DE CONSTRUCTION DU MODELE
• Méthode ascendante pas à pas (forward selection)
• Méthode descendante (backward elimination)
• Méthode mixte pas à pas (stepwise regression)
• Tous les subsets (all subsets of regression - best subset)
42
REGRESSION MULTIVARIEE
REGRESSION MULTIVARIEE
y1
y2
y3
1
x1
x2
x3
=
β0j β1j β2j β3j
β0j β1j β2j β3j
β0j β1j β2j β3j
x
Belgium-Luxembourg
France
Germany
Holland Switzerland
ItalyFinland
UK Ireland
Norway
Austria
Sweden
Spain
Portugal
Denmark
-2
-1.5
-1
-0.5
0.5
1
1.5
2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
MIDAZOLAM
MORPHINE
PROPOFOL
SUFENTANIL
FENTANYL
0
Soliman H.M., Mélot C., et al. Br. J. Anaesth. 2001;87:186-192
MULTIVARIATE ANALYSIS
43
Courbe ROC (Receiver OperatingCharacteristics)
Décision médicale
Biomarqueurs et diagnostic: il y a 2 approches statistiques pour l’évaluation des biomarqueurs:
– Modélisation du risque (disease outcome) par régression logistique (OR) (ou régression de Cox - HR)
→ le biomarqueur est utile si il a un lien avec le risque (p < 0.05)
- Performance dans la classification malade/non malades (sensibilité, spécificité, valeur prédictive, LR et courbe ROC).→ le biomarqueur est utile si il a une bonne performance de classification (discriminant)
Approche fréquentiste
Approche bayésienne
Approche fréquentiste.
44
Dans l’approche frequentiste, la valeur de p (p-value) est…
la probabilité d’obtenir un résultat égal ou plus grand que le résultat observé, dans la situation où l’hypothèse nulle est vraie (hasard).
n’est pas la probabilité que l’hypothèse nullesoit vraie car elle (p-value) est calculée, en assumant que l’hypothèse nulle est vraie(100%).
What does this p-value mean?
There is a 0.5 % probability that the mortality reduction is due to chance.There is a 99.5 % probability that the mortality reduction is true.
There is a 0.5 % probability that the null hypothesis is true.
There is a 0.5 % chance of finding a 19.4 % reduction in mortality in this trial of 1690 patients if there was no effect of APC other than chance.
There is a 99.5 % probability that the alternative hypothesis istrue.
NEJM 2001;344:699-709
Approche bayésienne.
45
The reverend Thomas Bayes 1702-1761
Essay towards solving a problem in the doctrine of chancespublished in the Philosophical Transactions of the Royal Society of London in
1764.
Approche fréquentistePr(résultats observés|Ho)
Approche Bayésienne
Pr (Ha | résultats observés)
Information p - valeur Valeur prédictive
Approche fréquentiste versus approche bayésienne.
Test diagnostique: sensibilité et spécificité
Sensibilité = 297/348 = 0.85 (85 %)Faux négatifs = 51/348 = 0.15 (15 %)
Faux positifs = 108/360 = 0.30 (30 %)
Gold standard (par ex.: histologie)
Spécificité = 252/360 = 0.70 (70 %)
TumeurMaligne Bénigne
MammographiePositive
85(Sens: 0.85)
a
270(FP: 0.30)
b
355
Négativec
15(FN: 0.15)
d630
(Spéc: 0.70)645
100 900 1000
46
Probabilités a priori et a posteriori
Probabilitéà
priori
Probabilité àpostériori
Test
Prévalence
Valeur PrédictivePositive
Valeur PrédictiveNégative
Test +
Test -
TumeurMaligne Bénigne
MammographiePositive
85(Sens: 0.85)
a
270(FP: 0.30)
b
355
Négativec
15(FN: 0.15)
d630
(Spéc: 0.70)645
100 900 1000
Test diagnostique: valeurs prédictives (VP)
Prévalence = 100/1000 = 0.10 (10 %)Valeur prédictive positive (VPP) :
VPP = 85/355 = 0.24 (24 %)
Valeur prédictive négative (VPN) :VPN = 630/645 = 0.98 (98 %)
Gold standard (par ex.: histologie)
TEST DIAGNOSTIQUE
Glycémie, mg/dl
Sujets maladesSujets sains
faux positifsfaux négatifs
Test positifTest négatif
seuil
spécificité sensibilité
Spécificité + Faux Positifs = 1 Sensibilité + Faux Négatifs = 1
120 130110 140100 1509080 1607060
47
TEST DIAGNOSTIQUE: CHANGEMENT DU SEUIL
Glycémie, mg/dl
Sujets maladesSujets sains
spécificité↓ sensibilité↑faux positifs ↑
Test positifTest négatif
← seuil
faux négatifs ↓
120 130110 140100 1509080 1607060
TEST DIAGNOSTIQUE: CHANGEMENT DU SEUIL
Glycémie, mg/dl
Sujets maladesSujets sains
faux négatifs ↑ faux positifs ↓
Test positifTest négatif
seuil →
spécificité↑ sensibilité↓
120 130110 140100 1509080 1607060
COURBE ROC (Receiver Operating Caracteristics curve)
0102030405060708090
100
0 10 20 30 40 50 60 70 80 90 100
100 - spécificité
Sens
ibili
té
100105110
115
120
125
Aire sous la courbe(IC 95 %)
48
COURBE ROC (Receiver Operating Caracteristics curve)
0102030405060708090
100
0 10 20 30 40 50 60 70 80 90 100
100 - spécificité
Sens
ibili
té
100105110
115
120
125
Test idéalSeuil à spécificité maximale (diagnostic: FP ↓)
Seuil àsensibilitémaximale(dépistage: FN ↓)Seuil optimal
(PCC)
Seuil de l’intervalle de prédiction à 95 %
Diagnostic ou Dépistage?
Nul ou très faibleEventuellementRisque
Minimiser les FNMaximiser la VPNSensibilité élevée
Minimiser les FPMaximiser la VPPSpécificité élevée
Propriété du test
Forte (rapide et peu invasif)
FaibleAcceptabilitéBasElevéCoût unitaire
Eviter de manquer des cas de maladie dans la population
Identifier avec certitude la maladie
chez le patient
ButDépistageDiagnostic
10080.81.00∞100 (98.6 – 100)0 (0 – 5.6)> 610181.050.00.994.2299.6 (98.0 – 99.9)1.5 (0 – 5.6)> 510681.855.60.945.2798.5 (96.3 – 99.6)7.7 (2.6 - 17.1)> 412384.851.40.764.4593.4 (89.8 – 96.1)29.2 (18.6 - 41.8)> 314090.237.40.462.5273.7 (68.1 – 78.8)66.2 (53.4 - 77.4)> 2*13295.626.70.191.5339.8 (33.9 – 45.8)92.3 (82.9 - 97.4)> 110810020.40.001.087.7 (4.8 – 11.5)100 (94.4 – 100)> 010019.21.000 (0 – 1.4)100 (94.4 – 100)≥ 0
PV-PV+LR-LR+Spec. (95% CI)Sens. (95% CI)Criterion
Prevalence 19.2 %
0 20 40 60 80 100100-Specificity
100
80
60
40
20
0
Sens
itiv
ity
Area: 0.759 (0.709 – 0.804)
Score > 2
Embolie pulmonaire(Score de Genève)
49
Test diagnostique et décision médicale
Il y a 2 approches statistiques pour l’évaluation des biomarqueurs:
– Modélisation du risque (disease outcome) par régression logistique (ou régression de Cox)
→ le biomarqueur est utile si il a un lien avec le risque (p < 0.05)
- Performance dans la classification malade/non malades (sensibilité, spécificité, valeur prédictive, LR et courbe ROC).→ le biomarqueur est utile si il a une bonne performance de classification (discriminant)
Approche fréquentiste
Approche bayésienne
Modélisation du risque: prédictibilité (régression logistique)
Pepe MS et al. Am J Epidemiol 2008;167:362-368
< 0.0010.02
< 0.0010.04
3.671.032.69
0.0026
Log (PSA)Age (yrs)Digital Rectal Examination (DRE) positivePrior biopsy (PB)
PORVariable
Exemple: cancer de la prostate
y = -5.94 + 1.30 Log(PSA)+ 0.03 Age + 0.99 DRE – 0.037 PBe
1 + e -5.94 + 1.30 Log (PSA) + 0.03 Age + 0.99 DRE – 0.037 PB
No cancer = 0
Cancer = 1
Courbe ROC et Odds Ratio
0.00.10.20.30.40.50.60.70.80.91.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0Faux positifs (1-spécificité)
Vrai
s po
siti
fs (s
ensi
bilit
é)
0R = 11.5
23
510
15
120170
30
Pepe MS et al. Am J Epidemiol 2004;159:882-890
50
Comparaison du pouvoir discriminant de deux tests
Diagnostic d’embolie pulmonaire aux urgences
Score de Genève
Score de Wells
333 patients (63 embolies pulmonaires)
0 20 40 60 80 100
100-Specificity
100
80
60
40
20
0
Sens
itiv
ity
Area: 0.759 (0.709 – 0.804)Area: 0.850 (0.807 – 0.887)
p = 0.005
Score > 2.5
Score > 2 LR + : 2.52LR- : 0.46
LR + : 2.30LR- : 0.11
Penaloza A, Mélot C, Motte S Thrombosis Research 2011;127:81-84
S’il me restait un seul jour à vivre, je la passerais dans un cours de statistique
afin qu’il me paraisse plus long…