ue4 comparaison de moyennes -...
TRANSCRIPT
Une moyenne Deux moyennes
UE4Comparaison de moyennes
Pr. Nicolas MEYER
———————Laboratoire de Biostatistique et Informatique Medicale
Fac. de Medecine de Strasbourg———————
Janvier 2011
Une moyenne Deux moyennes
Plan
1 Comparaison d’une moyenne a une referenceContexteTests et exemples
2 Comparaison de deux moyennesContexteGrands echantillonsPetits echantillonsSeries appariees
Une moyenne Deux moyennes
Contexte
Plan
1 Comparaison d’une moyenne a une referenceContexteTests et exemples
2 Comparaison de deux moyennes
Une moyenne Deux moyennes
Contexte
Comparaison d’une moyenne a une reference
Exemple 1
firme pharmaceutique veut verifier son procede de fabrication
flacon de 250 ml de serum physiologique
on mesure le volume de 20 flacons
la moyenne observee m = 250,3 contredit-elle la norme defabrication ?
Exemple 2
savoir si dans un groupe de personne la dose de vit D suit unenorme definie
Exemple 3
dosage d’une hormone le matin et le soir chez n sujets : lavaleur evolue-t-elle dans la journee ?
Une moyenne Deux moyennes
Contexte
Comparaison d’une moyenne a une reference
Ces trois exemples concernent :
1 le controle d’un processus de fabrication
2 la verification d’une norme
3 une comparaison avant-apres dans des mesures appariees : lacomparaison dans ce cas de deux moyennes peut se ramenerau cas d’une moyenne unique
Une moyenne Deux moyennes
Contexte
Comparaison d’une moyenne a une reference
Les hypotheses nulles et alternatives :
dans un contexte de test bilateral :
H0 : µ = µR
H1 : µ 6= µR
dans un contexte de test unilateral :
H0 : µ = µR
H1 : µ > µR ou µ < µR
• Pour savoir si l’echantillon vient de la population P de referenceou d’une autre population P ′
• savoir si l’ecart entre m et µR est attribuable a une fluctuationd’echantillonnage ou a une difference reelle entre la valeur dereference et la valeur dans la population dans laquelle on a tirel’echantillon
Une moyenne Deux moyennes
Tests et exemples
Plan
1 Comparaison d’une moyenne a une referenceContexteTests et exemples
2 Comparaison de deux moyennes
Une moyenne Deux moyennes
Tests et exemples
Comparaison d’une moyenne a une reference
La plupart du temps, on ne connait pas la variance σ2 dans lapopulation dont on extrait l’echantillon (situation la plus courante)
la variance doit alors etre estimee sur l’echantillon
donc une incertitude supplementaire
implique l’utilisation d’une loi de Student
t =m − µR√
s2
n
→ tn−1
= loi de Student a n − 1 ddl
ou s2 indique l’estimation de σ2 obtenue sur l’echantillon
Une moyenne Deux moyennes
Tests et exemples
Comparaison d’une moyenne a une reference
Mais si l’echantillon est grand :
z =m − µR√
s2
n
→ N (0,1)
ou s2 indique l’estimation de σ2 obtenue sur l’echantillon
car si n grand, m suit une loi de Gauss meme si la V.A. X nesuit pas une loi de Gauss dans la population.
Une moyenne Deux moyennes
Tests et exemples
Comparaison d’une moyenne a une reference
Les conclusions en terme d’H0 et d’H1 :
Pour le test z :
• pour un test bilateral :
si |z | 6 z1−α/2 on accepte H0 : absence de difference
si |z | > z1−α/2 on conclut H1 : difference des moyennes
• pour un test unilateral :
rejet H0 si z > z1−α → H1 : µ > µR
rejet H0 si z < −z1−α, soit z < zα → H1 : µ < µR
Une moyenne Deux moyennes
Tests et exemples
Comparaison d’une moyenne a une reference
Les conclusions en terme d’H0 et d’H1 :
Pour le test t , sachant que t suit une loi de Student a n − 1 ddl :
• pour un test bilateral :
on rejette H0 si |t | > tn−1;1−α/2
• pour un test unilateral :
rejet H0 si t > tn−1;1−α → H1 : µ > µR
rejet H0 si t < −tn−1;1−α soit t < tn−1;α → H1 : µ < µR
si la V.A. d’interet suit une loi de Gauss
Une moyenne Deux moyennes
Tests et exemples
Comparaison d’une moyenne a une reference
Les conclusions en terme d’H0 et d’H1 :
Pour le test t , sachant que t suit une loi de Student a n − 1 ddl :
• pour un test bilateral :
on rejette H0 si |t | > tn−1;1−α/2
• pour un test unilateral :
rejet H0 si t > tn−1;1−α → H1 : µ > µR
rejet H0 si t < −tn−1;1−α soit t < tn−1;α → H1 : µ < µR
si la V.A. d’interet suit une loi de Gauss
Une moyenne Deux moyennes
Tests et exemples
Conditions d’application
Les conditions d’applications de ces deux tests sont :
si n est grand (n > 30), on utilise le test z , quelle que soit ladistribution de X dans la population
Si n petit (n < 30), on utilise le test t , sous l’hypothese queX → N
Une moyenne Deux moyennes
Tests et exemples
Exemple 1
• On souhaite comparer la consommation de vit. D de nourrissonpar rapport a une norme
• norme 25-hydroxyvitamine-D (25-OH-D) = 50 nmol/L.
• On trouve dans un echantillon n = 137, m = 38,45, s = 51,6.
l’H0 : µP = µR
l’H1 : µP 6= µR
on realise le test z : zobs = 38,45−50√51,62
137
= −2,62
on compare zobs a z1−α/2on conclut H1 que la population d’interet a une moyenne de25-OH-D inferieure a la normale
Une moyenne Deux moyennes
Tests et exemples
Exemple 1
• On souhaite comparer la consommation de vit. D de nourrissonpar rapport a une norme
• norme 25-hydroxyvitamine-D (25-OH-D) = 50 nmol/L.
• On trouve dans un echantillon n = 137, m = 38,45, s = 51,6.
l’H0 : µP = µR
l’H1 : µP 6= µR
on realise le test z : zobs = 38,45−50√51,62
137
= −2,62
on compare zobs a z1−α/2 : zobs = −2,62 i.e. |zobs | > 1,96on conclut : H1 que la population d’interet a une moyenne de25-OH-D inferieure a la normale
Une moyenne Deux moyennes
Tests et exemples
Exemple 1 : commentaires
Remarque
On aurait aussi pu calculer la proportion de sujets ayant uneconcentration en vit. D inferieure a la norme ou inferieure a unevaleur basse de la norme (qui va en fait de 20 a 100 nmol/l) et faireun test de comparaison de proportions (voir cours correspondant)
Attention
cela ne repond pas a la meme question et les resultats peuvent etrediscordants en terme de rejet et acceptation de H0 ou H1
Une moyenne Deux moyennes
Tests et exemples
Exemple 2
Verification des volumes de fabrication
• echantillon de n = 20, avec m = 250,3, s2 = 2,9.
l’H0 : µP = µR
l’H1 : µP 6= µR
on realise le test t : tobs = 250,3−250√2,920
= 0,885
seuil : tn−1;1−α/2 = t19;0,975 = 2,09comparaison : tobs et tn−1;1−α/2
on conclut H0 et on conclut que le volume de fabrication nediffere pas de la norme
Une moyenne Deux moyennes
Tests et exemples
Exemple 2
Verification des volumes de fabrication
• echantillon de n = 20, avec m = 250,3, s2 = 2,9.
l’H0 : µP = µR
l’H1 : µP 6= µR
on realise le test t : tobs = 250,3−250√2,920
= 0,885
seuil : tn−1;1−α/2 = t19;0,975 = 2,09comparaison : |tobs | < tn−1;1−α/2 i.e. |tobs | < 2,09on conclut H0 i.e. que le volume de fabrication ne differe pasde la norme
Une moyenne Deux moyennes
Plan
1 Comparaison d’une moyenne a une reference
2 Comparaison de deux moyennesContexteGrands echantillonsPetits echantillonsSeries appariees
Une moyenne Deux moyennes
Contexte
Plan
1 Comparaison d’une moyenne a une reference
2 Comparaison de deux moyennesContexteGrands echantillonsPetits echantillonsSeries appariees
Une moyenne Deux moyennes
Contexte
Contexte de comparaison de deux moyennes
Exemple 1 Pour comparer deux somniferes, on attribue soit lesomnifere A soit le somnifere B a deux groupes de 50 sujetschacun, groupes constitues aleatoirement. Comment montrer queB allonge plus la duree de sommeil que A ?
Exemple 2 On souhaite comparer la valeur moyenne de la tensionarterielle de deux groupes de patients, selon la presence ou nond’un facteur de risque suppose (tabac, alcool, variant genetique,toxique). On dispose d’un echantillon de 16 sujets dans chaquegroupe. On trouve mA = 130,7 et mB = 136,1. L’ecart est-ilattribuable au facteur ?
La solution :
comparaison de deux moyennes observees
Une moyenne Deux moyennes
Contexte
Comparaison de deux moyennes observees
Les hypotheses H0 et H1 :
Les differences sont-elles attribuables uniquement a une fluctuationaleatoire ou a un effet du medicament (exemple 1) ou du facteur(exemple 2) ?
Autre formulation : Soit µA et µB les moyennes vraies des deuxpopulations A et B d’ou sont issus les deux echantillons : les deuxmoyennes sont-elles identiques ? Les deux echantillons sont-ils issusde la meme population ou de deux populations differentes ?
H0 : les deux moyennes ne different pas : µA = µB
H1 : les moyennes different : µA 6= µB si bilateral
H ′1 : les moyennes different : µA < µB ou µA > µB siunilateral
Une moyenne Deux moyennes
Contexte
Comparaison de deux moyennes observees
Remarque : les σ2 n’interviennent pas dans la formulation deshypotheses alors qu’elles sont indispensables pour realiser le test.
Une hypothese tres forte necessaire pour comparer les moyennesest que les variances sont egales dans les deux populations =homoscedasticite des variances.
Pourquoi ?
Car cela permet de dire que l’effet du facteur se manifeste par undecalage des valeurs et pas par la combinaison d’un decalage etd’une dilatation des valeurs. Si le traitement modifiait lesmoyennes et les variances, on testerait deux choses simultanementsans que l’on puisse les distinguer par ce test
On test des decalages de moyennes et pas desmodifications quelconques des valeurs
Une moyenne Deux moyennes
Grands echantillons
Plan
1 Comparaison d’une moyenne a une reference
2 Comparaison de deux moyennesContexteGrands echantillonsPetits echantillonsSeries appariees
Une moyenne Deux moyennes
Grands echantillons
Comparaison de deux moyennes observees
(1) cas des grands echantillons : n1 > 30 et n2 > 30
Fluctuations d’echantillonnage sous H0 (i.e. si H0 est vraie) :
mA → N (µA , σ2A/nA)
mB → N (µB , σ2B/nB )
et mA −mB → N (µA − µB , σ2A/nA + σ2
B/nB )
si les deux echantillons sont independants
Une moyenne Deux moyennes
Grands echantillons
Comparaison de deux moyennes observees
La plupart du temps, les σ2 ne sont pas connues
Comme nA et nB sont grands, on peut remplacer σA et σB
par sA et sB (bonne approximation)
alors, sous l’hypothese d’egalite des variances
z =mA −mB√
s2A
nA+
s2B
nB
→ N (0,1)
Il y a ici deux approximations de nature differente :
1 la distribution de m par une loi normale
2 celle de la valeur de σ par s
Une moyenne Deux moyennes
Grands echantillons
Comparaison de deux moyennes observees
Donc, pour un test bilateral au seuil α :
si |z | 6 z1−α/2 on accepte H0 : absence de difference
si |z | > z1−α/2 on conclut H1 : difference des moyennes
Et pour un test unilateral :
pour H1 : µA > µB : rejet de H0 si z > z1−αpour H1 : µA < µB : rejet de H0 si z < −z1−α soit z 6 zα
Une moyenne Deux moyennes
Grands echantillons
Application
Exemple 1 : somniferes.
Deux traitements A et B (B = placebo), compares sur laduree de sommeil
on observe mA = 5,41, mB = 5,02, s2A = 2,1 et s2
B = 1,9formulation unilaterale
H0 : µA = µB et H1 : µA > µB
→ z = 1,38 (< z1−α=95% = 1,645), donc difference nonsignificative
donc H0, absence de difference est ici retenue : (( on ne metpas en evidence de difference entre les deux traitements ))
un gain de 0,39 h = 23 minutes n’est pas negligeable maisinsuffisant pour montrer la superiorite de A sur un placebo
Une moyenne Deux moyennes
Petits echantillons
Plan
1 Comparaison d’une moyenne a une reference
2 Comparaison de deux moyennesContexteGrands echantillonsPetits echantillonsSeries appariees
Une moyenne Deux moyennes
Petits echantillons
Comparaison de deux moyennes observees
(2) cas des petits echantillons : si n1 < 30 et/ou n2 < 30
Fluctuations d’echantillonnage sous H0 (i.e. si H0 est vraie) :
• dans ce cas, l’approximation par la loi de Gauss n’est plus possible
• en raison de l’estimation des variances
• si la distribution de la V.A. est gaussienne dans chacune despopulations et si σ2
A = σ2B , alors :
t =mA −mB√
s2(
1nA
+ 1nB
) , avec s2 =(nA − 1)s2
A + (nB − 1)s2B
nA + nB − 2
t a nA + nB − 2 ddl ; s2 : moyenne ponderee des variances
Une moyenne Deux moyennes
Petits echantillons
Realisation du test
La valeur de t suit une loi de Student a nA + nB − 2 ddl.
Donc, pour un test bilateral :
on rejette H0 si |t | > tnA+nB−2;1−α/2
Et pour un test unilateral :
pour H1 : µA > µB rejet de H0 si t > tnA+nB−2;1−α
pour H1 : µA < µB rejet de H0 si t < −tnA+nB−2;1−α
si la V.A. d’interet suit une loi de Gauss et que les variances sontegales.
Une moyenne Deux moyennes
Petits echantillons
Remarques diverses :
• Le test t est en fait valable meme pour de grands effectifs, car ilse rapproche d’un z quand les effectifs augmentent.
• Dans le cas des grands echantillons, il y a donc deux testsutilisables, qui donnent des resultats tres proches.
• Lorsque les effectifs sont inegaux, il est particulierementimportant que l’homoscedasticite des variances soit respectee
Une moyenne Deux moyennes
Petits echantillons
Application
Exemple 2 : tension arterielle
nA = nB = 16on observe mA = 130,7, mB = 136,1, s2
A = 23,2 et s2B = 25,8
H0 : µA = µB et H1 : µA 6= µB
on calcule : s2 = 15×23,2+15×25,830
t =136,1− 130,7√s2(1/16 + 1/16)
= 3,09
donc t > t30;1−α/2 = 2,042ici dans une formulation bilaterale, si effet du toxique inconnua priori
on utiliserait une formulation unilaterale par ex. pour untraitement dont on connait l’action pharmacologique
Une moyenne Deux moyennes
Petits echantillons
Synthese sur les conditions d’application
• Differents cas possibles :
• soit une V.A. Xsi les effectifs sont grands (nA et nB > 30) → test z quelleque soit la loi de X
si les effectifs sont petits (nA et nB < 30) ou si l’un deseffectifs est petit (nA ou nB < 30) → test t
X doit etre gaussienles variances ne doivent pas etre differenteson utilise la moyenne ponderee des variances
En pratique, le t de Student est toujours applicable, l’ecart entre let et le z diminuant quand n augmente
Une moyenne Deux moyennes
Series appariees
Plan
1 Comparaison d’une moyenne a une reference
2 Comparaison de deux moyennesContexteGrands echantillonsPetits echantillonsSeries appariees
Une moyenne Deux moyennes
Series appariees
Comparaison de moyennes sur series appariees
• Jusqu’ici deux groupes independants de valeurs
• notion de comparaison non-independantes entre deux groupes
avant - apres
temoins apparies aux cas par ages, taille, criteres biologiques
ex. : cote droit / cote gauche
deux prelevements sur un meme organe mais avec deuxtraitements differents
Une moyenne Deux moyennes
Series appariees
Comparaison de moyennes sur series appariees
• Principe de la solution
pour chaque i , calcul de la difference entre les deux valeurs
→ une serie unique de valeur
comparer la moyenne de cette serie a 0.
= un test contre une moyenne de reference
δi = µiA − µiB et calcul des differents pour chaque sujet
le test statistique : H0 : µδ = 0 (0 = µR) et H1 : µδ 6= 0deux tests selon les effectifs : z si n grand ou t si n petit
Une moyenne Deux moyennes
Series appariees
Comparaison de moyennes sur series appariees
(( Data ! Data ! Data ! he cried impatiently. I can’t make brickswithout clay. )) The Copper Beeches, Sir A. Conan Doyle.
Une moyenne Deux moyennes
Series appariees
Comparaison de moyennes sur series appariees
Exemple : comparaison de glycemie a jeun sans et avec untraitement.
en l’absence d’effet du traitement, les ecarts de mesuresseront nuls
en formulation bilaterale
H0 : µdif = 0 et H1 : µdif 6= 0soit n = 12, mdif = 0,21g/L, s2
m = 0,232m−µ√
s2
n
= m√s2
n
car µ = 0 et m√s2
n
→ t
tobs = 0,21(−0)√0,23212
= 0,21√0,23212
= 1,51
donc |tobs | < t11;1−α/2 puisque (t11;1−α/2 = 2,2)d’ou le non rejet de H0
Une moyenne Deux moyennes
Series appariees
Synthese
La comparaison de moyennes peut se faire :
1 entre une moyenne observee et une moyenne de reference
2 entre deux moyennes sur des series appariees, situation qui seramene au cas 1 avec µR = 0
2 entre deux moyennes independantes
3 entre plus de deux moyennes : voir cours sur ANOVA
Les conditions d’applications portent sur :
la taille du ou des echantillons
l’homoscedasticite si deux moyennes
le respect de la loi de Gauss pour la V.A.