ue4 comparaison de moyennes -...

Une moyenne Deux moyennes

UE4Comparaison de moyennes

Pr. Nicolas MEYER

———————Laboratoire de Biostatistique et Informatique Medicale

Fac. de Medecine de Strasbourg———————

Janvier 2011


Plan

1 Comparaison d’une moyenne a une referenceContexteTests et exemples

2 Comparaison de deux moyennesContexteGrands echantillonsPetits echantillonsSeries appariees


Contexte

Plan


2 Comparaison de deux moyennes


Contexte

Comparaison d’une moyenne a une reference

Exemple 1

firme pharmaceutique veut verifier son procede de fabrication

flacon de 250 ml de serum physiologique

on mesure le volume de 20 flacons

la moyenne observee m = 250,3 contredit-elle la norme defabrication ?

Exemple 2

savoir si dans un groupe de personne la dose de vit D suit unenorme definie

Exemple 3

dosage d’une hormone le matin et le soir chez n sujets : lavaleur evolue-t-elle dans la journee ?


Contexte


Ces trois exemples concernent :

1 le controle d’un processus de fabrication

2 la verification d’une norme

3 une comparaison avant-apres dans des mesures appariees : lacomparaison dans ce cas de deux moyennes peut se ramenerau cas d’une moyenne unique


Contexte


Les hypotheses nulles et alternatives :

dans un contexte de test bilateral :

H0 : µ = µR

H1 : µ 6= µR

dans un contexte de test unilateral :

H0 : µ = µR

H1 : µ > µR ou µ < µR

• Pour savoir si l’echantillon vient de la population P de referenceou d’une autre population P ′

• savoir si l’ecart entre m et µR est attribuable a une fluctuationd’echantillonnage ou a une difference reelle entre la valeur dereference et la valeur dans la population dans laquelle on a tirel’echantillon


Tests et exemples

Plan


2 Comparaison de deux moyennes


Tests et exemples


La plupart du temps, on ne connait pas la variance σ2 dans lapopulation dont on extrait l’echantillon (situation la plus courante)

la variance doit alors etre estimee sur l’echantillon

donc une incertitude supplementaire

implique l’utilisation d’une loi de Student

t =m − µR√

s2

n

→ tn−1

= loi de Student a n − 1 ddl

ou s2 indique l’estimation de σ2 obtenue sur l’echantillon


Tests et exemples


Mais si l’echantillon est grand :

z =m − µR√

s2

n

→ N (0,1)

ou s2 indique l’estimation de σ2 obtenue sur l’echantillon

car si n grand, m suit une loi de Gauss meme si la V.A. X nesuit pas une loi de Gauss dans la population.


Tests et exemples


Les conclusions en terme d’H0 et d’H1 :

Pour le test z :

• pour un test bilateral :

si |z | 6 z1−α/2 on accepte H0 : absence de difference

si |z | > z1−α/2 on conclut H1 : difference des moyennes

• pour un test unilateral :

rejet H0 si z > z1−α → H1 : µ > µR

rejet H0 si z < −z1−α, soit z < zα → H1 : µ < µR


Tests et exemples


Les conclusions en terme d’H0 et d’H1 :

Pour le test t , sachant que t suit une loi de Student a n − 1 ddl :

• pour un test bilateral :

on rejette H0 si |t | > tn−1;1−α/2

• pour un test unilateral :

rejet H0 si t > tn−1;1−α → H1 : µ > µR

rejet H0 si t < −tn−1;1−α soit t < tn−1;α → H1 : µ < µR

si la V.A. d’interet suit une loi de Gauss


Tests et exemples

Conditions d’application

Les conditions d’applications de ces deux tests sont :

si n est grand (n > 30), on utilise le test z , quelle que soit ladistribution de X dans la population

Si n petit (n < 30), on utilise le test t , sous l’hypothese queX → N


Tests et exemples

Exemple 1

• On souhaite comparer la consommation de vit. D de nourrissonpar rapport a une norme

• norme 25-hydroxyvitamine-D (25-OH-D) = 50 nmol/L.

• On trouve dans un echantillon n = 137, m = 38,45, s = 51,6.

l’H0 : µP = µR

l’H1 : µP 6= µR

on realise le test z : zobs = 38,45−50√51,62

137

= −2,62

on compare zobs a z1−α/2on conclut H1 que la population d’interet a une moyenne de25-OH-D inferieure a la normale


Tests et exemples

Exemple 1

• On souhaite comparer la consommation de vit. D de nourrissonpar rapport a une norme

• norme 25-hydroxyvitamine-D (25-OH-D) = 50 nmol/L.

• On trouve dans un echantillon n = 137, m = 38,45, s = 51,6.

l’H0 : µP = µR

l’H1 : µP 6= µR

on realise le test z : zobs = 38,45−50√51,62

137

= −2,62

on compare zobs a z1−α/2 : zobs = −2,62 i.e. |zobs | > 1,96on conclut : H1 que la population d’interet a une moyenne de25-OH-D inferieure a la normale


Tests et exemples

Exemple 1 : commentaires

Remarque

On aurait aussi pu calculer la proportion de sujets ayant uneconcentration en vit. D inferieure a la norme ou inferieure a unevaleur basse de la norme (qui va en fait de 20 a 100 nmol/l) et faireun test de comparaison de proportions (voir cours correspondant)

Attention

cela ne repond pas a la meme question et les resultats peuvent etrediscordants en terme de rejet et acceptation de H0 ou H1


Tests et exemples

Exemple 2

Verification des volumes de fabrication

• echantillon de n = 20, avec m = 250,3, s2 = 2,9.

l’H0 : µP = µR

l’H1 : µP 6= µR

on realise le test t : tobs = 250,3−250√2,920

= 0,885

seuil : tn−1;1−α/2 = t19;0,975 = 2,09comparaison : tobs et tn−1;1−α/2

on conclut H0 et on conclut que le volume de fabrication nediffere pas de la norme


Tests et exemples

Exemple 2

Verification des volumes de fabrication

• echantillon de n = 20, avec m = 250,3, s2 = 2,9.

l’H0 : µP = µR

l’H1 : µP 6= µR

on realise le test t : tobs = 250,3−250√2,920

= 0,885

seuil : tn−1;1−α/2 = t19;0,975 = 2,09comparaison : |tobs | < tn−1;1−α/2 i.e. |tobs | < 2,09on conclut H0 i.e. que le volume de fabrication ne differe pasde la norme


Plan

1 Comparaison d’une moyenne a une reference



Contexte

Plan




Contexte

Contexte de comparaison de deux moyennes

Exemple 1 Pour comparer deux somniferes, on attribue soit lesomnifere A soit le somnifere B a deux groupes de 50 sujetschacun, groupes constitues aleatoirement. Comment montrer queB allonge plus la duree de sommeil que A ?

Exemple 2 On souhaite comparer la valeur moyenne de la tensionarterielle de deux groupes de patients, selon la presence ou nond’un facteur de risque suppose (tabac, alcool, variant genetique,toxique). On dispose d’un echantillon de 16 sujets dans chaquegroupe. On trouve mA = 130,7 et mB = 136,1. L’ecart est-ilattribuable au facteur ?

La solution :

comparaison de deux moyennes observees


Contexte

Comparaison de deux moyennes observees

Les hypotheses H0 et H1 :

Les differences sont-elles attribuables uniquement a une fluctuationaleatoire ou a un effet du medicament (exemple 1) ou du facteur(exemple 2) ?

Autre formulation : Soit µA et µB les moyennes vraies des deuxpopulations A et B d’ou sont issus les deux echantillons : les deuxmoyennes sont-elles identiques ? Les deux echantillons sont-ils issusde la meme population ou de deux populations differentes ?

H0 : les deux moyennes ne different pas : µA = µB

H1 : les moyennes different : µA 6= µB si bilateral

H ′1 : les moyennes different : µA < µB ou µA > µB siunilateral


Contexte


Remarque : les σ2 n’interviennent pas dans la formulation deshypotheses alors qu’elles sont indispensables pour realiser le test.

Une hypothese tres forte necessaire pour comparer les moyennesest que les variances sont egales dans les deux populations =homoscedasticite des variances.

Pourquoi ?

Car cela permet de dire que l’effet du facteur se manifeste par undecalage des valeurs et pas par la combinaison d’un decalage etd’une dilatation des valeurs. Si le traitement modifiait lesmoyennes et les variances, on testerait deux choses simultanementsans que l’on puisse les distinguer par ce test

On test des decalages de moyennes et pas desmodifications quelconques des valeurs


Grands echantillons

Plan




Grands echantillons


(1) cas des grands echantillons : n1 > 30 et n2 > 30

Fluctuations d’echantillonnage sous H0 (i.e. si H0 est vraie) :

mA → N (µA , σ2A/nA)

mB → N (µB , σ2B/nB )

et mA −mB → N (µA − µB , σ2A/nA + σ2

B/nB )

si les deux echantillons sont independants


Grands echantillons


La plupart du temps, les σ2 ne sont pas connues

Comme nA et nB sont grands, on peut remplacer σA et σB

par sA et sB (bonne approximation)

alors, sous l’hypothese d’egalite des variances

z =mA −mB√

s2A

nA+

s2B

nB

→ N (0,1)

Il y a ici deux approximations de nature differente :

1 la distribution de m par une loi normale

2 celle de la valeur de σ par s


Grands echantillons


Donc, pour un test bilateral au seuil α :

si |z | 6 z1−α/2 on accepte H0 : absence de difference

si |z | > z1−α/2 on conclut H1 : difference des moyennes

Et pour un test unilateral :

pour H1 : µA > µB : rejet de H0 si z > z1−αpour H1 : µA < µB : rejet de H0 si z < −z1−α soit z 6 zα


Grands echantillons

Application

Exemple 1 : somniferes.

Deux traitements A et B (B = placebo), compares sur laduree de sommeil

on observe mA = 5,41, mB = 5,02, s2A = 2,1 et s2

B = 1,9formulation unilaterale

H0 : µA = µB et H1 : µA > µB

→ z = 1,38 (< z1−α=95% = 1,645), donc difference nonsignificative

donc H0, absence de difference est ici retenue : (( on ne metpas en evidence de difference entre les deux traitements ))

un gain de 0,39 h = 23 minutes n’est pas negligeable maisinsuffisant pour montrer la superiorite de A sur un placebo


Petits echantillons

Plan




Petits echantillons


(2) cas des petits echantillons : si n1 < 30 et/ou n2 < 30

Fluctuations d’echantillonnage sous H0 (i.e. si H0 est vraie) :

• dans ce cas, l’approximation par la loi de Gauss n’est plus possible

• en raison de l’estimation des variances

• si la distribution de la V.A. est gaussienne dans chacune despopulations et si σ2

A = σ2B , alors :

t =mA −mB√

s2(

1nA

+ 1nB

) , avec s2 =(nA − 1)s2

A + (nB − 1)s2B

nA + nB − 2

t a nA + nB − 2 ddl ; s2 : moyenne ponderee des variances


Petits echantillons

Realisation du test

La valeur de t suit une loi de Student a nA + nB − 2 ddl.

Donc, pour un test bilateral :

on rejette H0 si |t | > tnA+nB−2;1−α/2

Et pour un test unilateral :

pour H1 : µA > µB rejet de H0 si t > tnA+nB−2;1−α

pour H1 : µA < µB rejet de H0 si t < −tnA+nB−2;1−α

si la V.A. d’interet suit une loi de Gauss et que les variances sontegales.


Petits echantillons

Remarques diverses :

• Le test t est en fait valable meme pour de grands effectifs, car ilse rapproche d’un z quand les effectifs augmentent.

• Dans le cas des grands echantillons, il y a donc deux testsutilisables, qui donnent des resultats tres proches.

• Lorsque les effectifs sont inegaux, il est particulierementimportant que l’homoscedasticite des variances soit respectee


Petits echantillons

Application

Exemple 2 : tension arterielle

nA = nB = 16on observe mA = 130,7, mB = 136,1, s2

A = 23,2 et s2B = 25,8

H0 : µA = µB et H1 : µA 6= µB

on calcule : s2 = 15×23,2+15×25,830

t =136,1− 130,7√s2(1/16 + 1/16)

= 3,09

donc t > t30;1−α/2 = 2,042ici dans une formulation bilaterale, si effet du toxique inconnua priori

on utiliserait une formulation unilaterale par ex. pour untraitement dont on connait l’action pharmacologique


Petits echantillons

Synthese sur les conditions d’application

• Differents cas possibles :

• soit une V.A. Xsi les effectifs sont grands (nA et nB > 30) → test z quelleque soit la loi de X

si les effectifs sont petits (nA et nB < 30) ou si l’un deseffectifs est petit (nA ou nB < 30) → test t

X doit etre gaussienles variances ne doivent pas etre differenteson utilise la moyenne ponderee des variances

En pratique, le t de Student est toujours applicable, l’ecart entre let et le z diminuant quand n augmente


Series appariees

Plan




Series appariees

Comparaison de moyennes sur series appariees

• Jusqu’ici deux groupes independants de valeurs

• notion de comparaison non-independantes entre deux groupes

avant - apres

temoins apparies aux cas par ages, taille, criteres biologiques

ex. : cote droit / cote gauche

deux prelevements sur un meme organe mais avec deuxtraitements differents


Series appariees


• Principe de la solution

pour chaque i , calcul de la difference entre les deux valeurs

→ une serie unique de valeur

comparer la moyenne de cette serie a 0.

= un test contre une moyenne de reference

δi = µiA − µiB et calcul des differents pour chaque sujet

le test statistique : H0 : µδ = 0 (0 = µR) et H1 : µδ 6= 0deux tests selon les effectifs : z si n grand ou t si n petit


Series appariees


(( Data ! Data ! Data ! he cried impatiently. I can’t make brickswithout clay. )) The Copper Beeches, Sir A. Conan Doyle.


Series appariees


Exemple : comparaison de glycemie a jeun sans et avec untraitement.

en l’absence d’effet du traitement, les ecarts de mesuresseront nuls

en formulation bilaterale

H0 : µdif = 0 et H1 : µdif 6= 0soit n = 12, mdif = 0,21g/L, s2

m = 0,232m−µ√

s2

n

= m√s2

n

car µ = 0 et m√s2

n

→ t

tobs = 0,21(−0)√0,23212

= 0,21√0,23212

= 1,51

donc |tobs | < t11;1−α/2 puisque (t11;1−α/2 = 2,2)d’ou le non rejet de H0


Series appariees

Synthese

La comparaison de moyennes peut se faire :

1 entre une moyenne observee et une moyenne de reference

2 entre deux moyennes sur des series appariees, situation qui seramene au cas 1 avec µR = 0

2 entre deux moyennes independantes

3 entre plus de deux moyennes : voir cours sur ANOVA

Les conditions d’applications portent sur :

la taille du ou des echantillons

l’homoscedasticite si deux moyennes

le respect de la loi de Gauss pour la V.A.

ue4 comparaison de moyennes -...

Documents