université dottawa - bio 4518 - biostatistiques appliquées © antoine morin et scott findlay...

Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39

1

Analyse de variance à un critère de Analyse de variance à un critère de classification (ANOVA)classification (ANOVA)

Quand utiliser l’ANOVA

Les modèles d’ANOVA et la répartition des sommes des carrés

ANOVA: test d’hypothèses

ANOVA: conditions d’application

Alternative non-paramétrique: Kruskall-Wallis

Puissance


2

Quand utiliser l’ANOVAQuand utiliser l’ANOVA

• Pour tester l’effet d’une variable indépendante “discrète”

• chaque variable indépendante est appelée un facteur et chaque facteur peut avoir deux ou plusieurs niveaux ou traitements (ex: rendement du maïs fertilisé à l’azote (N) ou au phosphore et à l’azote (P+N)

• l’ANOVA teste si toutes les moyennes sont égales

• On l’utilise quand le nombre de niveaux est supérieur à deux

TémoinExpérimental (N)Expérimental (N+P)

Rendement

Fré

qu

en

ce

C N N+P


3

Pourquoi ne pas utiliser Pourquoi ne pas utiliser plusieurs tests de t?plusieurs tests de t?

• Pour un nombre de comparaisons k , si H0 est vraie, la probabilité de l’accepter pour tous les k est (1 - )k

• pour quatre moyennes, (1 - )k =(0.95)6 = .735

• alors, (pour toutes les comparaisons) = 0.265

• alors en comparant les moyennes des quatre échantillons provenant de la même population on s’attend à détecter des différences significatives pour une paire dans 27% des cas

ContrôleExpérimental (N)Expérimental (N+ P)

c :N N:N+P

C: N+P

Rendement

Fré

qu

en

ce

C N N+P


4

Possibilités et limites de Possibilités et limites de l’ANOVAl’ANOVA

• Permet de tester si toutes les moyennes sont égales (au niveau )...

• …mais si on rejette H0, l’ANOVA ne dit pas lesquelles

Rendement

Fré

qu

en

ceC N N+P

TémoinExpérimental (N)Expérimental (N+ P)

Fré

qu

en

ce

C N

N+P


5

Types d’ANOVA Types d’ANOVA

• Type I (“effets fixes”): les traitements sont déterminés par le chercheur

• Type II (“effets aléatoires”): les traitements ne sont pas sous le contrôle de l’expérimentateur

• Type III (“modèle mixte”): au moins un facteur du Type I et au moins un du Type II


6

ANOVA Type I: effet de la température sur le ANOVA Type I: effet de la température sur le taux de croissance de la truitetaux de croissance de la truite

• 3 traitements déterminés par le chercheur

• la variable dépendante est le taux de croissance (), et le facteur (X) est la température

• X étant contrôlé, on peut estimer l’effet de l’augmentation d’une unité de X (température) sur le taux de croissance)

• …et prédirepour d’autres températures

Température (ºC)

16 20 24 28

0.00

0.04

0.08

0.12

0.16

0.20

Ta

ux

de

cro

iss

anc

e

(c

m/jo

ur)


7

ANOVA Type II: poids de l’ours noir et ANOVA Type II: poids de l’ours noir et dispersion géographiquedispersion géographique

• 3 sites (groupes) échantillonnés

• variable dépendante est le poids, et le site est le facteur (X)

• Pour des sites différents les facteurs contrôlant la variabilité sont inconnus...

• …alors, on ne peut prédire le poids pour d’autres sites

Po

ids

(kg

)

120

160

200

240

280

RidingMountain

Kluane Algonquin


8

Différences entre les modèlesDifférences entre les modèles

• Pour le Type I, les facteurs peuvent être manipulés par l’expérimentateur, pas dans le Type II

• Le Type I nous permet d’estimer l’effet du traitement, de faire des prédictions, pas le Type II

• Les calculs pour les deux types sont identiques mais seulement pour l’ANOVA à un critère de classification!


9

Pourquoi le nom ANOVA? Pourquoi le nom ANOVA?

• Dans une ANOVA, la variance totale est répartie en deux composantes:

– intergroupe: variance des moyennes des différents groupes (traitements)

– intragroupe (erreur): variance des observations autour de la moyenne du groupe


10

ANOVA: modèle ANOVA: modèle généralgénéral

• Le modèle général:

• Les algorithmes de l’ANOVA suivent ce modèle (par les moindres carrés) afin d’estimer les i

• H0: tous les i = 0

ij i ijY

Groupe

Groupe 1Groupe 2Groupe 3

Y

2

2

42

Y


11

Répartition de la somme des carrés Répartition de la somme des carrés totaletotale

Groupe 1Groupe 2Groupe 3

Y

SC Totale SC Modèle (Groupes) SC Erreur


12

Tableau d’ANOVATableau d’ANOVA

Sources de variation

Somme des carrés

Carré moyen (MS)

Degré deliberté (dl)

F

Totale

Erreur

n - 1

n - k

SC/dl

SC/dl

Inter-groupe

k - 1 SC/dlMSintergroupe

MSerreur

i 1

k

ijj 1

n2(Y Y)

i

i ii

k

n Y Y( )

1

2

i 1

k

ij 1

n2(Y Yi)

i

j


13

Composantes de la Composantes de la variance et moyennes des variance et moyennes des groupesgroupes

• MSintergroupe mesure les différences moyennes au carré parmis les moyennes des groupes

• MSerreur est une mesure de la précision

TémoinExpérimental (N)Expérimental (N+ P)

Rendement

Fre

qu

en

ce

C N N+P

Fre

qu

en

ce

C N

N+PF plus petit

F plus grand

t X XC T

CX TXs F groupes

erreur

MSMS


14

ANOVA: l’hypothèse ANOVA: l’hypothèse nullenulle

• H0: les moyennes de tous les groupes sont les mêmes, ou

• H0: il n’y a pas d’effet des groupes, i =0 , ou

• H0: F = MSintergroupe/ MSerreur = 0

• pour k groupes et pour un nombre d’observations N, on compare avec la distribution de F au niveau avec k - 1 et N - k degrés de liberté

TémoinExpérimental (N)Expérimental (N+ P) Rendement

Fre

qu

en

ce

C N N+P

Fre

qu

en

ce

C N

N+PF plus petit

F plus grand


15

Exemple (Lab): Variation temporelle de la Exemple (Lab): Variation temporelle de la taille de l’esturgeon (ANOVA type II)taille de l’esturgeon (ANOVA type II)

• Prédiction: la construction d’un barrage a provoqué la perte des esturgeons de grande taille

• Test: comparer la taille des esturgeons avant et après la construction du barrage

• H0: la taille moyenne est la même pour toutes les années

1954 1958 1965 1966

Année

35.0

38.8

42.6

46.4

50.2

54.0

Construction du barrage

Tai

lle


16

Variation temporelle de la taille des Variation temporelle de la taille des esturgeons (résultats de l’ANOVA)esturgeons (résultats de l’ANOVA)

Conclusion: rejeter H0

Analysis of Variance

Source Sum-of-Squares df Mean-Square F-ratio P

YEAR 485.264 3 161.755 5 .957 0.001

Error 3095.295 114 27.152


17

Conditions d’application de l’ANOVAConditions d’application de l’ANOVA

• Les résidus sont indépendants les uns des autres

• Les résidus sont distribués normalement

• La variance des résidus ne varie pas entre les traitements (homoscédasticité)

• À noter: ces conditions s’appliquent aux résidus et non aux données brutes

• …on doit tester les conditions d’application après que l’analyse soit faite et que les résidus soient obtenus


18

Test de la normalité des résidusTest de la normalité des résidus

• Vérifier la linéarité du graphique des probabilités normales des résidus

• Si nécessaire et justifié, faire un test de Lilliefors. Penser à la puissance!!

-20 -10 0 10 20 30RESIDUAL

-3

-2

-1

0

1

2

3

Exp

ect

ed

Va

lue

fo

r N

or m

al D

i str

ibu

ti on

42 43 44 45 46 47 48 49ESTIMATE

-3

-2

-1

0

1

2

3

4

5

6

ST

UD

EN

T

Valeursextrêmes


19

Test de l’indépendance des résidus: Test de l’indépendance des résidus: graphique ACFgraphique ACF

• Est-ce qu’il y a des corrélations à l’extérieur de l’intervalle de confiance à 95%?

Autocorrelation Plot

0 10 20 30 40 50 60Lag

-1.0

-0.5

0.0

0.5

1.0

Cor

rel a

tion


20

Test d’homoscédasticité I: graphique Test d’homoscédasticité I: graphique des résidus par rapport aux estimésdes résidus par rapport aux estimés

• L’étalement des résidus est-il le même pour tous les groupes?

-20 -10 0 10 20 30RESIDUAL

-3

-2

-1

0

1

2

3

Exp

ect

ed

Va

lue

fo

r N

orm

al D

istr

ibu

tion

42 43 44 45 46 47 48 49ESTIMATE

-3

-2

-1

0

1

2

3

4

5

6

ST

UD

EN

T

Valeur extrême?


21

Test de l’homoscédasticité II: test de LeveneTest de l’homoscédasticité II: test de Levene

• Calculer la moyenne absolue des résidus pour chaque groupe

• Cette moyenne varie-t-elle entre les groupes?

Least Squares Means

1954 1958 1965 1966Année

0

2

4

6

Res

. Ab

s.


22

Test de l’homoscédasticité II: test de Levene Test de l’homoscédasticité II: test de Levene (suite)(suite)


23

Effets de la violation des conditions Effets de la violation des conditions d’applicationd’application

• Le calcul de p assume que p(F) = p(F*)

• mais, moins les résidus se conforment aux conditions d’application, plus l’écart entre les deux augmente

• alors, les valeurs de p sont incorrectes F, peu conforme

Ftrès conformeVrai F (F*)

F0 1 2 3 4 50 1 2 3 4 50 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

Pro

babi

lité


24

Robustesse de l’ANOVA aux violations des Robustesse de l’ANOVA aux violations des conditions d’applicationconditions d’application

Conditiond’application

Robustesse Remarque

Normalité Élevée Seulement si l’effectif estgrand (>10)

Indépendance Basse Dépend de la force de lacorrélation

Homoscédasticité Basse Spécialement si l’effectifest petit


25

Questions sur l’analyse des résidusQuestions sur l’analyse des résidus

• Quelles conditions d’application sont violées? L’ANOVA est-elle robuste à ces violations?

• Quelle est la taille de l’effectif?

• Est-ce que la violation des conditions est causée par la présence de valeurs extrêmes?

• Comment se comparent p et

• Éliminer les valeurs extrêmes et refaire analyse

• Transformer les données

• Essayer ANOVA non-paramétrique (recommandé si l’effectif est petit, c’est-à-dire < 10 par groupe)


26

Témoin Traitement 1 Traitement 2

Champ Rendement

Rang Rendement

Rang Rendement

Rang

1 24 3 25 4 32 9

2 19 1 20 2 27 6

3 28 7 30 8 36 11

4 26 5 33 10 41 12

Somme desrangs

16 24 38

HN N

R

nN

i

ii

k

12

13 1

2

1( )( )

L’alternative non-paramétrique: L’alternative non-paramétrique: ANOVA de Kruskall-Wallis ANOVA de Kruskall-Wallis

• Calculer la somme des rangs (Rg) pour chaque groupe

• H0: RC = R1 = R2

• Calculer la statistique K-W H:

• qui est distribué comme 2 avec k-1 dl si N pour chaque groupe est assez grand, autrement, utiliser la valeur critique de H


27

ANOVA: Analyse de puissanceANOVA: Analyse de puissance

• Si H0 est vraie, alors t CMGroupes/CMerreur suit la distribution de F

• Mais si H0 est fausse, alors CMGroupes/CMerreur suit la distribution non-centrale de F, définie par 1, 2 et non-centralité).


Fré

qu

en

ceRendement

C N N+P


28

ANOVA: Analyse de PuissanceANOVA: Analyse de PuissanceCe qu’on peut calculerCe qu’on peut calculer

• Puissance d’un test sur k groupes avec n replicats par groupe au niveau lorsque (1) les moyennes de chaque groupe sont connues; (2) taille minimale de l’effet à détecter est spécifié

• Effectif minimum ou différence minimale détectable Témoin

Expérimental (N)Expérimental (N+P)

Fré

qu

en

ceRendement

C N N+P


29

Puissance et effectif en Puissance et effectif en ANOVA à un critère de ANOVA à un critère de classificationclassification

• ANOVA avec k groupes et n replicats par groupe au niveau .

• Si on a un estimé de la variabilité intragroupe s2

(MSerreur), on peut calculer :

n

ks

ii

k

( )2

12 Témoin

Expérimental (N)Expéerimental (N+P)

Fré

qu

en

ceRendement

C N N+P


30

Calculer la Calculer la puissance à partir puissance à partir de de • Pour 1 ,2, et , on

peut obtenir 1- à partir de tableaux ou courbes (e.g. Zar (1996), Appendix Figure B.1)

1-

2 décroissant

1 = 2

= .05

2 3 4 5

= .01

1 1.5 2 2.5

= .05)

= .01)


31

ANOVA type I: différence ANOVA type I: différence minimale détectableminimale détectable

• Pour détecter une différence entre les deux groupes les plus différents (par au moins .

• Pour un test au seuil avec une puissance de 1 - on peut calculer l ’effectif minimal requis nmin pour détecter , compte-tenu de la variance intragroupe s2, et solutionnant itérativement:

Fre

qu

en

cy

C N N+P


nks

min 22

2


32

ANOVA type I: Puissance ANOVA type I: Puissance du testdu test

• Si H0 est acceptée, il est pertinent de calculer la puissance

• À partir de CMgroupes , s2 (= CMerreur), et k, on peut calculer

.

( )( )k MS s

ksgroups1 2

2

Source SC dl CM

Totale SCT N-1

Intergroupes

SCgroupes k-1 CMgroupes

Erreur SCerreur N-k CMerreur


Fré

qu

en

ce

Rendement

C N N+P


33

Puissance d’un test: Puissance d’un test: exempleexemple

• Effet de la température sur le temps de développement d ’un insecte

• 3 températures (k = 3, n1 = n2 = 4, n3 = 5)

• Il y a 67% des chances de faire une erreur de type II

Source SS df MS F

Total 26.9 12

Amonggroups

10.37 2 5.19 3.13

Error 16.55 10 1.66

( )( )

( . . )( . )

.

( , , . ) .

k MS s

ksgroups1

2 519 1663 166

119

1 2 10 119 33

2

2

1 2


34

Facteurs déterminant la puissance en ANOVA Facteurs déterminant la puissance en ANOVA à un critère de classificationà un critère de classification

• Puissance augmente avec augmentation de

• Donc puissance augmente avec(1) augmentation de l ’effectif n; (2) augmentation des différences entre groupes (CMgroupes); (3) décroissance du nombre de groupes; (4) décroissance de la variance intragroupe s2 (MSerreur).

n

ks

2

22

n

ks

ii

k

( )2

12


35

Puissance en ANOVA Puissance en ANOVA de type IIde type II

• On peut calculer 1- à partir de la distribution F centrale:

• À partir de 1, 2, et CMgroupes, on peut calculer 1 - .

Ma

ss

e (

kg)

120

160

200

240

280

RidingMountain

Kluane AlgonquinFF

CM groupes( ), ,

( ), ,

( )12 1

21 2

1 2

2


36

Puissance en ANOVA non-paramétrique à Puissance en ANOVA non-paramétrique à un critère de classificationun critère de classification

• Si conditions d’application de l’ANOVA sont rencontrée, alors puissance ANOVA non-paramétrique est 3/ = 95% de celle de l’ANOVA.

• Calculer puissance de l ’ANOVA paramétrique comme estimé de la puissance de l ’ANOVA non-paramétrique.

Témoin Traitement 1 Traitement 2

Champ Rendement

Rang Rendement

Rang Rendement

Rang

1 24 3 25 4 32 9

2 19 1 20 2 27 6

3 28 7 30 8 36 11

4 26 5 33 10 41 12

Somme desrangs

16 24 38

université dottawa - bio 4518 - biostatistiques appliquées © antoine morin et scott findlay...

Documents