université dottawa - bio 4518 - biostatistiques appliquées © antoine morin et scott findlay...
TRANSCRIPT
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
1
Analyse de variance à un critère de Analyse de variance à un critère de classification (ANOVA)classification (ANOVA)
Quand utiliser l’ANOVA
Les modèles d’ANOVA et la répartition des sommes des carrés
ANOVA: test d’hypothèses
ANOVA: conditions d’application
Alternative non-paramétrique: Kruskall-Wallis
Puissance
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
2
Quand utiliser l’ANOVAQuand utiliser l’ANOVA
• Pour tester l’effet d’une variable indépendante “discrète”
• chaque variable indépendante est appelée un facteur et chaque facteur peut avoir deux ou plusieurs niveaux ou traitements (ex: rendement du maïs fertilisé à l’azote (N) ou au phosphore et à l’azote (P+N)
• l’ANOVA teste si toutes les moyennes sont égales
• On l’utilise quand le nombre de niveaux est supérieur à deux
TémoinExpérimental (N)Expérimental (N+P)
Rendement
Fré
qu
en
ce
C N N+P
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
3
Pourquoi ne pas utiliser Pourquoi ne pas utiliser plusieurs tests de t?plusieurs tests de t?
• Pour un nombre de comparaisons k , si H0 est vraie, la probabilité de l’accepter pour tous les k est (1 - )k
• pour quatre moyennes, (1 - )k =(0.95)6 = .735
• alors, (pour toutes les comparaisons) = 0.265
• alors en comparant les moyennes des quatre échantillons provenant de la même population on s’attend à détecter des différences significatives pour une paire dans 27% des cas
ContrôleExpérimental (N)Expérimental (N+ P)
c :N N:N+P
C: N+P
Rendement
Fré
qu
en
ce
C N N+P
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
4
Possibilités et limites de Possibilités et limites de l’ANOVAl’ANOVA
• Permet de tester si toutes les moyennes sont égales (au niveau )...
• …mais si on rejette H0, l’ANOVA ne dit pas lesquelles
Rendement
Fré
qu
en
ceC N N+P
TémoinExpérimental (N)Expérimental (N+ P)
Fré
qu
en
ce
C N
N+P
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
5
Types d’ANOVA Types d’ANOVA
• Type I (“effets fixes”): les traitements sont déterminés par le chercheur
• Type II (“effets aléatoires”): les traitements ne sont pas sous le contrôle de l’expérimentateur
• Type III (“modèle mixte”): au moins un facteur du Type I et au moins un du Type II
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
6
ANOVA Type I: effet de la température sur le ANOVA Type I: effet de la température sur le taux de croissance de la truitetaux de croissance de la truite
• 3 traitements déterminés par le chercheur
• la variable dépendante est le taux de croissance (), et le facteur (X) est la température
• X étant contrôlé, on peut estimer l’effet de l’augmentation d’une unité de X (température) sur le taux de croissance)
• …et prédirepour d’autres températures
Température (ºC)
16 20 24 28
0.00
0.04
0.08
0.12
0.16
0.20
Ta
ux
de
cro
iss
anc
e
(c
m/jo
ur)
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
7
ANOVA Type II: poids de l’ours noir et ANOVA Type II: poids de l’ours noir et dispersion géographiquedispersion géographique
• 3 sites (groupes) échantillonnés
• variable dépendante est le poids, et le site est le facteur (X)
• Pour des sites différents les facteurs contrôlant la variabilité sont inconnus...
• …alors, on ne peut prédire le poids pour d’autres sites
Po
ids
(kg
)
120
160
200
240
280
RidingMountain
Kluane Algonquin
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
8
Différences entre les modèlesDifférences entre les modèles
• Pour le Type I, les facteurs peuvent être manipulés par l’expérimentateur, pas dans le Type II
• Le Type I nous permet d’estimer l’effet du traitement, de faire des prédictions, pas le Type II
• Les calculs pour les deux types sont identiques mais seulement pour l’ANOVA à un critère de classification!
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
9
Pourquoi le nom ANOVA? Pourquoi le nom ANOVA?
• Dans une ANOVA, la variance totale est répartie en deux composantes:
– intergroupe: variance des moyennes des différents groupes (traitements)
– intragroupe (erreur): variance des observations autour de la moyenne du groupe
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
10
ANOVA: modèle ANOVA: modèle généralgénéral
• Le modèle général:
• Les algorithmes de l’ANOVA suivent ce modèle (par les moindres carrés) afin d’estimer les i
• H0: tous les i = 0
ij i ijY
Groupe
Groupe 1Groupe 2Groupe 3
Y
2
2
42
Y
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
11
Répartition de la somme des carrés Répartition de la somme des carrés totaletotale
Groupe 1Groupe 2Groupe 3
Y
SC Totale SC Modèle (Groupes) SC Erreur
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
12
Tableau d’ANOVATableau d’ANOVA
Sources de variation
Somme des carrés
Carré moyen (MS)
Degré deliberté (dl)
F
Totale
Erreur
n - 1
n - k
SC/dl
SC/dl
Inter-groupe
k - 1 SC/dlMSintergroupe
MSerreur
i 1
k
ijj 1
n2(Y Y)
i
i ii
k
n Y Y( )
1
2
i 1
k
ij 1
n2(Y Yi)
i
j
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
13
Composantes de la Composantes de la variance et moyennes des variance et moyennes des groupesgroupes
• MSintergroupe mesure les différences moyennes au carré parmis les moyennes des groupes
• MSerreur est une mesure de la précision
TémoinExpérimental (N)Expérimental (N+ P)
Rendement
Fre
qu
en
ce
C N N+P
Fre
qu
en
ce
C N
N+PF plus petit
F plus grand
t X XC T
CX TXs F groupes
erreur
MSMS
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
14
ANOVA: l’hypothèse ANOVA: l’hypothèse nullenulle
• H0: les moyennes de tous les groupes sont les mêmes, ou
• H0: il n’y a pas d’effet des groupes, i =0 , ou
• H0: F = MSintergroupe/ MSerreur = 0
• pour k groupes et pour un nombre d’observations N, on compare avec la distribution de F au niveau avec k - 1 et N - k degrés de liberté
TémoinExpérimental (N)Expérimental (N+ P) Rendement
Fre
qu
en
ce
C N N+P
Fre
qu
en
ce
C N
N+PF plus petit
F plus grand
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
15
Exemple (Lab): Variation temporelle de la Exemple (Lab): Variation temporelle de la taille de l’esturgeon (ANOVA type II)taille de l’esturgeon (ANOVA type II)
• Prédiction: la construction d’un barrage a provoqué la perte des esturgeons de grande taille
• Test: comparer la taille des esturgeons avant et après la construction du barrage
• H0: la taille moyenne est la même pour toutes les années
1954 1958 1965 1966
Année
35.0
38.8
42.6
46.4
50.2
54.0
Construction du barrage
Tai
lle
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
16
Variation temporelle de la taille des Variation temporelle de la taille des esturgeons (résultats de l’ANOVA)esturgeons (résultats de l’ANOVA)
Conclusion: rejeter H0
Analysis of Variance
Source Sum-of-Squares df Mean-Square F-ratio P
YEAR 485.264 3 161.755 5 .957 0.001
Error 3095.295 114 27.152
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
17
Conditions d’application de l’ANOVAConditions d’application de l’ANOVA
• Les résidus sont indépendants les uns des autres
• Les résidus sont distribués normalement
• La variance des résidus ne varie pas entre les traitements (homoscédasticité)
• À noter: ces conditions s’appliquent aux résidus et non aux données brutes
• …on doit tester les conditions d’application après que l’analyse soit faite et que les résidus soient obtenus
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
18
Test de la normalité des résidusTest de la normalité des résidus
• Vérifier la linéarité du graphique des probabilités normales des résidus
• Si nécessaire et justifié, faire un test de Lilliefors. Penser à la puissance!!
-20 -10 0 10 20 30RESIDUAL
-3
-2
-1
0
1
2
3
Exp
ect
ed
Va
lue
fo
r N
or m
al D
i str
ibu
ti on
42 43 44 45 46 47 48 49ESTIMATE
-3
-2
-1
0
1
2
3
4
5
6
ST
UD
EN
T
Valeursextrêmes
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
19
Test de l’indépendance des résidus: Test de l’indépendance des résidus: graphique ACFgraphique ACF
• Est-ce qu’il y a des corrélations à l’extérieur de l’intervalle de confiance à 95%?
Autocorrelation Plot
0 10 20 30 40 50 60Lag
-1.0
-0.5
0.0
0.5
1.0
Cor
rel a
tion
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
20
Test d’homoscédasticité I: graphique Test d’homoscédasticité I: graphique des résidus par rapport aux estimésdes résidus par rapport aux estimés
• L’étalement des résidus est-il le même pour tous les groupes?
-20 -10 0 10 20 30RESIDUAL
-3
-2
-1
0
1
2
3
Exp
ect
ed
Va
lue
fo
r N
orm
al D
istr
ibu
tion
42 43 44 45 46 47 48 49ESTIMATE
-3
-2
-1
0
1
2
3
4
5
6
ST
UD
EN
T
Valeur extrême?
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
21
Test de l’homoscédasticité II: test de LeveneTest de l’homoscédasticité II: test de Levene
• Calculer la moyenne absolue des résidus pour chaque groupe
• Cette moyenne varie-t-elle entre les groupes?
Least Squares Means
1954 1958 1965 1966Année
0
2
4
6
Res
. Ab
s.
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
22
Test de l’homoscédasticité II: test de Levene Test de l’homoscédasticité II: test de Levene (suite)(suite)
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
23
Effets de la violation des conditions Effets de la violation des conditions d’applicationd’application
• Le calcul de p assume que p(F) = p(F*)
• mais, moins les résidus se conforment aux conditions d’application, plus l’écart entre les deux augmente
• alors, les valeurs de p sont incorrectes F, peu conforme
Ftrès conformeVrai F (F*)
F0 1 2 3 4 50 1 2 3 4 50 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
Pro
babi
lité
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
24
Robustesse de l’ANOVA aux violations des Robustesse de l’ANOVA aux violations des conditions d’applicationconditions d’application
Conditiond’application
Robustesse Remarque
Normalité Élevée Seulement si l’effectif estgrand (>10)
Indépendance Basse Dépend de la force de lacorrélation
Homoscédasticité Basse Spécialement si l’effectifest petit
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
25
Questions sur l’analyse des résidusQuestions sur l’analyse des résidus
• Quelles conditions d’application sont violées? L’ANOVA est-elle robuste à ces violations?
• Quelle est la taille de l’effectif?
• Est-ce que la violation des conditions est causée par la présence de valeurs extrêmes?
• Comment se comparent p et
• Éliminer les valeurs extrêmes et refaire analyse
• Transformer les données
• Essayer ANOVA non-paramétrique (recommandé si l’effectif est petit, c’est-à-dire < 10 par groupe)
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
26
Témoin Traitement 1 Traitement 2
Champ Rendement
Rang Rendement
Rang Rendement
Rang
1 24 3 25 4 32 9
2 19 1 20 2 27 6
3 28 7 30 8 36 11
4 26 5 33 10 41 12
Somme desrangs
16 24 38
HN N
R
nN
i
ii
k
12
13 1
2
1( )( )
L’alternative non-paramétrique: L’alternative non-paramétrique: ANOVA de Kruskall-Wallis ANOVA de Kruskall-Wallis
• Calculer la somme des rangs (Rg) pour chaque groupe
• H0: RC = R1 = R2
• Calculer la statistique K-W H:
• qui est distribué comme 2 avec k-1 dl si N pour chaque groupe est assez grand, autrement, utiliser la valeur critique de H
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
27
ANOVA: Analyse de puissanceANOVA: Analyse de puissance
• Si H0 est vraie, alors t CMGroupes/CMerreur suit la distribution de F
• Mais si H0 est fausse, alors CMGroupes/CMerreur suit la distribution non-centrale de F, définie par 1, 2 et non-centralité).
TémoinExpérimental (N)Expérimental (N+P)
Fré
qu
en
ceRendement
C N N+P
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
28
ANOVA: Analyse de PuissanceANOVA: Analyse de PuissanceCe qu’on peut calculerCe qu’on peut calculer
• Puissance d’un test sur k groupes avec n replicats par groupe au niveau lorsque (1) les moyennes de chaque groupe sont connues; (2) taille minimale de l’effet à détecter est spécifié
• Effectif minimum ou différence minimale détectable Témoin
Expérimental (N)Expérimental (N+P)
Fré
qu
en
ceRendement
C N N+P
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
29
Puissance et effectif en Puissance et effectif en ANOVA à un critère de ANOVA à un critère de classificationclassification
• ANOVA avec k groupes et n replicats par groupe au niveau .
• Si on a un estimé de la variabilité intragroupe s2
(MSerreur), on peut calculer :
n
ks
ii
k
( )2
12 Témoin
Expérimental (N)Expéerimental (N+P)
Fré
qu
en
ceRendement
C N N+P
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
30
Calculer la Calculer la puissance à partir puissance à partir de de • Pour 1 ,2, et , on
peut obtenir 1- à partir de tableaux ou courbes (e.g. Zar (1996), Appendix Figure B.1)
1-
2 décroissant
1 = 2
= .05
2 3 4 5
= .01
1 1.5 2 2.5
= .05)
= .01)
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
31
ANOVA type I: différence ANOVA type I: différence minimale détectableminimale détectable
• Pour détecter une différence entre les deux groupes les plus différents (par au moins .
• Pour un test au seuil avec une puissance de 1 - on peut calculer l ’effectif minimal requis nmin pour détecter , compte-tenu de la variance intragroupe s2, et solutionnant itérativement:
Fre
qu
en
cy
C N N+P
TémoinExpérimental (N)Expérimental (N+P)
nks
min 22
2
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
32
ANOVA type I: Puissance ANOVA type I: Puissance du testdu test
• Si H0 est acceptée, il est pertinent de calculer la puissance
• À partir de CMgroupes , s2 (= CMerreur), et k, on peut calculer
.
( )( )k MS s
ksgroups1 2
2
Source SC dl CM
Totale SCT N-1
Intergroupes
SCgroupes k-1 CMgroupes
Erreur SCerreur N-k CMerreur
TémoinExpérimental (N)Expérimental (N+P)
Fré
qu
en
ce
Rendement
C N N+P
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
33
Puissance d’un test: Puissance d’un test: exempleexemple
• Effet de la température sur le temps de développement d ’un insecte
• 3 températures (k = 3, n1 = n2 = 4, n3 = 5)
• Il y a 67% des chances de faire une erreur de type II
Source SS df MS F
Total 26.9 12
Amonggroups
10.37 2 5.19 3.13
Error 16.55 10 1.66
( )( )
( . . )( . )
.
( , , . ) .
k MS s
ksgroups1
2 519 1663 166
119
1 2 10 119 33
2
2
1 2
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
34
Facteurs déterminant la puissance en ANOVA Facteurs déterminant la puissance en ANOVA à un critère de classificationà un critère de classification
• Puissance augmente avec augmentation de
• Donc puissance augmente avec(1) augmentation de l ’effectif n; (2) augmentation des différences entre groupes (CMgroupes); (3) décroissance du nombre de groupes; (4) décroissance de la variance intragroupe s2 (MSerreur).
n
ks
2
22
n
ks
ii
k
( )2
12
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
35
Puissance en ANOVA Puissance en ANOVA de type IIde type II
• On peut calculer 1- à partir de la distribution F centrale:
• À partir de 1, 2, et CMgroupes, on peut calculer 1 - .
Ma
ss
e (
kg)
120
160
200
240
280
RidingMountain
Kluane AlgonquinFF
CM groupes( ), ,
( ), ,
( )12 1
21 2
1 2
2
Université d’Ottawa - Bio 4518 - Biostatistiques appliquées© Antoine Morin et Scott Findlay23-04-11 04:39
36
Puissance en ANOVA non-paramétrique à Puissance en ANOVA non-paramétrique à un critère de classificationun critère de classification
• Si conditions d’application de l’ANOVA sont rencontrée, alors puissance ANOVA non-paramétrique est 3/ = 95% de celle de l’ANOVA.
• Calculer puissance de l ’ANOVA paramétrique comme estimé de la puissance de l ’ANOVA non-paramétrique.
Témoin Traitement 1 Traitement 2
Champ Rendement
Rang Rendement
Rang Rendement
Rang
1 24 3 25 4 32 9
2 19 1 20 2 27 6
3 28 7 30 8 36 11
4 26 5 33 10 41 12
Somme desrangs
16 24 38