stat-g204 chapitre i: anova - vrije universiteit...
TRANSCRIPT
Table des matieres
1 Introduction
2 ANOVA a 1 facteur
3 ANOVA a mesures repetees
4 Randomized block design ANOVA
5 ANOVA a plusieurs facteurs
Caroline Verhoeven STAT-G204 2 / 64
1. Introduction
Augmentation du risque d’erreur du type I : Exemple I
Exemple 1
En 1995, Inaudi et al. ont publie un articlesatirique dans le journal “Annals of Impro-bable Research”.Sujet de l’article : l’effet papillon : le bat-tement d’ailes d’un papillon peut avoir desgrands effets, tels que le creation d’un ou-ragan sur un autre continent.
Caroline Verhoeven STAT-G204 3 / 64
1. Introduction
Augmentation du risque d’erreur du type I : Exemple II
Exemple 1
Les chercheurs on attrape des douzaines de papillons et ont enregistrequotidiennement si ils battaient des ailes ou non en Suisse et onttelephone tous les jours a leur copine a Paris, pour demander si il pleut.
A la fin de l’etude, ils ont teste, pour chaque papillon, si il y avait un lienentre leur battement d’ailes et la pluie a Paris.
Ils ont trouve un papillon dont les jours des battement d’ailes etaitfortement correles avec les jours de pluie a Paris. Ils ont donc montre lelien entre les 2.
Leur erreur statistique : Si on fait suffisamment de tests, il y en aura bienun statistiquement significatif
Si on effectue N test independant avec un niveau significatif α, laprobabilite de ne pas faire d’erreur du type I est (1 − α)N . La probabilitede faire au moins 1 erreur du type I est 1 − (1 − α)N .
Caroline Verhoeven STAT-G204 4 / 64
2. ANOVA a 1 facteur
Exemple : Description I
Exemple 2
Quand change de zone horaire, onsouffre du decalage horaire. Ensuite,on s’adapte au cycle lumineux percupar l’oeil et on resynchronise notrerythme circadien. Le changement dansce rythme se nomme un “shift”.
En 1998, Campbell et Murphy ontdeclare que ce shift pouvait egalementse faire en illuminant l’arriere du genoux.Le resultat fut tres controverse
Caroline Verhoeven STAT-G204 5 / 64
2. ANOVA a 1 facteur
Exemple : Description II
Exemple 2
En 2002, Wright et Czeisler ont reetudiece phenomene. Ils ont mesure le cyclede production de melatonine chez N =22 sujets aleatoirement soumis a un des3 traitement suivants.
Ils ont ete reveille durant leur sommeilet soumis a une forte lumiere dans lesyeux, a l’arriere du genoux ou a aucunelumiere, durant une periode de 3 heures.Apres 2 jours, on a mesure leur cycle demelatonine.
Le “shift” (en heures) est donnes pourchaque groupe sur le slide suivant. Unshift negatif montre un retard.
Caroline Verhoeven STAT-G204 6 / 64
2. ANOVA a 1 facteur
Exemple : donnees
Exemple 2
controle genoux yeux0,53 0,73 -0,780,36 0,31 -0,860,20 0,03 -1,35-0,37 -0,29 -1,48-0,60 -0,56 -1,52-0,64 -0,96 -2,04-0,68 -1,61 -2,83-1,27
groupe 1 : controle, N1 = 8
groupe 2 : genoux, N2 = 7
groupe 3 : yeux, N3 = 7
Caroline Verhoeven STAT-G204 7 / 64
2. ANOVA a 1 facteur
Qu’est-ce que l’ANOVA ?
Ne pas faire plusieurs test 2 groupes par 2 groupes !
ANOVA : generalisation du test t pour 2 echantillons independants,vers k > 2 echantillons independantsFormulation des hypotheses
H0 : µ1 = µ2 = · · · = µk
Ha : Au moins une des moyennes est differentes des autres
ANOVA : ANalysis Of VAriance
Caroline Verhoeven STAT-G204 8 / 64
2. ANOVA a 1 facteur
Notations
k : Nombre d’echantillons
xij : mesure pour le sujet i du groupe j
x j : moyenne des mesures du groupe j
x : Moyenne globale de toutes les mesures
Nj : Nombre de sujets du groupe j
N : Nombre total de sujets
Caroline Verhoeven STAT-G204 9 / 64
2. ANOVA a 1 facteur
Principe de resolution
Comparer la variabilite entre les groupes avec celle a l’interieur desgroupes
xij − x =(xij − x j)variation
intra-groupes+
(x j − x)variation
inter-groupes
Exemple 2
2,5
-1,5
-0,5
0,5
contr. gen. yeux2,5
-1,5
-0,5
0,5
contr. gen. yeux2,5
-1,5
-0,5
0,5
contr. gen. yeux
x
x1, x2, x3
Caroline Verhoeven STAT-G204 10 / 64
2. ANOVA a 1 facteur
Calcul de la variance inter-groupes
La variance inter-groupes :
MSB =
∑kj=1 Nj(x j − x)2
k − 1
Exemple 2
x1 = −0,31, x2 = −0,34 x3 = −1,55 x = −0,71
MSB =12
(
8(−0,31 + 0,71)2 + 7(−0,34 + 0,71)2 + 7(−1,55 + 0,71)2)
= 3,61
Caroline Verhoeven STAT-G204 11 / 64
2. ANOVA a 1 facteur
Calcul de la variance intra-groupes I
La variance intra-groupes :
MSW =
∑N1i=1(xi1 − x1)
2 +∑N2
i=1(xi2 − x2)2 + · · ·+
∑Nki=1(xik − xk )
2
N − k
Exemple 2
xi1 xi2 xi3 (xi1 − x1)2 (xi2 − x2)
2 (xi3 − x3)2
0,53 0,73 -0,78 0,70 1,14 0,600,36 0,31 -0,86 0,45 0,42 0,480,20 0,03 -1,35 0,26 0,13 0,04-0,37 -0,29 -1,48 0,00 0,00 0,01-0,60 -0,56 -1,52 0,08 0,05 0,00-0,64 -0,96 -2,04 0,11 0,39 0,24-0,68 -1,61 -2,83 0,14 1,62 1,63-1,27 0,92
2,67 3,75 2,99
Caroline Verhoeven STAT-G204 12 / 64
2. ANOVA a 1 facteur
Calcul de la variance intra-groupes II
Exemple 2
Valeur de la variance intra-groupes :
MSW =2,67 + 3,75 + 2,99
22 − 3= 0,50
Caroline Verhoeven STAT-G204 13 / 64
2. ANOVA a 1 facteur
Calcul de la statistique F
On veut comparer MSB a MSW
On calcule le rapport entre les 2
f =MSB
MSW, F ∼ F (k − 1,N − k)
Si H0 est vraie, on s’attend a ce que f = 1
SI Ha est vraie, on s’attend a ce que f > 1
Caroline Verhoeven STAT-G204 14 / 64
2. ANOVA a 1 facteur
Exemple : Calcul de f et conclusion
Exemple 2
On veut savoir si au moins un des groupes a en moyenne un shiftdifferent dans son rythme circadien, avec un niveau significatif α = 0,05.
On a
f =MSB
MSW=
3,610,50
= 7,289, F ∼ F (2,19)
Calcul de la valeur p
p = P(F > 7,29) = 0,004 < α = 0,05
⇒ On rejette H0
3,52 f
0,2
0,4
0,6
0,8
1,0
Caroline Verhoeven STAT-G204 15 / 64
2. ANOVA a 1 facteur
Conditions
Les echantillons doivent etre aleatoires simples
Les echantillons doivent etre independants
Il faut que σ1 = σ2 = · · · = σk Pour verifier cela, on a le test deLevene
Il faut que la variable soit distribuee normalement pour les kpopulations
Caroline Verhoeven STAT-G204 16 / 64
2. ANOVA a 1 facteur
Donnees en SPSS
En SPSS : toutes les donnees d’un sujet sur une ligne
Caroline Verhoeven STAT-G204 17 / 64
2. ANOVA a 1 facteur
Definir les facteurs en SPSS II
On met la variable numerique dans Dependent ListOn met la variable qui definit les groupes dans Factor
Caroline Verhoeven STAT-G204 20 / 64
2. ANOVA a 1 facteur
Le teste de Levene en SPSS
On choisit le test de Levene dans les options
Caroline Verhoeven STAT-G204 21 / 64
2. ANOVA a 1 facteur
Resultat du test de Levene
df1= k − 1, df2= N − k
Sig.= p
Ici : p = 0,856⇒ NRH0
Caroline Verhoeven STAT-G204 23 / 64
2. ANOVA a 1 facteur
Resultat du test ANOVA
df1= k − 1, df2= N − k
Sig.= p
Ici : p = 0,004⇒ RH0
Caroline Verhoeven STAT-G204 24 / 64
2. ANOVA a 1 facteur
Apres l’ANOVA
L’ANOVA ne permet de detecter que si toutes les moyennes sont lesmemes ou si au moins une est differente.Comment savoir lesquelles sont differentes ?
Si on ne rejette pas H0 : on peut s’arreterSi on rejette H0 : Il y a differentes possibilites (tests de comparaisonmultiples) :
BonferroniTukeyDunnettSidakScheffee...
Caroline Verhoeven STAT-G204 25 / 64
3. ANOVA a mesures repetees
Exemple : Description
Exemple 3
Dans l’emission de realite “I’m acelebrity, get me out of here”, descelebrites doivent survivre dans lajungle et doivent subir des epreuvesdesagreables et humiliantes
Une de ces epreuves est de manger des choses peu appetissantes.
8 celebrites mangent chacune 4 de ces choses. On mesure le temps quileur faut avant d’avoir la nausee en secondes. Y a-t-il une difference detemps entre ces choses ?
Les donnees se trouvent sur le slide suivant
Caroline Verhoeven STAT-G204 26 / 64
3. ANOVA a mesures repetees
Exemple : Donnees
Exemple 3
celeb phasmes testicules yeux poisson larves1 8 7 1 62 9 5 2 53 6 2 3 84 5 3 1 95 8 4 5 86 7 5 6 77 10 2 7 28 12 6 8 1
Caroline Verhoeven STAT-G204 27 / 64
3. ANOVA a mesures repetees
Principe
On mesures k fois les memes sujets sous des conditions differentes
Generalisation du test t pour 2 echantillons apparies
Caroline Verhoeven STAT-G204 28 / 64
3. ANOVA a mesures repetees
Test preliminaire
Les variances des differences entre 2 groupes sont-elles toutes lesmemes ?Pour y repondre : test de Mauchly
H0 : les variances des differences entre 2 groupes sont les memesHa : Il y a au moins 1 variance des differences qui est differentes
p > 0,05 : NRH0
p < 0,05 : RH0
Si RH0 :correction de Greenhouse-Geissercorrection Huynh-Feldt
Caroline Verhoeven STAT-G204 29 / 64
3. ANOVA a mesures repetees
Menus en SPSS
Analyze → General Linear Model → Repeated Measures
Caroline Verhoeven STAT-G204 31 / 64
3. ANOVA a mesures repetees
Resultats du test de Mauchly
Ici : test de Mauchly significatif (p = 0,047 < 0,05)ε (Epsilon)
Si ε = 1 : sphericite parfaiteAu plus ε petit, au plus eloigne de la sphericite
Choix de correction :Si pour Greenhouse-Geisser ε > 0,75 : Huynh-FeldtSi pour Greenhouse-Geisser ε < 0,75 : Greenhouse-Geisser
Caroline Verhoeven STAT-G204 38 / 64
3. ANOVA a mesures repetees
Resultats de l’ANOVA
Prendre la bonne correction : ici Greenhouse-Geisser
Pour Greenhouse-Geisser : p = 0,06 ⇒ NRH0
⇒ la difference n’est pas significative
Caroline Verhoeven STAT-G204 39 / 64
4. Randomized block design ANOVA
Exemple : Description
Exemple 4
En 2007, Svanback et Bolnick ontteste l’impact de la quantite de pois-son sur la diversite du zooplanctondans un petit lac de l’ıle de Vancouver.Ils pensent que cette diversite varie enfonction de l’endroit dans le lac.Ils comparent 3 “traitements” dans des “cages” de 3m×3m
Ils ne rajoutent pas de poissons (controle)
Ils rajoutent 30 petits poissons (peu)
Ils rajoutent 90 poissons (beaucoup)
Block design5 endroits dans le lac et 3 “cages” a chacun de ces endroits :1 cage controle, 1 cage peu, 1 cage beaucoup
Caroline Verhoeven STAT-G204 40 / 64
4. Randomized block design ANOVA
Exemple : Donnees
Exemple 4
L’abondance du zooplancton est donne par l’index D de Levin
controle peu beaucoup
lieux (bloques)
4,1 2,2 1,33,2 2,4 2,03,0 1,5 1,02,3 1,3 1,02,5 2,6 1,6
Caroline Verhoeven STAT-G204 41 / 64
4. Randomized block design ANOVA
Principe du randomized block design ANOVA
Formulation des hypotheses :H0 : Tous les traitements ont en moyenne le meme effetHa : Au moins un traitement est different des autres
Les “randomized blocking design” sert a controler une variable noninteressante mais induisant une variabilite.
Classiquement : 1 mesure pour chaque “traitement” par bloque.
Le modele :
REPONSE = CONSTANTE + TRAITEMENT + BLOQUE
Dans l’exemple 4 :
DIVERSITE = CONSTANTE + POISSONS + LIEUX
On ne sait plus utiliser une ANOVA a 1 facteur
Caroline Verhoeven STAT-G204 42 / 64
4. Randomized block design ANOVA
Les donnees en SPSS
Les donnees de tous les sujets sont sur une ligne
Caroline Verhoeven STAT-G204 43 / 64
4. Randomized block design ANOVA
Les menus en SPSS I
Analyze → General Linear Model → Univariate
Caroline Verhoeven STAT-G204 44 / 64
4. Randomized block design ANOVA
Les facteurs en SPSS
Variable dependante :diversite Facteurs fixes : bloque et traitement
Caroline Verhoeven STAT-G204 45 / 64
4. Randomized block design ANOVA
Les modeles en SPSS I
Choisir “Model” dans le menu
Caroline Verhoeven STAT-G204 46 / 64
4. Randomized block design ANOVA
Les resultats
Nous somme interesses par les lignes “bloque” et “groupe”
groupe : Introduire cette variable ameliore significativement lemodele (F = 16,37, p = 0,001)
bloque : meme si l’amelioration n’est pas significative, il faut laisserla variable bloque
Caroline Verhoeven STAT-G204 49 / 64
5. ANOVA a plusieurs facteurs
Exemple : Description
Exemple 5
En 2005, Walker et al ont etudie lestress chez les manchots de Magel-lan. Certains se reproduisent dansune region retiree avec peu d’ac-tivites humaine. D’autres se repro-duisent dans des regions touris-tiques.On veut savoir si les manchots stress plus en grandissant et si le fait degrandir dans une zone touristique ou non influence le stress.
Pour cela, on les capture et on mesure leur concentration decorticosterone 30 minutes apres. On fait cela pour 3 categories demanchots : recemment eclos, de 40 a 50 jours et juste adultes.
Les donnees sont sur le slide suivant
Caroline Verhoeven STAT-G204 50 / 64
5. ANOVA a plusieurs facteurs
Exemple : Donnees
Exemple 5
bebes enfants adultes
retire
5,9 23,1 22,86,2 18,9 25,7
10,3 19,1 26,54,6 21,5 22,6
11,7 18,1 31,410,8 18,7 27,65,1 29,0 25,0
23,2 30,9
bebes enfants adultes
tourisme
24,4 12,5 29,320,6 17,3 24,316,5 12,9 33,929,5 12,0 29,623,4 16,4 34,426,8 21,4 33,126,5 18,0 25,6
20,2 23,128,1
On regarde stress en fonction de 2 facteurs :
l’age
l’environnement
Caroline Verhoeven STAT-G204 51 / 64
5. ANOVA a plusieurs facteurs
Questions pour l’exemple
Exemple 5
Questions que l’on se pose :
L’age a-t-il une influence-t-il le stress chez les jeunes manchots ?
Le fait de grandir dans une zone retiree ou touristique influence-t-ille le stress chez les jeunes manchots ?
L’effet de l’age depend-il de la zone dans laquelle les jeunesmanchots grandissent ?
Debut de reponse a la derniere question :
Caroline Verhoeven STAT-G204 52 / 64
5. ANOVA a plusieurs facteurs
ANOVA a 2 facteurs : Formulation des hypotheses
Exemple 5
1 un effet principal :H0 : Le taux de corticosterone ne differe pas que le manchot soitbebe, enfant ou juste adulteHa : Le taux de corticosterone est different pour au moins un desstades de croissance
2 un effet principal :H0 : Le taux de corticosterone ne differe pas en fonction del’environnement dans lequel le manchot granditHa : Le taux de corticosterone est different en fonction del’environnement dans lequel le manchot grandit
3 un effet d’interaction :H0 : L’effet de l’age ne depend pas de l’environnementHa : L’effet de l’age depend de l’environnement
Caroline Verhoeven STAT-G204 53 / 64
5. ANOVA a plusieurs facteurs
ANOVA a 2 facteurs : Principe
Modele :
REPONSE = FACTEUR1 + FACTEUR2 + FACTEUR1 ∗ FACTEUR2
Dans l’exemple 5 :
STRESS = AGE + REGION + AGE ∗ REGION
Caroline Verhoeven STAT-G204 54 / 64
5. ANOVA a plusieurs facteurs
Menus en SPSS I
Analyze → General Linear Model → Univariate
Caroline Verhoeven STAT-G204 56 / 64
5. ANOVA a plusieurs facteurs
Menus en SPSS II
Dans “Options”, on coche “Homogeinity tests” (test de Levene)
Caroline Verhoeven STAT-G204 58 / 64
5. ANOVA a plusieurs facteurs
Graphique de l’interaction
Choisir “Plots”
Caroline Verhoeven STAT-G204 59 / 64
5. ANOVA a plusieurs facteurs
Resultats test de Levene
Test de Levene : p = 0,956 ⇒ NRH0
⇒ Pas de probleme pour l’ANOVA
Caroline Verhoeven STAT-G204 61 / 64
5. ANOVA a plusieurs facteurs
Resultats de l’ANOVA a 2 facteurs
Effet de l’interaction age*region : p < 0,001 ⇒ RH0
Effet de l’age : p < 0,001 ⇒ RH0
Effet de la region : p < 0,001 ⇒ RH0
Caroline Verhoeven STAT-G204 62 / 64
5. ANOVA a plusieurs facteurs
Graphe des effets
Effet de l’age : RH0
Effet de la region : RH0
Effet de l’interaction age*region : RH0
Caroline Verhoeven STAT-G204 63 / 64