f.potdevin université lille 2 - les-mathematiques.net anova (analysis of variance) l’anova permet...
TRANSCRIPT
Méthodologie Méthodologie de la de la
rechercherecherche
F.PotdevinF.Potdevin
Université Lille 2Université Lille 2
Plan du coursPlan du cours1.1. La loi normale et l’erreur d’échantillonnageLa loi normale et l’erreur d’échantillonnage
2.2. Comparaison de deux échantillonsComparaison de deux échantillons
3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus
4.4. Analyse factorielleAnalyse factorielle
5.5. Corrélation et régressionCorrélation et régression
Plan du coursPlan du cours3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus
1. 1. Échantillons indépendantsÉchantillons indépendants
1.1. ANOVAANOVA2. 2. ANOVA de ANOVA de KruskalKruskal -- WallisWallis3.3. RésuméRésumé
2. 2. Échantillons dépendantsÉchantillons dépendants1.1. ANOVA à mesures répétéesANOVA à mesures répétées2. 2. ANOVA de FriedmanANOVA de Friedman3.3. RésuméRésumé
ANOVA(ANalysis Of VAriance)
L’ANOVA permet de déterminer s’il existe des L’ANOVA permet de déterminer s’il existe des différences de moyenne entre 3 groupes ou plus.différences de moyenne entre 3 groupes ou plus.
n3210 X...XXX:H ===
:H1 au moins une moyenne est différente des autres
ANOVA(ANalysis Of VAriance)
Pourquoi ne pas faire X tests t et faire toutes les Pourquoi ne pas faire X tests t et faire toutes les comparaisons possibles entre les groupes ?comparaisons possibles entre les groupes ?
5 groupes = 10 comparaisons possibles5 groupes = 10 comparaisons possibles1 vs 21 vs 2 1 1 vsvs 55 2 2 vsvs 55 4 4 vsvs 55
1 vs 31 vs 3 2 2 vsvs 33 3 3 vsvs 44
1 vs 41 vs 4 2 2 vsvs 44 3 3 vsvs 55
ANOVA(ANalysis Of VAriance)
Erreur de type I (ou de première espèce, ou faux positif)Erreur de type I (ou de première espèce, ou faux positif)
LL’’expexpéérimentateur conclue rimentateur conclue àà une diffune difféérence entre les groupes rence entre les groupes alors qualors qu’’en ren rééalitalitéé il nil n’’y en a pas. y en a pas.
Risque Risque αα (5%, ou 0.05)(5%, ou 0.05)
5 possibilités sur 100 = 1 possibilité sur 205 possibilités sur 100 = 1 possibilité sur 20
Plus le nombre de comparaisons est important, plus le risque Plus le nombre de comparaisons est important, plus le risque de commettre une erreur de type I est important lui aussi.de commettre une erreur de type I est important lui aussi.
ANOVA(ANalysis Of VAriance)
Loi de Loi de KeppelKeppel (1991)(1991)
( )C11FW α−−=α
FWFWαα : risque de commettre une erreur de type 1 (comparaisons multiples)
αα : risque de commettre une erreur de type 1
CC : nombre de comparaisons
ANOVA(ANalysis Of VAriance)
5 groupes, 10 comparaisons5 groupes, 10 comparaisons
( )1005.011FW −−=α
40.0FW =α
ANOVA(ANalysis Of VAriance)
L’ANOVA permet de s’affranchir de ce L’ANOVA permet de s’affranchir de ce risque en permettant de comparer toutes risque en permettant de comparer toutes
les moyennes au moyen d’les moyennes au moyen d’un seul testun seul test
11èreère étape : étape :
Formuler les hypothèses statistiquesFormuler les hypothèses statistiques
Hypothèse Hypothèse nulle
n3210 X...XXX:H ===
Hypothèse alternativeHypothèse alternative
:H1 au moins une moyenne est différente des autres
22èmeème étape : étape :
Choisir un test statistique …Choisir un test statistique …
Test paramétrique
ANOVA
Test non paramétriqueTest non paramétrique
ANOVA de Kruskal - Wallis
22èmeème étape : étape :
vérifier la normalité et l’vérifier la normalité et l’homoscédasticitéhomoscédasticité
Test Shapiro – WilkH0 : la distribution de l’échantillon suit une loi normaleH1 : la distribution de l’échantillon ne suit pas une loi normale
Test de LeveneH0 : les variances sont égales (ou homogènes)H1 : les variances ne sont pas égales (ou hétérogènes)
Plan du coursPlan du cours3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus
1. 1. Échantillons indépendantsÉchantillons indépendants
1.1. ANOVAANOVA2. 2. ANOVA de ANOVA de KruskalKruskal -- WallisWallis3.3. RésuméRésumé
2. 2. Échantillons dépendantsÉchantillons dépendants1.1. ANOVA à mesures répétéesANOVA à mesures répétées2. 2. ANOVA de FriedmanANOVA de Friedman3.3. RésuméRésumé
ANOVA = Statistique F (Fisher : 1890ANOVA = Statistique F (Fisher : 1890--1962)1962)
Comparaison de plusieurs groupes :Comparaison de plusieurs groupes :
• moyenne de chaque groupe
• moyenne générale
Variance intergroupe :Variance intergroupe :Différence entre la moyenne de chaque groupe et la moyenne générale
Variance intragroupe :Variance intragroupe :Différence entre la valeur de chaque individu et la moyenne du groupe
Variance totale :Variance totale :Différence entre la valeur de chaque individu et la moyenne générale
Étape 1 : calculer la somme des carrésÉtape 1 : calculer la somme des carrés
2groupe )xx(SC ∑ −=Somme des carrés Somme des carrés intraintra
2générale
)xx(SC ∑ −=Somme des carrés Somme des carrés interinter
2générale
)xx(SC ∑ −=Somme des carrés Somme des carrés totaletotale
Étape 2 : Étape 2 : calculer le nombre de degrés de libertécalculer le nombre de degrés de liberté
kNDDL −=Nombre de DDL Nombre de DDL intraintra
1kDDL −=Nombre de DDL Nombre de DDL interinter
erintraint DDLDDLDDL +=Nombre de DDL Nombre de DDL totaltotal
Étape 3 : calculer le carré moyenÉtape 3 : calculer le carré moyen
raint
raintraint DDL
SCCM =Carré moyen Carré moyen intraintra
erint
erinterint DDL
SCCM =Carré moyen Carré moyen interinter
EXEMPLEEXEMPLEX1 X2 X3 X4 X5
4567465
57989710
5465564
8468567
5434645
∑x 37 55 35 44 31
n 7 7 7 7 7Moyenne
oyenne G
5.295.77
7.86 5.00 6.29 4.43M
EXEMPLEEXEMPLE
Source de varianceSource de variance ∑∑ carrcarréés DDL Carrs DDL Carréé moyenmoyen FF PP
Intergroupe 50.74 4 12.69 8.03 <0.01
Intragroupe 47.43 30 1.58
Totale 98.17 34
:H1 au moins une moyenne est différente des autres
Pour isoler cette (ces) moyenne(s) qui diffère(ent) des autres, il faut réaliser un test « Post HocPost Hoc ».
LSD de Fisher
Newman Keuls
HSD de Tukey
Bonferroni
Scheffé
Choix du test postChoix du test post--hoc pour une ANOVAhoc pour une ANOVA
(p>0.05)ANOVA
(p<0.05)
k = 3
NewmanNewman--KeulsKeuls TukeyTukey
STOPSTOP
3 < k < 5 k > 5
Contrastes identifiés
Tous les contrastes
BonferroniBonferroni SchefféScheffé
Signification clinique de la différenceSignification clinique de la différence
Omega carré (ω2)
rainttotale
rainterint2
CMSC)CM)(1k(SC
+−−
=ω
Signification clinique de la différenceSignification clinique de la différence
Source de varianceSource de variance ∑∑ carrcarréés DDL Carrs DDL Carréé moyenmoyen FF PP
Intergroupe 50.74 4 12.69 8.03 <0.01
Intragroupe 47.43 30 1.58
Totale 98.17 34
58.117.98)58.1)(4(74.502
+−
=ω
Signification clinique de la différenceSignification clinique de la différence
Omega carré (ω2)
45.02 =ω
Grille de Keppel (1991)Si 0.01 < ω2 < 0.06 : la différence est faibleSi 0.06 < ω2 < 0.15 : la différence est modéréeSi 0.15 < Si 0.15 < ω2 : la diff: la difféérence est rence est éélevlevééee
Plan du coursPlan du cours3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus
1. 1. Échantillons indépendantsÉchantillons indépendants
1.1. ANOVAANOVA2. 2. ANOVA de ANOVA de KruskalKruskal -- WallisWallis3.3. RésuméRésumé
2. 2. Échantillons dépendantsÉchantillons dépendants1.1. ANOVA à mesures répétéesANOVA à mesures répétées2. 2. ANOVA de FriedmanANOVA de Friedman3.3. RésuméRésumé
ANOVA de Kruskall-Wallis(échantillons indépendants)
Attribuer un rang aux individus selon leur résultat
Résultat le plus bas = 18
Résultat le plus élevé = 1
Faire la somme des rangs pour chaque groupe
ANOVA de Kruskall-Wallis(échantillons indépendants)
5.679.0813.75Moyenne34.054.582.5Somme
3.516.5
1562
1387
3.5149
151118
16.51210
Rangs
AccéléréNormalContrôleGroupe
ANOVA de Kruskall-Wallis(échantillons indépendants)
)1n(3nR
...nR
nR
)1N(N12H
k
2k
2
22
1
21 +−
+++
+
= ∑∑∑
N = nombre total de sujetsnk = nombre de sujets dans le groupe k∑Rk = somme des rangs du groupe k
ANOVA de Kruskall-Wallis(échantillons indépendants)
)118(360.34
65.54
65.82
118(1812H
222
+−
++
+
=
H = 6.77
ANOVA de Kruskall-Wallis(échantillons indépendants)
H0 : il n’y a pas de différence entre les groupes
H1 : il y a au moins un groupe qui diffère des autres
Si H < 5.99 : p > 0.05 ⇒ H0
Si H > 5.99 : p < 0.05 ⇒ H1
:H1 au moins une moyenne est différente des autres
Pour isoler cette (ces) moyenne(s) qui diffère(Pour isoler cette (ces) moyenne(s) qui diffère(entent) des ) des autres, il faut réaliser un test «autres, il faut réaliser un test « Post HocPost Hoc ».».
LSD de Fisher
Newman Keuls
HSD de Tukey
Bonferroni
Scheffé
Quelle signification clinique ?
100X
XXdifférence%1
12
−=
42.5%42.5% entre le groupe contrôle et le groupe accéléré
Plan du coursPlan du cours3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus
1. 1. Échantillons indépendantsÉchantillons indépendants
1.1. ANOVAANOVA2. 2. ANOVA de ANOVA de KruskalKruskal -- WallisWallis3.3. RésuméRésumé
2. 2. Échantillons dépendantsÉchantillons dépendants1.1. ANOVA à mesures répétéesANOVA à mesures répétées2. 2. ANOVA de FriedmanANOVA de Friedman3.3. RésuméRésumé
Comparaison d’au moins 3 échantillons indépendantsComparaison d’au moins 3 échantillons indépendants
Normalité
(Shapiro – Wilk)NON (p<0.05)
NON (p<0.05)
KruskallKruskall--WallisWallis
OUI (p>0.05)
OUI (p>0.05)
Homoscédasticité(Levenne)
ANOVAANOVA H0 (p>0.05)
STOPSTOPH1 (p<0.05) H0 (p>0.05) H1 (p<0.05)
Post Hoc Post Hoc
% différenceω2
Plan du coursPlan du cours3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus
1. 1. Échantillons indépendantsÉchantillons indépendants
1.1. ANOVAANOVA2. 2. ANOVA de ANOVA de KruskalKruskal -- WallisWallis3.3. RésuméRésumé
2. 2. Échantillons dépendantsÉchantillons dépendants1.1. ANOVA à mesures répétéesANOVA à mesures répétées2. 2. ANOVA de FriedmanANOVA de Friedman3.3. RésuméRésumé
11èreère étape : étape :
Formuler les hypothèses statistiquesFormuler les hypothèses statistiques
Hypothèse Hypothèse nulle
n3210 X...XXX:H ===
Hypothèse alternativeHypothèse alternative
:H1 au moins une moyenne est différente des autres
22èmeème étape : étape :
Choisir un test statistique …Choisir un test statistique …
Test paramétrique
ANOVA à mesures répétées
Test non paramétriqueTest non paramétrique
ANOVA de Friedman
22èmeème étape : étape :
Vérifier la normalitéVérifier la normalité
Test Shapiro – WilkH0 : la distribution de l’échantillon suit une loi normaleH1 : la distribution de l’échantillon ne suit pas une loi normale
HH00 : test paramétrique: test paramétrique
HH11 : test non paramétrique: test non paramétrique
Plan du coursPlan du cours3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus
1. 1. Échantillons indépendantsÉchantillons indépendants
1.1. ANOVAANOVA2. 2. ANOVA de ANOVA de KruskalKruskal -- WallisWallis3.3. RésuméRésumé
2. 2. Échantillons dépendantsÉchantillons dépendants1.1. ANOVA à mesures répétéesANOVA à mesures répétées2. 2. ANOVA de FriedmanANOVA de Friedman3.3. RésuméRésumé
ANOVA à mesures répétées(échantillons dépendants)
Vérifier la sphéricitéVérifier la sphéricité (homogénéité variance et covariance)(homogénéité variance et covariance)
Test de Mauchley
H0 : la sphéricité est suffisante, on n ’applique pas de correction
H1 : la sphéricité n’est pas suffisante, on applique une correction
ANOVA à mesures répétées(échantillons dépendants)
Deux types de correction :Deux types de correction :•• GreenhouseGreenhouse -- GeisserGeisser : importante: importante
•• HuynHuyn -- FeldtFeldt : modérée: modérée
Quel critère ?Quel critère ?
ANOVA à mesures répétées(échantillons dépendants)
Quel critère ?Quel critère ?•• Si moyenne des epsilon < 0.75, Si moyenne des epsilon < 0.75, utiliser GGutiliser GG
•• Si moyenne des epsilon > 0.75, Si moyenne des epsilon > 0.75, utiliser HFutiliser HF
:H1 au moins une moyenne est différente des autres
Pour isoler cette (ces) moyenne(s) qui diffère(ent) des autres, il faut réaliser un test « Post HocPost Hoc ».
LSD de Fisher
Newman Keuls
HSD de Tukey
Bonferroni
Scheffé
Signification clinique de la différenceSignification clinique de la différence
L’Effect Size (amplitude de l’effet)
( )( ) ( )( )( )2nn
1n*S1n*SXXES
21
2221
21
21
−+−+−
−=
Signification clinique de la différenceSignification clinique de la différence
L’Effect Size (amplitude de l’effet)
Grille de Cohen (1988)Grille de Cohen (1988)
Si 0.2 < ES < 0.5 : la différence est petite
Si 0.5 < ES < 0.8 : la différence est modérée
Si ES > 0.8 : la différence est grande
Plan du coursPlan du cours3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus
1. 1. Échantillons indépendantsÉchantillons indépendants
1.1. ANOVAANOVA2. 2. ANOVA de ANOVA de KruskalKruskal -- WallisWallis3.3. RésuméRésumé
2. 2. Échantillons dépendantsÉchantillons dépendants1.1. ANOVA à mesures répétéesANOVA à mesures répétées2. 2. ANOVA de FriedmanANOVA de Friedman3.3. RésuméRésumé
ANOVA de Friedman(échantillons dépendants)
Attribuer un rang aux individus selon leur résultat
Résultat le plus bas = 1
Résultat le plus élevé = n
Faire la somme des rangs pour chaque groupe
ANOVA de Friedman(échantillons dépendants)
( ) )1k(N3R...RR)1k(N
12 2k
22
21
k
2 +−+++
+
=χ ∑∑∑
N = nombre total de sujetsk = nombre de mesures répétées (ou de groupes)∑Rk = somme des rangs du groupe k
:H1 au moins une moyenne est différente des autres
Pour isoler cette (ces) moyenne(s) qui diffère(Pour isoler cette (ces) moyenne(s) qui diffère(entent) des ) des autres, il faut réaliser un test «autres, il faut réaliser un test « Post HocPost Hoc ».».
LSD de Fisher
Newman Keuls
HSD de Tukey
Bonferroni
Scheffé
Plan du coursPlan du cours3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus
1. 1. Échantillons indépendantsÉchantillons indépendants
1.1. ANOVAANOVA2. 2. ANOVA de ANOVA de KruskalKruskal -- WallisWallis3.3. RésuméRésumé
2. 2. Échantillons dépendantsÉchantillons dépendants1.1. ANOVA à mesures répétéesANOVA à mesures répétées2. 2. ANOVA de FriedmanANOVA de Friedman3.3. RésuméRésumé
Comparaison dComparaison d ’au moins 3 échantillons dépendants’au moins 3 échantillons dépendants
Normalité
(Shapiro – Wilk)NON (p<0.05)OUI (p>0.05)
FRIEDMANFRIEDMANANOVAANOVA
NON(p<0.05)
OUI(p>0.05)
F non corrigé F corrigé
H0(p>0.05)
H1(p<0.05)
Sphéricité
(Mauchley)
ES
H0(p>0.05)
STOPSTOPPost Hoc
% différence
Post HocSTOPSTOP
H1(p<0.05)
H0(p>0.05)
STOPSTOP