f.potdevin université lille 2 - les-mathematiques.net anova (analysis of variance) l’anova permet...

Méthodologie Méthodologie de la de la

rechercherecherche

F.PotdevinF.Potdevin

Université Lille 2Université Lille 2

Plan du coursPlan du cours1.1. La loi normale et l’erreur d’échantillonnageLa loi normale et l’erreur d’échantillonnage

2.2. Comparaison de deux échantillonsComparaison de deux échantillons

3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus

4.4. Analyse factorielleAnalyse factorielle

5.5. Corrélation et régressionCorrélation et régression

Plan du coursPlan du cours3.3. Comparaison de trois échantillons ou plusComparaison de trois échantillons ou plus

1. 1. Échantillons indépendantsÉchantillons indépendants

1.1. ANOVAANOVA2. 2. ANOVA de ANOVA de KruskalKruskal -- WallisWallis3.3. RésuméRésumé

2. 2. Échantillons dépendantsÉchantillons dépendants1.1. ANOVA à mesures répétéesANOVA à mesures répétées2. 2. ANOVA de FriedmanANOVA de Friedman3.3. RésuméRésumé

ANOVA(ANalysis Of VAriance)

L’ANOVA permet de déterminer s’il existe des L’ANOVA permet de déterminer s’il existe des différences de moyenne entre 3 groupes ou plus.différences de moyenne entre 3 groupes ou plus.

n3210 X...XXX:H ===

:H1 au moins une moyenne est différente des autres


Pourquoi ne pas faire X tests t et faire toutes les Pourquoi ne pas faire X tests t et faire toutes les comparaisons possibles entre les groupes ?comparaisons possibles entre les groupes ?

5 groupes = 10 comparaisons possibles5 groupes = 10 comparaisons possibles1 vs 21 vs 2 1 1 vsvs 55 2 2 vsvs 55 4 4 vsvs 55

1 vs 31 vs 3 2 2 vsvs 33 3 3 vsvs 44

1 vs 41 vs 4 2 2 vsvs 44 3 3 vsvs 55


Erreur de type I (ou de première espèce, ou faux positif)Erreur de type I (ou de première espèce, ou faux positif)

LL’’expexpéérimentateur conclue rimentateur conclue àà une diffune difféérence entre les groupes rence entre les groupes alors qualors qu’’en ren rééalitalitéé il nil n’’y en a pas. y en a pas.

Risque Risque αα (5%, ou 0.05)(5%, ou 0.05)

5 possibilités sur 100 = 1 possibilité sur 205 possibilités sur 100 = 1 possibilité sur 20

Plus le nombre de comparaisons est important, plus le risque Plus le nombre de comparaisons est important, plus le risque de commettre une erreur de type I est important lui aussi.de commettre une erreur de type I est important lui aussi.


Loi de Loi de KeppelKeppel (1991)(1991)

( )C11FW α−−=α

FWFWαα : risque de commettre une erreur de type 1 (comparaisons multiples)

αα : risque de commettre une erreur de type 1

CC : nombre de comparaisons


5 groupes, 10 comparaisons5 groupes, 10 comparaisons

( )1005.011FW −−=α

40.0FW =α


L’ANOVA permet de s’affranchir de ce L’ANOVA permet de s’affranchir de ce risque en permettant de comparer toutes risque en permettant de comparer toutes

les moyennes au moyen d’les moyennes au moyen d’un seul testun seul test

11èreère étape : étape :

Formuler les hypothèses statistiquesFormuler les hypothèses statistiques

Hypothèse Hypothèse nulle

n3210 X...XXX:H ===

Hypothèse alternativeHypothèse alternative


22èmeème étape : étape :

Choisir un test statistique …Choisir un test statistique …

Test paramétrique

ANOVA

Test non paramétriqueTest non paramétrique

ANOVA de Kruskal - Wallis


vérifier la normalité et l’vérifier la normalité et l’homoscédasticitéhomoscédasticité

Test Shapiro – WilkH0 : la distribution de l’échantillon suit une loi normaleH1 : la distribution de l’échantillon ne suit pas une loi normale

Test de LeveneH0 : les variances sont égales (ou homogènes)H1 : les variances ne sont pas égales (ou hétérogènes)

ANOVA = Statistique F (Fisher : 1890ANOVA = Statistique F (Fisher : 1890--1962)1962)

Comparaison de plusieurs groupes :Comparaison de plusieurs groupes :

• moyenne de chaque groupe

• moyenne générale

Variance intergroupe :Variance intergroupe :Différence entre la moyenne de chaque groupe et la moyenne générale

Variance intragroupe :Variance intragroupe :Différence entre la valeur de chaque individu et la moyenne du groupe

Variance totale :Variance totale :Différence entre la valeur de chaque individu et la moyenne générale

Étape 1 : calculer la somme des carrésÉtape 1 : calculer la somme des carrés

2groupe )xx(SC ∑ −=Somme des carrés Somme des carrés intraintra

2générale

)xx(SC ∑ −=Somme des carrés Somme des carrés interinter

2générale

)xx(SC ∑ −=Somme des carrés Somme des carrés totaletotale

Étape 2 : Étape 2 : calculer le nombre de degrés de libertécalculer le nombre de degrés de liberté

kNDDL −=Nombre de DDL Nombre de DDL intraintra

1kDDL −=Nombre de DDL Nombre de DDL interinter

erintraint DDLDDLDDL +=Nombre de DDL Nombre de DDL totaltotal

Étape 3 : calculer le carré moyenÉtape 3 : calculer le carré moyen

raint

raintraint DDL

SCCM =Carré moyen Carré moyen intraintra

erint

erinterint DDL

SCCM =Carré moyen Carré moyen interinter

Étape 4 : calculer le FÉtape 4 : calculer le F

raint

erint

CMCMF =

Table du F (p < 0.05)Table du F (p < 0.05)

Pearson et Hatley (1966)

EXEMPLEEXEMPLEX1 X2 X3 X4 X5

4567465

57989710

5465564

8468567

5434645

∑x 37 55 35 44 31

n 7 7 7 7 7Moyenne

oyenne G

5.295.77

7.86 5.00 6.29 4.43M

EXEMPLEEXEMPLE

Source de varianceSource de variance ∑∑ carrcarréés DDL Carrs DDL Carréé moyenmoyen FF PP

Intergroupe 50.74 4 12.69 8.03 <0.01

Intragroupe 47.43 30 1.58

Totale 98.17 34


Pour isoler cette (ces) moyenne(s) qui diffère(ent) des autres, il faut réaliser un test « Post HocPost Hoc ».

LSD de Fisher

Newman Keuls

HSD de Tukey

Bonferroni

Scheffé

Choix du test postChoix du test post--hoc pour une ANOVAhoc pour une ANOVA

(p>0.05)ANOVA

(p<0.05)

k = 3

NewmanNewman--KeulsKeuls TukeyTukey

STOPSTOP

3 < k < 5 k > 5

Contrastes identifiés

Tous les contrastes

BonferroniBonferroni SchefféScheffé

Signification clinique de la différenceSignification clinique de la différence

Omega carré (ω2)

rainttotale

rainterint2

CMSC)CM)(1k(SC

+−−

=ω


Source de varianceSource de variance ∑∑ carrcarréés DDL Carrs DDL Carréé moyenmoyen FF PP

Intergroupe 50.74 4 12.69 8.03 <0.01

Intragroupe 47.43 30 1.58

Totale 98.17 34

58.117.98)58.1)(4(74.502

+−

=ω


Omega carré (ω2)

45.02 =ω

Grille de Keppel (1991)Si 0.01 < ω2 < 0.06 : la différence est faibleSi 0.06 < ω2 < 0.15 : la différence est modéréeSi 0.15 < Si 0.15 < ω2 : la diff: la difféérence est rence est éélevlevééee

ANOVA de Kruskall-Wallis(échantillons indépendants)

Attribuer un rang aux individus selon leur résultat

Résultat le plus bas = 18

Résultat le plus élevé = 1

Faire la somme des rangs pour chaque groupe


5.679.0813.75Moyenne34.054.582.5Somme

3.516.5

1562

1387

3.5149

151118

16.51210

Rangs

AccéléréNormalContrôleGroupe


)1n(3nR

...nR

nR

)1N(N12H

k

2k

2

22

1

21 +−

+++

+

= ∑∑∑

N = nombre total de sujetsnk = nombre de sujets dans le groupe k∑Rk = somme des rangs du groupe k


)118(360.34

65.54

65.82

118(1812H

222

+−

++

+

=

H = 6.77

Table du χ2

df = k- 1



H0 : il n’y a pas de différence entre les groupes

H1 : il y a au moins un groupe qui diffère des autres

Si H < 5.99 : p > 0.05 ⇒ H0

Si H > 5.99 : p < 0.05 ⇒ H1


Pour isoler cette (ces) moyenne(s) qui diffère(Pour isoler cette (ces) moyenne(s) qui diffère(entent) des ) des autres, il faut réaliser un test «autres, il faut réaliser un test « Post HocPost Hoc ».».

LSD de Fisher

Newman Keuls

HSD de Tukey

Bonferroni

Scheffé

Quelle signification clinique ?

100X

XXdifférence%1

12

−=

42.5%42.5% entre le groupe contrôle et le groupe accéléré

Comparaison d’au moins 3 échantillons indépendantsComparaison d’au moins 3 échantillons indépendants

Normalité

(Shapiro – Wilk)NON (p<0.05)

NON (p<0.05)

KruskallKruskall--WallisWallis

OUI (p>0.05)

OUI (p>0.05)

Homoscédasticité(Levenne)

ANOVAANOVA H0 (p>0.05)

STOPSTOPH1 (p<0.05) H0 (p>0.05) H1 (p<0.05)

Post Hoc Post Hoc

% différenceω2

11èreère étape : étape :

Formuler les hypothèses statistiquesFormuler les hypothèses statistiques

Hypothèse Hypothèse nulle

n3210 X...XXX:H ===

Hypothèse alternativeHypothèse alternative



Choisir un test statistique …Choisir un test statistique …

Test paramétrique

ANOVA à mesures répétées

Test non paramétriqueTest non paramétrique

ANOVA de Friedman


Vérifier la normalitéVérifier la normalité

Test Shapiro – WilkH0 : la distribution de l’échantillon suit une loi normaleH1 : la distribution de l’échantillon ne suit pas une loi normale

HH00 : test paramétrique: test paramétrique

HH11 : test non paramétrique: test non paramétrique

ANOVA à mesures répétées(échantillons dépendants)

Vérifier la sphéricitéVérifier la sphéricité (homogénéité variance et covariance)(homogénéité variance et covariance)

Test de Mauchley

H0 : la sphéricité est suffisante, on n ’applique pas de correction

H1 : la sphéricité n’est pas suffisante, on applique une correction


Deux types de correction :Deux types de correction :•• GreenhouseGreenhouse -- GeisserGeisser : importante: importante

•• HuynHuyn -- FeldtFeldt : modérée: modérée

Quel critère ?Quel critère ?


Quel critère ?Quel critère ?•• Si moyenne des epsilon < 0.75, Si moyenne des epsilon < 0.75, utiliser GGutiliser GG

•• Si moyenne des epsilon > 0.75, Si moyenne des epsilon > 0.75, utiliser HFutiliser HF


Pour isoler cette (ces) moyenne(s) qui diffère(ent) des autres, il faut réaliser un test « Post HocPost Hoc ».

LSD de Fisher

Newman Keuls

HSD de Tukey

Bonferroni

Scheffé


L’Effect Size (amplitude de l’effet)

( )( ) ( )( )( )2nn

1n*S1n*SXXES

21

2221

21

21

−+−+−

−=


L’Effect Size (amplitude de l’effet)

Grille de Cohen (1988)Grille de Cohen (1988)

Si 0.2 < ES < 0.5 : la différence est petite

Si 0.5 < ES < 0.8 : la différence est modérée

Si ES > 0.8 : la différence est grande

ANOVA de Friedman(échantillons dépendants)

Attribuer un rang aux individus selon leur résultat

Résultat le plus bas = 1

Résultat le plus élevé = n

Faire la somme des rangs pour chaque groupe

ANOVA de Friedman(échantillons dépendants)

( ) )1k(N3R...RR)1k(N

12 2k

22

21

k

2 +−+++

+

=χ ∑∑∑

N = nombre total de sujetsk = nombre de mesures répétées (ou de groupes)∑Rk = somme des rangs du groupe k

Table du χ2

df = k- 1



Pour isoler cette (ces) moyenne(s) qui diffère(Pour isoler cette (ces) moyenne(s) qui diffère(entent) des ) des autres, il faut réaliser un test «autres, il faut réaliser un test « Post HocPost Hoc ».».

LSD de Fisher

Newman Keuls

HSD de Tukey

Bonferroni

Scheffé

Quelle signification clinique ?

100X

XXdifférence%1

12

−=

Comparaison dComparaison d ’au moins 3 échantillons dépendants’au moins 3 échantillons dépendants

Normalité

(Shapiro – Wilk)NON (p<0.05)OUI (p>0.05)

FRIEDMANFRIEDMANANOVAANOVA

NON(p<0.05)

OUI(p>0.05)

F non corrigé F corrigé

H0(p>0.05)

H1(p<0.05)

Sphéricité

(Mauchley)

ES

H0(p>0.05)

STOPSTOPPost Hoc

% différence

Post HocSTOPSTOP

H1(p<0.05)

H0(p>0.05)

STOPSTOP

f.potdevin université lille 2 - les-mathematiques.net anova (analysis of variance) l’anova permet...

Documents