cours 7 : rappels de cours et exemples sous riml.univ-mrs.fr/~reboul/r-cours 7.pdf · le modèle de...

66
Cours 7 : Rappels de cours et exemples sous R I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Upload: ledung

Post on 04-Sep-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Cours 7 : Rappels de cours et exemples sous R

I- Régression linéaire simple

II- Analyse de variance à 1 facteur

III- Tests statistiques

Page 2: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

� Rappels On cherche à expliquer ou à prévoir les variations d’une variable Y (variable dépendante) par celles d’une fonction linéaire de X (variable explicative), i.e., à valider le modèle de RLS

Y aX b ε= + +où est une variable aléatoire gaussienne de moyenne nulle et de variance

Pour cela on observe un n-échantillon de réalisations de X et de Y, sur lesquelles on va chercher à voir si le lien est plausible,

i.e. si il existe a, b et

(validation)

Avec i.i.d. Gaussiennes et pas trop grand,et à approcher les valeurs des paramètres a, b, et (estimation)

, 1,..., .i i iy ax b i nε= + + =

²σ

²σ

²σ

ε

iε ²σ

Page 3: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

� Estimation des paramètres :

• Estimation de a et b : On commence par chercher le « meilleur » ajustement linéaire sur nos données, au sens des moindres carrés :

=i° valeur estiméey ax b= + =i° valeur estimée

= i° résidu

et sont tels que est minimal. Ce sont les coefficients de la régression (ou estimateurs des moindres carrés).

2

1 1

ˆˆ( )²n n

i i ii i

e y ax b= =

= − −∑ ∑a b

ˆ

ˆ

y ax bi i

e y yi i i

= +

= −

Page 4: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

On montre que :

• La droite d’ajustement s’appelle droite de régression ou des

1

1

( )( )ˆˆ ˆ,

( )²

n

i ii

n

ii

x x y ya b y ax

x x

=

=

− −= = −

ˆˆy ax b= +• La droite d’ajustement s’appelle droite de régression ou des moindres carrés.

• La valeur estime la valeur moyenne de Y lorsque X=xi (E(Y/X=xi)) . C’est aussi la prévision de Y pour une observation telle que X=xi.

• Estimation de : La variance de l’erreur s’estime par

yi

2

1²2 2

n

ii

eSSR

sn n

== =− −

ˆˆy ax b= +

²σ

Page 5: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

� Validation du modèle sur les données : il faut que le modèle soit de bonne qualité (bon pouvoir explicatif et prédictif)

• Analyse de la qualité du modèle : Décomposition de la variabilité

=somme des carrés des variations de y2( )²i YSST y y ns= − =∑

=somme des carrés des variations expliquées par le modèle

=somme des carrés des variations résiduelles

On montre que : SST=SSR+SSM

Au plus SSM est grand (ou SSR faible), au meilleur est l’ajustement.

2ˆˆ( )²i Y

SSM y y s= − =∑2 2( 2)iSSR e n s= = −∑

Page 6: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

Les indicateurs de variabilité sont résumés dans le tableau d’analyse de la variance ci-dessous :

source Degrés de

Somme des carrés

Somme des carrés moyens

Stat de Fisherde

libertédes carrés carrés moyens Fisher

modèle 1 SSM SSM F=SSM/s²

erreur n-2 SSR s²=SSR/(n-2)

total n-1 SST s²(Y)=SST/(n-1)

Page 7: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

Indicateur principal de qualité du modèle: le coefficient de détermination (% de variation expliqué par le modèle, carré du coefficient de corrélation linéaire):

doit être proche de 1.1

²SSM SSR

RSST SST

−= =

Autres indicateurs :

- Le F de Fisher doit être le plus grand possible

- Le s² doit être le plus faible possible pour garantir de bonnes prévisions.

- Les coefficients doivent être stables pour garantir de bonnes prévisions, i.e. leurs écarts type doivent être faibles. On montre que

avec

²

SSMF

s=

2 1 ²ˆˆ²( ) ; ²( ) ²² ²

1 1

s xs a s b sn nnc ci ii i

= = +∑ ∑= =

i ic x x= −

ˆˆ( ) et ( )s a s b

Page 8: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

� Vérification des hypothèses sur les aléas : il faut que les aléas soient i.i.d. et gaussiens

Tests graphiques :

• Le graphe des résidus versus les valeurs prédites ne doit pas présenter de

• Le graphe des résidus versus les valeurs prédites ne doit pas présenter de structure (indépendance, homoscedasticité, normalité).

• Le corrélogramme (ACF) ne doit pas présenter de structure (indépendance)

• Le QQ-plot suit la première bissectrice

Page 9: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

Page 10: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

Conséquences

• de la non-normalité : – Les estimateurs ne sont pas optimaux

– Les tests et intervalles de confiances sont invalides. En réalité seulement les distribution à queue très longue posent problème et une légère non-normalité peut être ignorée, d’autant plus que l’échantillon est grand.

• d’une variance non constante : Les estimations ne sont pas bonnes il faut utiliser les moindres carrés pondérés.

Page 11: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

Solutions

• Essayer de transformer les données en se rappelant que

- quoiqu’on fasse, certaines données ne peuvent être analysées par régression

- la bonne transformation est parfois difficile à trouver.- la bonne transformation est parfois difficile à trouver.

• Utiliser une régression non-linéaire.

Page 12: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

� Repérage des points aberrants:

• Résidu réduit ou studentisé :

( )i

ii

ere

s e=

²1²( ) ² 1 ²(1 )²

²

ii iin

i

cs e s s h

nc

= − − = − ∑

Tests graphiques

• Le graphe des résidus réduits versus les valeurs prédites doit normalement être compris entre –2 et 2 pour au moins 95% des observations dès lors que la normalité est vérifiée.

( )is e1

²ii

c=

Page 13: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

• Des observations dont le résidu réduit est >2 en v.a. sont des points contribuant fortement à la valeur de s². Ils peuvent constituer des points aberrants. Il faut les analyser plus avant.

- Analyse du « leverage » de ces points (hii) : Le leverage mesure l’influence - Analyse du « leverage » de ces points (hii) : Le leverage mesure l’influence potentielle d’un point sur la valeur des coefficients de la régression. Une valeur hii>4/n traduit un point trop influent sur la détermination des coefficients.

- Analyse de la distance de Cook : La distance de Cook mesure le leverage et la contribution au s², c’est-à-dire l’influence réelle d’un point . Une valeur >1 traduit un point aberrant.

Page 14: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

Solutions

• Enlever les observations aberrantes et recalculer la régression. Comparer les résultats. Y-a-t-il des différences significatives entre les coefficients?

Page 15: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: théorie

� Validation du modèle sur la population

Une fois la gaussianité vérifiée, on peut effectuer des tests afin d’asseoir la pertinence du modèle sur la population étudiée. Ces tests testent l’hypothèse :

: 0 contre : 0H a H a= ≠

(a=0 signifie absence de lien linéaire entre X et Y)

• Test de student . Basé sur la statistique

• Test de Fisher. Basé sur la statistique :

0 1: 0 contre : 0H a H a= ≠

0

ˆ T T(n-2) sous H

ˆ( )

aT

s a= ∼

0 F F(1,n-2) sous H²

SSMF

s= ∼

Page 16: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

I- Le modèle de régression linéaire simple: exemple

Exemple 1 : On cherche à expliquer les variations de y par celles d’une fonction linéaire de x à partir de 30 observations de chacune des variables, i.e. à ajuster le modèle

où est une suite de variables aléatoires i.i.d.gaussiennes de moyenne nulle et de variance

>x=1:100; X=sample(x,30,replace=TRUE)>Y=3+7*X+rnorm(30,0,100)

iε, 1,...,30.i i iy ax b iε= + + =

²σ

>Y=3+7*X+rnorm(30,0,100)>regression=lm(Y~X); regressionCall:

lm(formula = Y ~ X)

Coefficients:

(Intercept) X

-30.26 7.42

Page 17: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

Dessin du nuage de points : > plot(X,Y)

>text(40,600, substitute(y==a*x+b, list(a=regression$coef[2], b=regression$coef[1])))

> lines(X,regression$fitted.values) #ou abline(regression)

> M=locator(); v=locator()> M=locator(); v=locator()

> segments(0,M$y,M$x,M$y)

> arrows(M$x,M$y,M$x,v$y,angle=30, code=3)

> segments(M$x,v$y,0,v$y,lty=2)

> text(0,350, "yi",col="red")

> text(0,200, "^yi",col="red")

> text(25,250, "ei",col="red")

> title("nuage de points et droite de regression")

Page 18: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

Page 19: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

Explication des sorties R

> names(regression)

[1] "coefficients" "residuals" "effects" "rank"

[5] "fitted.values" "assign" "qr" "df.residual"

[9] "xlevels" "call" "terms" "model«[9] "xlevels" "call" "terms" "model«

coefficients (ou coef) : estimations des paramètres

fitted.values (ou fitted): valeurs estimées

Residuals (ou res) : résidus

df.residual : nombre de ddl des résidus (n-2)

ˆˆ et a b

ˆi i ie y y= −ˆiy

Page 20: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

> anova(regression)Analysis of Variance Table

Response: Y

Df Sum Sq Mean Sq F value Pr(>F)

X 1 1485466 1485466 159.83 4.312e - 13 ***

SSM

SSR

F=MSM/MSR

X 1 1485466 1485466 159.83 4.312e - 13 ***

Residuals 28 260238 9294

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

MSM=SSM/dl=SSM

MSR=SSR/dl=SSR/n-2n-2

Page 21: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

>summary(regression) Call:lm(formula = Y ~ X)

Residuals:Min 1Q Median 3Q Max

-206.89 -76.47 12.28 61.42 192.04

^b

â

s(^b)

s(â)Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -30.2553 34.3536 -0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 96.41 on 28 degrees of freedomMultiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e -13

s(â)tb=^b/s(^b)

ta=â/s(â)

R² =SSM/(SSM+SSR)

S=sqrt(MSR)

Page 22: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

� Pertinence du modèle sur les données : >summary(regression) Call:lm(formula = Y ~ X)

Residuals:Min 1Q Median 3Q Max

- 206.89 - 76.47 12.28 61.42 192.04 % de variations expliquées

De petites valeurs sont un gage de stabilité du modèle donc du pouvoir prédictif: valeur de b

pas très stable ici

- 206.89 - 76.47 12.28 61.42 192.04

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -30.2553 34.3536 -0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 96.41 on 28 degrees of freedomMultiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e -13

% de variations expliquées par le modèle R² doit être proche de 1 pour bon

pouvoir explicatif: ok ici

Écart-type résiduel doit être faible

pour bon pouvoir prédictif

Page 23: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

• Conclusion 1 : le modèle a un bon pouvoir explicatif sur les données, mais le pouvoir prédictif risque d’être entaché par l’instabilité du coefficient b et une variance résiduelle importante.

Page 24: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

� Analyse des résidus

Fonctions R utiles: - influence(): étude des points contribuant à l’instabilité du modèle

(prédiction).(prédiction).

- residuals()

- rstudent() : résidus réduits

- acf() : graphe d’autocorrelation des résidus

- plot()

- qqnorm()

Page 25: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

- Repérage des points aberrants et des points contribuant fortement à la détermination du modèle :Est suspect un point tel que le résidu réduit est s upérieur à 2 en valeur absolue : si sa distance de Cook’s est >1 , le point suspect contribue trop fortement à la détermination du modèle

- Vérifier les hypothèse sur les aléas : iid et normalité (préalable à l’interprétation des tests)

Le graphe des résidus (ou des résidus réduits) ne d oit pas présenter de structure (variance constante sur la v erticale et symetrie par rapport aux abscisses).

. Le graphe des résidus réduits doit être compris en tre –2 et 2 et ne doit pas présenter de structure. D’autres graphi ques tels que le qqnorm() ou acf() peuvent aider.

Page 26: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

Page 27: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

> regression$res

1 2 3 4 5 6

-124.555774 192.039037 -206.889677 66.405930 134.778691 84.971904

7 8 9 10 11 12

62.303811 49.992064 58.754097 -59.526887 -122. 429844 164.829565

13 14 15 16 17 18

- 32.171872 66.230754 14.259927 - 85.047904 - 10.456005 - 85.910834 - 32.171872 66.230754 14.259927 - 85.047904 - 10.456005 - 85.910834

19 20 21 22 23 24

-25.642668 -90.246235 50.526061 40.156580 -54 .350556 10.292678

25 26 27 28 29 30

1.090471 94.392800 29.988159 20.679500 -162.3 41983 -82.121786

Page 28: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

> rstudent(regression)

1 2 3 4 5 6

-1.33891051 2.18030419 -2.35658586 0.69563804 1.44970973 0.90378230

7 8 9 10 11 12

0.67206553 0.54684103 0.61362322 -0.63902844 -1.3 7190197 1.80811221

13 14 15 16 17 18

- 0.33693306 0.72519680 0.14970613 - 0.92811721 - 0.11319206 - 0.91236104 - 0.33693306 0.72519680 0.14970613 - 0.92811721 - 0.11319206 - 0.91236104

19 20 21 22 23 24

-0.27792699 -0.96174524 0.53172811 0.43253471 -0. 58014349 0.10726922

25 26 27 28 29 30

0.01142126 1.03392757 0.31123595 0.21446494 -1.7 9851278 -0.86589500

Page 29: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

>par(mfrow=c(2,2)); plot(regression)

Graphe1 : doit être sans structure réparti de part et d’autre de l’axe des xGraphe 2 : doit suivre la bissectriceGraphe 3 : doit être sans structureGraphe 4 : distances de Cook ou courbe de niveaux de leverage de distances de Cook’s

égales

Page 30: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

>plot(regression$fitted,rstudent(regression),xlabel="fitted values", ylabel="standardized residuals");

>abline(h=2,col="red");abline(h=-2,col="red")

Page 31: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

> par(mfrow=c(1,2))

> plot(regression$residuals)

> acf(regression$res)

Page 32: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

Conclusion 2 : Les résidus semblent approximativement gaussiens (qqnorm) et i.i.d. (pas de structure, de part et d’autre de 0 sur les plots et le corrélogramme).Deux points devraient être éventuellement enlevés du modèle : les points 2 et 3.

Page 33: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

Page 34: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

� Validité du modèle sur la population

>summary(regression) Call:lm(formula = Y ~ X)

Residuals:

La variable X a une influence significative sur Y à 5%: le

coefficient est significativement Min 1Q Median 3Q Max

-206.89 -76.47 12.28 61.42 192.04

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -30.2553 34.3536 -0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 96.41 on 28 degrees of freedomMultiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e -13

coefficient est significativement différent de zero: le modèle est

pertinent par student

Le terme constant n’ est pas significativement

different de zero: on peut decider de refaire tourner

le modèle sans lui

Le modèle est pertinent à 5% par

Fisher

Page 35: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

Le modèle de régression linéaire simple: exemple

Conclusion 3: le modèle linéaire est pertinent pour expliquer variations de Y sur la population.

Conclusion : L’ajustement linéaire est pertinent ici. Pour obtenir un meilleur pouvoir prédictif, il faudrait éventuellement retirer les points 2 et 3 de l’analyse et utiliser un modèle sans terme constant. points 2 et 3 de l’analyse et utiliser un modèle sans terme constant.

Page 36: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie

• Soit X une variable qualitative (facteur) à p modalités (niveaux) et Y une variablequantitative. On veut mettre en évidence une différence de valeur moyenne de lavariable Y selon le niveau du facteur. On suppose alors que X discrimine bien Y:

ou de façon équivalente

avec de moyenne nulle.

j E(Y/X=x ) jµ α= + , 1j j

.j ,...pjY µ α ε= + + =

εavec de moyenne nulle.

On veut pouvoir rejeter l’hypothèse :

Pour cela, on observe ces deux variables sur un ensemble de n individus, on suppose

avec

et on veut valider l’hypothèse précédente. On fait généralement l’hypothèse implicite queles sont iid gaussiens.

1.... , 1ij ij j

.i n j ,...pjy µ α ε= + + = =

0 1 j p: =...= =...= H α α αjε

1

p

jj

n n=

=∑

ijε

Page 37: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie

…. ……1 1E ( )X x= jE ( )jX x= E p ( )pX x=

• 1

1

py n yj jn j

= ∑=

111 1,... ny y 1 ,...jj n jy y 1 ,...

pp n py y

1

jn

j i ji

y y=

= ∑1y py

Page 38: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie

• Un moyen simple pour se rendre compte :

Page 39: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie

• Lorsque on dit qu’on a un plan équilibré. ...1n np= =

Page 40: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie

� Estimation des paramètres

• Moyennes

On a p+1 inconnues du modèle ( ) et uniquement p groupes donc on doit imposer une contrainte. On impose :

, ,...,1 pµ α α

(ce qu’un groupe perd l’autre le gagne)

• On cherche les valeurs des paramètres minimisant la fontion des moindres carrés:

01

pn j jj

α =∑=

2( )i

yij jjα µ− −∑∑

Page 41: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie

• On trouve :

et

est la moyenne estimée ou prédite dans le niveau j du facteur

ˆ yµ = ˆj jy yα = −

ˆ ˆ ˆy α µ= − est la moyenne estimée ou prédite dans le niveau j du facteur

est le i° résidu du niveau j du facteur

• Estimation de la variance des erreurs :

ˆ ˆ ˆjy jα µ= −

ˆij je y yij= −

²

²ij

i j

e

sn p

=−

∑ ∑

Page 42: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie� Validation du modèle : on doit d’abord vérifier que le facteur X discrimine bien Y,

c’est à dire que la majeure partie de la variabilité est bien expliquée par le modèle.

Décomposition de la variabilité

= Somme des carrés des variations dans le niveau j

2( )j

D y yj ij ji E= −∑

= Somme des carrés des variations intra-niveaux

= Somme des carrés des variations inter-niveaux

= somme des carrés des variations totales

On a :

Le modèle est d’autant meilleur que SSinter est grand (que SSintra est faible)

ji E∈

int ( ) ²raSS D n p sjj= = −∑

int2( )erSS n y yj jj

= −∑

2( )SST y yijj i Ej= −∑ ∑

int inter raSST SS SS= +

Page 43: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie

• Indice de qualité du modèle : le rapport de corrélation (% de variations expliquée par X)

2 1INTER INTRASS SS

SST SSTη = = −

• Autre indice : le F de Fisher :

INTER

INTRA

VF

V=

1INTER

INTER

SSV

p=

−INTRA

INTER

SSV

n p=

Page 44: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie

Les indicateurs de variabilité sont résumés dans le tableau d’analyse de la variance ci-dessous :

source Degrés de

Somme des

Somme des carrés moyens

Stat de Fisherde

libertédes carrés

moyens Fisher

Inter-groupes

p-1 SSinter Vinter=SSinter/p-1 F=Vinter/s²

Intra-groupes

n-p SSintra Vintra=s² =SSintra/(n-p)

total n-1 SST s²(Y)=SST/(n-1)

Page 45: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie

� Validation des hypothèses sur les aléas

Voir régression

Page 46: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance : théorie

� Test d’égalité des moyennes

Dès lors qu’on a vérifié que les erreurs sont i.i.d. gaussiennes, on peut tester

0 1 j p: =...= =...= H α α α

En utilisant le test de Fisher. On utilise la statistique de test

0 sous H , ( 1, )INTER

INTRA

VF F F p n p

V= − −∼

Page 47: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance :exemple

Six (k) insecticides (spray) ont été testés chacun sur 12 cultures. La réponse observée (count) est le nombre d'insectes. Les données sont contenues dans le data.frame « InsectSprays ». On veut savoir si il existe un effet significatif du facteur insecticide, i.e. on veut valider le modèle d’analyse de variance :

.,...j;,...iijjijCount 61121, ==++= εαµ

où est une suite de variables aléatoires i.i.d. de moyenne nulle et de variance

>anov=aov(sqrt(count) ~ spray, data = InsectSprays)

.,...j;,...iijjijCount 61121, ==++= εαµ

²σiε

Page 48: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance

> summary(anov)

Df Sum Sq Mean Sq F value Pr(>F)

spray 5 88.438 17.688 44.799 < 2.2e-16 ***

Residuals 66 26.058 0.395

---

SSInter

SSIntra

V Inter

P(F>Fvalue)F suit F(k-1,n-k)

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

V intra

V inter/V intra

n-k

k-1

Page 49: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance

> names(anov)

[1] "coefficients" "residuals" "effects" "rank"

[5] "fitted.values" "assign" "qr" "df.residual"

[9] "contrasts" "xlevels" "call" "terms"

[13] "model"

coefficients : moyennes dans les niveauxresiduals : résidus estimes du modèlefitted.values : valeurs estimées ˆˆ ˆij jy µ α= +

ˆij ij ije y y= −ˆ

Page 50: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray

Page 51: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance

Le Boxplot montre :

- les points aberrants

- l’asymétrie de la distribution

- une inégalité dans les variances. Cependant, comme souvent il y a peu de données dans chaque niveau du facteur on peu s’attendre a peu de données dans chaque niveau du facteur on peu s’attendre à une grande variabilité même si les variances des sous-populations sont en réalité égales.

Page 52: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance

Analyse des résidus (cf régression)

>par(mfrow=c(2,2)); plot(anov)

Page 53: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance

>plot(rstudent(anov))

Page 54: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance

>par(mfrow=c(2,1))

> acf(anov$res)

>plot(anov$res)

Page 55: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance

La distribution des résidus semble gaussienne

Les résidus sont i.i.d.

Il existe des points aberrants 39, 27, 25 dont les distances de Cook’s

montrent qu’ils influencent trop les coefficients.

Page 56: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance

>summary(anov)

Df Sum Sq Mean Sq F value Pr(>F)

spray 5 88.438 17.688 44.799 < 2.2e-16 ***

Residuals 66 26.058 0.395 Residuals 66 26.058 0.395

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Le test de Fisher montre que l’on rejette fortement l’hypothèse nulle (avec un risque de se tromper presque nul): le modèle est significatif :il existe un fort effet du facteur spray sur le nombre d’insectes : les moyennes sont differentes

Page 57: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

>boxplot(sqrt(InsectSpray$count))~InsectSpray$spray

Page 58: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

II- Analyse de variance

>anov$coeff

(Intercept) sprayB sprayC sprayD sprayE sprayF

3.7606784 0.1159530 -2.5158217 -1.5963245 -1.9 512174 0.2579388

Le groupe A est le groupe de référence avec une moyenne de 3.76. Le groupe B Le groupe A est le groupe de référence avec une moyenne de 3.76. Le groupe B a une moyenne de 3.76+0.11,….

Les écarts les plus significatifs sont entre les groupes A B et F et les groupes C D et E, qui sont plus efficaces que les premiers.

Page 59: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

III- Test de comparaison de moyenne

Soient (X1, . . . , Xn) un echantillon issu d’une population iid N(1, 1) et (Y1, . . . , Ym) un échantillon issu d’une population iid E(1). On veut tester:

• Lorsque les variances théoriques des deux variables sont égales :

0 1: ( ) ( ) contre : ( ) ( )H E X E Y H E X E Y= ≠

• Lorsque les variances théoriques des deux variables sont égales : Test de student

• Lorsque les variances théoriques des deux variables sont inégales : Correction de Welch

2 21 1 2 2

1 2

1 2

( 1) ( 1); ²

21 1

X Y n s n st s

n ns

n n

− − + −= =+ −

+1 2 0( 2) sous Ht T n n+ −∼

Page 60: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

III- Test de comparaison de moyenne

� Test de student à la main (à α=5%) :

>x = rnorm(100,1,1); y = rexp(200,1)>p=abs(mean(x)-mean(y))> s=sqrt((99*var(x)+199*var(y))/298)>t=p/(s*sqrt(1/100+1/200))>t [1] 0.7274531

On compare |t| le fractile d’ordre 1- α/2 de la loi de student à 298 ddl.Si |t| supérieur, on rejette H0, sinon en accepte.

Page 61: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

III- Test de comparaison de moyenne

� Avec la fonction t-test : Cas où on suppose les variances égales :

>x = rnorm(100,1,1); y = rexp(200,1)>t.test(x,y, var.equal=T)

Two Sample t-test

data: x and y

P(|T|>t)Où T suit T(298)

Rejet de H0 si <5%data: x and y

t = -0.7275, df = 298, p-value = 0.4675

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.3460831 0.1592772

sample estimates:

mean of x mean of y

0.9584589 1.0518618

Valeur de t

Nombre de ddl = 298

Rejet de H0 si <5%

X

Page 62: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

III- Test de comparaison de moyenne� Avec la fonction t-test : Cas où on suppose les variances inégales

>x = rnorm(100,1,2); y = rexp(200,1)

>st=t.test(x,y)Welch Two Sample t-test

data: x and y

Généralisation du test de Student au cas de variances inégales

data: x and y t = 0.8249, df = 118.758, p-value = 0.4111alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval:

-0.2472865 0.6004484 sample estimates:mean of x mean of y

1.182571 1.005990Nombre de ddlcorrigé=178,46

Valeur de la Statistique de Welch

X Y

Rejet de H0 si <5%

Page 63: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

III- Test de comparaison de moyenne

> names(st)

[1] "statistic" "parameter" "p.value" "conf.int" "estimate"

[6] "null.value" "alternative" "method" "data.name"

statistic : valeur de t

alternative : type d’alternative two-sided, one-sided.alternative : type d’alternative two-sided, one-sided.

estimate : moyennes empiriques des echantillons

null.value : hypothese nulle

conf.int: intervalles de confiances

parameter :ddl

Conclusion : pour les deux exemples, on ne peut pas rejeter l’hypothèse nulle au seuil 5% : les moyennes ne sont pas significativement différentes.

Page 64: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

IV – Test du chi2On veut tester à partir d’un tableau de contingence de n individus s’il y a une

relation entre deux caractères X et Y

Statistique de test :

0 1 0: les deux critères sont indépendants contre H !H H=

Où Oi sont les éléments du tableau de contingence, Ei sont les éléments du tableau attendu sous l’hypothèse d’indépendance (voir un cours et l’exemple ci-après)

1 0² ²(( 1)( 1)) sous Hn l cχ χ− − −∼

Page 65: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

IV – Test du chi2

� Test du chi2 à la main>O=matrix(c(442,514,38,6),nrow=2,byrow=TRUE)>colnames(O)=c("homme","femme"); rownames(O)=c("voyant","aveugle")>O #tableau observé Oi #tableau théorique Ei

homme femme homme femmevoyant 442 514 voyant 458.88 497.12aveugle 38 6 aveugle 21.12 22.88

#Création du tableau théorique : >ni=apply(O,1,sum); nj= apply(O,2,sum)voyant aveugle homme femme 956 44 480 520

>E=matrix(c(ni[1]*nj[1]/1000,ni[2]*nj[1]/1000,ni[1]*nj[2]/1000, ni[2]*nj[2]/1000),2,2)

>chi2=sum((O-E)^2/E)[1] 27.13874

Page 66: Cours 7 : Rappels de cours et exemples sous Riml.univ-mrs.fr/~reboul/R-cours 7.pdf · Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance

IV – Test du chi2

> X2=chisq.test(O, correct=F)Pearson's Chi-squared test

data: tab X-squared = 27.1387, df = 1, p-value = 1.894e-07

Valeur de la statistique de test du chi2

P(X>X-squared )

On rejette H0 si la p-value est <5%. Ici, c’est le cas, les caractères sexe et cecite ne sont pas indépendants.

P(X>X-squared )X v.a. de loi X² (1)