régression linéaire (stt-2400)

16
Régression linéaire (STT- 2400) Section 3 Analyse séquentielle et tables d’analyse de variance (ANOVA) Version: 19 janvier 2007

Upload: tod

Post on 19-Jan-2016

35 views

Category:

Documents


0 download

DESCRIPTION

Régression linéaire (STT-2400). Section 3 Analyse séquentielle et tables d’analyse de variance (ANOVA) Version: 19 janvier 2007. Analyse de variance séquentielle. Dans l’exemple des données sur l’essence, on a considéré la fonction moyenne suivante: La table d’ANOVA globale est:. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Régression linéaire (STT-2400)

Régression linéaire (STT-2400)

Section 3

Analyse séquentielle et tables d’analyse de variance (ANOVA)

Version: 19 janvier 2007

Page 2: Régression linéaire (STT-2400)

STT-2400; Régression linéaire2

Analyse de variance séquentielle

Dans l’exemple des données sur l’essence, on a considéré la fonction moyenne suivante:

La table d’ANOVA globale est:

MilesvenuTaxDlicYE logRe 43210 xX

source d.l. SS MSrégression p SSreg SSreg/présidu n-p-1 RSS RSS/(n-p-1)Total n-1 SYY

Page 3: Régression linéaire (STT-2400)

STT-2400; Régression linéaire3

Comment expliquer l’effet de la variable « Tax »

Si on s’attarde à la variable « Tax », on peut penser que la somme des carrés de l’ANOVA globale SSreg peut se diviser en deux:– Un effet relié à un ajustement incluant les variables

Dlic, Revenu et logMiles.– Un effet relié à l’ajout de la variable « Tax »;

autrement formulé, un effet relié à l’ajustement incluant la variable « Tax » après avoir déjà inclus dans le modèle les variables Dlic, Revenu et logMiles.

Page 4: Régression linéaire (STT-2400)

STT-2400; Régression linéaire4

Décomposition de SSreg dans l’ANOVA globale

On écrira la somme des carrés SSreg dans l’ANOVA globale:

SSreg(Dlic, Revenu, logMiles, Tax | 0) = SSreg(Dlic, Revenu, logMiles | 0) + SSreg(Tax |Dlic, Revenu, logMiles, 0)

Cette logique peut être répétée pour le terme SSreg(Dlic, Revenu, logMiles | 0).

Page 5: Régression linéaire (STT-2400)

STT-2400; Régression linéaire5

Table d’ANOVA dans une régression linéaire simple

Avec ce système de notation, nous aurons que la table d’ANOVA dans une régression linéaire simple prend la forme:

En effet, SSreg correspond à l’augmentation dans la somme des carrés due à la régression lors de l’ajout du préviseur X.

source d.l. SS MSrégression 1 SSreg( 1 | 0 ) SSreg/1résidu n-2 RSS RSS/(n-2)Total (corrigé) n-1 SYY

Page 6: Régression linéaire (STT-2400)

STT-2400; Régression linéaire6

Autre forme de l’ANOVA dans la régression linéaire simple

Une forme moins populaire (car moins fréquente dans les sorties informatiques) est:

On a que: et

n

iiy

1

2yy' 20 ynSSreg

source d.l. SSterme constant 1 SSreg( 0 )régression 1 SSreg( 1 | 0 )résidu n-2 RSSTotal n y'y

Page 7: Régression linéaire (STT-2400)

STT-2400; Régression linéaire7

ANOVA et régression linéaire simple

Inclure que le terme constant donne l’ANOVA:

Dans cette logique inclure les deux termes donne la table d’ANOVA

source d.l. SSterme constant 1 SSreg( 0 )résidu n-1 RSSTotal n y'y

source d.l. SSterme constant et X 2 SSreg( 0, 1 )résidu n-2 RSSTotal n y'y

Page 8: Régression linéaire (STT-2400)

STT-2400; Régression linéaire8

ANOVA et régression linéaire simple

Conséquemment on trouve que: SSreg(1 | 0) = SSreg(1,0) – SSreg(0) Ceci suggère la table d’ANOVA:

source d.l. SSterme constant 1 SSreg( 0 )régression 1 SSreg( 1 | 0 )résidu n-2 RSSTotal n y'y

Page 9: Régression linéaire (STT-2400)

STT-2400; Régression linéaire9

ANOVA et régression linéaire multiple

En général, on trouve les tables d’ANOVA suivantes:

Ainsi que:

source d.l. SSterme constant + préviseurs p+1 SSreg( 0, 1 ,... p )résidu n-p-1 RSSTotal n y'y

source d.l. SSterme constant 1 SSreg( 0 )régression p SSreg( 1 ,…, p | 0 )résidu n-p-1 RSSTotal n y'y

Page 10: Régression linéaire (STT-2400)

STT-2400; Régression linéaire10

En résumé, ce qu’il faut retenir…

En fait il faut retenir les deux formes suivantes, qui sont équivalentes:

Et la forme plus répandue (à cause des logiciels):

source d.l. SSterme constant 1 SSreg( 0 )régression p SSreg( 1 ,…, p | 0 )résidu n-p-1 RSSTotal n y'y

source d.l. SSrégression p SSreg( 1 ,…, p | 0 )résidu n-p-1 RSSTotal (corrigé) n-1 y'y-SSreg( 0 )=SYY

Page 11: Régression linéaire (STT-2400)

STT-2400; Régression linéaire11

ANOVA séquentielle

Considérons la fonction moyenne suivante:

Posons: SSreg1 = SSreg(1 | 0);

SSreg2 = SSreg(2 |1, 0);

SSreg3 = SSreg(3 |2, 1, 0);

SSreg4 = SSreg(4 |3, 2, 1, 0).

443322110| xxxxYE xX

Page 12: Régression linéaire (STT-2400)

STT-2400; Régression linéaire12

ANOVA séquentielle (suite)

On aura l’ANOVA suivante dite séquentielle:

source d.l. SSx1 1 SSreg1x2 1 SSreg2x3 1 SSreg3x4 1 SSreg4résidu n-5 RSSTotal n-1 SYY

Page 13: Régression linéaire (STT-2400)

STT-2400; Régression linéaire13

ANOVA séquentielle (suite)

Afin de calculer SSreg1, on doit ajuster une régression avec 0 et 1: ceci nous donne: SSreg(1 | 0).

Afin de calculer SSreg2, on ajuste une régression avec 0, 1 et 2, et une seconde avec seulement 0 et 1. On calcule alors:

SSreg(2 | 1, 0 ) = SSreg(1, 2 | 0 ) – SSreg(1 | 0)

Page 14: Régression linéaire (STT-2400)

STT-2400; Régression linéaire14

ANOVA séquentielle (suite)

On remarque que l’on a la relation: SSreg1 + SSreg2 + SSreg3 + SSreg4 = SSreg En effet: SSreg(1 | 0) + { SSreg(1,2 | 0) - SSreg(1 | 0) } +

{SSreg(1,2,3 | 0) - SSreg(1,2 | 0) } + {SSreg(1,2,3,4 | 0) - SSreg(1,2,3 | 0) } = SSreg(1,2,3,4 | 0) = SSreg

Page 15: Régression linéaire (STT-2400)

STT-2400; Régression linéaire15

L’ordre compte…

Il est important de noter que l’ordre dans lequel entre les variables importe.

Exemple: Inclure successivement Dlic, Tax, Revenu et logMiles donnera une ANOVA séquentielle différente de celle consistant à entrer successivement logMiles, Income, Dlic et Tax.

Si les préviseurs sont approximativement non corrélés, les différences devraient être petites.

Page 16: Régression linéaire (STT-2400)

STT-2400; Régression linéaire16

ANOVA séquentielle et SAS

Pour SAS, cette décomposition s’intitule le calcul des sommes de carrés de type I. Il suffit d’ajouter l’option SS1 dans l’énoncé « model ». Par exemple:

data essence; set alr3.fuel2001; Dlic=Drivers*1000/Pop; Fuel=FuelC*1000/Pop; logMiles=log2(Miles); Revenu=Income/1000;

proc reg data=essence; model Fuel = Dlic Tax Revenu logMiles / SS1; run;