(statdes regression biv_ensta_21oct2010)

62
ENSTA, Cours D7-1 / Chapitre 5 Modèle de régression linéaire bivarié Laurent Ferrara Jean-Paul Renne Octobre 2010

Upload: mohamedchaouche

Post on 14-Jun-2015

58 views

Category:

Economy & Finance


0 download

TRANSCRIPT

Page 1: (Statdes regression biv_ensta_21oct2010)

ENSTA,

Cours D7-1 / Chapitre 5

Modèle de régression linéairebivarié

Laurent Ferrara

Jean-Paul Renne

Octobre 2010

Page 2: (Statdes regression biv_ensta_21oct2010)

Soit 2 variables continues X et Y. On observe les unitésexpérimentales : (xi , yi), pour i = 1, …, n.

1. Existe-t-il un lien entre X et Y?

2. Comment le mesurer ?

3. Comment modéliser ce lien? 3. Comment modéliser ce lien?

4. Comment estimer les paramètres de ce modèle?

5. Comment valider ce modèle ?

6. Comment tirer partie de ce modèle pour prévoir les valeurs d’une variable d’après les valeurs de l’autre?

Page 3: (Statdes regression biv_ensta_21oct2010)

Exemple : données USA 1992 sur 50 états (state.x77)

Existe-t-il un lien entre :les revenus d’un état et le nombre de ses « high-school graduates »?

6065

Inc

Gra

3000 3500 4000 4500 5000 5500 6000

4045

5055

Page 4: (Statdes regression biv_ensta_21oct2010)

Causalité? Existe-t-il un lien entre :Le nombre de meurtres et l ’espérance de vie?

7273

Murder

Life

Exp

2 4 6 8 10 12 14

6869

7071

Page 5: (Statdes regression biv_ensta_21oct2010)

Quel type de lien?

• Mise en évidence un lien linéaire entre les 2 variables.

– Y est considérée comme la variable à expliquer , ou dépendante, ou endogène.

– X est considérée comme la variable explicative, ou indépendante, ou – X est considérée comme la variable explicative, ou indépendante, ou exogène.

• Relation statistique entre les 2 variables (non-déterministe) :

la connaissance de X n’implique pas la connaissance parfaite de Y : il existe une erreur aléatoire autour de la valeur

prédite

Page 6: (Statdes regression biv_ensta_21oct2010)

x

y

-1 0 1

-10

1

x

y2

-1 0 1

01

23

x

y3

-1 0 1

-4-2

02

46

x

yexp

-1 0 1

01

23

45

6

Page 7: (Statdes regression biv_ensta_21oct2010)

Comment mesurer un lien linéaire?

• Outil principal : Coefficient de corrélation linéaire

)()(

),(),(

YVXV

YXCovYXc =

Estimateur empirique :

∑∑

==

=

−−

−−=

n

ii

n

ii

n

iii

YyXx

YyXxYX

1

2

1

2

1

)()(

))((),(ρ

Page 8: (Statdes regression biv_ensta_21oct2010)

Comment mesurer un lien linéaire?

• Signification :

baXYqtbaYXc +=∃⇔= :..,1),(

?1),( <YXc

• Test de Student

– H0 :

– H1 :

0),( =YXρ

0),( ≠YXρ

Page 9: (Statdes regression biv_ensta_21oct2010)

Comment mesurer un lien linéaire?

• Sous l’hypothèse nulle H0 :

suit une loi de Student à (n-2) dl2)),(1(

),(2 −− nYX

YX

ρρ

Donc, si

est tq : t* > on rejette H0 au seuil de risque α2/2

α−nt

2)),(1(

),(*

2 −−=

nYX

YXt

ρρ

Page 10: (Statdes regression biv_ensta_21oct2010)

Attention au piège : dépendance non linéaire

le coeff de corrélation ne mesure que la dépendance linéaire.

> cor(x, y)[1] 0.99> cor(x, y2)[1] 0.246> cor(x, y3)[1] 0.854> cor(x, yexp)

• Effectuer une analyse graphique au préalable pour identifier la forme de la dépendance.

• Un coeff de corrélation élevé ne signifie pas forcément une dépendance linéaire.

> cor(x, yexp)[1] 0.898

Page 11: (Statdes regression biv_ensta_21oct2010)

Attention au piège : Corrélation fallacieuse

Existence d’un coefficient de corrélation non nul entre deux variables qu’aucune théorie économique, physique … ne relie.

2 cas :2 cas :

– résultat purement aléatoire

– existence d’un troisième variable qui explique conjointement les 2 phénomènes (en général : le temps)

Exemple de Krugman :

lien désindustrialisation–délocalisation aux USA (application à la France)

Page 12: (Statdes regression biv_ensta_21oct2010)

empindus

4500,0

4600,0

4700,0

Évolution de l’emploi industriel France (Trimestriel 1991-2003)

4000,0

4100,0

4200,0

4300,0

4400,0

mars

-91

juil-9

1no

v-91

mars

-92

juil-9

2nov

-92

mar

s-93

juil-9

3nov

-93

mar

s-94

juil-9

4nov

-94

mars

-95

juil-9

5nov

-95

mars

-96

juil-9

6nov

-96

mars

-97

juil-9

7no

v-97

mars

-98

juil-9

8no

v-98

mars

-99

juil-9

9no

v-99

mars

-00

juil-0

0nov

-00

mar

s-01

juil-0

1nov

-01

mars

-02

juil-0

2no

v-02

mars

-03

Page 13: (Statdes regression biv_ensta_21oct2010)

Imports

1,70

1,90

2,10

Évolution des importations de biens en volume France 1991-2003

0,70

0,90

1,10

1,30

1,50

mar

s-91

juil-9

1nov

-91

mars

-92

juil-9

2nov

-92

mars

-93

juil-9

3nov

-93

mar

s-94

juil-9

4nov

-94

mars

-95

juil-9

5nov

-95

mars

-96

juil-9

6nov

-96

mar

s-97

juil-9

7nov

-97

mar

s-98

juil-9

8no

v-98

mars

-99

juil-9

9nov

-99

mar

s-00

juil-0

0nov

-00

mar

s-01

juil-0

1no

v-01

mars

-02

juil-0

2nov

-02

mar

s-03

Page 14: (Statdes regression biv_ensta_21oct2010)

Corrélation = - 0,50, t de Student = 3,99

→ Conclusion statistique : on rejette l’hypothèse H0 de nullité de la corrélation linéaire entre les 2 variables

→ Conclusion économique rapide : les pays à faibles coûts salariaux détruisent les emplois dans l ’industrie Françaisesalariaux détruisent les emplois dans l ’industrie Française

Or, Krugman a montré qu’en fait les destructions d’emplois industriels étaient causées par la baisse des dépenses (en valeur) des ménages en produits manufacturés, liée à la forte hausse de la productivité dans l’industrie par comparaison avec celle dans les services

Page 15: (Statdes regression biv_ensta_21oct2010)

On remarque également que les coefficients de corrélation entre chacune des variables et le temps sont de :

– 0,75 pour l’emploi industriel

0,94 pour les imports

Exercice : Proposer des exemples de corrélation fallacieuse

Page 16: (Statdes regression biv_ensta_21oct2010)

Attention au piège :

Un coefficient de corrélation nul ne signifie pas que les variables sont indépendantes (sauf dans le cas Gaussien)

En particulier, il peut exister une relation sur les moments d’ordre supérieur du modèle

Exemple : lien linéaire entre les variances de X et Y

(cas des processus ARCH en séries chronologiques)

Page 17: (Statdes regression biv_ensta_21oct2010)

Autres outils de mesure de dépendance:

– Concordance

– Corrélation de rang (Tau de Kendall, coefficient de Spearman)

– Corrélation conditionnelle

– …

– L’expression générale de la dépendance ne peut se faire que par la loi jointe.

→ Si celle-ci n’est pas calculable: concept de copules

Page 18: (Statdes regression biv_ensta_21oct2010)

Comment modéliser un lien linéaire?

• Quel est le « meilleur » ajustement linéaire?

• Exemple : relation poids / taille

74706662

210

200

190

180

170

160

150

140

130

120

110

height

wei

ght w = -266.5 + 6.1 h

w = -331.2 + 7.1 h

Page 19: (Statdes regression biv_ensta_21oct2010)

Notation

iy est la ième observation de la variable exogène

ix est la ième observation de la variable endogènei

iy est la valeur ajustée (estimée) de la ième observation

équation de la meilleure droite d’ajustement: ii xbby 10ˆ +=

Page 20: (Statdes regression biv_ensta_21oct2010)

210

200

190

180

170

160

150

140

wei

ght

w = -266.5 + 6.1 h

1 64 121 126.3

ix iy iyi

74706662

130

120

height

1 64 121 126.32 73 181 181.53 71 156 169.24 69 162 157.05 66 142 138.56 69 157 157.07 75 208 193.88 71 169 169.29 63 127 120.110 72 165 175.4

Page 21: (Statdes regression biv_ensta_21oct2010)

Erreur de prévision

(ou erreur résiduelle)

En utilisantiy pour prédire ,

iyon fait une erreur de prévision:

yye ˆ−= iii yye ˆ−=

La droite d’ajustement qui colle le mieux aux données est celle pour laquelle les n erreurs de prévisions sont les plus petites possibles au sens d’un certain critère.

Page 22: (Statdes regression biv_ensta_21oct2010)

Critère des “Moindres Carrés”

Objectif : Choisir les valeurs b0 et b1 qui minimise la

Equation de la droite : ii xbby 10ˆ +=

Objectif : Choisir les valeurs b0 et b1 qui minimise la somme des carrés des erreurs.

i.e. : minimiser: ( )2

1

ˆ∑=

−=n

iii yyQ

Page 23: (Statdes regression biv_ensta_21oct2010)

La droite de régression

Par le calcul, minimiser (dériver, annuler et résoudre pour b0 et b1):

( )( )2

110∑

=

+−=n

iii xbbyQ

1=i

et obtenir les estimateurs des moindres carrés

ordinaires (MCO) de b0 et b1:

( )( )( )∑

=

=

−−=

n

ii

n

iii

xx

yyxxb

1

2

11 xbyb 10

ˆˆ −=

Page 24: (Statdes regression biv_ensta_21oct2010)

170

180

190

200

210ht

weight = -266.534 + 6.13758 height

S = 8.64137 R-Sq = 89.7 % R-Sq(adj) = 88.4 %

Regression Plot

Résultat:

65 70 75

120

130

140

150

160

170

height

wei

gh

Page 25: (Statdes regression biv_ensta_21oct2010)

Remarques

En termes géométriques

• la droite de régression est celle qui minimise la distance quadratique entre les points et les projections orthogonales de ces points sur cette droite.de ces points sur cette droite.

• la droite de régression est celle qui minimise la variance du nuage de points projetés orthogonalement sur cette droite.

Page 26: (Statdes regression biv_ensta_21oct2010)

Formalisation

Hypothèses du modèle linéaire :

• H1 : E(Yi) fonction linéaire des xi (déterministes)

y = b + b x + εεεε , pour i=1,…,nyi = b0 + b1 xi + εεεεi , pour i=1,…,n

• H2 : Les erreurs, εεεεi, sont indépendantes entre elles

• H3 : E(εεεεi) = 0, les erreurs sont d’espérance nulle (en moyenne le modèle est bien spécifié)

Page 27: (Statdes regression biv_ensta_21oct2010)

• H4 : E(εεεε2i) = σ2 , les erreurs sont de variance égale

pour toute valeur de X

(hypothèse d’homoscédasticité)

• H5 : E(Xi εεεεi) = 0 , les erreurs sont indépendantes des valeurs de Xvaleurs de X

• H6 : Hypothèse de Normalité : les erreurs, εεεεi, sont identiquement distribuées selon la loi Normale.

Page 28: (Statdes regression biv_ensta_21oct2010)

Estimation des paramètres

Quels paramètres ? → b0 , b1 , σ2 →

estimés par MCO

210 ˆ,ˆ,ˆ σbb

10ˆ,ˆ bb

estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE)

Page 29: (Statdes regression biv_ensta_21oct2010)

La MSE est définie par :

( )2

ˆ

ˆ 1

2

2

−==∑

=

n

YYMSE

n

iii

σ

On pondère par le nombre de degrés de liberté du modèle défini par :

degrés de liberté = nbre d’observations - nbre de paramètres

Page 30: (Statdes regression biv_ensta_21oct2010)

Loi asymptotique des paramètres

Les estimateurs MCO sont sans biais et convergents

• On montre que :00)ˆ( bbE = 11)ˆ( bbE =

• On montre que :

Donc

∑=

−= n

ii Xx

bV

1

2

2

1

)(

ˆ)ˆ(

σ

∞→→ nsibV 0)ˆ( 1

Page 31: (Statdes regression biv_ensta_21oct2010)

Loi asymptotique des paramètres

• De même,

−+=∑

=

n

ii Xx

X

nbV

1

2

22

0

)(

1ˆ)ˆ( σ

=i 1

∞→→ nsibV 0)ˆ( 0

Page 32: (Statdes regression biv_ensta_21oct2010)

Remarques

• Dans ce cadre, sous l ’hypothèse de normalité des erreurs, estimateur MCO = estimateur EMV

• La variance estimée par le modèle est différente de la variance empirique (valable pour tout échantillon qui suit le modèle linéaire)modèle linéaire)

• La variance résiduelle mesure avec quelle amplitude les valeurs de Y s’écartent de la droite de régression.

– C ’est une mesure de la précision du modèle

– C ’est une mesure du risque associé au modèle

Page 33: (Statdes regression biv_ensta_21oct2010)

100

90

80tS = 4.76923 R-Sq = 96.1 % R-Sq(adj) = 95.5 %

fahrenheit = 34.1233 + 1.61538 celsius

Regression Plot

Exemple : la précision de ce thermomètre est-elle meilleure ou moins bonne que …..

40302010 0

80

70

60

50

40

30

Celsius

Fah

renh

eit

Page 34: (Statdes regression biv_ensta_21oct2010)

… celle de celui-ci?

100

eit

S = 21.7918 R-Sq = 70.6 % R-Sq(adj) = 66.4 %

fahrenheit = 17.0709 + 2.30583 celsius

Regression Plot

40302010 0

50

0

Celsius

Fah

renh

e

Page 35: (Statdes regression biv_ensta_21oct2010)

Remarques

• Quel est le but du jeu de toute tentative de modélisation d’une variable Y ?

→→→→ Minimiser la variance résiduelle

Y = partie déterministe + partie aléatoire

Y = f(X) + ε

Par indépendance, V(Y) = V(f(X)) + V(εεεε)

Page 36: (Statdes regression biv_ensta_21oct2010)

Validation du modèle

On valide le modèle à l’aide des tests statistiques.

2 types de tests d’hypothèses sont développés :

1) Tests sur les paramètres du modèle

2) Tests sur les résidus du modèle

Page 37: (Statdes regression biv_ensta_21oct2010)

(1-αααα) IC pour la pente

Formule “avec des mots” :

Paramètre estimé ± (t-multiplier × standard error)

1b

Formule en notations :

( ) ( )

−×±

∑−− 22,211

ˆˆ

Xxtb

i

n

σα

Page 38: (Statdes regression biv_ensta_21oct2010)

Test sur la pente

Null hypothesis H0: β1 = β (en général =0)

Alternative hypothesis H1: β1 ≠ β (en général ≠ 0)

( )11*

bbt

ββ −=

−=Test statistic

1b

( )( )1

2

*bse

xx

MSE

t

i

=

=

Test statistic

P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α)

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté

Page 39: (Statdes regression biv_ensta_21oct2010)

Formule “avec des mots” :

Paramètre estimé ± (t-multiplier × standard error)

0b(1-αααα) IC pour la constante

Formule en notations:

( ) ( )∑ −+×±

−− 2

2

2,210

1ˆˆ

Xx

x

ntb

in

σα

Page 40: (Statdes regression biv_ensta_21oct2010)

Null hypothesis H0: β0 = β (en général = 0)

Alternative hypothesis HA: β0 ≠ β (en général ≠ 0)

00*bb

tββ −=−=

Test statistic

Test sur la constante 0b

P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α)

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté.

( )( )0

0

2

2

0

1*

bseb

xx

xn

MSE

bt

i

ββ −=

−+

−=

Test statistic

Page 41: (Statdes regression biv_ensta_21oct2010)

Test sur le terme d’erreur

Les intervalles et les tests précédents sont basés sur la Normalité du terme d’erreur. Il importe donc de tester les résidus.

– Test d’adéquation (Jarque-Bera, KS, …)– Test d’adéquation (Jarque-Bera, KS, …)

– Test graphiques (QQ-Plot)

Les résultats restent valides en cas d’écart à la loi Normale si l’échantillon est grand (résultats asymptotiques).

Page 42: (Statdes regression biv_ensta_21oct2010)

> w.fit <- lm(weight ~ 1 + height)

> summary(w.fit)

Call: lm(formula = weight ~ 1 + height)Residuals:

Min 1Q Median 3Q Max -13.2 -4.08 -0.0963 4.64 14.2

Exemple : Poids / Taille

Coefficients:Value Std. Error t value Pr(>|t|)

(Intercept) -266.534 51.032 -5.223 0.001height 6.138 0.735 8.347 0.000

Residual standard error: 8.64 on 8 degrees of freedomMultiple R-Squared: 0.897

> resid(w.fit)1 2 3 4 5 6 7 8 9 10

-5.27 -0.509 -13.2 5.04 3.45 0.0413 14.2 -0.234 6.87 -10.4

Page 43: (Statdes regression biv_ensta_21oct2010)

180

200

Graphique : Poids observé vs. poids estimé

Fitted : 1 + height

wei

ght

120 140 160 180

120

140

160

Page 44: (Statdes regression biv_ensta_21oct2010)

Mesure de la qualité du modèle

On mesure la qualité du modèle par l’analyse de la variance

On montre les 2 relations suivantes :

• la somme des résidus est nulle, i.e. : ∑=

=n

iie

1

0

• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :

∑=i 1

∑ ∑= =

=n

i

n

iii yy

1 1

ˆ

Page 45: (Statdes regression biv_ensta_21oct2010)

∑∑∑ +−=−i

ii

ii

i eyyyy 222)ˆˆ()(

On en déduit l’équation de l’analyse de la variance:

Variance totale = Variance expliquée + Variance résiduelle

Objectif : Maximiser la variance expliquée

Page 46: (Statdes regression biv_ensta_21oct2010)

• R2 : mesure de la variance expliquée

• Le R2 est à valeur entre 0 et 1

∑=

−−= n

ii YY

R

1

2

22

)(

ˆ1

σ

• Le R2 est à valeur entre 0 et 1

• Critères d’information : Akaike (1971)

Page 47: (Statdes regression biv_ensta_21oct2010)

Prévision

Que veut-on prévoir?

• La réponse «moyenne» de la population = E(Yh) pour une valeur xh

– Ex : Quel est le poids moyen pour une taille donnée?– Ex : Quel est le poids moyen pour une taille donnée?

(Plus précis que le poids moyen de l’échantillon)

• La réponse Yh(new) à une nouvelle valeur donnée xh

– Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?

Page 48: (Statdes regression biv_ensta_21oct2010)

est le meilleur estimateur dans chaque cas.hh xbbY 10ˆ +=

En fait les 2 prévisions sont égales :

Seuls les intervalles de confiance autour des réponses vont varier.

Page 49: (Statdes regression biv_ensta_21oct2010)

22

18

e te

st s

core ( ) xxYEY 10 ββµ +==

54321

14

10

6

High school gpa

Co

llege

ent

ranc

e

( ) ii xY εββ ++= 10

Page 50: (Statdes regression biv_ensta_21oct2010)

Intervalle de confiance pour la réponse moyenne de la population

E(Y )E(Yh)

Page 51: (Statdes regression biv_ensta_21oct2010)

Formule “avec des mots” :

Sample estimate ± (t-multiplier × standard error)

(1-αααα) IC pour la réponse moyenne E(Yh)

Formule en notation:

( )( )

( )

−−+××±

∑−− 2

22

2,21

1ˆˆ

Xx

Xx

nty

i

hnh σα

Page 52: (Statdes regression biv_ensta_21oct2010)

Implications sur la précision

• Au plus les valeurs des xi sont étalées, au plus l’intervalle de confiance est petit,

donc l’estimation de E(Yh) est plus précise.h

• Suivant le même échantillon de xi, au plus la valeur de xh est loin de la moyenne empirique, au plus l’intervalle de confiance est grand,

donc l’estimation de E(Yh) est moins précise.

Page 53: (Statdes regression biv_ensta_21oct2010)

Remarques

• xh est une valeur correspondant au champ de l’étude mais pas nécessairement une valeur de l’échantillon

• L’IC pour E(Yh) est correct même si le terme d’erreur est seulement approché par une loi Normale

• Si le nombre d’observations est grand, l’IC pour E(Yh) est correct même si le terme d’erreur s’écarte fortement d’une loi Normale

Page 54: (Statdes regression biv_ensta_21oct2010)

> predict(w.fit, base2, type = "response", ci.fit = T, se.fit = T)$fit:

1 2 102 224

$se.fit:1 2

7.36 8.33

Exemple : Estimation du poids moyen pour 2 tailles données(60, proche de la moyenne, et 80, plus élevée que la moyenne)

$residual.scale:[1] 8.64

$df:[1] 8

$ci.fit:lower upper

1 84.7 1192 205.3 244attr(, "conf.level"):[1] 0.95

Page 55: (Statdes regression biv_ensta_21oct2010)

Intervalle de Prévision pour la réponse Yh(new) à une nouvelle

valeur xvaleur xh(new)

Page 56: (Statdes regression biv_ensta_21oct2010)

Prévision de Yh(new)

si la moyenne E(Y) est connue,i.e. : si les paramètres sont fixés

Hypothèse 252 =σ 5=σcàd

Page 57: (Statdes regression biv_ensta_21oct2010)

0.07

0.08

Prévision de Yh(new)

si la moyenne E(Y) est connue

47 52 57 62 67 72 77

0.00

0.01

0.02

0.03

0.04

0.05

0.06

Number of hours

Nor

mal

cur

ve

0.997

Page 58: (Statdes regression biv_ensta_21oct2010)

Prévision de Yh(new) si la moyenne E(Y) n’est pas connue

i.e. si les paramètres sont estimés

→ on rajoute une incertitude sur la moyenne de Y

Page 59: (Statdes regression biv_ensta_21oct2010)

La prévision est non biaisée

hh xbbY 10ˆˆˆ +=

hhh YYe −= ˆ

Propriété:

hh

hhh

hhh

xbbbb

xbbxbb

YYe

ε

ε

+−+−=

+−++=

−=

)ˆ()ˆ(

)ˆˆ(

1100

1010

0)( =⇒ heE

Page 60: (Statdes regression biv_ensta_21oct2010)

Variance de la prévision

Elle dépend de 2 composantes :

1. Variance due à l’estimation de E(Yh) par

2. Variance de Y inhérente à sa distribution

hy

( )( )

( )( )

−++=

−++∑∑

==

n

ii

hn

ii

h

xx

xx

nxx

xx

n

1

2

22

1

2

222 1

1ˆ1

ˆˆ σσσEstimation:

2. Variance de Y inhérente à sa distribution

Page 61: (Statdes regression biv_ensta_21oct2010)

Sample prediction ± (t-multiplier × standard error)

(1-αααα) IC pour la réponse Yh

( )( )

( )

−−++×±

∑−− 2

22

2,21

11ˆˆ

xx

xx

nty

i

hnh σα

Page 62: (Statdes regression biv_ensta_21oct2010)

250

alityS = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %

Mortality = 389.189 - 5.97764 Latitude

Regression Plot

504030

150

50

Latitude

Mo

rta

95% PI

95% CI

Regression