(statdes regression biv_ensta_21oct2010)

ENSTA,

Cours D7-1 / Chapitre 5

Modèle de régression linéairebivarié

Laurent Ferrara

Jean-Paul Renne

Octobre 2010

Soit 2 variables continues X et Y. On observe les unitésexpérimentales : (xi , yi), pour i = 1, …, n.

1. Existe-t-il un lien entre X et Y?

2. Comment le mesurer ?

3. Comment modéliser ce lien? 3. Comment modéliser ce lien?

4. Comment estimer les paramètres de ce modèle?

5. Comment valider ce modèle ?

6. Comment tirer partie de ce modèle pour prévoir les valeurs d’une variable d’après les valeurs de l’autre?

Exemple : données USA 1992 sur 50 états (state.x77)

Existe-t-il un lien entre :les revenus d’un état et le nombre de ses « high-school graduates »?

6065

Inc

Gra

3000 3500 4000 4500 5000 5500 6000

4045

5055

Causalité? Existe-t-il un lien entre :Le nombre de meurtres et l ’espérance de vie?

7273

Murder

Life

Exp

2 4 6 8 10 12 14

6869

7071

Quel type de lien?

• Mise en évidence un lien linéaire entre les 2 variables.

– Y est considérée comme la variable à expliquer , ou dépendante, ou endogène.

– X est considérée comme la variable explicative, ou indépendante, ou – X est considérée comme la variable explicative, ou indépendante, ou exogène.

• Relation statistique entre les 2 variables (non-déterministe) :

la connaissance de X n’implique pas la connaissance parfaite de Y : il existe une erreur aléatoire autour de la valeur

prédite

x

y

-1 0 1

-10

1

x

y2

-1 0 1

01

23

x

y3

-1 0 1

-4-2

02

46

x

yexp

-1 0 1

01

23

45

6

Comment mesurer un lien linéaire?

• Outil principal : Coefficient de corrélation linéaire

)()(

),(),(

YVXV

YXCovYXc =

Estimateur empirique :

∑∑

∑

==

=

−−

−−=

n

ii

n

ii

n

iii

YyXx

YyXxYX

1

2

1

2

1

)()(

))((),(ρ


• Signification :

baXYqtbaYXc +=∃⇔= :..,1),(

?1),( <YXc

• Test de Student

– H0 :

– H1 :

0),( =YXρ

0),( ≠YXρ


• Sous l’hypothèse nulle H0 :

suit une loi de Student à (n-2) dl2)),(1(

),(2 −− nYX

YX

ρρ

Donc, si

est tq : t* > on rejette H0 au seuil de risque α2/2

α−nt

2)),(1(

),(*

2 −−=

nYX

YXt

ρρ

Attention au piège : dépendance non linéaire

le coeff de corrélation ne mesure que la dépendance linéaire.

> cor(x, y)[1] 0.99> cor(x, y2)[1] 0.246> cor(x, y3)[1] 0.854> cor(x, yexp)

• Effectuer une analyse graphique au préalable pour identifier la forme de la dépendance.

• Un coeff de corrélation élevé ne signifie pas forcément une dépendance linéaire.

> cor(x, yexp)[1] 0.898

Attention au piège : Corrélation fallacieuse

Existence d’un coefficient de corrélation non nul entre deux variables qu’aucune théorie économique, physique … ne relie.

2 cas :2 cas :

– résultat purement aléatoire

– existence d’un troisième variable qui explique conjointement les 2 phénomènes (en général : le temps)

Exemple de Krugman :

lien désindustrialisation–délocalisation aux USA (application à la France)

empindus

4500,0

4600,0

4700,0

Évolution de l’emploi industriel France (Trimestriel 1991-2003)

4000,0

4100,0

4200,0

4300,0

4400,0

mars

-91

juil-9

1no

v-91

mars

-92

juil-9

2nov

-92

mar

s-93

juil-9

3nov

-93

mar

s-94

juil-9

4nov

-94

mars

-95

juil-9

5nov

-95

mars

-96

juil-9

6nov

-96

mars

-97

juil-9

7no

v-97

mars

-98

juil-9

8no

v-98

mars

-99

juil-9

9no

v-99

mars

-00

juil-0

0nov

-00

mar

s-01

juil-0

1nov

-01

mars

-02

juil-0

2no

v-02

mars

-03

Imports

1,70

1,90

2,10

Évolution des importations de biens en volume France 1991-2003

0,70

0,90

1,10

1,30

1,50

mar

s-91

juil-9

1nov

-91

mars

-92

juil-9

2nov

-92

mars

-93

juil-9

3nov

-93

mar

s-94

juil-9

4nov

-94

mars

-95

juil-9

5nov

-95

mars

-96

juil-9

6nov

-96

mar

s-97

juil-9

7nov

-97

mar

s-98

juil-9

8no

v-98

mars

-99

juil-9

9nov

-99

mar

s-00

juil-0

0nov

-00

mar

s-01

juil-0

1no

v-01

mars

-02

juil-0

2nov

-02

mar

s-03

Corrélation = - 0,50, t de Student = 3,99

→ Conclusion statistique : on rejette l’hypothèse H0 de nullité de la corrélation linéaire entre les 2 variables

→ Conclusion économique rapide : les pays à faibles coûts salariaux détruisent les emplois dans l ’industrie Françaisesalariaux détruisent les emplois dans l ’industrie Française

Or, Krugman a montré qu’en fait les destructions d’emplois industriels étaient causées par la baisse des dépenses (en valeur) des ménages en produits manufacturés, liée à la forte hausse de la productivité dans l’industrie par comparaison avec celle dans les services

On remarque également que les coefficients de corrélation entre chacune des variables et le temps sont de :

– 0,75 pour l’emploi industriel

0,94 pour les imports

Exercice : Proposer des exemples de corrélation fallacieuse

Attention au piège :

Un coefficient de corrélation nul ne signifie pas que les variables sont indépendantes (sauf dans le cas Gaussien)

En particulier, il peut exister une relation sur les moments d’ordre supérieur du modèle

Exemple : lien linéaire entre les variances de X et Y

(cas des processus ARCH en séries chronologiques)

Autres outils de mesure de dépendance:

– Concordance

– Corrélation de rang (Tau de Kendall, coefficient de Spearman)

– Corrélation conditionnelle

– …

– L’expression générale de la dépendance ne peut se faire que par la loi jointe.

→ Si celle-ci n’est pas calculable: concept de copules

Comment modéliser un lien linéaire?

• Quel est le « meilleur » ajustement linéaire?

• Exemple : relation poids / taille

74706662

210

200

190

180

170

160

150

140

130

120

110

height

wei

ght w = -266.5 + 6.1 h

w = -331.2 + 7.1 h

Notation

iy est la ième observation de la variable exogène

ix est la ième observation de la variable endogènei

iy est la valeur ajustée (estimée) de la ième observation

équation de la meilleure droite d’ajustement: ii xbby 10ˆ +=

210

200

190

180

170

160

150

140

wei

ght

w = -266.5 + 6.1 h

1 64 121 126.3

ix iy iyi

74706662

130

120

height

1 64 121 126.32 73 181 181.53 71 156 169.24 69 162 157.05 66 142 138.56 69 157 157.07 75 208 193.88 71 169 169.29 63 127 120.110 72 165 175.4

Erreur de prévision

(ou erreur résiduelle)

En utilisantiy pour prédire ,

iyon fait une erreur de prévision:

yye ˆ−= iii yye ˆ−=

La droite d’ajustement qui colle le mieux aux données est celle pour laquelle les n erreurs de prévisions sont les plus petites possibles au sens d’un certain critère.

Critère des “Moindres Carrés”

Objectif : Choisir les valeurs b0 et b1 qui minimise la

Equation de la droite : ii xbby 10ˆ +=

Objectif : Choisir les valeurs b0 et b1 qui minimise la somme des carrés des erreurs.

i.e. : minimiser: ( )2

1

ˆ∑=

−=n

iii yyQ

La droite de régression

Par le calcul, minimiser (dériver, annuler et résoudre pour b0 et b1):

( )( )2

110∑

=

+−=n

iii xbbyQ

1=i

et obtenir les estimateurs des moindres carrés

ordinaires (MCO) de b0 et b1:

( )( )( )∑

∑

=

=

−

−−=

n

ii

n

iii

xx

yyxxb

1

2

11 xbyb 10

ˆˆ −=

170

180

190

200

210ht

weight = -266.534 + 6.13758 height

S = 8.64137 R-Sq = 89.7 % R-Sq(adj) = 88.4 %

Regression Plot

Résultat:

65 70 75

120

130

140

150

160

170

height

wei

gh

Remarques

En termes géométriques

• la droite de régression est celle qui minimise la distance quadratique entre les points et les projections orthogonales de ces points sur cette droite.de ces points sur cette droite.

• la droite de régression est celle qui minimise la variance du nuage de points projetés orthogonalement sur cette droite.

Formalisation

Hypothèses du modèle linéaire :

• H1 : E(Yi) fonction linéaire des xi (déterministes)

y = b + b x + εεεε , pour i=1,…,nyi = b0 + b1 xi + εεεεi , pour i=1,…,n

• H2 : Les erreurs, εεεεi, sont indépendantes entre elles

• H3 : E(εεεεi) = 0, les erreurs sont d’espérance nulle (en moyenne le modèle est bien spécifié)

• H4 : E(εεεε2i) = σ2 , les erreurs sont de variance égale

pour toute valeur de X

(hypothèse d’homoscédasticité)

• H5 : E(Xi εεεεi) = 0 , les erreurs sont indépendantes des valeurs de Xvaleurs de X

• H6 : Hypothèse de Normalité : les erreurs, εεεεi, sont identiquement distribuées selon la loi Normale.

Estimation des paramètres

Quels paramètres ? → b0 , b1 , σ2 →

estimés par MCO

210 ˆ,ˆ,ˆ σbb

10ˆ,ˆ bb

estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE)

2σ

La MSE est définie par :

( )2

ˆ

ˆ 1

2

2

−

−==∑

=

n

YYMSE

n

iii

σ

On pondère par le nombre de degrés de liberté du modèle défini par :

degrés de liberté = nbre d’observations - nbre de paramètres

Loi asymptotique des paramètres

Les estimateurs MCO sont sans biais et convergents

• On montre que :00)ˆ( bbE = 11)ˆ( bbE =

• On montre que :

Donc

∑=

−= n

ii Xx

bV

1

2

2

1

)(

ˆ)ˆ(

σ

∞→→ nsibV 0)ˆ( 1

Loi asymptotique des paramètres

• De même,

−+=∑

=

n

ii Xx

X

nbV

1

2

22

0

)(

1ˆ)ˆ( σ

=i 1

∞→→ nsibV 0)ˆ( 0

Remarques

• Dans ce cadre, sous l ’hypothèse de normalité des erreurs, estimateur MCO = estimateur EMV

• La variance estimée par le modèle est différente de la variance empirique (valable pour tout échantillon qui suit le modèle linéaire)modèle linéaire)

• La variance résiduelle mesure avec quelle amplitude les valeurs de Y s’écartent de la droite de régression.

– C ’est une mesure de la précision du modèle

– C ’est une mesure du risque associé au modèle

100

90

80tS = 4.76923 R-Sq = 96.1 % R-Sq(adj) = 95.5 %

fahrenheit = 34.1233 + 1.61538 celsius

Regression Plot

Exemple : la précision de ce thermomètre est-elle meilleure ou moins bonne que …..

40302010 0

80

70

60

50

40

30

Celsius

Fah

renh

eit

… celle de celui-ci?

100

eit

S = 21.7918 R-Sq = 70.6 % R-Sq(adj) = 66.4 %

fahrenheit = 17.0709 + 2.30583 celsius

Regression Plot

40302010 0

50

0

Celsius

Fah

renh

e

Remarques

• Quel est le but du jeu de toute tentative de modélisation d’une variable Y ?

→→→→ Minimiser la variance résiduelle

Y = partie déterministe + partie aléatoire

Y = f(X) + ε

Par indépendance, V(Y) = V(f(X)) + V(εεεε)

Validation du modèle

On valide le modèle à l’aide des tests statistiques.

2 types de tests d’hypothèses sont développés :

1) Tests sur les paramètres du modèle

2) Tests sur les résidus du modèle

(1-αααα) IC pour la pente

Formule “avec des mots” :

Paramètre estimé ± (t-multiplier × standard error)

1b

Formule en notations :

( ) ( )

−×±

∑−− 22,211

ˆˆ

Xxtb

i

n

σα

Test sur la pente

Null hypothesis H0: β1 = β (en général =0)

Alternative hypothesis H1: β1 ≠ β (en général ≠ 0)

( )11*

bbt

ββ −=

−=Test statistic

1b

( )( )1

2

*bse

xx

MSE

t

i

=

−

=

∑

Test statistic

P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α)

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté


Paramètre estimé ± (t-multiplier × standard error)

0b(1-αααα) IC pour la constante

Formule en notations:

( ) ( )∑ −+×±

−− 2

2

2,210

1ˆˆ

Xx

x

ntb

in

σα

Null hypothesis H0: β0 = β (en général = 0)

Alternative hypothesis HA: β0 ≠ β (en général ≠ 0)

00*bb

tββ −=−=

Test statistic

Test sur la constante 0b

P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α)

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté.

( )( )0

0

2

2

0

1*

bseb

xx

xn

MSE

bt

i

ββ −=

−+

−=

∑

Test statistic

Test sur le terme d’erreur

Les intervalles et les tests précédents sont basés sur la Normalité du terme d’erreur. Il importe donc de tester les résidus.

– Test d’adéquation (Jarque-Bera, KS, …)– Test d’adéquation (Jarque-Bera, KS, …)

– Test graphiques (QQ-Plot)

Les résultats restent valides en cas d’écart à la loi Normale si l’échantillon est grand (résultats asymptotiques).

> w.fit <- lm(weight ~ 1 + height)

> summary(w.fit)

Call: lm(formula = weight ~ 1 + height)Residuals:

Min 1Q Median 3Q Max -13.2 -4.08 -0.0963 4.64 14.2

Exemple : Poids / Taille

Coefficients:Value Std. Error t value Pr(>|t|)

(Intercept) -266.534 51.032 -5.223 0.001height 6.138 0.735 8.347 0.000

Residual standard error: 8.64 on 8 degrees of freedomMultiple R-Squared: 0.897

> resid(w.fit)1 2 3 4 5 6 7 8 9 10

-5.27 -0.509 -13.2 5.04 3.45 0.0413 14.2 -0.234 6.87 -10.4

180

200

Graphique : Poids observé vs. poids estimé

Fitted : 1 + height

wei

ght

120 140 160 180

120

140

160

Mesure de la qualité du modèle

On mesure la qualité du modèle par l’analyse de la variance

On montre les 2 relations suivantes :

• la somme des résidus est nulle, i.e. : ∑=

=n

iie

1

0

• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :

∑=i 1

∑ ∑= =

=n

i

n

iii yy

1 1

ˆ

∑∑∑ +−=−i

ii

ii

i eyyyy 222)ˆˆ()(

On en déduit l’équation de l’analyse de la variance:

Variance totale = Variance expliquée + Variance résiduelle

Objectif : Maximiser la variance expliquée

• R2 : mesure de la variance expliquée

• Le R2 est à valeur entre 0 et 1

∑=

−−= n

ii YY

R

1

2

22

)(

ˆ1

σ

• Le R2 est à valeur entre 0 et 1

• Critères d’information : Akaike (1971)

Prévision

Que veut-on prévoir?

• La réponse «moyenne» de la population = E(Yh) pour une valeur xh

– Ex : Quel est le poids moyen pour une taille donnée?– Ex : Quel est le poids moyen pour une taille donnée?

(Plus précis que le poids moyen de l’échantillon)

• La réponse Yh(new) à une nouvelle valeur donnée xh

– Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?

est le meilleur estimateur dans chaque cas.hh xbbY 10ˆ +=

En fait les 2 prévisions sont égales :

Seuls les intervalles de confiance autour des réponses vont varier.

22

18

e te

st s

core ( ) xxYEY 10 ββµ +==

54321

14

10

6

High school gpa

Co

llege

ent

ranc

e

( ) ii xY εββ ++= 10

Intervalle de confiance pour la réponse moyenne de la population

E(Y )E(Yh)


Sample estimate ± (t-multiplier × standard error)

(1-αααα) IC pour la réponse moyenne E(Yh)

Formule en notation:

( )( )

( )

−−+××±

∑−− 2

22

2,21

1ˆˆ

Xx

Xx

nty

i

hnh σα

Implications sur la précision

• Au plus les valeurs des xi sont étalées, au plus l’intervalle de confiance est petit,

donc l’estimation de E(Yh) est plus précise.h

• Suivant le même échantillon de xi, au plus la valeur de xh est loin de la moyenne empirique, au plus l’intervalle de confiance est grand,

donc l’estimation de E(Yh) est moins précise.

Remarques

• xh est une valeur correspondant au champ de l’étude mais pas nécessairement une valeur de l’échantillon

• L’IC pour E(Yh) est correct même si le terme d’erreur est seulement approché par une loi Normale

• Si le nombre d’observations est grand, l’IC pour E(Yh) est correct même si le terme d’erreur s’écarte fortement d’une loi Normale

> predict(w.fit, base2, type = "response", ci.fit = T, se.fit = T)$fit:

1 2 102 224

$se.fit:1 2

7.36 8.33

Exemple : Estimation du poids moyen pour 2 tailles données(60, proche de la moyenne, et 80, plus élevée que la moyenne)

$residual.scale:[1] 8.64

$df:[1] 8

$ci.fit:lower upper

1 84.7 1192 205.3 244attr(, "conf.level"):[1] 0.95

Intervalle de Prévision pour la réponse Yh(new) à une nouvelle

valeur xvaleur xh(new)

Prévision de Yh(new)

si la moyenne E(Y) est connue,i.e. : si les paramètres sont fixés

Hypothèse 252 =σ 5=σcàd

0.07

0.08

Prévision de Yh(new)

si la moyenne E(Y) est connue

47 52 57 62 67 72 77

0.00

0.01

0.02

0.03

0.04

0.05

0.06

Number of hours

Nor

mal

cur

ve

0.997

Prévision de Yh(new) si la moyenne E(Y) n’est pas connue

i.e. si les paramètres sont estimés

→ on rajoute une incertitude sur la moyenne de Y

La prévision est non biaisée

hh xbbY 10ˆˆˆ +=

hhh YYe −= ˆ

Propriété:

hh

hhh

hhh

xbbbb

xbbxbb

YYe

ε

ε

+−+−=

+−++=

−=

)ˆ()ˆ(

)ˆˆ(

1100

1010

0)( =⇒ heE

Variance de la prévision

Elle dépend de 2 composantes :

1. Variance due à l’estimation de E(Yh) par

2. Variance de Y inhérente à sa distribution

hy

( )( )

( )( )

−

−++=

−

−++∑∑

==

n

ii

hn

ii

h

xx

xx

nxx

xx

n

1

2

22

1

2

222 1

1ˆ1

ˆˆ σσσEstimation:

2. Variance de Y inhérente à sa distribution

Sample prediction ± (t-multiplier × standard error)

(1-αααα) IC pour la réponse Yh

( )( )

( )

−−++×±

∑−− 2

22

2,21

11ˆˆ

xx

xx

nty

i

hnh σα

250

alityS = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %

Mortality = 389.189 - 5.97764 Latitude

Regression Plot

504030

150

50

Latitude

Mo

rta

95% PI

95% CI

Regression

(statdes regression biv_ensta_21oct2010)

Economy & Finance