modèle de régression linéaire multivarié · 2017-01-15 · exemple: consommation mondiale du...
TRANSCRIPT
Modèle de régression linéaire
multivarié
Laurent Ferrara
Février 2017
U. Paris Ouest L. Ferrara, 2016-17
U. Paris Ouest,
M1 - Cours de Modélisation Appliquée
Exemple: Consommation mondiale du pétrole
U. Paris Ouest L. Ferrara, 2016-17
Forecast
0
20
40
60
80
100
120
140
80
82
84
86
88
90
92
94
2009-Q1 2010-Q1 2011-Q1 2012-Q1 2013-Q1 2014-Q1
World Liquid Fuels Supply and Demand Balancemillion barrels per day
World supply (left axis)
World demand (left axis)
Brent
BMPE Dec. 2012
OECD - EO Nov. 2012
EIA - Feb. 2013
IMF-WEO update, Jan. 2013
Source: Short-Term Energy Outlook, February 2013
Exemple: Consommation mondiale du pétrole
Expliquer la conso mondiale de pétrole C(t) (en logs) par :
P(t): Prix du pétrole (en logs)
PIB(t) : Demande de pétrole (en logs)
à l’aide du modèle suivant :
b0
b1 = élasticité-prix
b2 = élasticité-revenu
)()()()( 210 ttPIBbtPbbtC
U. Paris Ouest L. Ferrara, 2016-17
Analyse des données Distributions, lien linéaire,...
Modèle de régression linéaire
Estimation des paramètres du modèle
Validation du modèle
Utilisation du modèle en prévision
Schéma de mise en
œuvre d’une
modélisation linéaire
Choix des variables
MCO, MLE
Tests d’hypothèses,
Analyse de la variance
Points et IC U. Paris Ouest L. Ferrara, 2016-17
Soit p+1 variables continues Y et X1, …, Xp, . On observe les
unités expérimentales : pour i = 1, …, n.
Le modèle linéaire s’écrit sous forme matricielle:
Y = X b +
avec
),...,,( 1 p
iii xxy
)1(),...,( 1 nyyY t
n
)11(),...,,( 10 pbbbb t
p
)1(),...,( 1 nt
n
Modèle linéaire multivarié
U. Paris Ouest L. Ferrara, 2016-17
et :
))1((
......1
...
......1
...
......1
1
1
11
1
1
pn
xxx
xxx
xxx
X
p
n
k
nn
p
i
k
ii
pk
U. Paris Ouest L. Ferrara, 2016-17
Hypothèses du modèle linéaire :
• H1 : E(Y) fonction linéaire des X1, …, Xp .
• H2 : Les erreurs, i, sont indépendantes entre elles
• H3 : E(i) = 0, les erreurs sont d’espérance nulle
(en moyenne le modèle est bien spécifié)
U. Paris Ouest L. Ferrara, 2016-17
• H4 : E(2i) = 2 , les erreurs sont de variance égale
pour toute valeur de X
(hypothèse d ’homoscédasticité)
• H5 : E(Xi i) = 0 , les erreurs,sont indépendantes des valeurs de X
• H6 : Hypothèse de Normalité
Les erreurs, i, sont identiquement distribuées selon la loi Normale.
U. Paris Ouest L. Ferrara, 2016-17
Hypothèses supplémentaires structurelles
• H7 : Absence de colinéarité entre les X1, …, Xp .
• H8 : (X’X) / n tend vers une matrice finie non singulière lorsque n tend vers l ’infini
• H9 : n > p+1
U. Paris Ouest L. Ferrara, 2016-17
Estimation des paramètres
• Objectif : estimer le vecteur b
• Par les MCO, on minimise la forme quadratique :
)()()(
1
2 bXYbXYbQ tn
i
i
022)(
XbXYX
b
bQ tt
U. Paris Ouest L. Ferrara, 2016-17
Et :
Solution réalisable si la matrice carrée XtX est inversible !!!
des hypothèses sont nécessaires
En cas de colinéarité parfaite entre 2 variables explicatives,
cette matrice est singulière et la méthode des MCO est
défaillante.
YXXXb tt 1)(ˆ
U. Paris Ouest L. Ferrara, 2016-17
Le modèle estimé s’écrit donc :
Soit :
ie:
Remarque :
Il faut distinguer l’erreur inobservable du modèle () et le
résidu (e) qui lui est estimé
p
ipii xbxbby ˆ...ˆˆˆ 1
10
U. Paris Ouest L. Ferrara, 2016-17
YXXXXbXY tt 1)(ˆˆ
HYY ˆ
L’erreur de prévision (ou résidu) est donnée par :
Soit :
Remarques :
R1 : Il faut distinguer l’erreur inobservable du modèle () et
le résidu (e) qui lui est estimé
R2: En termes géométriques, le vecteur (e) est la projection
orthogonale sur le sous-espace vectoriel Vect(X)
iii yye ˆ
U. Paris Ouest L. Ferrara, 2016-17
YHIe )(
Interprétation géométrique
Propriétés des estimateurs
• L ’estimateur est le meilleur estimateur non-biaisé de b
au sens où sa variance est la plus faible possible et
• On mq :
• Un ESB de la variance résiduelle est donné par :
b
12 )()ˆ( XXbV t
1
2 1
2
ˆ
pn
en
ii
U. Paris Ouest L. Ferrara, 2016-17
Propriétés des estimateurs
• Sous l’hypothèse de Normalité, l’ EMV coïncide avec le
l’estimateur MCO mais est un estimateur efficace;
ie: sa matrice des variances-covariances atteint la borne
de Cramer –Rao
• L’estimateur de la variance résiduelle suit une loi :
U. Paris Ouest L. Ferrara, 2016-17
1
)1(ˆ
222
pn
pnChi
Validation: Somme des carrés
• SSE = Sum of squared errors
• SST = Total sum of squares
• SSR = Regression sum of squares
SST = SSR+SSE
U. Paris Ouest L. Ferrara, 2016-17
2
YYSSE
221 ynYYyYSST t
222
ˆˆ1ˆ ynYXbynYYyYSSR ttt
Validation: Coefficient de détermination
• Le coefficient de détermination est la part de variation de Y
expliquée par le modèle, ie : il doit être le plus proche de 1
• Attention: on remarque que l’ajout de variables explicatives
augmente automatiquement ce coefficient
U. Paris Ouest L. Ferrara, 2016-17
SST
SSE
SST
SSRR 12
Validation: Coefficient de détermination ajusté
• On pondère par le nombre de paramètres à estimer.
U. Paris Ouest L. Ferrara, 2016-17
)1/(
)1/(12
nSST
pnSSERAdj
Validation: Tests sur les paramètres
• On montre que la statistique T suit une loi de
Student à (n-p-1) ddl:
• On utilise T pour tester H0:
• Un intervalle de confiance à (1-α) est donné par:
U. Paris Ouest L. Ferrara, 2016-17
jb
jj bbT
ˆ
0jb
jbpnj tb )1(,2/
Racine du jième
terme diagonal de
la matrice de
variance-cov des
paramètres
estimés
Validation: Tests du modèle global
• On peut tester globalement l’hypothèse nulle:
• On utilise la statistique:
qui suit une loi de Fischer à (p, n-p-1) ddl
U. Paris Ouest L. Ferrara, 2016-17
)1/(
/
pnSSE
pSSRF
0...:0 21 pbbbH
Validation: Tests d’un modèle réduit
• On peut tester l’hypothèse nulle d’un modèle réduit à
q<p variables explicatives:
• Sous H0, on utilise la statistique:
qui suit une loi de Fischer à (q, n-p-1) ddl.
• L’ajout des (p-q) variables explicatives est justifié si
(SSEq- SSEp) est « suffisamment grand ».
U. Paris Ouest L. Ferrara, 2016-17
)1/(
/)(
pnSSE
qSSESSEF
p
pq
0...:0 21 qbbbH
Prévision
• Soit une nouvelle observation:
• Prédicteur :
• IC pour Y:
• IC pour E(Y):
U. Paris Ouest L. Ferrara, 2016-17
tpxxX ),...,( 0
1
00
p
p xbxbby 0
1
0100ˆ...ˆˆˆ
2/1
0
1
0)1(,2/0 ))(1(ˆ vXXvty tt
pn
2/1
0
1
0)1(,2/0 ))((ˆ vXXvty tt
pn
),...,,1( 0
1
00
pxxv
Effet croisé:
Effet non-linéaire:
iiiiii xxxbxbby 212
2
1
10
U. Paris Ouest L. Ferrara, 2016-17
iiiii zbzbzbby 3
3
2
210
Extensions
Exemple: IMF Working Paper, « Walking Hand in Hand: Fiscal Policy and Growth in Advanced
Economies » by Cotarelli and Jaramillo (2012)
Problème de politique économique:
La consolidation fiscale et budgétaire dans les pays avancés après la
récession 2008-09 pèse sur la croissance de court terme mais semble
nécessaire pour favoriser la croissance à long terme via une baisse de la
dette publique et une baisse des taux longs souverains (spreads = écarts
de taux).
Equation de relation entre dette / taux longs / croissance :
But du modèle linéaire: Rechercher les déterminants des spreads
U. Paris Ouest L. Ferrara, 2016-17
tt
t
ttttt pd
g
grdd
11
1
Exemple: IMF Working Paper,
« Walking Hand in Hand: Fiscal Policy and
Growth in Advanced Economies » by Cotarelli and Jaramillo (2012)
U. Paris Ouest L. Ferrara, 2016-17
U. Paris Ouest L. Ferrara, 2016-17
Exemple: IMF Working Paper,
« Walking Hand in Hand: Fiscal Policy and
Growth in Advanced Economies » by Cotarelli and Jaramillo (2012)