Download - III. Régression Multiple
III. Régression Multiple
EST Fès 2020
Outils Statistiques pour l’Analyse de risque
Rappel sur la Régression linéaire simple
Modèle Linéaire Simple
Le modèle simple
•X et Y deux variables continues.
•Les valeurs xi de X sont contrôlées et sans erreur demesure.
•On observe les valeurs correspondantes y1, …, yn deY.
Exemples
• X peut être la taille ou Y le poids.
Fonction linéaire :
Estimation des paramètres :
Yi = b + axi + in = nb d’observations; i =résidu de l’obs i
A. Ferreira
( )( )
( )
( )
n
i i
i=1
n2
i
i=1
x -x y -yCov x,y
a = = V(x)
x -x
b = y - ax
Problématique:
Les Données
Y = Variable à expliquer
• numérique
• (ou dépendante) X1 Xp Y
x11 x1p y1
Le tableau des données
X1, …, Xp = Variables explicatives
• numériques ou binaires
• (ou indépendantes)
yi
1.
.
i.
.
n
x1i xip
x1n xnp yn
où xij est la valeur observée de la variable Xi pour l’individu J.
A. Ferreira
Régression Multiple
Le modèle linéaire multiple
Y = 0 + 1 X 1 + … + p X p +
Supposition : indépendance linéaire des Xi.
pX 1 … . . X
Modèle sous forme matricielle
Y = X +
(n,1) (n,p+1) (p+1,1) (n,1)
Y X
YX
(n,p)
?
1
i
n
Ajustement du
modèle linéaire
Prévision
Prévision Linéaire
111
11
1
yi x ipx i 1 …=
0
1
p
i
Schématisation du modèle
Linéaire
A. Ferreira
Régression Multiple
Hypothèses du modèle linéaire
Résidus
•La variance des résidus est la même pour toutes les valeurs de X
•Homoscédasticité : V(εi) = ²
•Les résidus sont linéairement indépendants : cov(εi,εj) = 0 ∀ i ≠ j
•Les résidus sont normalement distribués : εi ~ N(0,²)
•Les variables explicatives ne sont pas parfaitement corrélées entres elles
non colinéarité des variables
A. Ferreira
Régression Multiple
Les problèmes
1. Estimation des coefficients de régression
0, 1,…, p.
2. Estimation de l’écart-type du terme résiduel i
3. Mesurer la force de la liaison entre Y et les variables X1,…,Xp
Coefficients de détermination (R2) et de détermination ajusté
5. La liaison globale entre Y et X1,…,Xp est-elle significative ?
6. L’apport marginal de chaque variable Xj (en plus des autres) à
l’explication de Y est-il significatif ?.
7. Comparaison de modèles.
8. Intervalle de prévision à 95% de y.
Régression Multiple
Estimation des coefficients de régression j
Notations :
- i = yi - = erreur
Méthode des moindres carrés Ordinaire :
On recherche minimisant:
y i
ˆ ˆ0 1 p, , … ,
Y. BAKAD
Valeur observée :
La valeur estimée:
Régression Multiple
Estimation des coefficients de régression
Les coefficients a0, …., ap-1 sont obtenus par la minimisation des moindres carrées :
n
iL = = T = (y − Xa)T (y − Xa)2
i=1
La solution est donnée par:
a = (XTX)−1XTy = CXTy
C = (XTX)−1est une matrice symétrique de taille ( p,p)
Les valeurs prédites par le modèle:
y = Xa = XCXT y = Hy
H = (XCXT)est une matrice symétriquequi vérifie H 2 = H
E(a ) = a
V (a ) = 2C
Propriétés statistiques de a :
Régression Multiple
Vecteur des résidus
Le vecteur des résidus du modèle :
e = y − y
e = (I − H)y
Propriétés orthogonales des résidus :
1T e = 0
y T e = 0
XT e = 0
Estimation de l’écart-type du terme résiduel :
=
n
ie2
n − p −1 i=1
1 2
2=
Régression Multiple
Sommes des carrés
Décomposition de la somme des carrés totale :
(y − y)2 = (yˆ − y)2 + e 2 i i i
Somme des
carrés totale
Somme des
carrés expliquée
Régression
Somme descarrés résiduelle
(erreurs)n
Valeur moyenne de la variable réponse y :nn
1T yy =y = i
i=1
1
Somme des Carrés Totale :
n
i
(1T y)2− y)2 = y Ty −SCT =(y
i=1
n
n
i
n
(1T y)2− y)2 = aXTy −Somme des Carrés Régression : SCR =(y
i=1
2n
ii− y ) = y Ty − aTXT ySomme des Carrés Erreurs : SCE =(y
i=1
Régression Multiple
Carrés Moyens
Somme des Carrés : SCT=SCR+SCE
Carré Moyen de la Régression :
Carré Moyen Résiduel (Erreurs) :
SCR = somme des carrés Régression
SCE = somme des carrés Erreurs
p = nombre de variables
n = nombre d’observations
Coefficient de détermination multiple R2 (0,1)
=SCR
= 1 −SCE
SCT SCTR2
Régression Multiple
Coefficient de détermination Ajusté Ra2 (0,1)
R2 augmente toujours avec l’addition de variables explicatives au modèle.
Comment comparer les R2 de deux modèles construits avec des nombres
d’observations et des variables différents ?
•Le R 2 permet de tenir compte du nombre d’observations et du nombre dea
variables explicatives.
•On modifie le coefficient R2 en tenant compte du nombre de degrés de liberté
•de la somme des carrés totale (n-1) et
•de la somme des carrés résiduelle (n-p-1)
a•Grâce au R 2 on peut comparer les pouvoir explicatifs de différents modèles.
SCT(
R2
a
n −1)
SCE (n − p)
=1−
A. Ferreira
Régression Multiple
Le Test d’hypothèse Globale
La liaison globale entre Y et les variables explicatives X1,…,Xp est-elle significative?
•Test d’hypothèse :
H 0 :j, a j =0
H1 : j, a j 0 au moins un coefficient différent non nul.
•Si l’hypothèse H0 est acceptée : la variable Y ne dépend pas du tout des
variables X1,…,Xp .
•l’hypothèse H0 est rejetée si :
CME
CMRF , p − 1, n − p1 − F
•Tableau ANOVA :
•Décision de rejeter H0 au risque de se tromper :
•Rejet de H0 si F F 1- (p-1, n-p)
Fractile d’une loi de Fisher-Snedecor
A. Ferreira
Régression Multiple
Les Tests d’hypothèse Marginaux
Lorsque le test global conduit au rejet de l’hypothèse nulle, il faut rechercher quels
significatifs (différent de zéro) :
•Test d’hypothèse :H 0 : a j = 0
H1 : a j 0
sont les coefficients de régression a j
0•l’hypothèse H est rejetée si :
.•cjj est l’élément diagonal de la matrice C correspondant à a j•Tableau ANOVA :
•Décision de rejeter H0 au risque de se tromper :
•Rejet de H0 si | tj | t 1-/2 (n-p)
Fractile d’une loi de Student
Exemple
Analyse de la rentabilité des Start up selon les dépenses relatives à la
Recherche et Développement, aux frais administratives et au Marketing.
Exemple
(Formulation )
Il s’agit d’élaborer un modèle de régression linéaire
multiple dont l’équation est la suivante:
Avec :
Y: le profit de la Start up
X1 : les dépenses en Recherche et développement
X2 : les dépenses administratives
X3 : les dépenses en Marketing
Coefficient de détermination et de détermination ajustée
Exemple(Résultats)
Analyse de la variance
Exemple(Résultats)
Analyses des coefficients
Exemple(Résultats)