regression simple

47
RÉGRESSION SIMPLE PRINCIPES, APPLICATIONS SOUS LE LANGAGE R Dr Mustapha Michrafy Dr Bernard Kouakou M. MICHRAFY & B. KOUAKOU [email protected]

Upload: learningmahout

Post on 20-Jan-2017

805 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Regression simple

RÉGRESSION SIMPLEPRINCIPES, APPLICATIONS SOUS LE LANGAGE R

Dr Mustapha Michrafy Dr Bernard Kouakou

M. MICHRAFY & B. KOUAKOU [email protected]

Page 2: Regression simple

Plan• Introduction• Régression simple• Estimation des paramètres• Validation du modèle• Intervalle de confiance• Commande R pour la régression simple• Formules mathématiques• Loi Student : Rappel

M. MICHRAFY & B. KOUAKOU [email protected]

Page 3: Regression simple

Prérequis• Connaissance de l’algèbre linéaire• Notions en optimisation mathématique• Connaissance de la statistique de test

M. MICHRAFY & B. KOUAKOU [email protected]

Page 4: Regression simple

Introduction 1• Qu’est-ce la régression ?

� La régression est un ensemble de méthodes statistiques servant à analyser la relation entre une variable Y et une (ou plusieurs autres) variable(s) X.

�Exemple : établir la relation entre la taille d’une personne (variable expliquée) et son poids (variable explicative).

• Qu’est-ce qu’un modèle de régression ?�C’est une équation visant à représenter la relation entre les variables X et Y : �Y = f(X) + �

• Qu’est-ce qu’une variable explicative ?�C’est la variable connue X utilisée pour prédire la variable Y.

• Qu’est qu’une variable expliquée ?�C’est la variable Y (inconnue) dont on veut déterminer (prédire) la valeur à

partir des valeurs de X

M. MICHRAFY & B. KOUAKOU [email protected]

Page 5: Regression simple

Introduction 2• Qu’est-ce que le résidu ?

�C’est la marge d’erreur ou d’imprécision du modèle ; (elle est désignée par � dans l’équation du modèle précédent).

• Qu’est-ce la régression linéaire ?�C’est d’abord un modèle de régression.�De plus, il est fait l'hypothèse que la fonction qui relie les variables

explicatives à la variable expliquée est linéaire dans ses paramètres.

�Exemple : Y = ��x + �� + �.

• Qu’est-ce que la régression linéaire simple.�C’est un modèle de régression où la relation entre la variable

expliquée Y et la variable explicative X est réduite à : Y = ��x + �� + �.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 6: Regression simple

Régression Simple• Vise à mettre en relation une variable Y à expliquer et une

variable explicative X.

• Pour chaque valeur x1, x2, …xn de X, on observe (prédit) les valeurs correspondantes y1, y2, …yn.

• On postule l’existence d’une relation E(Y) = ��x + ��.• Elle est équivalente, à : Y = ��x + �� + � avec E(�)=0.

• On cherche des estimateurs ��� et ��� de �� et �� .

M. MICHRAFY & B. KOUAKOU [email protected]

Page 7: Regression simple

Méthodes de calcul des estimateurs• Quelques méthodes pour calculer les estimateurs.

• La méthode des moindres carrés ordinaires, MCO :�Consiste à rechercher les paramètres a et b minimisant les

différences : ∑ � � ��� � ���� �����Elle sera utilisée dans la suite de ce document

• La méthode du Maximum de vraisemblance

• La méthode par inférence bayésienne

M. MICHRAFY & B. KOUAKOU [email protected]

Page 8: Regression simple

Méthode des moindres carrés Ordinaires (MCO)

Notation :

� � � ��� � ����la droite qui ajuste le nuage de points (���et ��� sont les estimateurs calculés).

�� � ∑ ���� , la moyenne des .

���� � ∑ � � � � , la somme des carrés résiduels

���� � ∑ �� � � � , la somme des carrés expliqués.

�SCT = ∑ � � � � , lasomme des carrés totaux :

M. MICHRAFY & B. KOUAKOU [email protected]

Page 9: Regression simple

MCO (Régression avec constante)Régression avec constante (�� et �� sont non nulls)

�SCT = SCE + SCR, i.e.

�∑ � � � � � ∑ �� � � �� ∑ � � � � .

• Interpretation des quantités:�SCR est la somme des carrés totaux. Elle traduit la variabilité totale de Y.�Permet de d’apprécier l'information disponible dans les données.

�SCE est la somme des carrés expliqués. Elle indique la variation de Y expliquée par X. on parle alors de Variabilité expliquée.

�SCR est somme des carrés résiduels. Elle indique l'écart entre les valeurs observées de Y et celles prédites par le modèle. On parle de variabilité non-expliquée.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 10: Regression simple

MCO (Régression avec constante)

• Meilleur des cas.

�SCR = 0 et donc SCT = SCE.�les variations de Y sont complètement expliquées par celles de X. �On a un modèle parfait.�La droite de régression passe exactement par tous les points du

nuage, puisque � � .

• Pire Cas.

�SCE= 0: �X n'apporte aucune information sur Y. Ainsi, � � �.�Ainsi, la meilleure prédiction de Y est sa propre moyenne.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 11: Regression simple

MCO (avec constante) Coefficient de détermination R

� Le coefficient !"est un indicateur de synthèse.

� Il est défini par �� � #$%#$& � 1 � #$(

#$&.

� Il indique la proportion de variance de Y expliquée par le modèle.

� Le coefficient R est compris entre 0 et 1

�Plus il sera proche de la valeur 1, meilleur sera le modèle.�Ainsi, la connaissance des valeurs de X permet de prédire avec

davantage de précision la valeur de Y.

���proche de 0 indique que X n'apporte pas d'informations utiles (intéressantes) sur Y ; la connaissance des valeurs de X ne nous dit rien sur celles de Y.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 12: Regression simple

MCO : Coefficient de corrélation linéaire multiple

� Il est noté R

� Il est défini par R � ��.

• Pour la régression simple (uniquement), on montre qu'il est égal (au signe près) au coefficient de corrélation *�+de Pearson : *�+�,-�. /� 0(.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 13: Regression simple

Hypothèses

• Ces hypothèses ont un impact sur les propriétés des estimateurs (biais, convergence) et l'inférence statistique (distribution des coefficients estimés).

• H1 : Hypothèses sur Y et X. �X et Y sont des grandeurs numériques mesurées sans erreur. �X est une donnée exogène supposée non aléatoire. �Y est aléatoire par l'intermédiaire de �.

• H2 : Hypothèses sur 1. �Les � sont indépendants et identiquement distribués.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 14: Regression simple

Hypothèses 2

• H2.1 E(�) = 0, en moyenne les erreurs s'annulent, donc le modèle est bien spécifié.

• H2.2 hypothèse d'homoscédasticité : �V (�) =23�() : la variance de l'erreur est constante (ne dépend pas

de l'observation). �La variance du bruit (erreur) ne doit dépendre ni des valeurs de la

variable à expliquer, ni des valeurs des variables explicatives

• H2.3 L'erreur est indépendante de la variable exogène, ainsi COV (�, �) = 0.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 15: Regression simple

Hypothèses 3

• H2.4 Indépendance des erreurs. �Les erreurs de 2 observations sont indépendantes :

COV(�, �4) = 0 ; donc "non auto-corrélation des erreurs".

�Le bruit doit être un «vrai» bruit (pas de structure de corrélation évidente)

• H2.5 Hypothèse de normalité : �≡N(0; 23). �Primordiale pour l'inférence statistique.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 16: Regression simple

Hypothèse pour la validation du modèle (rappel et synthèse)

• Le modèle de la régression linéaire simple suppose que :1. Modèle bien spécifié :

En moyenne les erreurs s’annulent i.e. 6 17 � 8, 7 � 9. . :2. Homoscédasticité :

La variance des erreurs est une constante i.e. ; 17 � <", 7 � 9 … :3. Indépendance des observations :

Les erreurs ne dépend pas du variable explicative. 7. >. ?@; A7, 17 � 8, 7 � 9 … :

4. Non auto-corrélation des erreursLes erreurs relatives à deux observations sont indépendantes

7. >. BCD EF, EF � 8, F, G � 9 … HIJF K G5. Normalité des erreurs

Les erreurs sont issues d’une loi gaussiennei.e. 17 ≡ L 8, <" , 7 � 9. . :

M. MICHRAFY & B. KOUAKOU [email protected]

Page 17: Regression simple

Hétéroscédasticité des erreurs • Dans ce cas, les erreurs dépendent du variable

explicative.

• Les conséquences sont : �Estimateur sans bais.�Estimateur n’est plus à variance minimale

• Les causes peuvent être :�Les moyennes des observations sont obtenues à partir de

différents échantillons.� L’association de la même valeur de la variable à expliquer aux

différentes valeurs de la variable explicative.� Certaines valeurs de la variable explicative sont entachées

d’erreur.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 18: Regression simple

Auto-corrélation des erreurs• Les conséquences sont :

�Estimateur sans bais.�Estimateur n’est plus à variance minimale.

• Les causes d’auto-corrélation peuvent être :�Absence d’une variable explicative importante. �Modèle linéaire n’est pas adapté.�Lissage par moyenne mobile ou par interpolation.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 19: Regression simple

Hypothèse Homoscédasticité

• Pour vérifier l’hypothèse d’homoscédasticité, on peut tracer le graphe � , � MN OP , � .

• 3 cas possibles �La variance se comporte comme un vrai bruit : hypothèse vérifiée .

�La variance augmente en fonction de � ou OP : hypothèse non vérifiée.�Une structure ”particulière” du nuage de points du graphe des résidus :

hypothèse non vérifiée.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 20: Regression simple

Hypothèse de normalité

• Pour tester la normalité des résidus, on peut utiliser :

� Un histogramme.

� Un graphique de probabilité normal des résidus.

� Un test de normalité (Shapiro-Wilk, Anderson-Darling, Kolmogorov-Smirnov) dans le cas ou le nombre d’observations est assez important.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 21: Regression simple

Hypothèse de Non auto-corrélation

• On peut tester la non auto-corrélation des résidus en:

�Traçant le graphique des résidus, la présence d’une structure particulière ou une courbe montre que les résidus contiennent des informations du modèle i.e. le modèle est inapproprié.

� Réalisant le test non paramétrique de Durbin-Watson

M. MICHRAFY & B. KOUAKOU [email protected]

Page 22: Regression simple

Évaluation des estimateurs.• 2 propriétés importantes lors l'évaluation d'un estimateur

QP.�L’estimateur est-il sans biais, c.-à-d. en moyenne,

obtenons-nous la vraie valeur du paramètre ?�� QP � Q?

�L’estimateur est-il convergent, c.-à-d. à mesure que la taille de l'échantillon augmente, l'estimation devient-elle de plus en plus précise ?

M. MICHRAFY & B. KOUAKOU [email protected]

Page 23: Regression simple

Évaluation des estimateursBiais de ���et ���.

Pour la méthode MCO,���et��� sont sans biais, si et seulement si :

�1. (H1) L'exogène X n'est pas stochastique (X est non aléatoire) ;

�2. (H2.1) ��� = 0, l'espérance de l'erreur est nulle.

Ainsi sous ces hypothèses, nous avons : ����� � ��et ����� � ��.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 24: Regression simple

Évaluation des estimateursConvergence.

�L'estimation devient-elle de plus en plus précise quand la taille de l’échantillon augmente ?

• 1. Un estimateur QP sans biais de Q est convergent si et seulement si S�QP �→U 0.

�S ��� � ����� � �� �.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 25: Regression simple

Évaluation des estimateursConvergence : Rappel des hypothèses.

� H2.2, (homoscédasticité) : la variance de l’erreur est constante, i.e. � �� � S W � 23 �

� H2.4 (non autocorrélation des erreurs) : �XS ��4 � � ��4 � 0.

• Sous les hypthèses H2.2 et H2.4 :

� S��� � � YZ[∑ �+�\+̅ [�

et S��� � � 23�^�� � +̅

∑ +�\+̅ [�

_

� Consequence :

���� est un estimateur convergent de a, puisque S����) tend vers l’infini pour des échantillons de grande taille.

���� est un estimateur convergent de ��.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 26: Regression simple

Évaluation des estimateursBilan des formules de la variance:

• Une faible variance de l'erreur implique que la régression est de bonne qualité.

• Une forte dispersion des X implique que les points recouvrent bien l'espace de représentation.

• Le nombre d'observations n est élevé.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 27: Regression simple

Commande R : analyse du modèle• model <- lm(formula=y~x) data=donnee.csv) :

établir un modèle de régression linéaire simple, x est le prédicteur et y est la variable à expliquer.

• Names(model)

[1] "coefficients" "residuals" "effects" "rank“[5] "fitted.values" "assign" "qr" "df.residual" [9] "xlevels" "call" "terms" "model"

• model$coef : le vecteur �̀���, �� • model$res : le vecteur résidus� � O � OP• model$fitted : le vecteur estimé OP• model$df.residual : le nombre des dll des résidus

M. MICHRAFY & B. KOUAKOU [email protected]

Page 28: Regression simple

Test de significativité• Objectif: • Répondre à la question :

�La régression est-elle globalement significative ? �Ou encore la variable X emmène-t-elle significativement de

l'information sur Y , permettant de construire une relation linéaire réelle dans la population?

M. MICHRAFY & B. KOUAKOU [email protected]

Page 29: Regression simple

Test de significativité (1)• ANOVA (Analysis Of Variance).

�comparer (analyser) les variances, pour tester la significativité statistique entre des moyennes.

F = a?!a?6:b"

désigne l’équivalent du F-ratio de l’ANOVA.

�F = c"�9

9c"�:b"

:b"� d�9, : � " , sous l’hypothèse H0. F suit donc une loi

de Fisher.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 30: Regression simple

Test de significativité (2)• Région critique, R.C, du test

�RC est La règle de décision au risque e.�RC correspond au rejet de H0.

� RC au risque e est définie pour les valeurs anormalement élevées de F, i.e. R.C. : f g h9\e�9, : � "

• Soit ij la p-value, i.e. la probabilité que la loi de Fisher dépasse la statistique calculée F ; ij est aussi appelée probabilité critique.

� Alors, la règle de décision au risque e devient : R.C. : ij k i

M. MICHRAFY & B. KOUAKOU [email protected]

Page 31: Regression simple

Intervalle de confiance : intérêt• L'intervalle de confiance permet d'encadrer un indicateur (

moyenne, variance, etc.) avec une probabilité associée.

• On dit que l’intervalle de confiance I est associé à l’indicateur rho avec une probabilité alpha si : �(1 - alpha)% des indicateurs rho calculés sont contenu dans

l’intervalle de confiance I� alpha% des indicateurs rho calculés à travers les expériences

réalisées ne se trouvent pas dans l’intervalle de confiance I.

• Réduire le risque -diminuer la valeur de alpha- ne fait que augmenter l'amplitude de l intervalle de confiance.

• Un compromis entre la qualité de l’intervalle et le niveau de risque consiste à prendre alpha = 0.05

M. MICHRAFY & B. KOUAKOU [email protected]

Page 32: Regression simple

Intervalle de confiance : résultats (1)

• Resultat 1 : la statistiquel8� \l8

a?6!:b" 9

:mn�"an

suit une loi de

Student à n - 2 degrés de liberté.

• Resultat 2 : la statistique l9� \l9

a?6! :b" ano suit une loi de

Student à n – 2 degrés de liberté.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 33: Regression simple

Intervalle de confiance : resultats(2) • Résultat 3 : un intervalle de confiance de �4pMN*q � 1,2

est donné par :�4 � s �\� �\t �o Yuvw

�4 � s �\� �\t �o YuvwOù s �\� �\x [⁄ Yuvw

désigne la fractile de niveau 1 � t �⁄ du loi de Student s�\� ( à n – 2 degrés de liberté)

Avec

• 2�z{� � 2�� ∑ |�[

� ∑ |�\|� [

• 2�z[� � Yu[

∑ |�\|� [

M. MICHRAFY & B. KOUAKOU [email protected]

Page 34: Regression simple

Formules mathématiques (1)} Nombre d’observationsp Nombre de variables

~� ∑ ~��� }o�|� ��~O � ~�O �� �|�

�||�� O� � ��~�OP �̀� � �̀�~� OP � O

M. MICHRAFY & B. KOUAKOU [email protected]

Page 35: Regression simple

Formules mathématiques (2)���( ��O � O� �

���� ��OP � O� � � �|���||

���� ���( � ������ ����

������/4�,�é 1 � } � 1

} � p��

���, } � p � 1p ����

���(

M. MICHRAFY & B. KOUAKOU [email protected]

Page 36: Regression simple

Formules mathématiques (3)��( ���( po

��� ���� } � p � 1o

2�z{�

2�� ∑ ~�

} ∑ ~ � ~� �

2�z[� 2��

∑ ~ � ~� �

�� �4 q � 1,2

�4 � s �\� �\t �o Yuvw�4 � s �\� �\t �o Yuvw

M. MICHRAFY & B. KOUAKOU [email protected]

Page 37: Regression simple

Commande R : analyse de la variance

• anVar <- anova(model) Donne l’analyse de la variance

• names(anVar) :[1] "Df" "Sum Sq" "Mean Sq" "F value" "Pr(>F)"

• anVar$Df : vecteur de dll • anVar$ "Sum Sq" : vecteur ���, ��(• anVar$”F value” : donne ���,• anvar$"Pr(>F)" : donne la probabilité critique (p-value)

M. MICHRAFY & B. KOUAKOU [email protected]

Page 38: Regression simple

Commande R : Vérification des hypothèses• rstudent(model) : résidus studentarisée• acf(model) : graphe d’autocorrelation des résidus• qqnorm(model$res) : normal Q-Q plot• plot(model$fitted,rstudent(model)) : graphe pour

identifier les points qui sont hors l’intervalle [-2,2]• hist(resid(model)) : histogramme des résidus

M. MICHRAFY & B. KOUAKOU [email protected]

Page 39: Regression simple

Modèle de la régression simple

�̀

���,

��

��/4�,�é

���*s � sp�� O � OP �

dll

Statistique de test

Probabilité critique

M. MICHRAFY & B. KOUAKOU [email protected]

Page 40: Regression simple

Analyse de la variance

dll Vecteur ���, ��( ���, Probabilité critique

M. MICHRAFY & B. KOUAKOU [email protected]

Page 41: Regression simple

Loi t student t : définition • Soit la variable t définie par :

s � �� �o

avec Z une variable aléatoire de loi normal, centrée et réduite

U une variable indépendant de Z de loi n"à k degré de liberté (ddl)

Par définition on dit que la variable t suit une loi de Student à k degrés de liberté (dll).

Sa densité est : �� � � ��� ����{

[ ���

[ �1 � +[� \��{

[ pMN*� g0Ou � est la fonction Gamme d’Euler

M. MICHRAFY & B. KOUAKOU [email protected]

Page 42: Regression simple

Loi student t : propriétés• La densité �� -associée à t est :

� symétrique ( �� � � ����� �son espérance est égale à 0 pour k > 1 et non définit pour k = 1�Sa variance est égale k/k-1 pour k > 2 et infinie pour k =1 et non

définie pour k=1

Résultat : pour k dll assez grand, la loi de Student converge vers la loi normale.

M. MICHRAFY & B. KOUAKOU [email protected]

Page 43: Regression simple

Loi student t : cumul et densité

M. MICHRAFY & B. KOUAKOU [email protected]

Page 44: Regression simple

Loi student t : applications• Conformité d'une moyenne sur un petit échantillon ( n <

30)• Test de comparaison de moyennes de 2 petits

échantillons ( n < 30)• Évaluation de la qualité de coefficients de régression

linéaire simple ou multiple

M. MICHRAFY & B. KOUAKOU [email protected]

Page 45: Regression simple

Loi student t : commandes R• dt(x, df, ncp, log = FALSE) • pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE) • qt(p, df, ncp, lower.tail = TRUE, log.p = FALSE) • rt(n, df, ncp)

M. MICHRAFY & B. KOUAKOU [email protected]

Page 46: Regression simple

Les auteurs

• Mustapha. MICHRAFY

• Bull/Fastconnect

• Bernard KOUAKOU

• CGI inc.

M. MICHRAFY & B. KOUAKOU [email protected]

Contact des auteurs : [email protected]

Page 47: Regression simple

Références

• Data Mining et statistique décisionnelle, Stéphane TUFFÉRY

• Econométrie, la régression linéaire simple et multiple, Ricco Rakotomalala, http://eric.univ$lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf

• Statistiques avec R, Pierre$André Cornillon, François Husson, Nicolas Jégou, Eric Matzner$Lober

•Décision et prévision statistique, Thierry Verdel et al., Groupe des écoles de mine, http://tice.inpl$nancy.fr/modules/unit$stat/

• http://www.statsoft.fr/concepts$statistiques/anova$manova/anova$manova.htm#.VcYDqflRqy1

• https://leanpub.com/LittleInferenceBook/read

M. MICHRAFY & B. KOUAKOU [email protected]