opération et systèmes de décision faculté des sciences de ladministration mqt-21919...
TRANSCRIPT
Opération et systèmes de décisionFaculté des Sciences de l’Administration
MQT-21919 Probabilités et statistique
Analyse de la régressionChapitre 12
LecturesLectures
Volume du cours: Sections 12.1 à 12.6 inclusivement
Volume recommandé: Statistique en Gestion et en économie: sections 8.1 et 8.2
Mise en contexteMise en contexte
En statistiques, plusieurs problèmes consistent à définir la relation qui existe entre deux variables statistiques :
– Le nombre d’années d’expérience et le nombre d’erreurs commises ;
– L’âge du conducteur et le nombre d’accidents d’auto ;
– Le volume des ventes et les dépenses en publicité ;
– Le nombre d’heures d’études et les résultats aux examens ;
– …
Mise en contexteMise en contexte
Dans ce genre de problèmes, les principales questions auxquelles nous voudrons répondre sont les suivantes :
– Existe-il une relation ou une dépendance entre les variables statistiques?
– Cette relation, si elle existe, est-elle linéaire ou non ?
– Si une dépendance linéaire existe, de quelle façon peut-on la traduire par une équation mathématique ?
– La relation, si elle existe, est-elle grande ou faible ?
– Si l’équation mathématique de la relation entre les variables existe, comment prévoir les valeurs d’une certaine variable à partir de la connaissance de valeurs de l’autre variable ou des autres variables ?
Mise en contexteMise en contexte
Pour répondre à toutes ces questions, nous ferons appel à une théorie statistique que nous appelons :
L’analyse de la régression
L’analyse de la régressionL’analyse de la régression
L’analyse de la régression est une méthode statistique qui permet d’étudier le type de relation pouvant exister entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou plusieurs autres variables qui servent à cette explication (variables indépendantes)– Régression linéaire simple: une variable indépendante
En d’autres termes, l’analyse de la régression permet d’étudier les variations de la variable dépendante en fonction des variations connues des variables indépendantes.
L’analyse de la régressionL’analyse de la régression
Le coût du loyer en fonction du nombre de pièces, du niveau d’étage dans l’immeuble, des services offerts ...
),...,,,( 321 nXXXXfY
Coût du loyer Nombre de pièces
Services offerts(piscine, stationnement intérieur, etc.)
L’étage dans l’immeuble …
L’analyse de la régressionL’analyse de la régression
Une analyse de régression est :
– dite simple si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par une autre variable dite indépendante (explicative (X)).
– dite multiple si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par plusieurs autres variables dites indépendantes (explicatives (Xi)).
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
C’est la représentation graphique dans le plan cartésien de l’ensemble des paires de données (xi,yi). Ces données proviennent d’une série statistique de deux variables obtenues à partir d’une étude menée sur un échantillon ou sur une population.
Définition : Nuage de points ou diagramme de dispersion
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Exemple : Nuage de points ou diagramme de dispersion
Supposons que le nombre d’heures d’études nécessaires pour préparer l’examen final en statistiques et le nombre de bonnes réponses obtenues par chaque étudiant sont donnés dans le tableau suivant :
Tracer le nuage de points ou le diagramme de dispersion des données présentées ci-dessus.
Exemple : Nuage de points ou diagramme de dispersion …
Diagramme de dispersion
Heures d'études
0
123
4567
89
10
0 2 4 6 8 10
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Objectif d’une analyse de régression simple
Une fois la représentation graphique effectuée, il est facile de soupçonner l’existence d’une certaine relation entre les deux variables (caractères étudiés). Il faut maintenant chercher à exprimer cette relation à l’aide d’une équation mathématique.
)(XfY
On essaie de trouver la forme mathématique de la fonction f
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Objectif d’une analyse de régression simple
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Diagramme de dispersion
Heures d'études
0
123
4567
89
10
0 2 4 6 8 10
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Définition : Nous appelons régression linéaire l’ajustement d’une droite au nuage statistique d’une série de couples de données.
Ainsi, une régression linéaire simple va permettre de résumer, d’interpréter et de prévoir les variations d’un caractère dit dépendant (Y) en fonction d’un autre dit indépendant (X) et ce en utilisant une droite.
Modèle de régression linéaire simpleModèle de régression linéaire simple
Modèle de régression linéaire simple
y = 0 + 1x + Équation de la régression linéaire simple (comment
l'espérance de y est liée à x)
E(y) = 0 + 1x Équation estimée de la régression linéaire simple
(droite de la régression estimée, modèle empirique)
y = Variable dépendante ou expliquée = valeur estimée de y pour une valeur x
x = Variable indépendante ou explicative
0 et 1= Coefficients théoriques de régression (à estimer à l’aide d’un échantillon) par b0 et b1
= Erreur théorique aléatoire (d’autres facteurs influencent Y)
0 1y b b x
y
Modèle de régression linéaire simpleModèle de régression linéaire simple
L'équation estimée de la régression linéaire simple (droite de la régression estimée, modèle empirique) peut être utilisée pour une estimation ponctuelle de la valeur moyenne de y pour une valeur particulière de x ou pour prévoir la valeur ponctuelle de y associée à une valeur particulière de x
y = Variable dépendante ou expliquée = valeur de prévision de y pour une valeur x, ou moyenne de y estimée pour une valeur de x
x = Variable indépendante ou explicative
0 1y b b x
y
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Les différentes étapes d’une étude de régression
Il existe plusieurs méthodes permettant d’estimer le modèle théorique
par le modèle empirique
Méthode des moindres carrés
Méthode de la vraisemblance
…
0 1 y x
0 1 y b b x
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
La méthode des moindres carrésLa méthode des moindres carrés
Critère des moindres carrés
où:
yi = valeur observée de la variable dépendante pour
pour la ième observation
= valeur estimée de la variable dépendante pour la ième observation
2ˆmin ( )i iy y 2ˆmin ( )i iy y
ˆiyiy
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
La méthode des moindres carrés
Idée de base : cette méthode essaie de construire une droite de régression empirique qui minimise la somme des carrés des distances verticales entre cette droite et chacun des points observés.
La méthode des moindres carrés …
),( ii yx
)ˆ,( ii yx
Illustration graphique
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
La méthode des moindres carrés …
Définition : On appelle résidu ou erreur empirique ou écart de prévision, la valeur , soit la différence (l’écart vertical) entre la valeur observée yi de Y et la valeur estimée obtenue à partir de la droite de régression, lorsque x= xi.
ˆei i iy y
iy
L’objectif de la méthode des moindres carrés est de
déterminer la droite de régression qui minimise2
1
n
ii
e
La méthode des moindres carrés …
2 2 2 2 21 2 3
1
2
1
2
0 11
n
... n ii
n
i ii
n
i ii
SCres e e e e e
ˆSCres y y
SCres y b b x
Cette mesure donne l’ordre de grandeur de la dispersion des observations Yi autour de la droite de régression
Il s’agit de trouver bo et b1 de sorte que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Principes de la méthode des moindres carrés …
Comment calculer les coefficients b0 et b1? Les estimations ponctuelles des paramètres de la droite de régression obtenues par la méthode des moindres carrés sont :
n
ii
n
iii
xnx
yxnyx
b
xbyb
1
22
11
10
Taille de l’échantillon
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
1 2i i
i
( x x )( y y )b
( x x )
Autre formule pour b1
À partir des données ci-dessous, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés :
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
11 2
2 2
1
6670 5 30 400 67
5500 5 30,
( )
n
i ii
n
ii
x y nxyb
x nx
0 1 40 0 67 30 19 9, ,b y b x
19 9 0 67ˆ , ,y x
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Remarque Importante
La droite de régression déterminée à l’aide de la méthode des moindres carrés donne la plus faible somme de carrés résiduels
parmi toutes les autres droites que l’on pourrait ajuster à cet ensemble d’observations.
2ie
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Une entreprise veut mener une étude sur la relation entre les dépenses hebdomadaires en publicité et le volume de ventes qu’elle réalise. On a recueilli au cours des dix dernières semaines les données suivantes :
À partir des données ci-dessus, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés.
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
À partir de ces données, il est possible de tracer le diagramme de dispersion suivant :
Diagramme de dispersion
Coût publicitaire en millions de dollars (X)
0
10
20
30
40
50
60
0 1 2 3 4 5 6
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Les résultats intermédiaires suivants servent à calculer les estimations ponctuelles des paramètres de la droite de régression :
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
En appliquant les formules ci-dessous, nous obtenons les valeurs numériques de b0 et b1
11 2
2 2
1
1605 10 3 3 46 353 95
128 10 3 3
, ,,
( , )
n
i ii
n
ii
x y nxyb
x nx
0 1 46 35 3 95 3 3 33 31, , , ,b y b x
33 31 3 95ˆ , ,y x
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
33 31 3 95ˆ , ,y x Dépenses en publicité
C’est l’augmentation du volume des ventes (Y) pour une augmentationunitaire du coût en publicité (X)
Ordonnée à l’origine(volume de vente moyen sans dépenser un sous enpublicité)
La droite de régression qui permet de déterminerle volume moyen des ventes pour un coût publicitaire donné x.
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Interprétation des résultats et remarques…
Rq1 : le point de cordonnées se trouve sur la droite de régression.
Rq2 : cette relation linéaire entre X et Y est valide pour l’intervalle des valeurs de X considérée dans l’énoncé, c’est-à-dire de 1 à 5,5.
La droite de régression s’applique à l’intérieur de l’étendue des valeurs expérimentales qui ont été observées pour la variable explicative (X). On devra donc éviter toute extrapolation en dehors de ce domaine à moins d’être certain que le phénomène se comporte de façon identique.
),( yx
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Rq3 : Pour la valeur x = 3,5 (située entre 1 et 5,5), on peut utiliser la droite de régression pour calculer la valeur moyenne correspondante de Y
Exemple : Estimation du volume des ventes moyen pour un coût de 3,5 millions de dollars en publicité hebdomadaire.
= 33,31 + 3,95 (3,5) = 47,14 millions de dollarsy
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
La pente de l’équation de la régression empirique (estimée)
ou
L’ordonnée à l’origine de l’équation de la régression empirique (estimée):
où:
xi = valeur de la variable indépendante pour la ième observation
yi = valeur de la variable dépendante pour la ième observation
= valeur moyenne de la variable dépendante
= valeur moyenne de la variable indépendante observée
n = nombre total d’observations
La méthode des moindres carrés - RésuméLa méthode des moindres carrés - Résumé
1 2
2
i
i ii i
i
x yx y nb
xx n
0 1 b y b x
x
y
1 2
i i
i
( x x )( y y )b
( x x )
Il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y:
– Le coefficient de détermination de Y en fonction de X– Le coefficient de corrélation entre X et Y– La covariance entre X et Y
Relation entre X et YRelation entre X et Y
Coefficient de détermination de Y en fonction de X
Le coefficient de détermination théorique de Y en fonction de X, noté mesure la proportion de la variation de Y qui est expliquée par la régression ou qui est expliquée par la variable X au niveau de toute la population.
2YX
10 2 YX
Le coefficient de déterminationLe coefficient de détermination
Le coefficient de détermination indique
si le modèle linéaire défini colle aux données
Coefficient de détermination de Y en fonction de XEn pratique est inconnu, car on ne possède pas d’information sur toute la population mais seulement sur un échantillon de taille n, alors on estimera à partir de l’échantillon :
2YX
n
y
y
xxb
yy
yyrr
n
iin
ii
n
ii
n
ii
n
ii
YX 2
1
1
2
1
221
1
2
1
2
22
)(
)(
)ˆ(
totalevariation
expliquéevariation
2YX
fournit une indication de la force de la liaison possible pouvant exister entre Y et X au niveau de la population. De plus, c’est un indice de la qualité de l’ajustement de la droite aux points expérimentaux.
2YXr
Le coefficient de déterminationLe coefficient de détermination
2
12 2
1 1
n
in ni
i ii i
y
( y y ) yn
Rappel:
Le coefficient de déterminationLe coefficient de détermination
Dans quelle mesure l’équation estimée de la régression s’ajuste-t-elle aux données?– Le coefficient de détermination permet de mesurer le degré
d’adéquation Formule pour le coefficient de détermination
r2 = SCreg/SCT
où: SCT = SCreg + SCres=
SCT = Somme des carrés totale (variation totale)
SCreg = Somme des carrés de la régression (variation expliquée)
SCres = Somme des carrés des résidus
2ˆ( )iy y 2ˆ( )iy y2( )iy y 2( )iy y 2ˆ( )i iy y 2ˆ( )i iy y
Le coefficient de déterminationLe coefficient de détermination
2 2 2
2 1 1 1
2 2
1 1
n n n
i i ii i i
YX n n
i ii i
ˆ ˆ( y y ) ( y y ) ( y y )SCreg SCT SCres
rSCT SCT( y y ) ( y y )
Calculez pour l’exemple d’application des coûts publicitaires et des ventes:
2
2 1
2
1
ˆSCreg
SCT
n
ii
YX n
ii
y yr
y y
2YXr
Puisque est proche de 1, on peut dire que la droite de régression s’ajuste très bien au nuage de points. 2YXr
Le coefficient de déterminationLe coefficient de détermination
2 298 0080 9692
307 525
variation expliquée ,,
variation totale ,YXr
Différence entre régression et corrélation ?
La régression linéaire simple se préoccupe essentiellement de la forme de la relation linéaire qui existe entre X et Y
La corrélation essaye de mesurer l’intensité ou la force de la relation linéaire qui existe entre X et Y.
Relation entre X et Y: régression et Relation entre X et Y: régression et corrélationcorrélation
Le coefficient de corrélation de l’échantillonLe coefficient de corrélation de l’échantillon
où: b1 = la pente de l’équation de régression estimée (empirique)
Le coefficient de corrélation théorique (au niveau de la population) est dénoté yx ou simplement
2b 1(signe de ) yxr r2b 1(signe de ) yxr r
b 1(signe de ) coefficient de déterminationyxr b 1(signe de ) coefficient de déterminationyxr
xbby 10ˆ
Le coefficient de corrélation peut être déterminé de la manière suivante (ou encore en prenant la racine carrée du coefficient de détermination):
On a toujours: Si alors il existe une relation linéaire exacte entre X et Y Si alors soit que X et Y sont indépendantes, soit qu’il y a une
dépendance non linéaire entre les deux variables Si ou alors il existe une relation linéaire plus ou moins
forte entre X et Y
Le coefficient de corrélation permet de voir s'il est facile d'approcher les données par une droite.
1
2 22 22 2
1 1
n
i ii i i ii
XY n n
i i i ii i
i i
( x x )( y y ) n x y x yr
n x x n y y( x x ) . ( y y )
11 XYr1XYr
0XYr
0XYr 1XYr
Le coefficient de corrélation Le coefficient de corrélation de l’échantillonde l’échantillon
Toujours en utilisant l’exemple numérique de la publicité et les ventes d'autos, mesurez le degré de dépendance
linéaire entre X et Y.
10
1 1
10 102 2 2 2
1 1 1 1
3 3 46 3575 45
0 984519 10 307 53
3 3 46 35
( )( ) ( , )( , ),
,, * ,
( ) . ( ) ( , ) . ( , )
n
i i i ii i
XY n n
i i i ii i i i
x x y y x yr
x x y y x y
Réponse
Les dépenses en publicité et les ventes varient dans le même sens
Il existe une relation linéaire très forte entre les dépenses en publicité et les ventes
Le coefficient de corrélation Le coefficient de corrélation de l’échantillonde l’échantillon
Coefficient de corrélation et nuage de pointsCoefficient de corrélation et nuage de points
Validation de la droite de régression empirique… Test d’hypothèse sur
Pour vérifier si l’influence de la variable indépendante X est significative, on procède à un test d’hypothèses sur
1
1
XY 10
Si β1 = 0 alors peu importe les valeurs de X, elles n’auront pas d’impact sur Y
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Étapes contribuant à la validation de la droite de régression empirique
Estimer la variance des erreurs théoriques
Estimer et par intervalle de confiance
Test d’hypothèses sur 1
0 1
2 2 (Parfois dénotée )
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Validation de la droite de régression empirique…
Estimation de la variance des erreurs théoriques2
La précision des estimateurs b0 et b1 dépend de la valeur de la variance des erreurs théoriques : plus sera petite, plus ces estimateurs sont précis.
Puisque, en pratique, la variance est inconnue, on l’estime par le terme suivant :
2 2
2 2 1 1
2 2
ˆ( )e
n n
i i ii i
e
e y ys s MCr s
n n
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
2
2
Validation de la droite de régression empirique…
Estimation de et2
0b
En pratique, les variances et sont inconnues, alors on les estime par les deux termes suivants :
0
22 2
2
1
1
( )b n
ii
xs s
n x x
2
1b
2
0b 2
1b
1
22
2
1
( )
b n
ii
ss
x x
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Exemple d’application …
Calculer pour l’ensemble des données ci-dessus.
0 1
2 2 2, ,b bs s s
Compléter le tableau suivant :
0.491.69
49.1141.21
33,31 + 3,95 x 2 = 41,2133 31 3 95ˆ , ,Y X
0.39- 0.21
0.15210.0441
7.617626.419
6
0
1
2
2
2
1 1847
0 7939
0 062
,
,
,
b
b
s
s
s
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Validation de la droite de régression empirique…
Estimation de 1 par intervalle de confiance
L’intervalle de confiance pour estimer 1, la pente du modèle de régression théorique, au niveau de confiance (1 - ) est donné par:
11 2/ bb t s Si n-2 < 30
11 2/ bb z s
ldntt .)2(2/
Si n-2 ≥ 30 )1,0(2/ Nz
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Si la valeur 1=0 appartient à l’intervalle de confiance, on ne rejette pas l’hypothèse nulle: 1=0 au niveau de signification et on conclut qu’il n’existe pas de relation linéaire significative entre Y et X
D’après les données de l’exemple numérique de la publicité et le volume de ventes d'autos, construisez un intervalle de confiance pour au niveau 95% :
11 2/ bb t s
Puisque n-2 = 10 -2 = 8 < 30, alors
1
0 0253 95 0 062,, ,t 3 95 2 306 0 062, , ,
Table de Student
3 3758 4 5242, ,à
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Tester la signification d’une régressionTester la signification d’une régression
Pour tester la signification d’une régression, on peut effectuer un test d’hypothèses afin de déterminer si la valeur de 1 est zéro.
Deux tests sont couramment utilisés
– Test t ou z (selon la taille de l'échantillon)
– Test F
– Les deux tests nécessitent une estimation de 2, la variance des erreurs e du modèle de régression
Tester la signification d’une régressionTester la signification d’une régression
Une estimation de 2
Rappel: la moyenne des carrés des résidus (MCres) fournit une estimation de 2
s2 = MCres = SCres/(n-2)
où:
2 20 1ˆSCres ( ) ( )i i i iy y y b b x
2
SCres
MCressn
s est l’erreur type de l’estimation
Les étapes d’un test z ou t d’hypothèses sur
1. Énoncer les hypothèses H0 et Ha.
2. Préciser les conditions du test La population des erreurs est normale La variance résiduelle est inconnue Le niveau de signification Si la taille de l’échantillon n – 2 ≥ 30, on utilise z (Normale) Si la taille de l’échantillon n – 2 < 30, on utilise t (Student)
3. Calculer la statistique de test.
4. Trouver la région critique au niveau de signification
10 1
1
0
0a
H :
H :
2
1 1
1 1
1 1 1
1 1 1
2 30
2 30
b b
b b
b bz si n
s s
b bt si n
s s
0 2 2 2 2/ ,( ) . / ,( ) ., n d l n d lOn rejette H si t t ou si t t
0 2 2/ /,On rejette H si z z ou si z z
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
D’après les données de l’exemple d’application sur la publicité et le volume de ventes d'autos, vérifiez au niveau de signification = 0,05 si X explique Y, à partir de la droite de régression linéaire obtenue
0 1
1
0
0a
H :
H :
Étape 1 Étape 2
n – 2 = 8 < 30, population normale, inconnue2
Étape 3
1
1 1 3 95 015 86
0 062
,,
,b
bt
s
Étape 4
0 025 8 2 306, , . ,d lt
0 025 8 015 86 2 306, , ., , ,d lpuisque t t on rejette H
Cela implique que X explique les valeurs prises par Y au niveau = 0,05
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Tester la signification d’une régression: Test Tester la signification d’une régression: Test FF
Hypothèses
H0: 1 = 0
Ha: 1 0 Statistique de test
F = MCreg/MCres Règle de rejet
Rejeter H0 si F > F
où F est basée sur distribution F à 1 d.l. dans le numérateur and n - 2 d.l. dans le dénominateur
MCreg= 2 1ˆ( ) /iy y 2 1ˆ( ) /iy yCe test peut aussi s’appliquer aux régressions multiples
2
SCresMCres
n
2ˆSCres ( )i iy y
D’après les données de l’exemple d’application sur la publicité et le volume de ventes d'autos, vérifiez au niveau de signification = 0,05, à partir de la droite de régression linéaire obtenue, si X explique Y ? Utiliser le test F.
0 1
1
0
0a
H :
H :
F = MCreg/MCres=298,008/1,18=251,54
0 05 1 8 5 31, ( , ) ,F
0 05
0
251 54 1 8 5 31,, ( , ) , ,puisque F F
on rejette H
Cela implique que X explique les valeurs prises par Y au niveau = 0,05
L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple
Construire un intervalle de confiance autour de la droite de régression
Estimez par intervalle de confiance au niveau = 0,05 le volume moyen des ventes d'autos si on investit 4 millions de dollars en publicité
0 1 0 025 8
33 31 3 95 4 2 306 0 3858
49 11 2 306 0 3858
48 22 50
ˆ, , .
, , , ,
, , ,
,
pp d l yb b x t s
à
Dans ce cas, on a est inconnue et n – 2 = 8 < 302
2 2
2
1
1 1 4 3 31 1847 0 3858
10 19 1
ˆ
( ) ( , ), ,
,( )p
py n
ii
x xs s
n x x
L’analyse de la régression linéaire simpleL’analyse de la régression linéaire simple
Construire un intervalle de prévision pour une nouvelle observation de XEn plus des n observations dans l’échantillon, on a la possibilité
d’effectuer une prévision pour une nouvelle observation xp de X. Dans ce cas, on veut estimer , la valeur individuelle de Y correspondant à xp de X. L’intervalle de confiance au niveau (1 - ) sera : Si est inconnue et n - 2 < 302
0 1 2 2
2 2 2
2
2
2 1
1
11
/ ,( ) .
ˆ
,
( )
( )
p
p n d l ind
ind y
pind n
n ii
ii
b b x t s avec
s s s
x xs s
n xx n
L’analyse de la régression linéaire simpleL’analyse de la régression linéaire simple
py
Si est inconnue et n - 2 ≥ 30, ou si est connue, on
remplace par , et s par
2
ldnt .)2(,2/ 2/z
2
Construire un intervalle de prévision pour une nouvelle observation de X
Prévoir par intervalle de confiance au niveau = 0,05 le volume des ventes si, à partir d’un nouvel échantillonnage, on désire investir 2,8 millions de dollars en publicité
0 1 0 025 8
33 31 3 95 2 8 2 306 1 148
44 37 2 647
41 723 47 017
, , .
, , , , ,
, ,
, ,
p d l indb b x t s
à
Dans ce cas, on a est inconnue et n – 2 = 8 < 302
21 2 8 3 31 1847 1 0 148
10 19 1
( , , ), ,
,inds
L’analyse de la régression linéaire simpleL’analyse de la régression linéaire simple
Estimation ponctuelle
– Si 3 annonces publicitaires sont présentées avant une fin de semaine de soldes, on s’attend à ce que le nombre moyen d’autos vendues soit:
= 10 + 5(3) = 25 autos Intervalle de confiance pour E(yp) (yp moyen pour un xp particulier)
– L’intervalle de confiance à 95% du nombre moyen estimé d’autos qui seront vendues si on présente 3 annonces publicitaires est:
25 + 4,61 = 20,39 à 29,61 autos Intervalle de prévision pour yp
L’intervalle de confiance à 95% du nombre prévu d’autos qui seront vendues une semaine donnée (valeur individuelle et non moyenne) si on présente 3 annonces publicitaires est : 25 + 8,28 = 16,72 à 33,28
Exemple: Autos plusExemple: Autos plus
y
Hypothèses du modèleHypothèses du modèle
Hypothèses concernant le terme d’erreurs – L’erreur est une variable aléatoire d’espérance 0
– La variance de , dénotée 2 ou 2 , est la même pour toutes les valeurs de X
– Les valeurs de sont indépendantes.
– L’erreur est distribuée selon une loi normale
Test F Hypothèses H0: 1 = 0
Ha: 1 0
– Règle de rejet
Pour = 0,05 et d.l. = 1, 3: F0,05 = 10,13
Rejeter H0 si F > 10,13.
– Statistique de test
F = MCreg/MCres = 100/4,667 = 21,43– Conclusion
On peut rejeter H0.
Exemple: Autos plusExemple: Autos plus
Utilisation d'ExcelUtilisation d'Excel
Utilisation d'ExcelUtilisation d'Excel
Utilisation d'ExcelUtilisation d'Excel
1bs
XYr
MCReg
MCRes
0bs
2XYr
s
Utilisation d'ExcelUtilisation d'Excel
XYr2
XYr
s ou se