opération et systèmes de décision faculté des sciences de ladministration mqt-21919...

69
Opération et systèmes de décision Faculté des Sciences de l’Administration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Upload: alvere-bidault

Post on 04-Apr-2015

108 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Opération et systèmes de décisionFaculté des Sciences de l’Administration

MQT-21919 Probabilités et statistique

Analyse de la régressionChapitre 12

Page 2: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

LecturesLectures

Volume du cours: Sections 12.1 à 12.6 inclusivement

Volume recommandé: Statistique en Gestion et en économie: sections 8.1 et 8.2

Page 3: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Mise en contexteMise en contexte

En statistiques, plusieurs problèmes consistent à définir la relation qui existe entre deux variables statistiques :

– Le nombre d’années d’expérience et le nombre d’erreurs commises ;

– L’âge du conducteur et le nombre d’accidents d’auto ;

– Le volume des ventes et les dépenses en publicité ;

– Le nombre d’heures d’études et les résultats aux examens ;

– …

Page 4: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Mise en contexteMise en contexte

Dans ce genre de problèmes, les principales questions auxquelles nous voudrons répondre sont les suivantes :

– Existe-il une relation ou une dépendance entre les variables statistiques?

– Cette relation, si elle existe, est-elle linéaire ou non ?

– Si une dépendance linéaire existe, de quelle façon peut-on la traduire par une équation mathématique ?

– La relation, si elle existe, est-elle grande ou faible ?

– Si l’équation mathématique de la relation entre les variables existe, comment prévoir les valeurs d’une certaine variable à partir de la connaissance de valeurs de l’autre variable ou des autres variables ?

Page 5: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Mise en contexteMise en contexte

Pour répondre à toutes ces questions, nous ferons appel à une théorie statistique que nous appelons :

L’analyse de la régression

Page 6: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

L’analyse de la régressionL’analyse de la régression

L’analyse de la régression est une méthode statistique qui permet d’étudier le type de relation pouvant exister entre une certaine variable (dépendante) dont on veut expliquer les valeurs et une ou plusieurs autres variables qui servent à cette explication (variables indépendantes)– Régression linéaire simple: une variable indépendante

En d’autres termes, l’analyse de la régression permet d’étudier les variations de la variable dépendante en fonction des variations connues des variables indépendantes.

Page 7: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

L’analyse de la régressionL’analyse de la régression

Le coût du loyer en fonction du nombre de pièces, du niveau d’étage dans l’immeuble, des services offerts ...

),...,,,( 321 nXXXXfY

Coût du loyer Nombre de pièces

Services offerts(piscine, stationnement intérieur, etc.)

L’étage dans l’immeuble …

Page 8: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

L’analyse de la régressionL’analyse de la régression

Une analyse de régression est :

– dite simple si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par une autre variable dite indépendante (explicative (X)).

– dite multiple si elle permet de prédire les valeurs d’une variable dite dépendante (expliquée (Y)) à partir des valeurs prises par plusieurs autres variables dites indépendantes (explicatives (Xi)).

Page 9: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

C’est la représentation graphique dans le plan cartésien de l’ensemble des paires de données (xi,yi). Ces données proviennent d’une série statistique de deux variables obtenues à partir d’une étude menée sur un échantillon ou sur une population.

Définition : Nuage de points ou diagramme de dispersion

Page 10: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Exemple : Nuage de points ou diagramme de dispersion

Supposons que le nombre d’heures d’études nécessaires pour préparer l’examen final en statistiques et le nombre de bonnes réponses obtenues par chaque étudiant sont donnés dans le tableau suivant :

Tracer le nuage de points ou le diagramme de dispersion des données présentées ci-dessus.

Page 11: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Exemple : Nuage de points ou diagramme de dispersion …

Diagramme de dispersion

Heures d'études

0

123

4567

89

10

0 2 4 6 8 10

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 12: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Objectif d’une analyse de régression simple

Une fois la représentation graphique effectuée, il est facile de soupçonner l’existence d’une certaine relation entre les deux variables (caractères étudiés). Il faut maintenant chercher à exprimer cette relation à l’aide d’une équation mathématique.

)(XfY

On essaie de trouver la forme mathématique de la fonction f

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 13: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Objectif d’une analyse de régression simple

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Diagramme de dispersion

Heures d'études

0

123

4567

89

10

0 2 4 6 8 10

Page 14: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Définition : Nous appelons régression linéaire l’ajustement d’une droite au nuage statistique d’une série de couples de données.

Ainsi, une régression linéaire simple va permettre de résumer, d’interpréter et de prévoir les variations d’un caractère dit dépendant (Y) en fonction d’un autre dit indépendant (X) et ce en utilisant une droite.

Page 15: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Modèle de régression linéaire simpleModèle de régression linéaire simple

Modèle de régression linéaire simple

y = 0 + 1x + Équation de la régression linéaire simple (comment

l'espérance de y est liée à x)

E(y) = 0 + 1x Équation estimée de la régression linéaire simple

(droite de la régression estimée, modèle empirique)

y = Variable dépendante ou expliquée = valeur estimée de y pour une valeur x

x = Variable indépendante ou explicative

0 et 1= Coefficients théoriques de régression (à estimer à l’aide d’un échantillon) par b0 et b1

= Erreur théorique aléatoire (d’autres facteurs influencent Y)

0 1y b b x

y

Page 16: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Modèle de régression linéaire simpleModèle de régression linéaire simple

L'équation estimée de la régression linéaire simple (droite de la régression estimée, modèle empirique) peut être utilisée pour une estimation ponctuelle de la valeur moyenne de y pour une valeur particulière de x ou pour prévoir la valeur ponctuelle de y associée à une valeur particulière de x

y = Variable dépendante ou expliquée = valeur de prévision de y pour une valeur x, ou moyenne de y estimée pour une valeur de x

x = Variable indépendante ou explicative

0 1y b b x

y

Page 17: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Les différentes étapes d’une étude de régression

Page 18: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Il existe plusieurs méthodes permettant d’estimer le modèle théorique

par le modèle empirique

Méthode des moindres carrés

Méthode de la vraisemblance

0 1 y x

0 1 y b b x

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 19: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

La méthode des moindres carrésLa méthode des moindres carrés

Critère des moindres carrés

où:

yi = valeur observée de la variable dépendante pour

pour la ième observation

= valeur estimée de la variable dépendante pour la ième observation

2ˆmin ( )i iy y 2ˆmin ( )i iy y

ˆiyiy

Page 20: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

La méthode des moindres carrés

Idée de base : cette méthode essaie de construire une droite de régression empirique qui minimise la somme des carrés des distances verticales entre cette droite et chacun des points observés.

Page 21: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

La méthode des moindres carrés …

),( ii yx

)ˆ,( ii yx

Illustration graphique

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 22: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

La méthode des moindres carrés …

Définition : On appelle résidu ou erreur empirique ou écart de prévision, la valeur , soit la différence (l’écart vertical) entre la valeur observée yi de Y et la valeur estimée obtenue à partir de la droite de régression, lorsque x= xi.

ˆei i iy y

iy

L’objectif de la méthode des moindres carrés est de

déterminer la droite de régression qui minimise2

1

n

ii

e

Page 23: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

La méthode des moindres carrés …

2 2 2 2 21 2 3

1

2

1

2

0 11

n

... n ii

n

i ii

n

i ii

SCres e e e e e

ˆSCres y y

SCres y b b x

Cette mesure donne l’ordre de grandeur de la dispersion des observations Yi autour de la droite de régression

Il s’agit de trouver bo et b1 de sorte que la somme des carrés des résidus SCres

soit la plus petite possible (minimale).

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 24: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Principes de la méthode des moindres carrés …

Comment calculer les coefficients b0 et b1? Les estimations ponctuelles des paramètres de la droite de régression obtenues par la méthode des moindres carrés sont :

n

ii

n

iii

xnx

yxnyx

b

xbyb

1

22

11

10

Taille de l’échantillon

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

1 2i i

i

( x x )( y y )b

( x x )

Autre formule pour b1

Page 25: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

À partir des données ci-dessous, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés :

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 26: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

11 2

2 2

1

6670 5 30 400 67

5500 5 30,

( )

n

i ii

n

ii

x y nxyb

x nx

0 1 40 0 67 30 19 9, ,b y b x

19 9 0 67ˆ , ,y x

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 27: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Remarque Importante

La droite de régression déterminée à l’aide de la méthode des moindres carrés donne la plus faible somme de carrés résiduels

parmi toutes les autres droites que l’on pourrait ajuster à cet ensemble d’observations.

2ie

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 28: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Une entreprise veut mener une étude sur la relation entre les dépenses hebdomadaires en publicité et le volume de ventes qu’elle réalise. On a recueilli au cours des dix dernières semaines les données suivantes :

À partir des données ci-dessus, déterminez les estimations ponctuelles des paramètres de la droite de régression selon la méthode des moindres carrés.

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 29: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

À partir de ces données, il est possible de tracer le diagramme de dispersion suivant :

Diagramme de dispersion

Coût publicitaire en millions de dollars (X)

0

10

20

30

40

50

60

0 1 2 3 4 5 6

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 30: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Les résultats intermédiaires suivants servent à calculer les estimations ponctuelles des paramètres de la droite de régression :

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 31: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

En appliquant les formules ci-dessous, nous obtenons les valeurs numériques de b0 et b1

11 2

2 2

1

1605 10 3 3 46 353 95

128 10 3 3

, ,,

( , )

n

i ii

n

ii

x y nxyb

x nx

0 1 46 35 3 95 3 3 33 31, , , ,b y b x

33 31 3 95ˆ , ,y x

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 32: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

33 31 3 95ˆ , ,y x Dépenses en publicité

C’est l’augmentation du volume des ventes (Y) pour une augmentationunitaire du coût en publicité (X)

Ordonnée à l’origine(volume de vente moyen sans dépenser un sous enpublicité)

La droite de régression qui permet de déterminerle volume moyen des ventes pour un coût publicitaire donné x.

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 33: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Interprétation des résultats et remarques…

Rq1 : le point de cordonnées se trouve sur la droite de régression.

Rq2 : cette relation linéaire entre X et Y est valide pour l’intervalle des valeurs de X considérée dans l’énoncé, c’est-à-dire de 1 à 5,5.

La droite de régression s’applique à l’intérieur de l’étendue des valeurs expérimentales qui ont été observées pour la variable explicative (X). On devra donc éviter toute extrapolation en dehors de ce domaine à moins d’être certain que le phénomène se comporte de façon identique.

),( yx

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 34: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Rq3 : Pour la valeur x = 3,5 (située entre 1 et 5,5), on peut utiliser la droite de régression pour calculer la valeur moyenne correspondante de Y

Exemple : Estimation du volume des ventes moyen pour un coût de 3,5 millions de dollars en publicité hebdomadaire.

= 33,31 + 3,95 (3,5) = 47,14 millions de dollarsy

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 35: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

La pente de l’équation de la régression empirique (estimée)

ou

L’ordonnée à l’origine de l’équation de la régression empirique (estimée):

où:

xi = valeur de la variable indépendante pour la ième observation

yi = valeur de la variable dépendante pour la ième observation

= valeur moyenne de la variable dépendante

= valeur moyenne de la variable indépendante observée

n = nombre total d’observations

La méthode des moindres carrés - RésuméLa méthode des moindres carrés - Résumé

1 2

2

i

i ii i

i

x yx y nb

xx n

0 1 b y b x

x

y

1 2

i i

i

( x x )( y y )b

( x x )

Page 36: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y:

– Le coefficient de détermination de Y en fonction de X– Le coefficient de corrélation entre X et Y– La covariance entre X et Y

Relation entre X et YRelation entre X et Y

Page 37: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Coefficient de détermination de Y en fonction de X

Le coefficient de détermination théorique de Y en fonction de X, noté mesure la proportion de la variation de Y qui est expliquée par la régression ou qui est expliquée par la variable X au niveau de toute la population.

2YX

10 2 YX

Le coefficient de déterminationLe coefficient de détermination

Le coefficient de détermination indique

si le modèle linéaire défini colle aux données

Page 38: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Coefficient de détermination de Y en fonction de XEn pratique est inconnu, car on ne possède pas d’information sur toute la population mais seulement sur un échantillon de taille n, alors on estimera à partir de l’échantillon :

2YX

n

y

y

xxb

yy

yyrr

n

iin

ii

n

ii

n

ii

n

ii

YX 2

1

1

2

1

221

1

2

1

2

22

)(

)(

)ˆ(

totalevariation

expliquéevariation

2YX

fournit une indication de la force de la liaison possible pouvant exister entre Y et X au niveau de la population. De plus, c’est un indice de la qualité de l’ajustement de la droite aux points expérimentaux.

2YXr

Le coefficient de déterminationLe coefficient de détermination

2

12 2

1 1

n

in ni

i ii i

y

( y y ) yn

Rappel:

Page 39: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Le coefficient de déterminationLe coefficient de détermination

Dans quelle mesure l’équation estimée de la régression s’ajuste-t-elle aux données?– Le coefficient de détermination permet de mesurer le degré

d’adéquation Formule pour le coefficient de détermination

r2 = SCreg/SCT

où: SCT = SCreg + SCres=

SCT = Somme des carrés totale (variation totale)

SCreg = Somme des carrés de la régression (variation expliquée)

SCres = Somme des carrés des résidus

2ˆ( )iy y 2ˆ( )iy y2( )iy y 2( )iy y 2ˆ( )i iy y 2ˆ( )i iy y

Page 40: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Le coefficient de déterminationLe coefficient de détermination

2 2 2

2 1 1 1

2 2

1 1

n n n

i i ii i i

YX n n

i ii i

ˆ ˆ( y y ) ( y y ) ( y y )SCreg SCT SCres

rSCT SCT( y y ) ( y y )

Page 41: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Calculez pour l’exemple d’application des coûts publicitaires et des ventes:

2

2 1

2

1

ˆSCreg

SCT

n

ii

YX n

ii

y yr

y y

2YXr

Puisque est proche de 1, on peut dire que la droite de régression s’ajuste très bien au nuage de points. 2YXr

Le coefficient de déterminationLe coefficient de détermination

2 298 0080 9692

307 525

variation expliquée ,,

variation totale ,YXr

Page 42: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Différence entre régression et corrélation ?

La régression linéaire simple se préoccupe essentiellement de la forme de la relation linéaire qui existe entre X et Y

La corrélation essaye de mesurer l’intensité ou la force de la relation linéaire qui existe entre X et Y.

Relation entre X et Y: régression et Relation entre X et Y: régression et corrélationcorrélation

Page 43: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Le coefficient de corrélation de l’échantillonLe coefficient de corrélation de l’échantillon

où: b1 = la pente de l’équation de régression estimée (empirique)

Le coefficient de corrélation théorique (au niveau de la population) est dénoté yx ou simplement

2b 1(signe de ) yxr r2b 1(signe de ) yxr r

b 1(signe de ) coefficient de déterminationyxr b 1(signe de ) coefficient de déterminationyxr

xbby 10ˆ

Page 44: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Le coefficient de corrélation peut être déterminé de la manière suivante (ou encore en prenant la racine carrée du coefficient de détermination):

On a toujours: Si alors il existe une relation linéaire exacte entre X et Y Si alors soit que X et Y sont indépendantes, soit qu’il y a une

dépendance non linéaire entre les deux variables Si ou alors il existe une relation linéaire plus ou moins

forte entre X et Y

Le coefficient de corrélation permet de voir s'il est facile d'approcher les données par une droite.

1

2 22 22 2

1 1

n

i ii i i ii

XY n n

i i i ii i

i i

( x x )( y y ) n x y x yr

n x x n y y( x x ) . ( y y )

11 XYr1XYr

0XYr

0XYr 1XYr

Le coefficient de corrélation Le coefficient de corrélation de l’échantillonde l’échantillon

Page 45: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Toujours en utilisant l’exemple numérique de la publicité et les ventes d'autos, mesurez le degré de dépendance

linéaire entre X et Y.

10

1 1

10 102 2 2 2

1 1 1 1

3 3 46 3575 45

0 984519 10 307 53

3 3 46 35

( )( ) ( , )( , ),

,, * ,

( ) . ( ) ( , ) . ( , )

n

i i i ii i

XY n n

i i i ii i i i

x x y y x yr

x x y y x y

Réponse

Les dépenses en publicité et les ventes varient dans le même sens

Il existe une relation linéaire très forte entre les dépenses en publicité et les ventes

Le coefficient de corrélation Le coefficient de corrélation de l’échantillonde l’échantillon

Page 46: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Coefficient de corrélation et nuage de pointsCoefficient de corrélation et nuage de points

Page 47: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Validation de la droite de régression empirique… Test d’hypothèse sur

Pour vérifier si l’influence de la variable indépendante X est significative, on procède à un test d’hypothèses sur

1

1

XY 10

Si β1 = 0 alors peu importe les valeurs de X, elles n’auront pas d’impact sur Y

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 48: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Étapes contribuant à la validation de la droite de régression empirique

Estimer la variance des erreurs théoriques

Estimer et par intervalle de confiance

Test d’hypothèses sur 1

0 1

2 2 (Parfois dénotée )

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 49: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Validation de la droite de régression empirique…

Estimation de la variance des erreurs théoriques2

La précision des estimateurs b0 et b1 dépend de la valeur de la variance des erreurs théoriques : plus sera petite, plus ces estimateurs sont précis.

Puisque, en pratique, la variance est inconnue, on l’estime par le terme suivant :

2 2

2 2 1 1

2 2

ˆ( )e

n n

i i ii i

e

e y ys s MCr s

n n

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

2

2

Page 50: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Validation de la droite de régression empirique…

Estimation de et2

0b

En pratique, les variances et sont inconnues, alors on les estime par les deux termes suivants :

0

22 2

2

1

1

( )b n

ii

xs s

n x x

2

1b

2

0b 2

1b

1

22

2

1

( )

b n

ii

ss

x x

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 51: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Exemple d’application …

Calculer pour l’ensemble des données ci-dessus.

0 1

2 2 2, ,b bs s s

Compléter le tableau suivant :

0.491.69

49.1141.21

33,31 + 3,95 x 2 = 41,2133 31 3 95ˆ , ,Y X

0.39- 0.21

0.15210.0441

7.617626.419

6

0

1

2

2

2

1 1847

0 7939

0 062

,

,

,

b

b

s

s

s

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 52: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Validation de la droite de régression empirique…

Estimation de 1 par intervalle de confiance

L’intervalle de confiance pour estimer 1, la pente du modèle de régression théorique, au niveau de confiance (1 - ) est donné par:

11 2/ bb t s Si n-2 < 30

11 2/ bb z s

ldntt .)2(2/

Si n-2 ≥ 30 )1,0(2/ Nz

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Si la valeur 1=0 appartient à l’intervalle de confiance, on ne rejette pas l’hypothèse nulle: 1=0 au niveau de signification et on conclut qu’il n’existe pas de relation linéaire significative entre Y et X

Page 53: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

D’après les données de l’exemple numérique de la publicité et le volume de ventes d'autos, construisez un intervalle de confiance pour au niveau 95% :

11 2/ bb t s

Puisque n-2 = 10 -2 = 8 < 30, alors

1

0 0253 95 0 062,, ,t 3 95 2 306 0 062, , ,

Table de Student

3 3758 4 5242, ,à

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 54: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Tester la signification d’une régressionTester la signification d’une régression

Pour tester la signification d’une régression, on peut effectuer un test d’hypothèses afin de déterminer si la valeur de 1 est zéro.

Deux tests sont couramment utilisés

– Test t ou z (selon la taille de l'échantillon)

– Test F

– Les deux tests nécessitent une estimation de 2, la variance des erreurs e du modèle de régression

Page 55: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Tester la signification d’une régressionTester la signification d’une régression

Une estimation de 2

Rappel: la moyenne des carrés des résidus (MCres) fournit une estimation de 2

s2 = MCres = SCres/(n-2)

où:

2 20 1ˆSCres ( ) ( )i i i iy y y b b x

2

SCres

MCressn

s est l’erreur type de l’estimation

Page 56: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Les étapes d’un test z ou t d’hypothèses sur

1. Énoncer les hypothèses H0 et Ha.

2. Préciser les conditions du test La population des erreurs est normale La variance résiduelle est inconnue Le niveau de signification Si la taille de l’échantillon n – 2 ≥ 30, on utilise z (Normale) Si la taille de l’échantillon n – 2 < 30, on utilise t (Student)

3. Calculer la statistique de test.

4. Trouver la région critique au niveau de signification

10 1

1

0

0a

H :

H :

2

1 1

1 1

1 1 1

1 1 1

2 30

2 30

b b

b b

b bz si n

s s

b bt si n

s s

0 2 2 2 2/ ,( ) . / ,( ) ., n d l n d lOn rejette H si t t ou si t t

0 2 2/ /,On rejette H si z z ou si z z

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 57: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

D’après les données de l’exemple d’application sur la publicité et le volume de ventes d'autos, vérifiez au niveau de signification = 0,05 si X explique Y, à partir de la droite de régression linéaire obtenue

0 1

1

0

0a

H :

H :

Étape 1 Étape 2

n – 2 = 8 < 30, population normale, inconnue2

Étape 3

1

1 1 3 95 015 86

0 062

,,

,b

bt

s

Étape 4

0 025 8 2 306, , . ,d lt

0 025 8 015 86 2 306, , ., , ,d lpuisque t t on rejette H

Cela implique que X explique les valeurs prises par Y au niveau = 0,05

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 58: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Tester la signification d’une régression: Test Tester la signification d’une régression: Test FF

Hypothèses

H0: 1 = 0

Ha: 1 0 Statistique de test

F = MCreg/MCres Règle de rejet

Rejeter H0 si F > F

où F est basée sur distribution F à 1 d.l. dans le numérateur and n - 2 d.l. dans le dénominateur

MCreg= 2 1ˆ( ) /iy y 2 1ˆ( ) /iy yCe test peut aussi s’appliquer aux régressions multiples

2

SCresMCres

n

2ˆSCres ( )i iy y

Page 59: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

D’après les données de l’exemple d’application sur la publicité et le volume de ventes d'autos, vérifiez au niveau de signification = 0,05, à partir de la droite de régression linéaire obtenue, si X explique Y ? Utiliser le test F.

0 1

1

0

0a

H :

H :

F = MCreg/MCres=298,008/1,18=251,54

0 05 1 8 5 31, ( , ) ,F

0 05

0

251 54 1 8 5 31,, ( , ) , ,puisque F F

on rejette H

Cela implique que X explique les valeurs prises par Y au niveau = 0,05

L’analyse de la régression linéaire L’analyse de la régression linéaire simplesimple

Page 60: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Construire un intervalle de confiance autour de la droite de régression

Estimez par intervalle de confiance au niveau = 0,05 le volume moyen des ventes d'autos si on investit 4 millions de dollars en publicité

0 1 0 025 8

33 31 3 95 4 2 306 0 3858

49 11 2 306 0 3858

48 22 50

ˆ, , .

, , , ,

, , ,

,

pp d l yb b x t s

à

Dans ce cas, on a est inconnue et n – 2 = 8 < 302

2 2

2

1

1 1 4 3 31 1847 0 3858

10 19 1

ˆ

( ) ( , ), ,

,( )p

py n

ii

x xs s

n x x

L’analyse de la régression linéaire simpleL’analyse de la régression linéaire simple

Page 61: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Construire un intervalle de prévision pour une nouvelle observation de XEn plus des n observations dans l’échantillon, on a la possibilité

d’effectuer une prévision pour une nouvelle observation xp de X. Dans ce cas, on veut estimer , la valeur individuelle de Y correspondant à xp de X. L’intervalle de confiance au niveau (1 - ) sera : Si est inconnue et n - 2 < 302

0 1 2 2

2 2 2

2

2

2 1

1

11

/ ,( ) .

ˆ

,

( )

( )

p

p n d l ind

ind y

pind n

n ii

ii

b b x t s avec

s s s

x xs s

n xx n

L’analyse de la régression linéaire simpleL’analyse de la régression linéaire simple

py

Si est inconnue et n - 2 ≥ 30, ou si est connue, on

remplace par , et s par

2

ldnt .)2(,2/ 2/z

2

Page 62: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Construire un intervalle de prévision pour une nouvelle observation de X

Prévoir par intervalle de confiance au niveau = 0,05 le volume des ventes si, à partir d’un nouvel échantillonnage, on désire investir 2,8 millions de dollars en publicité

0 1 0 025 8

33 31 3 95 2 8 2 306 1 148

44 37 2 647

41 723 47 017

, , .

, , , , ,

, ,

, ,

p d l indb b x t s

à

Dans ce cas, on a est inconnue et n – 2 = 8 < 302

21 2 8 3 31 1847 1 0 148

10 19 1

( , , ), ,

,inds

L’analyse de la régression linéaire simpleL’analyse de la régression linéaire simple

Page 63: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Estimation ponctuelle

– Si 3 annonces publicitaires sont présentées avant une fin de semaine de soldes, on s’attend à ce que le nombre moyen d’autos vendues soit:

= 10 + 5(3) = 25 autos Intervalle de confiance pour E(yp) (yp moyen pour un xp particulier)

– L’intervalle de confiance à 95% du nombre moyen estimé d’autos qui seront vendues si on présente 3 annonces publicitaires est:

25 + 4,61 = 20,39 à 29,61 autos Intervalle de prévision pour yp

L’intervalle de confiance à 95% du nombre prévu d’autos qui seront vendues une semaine donnée (valeur individuelle et non moyenne) si on présente 3 annonces publicitaires est : 25 + 8,28 = 16,72 à 33,28

Exemple: Autos plusExemple: Autos plus

y

Page 64: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Hypothèses du modèleHypothèses du modèle

Hypothèses concernant le terme d’erreurs – L’erreur est une variable aléatoire d’espérance 0

– La variance de , dénotée 2 ou 2 , est la même pour toutes les valeurs de X

– Les valeurs de sont indépendantes.

– L’erreur est distribuée selon une loi normale

Page 65: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Test F Hypothèses H0: 1 = 0

Ha: 1 0

– Règle de rejet

Pour = 0,05 et d.l. = 1, 3: F0,05 = 10,13

Rejeter H0 si F > 10,13.

– Statistique de test

F = MCreg/MCres = 100/4,667 = 21,43– Conclusion

On peut rejeter H0.

Exemple: Autos plusExemple: Autos plus

Page 66: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Utilisation d'ExcelUtilisation d'Excel

Page 67: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Utilisation d'ExcelUtilisation d'Excel

Page 68: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Utilisation d'ExcelUtilisation d'Excel

1bs

XYr

MCReg

MCRes

0bs

2XYr

s

Page 69: Opération et systèmes de décision Faculté des Sciences de lAdministration MQT-21919 Probabilités et statistique Analyse de la régression Chapitre 12

Utilisation d'ExcelUtilisation d'Excel

XYr2

XYr

s ou se