méthodes statistiques. ajustements et corrélation

Post on 03-Apr-2015

148 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Méthodes statistiques.

Ajustements et corrélation

1. Introduction.

Nous avons vu qu’il était possible d’étudier deux variables simultanément. Le résultat est un tableau de contingence.

Un tel tableau permet de clarifier l’information ; mais également de créer les outils pour étudier une possible relation fonctionnelle entre les deux variables.

Dans cette étape nous étudions les différentes possibilités permettant de mettre en avant une relation fonctionnelle entre deux variables.

2. Ajustement et corrélation linéaire.

Soient X et Y deux variables étudiées sur n individus. Soient xi et yi les modalités respectives de ces variables. Le problème à traiter est le suivant:

“Peut on déterminer 2 nombres a et b tels que l’une des 2 variables s’exprime en fonction de l’autre de la manière suivante ?”

Y = aX+ b

L’une des méthodes possibles pour répondre à ce problème nécessite que l’on trace une représentation graphique de Y en fonction de X. Le graphique orientera notre recherche. Trois types de représentations sont possibles:

Les points sont alignés, les variables évoluent dans le même sens ou en sens contraire. De la connaissance de l ’une des deux variables on déduit l ’autre.

Type 1.

Exemple:On donne dans le tableau suivant:

a. Les heures passées par les salariés à réaliser un certain travail X;

b. Les heures facturées aux clients Y.

Mois J F M A M J Temps passé 470 870 600 700 400 430

Heures facturées 560 1040 723 850 485 515

Une représentation graphique de la variable Y en fonction de la variable X peut-être réalisée:

400

500

600

700

800

900

1000

1100

400 500 600 700 800 900

Type 2

Les points sont plus dispersés, par rapport à une droite; mais l ’ajustement semble encore possible.

Exemple:On dispose des informations suivantes

concernant:a. le chiffre d ’affaires d ’une

entreprise en millions d ’euros X;b. Le résultat réalisé sur la même

période Y exprimé dans la même unité.

Année 1 2 3 4 5 6 C.A. 1000 1100 1200 1400 1700 1950

Résultat 150 145 165 210 280 420

La représentation graphique du résultat en fonction du chiffre d ’affaires peut-être réalisée:

100150200250300350400450

900 1400 1900 2400

Type 3

Pas d ’ajustement linéaire possible; mais peut-être l ’étude d’une saisonnalité.

X

Y

Exemple:Les ventes journalières de la référence

00000000013122 sur une semaine sont représentées de la manière suivante:

0

20

40

60

80

100

0 2 4 6 8

Si il semble que le modèle présenté ci-dessus est possible, on peut déterminer un coefficient appelé coefficient de corrélation linéaire dont la forme de définition est donnée ci-après.

21

1

2

1

2

1),(

ni

i i

ni

i i

ni

iii

yyxx

yyxxYXr

Ce coefficient doit nous aider à prendre une décision quant à l’ajustement. La règle suivante peut-être appliquée:

Si la valeur absolue du coefficient est proche de 1 par valeur inférieure, l’ajustement est possible;

Sinon, l’ajustement linéaire n’est pas possible.

Q u a n d l ’ a j u s t e m e n t e s t p o s s i b l e , o n p e u t d é t e r m i n e r l e s c o e f f i c i e n t s d e l ’ a j u s t e m e n t , a e t b . C e s c o e f f i c i e n t s s o n t d o n n é s p a r l e s r e l a t i o n s :

ni

ixix

ni

iyiyxix

a

1

21

xayb

On doit noter que les nombres r, a et b sont des fonctions qui existent dans toutes les machines, même la plus simple. Ils sont également disponibles dans Excel, ou peuvent être calculés de la manière suivante:

a = index(droitereg(zoneY ;zoneX) ; 1)b = index(droitereg(zoneY ;zoneX) ; 2)

La formule développée de ces coefficients est donnée par :

ni

ii

ni

iii

ni

ii

ni

ii

ni

iii

xnx

yxnyxa

ynyxnx

yxnyxYXr

1

22

1

21

1

22

1

22

1,

Si il est impossible de calculer ces coefficients directement, on peut mener les calculs sous forme de tableau

xi yi xi yi xi xi yi yi

i ix

i iy iyi ix 2i ix

i iy2

Dans la dernière ligne, nous avons les

informations nécessaires au calcul.

Remarques. 1. La méthode présentée est la même que la méthode appelée méthode des moindres carrés. 2. Si l’analyste souhaite regarder l’information de base comme des vecteurs dans un espace de dimension n et non comme une série de nombres réels, alors, le coefficient de corrélation s’interprète comme un cosinus. Cette façon de voir l’information oriente l’analyste vers des méthodes multidimensionnelles.

3. Il y a une relation linéaire entre Y et X. Si on peut ajuster dans un sens, il est possible d’ajuster dans l’autre. Ainsi, la relation

X = a’Y + b’

peut-être calculée

Les coefficients de cet ajustement peuvent être peuvent être donnés par les relations suivantes :

yaxb

ni

iyiy

ni

iyxiyix

a

122

1

L e s m é t h o d e s d e c a l c u l s o n t l e s m ê m e s q u e p o u r a e t b ; m a i s l e r ô l e d e c h a q u e v a r i a b l e a c h a n g é . A i n s i ,

a ’ = i n d e x ( d r o i t e r e g ( z o n e X ; z o n e Y ) ; 1 ) b ’ = i n d e x ( d r o i t e r e g ( z o n e X ; z o n e Y ) ; 2 )

4 . N o u s p o u v o n s é g a l e m e n t c o n s t a t e r q u e

2,

YXraa

3.   Ajustements non linéaires mais s’y ramenant.

Certaines fonctions comme les exponentielles, les puissances, les paraboles ou les hyperboles ont des rôles particuliers en gestion. Reconnaître ces modèles est fréquement utile pour le décideur.

Il est, pour ces modèles, toujours possible de se ramener aux ajustements linéaires.

31. Ajustement exponentiel ou semi-logarthmique.

Le problème posé est le suivant : 

Existe t’il entre les deux variables une relation du type: 

aXbY .

Si les deux variables sont liées de cette manière, après application d’une fonction logarithme (base quelconque) aux deux membres de l’égalité, on trouve la relation: 

log(Y) = log(b)+ X log(a) 

Nous constatons que c’est l’équation d’une droite. Cela signifie que si l’expression entre les variables est une exponentielle, l’expression de la fonction logatithme est une droite. Ce problème a été traité dans le paragraphe précédent.

4

5

6

7

8

9

10

11

12

13

0 2 4 6 8

0,6

0,7

0,8

0,9

1

1,1

1,2

0 2 4 6 8

BAXY

BA

log

,

BbAa exp,exp

Exemple.Le chiffre d’affaires d’une entreprise a

évolué de la manière suivante sur 5 ans.

Année 1 2 3 4 5

C.A. 1000 1100 1200 1400 1700

Titre du graphique

y = 850,63e0,1302x

900

1100

1300

1500

1700

1900

0 2 4 6

y = 0,0566x + 2,9297

2,95

3

3,05

3,1

3,15

3,2

3,25

0 2 4 6

32. Ajustement puissance ou log-log.La relation recherchée est du type:

XabY

L’application d’une fonction log des deux côtés de l’égalité nous permet de répondre à la question.

3

5

7

9

11

13

0 100 200 300

0,5

0,6

0,7

0,8

0,9

1

1,1

1,2

0 1 2 3

BXaY

Ba

loglog

,

Bba exp,

Exemple.Le volume des ventes d’un produit a

évolué en fonction du prix de vente unitaire de la manière suivante:

Nombre d’articles Vendu

1000 2000 4000 5000

Prix de vente unitaire 170 75 20 10

y = 197,14x-1,7306

0

50

100

150

200

250

0 2 4 6

y = -1,7306x + 2,2948

0,9

1,1

1,3

1,5

1,7

1,9

2,1

2,3

2,5

0 0,2 0,4 0,6 0,8

4.    Ajustement linéaire sur tableau de contingence.

Dans ce cas, la corrélation ne peut-être étudiée directement car chaque couple de modalités se retrouve plusieurs fois dans l’étude. La meilleure façon de procéder consiste à présenter les calculs sous forme de tableau.

jyix ,

Les définitions sont les mêmes que dans les paragraphes précédents ; mais la forme de chacun des coefficients r, a, b, a’, b’ est plus complexe et les moyens mis en place pour les déterminer plus lourds

La représentation graphique est nécessaire pour se faire une idée du type d’ajustement. Pour le valider, nous utilisons le coefficient de corrélation dont la forme est donnée ci-après : 

21

1 122

1 122

1 1,

ri

i

lj

jynjyijn

ri

i

lj

jxnixijn

ri

i

lj

jyxnjyixijn

yxr

La règle de décision concernant ce coefficient est la même que celle précédemment éditée.  Les coefficients a et b (ou a’ et b’) des ajustements sont donnés par:

 

 

xaybetri

i

lj

jxnixijn

ri

i

lj

jyxnjyixijn

a

1 122

1 1

Comment calculer ces nombres? La meilleure méthode consiste à présenter les calculs sous forme de tableau, en utilisant la forme développée de chacun des coefficients.   

21

1 .1 .

1),(

2222

lj

jynjyjn

ri

ixnixin

ri

iyxnixiA

yxr

ri

i jyjBjyjB

jB

ri

i jyjnjyjn

ri

i jyjnjyjn

ri

i ixiAri

i ixinri

i ixinnjn

ijn

rx

ix

xixiAiAixinixinin

lyjyy

1

12

.2

.

1..

112

.1 ..

1

2...1

Exemple.On dispose de l’information suivante:

2 3 4 5 620 1 5 625 5 15 24 4 4830 5 7 8 5 1 2635 10 8 2 20

15 20 25 30 10 100

.in

jn.

On calcule les moyennes arithmétiques de la manière suivante:

2 3 4 5 620 1 5 6 12025 5 15 24 4 48 120030 5 7 8 5 1 26 78035 10 8 2 20 700

15 20 25 30 10 100 280030 60 100 150 60 400

.in ixin . 2. ixin

jn.jyjn.2. jyjn

et1002800x 100

400y

Calcul des variances:

2 3 4 5 620 1 5 6 240025 5 15 24 4 48 3000030 5 7 8 5 1 26 2340035 10 8 2 20 24500

15 20 25 30 10 100 80300

60 180 400 750 360 1750

.in ixin . 2. ixin iA

jn.jyjn.2. jyjn

2

1002800

10080300

XV2

100400

1001750

YV

Calcul de la covariance:2 3 4 5 6

20 1 5 6 35 70025 5 15 24 4 48 219 547530 5 7 8 5 1 26 94 282035 10 8 2 20 52 1820

15 20 25 30 10 100 10815

.iniA ixiA

jn.

100400

1002800

10010815,cov

YX

et le coefficient de corrélation:

5,02

417502

2880300

28.4.10010815,

YXr

Remarque.On peut utiliser cette méthode pour des

ajustements non linéaires mais s’y ramenant..

5. Test d’un coefficient de corrélation.

On dispose d’une information concernant deux variables X et Y mesurées sur un échantillon de n individus.

La question qui se pose est alors: est ce que la valeur du coefficient de corrélation est significative?

On démontre qu’elle l’est avec un risque donné de se tromper, si

trnr

212

où n est le nombre d’observations, r le coefficient de corrélation et le risque.

La valeur étant lue dans la table de la loi de Student à n-1 degrés de liberté.

t

top related