méthodes statistiques. ajustements et corrélation
TRANSCRIPT
Méthodes statistiques.
Ajustements et corrélation
1. Introduction.
Nous avons vu qu’il était possible d’étudier deux variables simultanément. Le résultat est un tableau de contingence.
Un tel tableau permet de clarifier l’information ; mais également de créer les outils pour étudier une possible relation fonctionnelle entre les deux variables.
Dans cette étape nous étudions les différentes possibilités permettant de mettre en avant une relation fonctionnelle entre deux variables.
2. Ajustement et corrélation linéaire.
Soient X et Y deux variables étudiées sur n individus. Soient xi et yi les modalités respectives de ces variables. Le problème à traiter est le suivant:
“Peut on déterminer 2 nombres a et b tels que l’une des 2 variables s’exprime en fonction de l’autre de la manière suivante ?”
Y = aX+ b
L’une des méthodes possibles pour répondre à ce problème nécessite que l’on trace une représentation graphique de Y en fonction de X. Le graphique orientera notre recherche. Trois types de représentations sont possibles:
Les points sont alignés, les variables évoluent dans le même sens ou en sens contraire. De la connaissance de l ’une des deux variables on déduit l ’autre.
Type 1.
Exemple:On donne dans le tableau suivant:
a. Les heures passées par les salariés à réaliser un certain travail X;
b. Les heures facturées aux clients Y.
Mois J F M A M J Temps passé 470 870 600 700 400 430
Heures facturées 560 1040 723 850 485 515
Une représentation graphique de la variable Y en fonction de la variable X peut-être réalisée:
400
500
600
700
800
900
1000
1100
400 500 600 700 800 900
Type 2
Les points sont plus dispersés, par rapport à une droite; mais l ’ajustement semble encore possible.
Exemple:On dispose des informations suivantes
concernant:a. le chiffre d ’affaires d ’une
entreprise en millions d ’euros X;b. Le résultat réalisé sur la même
période Y exprimé dans la même unité.
Année 1 2 3 4 5 6 C.A. 1000 1100 1200 1400 1700 1950
Résultat 150 145 165 210 280 420
La représentation graphique du résultat en fonction du chiffre d ’affaires peut-être réalisée:
100150200250300350400450
900 1400 1900 2400
Type 3
Pas d ’ajustement linéaire possible; mais peut-être l ’étude d’une saisonnalité.
X
Y
Exemple:Les ventes journalières de la référence
00000000013122 sur une semaine sont représentées de la manière suivante:
0
20
40
60
80
100
0 2 4 6 8
Si il semble que le modèle présenté ci-dessus est possible, on peut déterminer un coefficient appelé coefficient de corrélation linéaire dont la forme de définition est donnée ci-après.
21
1
2
1
2
1),(
ni
i i
ni
i i
ni
iii
yyxx
yyxxYXr
Ce coefficient doit nous aider à prendre une décision quant à l’ajustement. La règle suivante peut-être appliquée:
Si la valeur absolue du coefficient est proche de 1 par valeur inférieure, l’ajustement est possible;
Sinon, l’ajustement linéaire n’est pas possible.
Q u a n d l ’ a j u s t e m e n t e s t p o s s i b l e , o n p e u t d é t e r m i n e r l e s c o e f f i c i e n t s d e l ’ a j u s t e m e n t , a e t b . C e s c o e f f i c i e n t s s o n t d o n n é s p a r l e s r e l a t i o n s :
ni
ixix
ni
iyiyxix
a
1
21
xayb
On doit noter que les nombres r, a et b sont des fonctions qui existent dans toutes les machines, même la plus simple. Ils sont également disponibles dans Excel, ou peuvent être calculés de la manière suivante:
a = index(droitereg(zoneY ;zoneX) ; 1)b = index(droitereg(zoneY ;zoneX) ; 2)
La formule développée de ces coefficients est donnée par :
ni
ii
ni
iii
ni
ii
ni
ii
ni
iii
xnx
yxnyxa
ynyxnx
yxnyxYXr
1
22
1
21
1
22
1
22
1,
Si il est impossible de calculer ces coefficients directement, on peut mener les calculs sous forme de tableau
xi yi xi yi xi xi yi yi
i ix
i iy iyi ix 2i ix
i iy2
Dans la dernière ligne, nous avons les
informations nécessaires au calcul.
Remarques. 1. La méthode présentée est la même que la méthode appelée méthode des moindres carrés. 2. Si l’analyste souhaite regarder l’information de base comme des vecteurs dans un espace de dimension n et non comme une série de nombres réels, alors, le coefficient de corrélation s’interprète comme un cosinus. Cette façon de voir l’information oriente l’analyste vers des méthodes multidimensionnelles.
3. Il y a une relation linéaire entre Y et X. Si on peut ajuster dans un sens, il est possible d’ajuster dans l’autre. Ainsi, la relation
X = a’Y + b’
peut-être calculée
Les coefficients de cet ajustement peuvent être peuvent être donnés par les relations suivantes :
yaxb
ni
iyiy
ni
iyxiyix
a
122
1
L e s m é t h o d e s d e c a l c u l s o n t l e s m ê m e s q u e p o u r a e t b ; m a i s l e r ô l e d e c h a q u e v a r i a b l e a c h a n g é . A i n s i ,
a ’ = i n d e x ( d r o i t e r e g ( z o n e X ; z o n e Y ) ; 1 ) b ’ = i n d e x ( d r o i t e r e g ( z o n e X ; z o n e Y ) ; 2 )
4 . N o u s p o u v o n s é g a l e m e n t c o n s t a t e r q u e
2,
YXraa
3. Ajustements non linéaires mais s’y ramenant.
Certaines fonctions comme les exponentielles, les puissances, les paraboles ou les hyperboles ont des rôles particuliers en gestion. Reconnaître ces modèles est fréquement utile pour le décideur.
Il est, pour ces modèles, toujours possible de se ramener aux ajustements linéaires.
31. Ajustement exponentiel ou semi-logarthmique.
Le problème posé est le suivant :
Existe t’il entre les deux variables une relation du type:
aXbY .
Si les deux variables sont liées de cette manière, après application d’une fonction logarithme (base quelconque) aux deux membres de l’égalité, on trouve la relation:
log(Y) = log(b)+ X log(a)
Nous constatons que c’est l’équation d’une droite. Cela signifie que si l’expression entre les variables est une exponentielle, l’expression de la fonction logatithme est une droite. Ce problème a été traité dans le paragraphe précédent.
4
5
6
7
8
9
10
11
12
13
0 2 4 6 8
0,6
0,7
0,8
0,9
1
1,1
1,2
0 2 4 6 8
BAXY
BA
log
,
BbAa exp,exp
Exemple.Le chiffre d’affaires d’une entreprise a
évolué de la manière suivante sur 5 ans.
Année 1 2 3 4 5
C.A. 1000 1100 1200 1400 1700
Titre du graphique
y = 850,63e0,1302x
900
1100
1300
1500
1700
1900
0 2 4 6
y = 0,0566x + 2,9297
2,95
3
3,05
3,1
3,15
3,2
3,25
0 2 4 6
32. Ajustement puissance ou log-log.La relation recherchée est du type:
XabY
L’application d’une fonction log des deux côtés de l’égalité nous permet de répondre à la question.
3
5
7
9
11
13
0 100 200 300
0,5
0,6
0,7
0,8
0,9
1
1,1
1,2
0 1 2 3
BXaY
Ba
loglog
,
Bba exp,
Exemple.Le volume des ventes d’un produit a
évolué en fonction du prix de vente unitaire de la manière suivante:
Nombre d’articles Vendu
1000 2000 4000 5000
Prix de vente unitaire 170 75 20 10
y = 197,14x-1,7306
0
50
100
150
200
250
0 2 4 6
y = -1,7306x + 2,2948
0,9
1,1
1,3
1,5
1,7
1,9
2,1
2,3
2,5
0 0,2 0,4 0,6 0,8
4. Ajustement linéaire sur tableau de contingence.
Dans ce cas, la corrélation ne peut-être étudiée directement car chaque couple de modalités se retrouve plusieurs fois dans l’étude. La meilleure façon de procéder consiste à présenter les calculs sous forme de tableau.
jyix ,
Les définitions sont les mêmes que dans les paragraphes précédents ; mais la forme de chacun des coefficients r, a, b, a’, b’ est plus complexe et les moyens mis en place pour les déterminer plus lourds
La représentation graphique est nécessaire pour se faire une idée du type d’ajustement. Pour le valider, nous utilisons le coefficient de corrélation dont la forme est donnée ci-après :
21
1 122
1 122
1 1,
ri
i
lj
jynjyijn
ri
i
lj
jxnixijn
ri
i
lj
jyxnjyixijn
yxr
La règle de décision concernant ce coefficient est la même que celle précédemment éditée. Les coefficients a et b (ou a’ et b’) des ajustements sont donnés par:
xaybetri
i
lj
jxnixijn
ri
i
lj
jyxnjyixijn
a
1 122
1 1
Comment calculer ces nombres? La meilleure méthode consiste à présenter les calculs sous forme de tableau, en utilisant la forme développée de chacun des coefficients.
21
1 .1 .
1),(
2222
lj
jynjyjn
ri
ixnixin
ri
iyxnixiA
yxr
ri
i jyjBjyjB
jB
ri
i jyjnjyjn
ri
i jyjnjyjn
ri
i ixiAri
i ixinri
i ixinnjn
ijn
rx
ix
xixiAiAixinixinin
lyjyy
1
12
.2
.
1..
112
.1 ..
1
2...1
Exemple.On dispose de l’information suivante:
2 3 4 5 620 1 5 625 5 15 24 4 4830 5 7 8 5 1 2635 10 8 2 20
15 20 25 30 10 100
.in
jn.
On calcule les moyennes arithmétiques de la manière suivante:
2 3 4 5 620 1 5 6 12025 5 15 24 4 48 120030 5 7 8 5 1 26 78035 10 8 2 20 700
15 20 25 30 10 100 280030 60 100 150 60 400
.in ixin . 2. ixin
jn.jyjn.2. jyjn
et1002800x 100
400y
Calcul des variances:
2 3 4 5 620 1 5 6 240025 5 15 24 4 48 3000030 5 7 8 5 1 26 2340035 10 8 2 20 24500
15 20 25 30 10 100 80300
60 180 400 750 360 1750
.in ixin . 2. ixin iA
jn.jyjn.2. jyjn
2
1002800
10080300
XV2
100400
1001750
YV
Calcul de la covariance:2 3 4 5 6
20 1 5 6 35 70025 5 15 24 4 48 219 547530 5 7 8 5 1 26 94 282035 10 8 2 20 52 1820
15 20 25 30 10 100 10815
.iniA ixiA
jn.
100400
1002800
10010815,cov
YX
et le coefficient de corrélation:
5,02
417502
2880300
28.4.10010815,
YXr
Remarque.On peut utiliser cette méthode pour des
ajustements non linéaires mais s’y ramenant..
5. Test d’un coefficient de corrélation.
On dispose d’une information concernant deux variables X et Y mesurées sur un échantillon de n individus.
La question qui se pose est alors: est ce que la valeur du coefficient de corrélation est significative?
On démontre qu’elle l’est avec un risque donné de se tromper, si
trnr
212
où n est le nombre d’observations, r le coefficient de corrélation et le risque.
La valeur étant lue dans la table de la loi de Student à n-1 degrés de liberté.
t