statistiques, deuxième séance licence de psychologie

48
Statistiques, deuxième séance Licence de psychologie

Upload: viviette-delarue

Post on 04-Apr-2015

108 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Statistiques, deuxième séance Licence de psychologie

Statistiques, deuxième séance

Licence de psychologie

Page 2: Statistiques, deuxième séance Licence de psychologie

2. Régression linéaire double

Cas de deux facteurs

Page 3: Statistiques, deuxième séance Licence de psychologie

PlanPlan

1. Un exemple et sa formalisation2. Les conditions d’application3. La procédure4. L’interprétation des résultats5. Exemples supplémentaires

Page 4: Statistiques, deuxième séance Licence de psychologie

2.1. Un exemple

Psychologie du « travail »

Page 5: Statistiques, deuxième séance Licence de psychologie

Greeley, ColoradoGreeley, ColoradoYou can smell Greeley,

Colorado, long before you can see it. The smell is hard to forget but not easy to describe, a combination of live animals, manure, and dead animals being rendered into dog food.

Eric Schlosser, Fast Food Nation, Peguin Books, 2002. P 149.

On sent Greeley (Colorado) bien avant de le voir. L’odeur est difficile à oublier, mais pas facile à décrire. Une combinaison d’animaux vivants, de fumier, de cadavres transformés en pâtée pour chiens.

Page 6: Statistiques, deuxième séance Licence de psychologie

Satisfaction au travail…Satisfaction au travail…

Grâce à un questionnaire détaillé, nous pouvons mesurer la satisfaction au travail d’employés attachés à des entreprises de l’industrie alimentaire. Le résultat du questionnaire, une fois codé, nous donne un score S de satisfaction

Nous aimerions savoir dans quelle mesure cette satisfaction dépend de l’ancienneté A (en années) et des responsabilités R (score) incombant aux employés.

Page 7: Statistiques, deuxième séance Licence de psychologie

Formalisation de l’exemple

Formalisation de l’exemple

Nous cherchons à déterminer dans quelle mesure la satisfaction dépend des responsabilités et de l’ancienneté

Cela pourrait permettre de prédire la satisfaction des futurs employés

On étudie le lien entre deux facteurs catégoriels quantitatifs X1 et X2, et une variable dépendante, également quantitative, X0

Afin de prédire la VD en fonction des deux VI

Page 8: Statistiques, deuxième séance Licence de psychologie

Formalisation de l’exemple

Formalisation de l’exemple

Nous voulons un modèle linéaire

Nous voulons généraliser la régression linéaire simple

Page 9: Statistiques, deuxième séance Licence de psychologie

On cherche :On cherche :

0 0 1 1 2 2X c c X c X

0 1 2S c c R c A

Page 10: Statistiques, deuxième séance Licence de psychologie

Il faut doncIl faut donc

Pouvoir mesurer l’erreur d’estimationMinimiser cette erreur pour déterminer les

coefficients ci

Déterminer les rôles respectifs des deux facteurs et leur éventuelle interaction dans leur effet sur la variable dépendante

Page 11: Statistiques, deuxième séance Licence de psychologie

2.2. Conditions d’application

De la régression multiple

Page 12: Statistiques, deuxième séance Licence de psychologie

Situation statistiqueSituation statistique

Nous disposons dedeux facteurs numériques

Et d’unevariable dépendante numérique

Page 13: Statistiques, deuxième séance Licence de psychologie

NotationsNotations

Nous noterons la variable X0 et les facteurs X1 et X2.

Nous noterons les coefficients de corrélation simples

0 101

i j

X X

ij X X

r au lieuder

r au lieuder

Page 14: Statistiques, deuxième séance Licence de psychologie

2.3. Procédure

Méthode, calculs

Page 15: Statistiques, deuxième séance Licence de psychologie

Coefficients de corrélation simples

Coefficients de corrélation simples

On calcule les coefficients de corrélations simplesQui donnent la matrice des coefficients de corrélation

simples

01 02

10 12

20 21

11

1

r r

R r r

r r

Page 16: Statistiques, deuxième séance Licence de psychologie

Coefficients de corrélation simples

Coefficients de corrélation simples

On calcule les coefficients de corrélations simplesQui donnent la matrice des coefficients de corrélation

simples

01 02

12

1* 1* * 1

r r

R r

Page 17: Statistiques, deuxième séance Licence de psychologie

AlphaAlpha

On calcule ensuite les coefficients de régression partiels

01 02 121 2

12

02 01 122 2

12

1

1

r r r

r

r r r

r

Page 18: Statistiques, deuxième séance Licence de psychologie

Corrélation doubleCorrélation double

Qui donnent le coefficient de corrélation double

0,12 1 01 2 02R r r

Page 19: Statistiques, deuxième séance Licence de psychologie

Enfin !Enfin !

De là, on tire les coefficients de régression :

02 2

2

01 1

1

0 1 1 2 2

c

c

y c c x c x

Page 20: Statistiques, deuxième séance Licence de psychologie

0 1 1 2 2Y c c X c X

Page 21: Statistiques, deuxième séance Licence de psychologie

Interprétation graphiqueInterprétation graphiqueOn cherche le meilleur plan pour représenter le nuage en dimension 3.

C’est illisible, aussi ne représente-t-on pas habituellement le nuage de points. -10

0

10

20

30

40

50

60

0 2 4 6 8 10

Page 22: Statistiques, deuxième séance Licence de psychologie

Corrélation partielleCorrélation partielle

Il arrive qu’on ait besoin des coefficients de corrélation partiels

2 2 2 20,12 02 0,12 01

0,1.2 0,2.12 202 01

;1 1

R r R rR R

r r

Page 23: Statistiques, deuxième séance Licence de psychologie

2.4. Interprétation

Des valeurs obtenues

Page 24: Statistiques, deuxième séance Licence de psychologie

Premières remarquesPremières remarques

Le coefficient de corrélation double R(0;1,2) est l’équivalent double de |r|, et non de r

Les « alpha » mesurent le caractère plus ou moins important des facteurs sur la VD

Les c renseignent sur le sens des liens entre facteurs et VD. Ils sont de même signe que les « alpha » correspondant. Il s’agit du sens du lien dans le modèle incorporant les deux facteurs!

Page 25: Statistiques, deuxième séance Licence de psychologie

Corrélation simple et partielle

Corrélation simple et partielle

r(0,1) mesure le lien qui existe, de fait, entre X1 et X0

Entre « glace » et « lunette », le coefficient est élevé

R(0,1.2) mesure le lien qui existerait entre X1 et X0 si X2 n’intervenait pas

Entre « glace » et « lunette », si l’on supprime l’effet du soleil, le coefficient est faible

Page 26: Statistiques, deuxième séance Licence de psychologie

Causalités possiblesCausalités possiblesX(0) et X(1) sont liés

Causalitédirecte

0-1

Causalitédirecte

1-0

Causalitédouble2-0; 2-1

« AucuneCausalité »

SalaireSatisfaction

Maladie defoie

Alcool

GlaceLunettes

Note,Évolution

Page 27: Statistiques, deuxième séance Licence de psychologie

Alpha et cAlpha et c

Alors que les « alpha » mesurent le caractère plus ou moins prédictif des facteurs

Les « c » mesurent le caractère plus ou moins discriminant des facteurs

Est discriminant un facteur tel qu’une petite variation entraîne une grande variation de la VD

Est prédictif un facteur dont la connaissance renseigne efficacement sur celle de la VD

Page 28: Statistiques, deuxième séance Licence de psychologie

Discriminant vs prédictifDiscriminant vs prédictif

0

5

10

15

0 1 2 3 4 5

Page 29: Statistiques, deuxième séance Licence de psychologie

Discriminant vs prédictifDiscriminant vs prédictif

0

5

10

15

0 1 2 3 4 5

Page 30: Statistiques, deuxième séance Licence de psychologie

Discriminant vs prédictifDiscriminant vs prédictif

0

5

10

15

0 1 2 3 4 5

Page 31: Statistiques, deuxième séance Licence de psychologie

Discriminant vs prédictifDiscriminant vs prédictif

0

5

10

15

0 1 2 3 4 5

Page 32: Statistiques, deuxième séance Licence de psychologie

2.5. Exemple pratique

De la régression linéaire double

Page 33: Statistiques, deuxième séance Licence de psychologie

Retour à l’abattoir

Page 34: Statistiques, deuxième séance Licence de psychologie

SituationSituation

Nous disposions d’un échantillon d’employés, appartenant à la population des employés travaillant dans les abattoirs.

Nous avions relevé sur cet échantillon les trois variables numériques suivantes :

1) La satisfaction au travail S (VD)2) L’ancienneté A (en années, VI)3) Les responsabilités R (score, VI)

Page 35: Statistiques, deuxième séance Licence de psychologie

Données prétraitéesDonnées prétraitées

La matrice des corrélations simples est, en posant VI(1)=A :

1 .23 .671 .57

1

Page 36: Statistiques, deuxième séance Licence de psychologie

Écarts types et moyennesÉcarts types et moyennes

0

1

2

1.5

2.3

0.9

0m

Page 37: Statistiques, deuxième séance Licence de psychologie

Coefficients simplesCoefficients simples

L’ancienneté est liée aux responsabilitésLa satisfaction est liée aux responsabilitésLa satisfaction est peu liée linéairement à

l’anciennetéTous les liens sont positifs

1 .23 .671 .57

1

Page 38: Statistiques, deuxième séance Licence de psychologie

AlphaAlpha

On calcule à partir des coefficients de corrélation simple :

01 02 121 2

12

02 01 122 2

12

.231

.801

r r r

r

r r r

r

1 .23 .671 .57

1

Page 39: Statistiques, deuxième séance Licence de psychologie

InterprétationInterprétationOn voit également que les responsabilités sont

plus prédictives de la satisfaction (le alpha correspondant étant plus grand en valeur absolue).

On voit que le premier facteur est lié négativement, dans l’équation de régression, à la VD. Ainsi, le modèle prévoit que la satisfaction diminue avec l’ancienneté, à responsabilités égales. (pourtant le r est positif).

Page 40: Statistiques, deuxième séance Licence de psychologie

MystèreMystèreLa satisfaction est liée négativement à l’ancienneté (c1)La satisfaction est liée positivement à l’ancienneté (r(01))On peut concevoir les choses comme suit :

L’ancienneté à un effet négatif (1 an: -1)Les responsabilités ont un effet positif (1 point: +2)L’ancienneté est les responsabilités sont liées: (1 an: +1)Dans ce cas, bien que l’ancienneté ait un effet négatif, visible

dans le modèle double, le r est positif à cause de RMais il est également évident qu’on a pu oublier un

facteur important…

Page 41: Statistiques, deuxième séance Licence de psychologie

RR

On en déduit

1 .23 .671 .57

1

0,12 1 01 2 02

.23 .23 .80 .670.70

R r r

Page 42: Statistiques, deuxième séance Licence de psychologie

InterprétationInterprétation

Le coefficient ne semble pas mauvais. On a donc raison ici d’utiliser (avec prudence toutefois !) le modèle de régression linéaire, qui permet de prévoir la satisfaction.

On peut presque affirmer que la satisfaction dépend de l’ancienneté et des responsabilités

Page 43: Statistiques, deuxième séance Licence de psychologie

Et enfinEt enfin1 .23 .67

1 .571

02 2

2

01 1

1

0 1 1 2 2 0

1.33

0.15

0

c

c

y c c x c x c

Page 44: Statistiques, deuxième séance Licence de psychologie

InterprétationInterprétation

On voit donc que la responsabilité est plus discriminante que l’ancienneté.

L’équation de régression ainsi obtenu permet de prédire les valeurs de S connaissant A et T, en remplaçant tout simplement A et T par leur valeurs.

Page 45: Statistiques, deuxième séance Licence de psychologie

Et enfinEt enfin1 .23 .67

1 .571

ˆ 1.33 0.15S R A

Page 46: Statistiques, deuxième séance Licence de psychologie

InterprétationInterprétationIl semble donc que l’ancienneté ait un effet plutôt

négatif. Cela provient entre autre (on a déjà donné une explication) sans doute du fait que si l’ancienneté augmente mais pas les responsabilités, cela est considéré comme un déclassement, peu ou prou.

Pour augmenter la satisfaction, il faut sans doute donner plus de responsabilités. Cela n’est pourtant pas sûr : ne donne-t-on pas déjà les responsabilités aux personnes les plus motivées ?

Page 47: Statistiques, deuxième séance Licence de psychologie

Prudence avec la régression

Quelques pièges à éviter

Page 48: Statistiques, deuxième séance Licence de psychologie

La régression linéaire double (multiple) dépend grandement du choix des facteurs. (conditions de travail, lieu de travail)

Comme dans le cas simple, corrélation n’est pas causalité

R est une estimation

Il n’y a rien de surprenant à obtenir un lien croissant ou décroissant selon la deuxième VI avec les mêmes données

Du fait que la représentation graphique est illisible, on ne voit pas bien les valeurs aberrantes.