master 2 ieaps statistiques - les staps, l'université, l
Post on 16-Jun-2022
2 Views
Preview:
TRANSCRIPT
Master 2 IEAPS
STATISTIQUES – METHODES QUANTITATIVES
Didier Delignières
Les statistiques sont un ensemble de procédures destinées à traiter des données
quantitatives. Elles remplissent deux fonctions fondamentales: il s'agit tout d'abord de
décrire les données recueillies: on parle de statistiques descriptives. Un autre type de
procédures vident à vérifier des hypothèses quant à l'effet de certains facteurs sur les
variables mesurées. On parle alors de statistiques inférentielles. On peut comparer ces
deux étapes dans un premier temps à une enquête policière, destinée à recueillir le
maximum d'informations, puis au procès visant à établir les responsabilités.
1. La mesure.
Puisque les statistiques servent à traiter des données numériques, se pose dans un
premier temps le problème du recueil de ces données, c'est-à-dire le problème de la
mesure.
1.1. Mesure, échantillon, population.
Une échantillon est un ensemble de données (et non un ensemble d'individus).
Un échantillon est supposé représentatif d'une population parente de données. Il faut
noter que la population parente n'est pas une population démographique: c'est l'ensemble
des mesures possibles, compte-tenu de l'ensemble des variables incontrôlables. La
population parente est donc toujours infinie.
Une donnée est une information de nature numérique. La mesure va consister à
relever des données numériques constituant l'échantillon. Stevens (1968/69) a proposé
une théorie désormais classique de la mesure. S'insurgeant contre l'idée ancienne que
mesurer, c'est compter, il estime que le système numérique est un modèle comprenant
plusieurs sortes, ou plutôt plusieurs niveaux de règles.
La mesure est le fait d'attribuer des nombres à des objets ou à des événements, en
suivant une règle rigoureuse. Puisqu'il y a différentes sortes de règles, il y a différentes
sortes de mesure. La mesure sera possible quand il y aura isomorphisme entre les
relations empiriques des objets et les relations formelles des nombres. A cette condition,
les secondes servent de modèle pour les premières.
1.2. Les niveaux de mesure
Stevens décrit quatre niveaux de propriétés empiriques des objets pour lesquelles
les nombres peuvent servir de modèles. Chacune de ces échelles se caractérise, au
2
niveau mathématique, par le type de transformation que l'on peut opérer sur l'ensemble
de l'échelle sans en modifier la nature.
1.2.1. Echelles nominales
L'identité: les nombres étiquettent des objets ou des classes d'objets. Les seules
opérations empiriques possibles sont les relations d'égalité et d'inégalité entre les objets.
La Classification Périodique des Eléments est une échelle de mesure de ce niveau
(échelle nominale).
Les échelles nominales ne supportent qu'une substitution bi-univoque: chaque
évaluation est remplacée de manière univoque et exclusive par une autre. c'est ce qui se
passe par exemple lorsque l'on modifie un codage (passer de homme=M et femme =F à
homme =1 et femme=2).
L'analyse statistique va principalement porter sur les données de numération: à
chaque classe déterminée par l'échelle nominale est affecté un effectif. Les données de
numération sont toujours des entiers. Les données de numération peuvent être
présentées sous forme de tableaux de contingence.
A B C Total
Effectifs x y z x+y+z
Ces effectifs peuvent être additionnés, et transformés en fréquence (on divise
alors l'effectif d'une classe par le nombre total d'observations. La somme des fréquences
est alors égale à 1. En multipliant une fréquence par 100, on obtient un pourcentage.
L'intérêt des fréquences est de pouvoir faire des comparaisons entre distributions portant
sur des effectifs totaux différents.
1.2.2. Echelles ordinales
L'ordre: les nombres représentent les objets selon leur rang. Les opérations de
détermination du rang (inférieur à, supérieur à) sont possibles. L'échelle de dureté des
minéraux est un exemple de ce type de mesure (échelle ordinale).
Les échelles ordinales supportent toute transformation monotone croissante. Ce
type de fonction respecte l'ordre de données et les propriétés de l'échelle sont
conservées.
Les données relevées sont appelées données de rang. On peut noter que les rangs
statistiques sont déterminés de manière à ce que la somme des rangs ne varie pas, même
en cas d'ex-aecquo. Par exemple:
rang attribué rang statistique
3
A 1 1
B 2 2.5
C 2 2.5
D 4 4
4
Exercice: attribuer les rangs
_________________________________________________________________
Nbre de fautes 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
_________________________________________________________________
Effectifs 1 1 0 2 3 1 2 1 1 0 2 1 1 3 1
_________________________________________________________________
Rangs 1 2 3.5 6 8 9.5 11 12 13.5 15 16 18 20
1.2.3. Echelles d'intervalles
Les intervalles: les nombres peuvent servir à représenter les différences ou les
distances entre les éléments. On obtient des échelles de classement à intervalles égaux.
Les opérations de détermination de l'égalité des intervalles et des différences sont
possibles. les échelles de température Celsius et Fahrenheit sont de ce niveau.
Les échelles d'intervalles supportent toute transformation affine de type y=ax +
b. Ces transformations conservent la proportionnalité des intervalles et des différences.
C'est une opération de ce type qui est réalisée lorsque l'on convertit des degrés
Fahrenheit et degrés Celsius.
C°=(F° - 32) x (5/9)
1.2.4. Echelles de rapport
Les rapports: les nombres peuvent servir à représenter les rapports entre
éléments. La détermination de l'égalité des rapports est possible. Ces échelles se
distinguent des précédentes par l'apparition d'une origine, d'un zéro absolu. L'échelle
Kelvin de température est une échelle de rapport.
Les échelles de rapport ne supportent qu'une multiplication par une constante
(y=ax). Cette transformation ne modifie pas le zéro absolu de l'échelle: l'origine de
l'échelle demeure donc invariante, et la proportionnalité des rapports est maintenue.
C'est ce type de transformation qui est utilisé par exemple pour convertir une mesure des
miles aux kilomètres:
mile=1.61 x km
On peut noter à ce niveau que plus les échelles sont sophistiquées, plus les
transformations permises sont précises. Et la transformation permise à un niveau donnée
est toujours un cas particulier de la fonction permise au niveau inférieur.
Les échelles d'intervalles et de rapport procurent des données dites de scores. Les
données de scores peuvent être représentées de diverses manières:
- le tableau des effectifs (quels effectifs pour chaque niveau de mesure).
5
- le tableau des groupement en classes d'intervalles égaux
- le tableau des proportions
- le tableau des fréquences
Classe Valeur centrale Effectif Fréquence Pourcentage
xn-xn' X=(xn-xn')/2 n n/N (n*100)/N
- histogramme (effectif)
- courbe de fréquence
Exercice:
Score Effectif Fréquence Pourcentage
1
2
3
4
5
6
7
2
6
5
3
3
6
1
.076
.231
.192
.115
.115
.231
.038
7.6
23.1
19.2
11.5
11.5
23.1
3.8
26 1 100
2. Statistiques descriptives.
Un premier objectif des statistiques est de décrire au mieux les échantillons,
c'est-à-dire de les synthétiser au travers d'indices descriptifs, appelés également résumés
statistiques. Ces résumés visent avant tout à donner des renseignements sur la tendance
centrale et sur la dispersion de la distribution.
2.1. Tendance centrale.
2.1.1. Moyenne.
La valeur centrale qui résume au mieux une distribution de données de scores est
la moyenne arithmétique:
mx
N= ∑
La moyenne a une propriété fondamentale: la somme des écarts à la moyenne est
nulle:
6
Σ (x-m)=0
Les échelles de rapports permettent également le calcul de la moyenne
géométrique, définie comme la racine nième du produit des n valeurs, ces dernières
étant toutes strictement positives, et de la moyenne harmonique, définie comme l'inverse
de la moyenne arithmétique des inverses des n valeurs, ces dernières étant toutes
strictement positives. Ces moyennes sont souvent préférée à la moyenne arithmétique,
notamment en psychophysique.
Exercice:
Score 1 2 3 4 5 6 7 8
Effectif 2 6 5 3 3 8 7 5 39
Totaux
partiels
2 12 15 12 15 48 49 40 193
Effectifs
cumulés
2 8 13 16 19 27 34 39
m= Σ(x)/N= 193/39 = 4.949
2.1.2. Médiane.
Le concept de moyenne n'a de sens que pour les données de scores, c'est-à-dire
pour les échelles d'intervalles et de rapport. La tendance centrale d'une distribution de
variables ordinales est représenté par la médiane. La médiane est définie comme la
valeur de la variable telle que 50% des observations lui soient inférieure et 50% lui
soient supérieure. Lorsque ne nombre total d'observation est impair, le définition de la
médiane ne pose pas de problème: le rang médian est égal à
:
k=(N+1)/2
Dans le cas d'effectifs pair, on prend en général pour convention "d'arrondir" k
au premier entier supérieur au quotient obtenu.
Il est à noter que la médiane représente souvent non pas une donnée mais une
classe de données ayant obtenu le même rang. Ceci peut poser problème quand par
exemple on veut diviser un groupe par une coupure à la médiane (median split). Il faut
alors décider à quelle demi-distribution appartiendra la classe médiane: on décide en
général de réaliser l'affectation qui respectera au mieux la répartition théorique de 50-50.
Notons enfin qu'il est tout à fait possible de calculer la médiane d'un échantillon
de données de scores.
Exercice:
7
k=(39+1)/2= 40/2=20
La médiane est égale à 6
2.1.3. Mode.
En ce qui concerne les échelles nominales, c'est-à-dire les données de
numération, ni la moyenne ni la médiane ne sont accessibles.
Le mode est défini comme la catégorie pour laquelle l'effectif est le plus grand
(ou comme la valeur la plus fréquemment attribuée). Le mode n'a vraiment de sens que
si une catégorie présente un effectif nettement supérieur aux autres. On peut noter enfin
que le mode est lié à la conception des classes: il suffit par fois de subdiviser la classe
modale en deux sous-classes pour que le mode ne se trouve plus dans l'une d'entre elles.
Exercice:
Mode= 6
2.2. Mesure de dispersion.
Ces paramètres rendent compte de la façon dont se dispersent les données autour
de la tendance centrale.
2.2.1. Variance et écart-type
Plusieurs mesures de la dispersion sont envisageables: on peut par exemple
mesurer l'intervalle de variation, c'est-à-dire la différence entre la plus grande et la plus
petite mesure. Cet indice ne rend pas compte de la dispersion des notes autour de la
moyenne.
Une approche plus intéressante consiste à calculer la somme des carrés des écarts
à la moyenne. Il est à rappeler que la somme des écarts à la moyenne est toujours nulle
(les intervalles s'annulant de part et d'autre de la moyenne). On peut contourner le
problème soit en prenant les valeurs absolues de écarts à la moyenne, soit en les élevant
au carré. Cet indice ne peut cependant être utilisé que pour la comparaison
d'échantillons de taille identique.
Pour des échantillons de taille différentes, on a recours à la variance, qui est
égale à la moyenne des carrés des écarts à la moyenne:
vx m
N=
−∑ ( )2
On montre que:
8
Σ(x-m)² =Σ(x²-2mx+m²)
=Σx²-2mΣx+Σm²
=Σx²-2(Σx/N)Σx+N(Σx/N)²
=Σx²-2(Σx)²/N+Σx²/N
=Σx²-(Σx)²/N
On a donc une expression plus simple de la variance:
vx
x
N
N=
− ∑∑2
2( )
Cette variance calculée sur un échantillon n'est évidemment qu'une estimation de
la variance de la population parente. On montre qu'une meilleure estimation est obtenue
par la formule suivante:
vx
x
N
N=
−
−
∑∑
2
2
1
( )
N-1 exprime le nombre de degrés de liberté de la variable: c'est-à-dire qu'il
suffit que N-1 valeurs soient connues pour la détermination de la nième valeur.
On note également que l'écart entre variance estimée et variance calculée est
d'autant plus faible que N est grand.
On utilise plus couramment l'écart-type, qui est égal à la racine carrée de la
variance.
σ = v
L'écart-type a l'avantage d'être une mesure de distance (ou d'intervalle), alors que
la variance est une mesure d'un intervalle au carré. Une grandeur donnée peut de ce fait
être comparée à son écart-type, mais pas à sa variance.
9
x x-m (x-m)² x2
1
1
2
2
3
5
5
5
6
6
7
-2.909
-2.909
-1.909
-1.909
-0.909
1.091
1.091
1.091
2.091
2.091
3.091
8.462
8.462
3.644
3.644
0.826
1.190
1.190
1.190
4.372
4.372
9.554
1
1
4
4
9
25
25
25
36
36
49
Σx=43
N=11
Σ(x-m)²=46.906 Σx2=215
m=43/11= 3.909
calcul 1: v=46.909/10=4.691
σ=2.166
calcul 2
v =(215-(43²/11))/10
=(215-(1849/11))/10
=(215-168.091)/10
=46.909/10
=4.691
Exercice:
Classe Valeur centrale
xi
Effectif
ni
nixi nixi2
158-162
163-167
168-172
173-177
178-182
183-187
188-192
160
165
170
175
180
185
190
2
4
5
9
6
3
1
320
336
850
1575
1080
555
190
51200
108900
144500
275625
194400
102675
36100
Σni=30
(N)
Σnixi=5230
(Σx)
Σnixi2=913400
(Σx2)
10
Moyenne = 174.333
Variance = (913400-((5230)²/30)/30
= 56.437
Ecart-type = 7.512
On peut noter à ce niveau que si l'on transforme une distribution d'intervalle par
une transformation affine (y=ax + b), on a les relations suivantes:
m2= (a*m1) + b
σ2=a*σ2
Les échelles de rapport permettent également le calcul du coefficient de
variation, égal à l'écart-type divisé par la moyenne: ce coefficient permet de comparer la
dispersion de deux distributions en s'affranchissant de l'unité de mesure, et même de la
réalité mesurée (la taille est-elle plus dispersée que le poids?).
2.2.2. Autres mesures de dispersion.
L'entropie est une mesure spécifique de la dispersion pour les échelles
nominales. Elle est maximale lorsque les observations se répartissent de manière
équilibrée sur toutes les catégories. Elle est minimale lorsque ces observations ne se
répartissent que sur un nombre restreint de classes.
La dispersion des distributions ordinales est appréciée par une série de valeurs
jalonnant la distribution, appelées quantiles. Si l'on sépare la distribution en 10
intervalles, on parle de déciles. Dans ce cas 10% des observations figurent dans chacun
des 10 intervalles. On utilise souvent les quartiles, divisant la distribution en quatre
intervalles regroupant chacun 25% de l'effectif: on distingue alors le quartile inférieur
(premier quartile), la médiane (second quartile) et le quartile supérieur (ou troisième
quartile).
Pratiquement, la position du quartile 1 est donné par:
(rang de la première donnée + rang de la médiane)/2
et la position du Quartile 3:
(rang de la médiane + rang de la dernière donnée)/2.
L'utilisation des quartiles, déciles et centiles est extrêmement répandue dans la
standardisation des tests. Elle permet de situer rapidement un sujet au sein d'une
population de référence (par exemple, une personne qui pèse 70kg et mesure 1m80 est-
elle plus lourde que grande ou plus grande que lourde?).
11
12
Exercice: Calcul des quartiles et déciles.
Scores brutes Scores classés Rangs
15 12 1
12 15 2
59 23 3
45 35 4
78 45 5
23 59 6
65 64 7
98 65 8
64 78 9
94 94 10
35 98 11
N=11 Moyenne= 588/11= 53.45
Rang médiane= (11+1)/2=6 Médiane= 59
Rang Quartile 1= (1+6)/2=3.5 Quartile 1= 35
Rang Quartile 3= (6+11)/2=8.5 Quartile 3= 78
3. Distribution des échantillons.
On appelle distribution la répartition des effectifs sur chacun des niveaux de la
mesure. Dans le cas des données de scores, on répartit les effectifs sur des intervalles de
mesures. On représente graphiquement les distributions par des courbes de fréquences.
Ces distributions peuvent être symétriques, modérément dissymétriques, biaisées à
gauche ou à droite, en J ou en I, ou bimodales.
Couramment, les statisticiens modélisent leurs distributions en fonctions
binomiales ou normales. Le modèle binomial et le modèle normal renvoient à peu près à
la même réalité (distributions symétriques autour de la moyenne). Néanmoins le modèle
binomial renvoie à des variations discrètes et la modèle normal à des variations
continues. Ces modèles sont intéressants dans le sens où ces distributions possèdent des
propriétés mathématiques puissantes qui sous-tendent les tests statistiques.
3.1. La distribution binomiale
Une variable se répartit selon une distribution binomiale en n+1 classes si les
fréquences des n+1 valeurs de la variable sont données par les termes successifs du
développement de (p+q)n, avec p+q=1.
13
Par exemple, on tire dans une urne contenant un grand nombre de boules noire
ou blanche, dans les proportions p et q, respectivement. Le nombre de boules noires peut
prendre n+1 valeurs: 0, 1, 2, ..., n. Les différentes probabilités d'apparition de ces
valeurs suit une loi binomiale.
La distribution binomiale est symétrique si p=q=1/2, et se rapproche de la
symétrie si n devient grand. La moyenne de la distribution est
m=n*q
et la variance de la distribution
v=n*p*q
3.2. La distribution normale
La distribution normale est symétrique, et centrée sur sa moyenne. Elle présente
deux points d'inflexion I et I', symétriques (points où la tangente traverse la courbe). Ces
points d'inflexion sont situés à un écart-type de la moyenne
I=m+σ et I'=m-σ
L'équation de la courbe représentative est de la forme suivante:
f x e
x m
( )
( )
=−
−1
2
2
22
σ πσ
Une distribution normale est entièrement définie par sa moyenne et son écart-
type.
On dit qu'une variable est normale si elle se distribue de telle sorte que les
fréquences d'apparition des différents scores possibles suivent une loi normale. On dit
que la courbe des fréquences de la variable est une courbe normale ou courbe de Gauss.
Une telle courbe apparaît en traduction de l'influence d'un facteur principal,
associé à d'autres facteurs non contrôlés, aléatoires (centrage sur le facteur principal,
écart symétrique dus aux facteurs aléatoires.
3.2.1. Les tests de normalité.
Plusieurs tests de normalité sont disponibles. Une première solution consiste à
examiner les coefficients de skewness et de Kurtosis.
Le coefficient de skewness est un indice d'asymétrie.
14
gm
m1
3
2
3 2=
/ avec m
x m
n2
2
=−
∑( )
et mx m
n3
3
=−
∑( )
Si la distribution est normale, g1=0
Le coefficient de Kurtosis est un indice d'aplatissement.
gm
m2
4
2
23= − avec m
x m
n4
4
=−
∑( )
On doit obtenir g2=0 si la distribution est normale.
En cas de doute, on peut utiliser le test de Kolmogorov-Smirnov. Ce test est basé
sur la comparaison des fréquences cumulées observées aux fréquences cumulées
théoriques, calculées à partir de la table de la loi normale.
- On commence par ordonner les données
- On calcule les fréquences correspondant à chaque niveau de score
- On calcule les fréquences cumulées correspondant à chaque niveau de score
- On calcule les scores z correspondant à chaque niveau de score
- On calcule pour chaque niveau de score les fréquences théoriques, à partir de la
table de la loi normale (il faut tenir compte du fait que la table donne les fréquences des
événements extérieurs à (-z,z).
- On calcule les différences entre fréquence observée et théorique, pour chaque
niveau de score.
Score Effectifs Fréquence Fréquence
cumulée
z Fréquence
cumulée
théorique
Différence
0
1
2
3
4
5
2
2
0
1
2
3
0.2
0.2
0.0
0.1
0.2
0.3
0.2
0.4
0.4
0.5
0.7
1.0
-1.33
-0.86
-0.38
0.10
0.57
1.05
0.092
0.195
0.352
0.520
0.715
0.853
0.108
0.205
0.048
-0.40
-0.015
0.147
m=2.8 σ=2.1
Le test porte sur la différence absolue maximale entre fréquence théorique et
observée (ici .205). La table de Kolmogorov-Smirnov donne la différence maximale
15
théorique acceptable, en fonction de l'effectif de l'échantillon. Ces valeurs sont données
directement pour les effectifs inférieurs à 35, et doivent être calculés au-delà.
Ici pour N=10, on a Dth=.410 pour p=.05. On peut admettre l'hypothèse nulle et
considérer la distribution comme normale.
Exercice
Score Effectifs Fréquence Fréquence
cumulée
z Fréquence
cumulée
théorique
Différence
2
3
4
5
6
7
8
9
10
11
7
2
1
1
2
0
1
1
0.423
0.269
0.077
0.038
0.038
0.077
0.000
0.038
0.038
0.423
0.692
0.769
0.807
0.846
0.923
0.923
0.961
1.000
-0.735
-0.291
0.153
0.597
1.041
1.485
1.930
2.373
2.817
0.232
0.385
0.559
0.725
0.850
0.931
0.973
0.990
0.997
0.190
0.306
0.209
0.081
0.004
0.008
0.050
0.029
0.002
m=3.653 σ=2.252 N=26
Dmax=0.306. à p=.05, Dth=.27. On peut donc refuser l'hypothèse nulle et
affirmer que la distribution n'est pas normale.
3.3. La loi normale réduite
Si l'on transforme une distribution en retranchant la moyenne et en divisant par
l'écart-type, on obtiendra une nouvelle distribution, de moyenne 0 et d'écart-type 1: c'est
une distribution centrée réduite.
z=(x-m)/σ
Une telle transformation permet par exemple de comparer des distributions en
s'affranchissant des unités de mesure.
Exercice:
m=50 σ=15
x 0 5 20 35 50 65 80 95 100
z -3.33 -3 -2 -1 0 1 2 3 3.33
La loi normale réduite a des propriétés très importantes. On a étudié sa
distribution, et notamment on a établi les correspondances entre les abscisses (les
différentes valeurs de z) et les aires délimitées par ces abscisses.
16
La table fait correspondre à chaque valeur de z l'aire extérieure à la bande de
plan située entre z et -z.
Exemples:
- z=1.50 la table indique p=.134
Ceci signifie que 13.4% de la distribution des z est située en dehors de
l'intervalle (-1.5;1.5). Ou encore que 100-13.4=86.6% de la distribution sont situés entre
-1.5 et 1.5. Ou encore que (86.6)/2= 43.3% de la distribution des z est situé entre 0 et
1.5.
La table peut être utilisée à l'inverse: Quelle est la valeur z pour que 10% de la
distribution soit supérieure à z, ou inférieure à -z.
Pour p=.10, la table indique z=1.65.
La table normale réduite est à la base de la plupart des procédures statistiques.
Quelques applications.
1. Français moyenne 35 écart-type 7
Maths Moyenne 58 écart-type 15
a. Un élève obtient 42 en Français et 73 en maths. Sa performance relative est-
elle meilleure en français ou en maths?
zfr=zmath=1 Les performances sont équivalentes.
b. Un élève obtient 25 en français. Quelle note devrait-il obtenir en math pour
une performance équivalente?
zfr=(25-35)/7=-1.43
si zmath=-1.43 xmath=(-1.43*15) + 58=36.55
2. Soit une distribution normale, m=75, σ=8
Quel pourcentage de notes sont situé entre x1=67 et x2=83.
- Transformation en notes z
z1=-1 z2=1
- table de la loi réduite:
17
z=1 p=.317
Si p' est la proportion de notes entre x1 et x2,
p'= 1-p =.683
68.3% des notes sont situées entre 67 et 83.
3. Quel est le pourcentage de notes entre x1= m+2σ et x2= m-2σ?
z1=-2 z2=2
p=.046 p'=.954
95.4% des mesures sont situées entre x1 et x2. Si l'on tire une note au hasard, il y
a 95.4% de chances qu'elle soit située entre x1 et x2.
4. Quel est le pourcentage de notes entre x1= m+3σ et x2= m-3σ?
99.7%
5. Quelques valeurs remarquables de z:
% p' z
90 .10 1.65
95 .05 1.96
99 .01 2.56
3.4. Limites de confiance de la moyenne d'un échantillon
Un échantillon est toujours considéré comme extrait d'une population parente. Il
n'en est pas l'image parfaite. Il existe une erreur due à l'échantillonnage. Tous les
paramètres calculés (i.e. moyenne, écart-type) ne sont que des estimations de ceux de la
population parente.
Quelle confiance accorder à la valeur d'un paramètre calculé sur un échantillon?
3.4.1. Population parente à paramètres connus
Soit une population parente de moyenne M=49.5 et σ=14.3. De cette population
on extrait au hasard des échantillons de taille N. Les différentes moyennes obtenues
18
constituent un échantillon de moyenne, d'une population parente des échantillons de 25
mesures, de moyenne m=M, et d'écart-type E. E est appelé erreur-type.
On montre que EN
=σ
19
E est d'autant plus réduit que N est élevé:
N E
16 3.57
25 2.86
100 1.43
Soit une population parente de moyenne M=50 et σ=15. On extrait un
échantillon d'effectif N=36. Entre quelles limites a-t-on 90% chances de trouver la
moyenne de l'échantillon?
Il faut calculer les limites L1 et L2 de l'intervalle sur la distribution des
moyennes.
E=15/√36=15/6=2.5
L1= M-(1.65*E)=45.87
L2= M+(1.65*E)=54.12
On a 90% de chances pour que la moyenne de l'échantillon se situe entre ces
deux limites. Ou encore, j'ai 10% de chances de me tromper en disant que la moyenne se
situe entre L1 et L2.
Exercice:
1. Soit une population parente de moyenne M=50 et σ=15. On extrait un
échantillon d'effectif N=36. Entre quelles limites a-t-on 95% chances de trouver la
moyenne de l'échantillon?
Il faut calculer les limites L1 et L2 de l'intervalle sur la distribution des
moyennes.
E=15/√36=15/6=2.5
L1= M-(1.96*E)=45.10
L2= M+(1.96*E)=54.90
On a 95% de chances pour que la moyenne de l'échantillon se situe entre ces
deux limites. Ou encore, j'ai 5% de chances de me tromper en disant que la moyenne se
situe entre L1 et L2.
2. Au seuil p=.01, L1=43.60 et L2=56.40
20
3. M=100 σ=20 N=20 75%
p=.25 z=1.15 E=20/4.47=4.47
L1=94.86 L2=105.14
4. M=100 σ=20
a. Quel effectif donner à l'échantillon pour avoir 95% de chance que la moyenne
soit situé à +/-5 de la moyenne?
L1=95 L2=105 z=1.96
L1=M-z(σ/√N) donc N=[(z*σ)/(M-L1)]2
N=[(1.96*20)/(5)]2= (7.84)2 = 61.46 N=62
b. si p=.01 N=105
3.4.2. Population parente à paramètres inconnus
On ne connaît que les paramètres de l'échantillon. Quelle confiance accorder à
cette estimation?
Les limites de confiance de la moyenne de l'échantillon sont
L1=m-t(σ/√N) et L2=m+t(σ/√N)
t est le t de Student, donné par une table spécifique. t dépend du seuil de
probabilité choisi, et du nombre de degrés de liberté de l'échantillon
ddl=N-1
Exemples:
N=25 P=.05 t=2.06
N=40 P=.01 t=2.71
Exercice:
1. Echantillon de notes:
12 15 16 10 19
13 9 17 16 15
9 19 20 13 15
21
10 12 4 13 7
15 5 9 10
Au seuil .05, quelles sont les limites de confiance de la moyenne obtenue?
N=24 m=12.625=12.6 σ=4.3
t=2.07
L1=10.8 L2=14.4
Au seuil .01, L1=10.1 et L2=15.1
2. Dans une épreuve, on fait l'hypothèse que la moyenne sera 12. On obtient une
moyenne de 13.6 pour un écart-type de 4.4 ( N=39). L'hypothèse est-elle invalidée?
Première méthode: ddl=38 t=2.03
L1= 13.6 - 2.03(44/√39) = 12.17
L2=15.03
Au seuil p=.05, l'hypothèse est invalidée. La différence entre la moyenne
attendue et la moyenne obtenue est trop grande pour n'être expliquée que par le hasard.
Seconde méthode, plus rapide:
On calcule t tm A
N
calc =−σ =2.27
On compare ensuite tcalc et tlu, pour savoir si la différence est significative au
seuil choisi. Si tcalc > tlu, la différence est significative.
Par contre, au seuil .01, on ne peut pas dire que cette différence est significative
(tlu=2.72)
On peut noter qu'un test statistique met toujours à l'épreuve une hypothèse nulle,
ou hypothèse de différence nulle
H0: la différence constatée n'est pas significative.
4. Comparaison de moyennes.
Les principes précédent sont principalement utilisés pour la comparaison des
moyennes de deux ou plusieurs échantillons.
4.1. Echantillons appariés
22
Lorsque les deux échantillons sont appariés (mesures répétées), on calcule pour
chaque paire x1x2 la différences d, puis md la moyenne des différences. Si l'hypothèse
nulle est vraie, cette moyenne devrait être égale à 0. le problème se ramène donc à la
comparaison d'une moyenne obtenue et d'une moyenne attendue.
On calcule t selon la formule précédente, avec A=0
tM
N
d
d
= σ df=n-1
Exemple:
x1 x2 d
A
B
C
D
E
F
G
H
16
14
12
12
18
6
12
32
23
28
37
10
10
27
26
15
7
14
25
-2
-6
21
14
-17
122 176 54
H0: m1 et m2 sont les estimations d'une même moyenne.
m1=15.25 et m2=22
md=54/8=6.75
σd=14.64 t
calc=1.304
au seuil p=.05, ddl=7, tlu=2.36
tcalc
<tlu, H
0 est acceptée
On n'apporte pas la preuve que des progrès ont été réalisés
23
Exercice:
x1 x2 d
A
B
C
D
E
F
G
H
I
J
5
11
21
15
8
20
9
15
25
16
8
15
26
28
23
24
10
21
21
32
3
4
5
13
15
4
1
6
-4
16
145 208 63
m1= 14.5 m2= 20.8 Md=6.3 N=10 σd=6.43
tcalc=3.098
ddl=9 tlu=2.26
H0 est rejetée. On peut affirmer qu'il y a un progrès lié à l'enseignement.
4.2. Echantillons indépendants
Le problème est de comparer les moyennes de deux échantillons indépendants
(ils peuvent avoir des effectifs différents). L'hypothèse est que les deux moyennes sont
égales, donc que la différence entre m1 et m2 est voisine de zéro. Il serait possible de
calculer les intervalles de confiance de chaque moyenne, et de voir si les deux
intervalles ont une intersection non nulle.
On calcule en fait une statistique t, selon les principes précédents.
Il est cependant nécessaire de calculer une estimation de la variance de la
distribution des différences (m1-m2). On montre que la meilleure estimation de cette
variance intragroupe est égale à:
Vv n v n
n nε =
− + −+ −
1 1 2 2
1 1
1 1
2
( ) ( )
Puis on calcule la quantité t
tm m
Vn n
=−
+
1 2
1 2
1 1ε ( )
dll=(n1+n2)-2
24
Ces statistiques t doivent être comprises comme le rapport entre la variance
véritable (ou la différence véritable entre les moyennes) et la variance d'erreur (c'est-à-
dire la variation autour de la moyenne). S'il n'existe pas de différence réelle entre les
groupes, alors la variance véritable et la variance d'erreur sont équivalentes. le rapport
sera alors égal à 1. Lorsque t est significatif, on en conclut que la variance véritable est
supérieure à la variance d'erreur.
Exemple:
1. m1=11, σ1=3
m2=13, σ2=2
Vε=[3²(20-1)+2²(25-1)]/(20-1)+(25-1)= 6.21
t=(13-11)/√(6.21(1/20)+(1/25))=2.68
dll=20+25-2=43
On prend sur la table le ddl immédiatement inférieur (40)
à p=.05, t=2.02
tcalc>tlu l'hypothèse nulle est rejetée.
Il y a donc une différence significative entre les deux groupes.
2. groupe 1: 22, 10, 24, 35, 22, 20, 11, 18, 21, 17, 32, 27
groupe 2: 11, 31, 6, 8, 39, 2, 13, 11, 12, 10
m1=21.6 m2=14.3
n1=12 n2=10
v1=55.17 v2=132.9
Vε=90.15
t=1.79
tlu=2.09
tcalc<tlu l'hypothèse nulle est acceptée. On n'apporte pas la preuve d'un
comportement différent entre les deux groupes.
4.3. Analyse de variance
25
4.3.1. Analyse de variance à un facteur
Le test de Student ne peut comparer que deux groupes. Lorsque l'on a plus de
deux groupes expérimentaux, il est nécessaire d'utiliser l'analyse de variance, ou
ANOVA. L'analyse de variance va comme le test de Student porter sur un rapport entre
la variance véritable (c'est-à-dire liée à un facteur expérimental) et la variance liée à
l'erreur expérimentale. Mais la comparaison ne portera pas sur deux échantillons, mais
sur l'ensemble des échantillons affectés par le facteur.
Le cas le plus simple est l'analyse de variance à un facteur: il s'agit en fait de
comparer plusieurs échantillons indépendants. L'usage de tests de Student répétés est
inapproprié.
Deux conditions doivent être réunies:
- les distributions doivent être normales.
- les variances doivent être homogènes.
L'hypothèse nulle est que les moyennes m1, m2,..,mn, ne diffèrent pas dans leur
ensemble.
Principe de solution:
La variance totale dépend de deux sources de variation:
- La variance intra-groupe (c'est-à-dire la variance de la variable, à l'intérieur de
chaque groupe, autour des moyennes de groupe).
- La variance inter-groupe, qui mesure la dispersion des moyennes
La statistique F de Snedecor est le rapport entre la variance inter-groupe et la
variance intra-groupe. F est d'autant plus petit que la variance intergroupe est faible et la
variance intra-groupe élevée. Dans ce cas, le moyennes sont proches et les distributions
tendent à se chevaucher.
Inversement, il est d'autant plus grand que la variance inter-groupe est forte et la
variance intra-groupe faible. Dans ce cas les moyennes sont nettement séparées et les
distributions, peu étalées, ne se chevauchent pas.
Le théorème fondamental de l'analyse de variance énonce l'additivité des
sommes de carré:
SC totale= SC inter + SC intra
SC Totale= ∑ij(xij-m)² m représentant la moyenne totale
26
SC inter= ∑ni(mi-m)²
ni représentant l'effectif du groupe i et mi la moyenne du groupe i. SC inter est
donc la somme des carrés des écarts des moyennes de groupe à la moyenne générale,
pondérée par l'effectif de chaque groupe.
SC Intra= ∑ij(xij-mi)²
SC Intra est égale à la somme des sommes de carrés de chaque groupe.
Par ailleurs, on a une additivité des degrés de liberté:
ddl Total= ddl Inter + ddl Intra
N-1= (K-1) + (N-K)
K représentant le nombre de groupes et N l'effectif total.
L'analyse de variance n'utilise pas de scores de variance, mais des grandeurs
appelées carrés moyens (mean squares), définis comme le rapport entre les sommes de
carrés et le nombre correspondant de degrés de liberté.
Le carré moyen total est égal à:
CM total=(∑ij(xij-m)²)/N-1
On voit que CM total est égal à la variance de l'échantillon total des scores. On a
vu précédemment une formule de calcul plus rapide, soit:
CMx
x
N
Ntotal =
−
−
∑∑
2
2
1
( )
N étant l'effectif cumulé des k groupes.
Le carré moyen intra-groupe est égal à:
CM Intra= (∑ij(xij-mi)²)/(N-k)
La variance inter-groupe est égale à:
CM inter= (∑ni(mi-m)²)/(k-1)
Afin de comprendre le sens des carrés moyens inter et intra, on peut considérer le
cas où l'effectif des K groupes est identique. Dans ce cas, le carré moyen intra-groupe
27
est égal à la moyenne des variances de chaque groupe. Par ailleurs le carré moyen inter-
groupe est égal au produit de l'effectif par la variance des moyennes de groupe.
On dispose également de formules rapides pour le calcul des carrés moyens inter
et intra.
C
xx
n
N K
i
iMintra=
2
2
−
−
∑∑∑ (
( ))
C
x
n
x
N
i
iMinter=k-1
(( )
)( )2 2
∑ ∑∑ −
La méthode "ABC" de calcul permet de simplifier l'analyse:
On commence par calculer les trois grandeurs:
A= ∑x²
B=(∑x)²/N
C=∑[(∑xi)²/ni]= (∑x1)²/n1+(∑x2)²/n2+... +(∑xk)²/nk
Le tableau d'ANOVA est constitué de la manière suivante:
_________________________________________________________________
Source Somme des ddl Carrés moyens F
carrés (variance)
_________________________________________________________________
Inter (réelle) C-B K-1 (C-B)/(K-1) CMinter/CMintra
Intra (erreur) A-C N-K (A-C)/(N-K)
Total A-B N-1
_________________________________________________________________
Exemple:
Groupes 1 2 3 4
6
3
7
5
4
8
8
5
6
7
6
2
7
4
8
6
5
9
4
3
6
3
28
Effectif (ni) 5 7 6 4 N=22
∑xi 25 42 39 16 ∑x=122
mi 5 6 6.5 4 M=5.55
Vt =−
−= ≈
754122
22
22 1
77 45
213 69
( )².
.
V inter =+ + + −
−
(² ² ² ²
)²25
5
42
7
39
6
16
4
122
22
4 1=17.95/3=5.98
V intra =− + + +
−
75425
5
42
7
39
6
16
4
22 4
(² ² ² ²
)
=59.5/18=3.31
Fcalc= 5.98/3.31=1.81
La table de F est lue en fonction du nombre de degré de liberté du numérateur
(K-1) et du dénominateur (N-K)
Flu=3.16 à p=.05
Fcalc<Flu L'hypothèse nulle est acceptée, on n'apporte pas la preuve d'une
différence entre les 4 moyennes.
Remarque: la comparaison de deux groupes peut être réalisée indifféremment par
le t de student et par l'analyse de variance. On remarque alors que F=t².
Exemple:
X1 X1² X2 X2² X3 X3²
12
10
11
7
10
144
100
121
49
100
9
7
6
9
4
81
49
36
81
16
6
7
2
3
2
36
49
4
9
4
Σx=50
m=10
Σx²=514 Σx=35
m=7
Σx²=263 Σx=20
m=4
Σx²=102
A=ΣX²=514+263+102=879
B=(Σx)²/N=(50+35+20)²/15=105²/15=11025/15=735
29
C=∑[(∑xi)²/ni]=50²/5 + 35²/5 + 20²/5 = 2500/5 + 1225/5 + 400/5=825
30
_________________________________________________________________
Source Somme des ddl Carrés moyens F
carrés (variance)
_________________________________________________________________
Inter (réelle) 90 2 45.0 10.00
Intra (erreur) 54 12 4.5
Total 144 14
_________________________________________________________________
pour p=.05, F2,12=3.88
L'hypothèse nulle est rejetée.
Test post-hoc.
L'analyse de variance ne permet que de déceler des différences d'ensemble dans
les moyennes, mais pas de localiser avec précision les différences. Si le facteur
comporte plusieurs niveaux, il est nécessaire de procéder à des tests post-hoc
(Newmann-Keuls, Scheffé,...), pour localiser avec précision les différences.
Les tests post-hoc ne peuvent être réalisés que si l'analyse de variance est
significative.
La méthode de Scheffé repose sur le test de contrastes. On appelle contraste une
somme pondérée de moyennes:
C= c1m1 + c2m2 + ... + ckmk
avec ∑ci=0
et ∑ci=2 (afin d'homogénéiser les coefficients)
exemples: 1, -1, 0, 0 pour comparer m1 avec m2
1, 0, -1, 0 pour comparer m1 avec m3
1/2, 1/2, -1/2, -1/2 pour comparer m1 et m2 avec m3 et m4
Le contraste est jugé significatif si la valeur absolue de C est supérieure à
S k Fc CMc
nra
i
i
= − ∑( )( )( )( )int12
k étant le nombre de niveaux de la V.I.
Fc étant la valeur critique de F avec k-1 et n-K ddl, pour le seuil α déterminé.
31
ni étant l'effectif du groupe du niveau i
Exemple:
VD CAT VD2
4 1 16
5 1 25
6 1 36
8 1 64
5 2 25
6 2 36
8 2 64
5 2 25
8 3 64
9 3 81
9 3 81
A=ΣX²=517
B=(Σx)²/N=732/11=484.45
C=∑[(∑xi)²/ni]=501.58333
C-B= 17.1287879
A-C=15.416667
A-B=32.5454545
_________________________________________________________________
Source Somme des ddl Carrés moyens F
carrés (variance)
_________________________________________________________________
CAT 17.129 2 8.564 4.444
erreur 15.417 8 1.927
_________________________________________________________________
p=.050
Moyennes= 1: 5.75
2: 6
3: 8.666
Post-hoc.
1,-1,0 C=-0.25 S=2.93
0,1,-1 C=-2.6666 S=3.17
1,0,-1 C=-2.91666 S=3.17
Matrice calculée par systat
Sheffe 1 2 3
32
1 1.000
2 .968 1.000
3 .070 .097 1.000
Mais:
1/2,1/2,-1 C=-2.791 S=2.318
4.3.2. Analyse de variance à deux facteurs
Lorsque l'on croise plusieurs facteurs, l'analyse de variance donne des
renseignements d'une part sur les effets simples, mais également sur les effets
d'interaction entre les facteurs.
Le tableau ci-dessous expose le problème d'une ANOVA 3x2 (anova à deux
facteur, comprenant respectivement 3 et 2 niveaux
B1 B2
A1 mA1B1 mA1B2 mA1
A2 mA2B1 mA2B2 mA2
A3 mA3B1 mA3B2 mA3
mB1 mB2
Il s'agit d'étudier d'une part l'effet principal A (sur les moyennes colonnes mA,
d'autre part l'effet principal B (dur les moyennes lignes mB) et enfin l'effet d'interaction,
sur l'ensemble des moyennes mAB.
On utilise trois statistiques F:
- FA= (Variance réelle due à A)/(variance d'erreur)
- FB= (Variance réelle due à B)/(variance d'erreur)
- FAB= (Variance réelle due à AxB)/(variance d'erreur)
La méthode ABC est organisée selon le tableau suivant:
A= ∑x²
B=(∑x)²/N
C (lignes)=∑[(∑xi)²/ni]= (∑x1)²/n1+(∑x2)²/n2+... +(∑xl)²/nl
33
l représentant le nombre de lignes
D (colonnes)=∑[(∑xj)²/nj]= (∑x1)²/n1+(∑x2)²/n2+... +(∑xc)²/nc
c représentant le nombre de lignes
E (lignes x colonnes)=∑[(∑xij)²/nij]= (∑x11)²/n11+(∑x12)²/n12+... +(∑xlc)²/nlc
Le tableau d'ANOVA est constitué de la manière suivante:
__________________________________________________________________
Source Somme des ddl Carrés moyens F
carrés (variance)
__________________________________________________________________
Ligne C-B l-1 SCL/ddlL CML/CMerr
Colonne D-B c-1 SCC/ddlC CMC/CMerr
LxC (E-B)-(C-B)-(D-B) (l-1)(c-1) SCLC/ddlLC CMLC/CMerr
Erreur (A-B)-(E-B) (N-1)-(l-1)- SCerr/ddlerr
(c-1)-(l-1)(c-1)
Total A-B N-1
__________________________________________________________________
4.3.3. Analyse de variance à un facteur avec mesures répétées.
Le problème est de comparer les moyennes obtenues par un même groupe de
sujets lors de la répétition d'une mesure.
La méthode ABC est organisée selon le tableau suivant:
A= ∑x²
B=(∑x)²/N
C (sujets)=∑[(∑xi)²]/e= [(∑x1)²+(∑x2)²+... +(∑xl)²]/e
s représentant le nombre de sujets et e représentant le nombre d'essais
D (essais)=∑[(∑xj)²]/s= [(∑x1)²+(∑x2)²+... +(∑xe)²]/s
Le tableau d'ANOVA est constitué de la manière suivante:
34
__________________________________________________________________
Source Somme des ddl Carrés moyens F
carrés (variance)
__________________________________________________________________
Sujets C-B s-1 SCS/ddlS CMS/CMres
Essais D-B e-1 SCE/ddlE CME/CMres
Résidus (A-B)-(C-B)+(D-B) (s-1)(e-1) SCR/ddlres
Total A-B N-1
__________________________________________________________________
4.3.4. Test de l'homogénéité des variances.
Même si les tests de normalité sont valides, on ne peut appliquer l'analyse de
variance que si les deux échantillons sont issus de populations parentes ayant les mêmes
variances. Le test porte sur les variances d'échantillon v1 et v2. On calcule le rapport
v1/v2 (l'estimation la plus élevée est au numérateur).
L'hypothèse nulle est que les variances des populations parentes sont égales. Ce
rapport devrait donc être égal à 1. Plus ce rapport s'écarte de 1, plus H0 a de chance de
devoir être rejetée.
Le rapport v1/v2 peut être testé sur la table du F de Snedecor, avec n1-1 et n2-2
ddl.
4.4. Tests non paramétriques
Les tests paramétriques précédemment décrits, supposent qu'un certain nombre
de conditions soient vérifiées, et notamment la normalité de la distribution, et
l'homogénéité des variances. Ces deux propriétés doivent être testées avant de réaliser
les tests statistiques. Si ces propriétés ne sont pas vérifiées, il faut remplacer les tests
paramétriques par leurs équivalents non-paramétriques.
Lorsque les tests de normalité ne sont pas significatifs, l'usage de l'analyse de
variance n'est pas permise. On dispose alors d'une batterie de tests alternatifs, analogues
à ceux qui viennent d'être décrits. D'une manière générale, ces tests sont réalisés après
une transformation des données brutes en données de score (échelle ordinale). On peut
établir les correspondances suivantes
4.4.1. Comparaison d'échantillons indépendants.
On utilise le test du U de Mann-Whitney.
Ce test travaille sur les rangs. On mélange les données des deux échantillons, on
les ordonne et on leur attribue des rangs. Soit TA la somme des rangs de l'échantillon A
et TB la somme des rangs de l'échantillon B
35
On peut calculer la moyenne générale des rangs, la moyenne des rangs pour A et
la moyenne des rangs pour B. On peut de même calculer les variances des échantillons
de rangs. L'hypothèse nulle est que la distribution des rangs est la même dans les deux
groupes(même moyenne et même écart-type).
Le test de Mann-Whitney ne fonctionne que pour la comparaison de deux
groupes. Si l'on veut comparer plus de deux groupes, on utilise le test de Kruskal-
Wallis.
Ce test débute par une démarche similaire (agrégation et classement des données,
calcul des données de rang). On calcule pour chaque groupe Ti (somme des rangs), mi
(moyenne des rangs) et ni (effectif). On calcule ensuite la statistique H
H=[((12/N(N+1))*ΣniT2i] - 3(N+1)
H suit une loi de Chi-2 à k-1 ddl.
Exemple:
Groupe 1 2 3 4
Score Rang Score Rang Score Rang Score Rang
8
20
13
14
17
17.5
1
10
8.5
4
15
14
7
9
12
10
6.5
8.5
19.5
16
11.5
14.5
18
16
15
19
3
5
6.5
2
4
7
12
10
8
6
11
22
19.5
11.5
14.5
17.5
21
13
Ti 41 76.5 16.5 119
Mi 8.2 12.75 4.125 17
ni 5 6 4 7
H=11.69
pour ddl=4-1=3et p=.01, Chi-2=11.35.
L'hypothèse nulle peut être rejetée.
Si l'hypothèse nulle est rejetée (différences significatives entre les groupes), on
peut utiliser le test de Mann-Whitney en post-hoc pour localiser les différences.
4.4.2. Comparaison d'échantillons appareillés.
Pour deux échantillons appareillés, on utilise le test de Wilcoxon.
36
- On calcule les différences entre test1 et test 2, pour chaque sujet.
- On classe les sujets dans l'ordre croissant des différences non nulles (les
différences nulles ne sont pas prises en compte).
- On calcule le rang de chaque sujet dans ce classement
- On calcule la somme des rangs des différences positives (T+) et la somme des
rangs de différences négatives (T-).
remarque: T+ + T-=n(n+1)/2 (somme des rangs)
Sous l'hypothèse nulle, T+ = T- = n(n+1)/4
Wilcoxon a proposé une table pour lire la significativité des T+ calculés.
Lorsque la comparaison porte sur plus de deux échantillons appareillés, on
dispose du test de Friedman.
4.5. Comparaison d'échantillons en données de numération. Le test de χχχχ2
Un échelle nominale permet la constitution de tableau d'effectifs. Ces tableaux
représentent souvent une distribution bivariée, c'est-à-dire selon deux variables. La
figure suivante présente la distribution de 200 sujets, selon les variables sexe et choix
d'études.
Garçons Filles Totaux
Littéraires 60 60 120
Scientifiques 42 18 60
Techniques 18 2 20
Totaux 120 80 200
Le problème est de savoir s'il existe une relation entre sexe et le choix des
études. On fait l'hypothèse qu'il n'y a pas de lien, que les deux variables sont
indépendantes. On peut reconstituer le tableau des effectifs correspondant
théoriquement à cette hypothèse: Les effectifs de chaque case sont calculée de manière à
ce que la répartition sur un des niveau du premier facteur (littéraires par exemple) soit
proportionnel à la répartition totale sur le second facteur (sexe par exemple)
Effectif théorique = Total ligne x Total colonne
Total général
37
38
Garçons Filles Totaux
Littéraires 72
(2)
48
(3)
120
Scientifiques 36
(1)
24
(1.5)
60
Techniques 12
(3)
8
(4.5)
20
Totaux 120 80 200
Si i représente les études et j le sexe, on calcule la statistique suivante:
χ2
2
=−
∑∑( )O T
T
ij ij
ijji
Oij représentant les effectifs observés pour chaque cellule et Tij les effectifs
théoriques. Cette quantité χ² est d'autant plus grande qu'il y a des différences entre la
distribution observée et la distribution théorique.
Des tables statistiques permettent d'apprécier le degré de signification de la
valeur de χ² calculée, en fonction du nombre de degrés de liberté associé au tableau
d'effectif (ν=(l-1)(c-1)).
Enfin, il est nécessaire, si l'effectif d'une cellule est inférieur à 10, de faire la
correction de Yates, en retirant 0.5 à (O-T).
Exemple: CSP et orientation
Sciences Lettres Technologie
Ouvriers 4 6 10 20
Cadres moyens 12 20 12 44
Cadres sup. 15 9 6 30
31 35 28 94
Effectifs théoriques
Sciences Lettres Technologie
Ouvriers 6.6
(.66)
7.4
(.12)
6.0
(2.74)
Cadres moyens 14.5
(.43)
16.4
(.8)
13.1
(.09)
39
Cadres sup. 9.9
(2.64)
11.2
(.249)
8.9
(.66)
H0: équirépartition des orientations dans les 3 CSP.
χ² =(6.6-4-.05)²/6.6 + ..........+ (11.2-9)²/11.2 + (8.9-6-.5)²/8.9 = 8.40
avec ddl=(3-1)(3-1)=2x2=4
au seuil p=.05 χ² =9.49
χ²<χ²lu, H0 est acceptée: il n'y a pas de différence de répartition entre CSP.
5. Relations entre séries d'observation.
5.1. Le coefficient de corrélation de Bravais-Pearson
Le coefficient de corrélation est une mesure de la relation entre deux variables x
et y. Afin d'étudier cette relation, on peut transformer les scores x et y en scores z:
zx=(x-mx)/σx et zy=(y-my)/σy
On calcule alors pour chaque point le produit croisé zxzy. Ce produit croisé a des
caractéristiques importantes:
Si les scores bruts sont simultanément élevés, le produit croisé sera important et
positif. Ce sera également le cas si les scores bruts sont simultanément faibles.
Si les scores bruts sont élevé d'un côté, et faible de l'autre, le produit croisé sera
élevé, mais négatif.
Le coefficient de corrélation de Bravais-Pearson est la somme algébrique des
produits croisés, pondéré par la taille de l'échantillon moins 1.
rz z
n
x y=−
∑1
ou encore:
rx m y m
x m y m
x m y m
N
x y
x y
x y
x y
=− −
− −=
− −∑
∑∑
∑( )( )
( )² ( )²
( )( )
σ σ
Ce coefficient rend compte de la tendance des couples (x,y) à entretenir une
relation forte et prévisible.
40
Exemple:
Sujets x y zx zy zxzy x² y² xy
1
2
3
4
5
6
7
8
9
10
11
12
13
14
2
2
3
5
5
5
6
6
7
8
8
8
9
10
6
8
8
9
10
11
9
12
10
11
12
13
14
14
-1.59
-1.59
-1.19
-0.40
-0.40
-0.40
0.00
0.00
0.40
0.80
0.80
0.80
1.19
1.59
-1.89
-1.05
-1.05
-0.63
-0.21
0.21
-0.63
0.63
-0.21
0.21
0.63
1.05
1.47
1.47
3.01
1.67
1.25
0.25
0.08
-0.80
0.00
0.00
-0.08
0.17
0.50
0.84
1.75
2.34
4
4
9
25
25
25
36
36
49
64
64
64
81
100
36
64
64
81
100
121
81
144
100
121
144
169
196
196
12
16
24
45
50
55
54
72
70
88
96
104
126
140 mx=6 my=10.5 ∑zxzy=11.7 ∑x²=586 ∑y²=1617 ∑xy=952
σx=2.51 σy=2.38
∑x=84 ∑y=147
r=11.70/13=.90
On utilise couramment une formule plus pratique, dérivée de la précédente:
rN xy x y
N x x N y y=
−
− −∑∑∑
∑∑∑∑( ² ( )²)( ² ( )²)
Calcul:
(∑x)²=7056 et (∑y)²=21609
r =−
− −14 952 84 147
14 586 7056 14 1617 21609
( ) ( )( )
( ( ) )( ( ) ( ))=980/1086.87=0.90
41
Exemple:
x y n nx ny nx² ny² nxy
0
1
1
1
1
2
2
2
3
3
3
3
3
4
4
5
0
0
1
2
4
1
2
3
1
2
3
4
5
3
4
5
1
1
2
1
1
2
3
3
1
2
4
2
1
1
3
2
0
1
2
1
1
4
6
6
3
6
12
6
3
4
12
10
0
0
2
2
4
2
6
9
1
4
12
8
5
3
12
10
0
1
2
1
1
8
12
12
9
18
36
18
9
16
48
50
0
0
2
4
16
2
12
27
1
8
36
32
25
9
48
50
0
0
2
2
4
4
12
18
3
12
36
24
15
12
48
50
N=30 ∑x=77 ∑y=80 ∑x²=241 ∑y²=272 ∑xy=242
r=30(242-(77*80))/√(241-77²)(272-80²)=.73
L'hypothèse nulle est qu'il n'y a pas de relation entre les deux variables.
La valeur calculée est comparée à la valeur lue sur la table de Bravais-Pearson, à
ddl=N-2
à ddl=28
p=.10 r=.30
p=.05 r=.35
p=.01 r=.45
L'hypothèse nulle peut donc être rejetée.
La corrélation peut également être approchée au travers de l'analyse de
régression: une fois calculée la droite de régression de x vers y, on peut calculer
l'équation de régression de y vers x. On a :
y=a'x + b'
42
avec ay m x m
y m
y x
y
'( )( )
( )²=
− −
−∑∑
et b'=mx - amy
Si l'on reprend l'équation brute du coefficient de corrélation de Pearson:
rx m y m
x m y m
x m y m
N
x y
x y
x y
x y
=− −
− −=
− −∑
∑∑
∑( )( )
( )² ( )²
( )( )
σ σ
On remarque que r a a= . '
Si a=a'=0, la corrélation est nulle: les deux droites des moindres carrés sont
parallèles aux axes de coordonnées. Dans ce cas il n'y a aucune relation entre les deux
variables.
Si a.a'=1, la corrélation est parfaite et positive. Si a.a'=-1, la corrélation est
parfaite et positive: les deux droites sont alors confondues.
5.2. Corrélation et causalité
Il est fondamental de noter qu'une corrélation significative ne signifie
aucunement qu'il existe une relation de cause à effet entre les deux variables. La
corrélation peut en effet être liée à une troisième variable, qui agit de manière
indépendante sur les deux première
Par exemple il existe une corrélation élevée entre le taux de délinquance et le
nombre d'églises (influence de la taille de la cité). Il existe une corrélation positive entre
la réussite à des tests d'intelligence et la taille du pied (influence de l'âge).
La corrélation est à ce niveau essentiellement descriptive.
5.3. Corrélation partielle
La corrélation partielle permet parfois d'éviter de se laisser abuser par certaines
corrélations artefactuelles. Par exemple, si l'on calcule les corrélations entre (1)
l'intelligence, (2) le poids, et (3) l'âge. On trouve une corrélation r12=.60 entre
intelligence et poids. Cette corrélation doit être rapportée aux deux autres, soit r13=.69,
et r23=.88. La corrélation partielle exprime la liaison entre deux variables, en contrôlant
l'influence d'une troisième variable: dans ce cas on calcule la liaison entre intelligence et
poids, à âge constant:
La procédure de corrélation partielle consiste à calculer l'équation de régression
de (1) vers (3). Puis on calcule la corrélation entre les résidus de cette régression et (2).
43
On dispose d'un moyen plus rapide, à condition de pouvoir calculer les
corrélations entre les trois variables:
²)1²)(1(
)(
2313
231312312
rr
rrrr
−−−=−
Dans ce cas la corrélation partielle est de -.02.
La procédure de corrélation partielle consiste à calculer l'équation de régression
de (1) vers (3). Puis on calcule la corrélation entre les résidus de cette régression et (2).
5.4. Comparaison des corrélations
Il est impossible de comparer directement des coefficients de corrélation, dans la
mesure ou ces coefficients ne sont pas normalement distribués, et ce d'autant plus que le
coefficient est élevé (r>.30 ou r<-.30). Il est nécessaire dans un premier temps de
transformer r par la transformation de Fischer. On applique la formule suivante:
Zr= (log(1+r/1-r))/2
exemple:
.99 -2.65
.95 -1.83
.90 -1.47
.80 -1.09
.70 -0.87
.50 -0.54
.30 -.30
.00 .00
On calcule ensuite, pour chaque couple (ra,rb), une statistique t, selon la formule:
tra,rb= (Zra-Zrb) / Szra-zrb
avec Szra-zrb= √[(1/(na-3)+(1/(nb-3)]
na et nb représentant les effectifs des échantillons impliqués dans le calcul des
coefficients ra et rb.
tra,rb suivant une distribution de Student, on peut en apprécier la signification,
pour un nombre de degrés de liberté égal à (na - 3) + (nb -3 ).
Exemple:
n1=30 r1=.80 Zr1=1.09
n2=40 r2=.85 Zr2=1.26
44
t=.17/√(1/27)+(1/37)=-.67
ddl=64 tlu=2
5.4.1. Relations entre deux séries d'observations.
La corrélation est une mesure de la manière dont deux variables varient de
manière simultanée. Par exemple, pour deux variables ordinales, elle permet de
répondre des questions du type: le classement réalisé sur des élèves en français est-il
similaire à celui réalisé en histoire?
Deux statistiques permettent de calculer l'importance de cette liaison. La
première est le τ (tau) de Kendall, et la seconde le ρ (rô) de Spearman. Ce dernier est en
fait un coefficient de corrélation linéaire, calculé sur les rangs. Ces deux coefficients
relevant d'une logique de calcul différente, il n'y a pas de relation directe entre les
valeurs qu'ils prennent.
Concernant le coefficient de Spearman, on montre que:
ρ = −−
∑1
6
1
2
2
d
n n( )
Σd² étant la somme des carrés des différences des rangs.
Exemple
Sujet x y rang x rang y d d²
1
2
3
4
5
6
7
8
8
12
4
6
15
9
6
18
14
15
8
7
20
11
10
17
5
3
8
6.5
2
4
6.5
1
4
3
7
8
1
5
6
2
1
0
1
-1.5
1
-1
0.5
-1
1
0
1
2.25
1
1
0.25
1
Σd²=7.5
ρ=1-((6*7.5)/(8(8²-1)))=0.91
6. Régression et covariance
6.1. Régression linéaire
Soit la représentaton graphique, en deux dimensions, de la relation entre deux
variables x et y. Chaque point M est associé à un couple (x,y). On cherche à déterminer
45
une droite qui représenterait au mieux la relation, qui s'ajusterait au nuage de points. La
droite retenue est celle pour laquelle la somme des carrés des distances verticales de
chaque point M à la droite est minimale.
On démontre que cette droite passe par un point de coordonnées (mx,my), et que
son équation est de la forme
y=ax + b
avec ax m y m
x m
x y
x
=− −
−∑∑
( )( )
( )²
et b=my - amx
On peut développer ces équation pour obtenir des formules de calcul plus
pratiques:
aN xy x y
N x x=
−
−∑∑∑
∑∑
( )
² ( )²
bx y x xy
N x x=
−
−∑∑∑∑
∑∑
²
² ( )²
a et b sont les paramètres de la droite des moindres carrés.
rN xy x y
N x x N y y=
−
− −∑∑∑
∑∑∑∑( ² ( )²)( ² ( )²)
La formule y=ax + b permet de calculer pour chaque x une valeur théorique de y.
L'échantillon des yth-y constitue les résidus de la régression. La droite des moindres
carrés est donc la droite qui minimise la somme des carrés des résidus.
x y x² y² xy
1
2
3
4
5
1
2
4
3
5
1
4
9
16
25
1
4
16
9
25
1
4
12
12
25
Σx=15 Σy=15 Σx²=55 Σy²=55 Σxy=54
a =((5*54)-(15*15))/((5*55)-(15²)
=(270-225)/(275-225)
=45/50
=0.9
46
b =((55*15)-(15*54))/((5*55)-(15²)
= (825-810)/(275-225)
= (15/50)
= 0.3
r =((5*54)-15²)/√((5*55)-(15²))*((5*55)-(15²))
=45/√(275-225)(275-225)
=45/√(275-225)(275-225)
= 45/√50²
= 45/50
=0.9
y=(.9)x + .3
x yréel ythéorique résidus
____________________________________
1 1 1.2 -0.2
2 2 2.1 -0.1
3 4 3.0 +1.0
4 3 3.9 -0.9
5 5 4.8 +0.2
6.2. Régression curvilinéaire
Par une transformation logarithmique de X, de Y ou des deux simultanément, on
peut reconstituer les ajustements logarithmiques, exponentiel et puissance.
log(X) et Y ajustement logarithmique y=Alogx + B
A et B sont ici donnés directement.
X et log(Y) ajustement exponentiel y=B*eAx
log(y)= ax + b donc y= eax + b
y=eb*eax
y=B*eax
A=a et B=eb
log(X) et log(Y) ajustement puissance y=BxA
log(y)=a(log(x)) + b donc y=ea(log(x)) + b
y=ea(log(x))*eb
y=eb*xa
47
A=a et B=eb
D'autres fonctions plus complexes peuvent être obtenues par la même méthode. Le
choix du meilleur ajustement se fait ensuite par comparaison des coefficients de
corrélation de chaque équation.
6.3. Analyse de la covariance
L'analyse de la covariance est une combinaison de l'analyse de variance et de la
régression linéaire. L'analyse de la covariance permet d'étudier l'effet d'une variable A
en contrôlant l'effet d'une seconde variable B.
La variable B est mesurée pour chaque sujet. Une équation de régression est
calculée entre la variable dépendante et la variable B. On calcule alors pour chaque sujet
les résidus, c'est-à-dire la différence entre le B réel et le B prédit par l'équation de
régression. Une ANOVA est ensuite réalisée en utilisant les résidus comme variable
dépendante.
7. Analyses multivariées
Les procédures décrites jusqu'à présent ne prenaient en compte qu'une seule
variable dépendante. On parle de statistiques univariées. Un certains nombre de
procédures permettent la prise en compte simultanée de plusieurs variables dépendante.
Ces procédures sont dites multivariées (multivariate techniques). On retrouve à leur
niveaux des procédures expérimentales (analyse discriminante, analyses de la variance
et de la covariance multivariées) et des procédures corrélationnelles (corrélation
canonique, analyse factorielle, analyse des pistes causales).
7.1. Régression multiple
La régression permet de résumer la relation entre deux variables, et donc de
prédire une variables Y en fonction d'une variable X. Mais la prédiction d'une variable
donnée peut être plus fine si l'on prend en compte plus de variables prédictives. La
régression multiple permet de calculer une équation additive de forme:
z=ax + by + c
prédisant une variable z à partir de deux (ou plus) variables mesurées. L'équation
de régression multiple est caractérisée par un coefficient de régression multiple,
exprimant la précision de la prédiction.
7.2. Analyse discriminante
Cette analyse est réalisée pour une VI et deux ou plus VD. Il s'agit d'utiliser une
combinaison des VD pour prédire la VI (dans la logique de la régression multiple). Cette
48
analyse permet de savoir combien de VD sont nécessaire pour prédire l'appartenance des
sujets à l'un ou l'autre groupe déterminé par la VI.
7.3. Analyse de variance multivariée
L'analyse de variance multivariée (ou MANOVA) permet d'étudier l'effet de la
ou des VI sur plusieurs VD, prises dans leur ensemble. Pratiquement l'analyse porte sur
une combinaison linéaire des VD. On peut noter à ce niveau que la MANOVA à un
facteur correspond à l'analyse discriminante.
Une fois mise en évidence un effet sur la variable combinée, des tests post-hoc
peuvent porter sur les effets obtenus sur chaque variables dépendante (soit par ANOVA,
soit par analyse discriminante.
L'analyse de la covariance multivariée repose sur une logique similaire.
7.4. Corrélation canonique
La corrélation canonique est une corrélation calculée au moins deux variables
dépendantes (critères) et au moins deux variables indépendantes (prédicteurs). Cette
technique utilise deux combinaisons linéaires (une pour les variables X et l'autre pour
les variables Y). Ces combinaisons sont pondérées de manière à obtenir la corrélation
maximale. En fonction de la pondération de chaque variable, on peut déterminer leur
importance dans la relation globale.
La corrélation canonique est utilisée de manière exploratoire pour déterminer
quelles sont les VI et les VD les plus pertinentes à utiliser dans une expérimentation.
7.5. Analyse factorielle
Le but de l'analyse factorielle est de résumer un tableau de données en faisant
émerger une structure plus simple de facteurs sous-jacents. Considérons que six sujets
réalisent cinq tests codés de A à E. Ces tests sont les suivants:
A= Course 1000 m
B= Course 3000 m
C= Test de détente verticale
D= Test de course navette
E= Test de saut en longueur sans élan
Le tableau suivant indique les scores obtenus par chaque sujet sur chacun des
tests.
a b c d E
1 200 19 44 9 25
2 150 18 130 25 80
49
3 80 7 62 20 40
4 115 11 115 23 75
5 100 10 110 17 75
6 80 9 80 17 35
On calcule les corrélations entre les échantillons de performances obtenues. La
matrice des corrélations obtenues est la suivante:
A B C D E
A 1.000
B 0.951 1.000
C -0.190 0.027 1.000
D -0.422 -0.228 0.794 1.000
E -0.132 0.025 0.957 0.751 1.000
On peut remarquer, au travers de cette matrice, que certains tests présentent entre
eux une forte relation (A et B; C et E), alors que d'autres sont indépendants l'un de
l'autre (Bet C; B et E).
L'analyse factorielle, à partir de cette matrice de corrélation, va identifier des
facteurs sous-jacents susceptibles d'expliquer les relations mises en évidence. La logique
est que si deux tests sont en corrélation, on suppose qu'ils sont tous deux déterminés par
une cause commune. Dans le cas présent, l'analyse fait apparaître deux facteurs:
1 2
A -0.176 0.977
B 0.028 0.989
C 0.980 0.000
D 0.870 -0.290
E 0.966 0.032
Les facteurs ainsi isolés n'ont pas de signification immédiate: c'est le chercheur
qui doit les interpréter en fonction de la nature des tests dont ils rendent compte. D'une
manière générale , l'interprétation est fondée sur les tests qui ont la plus forte corrélation
avec le facteur que l'on cherche à identifier.
L'interprétation d'une telle solution factorielle est relativement facile: le premier
facteur rend compte des deux tests de course longue: on peut supposer qu'il rend compte
d'une aptitude générale à l'endurance aérobie. Le second doit dans la même logique
rendre compte d'une aptitude de force explosive des membres supérieurs.
On peut qu'il existe plusieurs méthodes pour optimiser le modèle, basées sur des
rotation du système de facteurs.
7.6. Analyse des pistes causales
50
Cette technique, également appelée LISREL (Linear Structural Relations) a pour
but de montrer comment des modèles de type causal permettent de rendre compte de
tableaux complexes de données. Elle permet donc d'utiliser une méthode
corrélationnelle pour tester des relations de cause à effet, et de plus dans un cadre
multivarié.
51
8. Références
Bertrand, R. (1986). Pratique de l'Analyse Statistique des Données. Québec: Presse de
l'Université du Québec.
Bonnet, C. (1986). Manuel pratique de psychophysique. Paris: A. Colin.
Langouet, G. & Porlier, J.C. (1991). Mesure et Statistique en Milieu Educatif (4ème
édition). Paris: ESF.
Mialaret, G. (1991). Statistiques Appliquées aux Sciences Humaines. Paris: PUF.
Reuchlin, M. (1976). Précis de statistique. Paris: PUF.
Snedecor, G.W., & Cochran, W.G. (1967). Statistical Methods. Ames, Iowa: Iowa State
University Press (6ème édition).
Thomas, J.R. & Nelson, J.K. (1990). Research Methods in Physical Activity.
Champaign, Ill.: Human Kinetics.
Wilkinson, L., Hill, M., Welna, J.P. & Birkenbeuel, G.K. (1992). Systat for Windows:
Statistics, Version 5 Edition. Evanston, Ill.: Systat, Inc.
top related