master 2 ieaps statistiques - les staps, l'université, l

Master 2 IEAPS

STATISTIQUES – METHODES QUANTITATIVES

Didier Delignières

Les statistiques sont un ensemble de procédures destinées à traiter des données

quantitatives. Elles remplissent deux fonctions fondamentales: il s'agit tout d'abord de

décrire les données recueillies: on parle de statistiques descriptives. Un autre type de

procédures vident à vérifier des hypothèses quant à l'effet de certains facteurs sur les

variables mesurées. On parle alors de statistiques inférentielles. On peut comparer ces

deux étapes dans un premier temps à une enquête policière, destinée à recueillir le

maximum d'informations, puis au procès visant à établir les responsabilités.

1. La mesure.

Puisque les statistiques servent à traiter des données numériques, se pose dans un

premier temps le problème du recueil de ces données, c'est-à-dire le problème de la

mesure.

1.1. Mesure, échantillon, population.

Une échantillon est un ensemble de données (et non un ensemble d'individus).

Un échantillon est supposé représentatif d'une population parente de données. Il faut

noter que la population parente n'est pas une population démographique: c'est l'ensemble

des mesures possibles, compte-tenu de l'ensemble des variables incontrôlables. La

population parente est donc toujours infinie.

Une donnée est une information de nature numérique. La mesure va consister à

relever des données numériques constituant l'échantillon. Stevens (1968/69) a proposé

une théorie désormais classique de la mesure. S'insurgeant contre l'idée ancienne que

mesurer, c'est compter, il estime que le système numérique est un modèle comprenant

plusieurs sortes, ou plutôt plusieurs niveaux de règles.

La mesure est le fait d'attribuer des nombres à des objets ou à des événements, en

suivant une règle rigoureuse. Puisqu'il y a différentes sortes de règles, il y a différentes

sortes de mesure. La mesure sera possible quand il y aura isomorphisme entre les

relations empiriques des objets et les relations formelles des nombres. A cette condition,

les secondes servent de modèle pour les premières.

1.2. Les niveaux de mesure

Stevens décrit quatre niveaux de propriétés empiriques des objets pour lesquelles

les nombres peuvent servir de modèles. Chacune de ces échelles se caractérise, au

niveau mathématique, par le type de transformation que l'on peut opérer sur l'ensemble

de l'échelle sans en modifier la nature.

1.2.1. Echelles nominales

L'identité: les nombres étiquettent des objets ou des classes d'objets. Les seules

opérations empiriques possibles sont les relations d'égalité et d'inégalité entre les objets.

La Classification Périodique des Eléments est une échelle de mesure de ce niveau

(échelle nominale).

Les échelles nominales ne supportent qu'une substitution bi-univoque: chaque

évaluation est remplacée de manière univoque et exclusive par une autre. c'est ce qui se

passe par exemple lorsque l'on modifie un codage (passer de homme=M et femme =F à

homme =1 et femme=2).

L'analyse statistique va principalement porter sur les données de numération: à

chaque classe déterminée par l'échelle nominale est affecté un effectif. Les données de

numération sont toujours des entiers. Les données de numération peuvent être

présentées sous forme de tableaux de contingence.

A B C Total

Effectifs x y z x+y+z

Ces effectifs peuvent être additionnés, et transformés en fréquence (on divise

alors l'effectif d'une classe par le nombre total d'observations. La somme des fréquences

est alors égale à 1. En multipliant une fréquence par 100, on obtient un pourcentage.

L'intérêt des fréquences est de pouvoir faire des comparaisons entre distributions portant

sur des effectifs totaux différents.

1.2.2. Echelles ordinales

L'ordre: les nombres représentent les objets selon leur rang. Les opérations de

détermination du rang (inférieur à, supérieur à) sont possibles. L'échelle de dureté des

minéraux est un exemple de ce type de mesure (échelle ordinale).

Les échelles ordinales supportent toute transformation monotone croissante. Ce

type de fonction respecte l'ordre de données et les propriétés de l'échelle sont

conservées.

Les données relevées sont appelées données de rang. On peut noter que les rangs

statistiques sont déterminés de manière à ce que la somme des rangs ne varie pas, même

en cas d'ex-aecquo. Par exemple:

rang attribué rang statistique

B 2 2.5

C 2 2.5

Exercice: attribuer les rangs

_________________________________________________________________

Nbre de fautes 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

_________________________________________________________________

Effectifs 1 1 0 2 3 1 2 1 1 0 2 1 1 3 1

_________________________________________________________________

Rangs 1 2 3.5 6 8 9.5 11 12 13.5 15 16 18 20

1.2.3. Echelles d'intervalles

Les intervalles: les nombres peuvent servir à représenter les différences ou les

distances entre les éléments. On obtient des échelles de classement à intervalles égaux.

Les opérations de détermination de l'égalité des intervalles et des différences sont

possibles. les échelles de température Celsius et Fahrenheit sont de ce niveau.

Les échelles d'intervalles supportent toute transformation affine de type y=ax +

b. Ces transformations conservent la proportionnalité des intervalles et des différences.

C'est une opération de ce type qui est réalisée lorsque l'on convertit des degrés

Fahrenheit et degrés Celsius.

C°=(F° - 32) x (5/9)

1.2.4. Echelles de rapport

Les rapports: les nombres peuvent servir à représenter les rapports entre

éléments. La détermination de l'égalité des rapports est possible. Ces échelles se

distinguent des précédentes par l'apparition d'une origine, d'un zéro absolu. L'échelle

Kelvin de température est une échelle de rapport.

Les échelles de rapport ne supportent qu'une multiplication par une constante

(y=ax). Cette transformation ne modifie pas le zéro absolu de l'échelle: l'origine de

l'échelle demeure donc invariante, et la proportionnalité des rapports est maintenue.

C'est ce type de transformation qui est utilisé par exemple pour convertir une mesure des

miles aux kilomètres:

mile=1.61 x km

On peut noter à ce niveau que plus les échelles sont sophistiquées, plus les

transformations permises sont précises. Et la transformation permise à un niveau donnée

est toujours un cas particulier de la fonction permise au niveau inférieur.

Les échelles d'intervalles et de rapport procurent des données dites de scores. Les

données de scores peuvent être représentées de diverses manières:

- le tableau des effectifs (quels effectifs pour chaque niveau de mesure).

- le tableau des groupement en classes d'intervalles égaux

- le tableau des proportions

- le tableau des fréquences

Classe Valeur centrale Effectif Fréquence Pourcentage

xn-xn' X=(xn-xn')/2 n n/N (n*100)/N

- histogramme (effectif)

- courbe de fréquence

Exercice:

Score Effectif Fréquence Pourcentage

26 1 100

2. Statistiques descriptives.

Un premier objectif des statistiques est de décrire au mieux les échantillons,

c'est-à-dire de les synthétiser au travers d'indices descriptifs, appelés également résumés

statistiques. Ces résumés visent avant tout à donner des renseignements sur la tendance

centrale et sur la dispersion de la distribution.

2.1. Tendance centrale.

2.1.1. Moyenne.

La valeur centrale qui résume au mieux une distribution de données de scores est

la moyenne arithmétique:

N= ∑

La moyenne a une propriété fondamentale: la somme des écarts à la moyenne est

nulle:

Σ (x-m)=0

Les échelles de rapports permettent également le calcul de la moyenne

géométrique, définie comme la racine nième du produit des n valeurs, ces dernières

étant toutes strictement positives, et de la moyenne harmonique, définie comme l'inverse

de la moyenne arithmétique des inverses des n valeurs, ces dernières étant toutes

strictement positives. Ces moyennes sont souvent préférée à la moyenne arithmétique,

notamment en psychophysique.

Exercice:

Score 1 2 3 4 5 6 7 8

Effectif 2 6 5 3 3 8 7 5 39

Totaux

partiels

2 12 15 12 15 48 49 40 193

Effectifs

cumulés

2 8 13 16 19 27 34 39

m= Σ(x)/N= 193/39 = 4.949

2.1.2. Médiane.

Le concept de moyenne n'a de sens que pour les données de scores, c'est-à-dire

pour les échelles d'intervalles et de rapport. La tendance centrale d'une distribution de

variables ordinales est représenté par la médiane. La médiane est définie comme la

valeur de la variable telle que 50% des observations lui soient inférieure et 50% lui

soient supérieure. Lorsque ne nombre total d'observation est impair, le définition de la

médiane ne pose pas de problème: le rang médian est égal à

k=(N+1)/2

Dans le cas d'effectifs pair, on prend en général pour convention "d'arrondir" k

au premier entier supérieur au quotient obtenu.

Il est à noter que la médiane représente souvent non pas une donnée mais une

classe de données ayant obtenu le même rang. Ceci peut poser problème quand par

exemple on veut diviser un groupe par une coupure à la médiane (median split). Il faut

alors décider à quelle demi-distribution appartiendra la classe médiane: on décide en

général de réaliser l'affectation qui respectera au mieux la répartition théorique de 50-50.

Notons enfin qu'il est tout à fait possible de calculer la médiane d'un échantillon

de données de scores.

Exercice:

k=(39+1)/2= 40/2=20

La médiane est égale à 6

2.1.3. Mode.

En ce qui concerne les échelles nominales, c'est-à-dire les données de

numération, ni la moyenne ni la médiane ne sont accessibles.

Le mode est défini comme la catégorie pour laquelle l'effectif est le plus grand

(ou comme la valeur la plus fréquemment attribuée). Le mode n'a vraiment de sens que

si une catégorie présente un effectif nettement supérieur aux autres. On peut noter enfin

que le mode est lié à la conception des classes: il suffit par fois de subdiviser la classe

modale en deux sous-classes pour que le mode ne se trouve plus dans l'une d'entre elles.

Exercice:

Mode= 6

2.2. Mesure de dispersion.

Ces paramètres rendent compte de la façon dont se dispersent les données autour

de la tendance centrale.

2.2.1. Variance et écart-type

Plusieurs mesures de la dispersion sont envisageables: on peut par exemple

mesurer l'intervalle de variation, c'est-à-dire la différence entre la plus grande et la plus

petite mesure. Cet indice ne rend pas compte de la dispersion des notes autour de la

moyenne.

Une approche plus intéressante consiste à calculer la somme des carrés des écarts

à la moyenne. Il est à rappeler que la somme des écarts à la moyenne est toujours nulle

(les intervalles s'annulant de part et d'autre de la moyenne). On peut contourner le

problème soit en prenant les valeurs absolues de écarts à la moyenne, soit en les élevant

au carré. Cet indice ne peut cependant être utilisé que pour la comparaison

d'échantillons de taille identique.

Pour des échantillons de taille différentes, on a recours à la variance, qui est

égale à la moyenne des carrés des écarts à la moyenne:

−∑ ( )2

On montre que:

Σ(x-m)² =Σ(x²-2mx+m²)

=Σx²-2mΣx+Σm²

=Σx²-2(Σx/N)Σx+N(Σx/N)²

=Σx²-2(Σx)²/N+Σx²/N

=Σx²-(Σx)²/N

On a donc une expression plus simple de la variance:

− ∑∑2

Cette variance calculée sur un échantillon n'est évidemment qu'une estimation de

la variance de la population parente. On montre qu'une meilleure estimation est obtenue

par la formule suivante:

∑∑

N-1 exprime le nombre de degrés de liberté de la variable: c'est-à-dire qu'il

suffit que N-1 valeurs soient connues pour la détermination de la nième valeur.

On note également que l'écart entre variance estimée et variance calculée est

d'autant plus faible que N est grand.

On utilise plus couramment l'écart-type, qui est égal à la racine carrée de la

variance.

σ = v

L'écart-type a l'avantage d'être une mesure de distance (ou d'intervalle), alors que

la variance est une mesure d'un intervalle au carré. Une grandeur donnée peut de ce fait

être comparée à son écart-type, mais pas à sa variance.

x x-m (x-m)² x2

-2.909

-1.909

-0.909

Σx=43

Σ(x-m)²=46.906 Σx2=215

m=43/11= 3.909

calcul 1: v=46.909/10=4.691

σ=2.166

calcul 2

v =(215-(43²/11))/10

=(215-(1849/11))/10

=(215-168.091)/10

=46.909/10

=4.691

Exercice:

Classe Valeur centrale

Effectif

nixi nixi2

158-162

163-167

168-172

173-177

178-182

183-187

188-192

108900

144500

275625

194400

102675

Σni=30

Σnixi=5230

Σnixi2=913400

(Σx2)

Moyenne = 174.333

Variance = (913400-((5230)²/30)/30

= 56.437

Ecart-type = 7.512

On peut noter à ce niveau que si l'on transforme une distribution d'intervalle par

une transformation affine (y=ax + b), on a les relations suivantes:

m2= (a*m1) + b

σ2=a*σ2

Les échelles de rapport permettent également le calcul du coefficient de

variation, égal à l'écart-type divisé par la moyenne: ce coefficient permet de comparer la

dispersion de deux distributions en s'affranchissant de l'unité de mesure, et même de la

réalité mesurée (la taille est-elle plus dispersée que le poids?).

2.2.2. Autres mesures de dispersion.

L'entropie est une mesure spécifique de la dispersion pour les échelles

nominales. Elle est maximale lorsque les observations se répartissent de manière

équilibrée sur toutes les catégories. Elle est minimale lorsque ces observations ne se

répartissent que sur un nombre restreint de classes.

La dispersion des distributions ordinales est appréciée par une série de valeurs

jalonnant la distribution, appelées quantiles. Si l'on sépare la distribution en 10

intervalles, on parle de déciles. Dans ce cas 10% des observations figurent dans chacun

des 10 intervalles. On utilise souvent les quartiles, divisant la distribution en quatre

intervalles regroupant chacun 25% de l'effectif: on distingue alors le quartile inférieur

(premier quartile), la médiane (second quartile) et le quartile supérieur (ou troisième

quartile).

Pratiquement, la position du quartile 1 est donné par:

(rang de la première donnée + rang de la médiane)/2

et la position du Quartile 3:

(rang de la médiane + rang de la dernière donnée)/2.

L'utilisation des quartiles, déciles et centiles est extrêmement répandue dans la

standardisation des tests. Elle permet de situer rapidement un sujet au sein d'une

population de référence (par exemple, une personne qui pèse 70kg et mesure 1m80 est-

elle plus lourde que grande ou plus grande que lourde?).

Exercice: Calcul des quartiles et déciles.

Scores brutes Scores classés Rangs

15 12 1

12 15 2

59 23 3

45 35 4

78 45 5

23 59 6

65 64 7

98 65 8

64 78 9

94 94 10

35 98 11

N=11 Moyenne= 588/11= 53.45

Rang médiane= (11+1)/2=6 Médiane= 59

Rang Quartile 1= (1+6)/2=3.5 Quartile 1= 35

Rang Quartile 3= (6+11)/2=8.5 Quartile 3= 78

3. Distribution des échantillons.

On appelle distribution la répartition des effectifs sur chacun des niveaux de la

mesure. Dans le cas des données de scores, on répartit les effectifs sur des intervalles de

mesures. On représente graphiquement les distributions par des courbes de fréquences.

Ces distributions peuvent être symétriques, modérément dissymétriques, biaisées à

gauche ou à droite, en J ou en I, ou bimodales.

Couramment, les statisticiens modélisent leurs distributions en fonctions

binomiales ou normales. Le modèle binomial et le modèle normal renvoient à peu près à

la même réalité (distributions symétriques autour de la moyenne). Néanmoins le modèle

binomial renvoie à des variations discrètes et la modèle normal à des variations

continues. Ces modèles sont intéressants dans le sens où ces distributions possèdent des

propriétés mathématiques puissantes qui sous-tendent les tests statistiques.

3.1. La distribution binomiale

Une variable se répartit selon une distribution binomiale en n+1 classes si les

fréquences des n+1 valeurs de la variable sont données par les termes successifs du

développement de (p+q)n, avec p+q=1.

Par exemple, on tire dans une urne contenant un grand nombre de boules noire

ou blanche, dans les proportions p et q, respectivement. Le nombre de boules noires peut

prendre n+1 valeurs: 0, 1, 2, ..., n. Les différentes probabilités d'apparition de ces

valeurs suit une loi binomiale.

La distribution binomiale est symétrique si p=q=1/2, et se rapproche de la

symétrie si n devient grand. La moyenne de la distribution est

et la variance de la distribution

v=n*p*q

3.2. La distribution normale

La distribution normale est symétrique, et centrée sur sa moyenne. Elle présente

deux points d'inflexion I et I', symétriques (points où la tangente traverse la courbe). Ces

points d'inflexion sont situés à un écart-type de la moyenne

I=m+σ et I'=m-σ

L'équation de la courbe représentative est de la forme suivante:

σ πσ

Une distribution normale est entièrement définie par sa moyenne et son écart-

On dit qu'une variable est normale si elle se distribue de telle sorte que les

fréquences d'apparition des différents scores possibles suivent une loi normale. On dit

que la courbe des fréquences de la variable est une courbe normale ou courbe de Gauss.

Une telle courbe apparaît en traduction de l'influence d'un facteur principal,

associé à d'autres facteurs non contrôlés, aléatoires (centrage sur le facteur principal,

écart symétrique dus aux facteurs aléatoires.

3.2.1. Les tests de normalité.

Plusieurs tests de normalité sont disponibles. Une première solution consiste à

examiner les coefficients de skewness et de Kurtosis.

Le coefficient de skewness est un indice d'asymétrie.

/ avec m

∑( )

et mx m

∑( )

Si la distribution est normale, g1=0

Le coefficient de Kurtosis est un indice d'aplatissement.

23= − avec m

∑( )

On doit obtenir g2=0 si la distribution est normale.

En cas de doute, on peut utiliser le test de Kolmogorov-Smirnov. Ce test est basé

sur la comparaison des fréquences cumulées observées aux fréquences cumulées

théoriques, calculées à partir de la table de la loi normale.

- On commence par ordonner les données

- On calcule les fréquences correspondant à chaque niveau de score

- On calcule les fréquences cumulées correspondant à chaque niveau de score

- On calcule les scores z correspondant à chaque niveau de score

- On calcule pour chaque niveau de score les fréquences théoriques, à partir de la

table de la loi normale (il faut tenir compte du fait que la table donne les fréquences des

événements extérieurs à (-z,z).

- On calcule les différences entre fréquence observée et théorique, pour chaque

niveau de score.

Score Effectifs Fréquence Fréquence

cumulée

z Fréquence

cumulée

théorique

Différence

-0.015

m=2.8 σ=2.1

Le test porte sur la différence absolue maximale entre fréquence théorique et

observée (ici .205). La table de Kolmogorov-Smirnov donne la différence maximale

théorique acceptable, en fonction de l'effectif de l'échantillon. Ces valeurs sont données

directement pour les effectifs inférieurs à 35, et doivent être calculés au-delà.

Ici pour N=10, on a Dth=.410 pour p=.05. On peut admettre l'hypothèse nulle et

considérer la distribution comme normale.

Exercice

Score Effectifs Fréquence Fréquence

cumulée

z Fréquence

cumulée

théorique

Différence

-0.735

-0.291

m=3.653 σ=2.252 N=26

Dmax=0.306. à p=.05, Dth=.27. On peut donc refuser l'hypothèse nulle et

affirmer que la distribution n'est pas normale.

3.3. La loi normale réduite

Si l'on transforme une distribution en retranchant la moyenne et en divisant par

l'écart-type, on obtiendra une nouvelle distribution, de moyenne 0 et d'écart-type 1: c'est

une distribution centrée réduite.

z=(x-m)/σ

Une telle transformation permet par exemple de comparer des distributions en

s'affranchissant des unités de mesure.

Exercice:

m=50 σ=15

x 0 5 20 35 50 65 80 95 100

z -3.33 -3 -2 -1 0 1 2 3 3.33

La loi normale réduite a des propriétés très importantes. On a étudié sa

distribution, et notamment on a établi les correspondances entre les abscisses (les

différentes valeurs de z) et les aires délimitées par ces abscisses.

La table fait correspondre à chaque valeur de z l'aire extérieure à la bande de

plan située entre z et -z.

Exemples:

- z=1.50 la table indique p=.134

Ceci signifie que 13.4% de la distribution des z est située en dehors de

l'intervalle (-1.5;1.5). Ou encore que 100-13.4=86.6% de la distribution sont situés entre

-1.5 et 1.5. Ou encore que (86.6)/2= 43.3% de la distribution des z est situé entre 0 et

La table peut être utilisée à l'inverse: Quelle est la valeur z pour que 10% de la

distribution soit supérieure à z, ou inférieure à -z.

Pour p=.10, la table indique z=1.65.

La table normale réduite est à la base de la plupart des procédures statistiques.

Quelques applications.

1. Français moyenne 35 écart-type 7

Maths Moyenne 58 écart-type 15

a. Un élève obtient 42 en Français et 73 en maths. Sa performance relative est-

elle meilleure en français ou en maths?

zfr=zmath=1 Les performances sont équivalentes.

b. Un élève obtient 25 en français. Quelle note devrait-il obtenir en math pour

une performance équivalente?

zfr=(25-35)/7=-1.43

si zmath=-1.43 xmath=(-1.43*15) + 58=36.55

2. Soit une distribution normale, m=75, σ=8

Quel pourcentage de notes sont situé entre x1=67 et x2=83.

- Transformation en notes z

z1=-1 z2=1

- table de la loi réduite:

z=1 p=.317

Si p' est la proportion de notes entre x1 et x2,

p'= 1-p =.683

68.3% des notes sont situées entre 67 et 83.

3. Quel est le pourcentage de notes entre x1= m+2σ et x2= m-2σ?

z1=-2 z2=2

p=.046 p'=.954

95.4% des mesures sont situées entre x1 et x2. Si l'on tire une note au hasard, il y

a 95.4% de chances qu'elle soit située entre x1 et x2.

4. Quel est le pourcentage de notes entre x1= m+3σ et x2= m-3σ?

5. Quelques valeurs remarquables de z:

% p' z

90 .10 1.65

95 .05 1.96

99 .01 2.56

3.4. Limites de confiance de la moyenne d'un échantillon

Un échantillon est toujours considéré comme extrait d'une population parente. Il

n'en est pas l'image parfaite. Il existe une erreur due à l'échantillonnage. Tous les

paramètres calculés (i.e. moyenne, écart-type) ne sont que des estimations de ceux de la

population parente.

Quelle confiance accorder à la valeur d'un paramètre calculé sur un échantillon?

3.4.1. Population parente à paramètres connus

Soit une population parente de moyenne M=49.5 et σ=14.3. De cette population

on extrait au hasard des échantillons de taille N. Les différentes moyennes obtenues

constituent un échantillon de moyenne, d'une population parente des échantillons de 25

mesures, de moyenne m=M, et d'écart-type E. E est appelé erreur-type.

On montre que EN

E est d'autant plus réduit que N est élevé:

16 3.57

25 2.86

100 1.43

Soit une population parente de moyenne M=50 et σ=15. On extrait un

échantillon d'effectif N=36. Entre quelles limites a-t-on 90% chances de trouver la

moyenne de l'échantillon?

Il faut calculer les limites L1 et L2 de l'intervalle sur la distribution des

moyennes.

E=15/√36=15/6=2.5

L1= M-(1.65*E)=45.87

L2= M+(1.65*E)=54.12

On a 90% de chances pour que la moyenne de l'échantillon se situe entre ces

deux limites. Ou encore, j'ai 10% de chances de me tromper en disant que la moyenne se

situe entre L1 et L2.

Exercice:

1. Soit une population parente de moyenne M=50 et σ=15. On extrait un

échantillon d'effectif N=36. Entre quelles limites a-t-on 95% chances de trouver la

moyenne de l'échantillon?

Il faut calculer les limites L1 et L2 de l'intervalle sur la distribution des

moyennes.

E=15/√36=15/6=2.5

L1= M-(1.96*E)=45.10

L2= M+(1.96*E)=54.90

On a 95% de chances pour que la moyenne de l'échantillon se situe entre ces

deux limites. Ou encore, j'ai 5% de chances de me tromper en disant que la moyenne se

situe entre L1 et L2.

2. Au seuil p=.01, L1=43.60 et L2=56.40

3. M=100 σ=20 N=20 75%

p=.25 z=1.15 E=20/4.47=4.47

L1=94.86 L2=105.14

4. M=100 σ=20

a. Quel effectif donner à l'échantillon pour avoir 95% de chance que la moyenne

soit situé à +/-5 de la moyenne?

L1=95 L2=105 z=1.96

L1=M-z(σ/√N) donc N=[(z*σ)/(M-L1)]2

N=[(1.96*20)/(5)]2= (7.84)2 = 61.46 N=62

b. si p=.01 N=105

3.4.2. Population parente à paramètres inconnus

On ne connaît que les paramètres de l'échantillon. Quelle confiance accorder à

cette estimation?

Les limites de confiance de la moyenne de l'échantillon sont

L1=m-t(σ/√N) et L2=m+t(σ/√N)

t est le t de Student, donné par une table spécifique. t dépend du seuil de

probabilité choisi, et du nombre de degrés de liberté de l'échantillon

ddl=N-1

Exemples:

N=25 P=.05 t=2.06

N=40 P=.01 t=2.71

Exercice:

1. Echantillon de notes:

12 15 16 10 19

13 9 17 16 15

9 19 20 13 15

10 12 4 13 7

15 5 9 10

Au seuil .05, quelles sont les limites de confiance de la moyenne obtenue?

N=24 m=12.625=12.6 σ=4.3

t=2.07

L1=10.8 L2=14.4

Au seuil .01, L1=10.1 et L2=15.1

2. Dans une épreuve, on fait l'hypothèse que la moyenne sera 12. On obtient une

moyenne de 13.6 pour un écart-type de 4.4 ( N=39). L'hypothèse est-elle invalidée?

Première méthode: ddl=38 t=2.03

L1= 13.6 - 2.03(44/√39) = 12.17

L2=15.03

Au seuil p=.05, l'hypothèse est invalidée. La différence entre la moyenne

attendue et la moyenne obtenue est trop grande pour n'être expliquée que par le hasard.

Seconde méthode, plus rapide:

On calcule t tm A

calc =−σ =2.27

On compare ensuite tcalc et tlu, pour savoir si la différence est significative au

seuil choisi. Si tcalc > tlu, la différence est significative.

Par contre, au seuil .01, on ne peut pas dire que cette différence est significative

(tlu=2.72)

On peut noter qu'un test statistique met toujours à l'épreuve une hypothèse nulle,

ou hypothèse de différence nulle

H0: la différence constatée n'est pas significative.

4. Comparaison de moyennes.

Les principes précédent sont principalement utilisés pour la comparaison des

moyennes de deux ou plusieurs échantillons.

4.1. Echantillons appariés

Lorsque les deux échantillons sont appariés (mesures répétées), on calcule pour

chaque paire x1x2 la différences d, puis md la moyenne des différences. Si l'hypothèse

nulle est vraie, cette moyenne devrait être égale à 0. le problème se ramène donc à la

comparaison d'une moyenne obtenue et d'une moyenne attendue.

On calcule t selon la formule précédente, avec A=0

= σ df=n-1

Exemple:

x1 x2 d

122 176 54

H0: m1 et m2 sont les estimations d'une même moyenne.

m1=15.25 et m2=22

md=54/8=6.75

σd=14.64 t

calc=1.304

au seuil p=.05, ddl=7, tlu=2.36

<tlu, H

0 est acceptée

On n'apporte pas la preuve que des progrès ont été réalisés

Exercice:

x1 x2 d

145 208 63

m1= 14.5 m2= 20.8 Md=6.3 N=10 σd=6.43

tcalc=3.098

ddl=9 tlu=2.26

H0 est rejetée. On peut affirmer qu'il y a un progrès lié à l'enseignement.

4.2. Echantillons indépendants

Le problème est de comparer les moyennes de deux échantillons indépendants

(ils peuvent avoir des effectifs différents). L'hypothèse est que les deux moyennes sont

égales, donc que la différence entre m1 et m2 est voisine de zéro. Il serait possible de

calculer les intervalles de confiance de chaque moyenne, et de voir si les deux

intervalles ont une intersection non nulle.

On calcule en fait une statistique t, selon les principes précédents.

Il est cependant nécessaire de calculer une estimation de la variance de la

distribution des différences (m1-m2). On montre que la meilleure estimation de cette

variance intragroupe est égale à:

Vv n v n

n nε =

− + −+ −

1 1 2 2

( ) ( )

Puis on calcule la quantité t

1 1ε ( )

dll=(n1+n2)-2

Ces statistiques t doivent être comprises comme le rapport entre la variance

véritable (ou la différence véritable entre les moyennes) et la variance d'erreur (c'est-à-

dire la variation autour de la moyenne). S'il n'existe pas de différence réelle entre les

groupes, alors la variance véritable et la variance d'erreur sont équivalentes. le rapport

sera alors égal à 1. Lorsque t est significatif, on en conclut que la variance véritable est

supérieure à la variance d'erreur.

Exemple:

1. m1=11, σ1=3

m2=13, σ2=2

Vε=[3²(20-1)+2²(25-1)]/(20-1)+(25-1)= 6.21

t=(13-11)/√(6.21(1/20)+(1/25))=2.68

dll=20+25-2=43

On prend sur la table le ddl immédiatement inférieur (40)

à p=.05, t=2.02

tcalc>tlu l'hypothèse nulle est rejetée.

Il y a donc une différence significative entre les deux groupes.

2. groupe 1: 22, 10, 24, 35, 22, 20, 11, 18, 21, 17, 32, 27

groupe 2: 11, 31, 6, 8, 39, 2, 13, 11, 12, 10

m1=21.6 m2=14.3

n1=12 n2=10

v1=55.17 v2=132.9

Vε=90.15

t=1.79

tlu=2.09

tcalc<tlu l'hypothèse nulle est acceptée. On n'apporte pas la preuve d'un

comportement différent entre les deux groupes.

4.3. Analyse de variance

4.3.1. Analyse de variance à un facteur

Le test de Student ne peut comparer que deux groupes. Lorsque l'on a plus de

deux groupes expérimentaux, il est nécessaire d'utiliser l'analyse de variance, ou

ANOVA. L'analyse de variance va comme le test de Student porter sur un rapport entre

la variance véritable (c'est-à-dire liée à un facteur expérimental) et la variance liée à

l'erreur expérimentale. Mais la comparaison ne portera pas sur deux échantillons, mais

sur l'ensemble des échantillons affectés par le facteur.

Le cas le plus simple est l'analyse de variance à un facteur: il s'agit en fait de

comparer plusieurs échantillons indépendants. L'usage de tests de Student répétés est

inapproprié.

Deux conditions doivent être réunies:

- les distributions doivent être normales.

- les variances doivent être homogènes.

L'hypothèse nulle est que les moyennes m1, m2,..,mn, ne diffèrent pas dans leur

ensemble.

Principe de solution:

La variance totale dépend de deux sources de variation:

- La variance intra-groupe (c'est-à-dire la variance de la variable, à l'intérieur de

chaque groupe, autour des moyennes de groupe).

- La variance inter-groupe, qui mesure la dispersion des moyennes

La statistique F de Snedecor est le rapport entre la variance inter-groupe et la

variance intra-groupe. F est d'autant plus petit que la variance intergroupe est faible et la

variance intra-groupe élevée. Dans ce cas, le moyennes sont proches et les distributions

tendent à se chevaucher.

Inversement, il est d'autant plus grand que la variance inter-groupe est forte et la

variance intra-groupe faible. Dans ce cas les moyennes sont nettement séparées et les

distributions, peu étalées, ne se chevauchent pas.

Le théorème fondamental de l'analyse de variance énonce l'additivité des

sommes de carré:

SC totale= SC inter + SC intra

SC Totale= ∑ij(xij-m)² m représentant la moyenne totale

SC inter= ∑ni(mi-m)²

ni représentant l'effectif du groupe i et mi la moyenne du groupe i. SC inter est

donc la somme des carrés des écarts des moyennes de groupe à la moyenne générale,

pondérée par l'effectif de chaque groupe.

SC Intra= ∑ij(xij-mi)²

SC Intra est égale à la somme des sommes de carrés de chaque groupe.

Par ailleurs, on a une additivité des degrés de liberté:

ddl Total= ddl Inter + ddl Intra

N-1= (K-1) + (N-K)

K représentant le nombre de groupes et N l'effectif total.

L'analyse de variance n'utilise pas de scores de variance, mais des grandeurs

appelées carrés moyens (mean squares), définis comme le rapport entre les sommes de

carrés et le nombre correspondant de degrés de liberté.

Le carré moyen total est égal à:

CM total=(∑ij(xij-m)²)/N-1

On voit que CM total est égal à la variance de l'échantillon total des scores. On a

vu précédemment une formule de calcul plus rapide, soit:

Ntotal =

∑∑

N étant l'effectif cumulé des k groupes.

Le carré moyen intra-groupe est égal à:

CM Intra= (∑ij(xij-mi)²)/(N-k)

La variance inter-groupe est égale à:

CM inter= (∑ni(mi-m)²)/(k-1)

Afin de comprendre le sens des carrés moyens inter et intra, on peut considérer le

cas où l'effectif des K groupes est identique. Dans ce cas, le carré moyen intra-groupe

est égal à la moyenne des variances de chaque groupe. Par ailleurs le carré moyen inter-

groupe est égal au produit de l'effectif par la variance des moyennes de groupe.

On dispose également de formules rapides pour le calcul des carrés moyens inter

et intra.

iMintra=

∑∑∑ (

iMinter=k-1

)( )2 2

∑ ∑∑ −

La méthode "ABC" de calcul permet de simplifier l'analyse:

On commence par calculer les trois grandeurs:

A= ∑x²

B=(∑x)²/N

C=∑[(∑xi)²/ni]= (∑x1)²/n1+(∑x2)²/n2+... +(∑xk)²/nk

Le tableau d'ANOVA est constitué de la manière suivante:

_________________________________________________________________

Source Somme des ddl Carrés moyens F

carrés (variance)

_________________________________________________________________

Inter (réelle) C-B K-1 (C-B)/(K-1) CMinter/CMintra

Intra (erreur) A-C N-K (A-C)/(N-K)

Total A-B N-1

_________________________________________________________________

Exemple:

Groupes 1 2 3 4

Effectif (ni) 5 7 6 4 N=22

∑xi 25 42 39 16 ∑x=122

mi 5 6 6.5 4 M=5.55

Vt =−

−= ≈

754122

213 69

( )².

V inter =+ + + −

(² ² ² ²

4 1=17.95/3=5.98

V intra =− + + +

(² ² ² ²

=59.5/18=3.31

Fcalc= 5.98/3.31=1.81

La table de F est lue en fonction du nombre de degré de liberté du numérateur

(K-1) et du dénominateur (N-K)

Flu=3.16 à p=.05

Fcalc<Flu L'hypothèse nulle est acceptée, on n'apporte pas la preuve d'une

différence entre les 4 moyennes.

Remarque: la comparaison de deux groupes peut être réalisée indifféremment par

le t de student et par l'analyse de variance. On remarque alors que F=t².

Exemple:

X1 X1² X2 X2² X3 X3²

Σx=50

Σx²=514 Σx=35

Σx²=263 Σx=20

Σx²=102

A=ΣX²=514+263+102=879

B=(Σx)²/N=(50+35+20)²/15=105²/15=11025/15=735

C=∑[(∑xi)²/ni]=50²/5 + 35²/5 + 20²/5 = 2500/5 + 1225/5 + 400/5=825

_________________________________________________________________

carrés (variance)

_________________________________________________________________

Inter (réelle) 90 2 45.0 10.00

Intra (erreur) 54 12 4.5

Total 144 14

_________________________________________________________________

pour p=.05, F2,12=3.88

L'hypothèse nulle est rejetée.

Test post-hoc.

L'analyse de variance ne permet que de déceler des différences d'ensemble dans

les moyennes, mais pas de localiser avec précision les différences. Si le facteur

comporte plusieurs niveaux, il est nécessaire de procéder à des tests post-hoc

(Newmann-Keuls, Scheffé,...), pour localiser avec précision les différences.

Les tests post-hoc ne peuvent être réalisés que si l'analyse de variance est

significative.

La méthode de Scheffé repose sur le test de contrastes. On appelle contraste une

somme pondérée de moyennes:

C= c1m1 + c2m2 + ... + ckmk

avec ∑ci=0

et ∑ci=2 (afin d'homogénéiser les coefficients)

exemples: 1, -1, 0, 0 pour comparer m1 avec m2

1, 0, -1, 0 pour comparer m1 avec m3

1/2, 1/2, -1/2, -1/2 pour comparer m1 et m2 avec m3 et m4

Le contraste est jugé significatif si la valeur absolue de C est supérieure à

S k Fc CMc

= − ∑( )( )( )( )int12

k étant le nombre de niveaux de la V.I.

Fc étant la valeur critique de F avec k-1 et n-K ddl, pour le seuil α déterminé.

ni étant l'effectif du groupe du niveau i

Exemple:

VD CAT VD2

4 1 16

5 1 25

6 1 36

8 1 64

5 2 25

6 2 36

8 2 64

5 2 25

8 3 64

9 3 81

A=ΣX²=517

B=(Σx)²/N=732/11=484.45

C=∑[(∑xi)²/ni]=501.58333

C-B= 17.1287879

A-C=15.416667

A-B=32.5454545

_________________________________________________________________

carrés (variance)

_________________________________________________________________

CAT 17.129 2 8.564 4.444

erreur 15.417 8 1.927

_________________________________________________________________

p=.050

Moyennes= 1: 5.75

3: 8.666

Post-hoc.

1,-1,0 C=-0.25 S=2.93

0,1,-1 C=-2.6666 S=3.17

1,0,-1 C=-2.91666 S=3.17

Matrice calculée par systat

Sheffe 1 2 3

1 1.000

2 .968 1.000

3 .070 .097 1.000

1/2,1/2,-1 C=-2.791 S=2.318

4.3.2. Analyse de variance à deux facteurs

Lorsque l'on croise plusieurs facteurs, l'analyse de variance donne des

renseignements d'une part sur les effets simples, mais également sur les effets

d'interaction entre les facteurs.

Le tableau ci-dessous expose le problème d'une ANOVA 3x2 (anova à deux

facteur, comprenant respectivement 3 et 2 niveaux

A1 mA1B1 mA1B2 mA1

A2 mA2B1 mA2B2 mA2

A3 mA3B1 mA3B2 mA3

mB1 mB2

Il s'agit d'étudier d'une part l'effet principal A (sur les moyennes colonnes mA,

d'autre part l'effet principal B (dur les moyennes lignes mB) et enfin l'effet d'interaction,

sur l'ensemble des moyennes mAB.

On utilise trois statistiques F:

- FA= (Variance réelle due à A)/(variance d'erreur)

- FB= (Variance réelle due à B)/(variance d'erreur)

- FAB= (Variance réelle due à AxB)/(variance d'erreur)

La méthode ABC est organisée selon le tableau suivant:

A= ∑x²

B=(∑x)²/N

C (lignes)=∑[(∑xi)²/ni]= (∑x1)²/n1+(∑x2)²/n2+... +(∑xl)²/nl

l représentant le nombre de lignes

D (colonnes)=∑[(∑xj)²/nj]= (∑x1)²/n1+(∑x2)²/n2+... +(∑xc)²/nc

c représentant le nombre de lignes

E (lignes x colonnes)=∑[(∑xij)²/nij]= (∑x11)²/n11+(∑x12)²/n12+... +(∑xlc)²/nlc

__________________________________________________________________

carrés (variance)

__________________________________________________________________

Ligne C-B l-1 SCL/ddlL CML/CMerr

Colonne D-B c-1 SCC/ddlC CMC/CMerr

LxC (E-B)-(C-B)-(D-B) (l-1)(c-1) SCLC/ddlLC CMLC/CMerr

Erreur (A-B)-(E-B) (N-1)-(l-1)- SCerr/ddlerr

(c-1)-(l-1)(c-1)

Total A-B N-1

__________________________________________________________________

4.3.3. Analyse de variance à un facteur avec mesures répétées.

Le problème est de comparer les moyennes obtenues par un même groupe de

sujets lors de la répétition d'une mesure.

La méthode ABC est organisée selon le tableau suivant:

A= ∑x²

B=(∑x)²/N

C (sujets)=∑[(∑xi)²]/e= [(∑x1)²+(∑x2)²+... +(∑xl)²]/e

s représentant le nombre de sujets et e représentant le nombre d'essais

D (essais)=∑[(∑xj)²]/s= [(∑x1)²+(∑x2)²+... +(∑xe)²]/s

__________________________________________________________________

carrés (variance)

__________________________________________________________________

Sujets C-B s-1 SCS/ddlS CMS/CMres

Essais D-B e-1 SCE/ddlE CME/CMres

Résidus (A-B)-(C-B)+(D-B) (s-1)(e-1) SCR/ddlres

Total A-B N-1

__________________________________________________________________

4.3.4. Test de l'homogénéité des variances.

Même si les tests de normalité sont valides, on ne peut appliquer l'analyse de

variance que si les deux échantillons sont issus de populations parentes ayant les mêmes

variances. Le test porte sur les variances d'échantillon v1 et v2. On calcule le rapport

v1/v2 (l'estimation la plus élevée est au numérateur).

L'hypothèse nulle est que les variances des populations parentes sont égales. Ce

rapport devrait donc être égal à 1. Plus ce rapport s'écarte de 1, plus H0 a de chance de

devoir être rejetée.

Le rapport v1/v2 peut être testé sur la table du F de Snedecor, avec n1-1 et n2-2

4.4. Tests non paramétriques

Les tests paramétriques précédemment décrits, supposent qu'un certain nombre

de conditions soient vérifiées, et notamment la normalité de la distribution, et

l'homogénéité des variances. Ces deux propriétés doivent être testées avant de réaliser

les tests statistiques. Si ces propriétés ne sont pas vérifiées, il faut remplacer les tests

paramétriques par leurs équivalents non-paramétriques.

Lorsque les tests de normalité ne sont pas significatifs, l'usage de l'analyse de

variance n'est pas permise. On dispose alors d'une batterie de tests alternatifs, analogues

à ceux qui viennent d'être décrits. D'une manière générale, ces tests sont réalisés après

une transformation des données brutes en données de score (échelle ordinale). On peut

établir les correspondances suivantes

4.4.1. Comparaison d'échantillons indépendants.

On utilise le test du U de Mann-Whitney.

Ce test travaille sur les rangs. On mélange les données des deux échantillons, on

les ordonne et on leur attribue des rangs. Soit TA la somme des rangs de l'échantillon A

et TB la somme des rangs de l'échantillon B

On peut calculer la moyenne générale des rangs, la moyenne des rangs pour A et

la moyenne des rangs pour B. On peut de même calculer les variances des échantillons

de rangs. L'hypothèse nulle est que la distribution des rangs est la même dans les deux

groupes(même moyenne et même écart-type).

Le test de Mann-Whitney ne fonctionne que pour la comparaison de deux

groupes. Si l'on veut comparer plus de deux groupes, on utilise le test de Kruskal-

Wallis.

Ce test débute par une démarche similaire (agrégation et classement des données,

calcul des données de rang). On calcule pour chaque groupe Ti (somme des rangs), mi

(moyenne des rangs) et ni (effectif). On calcule ensuite la statistique H

H=[((12/N(N+1))*ΣniT2i] - 3(N+1)

H suit une loi de Chi-2 à k-1 ddl.

Exemple:

Groupe 1 2 3 4

Score Rang Score Rang Score Rang Score Rang

Ti 41 76.5 16.5 119

Mi 8.2 12.75 4.125 17

ni 5 6 4 7

H=11.69

pour ddl=4-1=3et p=.01, Chi-2=11.35.

L'hypothèse nulle peut être rejetée.

Si l'hypothèse nulle est rejetée (différences significatives entre les groupes), on

peut utiliser le test de Mann-Whitney en post-hoc pour localiser les différences.

4.4.2. Comparaison d'échantillons appareillés.

Pour deux échantillons appareillés, on utilise le test de Wilcoxon.

- On calcule les différences entre test1 et test 2, pour chaque sujet.

- On classe les sujets dans l'ordre croissant des différences non nulles (les

différences nulles ne sont pas prises en compte).

- On calcule le rang de chaque sujet dans ce classement

- On calcule la somme des rangs des différences positives (T+) et la somme des

rangs de différences négatives (T-).

remarque: T+ + T-=n(n+1)/2 (somme des rangs)

Sous l'hypothèse nulle, T+ = T- = n(n+1)/4

Wilcoxon a proposé une table pour lire la significativité des T+ calculés.

Lorsque la comparaison porte sur plus de deux échantillons appareillés, on

dispose du test de Friedman.

4.5. Comparaison d'échantillons en données de numération. Le test de χχχχ2

Un échelle nominale permet la constitution de tableau d'effectifs. Ces tableaux

représentent souvent une distribution bivariée, c'est-à-dire selon deux variables. La

figure suivante présente la distribution de 200 sujets, selon les variables sexe et choix

d'études.

Garçons Filles Totaux

Littéraires 60 60 120

Scientifiques 42 18 60

Techniques 18 2 20

Totaux 120 80 200

Le problème est de savoir s'il existe une relation entre sexe et le choix des

études. On fait l'hypothèse qu'il n'y a pas de lien, que les deux variables sont

indépendantes. On peut reconstituer le tableau des effectifs correspondant

théoriquement à cette hypothèse: Les effectifs de chaque case sont calculée de manière à

ce que la répartition sur un des niveau du premier facteur (littéraires par exemple) soit

proportionnel à la répartition totale sur le second facteur (sexe par exemple)

Effectif théorique = Total ligne x Total colonne

Total général

Garçons Filles Totaux

Littéraires 72

Scientifiques 36

Techniques 12

Totaux 120 80 200

Si i représente les études et j le sexe, on calcule la statistique suivante:

∑∑( )O T

Oij représentant les effectifs observés pour chaque cellule et Tij les effectifs

théoriques. Cette quantité χ² est d'autant plus grande qu'il y a des différences entre la

distribution observée et la distribution théorique.

Des tables statistiques permettent d'apprécier le degré de signification de la

valeur de χ² calculée, en fonction du nombre de degrés de liberté associé au tableau

d'effectif (ν=(l-1)(c-1)).

Enfin, il est nécessaire, si l'effectif d'une cellule est inférieur à 10, de faire la

correction de Yates, en retirant 0.5 à (O-T).

Exemple: CSP et orientation

Sciences Lettres Technologie

Ouvriers 4 6 10 20

Cadres moyens 12 20 12 44

Cadres sup. 15 9 6 30

31 35 28 94

Effectifs théoriques

Sciences Lettres Technologie

Ouvriers 6.6

(2.74)

Cadres moyens 14.5

Cadres sup. 9.9

(2.64)

(.249)

H0: équirépartition des orientations dans les 3 CSP.

χ² =(6.6-4-.05)²/6.6 + ..........+ (11.2-9)²/11.2 + (8.9-6-.5)²/8.9 = 8.40

avec ddl=(3-1)(3-1)=2x2=4

au seuil p=.05 χ² =9.49

χ²<χ²lu, H0 est acceptée: il n'y a pas de différence de répartition entre CSP.

5. Relations entre séries d'observation.

5.1. Le coefficient de corrélation de Bravais-Pearson

Le coefficient de corrélation est une mesure de la relation entre deux variables x

et y. Afin d'étudier cette relation, on peut transformer les scores x et y en scores z:

zx=(x-mx)/σx et zy=(y-my)/σy

On calcule alors pour chaque point le produit croisé zxzy. Ce produit croisé a des

caractéristiques importantes:

Si les scores bruts sont simultanément élevés, le produit croisé sera important et

positif. Ce sera également le cas si les scores bruts sont simultanément faibles.

Si les scores bruts sont élevé d'un côté, et faible de l'autre, le produit croisé sera

élevé, mais négatif.

Le coefficient de corrélation de Bravais-Pearson est la somme algébrique des

produits croisés, pondéré par la taille de l'échantillon moins 1.

x y=−

ou encore:

rx m y m

x m y m

=− −

− −=

− −∑

∑∑

∑( )( )

( )² ( )²

( )( )

Ce coefficient rend compte de la tendance des couples (x,y) à entretenir une

relation forte et prévisible.

Exemple:

Sujets x y zx zy zxzy x² y² xy

140 mx=6 my=10.5 ∑zxzy=11.7 ∑x²=586 ∑y²=1617 ∑xy=952

σx=2.51 σy=2.38

∑x=84 ∑y=147

r=11.70/13=.90

On utilise couramment une formule plus pratique, dérivée de la précédente:

rN xy x y

N x x N y y=

− −∑∑∑

∑∑∑∑( ² ( )²)( ² ( )²)

Calcul:

(∑x)²=7056 et (∑y)²=21609

r =−

− −14 952 84 147

14 586 7056 14 1617 21609

( ) ( )( )

( ( ) )( ( ) ( ))=980/1086.87=0.90

Exemple:

x y n nx ny nx² ny² nxy

N=30 ∑x=77 ∑y=80 ∑x²=241 ∑y²=272 ∑xy=242

r=30(242-(77*80))/√(241-77²)(272-80²)=.73

L'hypothèse nulle est qu'il n'y a pas de relation entre les deux variables.

La valeur calculée est comparée à la valeur lue sur la table de Bravais-Pearson, à

ddl=N-2

à ddl=28

p=.10 r=.30

p=.05 r=.35

p=.01 r=.45

L'hypothèse nulle peut donc être rejetée.

La corrélation peut également être approchée au travers de l'analyse de

régression: une fois calculée la droite de régression de x vers y, on peut calculer

l'équation de régression de y vers x. On a :

y=a'x + b'

avec ay m x m

'( )( )

( )²=

− −

−∑∑

et b'=mx - amy

Si l'on reprend l'équation brute du coefficient de corrélation de Pearson:

rx m y m

x m y m

=− −

− −=

− −∑

∑∑

∑( )( )

( )² ( )²

( )( )

On remarque que r a a= . '

Si a=a'=0, la corrélation est nulle: les deux droites des moindres carrés sont

parallèles aux axes de coordonnées. Dans ce cas il n'y a aucune relation entre les deux

variables.

Si a.a'=1, la corrélation est parfaite et positive. Si a.a'=-1, la corrélation est

parfaite et positive: les deux droites sont alors confondues.

5.2. Corrélation et causalité

Il est fondamental de noter qu'une corrélation significative ne signifie

aucunement qu'il existe une relation de cause à effet entre les deux variables. La

corrélation peut en effet être liée à une troisième variable, qui agit de manière

indépendante sur les deux première

Par exemple il existe une corrélation élevée entre le taux de délinquance et le

nombre d'églises (influence de la taille de la cité). Il existe une corrélation positive entre

la réussite à des tests d'intelligence et la taille du pied (influence de l'âge).

La corrélation est à ce niveau essentiellement descriptive.

5.3. Corrélation partielle

La corrélation partielle permet parfois d'éviter de se laisser abuser par certaines

corrélations artefactuelles. Par exemple, si l'on calcule les corrélations entre (1)

l'intelligence, (2) le poids, et (3) l'âge. On trouve une corrélation r12=.60 entre

intelligence et poids. Cette corrélation doit être rapportée aux deux autres, soit r13=.69,

et r23=.88. La corrélation partielle exprime la liaison entre deux variables, en contrôlant

l'influence d'une troisième variable: dans ce cas on calcule la liaison entre intelligence et

poids, à âge constant:

La procédure de corrélation partielle consiste à calculer l'équation de régression

de (1) vers (3). Puis on calcule la corrélation entre les résidus de cette régression et (2).

On dispose d'un moyen plus rapide, à condition de pouvoir calculer les

corrélations entre les trois variables:

²)1²)(1(

231312312

−−−=−

Dans ce cas la corrélation partielle est de -.02.

La procédure de corrélation partielle consiste à calculer l'équation de régression

de (1) vers (3). Puis on calcule la corrélation entre les résidus de cette régression et (2).

5.4. Comparaison des corrélations

Il est impossible de comparer directement des coefficients de corrélation, dans la

mesure ou ces coefficients ne sont pas normalement distribués, et ce d'autant plus que le

coefficient est élevé (r>.30 ou r<-.30). Il est nécessaire dans un premier temps de

transformer r par la transformation de Fischer. On applique la formule suivante:

Zr= (log(1+r/1-r))/2

exemple:

.99 -2.65

.95 -1.83

.90 -1.47

.80 -1.09

.70 -0.87

.50 -0.54

.30 -.30

.00 .00

On calcule ensuite, pour chaque couple (ra,rb), une statistique t, selon la formule:

tra,rb= (Zra-Zrb) / Szra-zrb

avec Szra-zrb= √[(1/(na-3)+(1/(nb-3)]

na et nb représentant les effectifs des échantillons impliqués dans le calcul des

coefficients ra et rb.

tra,rb suivant une distribution de Student, on peut en apprécier la signification,

pour un nombre de degrés de liberté égal à (na - 3) + (nb -3 ).

Exemple:

n1=30 r1=.80 Zr1=1.09

n2=40 r2=.85 Zr2=1.26

t=.17/√(1/27)+(1/37)=-.67

ddl=64 tlu=2

5.4.1. Relations entre deux séries d'observations.

La corrélation est une mesure de la manière dont deux variables varient de

manière simultanée. Par exemple, pour deux variables ordinales, elle permet de

répondre des questions du type: le classement réalisé sur des élèves en français est-il

similaire à celui réalisé en histoire?

Deux statistiques permettent de calculer l'importance de cette liaison. La

première est le τ (tau) de Kendall, et la seconde le ρ (rô) de Spearman. Ce dernier est en

fait un coefficient de corrélation linéaire, calculé sur les rangs. Ces deux coefficients

relevant d'une logique de calcul différente, il n'y a pas de relation directe entre les

valeurs qu'ils prennent.

Concernant le coefficient de Spearman, on montre que:

ρ = −−

n n( )

Σd² étant la somme des carrés des différences des rangs.

Exemple

Sujet x y rang x rang y d d²

Σd²=7.5

ρ=1-((6*7.5)/(8(8²-1)))=0.91

6. Régression et covariance

6.1. Régression linéaire

Soit la représentaton graphique, en deux dimensions, de la relation entre deux

variables x et y. Chaque point M est associé à un couple (x,y). On cherche à déterminer

une droite qui représenterait au mieux la relation, qui s'ajusterait au nuage de points. La

droite retenue est celle pour laquelle la somme des carrés des distances verticales de

chaque point M à la droite est minimale.

On démontre que cette droite passe par un point de coordonnées (mx,my), et que

son équation est de la forme

y=ax + b

avec ax m y m

=− −

−∑∑

( )( )

et b=my - amx

On peut développer ces équation pour obtenir des formules de calcul plus

pratiques:

aN xy x y

N x x=

−∑∑∑

∑∑

² ( )²

bx y x xy

N x x=

−∑∑∑∑

∑∑

² ( )²

a et b sont les paramètres de la droite des moindres carrés.

rN xy x y

N x x N y y=

− −∑∑∑

∑∑∑∑( ² ( )²)( ² ( )²)

La formule y=ax + b permet de calculer pour chaque x une valeur théorique de y.

L'échantillon des yth-y constitue les résidus de la régression. La droite des moindres

carrés est donc la droite qui minimise la somme des carrés des résidus.

x y x² y² xy

Σx=15 Σy=15 Σx²=55 Σy²=55 Σxy=54

a =((5*54)-(15*15))/((5*55)-(15²)

=(270-225)/(275-225)

=45/50

b =((55*15)-(15*54))/((5*55)-(15²)

= (825-810)/(275-225)

= (15/50)

r =((5*54)-15²)/√((5*55)-(15²))*((5*55)-(15²))

=45/√(275-225)(275-225)

= 45/√50²

= 45/50

y=(.9)x + .3

x yréel ythéorique résidus

____________________________________

1 1 1.2 -0.2

2 2 2.1 -0.1

3 4 3.0 +1.0

4 3 3.9 -0.9

5 5 4.8 +0.2

6.2. Régression curvilinéaire

Par une transformation logarithmique de X, de Y ou des deux simultanément, on

peut reconstituer les ajustements logarithmiques, exponentiel et puissance.

log(X) et Y ajustement logarithmique y=Alogx + B

A et B sont ici donnés directement.

X et log(Y) ajustement exponentiel y=B*eAx

log(y)= ax + b donc y= eax + b

y=eb*eax

y=B*eax

A=a et B=eb

log(X) et log(Y) ajustement puissance y=BxA

log(y)=a(log(x)) + b donc y=ea(log(x)) + b

y=ea(log(x))*eb

y=eb*xa

A=a et B=eb

D'autres fonctions plus complexes peuvent être obtenues par la même méthode. Le

choix du meilleur ajustement se fait ensuite par comparaison des coefficients de

corrélation de chaque équation.

6.3. Analyse de la covariance

L'analyse de la covariance est une combinaison de l'analyse de variance et de la

régression linéaire. L'analyse de la covariance permet d'étudier l'effet d'une variable A

en contrôlant l'effet d'une seconde variable B.

La variable B est mesurée pour chaque sujet. Une équation de régression est

calculée entre la variable dépendante et la variable B. On calcule alors pour chaque sujet

les résidus, c'est-à-dire la différence entre le B réel et le B prédit par l'équation de

régression. Une ANOVA est ensuite réalisée en utilisant les résidus comme variable

dépendante.

7. Analyses multivariées

Les procédures décrites jusqu'à présent ne prenaient en compte qu'une seule

variable dépendante. On parle de statistiques univariées. Un certains nombre de

procédures permettent la prise en compte simultanée de plusieurs variables dépendante.

Ces procédures sont dites multivariées (multivariate techniques). On retrouve à leur

niveaux des procédures expérimentales (analyse discriminante, analyses de la variance

et de la covariance multivariées) et des procédures corrélationnelles (corrélation

canonique, analyse factorielle, analyse des pistes causales).

7.1. Régression multiple

La régression permet de résumer la relation entre deux variables, et donc de

prédire une variables Y en fonction d'une variable X. Mais la prédiction d'une variable

donnée peut être plus fine si l'on prend en compte plus de variables prédictives. La

régression multiple permet de calculer une équation additive de forme:

z=ax + by + c

prédisant une variable z à partir de deux (ou plus) variables mesurées. L'équation

de régression multiple est caractérisée par un coefficient de régression multiple,

exprimant la précision de la prédiction.

7.2. Analyse discriminante

Cette analyse est réalisée pour une VI et deux ou plus VD. Il s'agit d'utiliser une

combinaison des VD pour prédire la VI (dans la logique de la régression multiple). Cette

analyse permet de savoir combien de VD sont nécessaire pour prédire l'appartenance des

sujets à l'un ou l'autre groupe déterminé par la VI.

7.3. Analyse de variance multivariée

L'analyse de variance multivariée (ou MANOVA) permet d'étudier l'effet de la

ou des VI sur plusieurs VD, prises dans leur ensemble. Pratiquement l'analyse porte sur

une combinaison linéaire des VD. On peut noter à ce niveau que la MANOVA à un

facteur correspond à l'analyse discriminante.

Une fois mise en évidence un effet sur la variable combinée, des tests post-hoc

peuvent porter sur les effets obtenus sur chaque variables dépendante (soit par ANOVA,

soit par analyse discriminante.

L'analyse de la covariance multivariée repose sur une logique similaire.

7.4. Corrélation canonique

La corrélation canonique est une corrélation calculée au moins deux variables

dépendantes (critères) et au moins deux variables indépendantes (prédicteurs). Cette

technique utilise deux combinaisons linéaires (une pour les variables X et l'autre pour

les variables Y). Ces combinaisons sont pondérées de manière à obtenir la corrélation

maximale. En fonction de la pondération de chaque variable, on peut déterminer leur

importance dans la relation globale.

La corrélation canonique est utilisée de manière exploratoire pour déterminer

quelles sont les VI et les VD les plus pertinentes à utiliser dans une expérimentation.

7.5. Analyse factorielle

Le but de l'analyse factorielle est de résumer un tableau de données en faisant

émerger une structure plus simple de facteurs sous-jacents. Considérons que six sujets

réalisent cinq tests codés de A à E. Ces tests sont les suivants:

A= Course 1000 m

B= Course 3000 m

C= Test de détente verticale

D= Test de course navette

E= Test de saut en longueur sans élan

Le tableau suivant indique les scores obtenus par chaque sujet sur chacun des

tests.

a b c d E

1 200 19 44 9 25

2 150 18 130 25 80

3 80 7 62 20 40

4 115 11 115 23 75

5 100 10 110 17 75

6 80 9 80 17 35

On calcule les corrélations entre les échantillons de performances obtenues. La

matrice des corrélations obtenues est la suivante:

A B C D E

A 1.000

B 0.951 1.000

C -0.190 0.027 1.000

D -0.422 -0.228 0.794 1.000

E -0.132 0.025 0.957 0.751 1.000

On peut remarquer, au travers de cette matrice, que certains tests présentent entre

eux une forte relation (A et B; C et E), alors que d'autres sont indépendants l'un de

l'autre (Bet C; B et E).

L'analyse factorielle, à partir de cette matrice de corrélation, va identifier des

facteurs sous-jacents susceptibles d'expliquer les relations mises en évidence. La logique

est que si deux tests sont en corrélation, on suppose qu'ils sont tous deux déterminés par

une cause commune. Dans le cas présent, l'analyse fait apparaître deux facteurs:

A -0.176 0.977

B 0.028 0.989

C 0.980 0.000

D 0.870 -0.290

E 0.966 0.032

Les facteurs ainsi isolés n'ont pas de signification immédiate: c'est le chercheur

qui doit les interpréter en fonction de la nature des tests dont ils rendent compte. D'une

manière générale , l'interprétation est fondée sur les tests qui ont la plus forte corrélation

avec le facteur que l'on cherche à identifier.

L'interprétation d'une telle solution factorielle est relativement facile: le premier

facteur rend compte des deux tests de course longue: on peut supposer qu'il rend compte

d'une aptitude générale à l'endurance aérobie. Le second doit dans la même logique

rendre compte d'une aptitude de force explosive des membres supérieurs.

On peut qu'il existe plusieurs méthodes pour optimiser le modèle, basées sur des

rotation du système de facteurs.

7.6. Analyse des pistes causales

Cette technique, également appelée LISREL (Linear Structural Relations) a pour

but de montrer comment des modèles de type causal permettent de rendre compte de

tableaux complexes de données. Elle permet donc d'utiliser une méthode

corrélationnelle pour tester des relations de cause à effet, et de plus dans un cadre

multivarié.

8. Références

Bertrand, R. (1986). Pratique de l'Analyse Statistique des Données. Québec: Presse de

l'Université du Québec.

Bonnet, C. (1986). Manuel pratique de psychophysique. Paris: A. Colin.

Langouet, G. & Porlier, J.C. (1991). Mesure et Statistique en Milieu Educatif (4ème

édition). Paris: ESF.

Mialaret, G. (1991). Statistiques Appliquées aux Sciences Humaines. Paris: PUF.

Reuchlin, M. (1976). Précis de statistique. Paris: PUF.

Snedecor, G.W., & Cochran, W.G. (1967). Statistical Methods. Ames, Iowa: Iowa State

University Press (6ème édition).

Thomas, J.R. & Nelson, J.K. (1990). Research Methods in Physical Activity.

Champaign, Ill.: Human Kinetics.

Wilkinson, L., Hill, M., Welna, J.P. & Birkenbeuel, G.K. (1992). Systat for Windows:

Statistics, Version 5 Edition. Evanston, Ill.: Systat, Inc.

master 2 ieaps statistiques - les staps, l'université, l

Documents

ufr staps ufr deg...staps s dapse a phs deg amphis 29 aoÛt...

journal de bord bmf staps

cours l1 staps

mention meef plc degré) - ufr staps

© kréation vannes - iut de quimper - institut de...

staps... offre de formation ufr staps 700 avenue du pic st...

damien dodelin - mémoire master 2 staps

repères historiques staps l1 - préparation eat danse

staps - bibliothèques universitaires

traumatologie de l’épaule rappel...

excel pour les staps l3 ue16.1 ― outils informatiques

ufr staps calendrier des enseignements et des...

hal et l'université toulouse iii: statistiques de...

liee staps - accueil - ileps : l'ecole supérieure...

s’oiente en staps

les études en staps

equilibres posturaux -...

licence staps admission conditions d’accès accès en : l1...

livret pÉdagogique master staps entraînement et

master staps - sci-sport.com