les mesures de dispersion - université de montréal

Post on 17-Jun-2022

2 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Les mesures de dispersion

Cours 5

Retour sur cours 4

Les mesures de dispersion › Étendue

› Variance et écart-type

› Coefficient de variation

Mesures de dispersion

La fonction «compute» ou «calculer»

2

Tableaux et graphiques

Mesures de

tendance

centrale

Mesures de

position

Mesures de

dispersion

Utilité Les tableaux présentent l’information relative aux données individuelles. Les graphiques donnent un profil général de la

distribution.

Permettent de résumer en un seul nombre, la valeur la plus représentative d’une série

statistique.

Renseignent sur la position d’une donnée par rapport aux autres données d’une

distribution ordonnée.

Mesurent le niveau de variation ou de dispersion des variables.

Types •Tableau de fréquences •Diagrammes à rectangles, circulaire, à bâtons •Histogramme

•Polygone de fréquence

•Moyenne •Mode et classe modale •Médiane

•Quartiles •Quintiles •Déciles •Centiles

•Étendue •Variance et Écart-type •Coefficient de

variation

Outils et mesures permettant de faire l’analyse descriptive détaillée des données et des distributions.

3

Les mesures de tendance centrale ne peuvent pas décrire pleinement une distribution de scores.

Les mesures de dispersion sont des indices qui caractérisent l'étalement des valeurs d'une distribution d'une variable autour d'une valeur centrale.

Les indices de dispersion permettent de savoir si les scores individuels se rapprochent ou s’éloignent beaucoup des mesures de tendance centrale.

4 indices principalement utilisés :

Étendue, variance, écart-type et coefficient de variation

Renseignent sur :

› L’étalement des données Étendue

› La variabilité des données Variance et écart-type

› L’homogénéité des données Coefficient de variation

Ne s’appliquent qu’aux variables quantitatives

5

Renseigne sur l’étalement des données

› Différence entre la valeur observée la plus élevée et

la valeur observée la moins élevée d’une distribution

de variables.

2 18

Étendue = Max – Min

Étendue = 18 – 2

Étendue = 16

Nombre de crimes commis durant le dernier mois

E = Vmax − Vmin

Par exemple, sur un nombre de crimes commis

Étendue (E)

Avantages

› Simplicité du calcul

Désavantages

› Basée seulement sur les valeurs extrêmes

› Information sommaire

7

8

Renseignent sur la variabilité des données

Variance

› Mesure la distance de chaque observation

par rapport à la moyenne.

σ2= S (xi - m)2

N Où S = somme de ...

xi = observations

m = moyenne

N = nombre de cas

L’écart-type

› Mesure la distance de chaque observation

par rapport à la moyenne. Il s’interprète mieux que la variance, car il donne les unités

utilisées dans l'échelle originale et non dans leur forme au carré.

› C’est tout simplement la racine carré de la

variance!

› On utilise l’écart-type corrigé en présence d’un

échantillon (n-1).

9

( )N

uxi 2-S

Règle empirique

pour une distribution normale

› Environ 68% des observations se

situent à ± 1σ de la moyenne.

› Environ 95% des observations se

situent à ± 2 σ de la moyenne.

› Environ 99,7 % des observations se

situent à ± 3 σ de la moyenne.

10

$ par transaction pour 1 gr. d’héroïne

Moyenne : 305/8= 40$

› Médiane=40$ et mode = 40$

Étendue: 60$-20$ = 40$

Variance et écart-type

1. Moyenne = 40$

2. Déviations : (40-40= 0); (20-40=-20); (60-40=20); (50-40=10); (40-

40= 0); (35-40= -5); (40-40= 0)

3. Carré des déviations: 0; 400; 400; 100; 0; 25; 0; 25; 0

4. Somme des carrés des déviations= 950

5. Moyenne des carrés des déviations (variance): 950/8=118,75$

6. Racine carrée de la variance (écart-type) =10,90$

11

40$ 20$ 60$ 50$ 40$ 35$ 35$ 40$

Interprétation de l’écart-type › 68% des transactions d’héroïne se situent entre ± 10,90$ de

la moyenne (40$)

donc entre 29,10$ et 50,90$

› 95% des transactions d’héroïne se situent entre ± 21,80$ de

la moyenne (40$)

donc entre 18,20$ et 61,80$

› 99,7% des transactions d’héroïne se situent entre ± 32,70$

de la moyenne (40$)

donc entre 7,30$ et 72,70$

12

Avantages › Mesures particulièrement représentatives de la réalité

lorsque la distribution est normale

› Tiennent compte de toutes les valeurs de la distribution

donc représentent bien sa dispersion

› Utiles pour comparer la dispersion d’une variable d’une

même population à des temps différents ou de populations semblables.

Désavantages › Mesures affectées par les valeurs extrêmes

› Difficultés d’interprétation liées au fait que la valeur de

l’écart-type varie selon les valeur de la variable. 13

L’écart-type est toujours ≥ à 0 parce que

les déviations sont au carré.

L’écart-type = 0 quand toutes les valeurs

observées sont égales.

Un grand écart-type ne signifie pas

nécessairement une grande dispersion.

14

Renseigne sur l’homogénéité des

données

› Permet d’évaluer l’importance relative de la

dispersion

donc de comparer des distributions entre

elles.

› Le CV divise l’écart-type par la moyenne.

CV= σ/µ ou CV= s/x

15

Transaction d’héroïne

($/gr)

› Moyenne = 40$

› Écart-type =10,90$

CV= 0,27 ou 27%

Transaction de cocaïne

($/gr)

› Moyenne =121$

› Écart-type = 64,21$

CV= 0,53 ou 53%

Interprétation

› Plus le CV est grand, plus

la dispersion des données

est grande.

› Plus le CV est faible (près de 0), plus les données

sont homogènes donc plus la moyenne est

représentative.

16

Avantages › C’est une mesure neutre, donc on peut comparer

l’homogénéité de plusieurs distributions entre elles, même

si leurs données ne sont pas exprimées avec les mêmes

unités de mesure .

› Prend en considération toutes les données.

Désavantage › Ne s’applique qu’aux variables quantitatives.

17

Médiane

Médiane

MoyenneMédianeet Mode

Normale

Asymétrique négative

Asymétrique positive

Mode

Mode

Moyenne

Moyenne

Sy

trie

de

s d

istr

ibu

tio

ns

La symétrie › Mode = médiane =

moyenne

L’asymétrie › Négative: mode >

médiane > moyenne Concentration de fortes

valeurs

› Positive: mode < médiane < moyenne Concentration de faibles

valeurs

La symétrie des distributions

Mésokurtique: courbe normale (cloche)

Leptokurtique: courbe élancée

› haute concentration de cas qui prennent les valeurs égales ou proches de la moyenne

› peu de variation : distribution relativement homogène

Platikurtique: courbe plate

› les cas s’éloignent de la moyenne

› forte variation : distribution relativement hétérogène

MoyenneMédianeet Mode

MoyenneMédianeet Mode

Normale

Leptokurtique

MoyenneMédianeet Mode

Platikurtique

Ku

rto

se

de

s d

istr

ibu

tio

ns

Asymétrie (skewness)

› Coefficient d’asymétrie utilisé pour vérifier si la distribution est normale

› On utilise le rapport entre le coefficient sur son erreur type (standard

error)

On rejet la normalité si le ratio est inférieur à -2 ou supérieur à +2

Distribution normale = skew=0

Applatissement (kurtosis)

› Coefficient d’applatissement utilisé pour vérifier si la distribution est

normale

› On utilise le rapport entre le coefficient sur son erreur type (standard

error)

On rejet la normalité si le ratio est inférieur à -2 ou supérieur à +2

Distribution normale = kurtosis =0

Pour obtenir les mesures de tendance centrale

et de dispersion

Analyse – Statistiques descriptives - Effectifs – Option Statistiques

22

Banque de données homicides Banque de données DUC Vols qualifiés

23

Banque de données homicides Banque de données DUC Vols qualifiés

Ratio: Exprime le poids relatif des effectifs d’une

catégorie sur le nombre total de données. › On compte 1 trafiquant sur 8 détenus

Taux : Rapport entre deux quantités

(Nb d’observation/Nb total) › Par exemple sur un nombre d’habitants :1000, 10 000, 100 000

› Taux d’homicide à Mtl en 1996

71 homicides

Population 1996 = 3 365 200 individus

Taux : (71/ 3 365 200 )* 100 000 habitants = 2,11 homicides par 100 000

habitants en 1996 (Mtl)

Comparativement à 2,07 homicides par 100 000 habitants (PQ) n=153

24

top related