groupe 1: classes de même intervalle intervalle pour n classes: classe 1: minimum -> minimum+ic...

23
Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe n: Minimum+((n-1)*Ic) -> Minimum+(n*Ic) o Maximum ( ) c Max Mín I n - = Désavantages: Très sensible aux valeurs extrêmes Avec une distribution asymétrique ou qui présente des discontinuités, certaines classes peuvent être vides ou il peut y avoir une concentration dans certaines classes. Avantages: Facilité de calcul et d’interprétation. Très utile lorsque la variable va de 0 à 1 ou de 0 à 100, … ou en valeurs extrêmes connues.

Upload: armelle-saulnier

Post on 04-Apr-2015

112 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 1: Classes de même intervalle

Intervalle pour n classes:

Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe n: Minimum+((n-1)*Ic) -> Minimum+(n*Ic) o Maximum

( )c

Max MínI

n

-=

Désavantages: Très sensible aux valeurs extrêmesAvec une distribution asymétrique ou qui présente des discontinuités, certaines classes peuvent être vides ou il peut y avoir une concentration dans certaines classes. Avantages:Facilité de calcul et d’interprétation.Très utile lorsque la variable va de 0 à 1 ou de 0 à 100, … ou en valeurs extrêmes connues.

Page 2: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 1: Progression arithmétique

Pour n classes, on calcule la raison de la progression:

Classe 1: Minimum -> Minimum+A Classe 2: Minimum+A -> Minimum+(2*A) Classe i:… Classe n: Minimum+((n-1)*A) -> Minimum+(n*A)

Mêmes désavantagesAvantages: permet d’avoir plus de classes dans les petites valeurs, utile lorsque la distribution est asymétrique.

2 3 ...

1 2 3 ...

Max Min A A A nA

Max MinA

n

- = + + + +

-=

+ + + +

Page 3: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 1: Progression géométrique Pour n classes, on calcule la raison de la progression:

Classe1: Minimum -> Minimum*G Classe 2: Minimum*G -> Minimum*G2 Classe i:… Classe n: Minimum*G(n-1) -> Minimum*Gn

Cette méthode propose des classes encore plus fines dans les petites valeurs. Elle correspond à la méthode des intervalles égaux pour une variable ayant subie une transformation logarithmique.Cette méthode suppose que le minimum ne soit pas 0.

10 1010

log log

n

n

Max Min G

MaxG

Mino

Max MinLog G

n

= *

=

-=

Page 4: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Prendre les fichier LR et le fichier des densités Faire la carte des densités, et modifier la

discrétisation avec Ctrl+E, Ctrl+A, Ctrl+G

Conclusion ?

Regarder l’histogramme et le diagramme boite et moustaches

Exercice

Page 5: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 1: Utilisation

1. Vérifier que la distribution ne présente pas de forte dissymétrie, des valeurs du minimum et maximum trop singulières, ou des discontinuités dans la distribution.

2. Si la distribution est à peu près normale ou uniforme, il est préférable d’utiliser les intervalles égaux. Dans le second cas, cette méthode sera proche des quantiles.

3. Si la distribution présente de fortes dissymétries dans les petites valeurs, il est préférable d’utiliser la progression arithmétique.

4. Si, en plus de la dissymétrie, la distribution se rapproche d’un modèle log-normal, utiliser la progression géométrique.

5. La progression arithmétique ou géométrique peuvent être utilisés quand il s’agit de montrer des phénomènes particuliers qui se distribuent de cette manière, par exemple la densité de la population ou la hiérarchie des villes.

Page 6: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 2: Classes selon les quantiles

Cette méthode calcule les limites de classes de manière à ce que chaque classe ait le même nombre d’observation.

Nombre d’observation dans chaque classe:m = Nombre d’observations / Nombre de classes

La série d’observations est ordonnée selon les valeurs croissantes de la variable. On compte m observations pour construire une classe. Les limites des classes sont des valeurs réelles de la série.

Si n=4, on obtient des quartiles. Si n=10, ce sont des percentiles, etc.

Page 7: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Inconvénients: Il est possible que chaque classe n’ait pas exactement le même nombre

d’observations, parce qu’il peut exister plusieurs observations avec la même valeur. Dans ce cas, il peut exister un déséquilibre des classes.

Il peut être aussi très difficile de construire les classes dans le cas de séries très discontinues.

S’il existe des valeurs extrêmes particulières, les limites de classes seront difficiles à interpréter. Dans ce cas, on découpe deux classes extrêmes correspondants aux percentiles 5 et 95.

Avantages: Cette méthode fonctionne avec n’importe quel type de distribution, normale ou pas. Elle est indépendante des valeurs, et des valeurs extrêmes. Cette méthode permet une comparaison entre différentes séries ou cartes, en

comparant l’ordre des observations dans la distribution. En considérant que chaque classe dispose du même nombre d’observation,

l’entropie est maximum. Ceci signifie que cette méthode apporte le maximum d’information graphique, et la meilleure lecture possible.

Les limites de classes sont des valeurs réelles.

Page 8: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 2: Moyenne et écart-type

On calcule la moyenne (m) et l’écart type (s) Les limites de classes sont calculées de la manière suivante:

Nombre paire de classes Nombre impaireClasse 1: <m-1.5 s Classe 1: <m-2 sClasse 2: (m-1.5s) -> (m-0.5s) Classe 2: (m-2s) -> (m-1s)Classe 3: (m-0.5s) -> (m+0.5s) Classe 3: (m-1s) -> mClasse 4: (m+0.5s) -> (m+1.5s) Classe 4: m -> (m+1s)Classe 5 > m+1.5s Classe 5: (m+1s) -> (m+2s)

Classe 6 > m+2s

Cette méthode calcule les limites de classes selon une fraction d’écart-type. Il est nécessaire que la distribution soit normale, ou que l’on ait réalisé une transformation de la variable pour que la distribution s’approche d’un modèle normal.

Avantage:Permet la comparaison entre variables très différentes puisqu’on norme la variable à partir de sa moyenne et de son écart-type, à condition d’avoir une distribution normale. Parfois il est nécessaire d’isoler les valeurs extrêmes qui sortent de l’intervalle de confiance.

Page 9: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 2: - Moyennes emboîtées

La moyenne arithmétique sépare la distribution en deux groupes. Chaque sous-groupe peut faire l’objet du calcul de moyenne ce qui divise la distribution en 4 groupes. Etc.

Avec cette méthode, on ne peut avoir que 2, 4 ou 8 classes.

Page 10: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Avantages: Construit des groupes selon des valeurs statistiques

connues : les moyennes arithmétiques. Si la distribution n’a pas des valeurs extrêmes

exceptionnelles, on s’approche d’une distribution par quantiles.

Si la distribution es très asymétrique, on s’approche d’une discrétisation par progression géométrique.

Inconvénients: S’il y a des trous importants dans la distribution,

particulièrement dans les valeurs extrêmes, la moyenne n’a plus de sens.

Le nombre de classes est invariable : 2, 4 ou 8.

Page 11: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 2: - Méthode de Jenks ou d’analyse de variance.

Cette méthode propose, sur la base d’une analyse de variance, de minimiser la variance intra-classe, et de maximiser la variance inter-classe.

• On ordonne les données par valeur croissante• On cherche tous les groupes possibles pouvant former k classes. • Pour chaque configuration, on calcule la variance à l’intérieur du groupe, et entre les groupes.• On compare l’ensemble des valeurs et on prend la configuration qui minimise la variance dans le groupe et maximisa la variance entre les groupes.

Avantage:Cette méthode est la meilleure du point de vue statistique parce qu’elle crée des groupes homogènes et très hétérogènes entre eux. Les limites de classes sont des valeurs réelles de la distribution. Inconvénient:Peu de stabilité en augmentant le nombre de classes.Ne peut s’appliquer qu’à des valeurs faibles (problème d’algorithme)

Page 12: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 2: - Equiprobabilités.

Cette méthode est basée sur la distribution théorique des probabilités associée aux paramètres de la distribution réelle.

La distribution de fréquence adoptée est une equirépartition avec le même numéro d’observations dans chaque classe.

• Le numéro d’observation est calculé comme: E = Numéro total d’observations / Numéro de classes.

• On utilise la table des probabilités d’une loi normale pour chercher la probabilité d’avoir E individus dans chaque classe. Cette valeur théorique correspond à des valeurs centrées réduites. • On utilise la moyenne et l’écart type de la distribution pour calculer les limites de classes.

Avantages:Si la distribution est normale, on cumule les avantages de la méthode des quantiles et celle de l’écart type. Fréquences et probabilités sont alors similaires.Si la distribution n’est pas normale, le nombre d’observations dans chaque classe n’est pas constant et la différence indique la distance entre les deux distributions.

Page 13: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Fichier pop-age-ct.txt (cantons) Prendre 8 classes et la variable % jeune <15 Faire les cartes correspondant à Quantile, Probabilité, Jenks, Equirépartition, Medias et écart-type. Pour chaque carte : faire menu Statistique / Statistiques descriptives Relever les paramètres Normalité, Redondance, Intra/inter Faire un tableau récapitulatif

Conclusion ?

Page 14: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Comparaison des paramètres stats8 classes

% jeunes

Normalité Redondance Intra/Inter

Quantiles 0.0891 0.000 0.057

Probabilités 0.0937 0.003 0.059

Jenks 0.1299 0.068 0.036

Equiprobabilité 0.1983 0.289 0.078

Ecart-type 0.2137 0.345 0.084

Moyennes 0.1037 0.008 0.046

Page 15: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Conclusion

Le rapport Intra/inter est le plus intéressant : plus il est faible, meilleure est la discrétisation : grande homogénéité dans la classe, forte hétérogénéité entre les classes.

Dans notre cas ???

Quantile, Jenks et Moyennes sont les plus efficaces.

Dans le cas de l’équiprobabilité, des moyennes emboîtées et de l’écart type, la représentation cartographique peut se faire au moyen d’une gamme de couleurs en opposition. Dans le cas de la méthode des écart types, l’utilisation d’un nombre impaire de classe permet d’avoir une classe centrale autour de la moyenne.

Page 16: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 3: Courbe clinographique

Cette méthode permet de choisir les limites de classe d’une variable à partir de la distribution d’une autre variable. Un cas typique est la distribution de la population en fonction de la superficie de chaque unité. Un autre cas possible est la distribution d’un pourcentage en fonction de la valeur brute de cette variable.

Pour réaliser cette courbe, il est nécessaire:• Ordonner la variable principale X par valeur croissante • Calculer le cumul de la variable Y• Calculer le % cumulé de Y La courbe se construit en posant en abscisse la variable X (par exemple la densité) et en ordonnée la variable Y cumulée (par exemple la population ou la superficie).On prend les limites de classes de X correspondant à 100/k de la variable Y, correspondant à k classes.

Page 17: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Avantage: Permet d’inclure dans la discrétisation une variable de pondération. En

général on utilise une population ou une superficie.

Chaque classe contient alors la même quantité d’individus ou de superficie (et non d’unités spatiales).

L’étude de la forme de la courbe donne des indications sur la distribution statistique et sur la répartition géographique.

Exercice avec le LR: fichier densite-lr.txt (carte densite + population et densité + superficie)

Exercice avec les cantons : fichier pop-age-ct.txt (carte Jeune + population, âgés + population)

Page 18: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Groupe 3: Utilisateur et histogramme

A partir de la carte du % de personnes âgées, faire Ctrl+U et préciser les valeurs.

Montrer les divers types de graphiques et à l’aide du menu Modif., modifier les classes.

Page 19: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Signification d’une discrétisation

La discrétisation optimum n’existe pas. Chaque méthode donnera une carte différente, plus ou moins conforme à la distribution de départ, et ceci pour deux raisons : L’agrégation de données en classes, c’est à dire la réduction de

l’information utile; ceci introduit une erreur ou une distorsion dans la perception de cette distribution.

Le modèle de distribution intervient dans le choix d’une discrétisation. Ceci introduit une hypothèse qui nécessite un test.

Trois paramètres permettent de choisir une discrétisation : Une seule carte ou un groupe de cartes à comparer; Tester ou non une hypothèse statistique; Conformation de la distribution à un modèle particulier.

Chaque fois, il est nécessaire de tester la signification des classes réalisées, soit au moyen d’une analyse de variance, soit au moyen de la comparaison des moyennes des classes.

Page 20: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

Symétrique Symétrique Asymétrique Asymétrique Uniforme Non uniforme

Petite échelleGrande échelle

Petite échelleGrande échelle

Erreur minimumEquirépartition -

standard

Moyennes emboîtées

Histogramme

Homogénéité des classes

Equirépartition standard

Jenks

Moyennes emboîtées

Jenks

Jenks Tranformation des

données

Moyennes emboîtées

Cartes indépendantes

Entropie maximum

Equiprobabilités Quantiles

Clinographique

Quantiles Clinographique

Quantiles Clinographique Equiprobabilités

Préservation de la structure spatiale

Distance cumulée Quantiles

Clinographique

Equirépartition Transformation des données

Jenks

Histogramme Clinographiq

ue

Erreur minimale et homogénéité des classes

Standard Jenks

Standard Transformation des données

Jenks

Série de cartesEntropie maximale

Equiprobabilités Equiprobabilités

Préservation de la structure spatiale

Distance cumulée

Moyennes emboîtées

Distance cumulée Moyennes emboîtées

Quantiles Equiprobabilités

Histogramme

Page 21: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

FAMILLE METHODE NOTE

Intuitive ..Intuition et expérience de l'auteur

Demande une bonne connaissance de la variable étudiée. Ne permet pas la comparaison.

Exogène ..Selon une référence externe à la distribution

Seulement pour faire des comparaisons sur la base d'une valeur de référence.

Mathématique EquirépartitionLes classes n'ont pas la même importance

Efficace avec une distribution uniforme. Ne permet pas la comparaison. Incorrect en cas de distribution asymétrique.

Progression arithmétique

Les intervalles de classe augmentent du minimum au maximum selon une progression (additif)

Efficace pour les distributions disymétriques; les classes sont plus détaillées dans les petites valeurs.

Progression géométrique

Les intervalles de classe augmentent du minimum au maximum selon une progression (multiplicatif)

Efficace pour les distributions disymétriques; les classes sont plus détaillées dans les petites valeurs.

Page 22: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

FAMILLE METHODE NOTE

Statistiques et probabilistes Quantiles

Chaque classe a le même nombre d'individus. La distribution n'a pas besoin d'être normale.

C'est une classification ordinale (rang). S'utilise avec n'importe quel type de distribution. Ne prends pas en compte les valeurs exceptionnelle.

Standard (Ecart type)

L'intervalle de classe est proportionnel à une fraction d'écart-type.

Demande une distribution normale. Efficace pour réaliser une comparaison entre différentes distribution.

Moyennes emboîtées

Calcul des moyennes arithmétiques de la distribution générale et de chaque sous groupe.

Efficace pour les comparaisons. Ne demande pas une distribution normale.

Jenks

Minimisation de la variance intra grupe et maximisation de la variance entre les groupes.

Ne dépend pas du type de distribution. La meilleure classification.

Equiprobabilités

Les intervalles de classes sont basés sur une distribution théorique normale dont les paramètres sont les paramètres de la distribution réelle.

Demande de se rapprocher d'une distribution normale. C'est une combinaison entre quantiles et standard.

Page 23: Groupe 1: Classes de même intervalle Intervalle pour n classes: Classe 1: Minimum -> Minimum+Ic Classe 2: Minimum+Ic -> Minimum+(2*Ic) Classe i: … Classe

FAMILLE METHODE NOTE

Graphique Histogramme

Cherche les intervalles de classes sur un histogramme, un diagramme boîte - moustache ou une courbe cumulée.

Baser sur des ruptures dans l'histogramme. Méthode intuitive. Ne permet que rarement la comparaison.

Courbe clinographique

Baser sur une courbe de distance ou variable cumulée.

Quantiles spatiaux. Permet de corriger l'effet de poids de chaque unités spatiales.