statistique - statistique descriptivestatistique descriptive 1 - définitions h. schyns 1.1 1....

49
ENSEIGNEMENT DE PROMOTION SOCIALE —————————————————————— Cours de STATISTIQUE - Statistique descriptive - —————————————————————— H. Schyns Juillet 2011

Upload: others

Post on 25-Apr-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

ENSEIGNEMENT DE PROMOTION SOCIALE

—————————————————————— Cours de

STATISTIQUE

- Statistique descriptive -

——————————————————————

H. Schyns

Juillet 2011

Page 2: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive Sommaire

H. Schyns S.1

Sommaire

1. DEFINITIONS

1.1. La statistique 1.2. Les variables

1.2.1. Les variables qualitatives 1.2.2. Les variables quantitatives 1.2.3. Remarque

1.3. La population et l'échantillon

2. SERIE STATISTIQUE

2.1. Définition 2.2. Exemple de variable qualitative nominale 2.3. Exemple de variable qualitative ordinale 2.4. Exemple de variable quantitative discontinue 2.5. Exemple de variable quantitative continue 2.6. Remarque

3. TABLEAU DE FREQUENCES

3.1. Exemple de variable qualitative nominale 3.2. Exemple de variable qualitative ordinale 3.3. Exemple de variable quantitative discontinue 3.4. Exemple de variable quantitative continue

3.4.1. Le nombre de classes 3.4.2. La largeur de classe 3.4.3. Etablir le tableau

4. HISTOGRAMMES

4.1. Exemple de variable qualitative nominale 4.2. Exemple de variable qualitative ordinale 4.3. Exemple de variable quantitative discontinue 4.4. Exemple de variable quantitative continue

5. COMPARER DES SERIES DE DONNEES SIMILAIRES

5.1. Position du problème 5.2. Interprétation des fréquences relatives cumulées

5.2.1. Illustration 5.2.2. Premier cas 5.2.3. Deuxième cas 5.2.4. Troisième cas 5.2.5. Quatrième cas

5.3. Interprétation d'un corrélogramme 5.3.1. Préparation

Page 3: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive Sommaire

H. Schyns S.2

5.3.2. Présentation des données 5.3.3. Interprétation 5.3.4. Illustration

5.4. Conclusion

6. APPLICATIONS

6.1. Exemple 1 6.1.1. Enoncé 6.1.2. Résolution

6.2. Exemple 2 6.2.1. Enoncé 6.2.2. Résolution

7. EXERCICES DU CHAPITRE

♦ Exercice 1 ♦ Exercice 2 ♦ Exercice 3 ♦ Exercice 4 ♦ Exercice 5 ♦ Exercice 6

8. ANNEXE : ORDRES DE GRANDEUR ET ESTIMATIONS

8.1. Position du problème 8.2. Estimation des naissances 8.3. Estimation du nombre de décès 8.4. Estimation du nombre d'adultes 8.5. Estimation des chances de survie 8.6. Pyramide des âges réelle

9. SOURCES

Page 4: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 1 - Définitions

H. Schyns 1.1

1. Définitions

1.1. La statistique

La statistique est l'ensemble des méthodes qui permettent de rassembler et d'analyser des données numériques.

La statistique descriptive a pour but de présenter les données observées sous une forme qui facilite la prise de connaissance :

- tableaux (tableaux de fréquence, …); - diagrammes et graphiques (histogrammes, …); - paramètres et valeurs typiques (moyenne, écart-type, …).

1.2. Les variables

Les observations ou variables traitées par la statistique se divisent en plusieurs catégories :

- les variables qualitatives, - les variables quantitatives.

1.2.1. Les variables qualitatives

Ce sont les variables qui représentent une "qualité" et qui ne se traduisent pas par un nombre. Les variables qualitatives se décomposent en deux familles :

- les variables qualitatives nominales Les variables qualitatives nominales sont représentées par un nom ou un

adjectif. Elles représentent une catégorie ou une propriété. On observe par exemple la couleur d'une voiture, sa marque, son type d'équipement, le genre du conducteur, etc.

- les variables qualitatives ordinales Les variables qualitatives ordinales sont plus souvent représentées par un

adjectif. Ces adjectifs induisent une gradation, une notion de classement; ce que les mathématiciens appellent une relation d'ordre.

Prenons l'exemple d'une enquête de satisfaction dans laquelle nous demandons au client s'il trouve que la qualité d'un produit est :

abominable [_]

insuffisante [_]

convenable [_]

bonne [_]

excellente [_]

Notons cependant que l'écart d'appréciation entre "abominable" et "insuffisante" n'est nécessairement le même qu'entre "insuffisante" et "convenable". Ceci va limiter l'exploitation des résultats.

1.2.2. Les variables quantitatives

Ce sont toutes les variables qui se traduisent par un nombre. Pour qu'une variable puisse vraiment être assimilée à une variable quantitative, il faut qu'elle puisse se prêter à une opération mathématique simple telle que l'addition.

Page 5: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 1 - Définitions

H. Schyns 1.2

Les variables quantitatives se décomposent également en deux familles :

- les variables discontinues ou discrètes Les variables discontinues, aussi appelées variables discrètes, sont

représentées par des nombres entiers. Elles résultent le plus souvent d'un comptage : nombre d'enfants par famille, nombre d'élèves pas classe, nombre de cas de maladie, etc.

- les variables continues Les variables continues sont représentées par des nombres fractionnaires (des

nombres susceptibles de présenter une virgule). Elles résultent le plus souvent d'une mesure : taille et poids d'une personne, vitesse d'un mobile, concentration chimique, etc.

1.2.3. Remarque

Les variables quantitatives continues sont celles qui apportent le plus d'informations et se prêtent le mieux à un traitement mathématique.

Lors d'une collecte d'informations, il est essentiel de bien formuler les questions et de lever toute ambiguïté.

Reprenons l'exemple de l'enquête de satisfaction. Dans l'échelle qualitative ordinale ci-dessous

abominable [_]

insuffisante [_]

convenable [_]

bonne [_]

excellente [_]

le mot "abominable" va sembler excessif à la plupart des personnes interrogées. Même si elles pensent que la qualité est très largement insuffisante, elles hésiteront à cocher cette case, ce qui va biaiser l'enquête.

Pour contourner le problème, nous pouvons demander au client de coter la qualité du produit sur une échelle allant de 1 (abominable) à 5 (excellent) ou, mieux, sur une échelle allant de 0 (nulle) à 6 (parfait). Nous avons levé l'ambiguïté, remplacé une variable qualitative par une variable quantitative et amélioré la qualité des résultats !

1.3. La population et l'échantillon

Les observations, comptages et mesures servent généralement à définir une population. Par population, on entend l'ensemble des individus auxquels on s'intéresse. Comme il est souvent difficile d'analyser la totalité d'une population, on se contente généralement d'en examiner une fraction. Cette fraction plus ou moins grande de la population est appelée échantillon (1). Un échantillon peut être représentatif de la population ou non représentatif. Les éléments d'une population ou d'un échantillon sont appelés individus. Chaque individu rencontré constitue une observation. Toute variable observée chez un individu est appelée caractère. Le caractère peut prendre une valeur quelconque; l'ensemble des valeurs possibles constitue la modalité.

caractère ∈ individu ∈ échantillon ⊂ population

Comparer des séries de données similaires 1 Les échantillons et les populations sont un peu comme des poupées russes : une population peut elle-

même être considérée comme un échantillon d'une classe plus large. Ainsi, quelques étudiants forment un échantillon de la population de la classe mais la classe peut elle-même être considérée comme un échantillon de la population formée par toutes les classes de l'école et l'école, comme un échantillon de la population formée de toutes les écoles de la ville, etc.

Page 6: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 1 - Définitions

H. Schyns 1.3

Prenons un exemple :

Une société employant 500 personnes (hommes et femmes) désire estimer la distance parcourue en moyenne par ses employés pour se rendre de leur domicile à leur lieu de travail. Les 500 personnes constituent la population.

Elle envoie un questionnaire à tous les employés et récupère 120 réponses. Ces 120 personnes constituent un échantillon.

Elle aurait pu tirer au hasard les noms de 100 employés à interroger personnellement. Dans ce cas, ce sont ces 100 employés qui auraient constitué un échantillon.

Comme on le voit, à partir d'une population, il existe une infinité de manières d'extraire un échantillon.

L'échantillon est non représentatif si seules les personnes qui habitent près de la société ont répondu. Si on procède à un tirage au sort basé sur la liste de tous les employés, l'échantillon sera beaucoup plus représentatif. Plus l'échantillon est grand par rapport à la population, plus il est représentatif (1).

Monsieur Alain, qui a répondu au questionnaire est un individu faisant partie de l'échantillon. Le caractère que l'on a observé chez lui est la distance (en km) qu'il parcourt pour se rendre de son domicile à son lieu de travail. Le chiffre qu'il a fourni constitue une observation. La modalité est l'ensemble des solutions possibles c'est-à-dire, dans ce cas précis, l'ensemble des réels compris entre 0 km (quelqu'un qui habiterait dans l'usine) et 20 000 km (quelqu'un qui habiterait de l'autre côté de la Terre).

L'ensemble des observations recueillies servira à donner une estimation du kilométrage moyen de l'ensemble de la population. Notez qu'on ne connaîtra jamais la valeur exacte (2). Ce qui est important, c'est de connaître la marge d'erreur sur cette estimation.

Comparer des séries de données similaires 1 Pour fixer les idées de ce qu'on entend par "représentatif", une "règle du pouce" (ang.: rule of the thumb)

dit que l'ordre de grandeur de l'échantillon doit être au moins de l'ordre de la racine carrée de la population. Par exemple, en première approche, pour estimer l'avis d'une population de 1000 personnes, il faut sonder un échantillon de l'ordre de 35 personnes.

2 Dans le cas présent, la valeur exacte n'a aucun intérêt. Les employés ne prennent pas nécessairement le même chemin tous les jours.

Page 7: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 2 - Série statistique

H. Schyns 2.1

2. Série statistique

2.1. Définition

La forme la plus élémentaire de présentation de données statistiques consiste en une simple énumération des observations. Une telle énumération est appelée série statistique. Certaines valeurs peuvent y apparaître plusieurs fois. La série statistique peut éventuellement être classée par ordre croissant ou alphabétique.

2.2. Exemple de variable qualitative nominale

Un enquêteur s'est posté à la sortie d'un parking d'une grande surface. Il a noté la marque de 20 voitures conduites par des clients. En notant F pour Ford, O pour Opel, V pour Volkswagen et A pour Autre, il a obtenu la série suivante :

Voiture O V F O A A O A O F V V A V O A V F A A

tableau 2.1 Voitures

2.3. Exemple de variable qualitative ordinale

Notre enquêteur a ensuite demandé à chaque conducteur si sa visite lui a permis de trouver les articles qu'il souhaitait. Il leur propose le choix parmi :

- aucun article (A) - quelques articles (Q) - la plupart des articles (P) - tous les articles (T)

Il obtient les réponses suivantes :

Articles P P Q P A Q T P Q T Q P P P Q T A Q P P

tableau 2.2 Articles

2.4. Exemple de variable quantitative discontinue

Notre enquêteur a également interrogé chaque conducteur pour lui demander le nombre de personnes formant son ménage (1, 2, 3, 4, 5, 6 ou +) :

Composition du Ménage 1 1 1 4 3 2 2 2 1 1 4 3 3 4 1 1 6+ 1 4 3

tableau 2.3 Composition du ménage

Page 8: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 2 - Série statistique

H. Schyns 2.2

2.5. Exemple de variable quantitative continue

Enfin, notre enquêteur a mesuré la taille (en m) de chaque conducteur :

Taille (m) 1.69 1.55 1.86 1.53 1.72 1.79 1.54 1.67 1.56 1.48 1.54 1.67 1.59 1.58 1.57 1.78 1.69 1.67 1.47 1.60

tableau 2.4 Taille du conducteur

2.6. Remarque

Dans le cas des enquêtes sociales, commerciales ou sondages politiques, l'enquêteur collecte simultanément plusieurs données (comme dans notre exemple). Dans ce cas, il est toujours intéressant de montrer un tableau dans lequel les données sont présentées par individu (voiture / articles / ménage / taille).

Page 9: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 3 - Tableau de fréquences

H. Schyns 3.1

3. Tableau de fréquences

Dès que les observations sont un peu nombreuses, il est utile de les condenser sous la forme d'un tableau de fréquences. Le principe général reste le même dans tous les cas : on compte les observations. Cependant, la manière de construire un tel tableau diffère un peu selon la nature de la variable.

3.1. Exemple de variable qualitative nominale

Pour dresser le tableau de fréquence relatif aux données du , on reprend dans une première colonne toutes les valeurs possibles de la variable telle que définies à priori pour l'enquête (Ford, Opel, Volkswagen, Autre). Cette colonne est notée x. Le i qui apparaît en indice représente le numéro de la ligne de données (x1=Ford, x2=Opel,...). Souvent, la liste est présentée en ordre alphabétique et la valeur "Autre" est la dernière de la liste.

Dans une seconde colonne, on note combien de fois cette valeur est apparue. Il s'agit donc bien d'un comptage. Le résultat du comptage est appelé fréquence absolue ou, plus simplement, fréquence. La colonne est notée n (n1=3, n2=5,...). Le total de la colonne des fréquences doit évidemment correspondre au nombre d'observations.

Voiture Valeurs de la variable

Fréquence absolue

Fréquence relative

xi ni fi Ford 3 15 % Opel 5 25 %

Volkswagen 5 25 % Autre 7 35 %

Nbre observ. 20 100 % tableau 3.1 Fréquence des voitures

Dans une troisième colonne, on exprime les fréquences en pour-cent du nombre total d'observations. On parle alors de fréquence relative. Cette colonne est notée f (f1=15%, f2=25%,...). Le total des fréquences relatives doit évidemment être de 100 %.

Puisque ce tableau porte sur une variable qualitative nominale, les valeurs possibles peuvent être présentées dans n'importe quel ordre. Au lieu d'utiliser l'ordre alphabétique, il est habituel de classer les résultats en ordre décroissant des fréquences :

Voiture Valeurs de la variable

Fréquence absolue

Fréquence relative

xi ni fi Autre 7 35 % Opel 5 25 %

Volkswagen 5 25 % Ford 3 15 %

Nbre observ. 20 100 % tableau 3.2 Fréquence des voitures (classé par fréquence décroissante)

Page 10: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 3 - Tableau de fréquences

H. Schyns 3.2

Le fait que la valeur indéterminée "Autre" soit la première du tableau est l'indice d'une enquête particulièrement mal préparée. En pratique, on essaie d'avoir une modalité aussi large que possible quitte à regrouper les valeurs dans la suite du traitement.

3.2. Exemple de variable qualitative ordinale

Le tableau d'une variable qualitative ordinale se construit comme dans le cas précédent. Toutefois, comme les réponses possibles présentent une gradation, l'ordre de présentation des données du tableau 2.2 est imposé.

Articles trouvés

Valeurs de la variable

Fréquence absolue

Fréquence relative

Fréquence absolue cumulée

Fréquence relative

cumulée xi ni fi Ni Fi

Aucun 2 10 % 2 10 % Quelques-uns 6 30 % 8 40 % Presque tous 9 45 % 17 85 %

Tous 3 15 % 20 100 % Nbre observ. 20 100 % 20 100 %

tableau 3.3 Fréquence de complétion des achats

Puisque l'ordre est imposé, les fréquences observées peuvent aussi être additionnées de proche en proche dans une quatrième et cinquième colonne, notées respectivement N et F. On obtient ainsi les fréquences absolues cumulées et les fréquences relatives cumulées. La fréquence cumulée d'une valeur est la somme des fréquences de cette valeur et des valeurs inférieures. La dernière valeur de la colonne cumulée doit correspondre au nombre d'observations.

3.3. Exemple de variable quantitative discontinue

Le tableau d'une variable quantitative discontinue se construit exactement comme dans le cas précédent. Comme il s'agit de variables numériques, on veillera à présenter les données du tableau 2.3 en ordre croissant.

Ici aussi, les fréquences observées peuvent aussi être additionnées de proche en proche pour obtenir les fréquences absolues cumulées et les fréquences relatives cumulées.

Composition du ménage

Valeurs de la variable

Fréquence absolue

Fréquence relative

Fréquence absolue cumulée

Fréquence relative

cumulée xi ni fi Ni Fi 1 8 40 % 8 40 % 2 3 15 % 11 55 % 3 4 20 % 15 75 % 4 4 20 % 19 95 % 5 0 0 % 19 95 %

6+ 1 5 % 20 100 % Nbre observ. 20 100 % 20 100 %

tableau 3.4 Fréquence de composition du ménage

Page 11: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 3 - Tableau de fréquences

H. Schyns 3.3

3.4. Exemple de variable quantitative continue

Le cas de la variable continue du tableau 2.4 est plus délicat : il est impossible de lister toutes les valeurs possibles de la variable. On est obligé de regrouper les observations en classes.

3.4.1. Le nombre de classes

Une classe est un intervalle de valeurs caractérisé par ses limites. La borne supérieure d'une classe correspond à la borne inférieure de la classe suivante. En général, on s'arrange pour que toutes les classes aient la même largeur.

De manière figurée, on peut se représenter les classes comme une succession de paniers identiques placés côte à côte et dans lesquels les observations vont prendre place.

Bien que le nombre et la largeur des classes soient laissés au choix de l'observateur, celui-ci veillera à rendre le tableau aussi lisible que possible : on prend souvent de 5 à 20 classes. Pour fixer les idées et éviter les discussions interminables, on prend un nombre de classe qui vaut environ la racine carrée du nombre d'observations (1) :

nsobservatioNbclassesNb ≈ [eq. 3.1]

Dans le cas de notre exemple, pour 20 observations, 5 classes suffisent amplement.

3.4.2. La largeur de classe

On fixe la largeur des classes à partir de l'étendue ou plage (ang.: range) des données. La plage est la différence entre le maximum et le minimum observés :

Plage = Val max - Val min [eq. 3.2]

Dans notre cas, le minimum vaut 1.47 m et le maximum 1.86 m :

Plage = 1.86 m - 1.47 m = 0.39 m

La largeur de classe est environ égale à la plage divisée par le nombre de classes :

classesNb

PlageclasseL ≈ [eq. 3.3]

On adapte ce nombre pour faciliter la lecture et l'interprétation des données. Dans notre exemple, nous obtiendrions des classes de 0.078 m, ce qui n'est pas très pratique. Nous prendrons plutôt 0.10 m.

3.4.3. Etablir le tableau

La première classe est fixée de manière à contenir la valeur minimum prise par la variable. Toutefois, il n'est pas conseillé de prendre ce minimum comme borne

Comparer des séries de données similaires 1 Cette règle empirique est issue de la définition de l'écart-type que nous verrons plus loin. Elle permet de

"stabiliser" la largeur de classe lorsqu'on doit traiter séparément ou simultanément divers ensembles d'observations. D'autres formules existent telles que K=1+ 3.3 log(N) ou, ce qui revient presqu'au même K=1+(nombre de bits de N)

Page 12: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 3 - Tableau de fréquences

H. Schyns 3.4

inférieure de la première classe [ Binf ]; il faut au moins soustraire la moitié de la précision de la mesure :

prec21 x B MININF ⋅−≤

Le plus souvent, on prend pour valeur inférieure un nombre qui est multiple ou demi-multiple de la largeur de classe.

Pour analyser notre exemple, comme le minimum vaut 1.47 m et que la précision de la mesure est de 0.01 m, la première borne doit être inférieure ou égale à 1.465 m. Pour faciliter la lecture, nous ferons commencer la première classe à 1.40 m mais nous aurions tout aussi bien pu choisir de la faire commencer à 1.45 m.

La dernière classe contient la valeur maximum prise par la variable.

Taille du conducteur (m)

Valeurs de la variable Centre Fréquence

absolue Fréquence

relative Fréquence

absolue cumulée

Fréquence relative

cumulée xi ci ni fi Ni Fi [1.40 - 1.50 [ 1.45 2 10 % 2 10 % [1.50 - 1.60 [ 1.55 8 40 % 10 50 % [1.60 - 1.70 [ 1.65 6 30 % 16 80 % [1.70 - 1.80 [ 1.75 3 15 % 19 95 % [1.80 - 1.90 [ 1.85 1 5 % 20 100 % Nbre observ. 20 100 % 20 100 %

tableau 3.5 Classes de taille du conducteur

Une chose importante à noter est le caractère semi-ouvert des intervalles : la notation [1.50 - 1.60 [ signifie que cette classe comprend toutes les observations plus grandes ou égales à 1.50 m mais strictement plus petites que 1.60 m. En d'autres mots, une observation exactement égale à 1.60 m tombera dans la classe suivante [1.60 - 1.70 [.

On note aussi la présence d'une colonne qui reprend le centre de la classe. Nous en aurons besoin plus loin. Elle est notée c.

Page 13: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 4 - Histogrammes

H. Schyns 4.1

4. Histogrammes

Les tableaux de fréquences établis au chapitre précédent peuvent être représentés sous forme de graphiques nommés histogrammes. On distinguera d'une part, les histogrammes basés sur les fréquences ou les fréquences relatives et, d'autre part, ceux basés sur les fréquences cumulées ou les fréquences relatives cumulées. Les seconds représentent l'intégrale ( ∫ ) des premiers.

Le principe de construction des histogrammes est toujours le même : - L'axe horizontal reprend l'ensemble des valeurs possibles de la variable

(du caractère); - L'axe vertical reprend les fréquences, absolues ou relatives, simples ou

cumulées.

4.1. Exemple de variable qualitative nominale

L'histogramme d'une variable qualitative est un diagramme en bâtonnets.

Les valeurs prises par une variable qualitative peuvent être présentées sur l'axe horizontal dans n'importe quel ordre. L'ordre alphabétique est généralement choisi mais rien ne l'impose (1).

fig. 4.1 Histogramme d'une variable qualitative (bâtonnets)

Une fois l'ordre fixé, les valeurs sont inscrites sur l'axe horizontal. Les fréquences sont représentées par un bâtonnet vertical placé au-dessus de chaque valeur. Les bâtonnets doivent être disjoints afin d'exprimer qu'il y a une certaine "distance" entre deux marques et que rien ne vient combler cet espace (cf. fig. 4.2). Notez que l'axe horizontal n'est pas gradué.

Comparer des séries de données similaires 1 Par exemple, quand on établit des satistiques sur des couleurs, on préfère souvent les présenter dans

l'ordre du spectre solaire : rouge - orange - jaune - vert - bleu - indigo - violet

Page 14: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 4 - Histogrammes

H. Schyns 4.2

fig. 4.2 Les bâtonnets doivent être disjoints !

On ne trace jamais d'histogramme des fréquences cumulées pour une variable qualitative. Cela n'a aucun sens puisque l'ordre de présentation - et donc l'ordre de cumul - est arbitraire.

Par contre, il peut être intéressant de présenter le diagramme en ordre décroissant des fréquences comme à la fig. 4.3. On obtient ainsi un diagramme de Pareto (1).

fig. 4.3 Diagramme de Pareto (ordre décroissant des fréquences)

Dans le même ordre d'idées, les fréquences relatives sont aussi avantageusement représentées par un diagramme en tarte (ang.: pie chart) comme à la fig. 4.4. Ici aussi, l'ordre de présentation des quartiers est arbitraire. Le plus souvent, on choisit de les présenter dans l'ordre croissant ou décroissant des fréquences relatives.

Comparer des séries de données similaires 1 Vilfredo Pareto (1848-1923), sociologue et économiste italien célèbre pour l'observation de la "loi des

80/20" et pour la notion "d'équilibre de Pareto".

Page 15: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 4 - Histogrammes

H. Schyns 4.3

fig. 4.4 Pie chart des fréquences relatives

4.2. Exemple de variable qualitative ordinale

L'histogramme d'une variable qualitative ordinale est aussi un diagramme en bâtonnets.

Les valeurs sont présentées dans l'ordre logique (ou l'ordre inverse). Toutes les valeurs sont représentées sur un axe horizontal, même celles dont la fréquence est nulle. L'axe ne porte aucune graduation car l'intervalle entre deux valeurs n'est pas nécessairement constant.

fig. 4.5 Histogramme d'une variable qualitative ordinale (bâtonnets)

L'ordre de classement des valeurs étant bien défini, un histogramme des fréquences cumulées (absolues ou relatives) prend tout son sens (1). Il s'agit d'un diagramme en escalier dont toutes les marches sont jointives (2) :

Comparer des séries de données similaires 1 On peut en effet poser la question "Combien y a-t-il de conducteurs qui ont trouvé au plus quelques

articles ?", alors que dans le cas précédent la question "Combien y a-t-il de conducteurs qui conduisent une voiture qui soit au moins une Ford ?" n'a pas de sens.

2 L'explication se trouve dans le cours de mathématique : l'histogramme cumulé représente l'intégrale de l'histogramme simple. Or l'intégrale d'une fonction discrète est une fonction partout définie, continue par morceaux.

Page 16: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 4 - Histogrammes

H. Schyns 4.4

fig. 4.6 Histogramme cumulé d'une variable qualitative ordinale (rectangles).

4.3. Exemple de variable quantitative discontinue

L'histogramme d'une variable quantitative discontinue (ou discrète) se construit exactement comme dans le cas précédent.

C'est aussi un diagramme en bâtonnets et les valeurs prises par une variable quantitative sont présentées dans l'ordre croissant. Toutes les valeurs sont représentées sur un axe horizontal, même celles dont la fréquence est nulle. Cette fois, l'axe porte des graduations.

fig. 4.7 Histogramme d'une variable quantitative discrète (bâtonnets)

Comme dans le cas des variables qualitatives ordinales, il est possible de construire un histogramme des fréquences cumulées. ici aussi, il s'agit d'un diagramme en escalier dont toutes les marges sont jointives :

Page 17: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 4 - Histogrammes

H. Schyns 4.5

fig. 4.8 Histogramme cumulé d'une variable quantitative discrète (rectangles).

4.4. Exemple de variable quantitative continue

L'histogramme d'une variable quantitative continue est un diagramme en rectangles.

Ceci s'explique aisément : puisque les valeurs sont regroupées par classes et que les classes sont jointives, il ne peut pas y avoir de discontinuité (de trou) dans le diagramme. De plus, chaque fréquence se rapporte à l'ensemble d'une classe. La fréquence ne varie pas quand on parcourt la classe; c'est donc une horizontale. Notez la position des graduations de l'axe horizontal :

fig. 4.9 Histogramme d'une variable quantitative continue (rectangles)

L'histogramme cumulé est un diagramme en polygone. Chaque classe est traversée de part en part par un segment oblique (cf. fig. 4.10). La borne inférieure de la première classe correspond à 0; sa borne supérieure correspond à la fréquence cumulée.

L'explication est logique (1). Imaginons que tous les chauffeurs s'alignent du plus petit au plus grand dans des cases correspondant aux classes. Nous longeons ce rang en commençant du côté du plus petit. A hauteur de la graduation 1.40m, nous

Comparer des séries de données similaires 1 L'explication mathématique : l'intégrale d'une fonction définie par paliers, c-à-d de valeur constante "ai" sur

un intervalle i donné, est une succession de segments de droite d'équation ai.x+bi.

Page 18: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 4 - Histogrammes

H. Schyns 4.6

n'avons encore rencontré aucun chauffeur (d'où 0). Arrivés à la graduation 1.50m, nous avons dépassé deux personnes (d'où 2). A la graduation 1.60m, nous avons laissé 10 chauffeurs derrière nous. Et ainsi de suite, jusqu'à la graduation 1.90 pour laquelle les 20 chauffeurs ont été dépassés.

Comme la fréquence est toujours un nombre positif ou nul, le polygone obtenu est croissant (son tracé ne peut jamais repartir vers le bas).

fig. 4.10 Histogramme cumulé d'une variable quantitative continue (polygone)

Page 19: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.1

5. Comparer des séries de données similaires

5.1. Position du problème

Les statistiques sont surtout intéressantes lorsqu'elles comparent deux (ou plusieurs) séries de données similaires mais ayant trait à des populations différentes. Par exemple :

- l'âge du décès chez les hommes et chez les femmes, - le revenu par habitant en Europe et aux USA, - le poids des volontaires avant et après un régime, - la proportion de chômeurs dans un groupe de pays pour deux années distinctes.

Avec un peu d'habitude, il est assez aisé de tracer des histogrammes convenables à partir des données brutes.

Par contre, l'expérience montre qu'il est beaucoup plus difficile d'interpréter ces graphiques pour en extraire l'information. Formuler l'information pour qu'elle soit compréhensible par tous est une difficulté supplémentaire. C'est pourtant une faculté essentielle dans notre société principalement axée sur l'audiovisuel. Dans ce chapitre nous montrerons à l'aide de quelques exemples comment réaliser correctement ces tâches.

5.2. Interprétation des fréquences relatives cumulées

5.2.1. Illustration

Dans un pays quelconque, le gouvernement a mis en place une série de réformes du monde du travail. Pour mesurer l'impact de ces mesures, il a effectué des statistiques sur le revenu par habitant. Deux enquêtes ont été effectuées : la première environ un an avant que les réformes soient décidées ; la seconde, un an après la mise en place des réformes.

Les résultats des enquêtes sont résumés sous la forme du graphe des fréquences relatives cumulées (FRC).

5.2.2. Premier cas

fig. 5.1 Fréquences relatives cumulées du revenu par habitant en Alphanie

Page 20: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.2

La fig. 5.1 présente les résultats d'un premier pays (Alphanie). La courbe de gauche (verte) représente la situation "avant"; celle de droite (rouge), la situation "après".

Peut-on dire que les mesures gouvernementales ont eu un effet ?

Commençons par lire les libellés des axes; les légendes et les annotations du graphique. Comme il s'agit d'un cumul, la courbe représente la fraction de la population dont le revenu est inférieur à un revenu donné.

Nous constatons tout d'abord que la courbe "après" s'est déplacée vers la droite par rapport à la courbe "avant", c'est-à-dire vers des revenus par habitant plus élevés.

fig. 5.2 Analyse à revenu par habitant constant

Tous les points de la courbe ont effectué un déplacement de même amplitude. Ceci qui signifie que toutes les classes de revenu ont été affectées de la même manière par les mesures gouvernementales. Tout se passe comme si toutes les observations d'une classe étaient passées dans la classe voisine et ce, pour chacune des classes (1).

Pour confirmer notre analyse, traçons une verticale correspondant à un niveau de revenu quelconque [ R ] (fig. 5.2). Nous remarquons qu'avant les mesures, 75% de la population n'atteignait pas ce revenu (horizontale verte) et que seul le complément, soit 25% de la population, le dépassait. Après les réformes, il n'y a plus que 25% de la population qui n'atteint pas ce revenu (horizontale rouge) alors que 75% le dépassent aujourd'hui.

De plus, la petite fraction de la population qui, avant les réformes, recevait un revenu inférieur à [ Ri ] a complètement disparu. Inversement, les réformes ont fait apparaître une petite fraction de population qui reçoit maintenant un revenu supérieur à [ Rs ].

Traçons à présent une horizontale à un niveau de cumul quelconque. Habituellement, on utilise l'horizontale à 50% qui définit la médiane (fig. 5.3) (2).

Nous constatons que le revenu [ Rav ] divisait la population en deux sous-groupes de tailles identiques : 50% des habitants n'atteignait pas ce niveau de revenu et 50% des habitants le dépassaient. Pour cette raison [ Rav ] est appelé revenu médian

Comparer des séries de données similaires 1 Dans le cas où seuls les plus pauvres se retrouvent tout à coup parmi les plus riches alors que le reste de

la population est échangée, le déplacement n'est plus constant; il varie tout au long de la sigmoïde. 2 La médiane sera définie dans le chapitre suivant.

Page 21: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.3

"avant". Nous pouvons faire le même raisonnement sur [ Rap ]. Nous l'appellerons revenu médian "après".

fig. 5.3 Analyse à fréquence cumulée constante (médiane)

Cette analyse montre clairement que les mesures gouvernementales ont permis l'augmentation du revenu médian de la population.

5.2.3. Deuxième cas

Voyant les réalisations en Alphanie, le gouvernement de la Bétanie voisine entreprend lui aussi des réformes.

Deux enquêtes, "avant" et "après", sont effectuées dans les mêmes conditions. Les résultats sont résumés sous la forme du graphe des fréquences relatives cumulées (fig. 5.4). Quel a été l'effet des mesures gouvernementales ?

fig. 5.4 Fréquences relatives cumulées du revenu par habitant en Bétanie

Comme dans le cas précédent, nous constatons que la courbe "après" s'est déplacée vers la droite par rapport à la courbe "avant", c'est-à-dire vers des revenus par habitant plus élevés. Toutefois, le décalage n'est pas constant; il est plus petit dans le bas de la courbe (qui n'inclut que les revenus faibles) et plus important dans le haut de la courbe (qui inclut les revenus élevés) (fig. 5.5).

Page 22: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.4

Bien que la politique de la Bétanie ait augmenté l'ensemble des revenus de la population, elle semble avoir eu un impact plus important pour les gros revenus que pour les petits, du moins en valeur absolue (1).

Traçons une verticale à un niveau de revenu quelconque [ R ]. Nous remarquons comme dans le cas de l'Alphanie, qu'avant les mesures, 75% de la population n'atteignait pas ce revenu (horizontale verte) et que seul le complément, soit 25% de la population, le dépassait. Après les réformes, environ 35% de la population n'atteint toujours pas ce revenu (horizontale rouge) alors que 65% le dépassent aujourd'hui (contre 75% en Alphanie).

fig. 5.5 Analyse à revenu par habitant constant

De plus, les réformes ont fait apparaître une fraction de population qui reçoit aujourd'hui un revenu supérieur à [ Rs ] mais sans avoir modifié les revenus inférieurs.

fig. 5.6 Analyse à fréquence cumulée constante (médiane)

Traçons l'horizontale à 50% qui définit la médiane (fig. 5.6).

Nous constatons à nouveau que le revenu médian après la réforme [ Rap ] est plus élevé que le revenu [ Rav ], antérieur à la réforme.

Comparer des séries de données similaires 1 Une politique qui déciderait d'augmenter de 1% les revenus de toute la population se traduirait par le même

type de graphique : dans l'absolu, 1% d'un gros montant représente une plus grosse somme que 1% d'un petit montant.

Page 23: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.5

La différence est exactement la même que celle observée en Alphanie. Pourtant, nous avons déjà démontré que les réformes n'ont pas eu le même impact dans les deux pays. Nous pouvons conclure que la comparaison des revenus médians n'est pas suffisante pour donner une image complète de la situation.

Pour affiner l'étude nous pouvons tracer deux horizontales supplémentaires, l'une à 25% et l'autre à 75%. Cette fois, il apparaît clairement que la progression des revenus des 25% les plus pauvres de la population est inférieure à celle des 25% les plus riches.

Cette analyse montre clairement que les mesures gouvernementales ont permis l'augmentation du revenu médian de la population mais que les réformes ont augmenté la proportion de personnes bénéficiant de revenus élevés sans pour autant diminuer celle des personnes ayant des revenus faibles (1).

5.2.4. Troisième cas

Ne voulant pas être en reste avec ses voisins, le gouvernement de Gammanie met également des réformes en chantier.

Lui aussi effectue des enquêtes, "avant" et "après", et publie les résultats sous la forme du graphe des fréquences relatives cumulées (fig. 5.7).

Quel a été l'effet des mesures gouvernementales ?

fig. 5.7 Fréquences relatives cumulées du revenu par habitant en Gammanie

La situation en Gammanie est symétrique à celle de la Bétanie : la courbe "après" s'est déplacée vers la droite par rapport à la courbe "avant", et le décalage n'est pas constant. Cette fois, il est plus grand dans le bas de la courbe (revenus faibles) et plus petit dans le haut (revenus élevés) (fig. 5.8).

Les réformes en Gammanie ont augmenté l'ensemble des revenus de la population, mais elle semble avoir eu un impact plus important pour les petits revenus que pour les grands, aussi bien en valeur absolue qu'en valeur relative (2).

La verticale tracée à un niveau de revenu quelconque [ R ] montre qu'avant les mesures, 65% de la population n'atteignait pas ce revenu (horizontale verte) et que

Comparer des séries de données similaires 1 Il faut se méfier des formules toutes faites telles que "les riches deviennent plus riches et les pauvres plus

pauvres". Il se pourrait très bien que le gouvernement ait fortement taxé les revenus des riches, qui se retrouvent pauvres, pour les redistribuer aux plus pauvres, devenus riches, et qu'il s'endette de surcroît pour leur attribuer des allocations supplémentaires afin de compenser leurs années de misère.

2 On démontre facilement que revenus tels que Ri < Rs et des augmentations Ai > As alors Ai/Ri > As/Rs

Page 24: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.6

seul le complément, soit 35% de la population, le dépassait. Après les réformes, environ 25% de la population n'atteint toujours pas ce revenu (horizontale rouge) mais 75% le dépassent.

fig. 5.8 Analyse à revenu par habitant constant

De plus, les réformes ont fait disparaître la fraction de population qui recevait un revenu inférieur à [ Ri ] mais sans avoir modifié les revenus supérieurs.

fig. 5.9 Analyse à fréquence cumulée constante (médiane)

Traçons à présent l'horizontale à 50% qui définit la médiane (fig. 5.9).

Comme dans les cas précédents, le revenu médian après la réforme [ Rap ] est plus élevé que le revenu [ Rav ] antérieur à la réforme et la différence est toujours exactement la même.

Pour distinguer les situations des trois pays, nous traçons les deux horizontales supplémentaires à 25% et à 75%. Nous constatons que la progression des revenus des 25% les plus pauvres de la population est bien supérieure à celle des 25% les plus riches.

Les mesures gouvernementales ont donc permis l'augmentation du revenu médian de la population. Les réformes ont réduit la proportion de personnes bénéficiant de

Page 25: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.7

revenus faibles sans pour autant augmenter celle des personnes ayant des revenus élevés (1).

5.2.5. Quatrième cas

Voyant ce qui s'est passé dans les pays limitrophes et sous la pression de sa population, le gouvernement du Deltakistan décide à son tour de prendre des mesures qui s'appliquent au monde du travail.

Comme les autres, il publie résultats de ses enquêtes, "avant" et "après" (fig. 5.10).

fig. 5.10 Fréquences relatives cumulées du revenu par habitant au Deltakistan

Cette fois, la situation est nettement moins claire. La courbe ne s'est pas décalée; elle s'est redressée. Elle s'est déplacée vers la droite dans la zone des bas revenus et vers la gauche dans la région des hauts revenus (fig. 5.11).

fig. 5.11 Analyse à revenu par habitant constant

Si nous traçons une verticale dans la région des bas revenus, nous voyons que le revenu [ Rl ] qui n'était dépassé que par 60% de la population (horizontale verte) est maintenant dépassé par 75% de la population. De plus, la partie vraiment pauvre, dont le revenu était inférieur à [ Ri ] a disparu.

Comparer des séries de données similaires 1 Encore attention aux jugements trop hâtifs : ce n'est pas parce que les faibles revenus ont disparu que ce

gouvernement a fait une bonne action. Il a peut-être simplement éliminé physiquement les plus défavorisés. C'est ce qui se passait il y a quelques siècles, quand les épidémies et les famines faisaient surtout des ravages parmi les pauvres…

Page 26: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.8

La situation est symétrique dans la région des hauts revenus. Jadis, 15% de la population dépassait le revenu [ Rh ]; aujourd'hui ils ne représentent plus que 10%. De plus, la partie vraiment riche, dont le revenu était supérieur à [ Rs ] a disparu.

Recherchons les médianes. Cette fois, le revenu médian n'a que très faiblement progressé; [ Rap ] est à peine plus élevé [ Rav ].

fig. 5.12 Analyse à fréquence cumulée constante (médiane)

Par contre, une horizontale à 25% montre nettement la progression des revenus des plus pauvres alors qu'une horizontale à 75% montre la régression des revenus des plus riches.

Nous pouvons en conclure que les mesures ont réduit l'écart entre les riches et les pauvres. Quant à savoir si c'est par un processus démocratique… (1).

5.3. Interprétation d'un corrélogramme

5.3.1. Préparation

Un corrélogramme (2) est un graphique qui permet de comparer rapidement des paires de données de même nature (3).

Pour pouvoir tracer un corrélogramme, il faut d'abord :

- disposer d'un échantillon comprenant un certain nombre d'individus bien identifiés (ne serait-ce que par un code inaltérable).

- observer, pour chaque individu, soit deux caractères de même nature, soit un seul caractère mais à des instants différents. Pour chaque individu, on obtient donc une paire d'observations (x, y).

Quelques exemples permettront de mieux comprendre cette définition :

Comparer des séries de données similaires 1 Méfiance ! C'est peut-être le résultat d'une fiscalité votée au parlement, qui s'alimente auprès des gros

revenus et qui redistribue ses produits aux plus démunis. C'est peut-être dû aussi une révolution menée par les "petits" qui ont exterminé la plupart des "gros" et confisqué leurs biens avant de se faire eux-mêmes décimer et dépouiller par les "moyens" ! (révolution française)

2 Le terme "corrélogramme" est aussi utilisé, avec une autre signification, dans le cadre de l'analyse des séries temporelles alors que, en toute rigueur, il faudrait alors parler d'auto-corrélogramme;

3 Le cas général dans lequel les données ne sont pas de même nature sera traité dans le chapitre intitulé : "corrélation, régression et ajustements".

Page 27: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.9

- Etude de l'âge du décès chez les hommes et chez les femmes dans différents pays.

Les individus sont les pays. Ils constituent le lien constant entre les deux observations. Nous devons disposer d'une liste de pays parfaitement identifiés.

Les caractères observés sont l'âge de décès des hommes et l'âge du décès des femmes dans chacun des pays de la liste. Il s'agit bien de données de même nature (1).

Pour chaque pays, nous disposons donc bien d'un couple de valeurs (données appariées).

- Etude du poids des volontaires avant et après un régime Les individus sont les volontaires ayant suivi le régime. Ils constituent le lien

constant entre les deux observations. Nous devons disposer d'une liste de volontaires parfaitement identifiés.

Les caractères observés sont le poids du volontaire avant qu'il suive le régime et son poids après qu'il ait suivi le régime. Il s'agit bien de données de même nature.

Pour chacun des volontaires de la liste, nous disposons donc d'un couple de valeurs.

- Etude de la teneur en polluants à l'entré et à la sortie d'une même station d'épuration au fil des jours

Les individus sont les jours pendant lesquels les échantillons ont été prélevés. Ils constituent le lien constant entre les deux observations. Nous devons disposer d'une liste de jours parfaitement identifiés.

Les caractères observés sont la teneur en polluant en amont de la station et la teneur en polluant en aval de la station. Il s'agit bien de données de même nature.

Pour chaque jour, nous disposons donc bien d'un couple de valeurs.

5.3.2. Présentation des données

L'étape suivante consiste à placer les couples de points dans un repère orthonormé.

La première donnée du couple sera repérée sur l'axe des abscisses [ x ] (p.ex.: age de décès des hommes, poids des volontaires avant régime, teneur en polluant en amont); la seconde sera repérée sur l'axe des ordonnées [ y ] (p.ex.: age de décès des femmes, poids des volontaires après régime, teneur en polluant en aval) (2).

Afin de faciliter la lecture au maximum, on trace le corrélogramme sous la forme d'un diagramme "carré" (fig. 5.13).

Comme les données sont de même nature, les deux axes s'expriment dans la même unité et il est possible de les graduer de la même manière. Ici, les deux axes sont gradués de [ m ] à [ n ] et ils comptent le même nombre de graduations intermédiaires.

Comparer des séries de données similaires 1 Ce ne serait pas le cas si on avait pris l'age du décès des hommes et l'âge de la première maternité chez

la femme. 2 Dans le cas d'une étude "avant/après" on utilise toujours "avant" comme abscisse (x) et "après" comme

ordonnée (y).

Page 28: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.10

fig. 5.13 Principe du corrélogramme

Nous portons ensuite sur le graphique la bissectrice, c'est-à-dire la droite qui a pour équation :

y = x

Par définition, cette droite passe par le point (m,m) et par le point (n,n). Elle représente la diagonale du carré.

Attention : pour que la diagonale corresponde à la bissectrice il faut absolument que si les deux axes soient gradués de la même manière !

5.3.3. Interprétation

Le plus souvent, lors d'une analyse statistique, les valeurs observées sont du même ordre de grandeur, si bien que les points se disposent selon un nuage allongé qui

- suit la bissectrice, - s'étire en dessous de la bissectrice, - s'étire au-dessus de la bissectrice.

Considérons un point particulier [ A ] qui se trouve sur la bissectrice. Dès lors, pour ce point, l'ordonnée est égale à l'abscisse et donc :

yA = xA

Dans le cas des exemples que nous avons pris plus haut, cela signifierait que

- dans le pays représenté par ce point, l'âge de décès de femmes est identique à celui des hommes,

- pour le volontaire représenté par ce point, le poids après régime est identique au poids avant régime,

- pour le jour représenté par ce point, la teneur en polluant en aval de la station est identique à la teneur en polluant en amont.

Page 29: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.11

La bissectrice représente donc l'ensemble des points pour lesquels il n'y a aucune différence, aucun effet, aucune amélioration.

Considérons à présent un point particulier [ B ] qui se trouve en dessous de la bissectrice. Dès lors, pour ce point, l'ordonnée est inférieure à l'abscisse et donc

yA < xA

Dans le cas des exemples que nous avons pris plus haut, cela signifierait que

- dans le pays représenté par ce point, l'âge de décès de femmes est inférieur à celui des hommes,

- pour le volontaire représenté par ce point, le poids après régime est inférieur au poids avant régime,

- pour le jour représenté par ce point, la teneur en polluant en aval de la station est inférieure à la teneur en polluant en amont.

La zone située sous la bissectrice représente donc l'ensemble des points pour lesquels il y a diminution ou réduction (ce qui peut être positif ou négatif selon le contexte du problème).

Si nous prenons maintenant un point particulier [ C ] qui se trouve au-dessus de la bissectrice, son ordonnée est supérieure à son abscisse :

yA > xA

Dans le cas des exemples que nous avons pris plus haut, cela signifierait que

- dans le pays représenté par ce point, l'âge de décès de femmes est supérieur à celui des hommes,

- pour le volontaire représenté par ce point, le poids après régime est supérieur au poids avant régime,

- pour le jour représenté par ce point, la teneur en polluant en aval de la station est supérieur à la teneur en polluant en amont.

La zone située au-dessus de la bissectrice représente donc l'ensemble des points pour lesquels on observe une augmentation (ce qui peut aussi être positif ou négatif selon le contexte du problème).

5.3.4. Illustration

A titre d'exemple, la fig. 5.14 représente le nombre de tués sur les routes dans les divers pays de l'Union Européenne pour les années 2004 et 2008 (source: Eurostat).

Ici, les individus sont les pays de l'UE. Les observations se réfèrent chaque fois à un même pays.

Les caractères observés sont le nombre de tués sur les routes pour 1000 habitants en 2004 et le nombre de tués sur les routes pour 1000 habitants en 2008. Il s'agit bien de données de même nature de type "avant/après".

Pour chacun des pays de la liste, nous disposons donc d'un couple de valeurs ; chaque point synthétise les données d'un pays particulier.

Page 30: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.12

fig. 5.14 Corrélogramme du nombre de tués sur les routes

Nous observons que la plupart des points sont situés sous la bissectrice, donc dans la zone qui correspond à une diminution. Nous en concluons que pour la plupart des pays de l'UE, le nombre de tués a diminué ce qui, dans ce cas précis, constitue une amélioration de la situation.

Inversement, dans quelques pays, dont la Roumanie, la situation s'est dégradée.

Lorsque nous nous déplaçons selon la bissectrice en partant du coin inférieur gauche et en nous dirigeant vers le coin supérieur droit, nous passons progressivement d'une situation favorable (peu de tués) à une situation de plus en plus défavorable (beaucoup de tués). Nous en concluons que la Suède est dans une situation favorable tandis que la Belgique occupe le milieu du peloton.

5.4. Conclusion

On dit souvent qu'un petit dessin vaut mieux qu'un long discours. Dans ce chapitre nous avons fait l'inverse : exploiter un petit dessin pour en tirer un maximum d'informations et en faire un texte argumenté.

Nous avons attiré l'attention à plusieurs reprises sur le danger des explications hâtives et des jugements moraux.

Il ne faut pas inverser la cause et la conséquence !

Au vu des graphiques il est présomptueux de dire que tel pays a une approche socialiste; que dans tel autre, elle est capitaliste ou communiste…

En effet, les mesures économiques prises dans les exemples entraînent un certain type de graphique, c'est un fait :

Mesures Graphique

Page 31: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 5 - Comparer des séries de données similaires

H. Schyns 5.13

Toutefois, nous ignorons tout de ces mesures. Nous n'en voyons que les résultats. Or un même graphique peut s'expliquer par plusieurs scénarios possibles ainsi qu'illustré par les notes de bas de page. Autrement dit :

Graphique Mesures

Par contre, l'absence d'un graphique typique peut permettre d'exclure une cause :

NOT Graphique NOT Mesures

Page 32: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 6 - Applications

H. Schyns 6.1

6. Applications

6.1. Exemple 1

6.1.1. Enoncé

Dans un aéroport, on a pesé les valises d'un échantillon de 25 passagers pris au hasard. Analysez cette série statistique (kg).

18.6 22.9 19.2 12.6 18.3 15.8 16.7 14.6 21.7 15.7 18.0 22.9 16.8 19.7 17.2 17.5 18.1 18.5 19.1 17.2 21.9 14.8 19.1 14.6 22.6

tableau 6.1 Poids des valises (kg)

On demande : - s'il s'agit de données qualitatives, quantitatives, discontinues, continues ? - de faire le tableau des fréquences absolues et relatives et, si cela se justifie, le

tableau de fréquences cumulées et fréquences relatives cumulées. - de l'histogramme simple des fréquences et, si cela se justifie, l'histogramme

cumulé des fréquences relatives

6.1.2. Résolution

Il s'agit de données quantitatives (numériques) continues (présence de décimales, limitées uniquement par la précision de la pesée).

Il y a 25 observations, on prendra :

525classesNb =≈ classes environ

Pour la plage :

Plage = Val max - Val min

Le minimum vaut 12.6 kg et le maximum 22.9 kg :

Plage = 22.9 kg - 12.6 kg = 10.3 kg

La largeur de classe :

206.25

3.10classeL ≈=≈ kg

On fait commencer la première classe à 12 kg pour qu'elle contienne le minimum. En fait, nous aurons 6 classes au lieu de 5 :

Page 33: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 6 - Applications

H. Schyns 6.2

Poids des valises (kg)

Valeurs de la variable Centre Fréquence

absolue Fréquence

relative Fréquence

absolue cumulée

Fréquence relative

cumulée xi ci ni fi Ni Fi [12.0 - 14.0 [ 13.0 1 4 % 1 4 % [14.0 - 16.0 [ 15.0 5 20 % 6 24 % [16.0 - 18.0 [ 17.0 5 20 % 11 44 % [18.0 - 20.0 [ 19.0 9 36 % 20 80 % [20.0 - 22.0 [ 21.0 2 8 % 22 88 % [22.0 - 24.0 [ 23.0 3 12 % 25 100 % Nbre observ. 25 100 % 25 100 %

tableau 6.2 Tableau des fréquences

fig. 6.1 Histogramme des poids des valises (kg)

fig. 6.2 Fréquence relative des poids des valises (kg)

Page 34: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 6 - Applications

H. Schyns 6.3

6.2. Exemple 2

6.2.1. Enoncé

Une entreprise industrielle surveille de près la qualité de ses effluents. Pendant 20, au début de chaque pause, on a prélevé un échantillon que l'on a analysé pour connaître sa teneur dans un agent polluant X.

Teneur en polluant X (g/kg d'effluents) Jour Pause Jour Pause

06-14 14-22 22-06 06-14 14-22 22-06 1 26.6 20.4 28.6 11 20.7 25.4 26.3 2 21.9 19.1 28.4 12 16.1 21.4 32.2 3 22.8 25.7 34.3 13 20.6 20.1 33.5 4 22.6 21.1 28.9 14 26.1 25.9 40.2 5 28.0 25.4 34.3 15 27.3 22.1 28.8 6 23.0 18.7 26.0 16 33.4 19.7 31.4 7 28.0 21.9 24.6 17 22.9 26.7 22.6 8 20.3 21.2 27.4 18 25.3 20.7 27.3 9 19.1 21.9 26.4 19 17.2 12.9 26.1

10 21.6 20.9 21.3 20 21.6 21.3 36.3

On demande d'analyser ces données dans un tableur Excel ou OpenOffice en distinguant les trois pauses.

Page 35: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 6 - Applications

H. Schyns 6.4

6.2.2. Résolution

fig. 6.3 Analyse dans un tableur

Après avoir encodé les 20 lignes de données comme indiqué à la fig. 6.3, dans une feuille nommée Pollut1, on utilise les fonctions du tableur pour analyser la première colonne :

Cellule Calcul Fonctions B26 Nombre de valeurs = NBVAL( ) B27 Racine carrée = RACINE( ) B29 Minimum = MIN( ) B30 Maximum = MAX( )

Quand les formules ont été écrites pour la première colonne, il est aisé de les recopier dans les colonnes voisines.

La consigne est d'analyser les données pause par pause. Cependant, afin de pouvoir comparer les pauses entre elles, il est intéressant d'utiliser les mêmes classes dans les trois cas. On a donc ajouté une colonne qui montre comment choisir les bornes valables pour tous :

Page 36: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 6 - Applications

H. Schyns 6.5

- le nombre de valeurs total est la somme du nombre de valeurs de chaque colonne;

- le nombre de classes reste la racine carrée du nombre de valeurs; - le minimum du tableau est le minimum des minima; - le maximum du tableau est le maximum des maxima; - etc.

Il est intéressant de constater que la largeur de classe est pratiquement inchangée quand on considère les données ensemble ou colonne par colonne.

Pour établir le tableau des fréquences, on utilise une deuxième feuille dans le même classeur. On la nomme Pollut2 :

fig. 6.4 Etablissement des classes

Dans les cellules B1 et B2, on recopie manuellement les valeurs de la plus petite borne du tableau ainsi que la largeur de classe. Ceci nous permettra d'adapter éventuellement ces valeurs sans devoir réencoder toutes les bornes.

- A6 fait simplement référence à la cellule B1; - de A7 à A14, chaque cellule reprend la valeur de la cellule qui lui est juste

supérieure et y ajoute la largeur de classe; - dans la colonne B, on utilise l'opérateur de concaténation & pour générer

automatiquement les étiquettes des classes (1). Notez qu'il n'y a pas d'étiquette dans la cellule B6.

La difficulté de ce tableau est l'utilisation de la fonction fréquence, qui est une fonction matricielle.

Comparer des séries de données similaires 1 L'opérateur de concaténation & permet de coller deux mots pour faire un mot plus long ou une phrase. Par

exemple : "Bidon" & "ville" donne "Bidonville". Ici, on colle des crochets "[" et des virgules "," aux bornes des classes lues dans les cellules adjacentes pour faire une étiquette. Ca peut sembler barbare, mais avec un peu d'habitude, on ne peut plus s'en passer.

Page 37: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 6 - Applications

H. Schyns 6.6

Comme il s'agit d'une fonction matricielle, il faut sélectionner toute la zone où elle s'appliquera avant d'introduire la formule; ici, la zone C6:C14.

Ensuite, la fonction fréquence prend deux arguments :

- la zone de données pour laquelle on veut faire le tableau, ici B4:B23 qui se trouve dans la feuille Pollut1. Ceci ne pose pas de problème particulier puisqu'on peut utiliser la souris ou le curseur pour entourer la zone à prendre en considération.

- la zone qui contient les limites de classe, ici A6:A14 qui se trouve dans la feuille Pollut2. Il est impératif que les limites englobent le minimum et le maximum des données.

Enfin, pour valider une formule matricielle, il faut appuyer simultanément sur les touches [Ctrl][Maj][Enter]. Si ce n'est pas fait, la formule ne s'inscrira que dans une seule cellule et le résultat sera incorrect.

On vérifie que les fréquences sont bien calculées en en faisant la somme dans la ligne 15 : chaque donnée doit avoir trouvé sa classe et le total doit correspondre au nombre total d'observations.

Pour faire le graphique complet on sélectionne la zone des étiquettes et les colonnes de fréquences. On remarque que les valeurs de la ligne 6 sont nulles, ce qui doit être le cas si la première classe englobe bien le minimum. Inutile de les sélectionner :

fig. 6.5 Construction du graphique

Il suffit ensuite de sélectionner l'outil graphique et de se laisser guider pour établir un histogramme à 3 colonnes :

Page 38: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 6 - Applications

H. Schyns 6.7

fig. 6.6 Histogramme des teneurs en polluant

Le diagramme montre que les histogrammes des pauses 6-14h et 14-22h se superposent assez bien. Le niveau de polluant mesuré pendant la pause 22-6h semble nettement plus élevé.

Faire un tableau des fréquences cumulées relatives n'est pas très difficile. La première cellule de la colonne reprend la valeur correspondante de la colonne des fréquences, divisée par le total; les valeurs suivantes s'additionnent de proche en proche. Notez la présence du caractère $ pour bloquer la ligne de la cellule de référence C$15 :

fig. 6.7 Etablissement des cumuls

Pour tracer le diagramme des fréquences relatives cumulées, on sélectionne d'abord la colonne A. Puis, tout en maintenant la touche [Ctrl] enfoncée, on sélectionne les colonnes F, G, H.

Cette fois, dans l'assistant graphique, nous choisissons un diagramme de type nuage de points (XY). C'est le seul type qui permette de tracer un polygone dans lequel les graduations sont correctement placées :

Page 39: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 6 - Applications

H. Schyns 6.8

fig. 6.8 Histogramme des fréquences relatives cumulées

Le diagramme cumulé confirme le comportement "hors norme" de la pause 22-06h : durant la pause 06-14h, 65% des échantillons ont une teneur en polluant inférieure à 24 g/kg. Cette proportion monte à 75% pour les échantillons de la pause 14-22h. Par contre, pendant la nuit, la proportion chute à 10% des échantillons. Autrement dit, 90% des échantillons nocturnes ont plus de 24 g/kg de polluant.

Les tableaux qui ont été construits sont dynamiques : si on modifie la valeur de la première borne et la largeur de classe, tous les graphiques se retracent automatiquement. De même, si on remplace la série de données originale par une autre, toutes les valeurs et tous les graphiques se construisent automatiquement. Il suffira éventuellement d'insérer de nouvelles lignes ou colonnes dans les tableaux déjà créés.

Page 40: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 7 - Exercices du chapitre

H. Schyns 7.1

7. Exercices du chapitre

♦ Exercice 1

Parmi les variables suivantes, retrouvez celles qui sont des variables qualitatives, quantitatives discontinues ou quantitatives continues.

- A un carrefour, un expert en mobilité compte le nombre de voitures qui s'accumulent dans une file d'attente avant que le feu passe au vert. Il collecte ces chiffres pendant une heure.

- A la fin de la journée, le gérant analyse le montant des tickets de caisse des clients ainsi que le nombre d'articles par ticket de caisse.

- Un investisseur analyse l'évolution du prix (cours) au fil des jours d'une action cotée en bourse.

- Un climatologue récolte les températures maximales et minimales ainsi que l'orientation et la vitesse du vent auprès des stations de météo réparties sur le territoire.

- Un médecin enquête sur les maladies survenues dans un ensemble de familles ainsi que l'âge auquel la maladie chaque maladie a été contractée par un des membres.

♦ Exercice 2

Dans une entreprise de fabrication de gadgets électroniques, le contrôle de qualité s'effectue de la manière suivante : avant de fermer chaque caisse de produit fini (contenant une centaine de pièces) on y prélève 12 gadgets pris au hasard. Ces 12 gadgets du lot sont testés et on note le nombre de gadgets défectueux parmi ce lot de 12.

Voici les résultats fournis par l'examen de 120 lots. Analysez cette série.

A titre subsidiaire, pouvez-vous estimer le taux de pièces défectueuses issues de la chaîne de montage ?

Nombre de défectueux par lot de 12 0 0 1 2 0 1 1 0 0 1 0 1 0 0 2 0 1 0 0 1 2 4 1 0 1 1 1 0 1 0 1 3 1 0 0 1 0 1 1 0 0 1 1 1 1 0 0 0 1 0 0 1 1 1 1 1 1 0 5 1 0 0 0 0 0 1 0 2 0 0 1 1 0 1 0 2 1 2 1 1 0 2 0 0 0 2 1 2 1 0 0 2 0 0 2 1 0 2 1 0 0 0 1 1 2 3 0 2 2 2 1 0 0 2 0 0 1 0 1 2

Page 41: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 7 - Exercices du chapitre

H. Schyns 7.2

♦ Exercice 3

En vue d'une étude médicale, on a pesé 50 volontaires adultes. Analysez cette série.

Poids des volontaires (kg) 82.4 82.6 82.4 83.6 74.4 70.0 71.2 73.2 75.0 65.6 66.0 67.0 65.8 66.2 60.6 94.2 95.0 66.2 66.4 82.4 74.0 75.2 82.4 85.4 79.4 84.4 83.8 72.6 73.6 75.2 73.4 75.0 75.2 77.2 67.4 71.8 72.4 70.4 71.2 61.4 64.8 65.4 78.0 78.6 82.4 72.0 72.4 90.6 90.6 79.6

♦ Exercice 4

Eurostat fournit de nombreuses statistiques relatives aux pays de l'union européenne. Nous avons repris à la page suivante

- les chiffres de la population de chaque pays (en millions d'habitants) - la valeur des exportations intracommunautaires (en millions d'Euros) - la valeur des importations intracommunautaires (en millions d'Euros)

pour les années 2006 et 2008.

On demande d’analyser les importations et exportations par habitant (montant / population; unités : Eur/Habitant)

1- construire l’histogramme des valeurs absolues des exportations par habitant pour les années 2006 et 2008 (sur le même graphique). Commentez.

2- construire le graphique des fréquences relatives cumulées des importations par habitant pour les années 2006 et 2008 (sur le même graphique). Commentez.

3- Comparer les importations par habitant de 2008 avec celles de 2006 grâce à une analyse des différences. Commentez.

4- D’après vos analyses comment se situe la Belgique (peloton de tête, de queue, amélioration, détérioration etc)

Page 42: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 7 - Exercices du chapitre

H. Schyns 7.3

Commerce Intracommunautaires en MEUR Population (Mhabitants) Imports et Exports (MEur)

Année 2006 2008

Pays Popul. Export Import Popul Export Import

Belgique 10.511 224060 201360 10.667 249360 224380

Bulgarie 7.719 7130 9430 7.640 9190 14330

Rép. tchèque 10.251 64790 59740 10.381 84440 73970

Danemark 5.427 52400 49190 5.476 55600 54570

Allemagne 82.438 561350 460130 82.218 632960 526720

Estonie 1.345 5060 7970 1.341 5890 8670

Irlande 4.209 54820 39880 4.401 53690 39640

Grèce 11.125 10560 29010 11.214 10960 32980

Espagne 43.758 121130 161720 45.283 124370 155160

France 62.999 258690 298640 63.753 259520 324070

Italie 58.752 203070 202860 59.619 213920 203980

Chypre 0.766 750 3790 0.789 750 4870

Lettonie 2.295 3550 7030 2.271 4690 8210

Lituanie 3.403 7170 9680 3.366 9680 12050

Luxembourg 0.469 16330 14920 0.484 15350 16040

Hongrie 10.077 47470 43770 10.045 57100 49830

Malte 0.405 1070 2150 0.410 860 2280

Pays-Bas 16.334 292280 165250 16.405 338660 191030

Autriche 8.266 78420 87050 8.332 88800 97290

Pologne 38.157 69670 73830 38.116 88510 98960

Portugal 10.570 26720 40160 10.618 28010 44990

Roumanie 21.610 18170 25810 21.529 23670 38930

Slovénie 2.003 12650 14950 2.026 15780 17900

Slovaquie 5.389 28970 26880 5.401 41150 36280

Finlande 5.256 35220 35340 5.300 36600 38050

Suède 9.048 70810 70770 9.183 74880 78160

Royaume-Uni 60.393 224870 276390 61.186 177290 228610

Page 43: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 7 - Exercices du chapitre

H. Schyns 7.4

♦ Exercice 5

Pour mener une étude portant sur l'efficacité d'un régime amaigrissant (sous suivi médical), 25 volontaires parfaitement identifiés ont été pesés avant d'entreprendre le régime. Ils ont été pesés à nouveau après l'avoir suivi.

La fig. 7.1 représente le corrélogramme obtenu.

fig. 7.1Corrélogramme d'efficacité d'un régime

Quelles conclusions pouvez-vous en tirer ?

♦ Exercice 6

En appliquant les principes de l'estimation raisonnable (cf. annexe) donnez un ordre de grandeur

- du nombre de personnes dont l'âge est compris entre 18 et 24 ans accomplis sur l'ensemble de la population mondiale.

- du nombre de naissances ayant lieu chaque jour dans le monde.

Page 44: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 8 - Annexe : Ordres de grandeur et estimations

H. Schyns 8.1

8. Annexe : Ordres de grandeur et estimations

8.1. Position du problème

Les données dont on a besoin pour une analyse ne sont pas toujours disponibles. Faut-il dès lors renoncer à toute réflexion ?

Non car il est généralement possible de remplacer les données manquantes par un ordre de grandeur (ang.: order of magnitude) (1) ou une estimation raisonnable (ang.: educated guess). Il est clair que le nombre obtenu ne sera pas le "bon" mais il ne devrait pas être très éloigné de la réalité.

Pour illustrer notre propos essayons de répondre aux questions suivantes :

- combien y a-t-il de naissances chaque année en Belgique ? - combien y a-t-il de décès chaque année ? - combien y a-t-il d'adultes dans la tranche d'âge comprise entre 25 et 49 ans ? - quelles sont les chances de survie d'ici un an pour une personne de 25 ans prise

au hasard dans la population ?

Arrêtez ici un moment. Posez-vous ces questions; posez-les autour de vous et vous serez surpris par la diversité des réponses.

8.2. Estimation des naissances

Nous pouvons obtenir une estimation raisonnable (ang. : educated guess) à partir de quelques données et quelques hypothèses simplificatrices.

Partons d'un chiffre que tout le monde connaît : la taille de la population belge, soit environ 10.000.000 d'habitants. En fait, c'est un peu plus, mais le nombre exact est sans importance car nous voulons simplement une estimation raisonnable; dès lors un ordre de grandeur suffit et ce chiffre simplifiera les calculs.

fig. 8.1 Pyramide des âges simplifiée pour la Belgique

Comparer des séries de données similaires 1 On dit que deux nombres sont du même ordre de grandeur si le rapport entre le plus grand et le plus petit

est inférieur à 10. Par exemple 152 et 556 sont deux nombres du même ordre de grandeur; par contre, 152 et 3748 ne le sont pas.

Page 45: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 8 - Annexe : Ordres de grandeur et estimations

H. Schyns 8.2

Ces 10.000.000 d'habitants se répartissent selon une pyramide des âges. Ici aussi, nous ignorons la forme exacte de la pyramide, donc nous allons simplifier le problème par une estimation raisonnable : une pyramide triangulaire (fig. 8.1)(1).

Cette pyramide contient les 10.000.000 d'individus dont l'âge s'étale de 0 à environ 100 ans. Nous savons bien qu'il y a quelques centenaires mais, à nouveau, simplifions le calcul.

Nous avons donc un triangle dont nous connaissons l'aire [ A ] (individus) et la hauteur [ h ] (années); nous pouvons en estimer la base [ b ]

hS2 b 2

hb S ⋅=⇒⋅=

200.000 100000.000.10 2 b =⋅=

D'après l'équation, nous voyons que la base s'exprime en (individus / an) et qu'elle correspond à des individus de 0 an. Elle représente donc le nombre de naissances par an !

Il y a donc environ 200.000 naissances par an en Belgique.

A l'inverse, nous pouvons imaginer une pyramide extrême, rectangulaire. Elle signifie que personne ne meurt avant d'atteindre 100 ans mais que personne ne vit au-dela de son centième anniversaire (fig. 8.2).

fig. 8.2 Pyramide "immortelle"

Dans cette situation utopique, la base contient 100.000 individus, ce qui correspond à 100.000 naissances par an.

Ceci nous permet d'affiner notre chiffre précédent en donnant une fourchette plutôt qu'une seule valeur.

Il y a entre 100.000 et 200.000 naissances par an en Belgique.

En réalité, selon les statistiques Eurostat, la Belgique comptait 121.006 enfants de moins d'un an en vie au premier janvier 2008.

Notre premier chiffre était sur-estimé et certains pourraient se moquer de notre grossière approximation. Ils auraient tort.

Comparer des séries de données similaires 1 Cette approximation en triangle n'est valable que pour les pays en voie de développement dont le taux de

natalité est important : la Chine, l'Inde, l'Egypte, etc

Page 46: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 8 - Annexe : Ordres de grandeur et estimations

H. Schyns 8.3

Notre fourchette n'est pas mauvaise du tout : elle est du bon ordre de grandeur et, de plus elle constitue une estimation valable :

Une estimation est valable si, après vérification, on constate que le chiffre réel se trouve quelque part entre la moitié et le double du chiffre avancé.

8.3. Estimation du nombre de décès

La Belgique étant un pays dont la population est stabilisée, le nombre de décès dans l'ensemble de la population doit correspondre au nombre de naissances.

Selon nos hypothèses

Il y a donc entre 100.000 et 200.000 décès par an en Belgique.

Si nous repartons du chiffre des naissances fourni par Eurostat, nous obtenons une meilleure estimation

Il y a donc environ 120.000 décès par an en Belgique.

En réalité, la population est en légère croissance avec une mortalité d'environ 100.657 personnes en 2007 (1).

Cette fois encore, nos estimations sont du bon ordre de grandeur.

8.4. Estimation du nombre d'adultes

Revenons à notre pyramide (fig. 8.3) dont nous connaissons à présent la base. Nous pouvons estimer le nombre de personnes de plus de 25 ans et de moins de 50… à condition de nous souvenir quelques propriétés des triangles (Thalès et Cie).

fig. 8.3 Population entre 25 et 49 ans accomplis

Souvenons-nous que, si, à mi-hauteur du triangle (50 ans), on trace une parallèle à la base, alors la longueur de cette horizontale (limitée aux côtés du triangle) est égale à la moitié de la longueur de la base.

Autrement dit, à 50 ans, la base n'est plus que la moitié de ce qu'elle était à 0 ans. Par conséquent, le triangle supérieur ne contient plus que le quart de la population totale (50% de la base × 50% de la hauteur).

Comparer des séries de données similaires 1 Dernier chiffre Eurostat disponible

Page 47: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 8 - Annexe : Ordres de grandeur et estimations

H. Schyns 8.4

La Belgique compte environ 2.500.000 personnes de 50 ans et plus.

Nous pouvons reprendre le même raisonnement pour l'horizontale située à 25 ans. Elle se trouve aux trois quarts (75%) de la hauteur en partant du sommet, donc la base est aussi égale aux trois quarts (75%) de la base du triangle.

Par conséquent, le triangle situé au-dessus de l'horizontale contient 56.25% de la population totale (75% de la base × 75% de la hauteur).

La Belgique compte environ 5.625.000 personnes de 25 ans et plus.

par différence :

La Belgique compte environ 2.125.000 personnes entre 25 ans et 49 ans soit 21.25% de la population totale

En réalité, selon les statistiques Eurostat, en Belgique, cette tranche d'âge regroupe 35.1% de la population.

Cette fois, notre chiffre est sous-estimé. Nous sommes encore à côté de la réalité mais pourtant notre estimation reste encore une estimation valable.

8.5. Estimation des chances de survie

Pour estimer les chances de survie à un an pour une personne de 25 ans, nous repartons encore de notre pyramide. Notons qu'elle est construite sur une base de 200.000 personnes de 0 an et qu'elle va en s'amenuisant linéairement jusqu'à 0 personnes à 100 ans.

Chaque tranche contient donc 2.000 personnes de moins que la tranche immédiatement inférieure.

Il reste donc environ 150.000 personnes de 25 ans en vie. Parmi celles-ci 2.000 n'atteindront pas 26 ans. Le risque de décès dans l'année s'établit à :

%3.1 0133.0 000.1502000 P(déces) ===

Cette fois, nous avons largement surestimé le risque car, selon les tables d'Eurostat, le risque de décès dans l'année à 25 ans n'est que de 0.08% environ, soit moins d'une chance sur mille. Nous nous sommes trompés d'un ordre de grandeur. Ouf !

8.6. Pyramide des âges réelle

Après toutes ces estimations, il n'est pas inutile de remettre les pendules à l'heure en montrant la pyramide des âges réelle au 1 janvier 2008 (fig. 8.4).

On peut la modéliser par un rectangle de 0 à 50 ans surmonté par un triangle de 50 à 100 ans (fig. 8.5).

Dans ce modèle, la base donnerait 133.333 naissances par an ce qui est une excellente approximation (10% près). De même, on compterait 33,3% de la population entre 25 et 49 ans inclus ce qui est également excellent.

Page 48: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 8 - Annexe : Ordres de grandeur et estimations

H. Schyns 8.5

fig. 8.4 Pyramide des âge en Belgique au 01.01.2008

fig. 8.5 Modèle simplifié de la pyramide des âges

Page 49: STATISTIQUE - Statistique descriptiveStatistique descriptive 1 - Définitions H. Schyns 1.1 1. Définitions 1.1. La statistique La statistique est l'ensemble des méthodes qui permettent

Statistique descriptive 9 - Sources

H. Schyns 9.1

9. Sources

- Théorie et méthodes statistiques (Vol 1, vol 2 et exercices) Pierre Dagnelie Presses Agronomiques de Gembloux On ne peut que conseiller la lecture de cet excellent ouvrage de référence.