statistique descriptive -...

105
Statistique descriptive Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins [email protected]

Upload: others

Post on 18-Apr-2020

25 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive

Michaël Genin

Université de Lille 2EA 2694 - Santé Publique : Epidémiologie et Qualité des soins

[email protected]

Page 2: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Plan

1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes

2 Recueil des données

3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques

4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 1 / 92

Page 3: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Plan

1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes

2 Recueil des données

3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques

4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 1 / 92

Page 4: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Plan

1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes

2 Recueil des données

3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques

4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 1 / 92

Page 5: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Plan

1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes

2 Recueil des données

3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques

4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 1 / 92

Page 6: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Plan

1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes

2 Recueil des données

3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques

4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 1 / 92

Page 7: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction

Point étudié

1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariée

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 2 / 92

Page 8: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Définitions

Point étudié

1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariée

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 3 / 92

Page 9: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Définitions

Définition générale de la statistiqueScience qui a pour objectif le recueil, l’analyse et l’interprétation des donnéesobservéesDistinction importante entre LA statistique et LES statistiqueS

La statistique fait référence à la scienceLes statistiques font référence aux résultats chiffrés (ex : les statistiques du chômage)

Démarche générale : 2 étapes consécutivesLe recueil des donnéesL’analyse et l’interprétation des données

Statistique descriptive : résumer et présenter les données observées de la manière laplus pertinente possible

Indicateurs statistiquesReprésentations graphiques

Statistique inférentielle : extrapoler les résultats liés à un échantillon à un populationsous-jacente

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 4 / 92

Page 10: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Vocabulaire

Point étudié

1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariée

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 5 / 92

Page 11: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Vocabulaire

Vocabulaire

Lorsqu’une étude est réalisée sur l’ensemble d’une population, on parle derecensement (ex : recensement INSEE)Lorsqu’une étude est réalisée sur une sous-population plus petite, on parled’échantillon (ex : échantillon de 1000 français)Cet échantillon est extrait de la population par le biais d’une méthoded’échantillonnage.

Echantillonnage aléatoire simple : tirer au hasard et manière indépendante n individusd’une population de N individus.

Un échantillon est constitué d’individus statistiques (ou observations statistiques)Sur ces individus sont mesurés des caractères (âge, poids, couleurs des yeux. . . )appelés également variablesDeux types de variables : les variables quantitatives et les variables qualitativesconstituées de plusieurs modalités

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 6 / 92

Page 12: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Type de variables

Point étudié

1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariée

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 7 / 92

Page 13: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Type de variables

Type de variables

Variables Quantitatives (quantifiables)Variables quantitatives continues (âge, poids, taille,. . . )Variables quantitatives discrètes (ne peuvent prendre qu’un nombre limité devaleurs. ex : nombre de personnes dans un foyer)

Variables Qualitatives (non quantifiables)Variables qualitatives binaires (sexe : Masculin / Féminin)Variables qualitatives nominales (Couleurs des yeux : marrons, bleus, verts, gris)Variables qualitatives ordinales (Appréciation : Mauvais, Passable, Bien, Très bien,Excellent)

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 8 / 92

Page 14: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Type de variables

Type de variables

RemarqueEn réalité, le nombre de mesures possibles pour une variable dépend de la précision de lamesure.

On peut considérer comme continue une variable qui peut prendre un grand nombre devaleurs.

Exemple :nombre de globules blancs ou rouges par mL de sang.

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 9 / 92

Page 15: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Point étudié

1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariée

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 10 / 92

Page 16: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Liens avec les concepts probabilistes

Probabilités StatistiqueEspace fondamental PopulationEpreuve Tirage (d’un individu), expérimentationEvènement élémentaire Individu, observationVariable aléatoire Variable, caractèreEpreuves répétées EchantillonnageNombre de répétitions d’une épreuve Taille de l’échantillon, effectif totalProbabilité Fréquence observéeLoi de probabilité Distribution observée ou loi empiriqueEspérance mathématique Moyenne observéeVariance mathématique Variance observée

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 11 / 92

Page 17: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Espace fondamental ≡ Population

Ω = 1, . . . , N Population (ex : 65 millions de francais)

Probabilites Statistique

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 12 / 92

Page 18: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Epreuve aléatoire ≡ Tirage d’un individu

Ω = 1, . . . , N Population (ex : 65 millions de francais)

Epreuve aleatoire Tirage d’individu

Evt elementaireω = 3

Ex : individunumero 3

Probabilites Statistique

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 13 / 92

Page 19: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Variable aléatoire ≡ Variable, caractère

Ω = 1, . . . , N Population (ex : 65 millions de francais)

Epreuve aleatoire Tirage d’individu

Evt elementaireω = 3

Ex : individunumero 3

Variable aleatoireX : Ω→ Eω → X(ω)

Variable, caractereTaille : Population → R+

individu → Taille (cm)

Probabilites Statistique

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 14 / 92

Page 20: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Epreuves répétées ≡ Echantillonnage

Ω = 1, . . . , N Population (ex : 65 millions de francais)

Epreuve aleatoire Tirage d’individu

Evt elementaireω = 3

Ex : individunumero 3

Variable aleatoireX : Ω→ Eω → X(ω)

Variable, caractereTaille : Population → R+

individu → Taille (cm)

. . .

︸ ︷︷ ︸Epreuves repetees

. . .

︸ ︷︷ ︸Echantillonnage

Probabilites Statistique

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 15 / 92

Page 21: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Nombre d’épreuves ≡ Taille de l’échantillon

Ω = 1, . . . , N Population (ex : 65 millions de francais)

Epreuve aleatoire Tirage d’individu

Evt elementaireω = 3

Ex : individunumero 3

Variable aleatoireX : Ω→ Eω → X(ω)

Variable, caractereTaille : Population → R+

individu → Taille (cm)

. . .

︸ ︷︷ ︸Epreuves repetees

. . .

︸ ︷︷ ︸Echantillonnage

Probabilites Statistique

Nombre d’epreuves : n Taille de l’echantillon : n

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 16 / 92

Page 22: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Probabilités ≡ Fréquence observée

Ω = 1, . . . , N Population (ex : 65 millions de francais)

Epreuve aleatoire Tirage d’individu

Evt elementaireω = 3

Ex : individunumero 3

Variable aleatoireX : Ω→ Eω → X(ω)

Variable, caractereTaille : Population → R+

individu → Taille (cm)

. . .

︸ ︷︷ ︸Epreuves repetees

. . .

︸ ︷︷ ︸Echantillonnage

Probabilite :P (X ∈ [a, b])

Frequence observee d’individusdont la taille est compriseentre a et b cm

Loi des grands nombres

Probabilites Statistique

Nombre d’epreuves : n Taille de l’echantillon : n

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 17 / 92

Page 23: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Loi de probabilité ≡ Distribution observée, loi empirique

Ω = 1, . . . , N Population (ex : 65 millions de francais)

Epreuve aleatoire Tirage d’individu

Evt elementaireω = 3

Ex : individunumero 3

Variable aleatoireX : Ω→ Eω → X(ω)

Variable, caractereTaille : Population → R+

individu → Taille (cm)

. . .

︸ ︷︷ ︸Epreuves repetees

. . .

︸ ︷︷ ︸Echantillonnage

Probabilite :P (X ∈ [a, b])

Frequence observee d’individusdont la taille est compriseentre a et b cm

Loi des grands nombres

Loi de probabilite de XDistribution observee de la taille

Probabilites Statistique

Nombre d’epreuves : n Taille de l’echantillon : n

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 18 / 92

Page 24: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Espérance mathématique ≡ Moyenne observée

Ω = 1, . . . , N Population (ex : 65 millions de francais)

Epreuve aleatoire Tirage d’individu

Evt elementaireω = 3

Ex : individunumero 3

Variable aleatoireX : Ω→ Eω → X(ω)

Variable, caractereTaille : Population → R+

individu → Taille (cm)

. . .

︸ ︷︷ ︸Epreuves repetees

. . .

︸ ︷︷ ︸Echantillonnage

Probabilite :P (X ∈ [a, b])

Frequence observee d’individusdont la taille est compriseentre a et b cm

Loi des grands nombres

Loi de probabilite de XDistribution observee de la taille

Esperance mathematique :

E[X] =∫ +∞−∞ xf(x).dx

Moyenne observeex = 1

n

∑n

i=1xi

Probabilites Statistique

Nombre d’epreuves : n Taille de l’echantillon : n

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 19 / 92

Page 25: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Introduction Liens avec les concepts probabilistes

Variance mathématique ≡ Variance observée

Ω = 1, . . . , N Population (ex : 65 millions de francais)

Epreuve aleatoire Tirage d’individu

Evt elementaireω = 3

Ex : individunumero 3

Variable aleatoireX : Ω→ Eω → X(ω)

Variable, caractereTaille : Population → R+

individu → Taille (cm)

. . .

︸ ︷︷ ︸Epreuves repetees

. . .

︸ ︷︷ ︸Echantillonnage

Probabilite :P (X ∈ [a, b])

Frequence observee d’individusdont la taille est compriseentre a et b cm

Loi des grands nombres

Loi de probabilite de XDistribution observee de la taille

Esperance mathematique :

E[X] =∫ +∞−∞ xf(x).dx

Moyenne observeex = 1

n

∑n

i=1xi

Variance mathematique :

V [X] =∫ +∞−∞ (x− E[X])2f(x).dx

Variance observees2ech = 1

n

∑n

i=1(xi − x)2

Probabilites Statistique

Nombre d’epreuves : n Taille de l’echantillon : n

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 20 / 92

Page 26: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Recueil des données

Point étudié

1 Introduction

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariée

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 21 / 92

Page 27: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Recueil des données

Recueil des observations du phénomène étudiéAu travers de différentes variables (âge du patient, BMI, niveau de satisfaction...)

Données nombreuses ou difficiles à obtenir :Mise en place de méthodes rationnelles de recueilMéthodes d’échantillonnage (construire un échantillon représentatif de la population)Plan d’expérience (comment construire l’expérimentation en vue de répondrecorrectement à l’objectif de l’étude)

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 22 / 92

Page 28: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Recueil des données

Exemple : questionnaire soumis à un échantillon de patients dans un service de radiologie

Objectif : Evaluer la satisfaction des patients et mettre en évidence les problèmes pouraméliorer les pratiques

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 23 / 92

Page 29: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Recueil des données

Variables quantitatives

Variables qualitatives

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 24 / 92

Page 30: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Recueil des données

Recueil des données dans un tableur

1 individu par ligneVariables en colonnesVariables quantitatives : attention aux unités !!Variables qualitatives : utilise des codages chiffrés plutôt que du texte

1 = Excellent2 = Bon3 = Passable4 = Mauvais

Minimisation des erreurs de codage (Mauvais = mauvais)

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 25 / 92

Page 31: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Recueil des données

Num. Patient

Nom Prénom DDN Taille (cm)

Poids (Kg)

Sexe Accueil_téléphonique

Accueil_manip

1 Dupont Pierre 10/07/56 171 76 1 2 3

2 Durand Jean 23/09/78 185 83 1 1 1

Données formatées pour la plupart des logiciels d’analyse statistique

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 26 / 92

Page 32: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Recueil des données

Question : Qu’est-ce qu’on fait de ces données ?

Analyse et interprétation des données :Statistique descriptiveStatistique inférentielle

Important : toute analyse statistique doit répondre à un ou plusieurs objectifs (obj. ppal /objs secondaires). Il est essentiel de construire un plan d’analyse statistique afin de poserles questions relatives à l’étude.

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 27 / 92

Page 33: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée

Point étudié

1 Introduction

2 Recueil des données

3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques

4 Statistique descriptive bivariée

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 28 / 92

Page 34: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée

Objectif : résumer et présenter les données observées sous la forme la plus pertinentepossible.

Grâce à :

Indicateurs statistiquesReprésentations graphiques

Le choix se fait en fonction de la nature des variables.

Un descriptif des données permet de mettre en évidence des valeurs aberrantes

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 29 / 92

Page 35: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Point étudié

1 Introduction

2 Recueil des données

3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques

4 Statistique descriptive bivariée

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 30 / 92

Page 36: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

ModeLe mode d’une distribution est la valeur la plus fréquente de celle-ci.

Exemple : Soit la série 12, 14, 12, 15, 12, 17, 18. Déterminer le mode de la série.

Valeur 12 14 15 17 18Effectif 3 1 1 1 1

Le mode de la série est donc 12.

RemarquesSi les données sont regroupées par classe, on définit la classe modale comme laclasse dont la densité d’effectif est la plus élevée et on attribue (arbitrairement) aumode la valeur centrale de cette classe.Une distribution peut être polymodale

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 31 / 92

Page 37: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

ModeLe mode d’une distribution est la valeur la plus fréquente de celle-ci.

Exemple : Soit la série 12, 14, 12, 15, 12, 17, 18. Déterminer le mode de la série.

Valeur 12 14 15 17 18Effectif 3 1 1 1 1

Le mode de la série est donc 12.

RemarquesSi les données sont regroupées par classe, on définit la classe modale comme laclasse dont la densité d’effectif est la plus élevée et on attribue (arbitrairement) aumode la valeur centrale de cette classe.Une distribution peut être polymodale

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 31 / 92

Page 38: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

ModeLe mode d’une distribution est la valeur la plus fréquente de celle-ci.

Exemple : Soit la série 12, 14, 12, 15, 12, 17, 18. Déterminer le mode de la série.

Valeur 12 14 15 17 18Effectif 3 1 1 1 1

Le mode de la série est donc 12.

RemarquesSi les données sont regroupées par classe, on définit la classe modale comme laclasse dont la densité d’effectif est la plus élevée et on attribue (arbitrairement) aumode la valeur centrale de cette classe.Une distribution peut être polymodale

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 31 / 92

Page 39: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

Moyenne arithmétique

x = 1n

n∑i=1

xi

Attention : la moyenne arithmétique est sensible aux valeurs extrêmes dans le cadre depetits échantillons (n < 30).

Moyenne pondérée

Soient w1, w2, . . . , wn un ensemble de poids ∈ R+

x =∑n

i=1 wixi∑ni=1 wi

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 32 / 92

Page 40: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

Exemple de moyenne arithmétique :

Soient 12, 13, 18, 9, 4, 13, 7, 12, 10, 19 les notes de n = 10 étudiants

x =

(12 + 13 + 18 + 9 + 4 + 13 + 7 + 12 + 10 + 19)10 = 11.7

Exemple de moyenne pondérée :

Notes 12 15 13 16Coefficients 2 3 2 4

x = 12 × 2 + 15 × 3 + 13 × 2 + 16 × 42 + 3 + 2 + 4 = 14.4545

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 33 / 92

Page 41: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

Exemple de moyenne arithmétique :

Soient 12, 13, 18, 9, 4, 13, 7, 12, 10, 19 les notes de n = 10 étudiants

x = (12 + 13 + 18 + 9 + 4 + 13 + 7 + 12 + 10 + 19)10 = 11.7

Exemple de moyenne pondérée :

Notes 12 15 13 16Coefficients 2 3 2 4

x =

12 × 2 + 15 × 3 + 13 × 2 + 16 × 42 + 3 + 2 + 4 = 14.4545

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 33 / 92

Page 42: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

Exemple de moyenne arithmétique :

Soient 12, 13, 18, 9, 4, 13, 7, 12, 10, 19 les notes de n = 10 étudiants

x = (12 + 13 + 18 + 9 + 4 + 13 + 7 + 12 + 10 + 19)10 = 11.7

Exemple de moyenne pondérée :

Notes 12 15 13 16Coefficients 2 3 2 4

x = 12 × 2 + 15 × 3 + 13 × 2 + 16 × 42 + 3 + 2 + 4 = 14.4545

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 33 / 92

Page 43: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

MédianeIndicateur insensible aux valeurs extrêmes (utilisation dans le cas de petitséchantillons n < 30)Idée maîtresse : 50% des observations ont une valeur inférieure ou égale à lamédiane et 50% des observations ont une valeur supérieure ou égale à la médianeLe calcul de la médiane est fonction de la parité du nombre d’observations

Remarque : la médiane est insensible aux valeurs extrêmes.

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 34 / 92

Page 44: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

Calcul de la médiane dans le cas impair1 On ordonne de manière croissante la série de données2 La médiane est égale à la valeur du rang n + 1

2 ou n est le nombre d’observations

Exercice :Soit la série statistique : 3, 2, 6, 5, 4. Calculer la médiane de la série.

On ordonne la série de manière croissante :

Valeur 2 3 4 5 6Rang 1 2 3 4 5

La médiane correspond à la valeur de rang 5 + 12 = 3.

Médiane = 4

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 35 / 92

Page 45: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

Calcul de la médiane dans le cas impair1 On ordonne de manière croissante la série de données2 La médiane est égale à la valeur du rang n + 1

2 ou n est le nombre d’observations

Exercice :Soit la série statistique : 3, 2, 6, 5, 4. Calculer la médiane de la série.On ordonne la série de manière croissante :

Valeur 2 3 4 5 6Rang 1 2 3 4 5

La médiane correspond à la valeur de rang 5 + 12 = 3.

Médiane = 4

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 35 / 92

Page 46: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

Calcul de la médiane dans le cas impair1 On ordonne de manière croissante la série de données2 La médiane est égale à la valeur du rang n + 1

2 ou n est le nombre d’observations

Exercice :Soit la série statistique : 3, 2, 6, 5, 4. Calculer la médiane de la série.On ordonne la série de manière croissante :

Valeur 2 3 4 5 6Rang 1 2 3 4 5

La médiane correspond à la valeur de rang 5 + 12 = 3.

Médiane = 4

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 35 / 92

Page 47: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Calcul de la médiane dans le cas pair1 On ordonne de manière croissante la série de données2 La médiane est égale à la moyenne de la valeur au rang n

2 et de la valeur au rangn + 2

2

Exercice :Soit la série statistique : 3, 2, 6, 5, 4, 7. Calculer la médiane de la série.

On ordonne la série de manière croissante :

Valeur 2 3 4 5 6 7Rang 1 2 3 4 5 6

La médiane correspond à la moyenne de la valeur de rang 62 = 3 et de la valeur de rang

82 = 4

Médiane = 4 + 52 = 4.5

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 36 / 92

Page 48: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Calcul de la médiane dans le cas pair1 On ordonne de manière croissante la série de données2 La médiane est égale à la moyenne de la valeur au rang n

2 et de la valeur au rangn + 2

2

Exercice :Soit la série statistique : 3, 2, 6, 5, 4, 7. Calculer la médiane de la série.On ordonne la série de manière croissante :

Valeur 2 3 4 5 6 7Rang 1 2 3 4 5 6

La médiane correspond à la moyenne de la valeur de rang 62 = 3 et de la valeur de rang

82 = 4

Médiane = 4 + 52 = 4.5

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 36 / 92

Page 49: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives1. Indicateurs de position

QuartilesLes quartiles sont les valeurs qui partagent la série ordonnée en 4 groupes de mêmeeffectif

1er quartile (Q1) : 25% des observations ont une valeur inférieure ou égale à Q1.Réciproquement, 75% des observations ont une valeur supérieure ou égale à Q1.3ème quartile (Q3) 75% des observations ont une valeur inférieure ou égale à Q3.Réciproquement, 25% des observations ont une valeur supérieure ou égale à Q3.

Q1 Q3 Med

25% 25% 25% 25% min max

PercentilesLes percentiles sont les valeurs qui partagent la série ordonnée en 100 groupes de mêmeeffectif.

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 37 / 92

Page 50: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs de position - Récapitulatif

ModeAvantages

Bon indicateur dans le cas de distributions asymétriquesBon indicateur de population hétérogèneInsensible aux valeurs extrêmes

Inconvénientsse prête mal aux calculs statistiquesSensible aux variations d’amplitude de classes

MoyenneAvantages

Se prête facilement aux calculs et tests statistiquesBon indicateur si distribution symétrique et dispersion faible

InconvénientsSensible aux valeurs extrêmesReprésente mal une population hétérogène (polymodale)

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 38 / 92

Page 51: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs de position - Récapitulatif

MédianeAvantages

Moins sensible aux valeurs extrêmes que la moyenneBon indicateur si distribution asymétrique

InconvénientsSe prête mal aux calculs statistiquesClassement peut être long si les valeurs sont nombreuses

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 39 / 92

Page 52: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Distribution symétrique Distribution asymétrique

mode

moyennemédiane

mode moyennemédiane

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 40 / 92

Page 53: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives2. Indicateurs de dispersion

Variance

s2ech = 1

n

n∑i=1

(xi − x)2

RemarqueLa dimension de la variance est le carré de celle de la variable⇒ difficile d’utiliser la variance comme norme de dispersion car changement d’unité.Pas de sens biologique direct contrairement à l’écart-type qui s’exprime dans la mêmeunité que la moyenne

Ecart-type

sech =√

s2ech

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 41 / 92

Page 54: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives2. Indicateurs de dispersion

Théorème de Koenig-Huygens

s2ech = 1

n

n∑i=1

x2i − x2

Exemple : Soit la série statistique : 13, 12, 16, 15, 14. Calculer la variance de la série.

x = 14, n = 5

s2ech = ((13 − 14)2 + (12 − 14)2 + (16 − 14)2 + (15 − 14)2 + (14 − 14)2)

5

s2ech = 1

5(132 + 122 + 162 + 152 + 142) − 142

s2ech = 2 et sech =

√s2

ech = 1.41

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 42 / 92

Page 55: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitatives2. Indicateurs de dispersion

Théorème de Koenig-Huygens

s2ech = 1

n

n∑i=1

x2i − x2

Exemple : Soit la série statistique : 13, 12, 16, 15, 14. Calculer la variance de la série.x = 14, n = 5

s2ech = ((13 − 14)2 + (12 − 14)2 + (16 − 14)2 + (15 − 14)2 + (14 − 14)2)

5

s2ech = 1

5(132 + 122 + 162 + 152 + 142) − 142

s2ech = 2 et sech =

√s2

ech = 1.41

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 42 / 92

Page 56: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables quantitativesTableau de distribution

Comment résumer une variable quantitative ?

Si la taille de l’échantillon est ⩾ 30 : moyenne ± écart-typeSi la taille de l’échantillon est < 30 : médiane - (Q1-Q3)

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 43 / 92

Page 57: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables qualitativesTableau de distribution

Tableau de distribution - Variables qualitatives nominales

Pour chaque modalité, on définit l’effectif ni c’est à dire le nombre d’observationsprésentant la modalité i .Les modalités doivent être mutuellement exclusives⇒ l’effectif total de l’échantillon étudié est égale à la somme des effectifs de chaquemodalité :

n =p∑

i=1

ni ,

avec p le nombre de modalités et n l’effectif total (taille de l’échantillon). Représentation

sous forme d’un tableau de distribution de fréquences.

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 44 / 92

Page 58: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables qualitativesTableau de distribution

Exemple : tableau de répartition des groupes sanguins dans un hôpital du Nord Pas deCalais

groupe effectif (ni) fréquence (fi)O 45 0,45A 40 0,40B 10 0,10

AB 5 0,05Total 100 1

On appelle fréquence de la modalité xi

fi = ni /n

Un pourcentage est une fréquence exprimée en %, cad 100fi .

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 45 / 92

Page 59: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables qualitativesTableau de distribution

Tableau de distribution - Var. qualitatives ordinales / quantitatives discrètes

Fréquences cumulées croissantes

Fi =i∑

j=1

fj

Cet indicateur a un sens pour les variables qualitatives ordinales et les quantitativesdiscrètes car on peut ordonner les modalités.On appelle x1, . . . ,xi , . . . , xp les p valeurs ordonnées de x (l’indice i correspond alors aurang).

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 46 / 92

Page 60: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables qualitativesTableau de distribution

Tableau de distribution des effectifs et fréquences cumulésvaleur du caractère effectif fréquence effectif cumulé fréquence cumulée

modalité xi ni fi Ni Fix1 n1 f1 n1 f1x2 n1 f2 n1 + n2 f1 + f2. . . . .. . . . .. . . . .xi ni fi n1 + n2+ . . . +ni f1 + f2+ . . . +fi. . . . .. . . . .. . . . .

xp np fp n 1

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 47 / 92

Page 61: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables qualitativesTableau de distribution

ExempleNombre d’enfants dans les familles

xi ni fi Ni Fi0 10 0,11 24 0,242 323 19 85 0,854 8 93 0,935 46 100

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 48 / 92

Page 62: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables qualitativesTableau de distribution

ExempleNombre d’enfants dans les familles

xi ni fi Ni Fi0 10 0,1 10 0,11 24 0,24 34 0,342 32 0,32 66 0,663 19 0,19 85 0,854 8 0,08 93 0,935 4 0,04 97 0,976 3 0,03 100 1

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 49 / 92

Page 63: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables qualitativesTableau de distribution

Tableau de distribution - Var. quantitatives regroupées en classes

Il est nécessaire de regrouper en classes les valeurs prises par la variable.

Ex : taille (en cm) [150-160[ ,[160-170[, [170-180[

L’intervalle de classe, également appelé amplitude, est la différence entre la bornesupérieure et la borne inférieure.

En règle générale, on choisit des classes de même amplitude.

Si l’amplitude n’est pas constante, il faut calculer la densité de fréquence :

di = fi

amplitudei

La densité de fréquence permet de comparer les fréquences d’une classe à l’autre.

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 50 / 92

Page 64: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables qualitativesTableau de distribution

ExempleTailles des individus en cm :

Classe Ci ni fi di Ni Fi[140 − 160[ 10[160 − 165[ 20[165 − 170[ 30[170 − 175[ 172.5 45 0,225 0,045 105 0,525[175 − 180[ 40 145 0,725[180 − 185[ 35 180 0,9[185 − 190[ 15 0,075 0,015[190 − 200[ 5 0,025 0,0025

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 51 / 92

Page 65: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Indicateurs statistiques

Indicateurs pour variables qualitativesTableau de distribution

ExempleTailles des individus en cm :

Classe Ci ni fi di Ni Fi[140 − 160[ 150 10 0,05 0,0025 10 0,05[160 − 165[ 162,5 20 0,1 0,02 30 0,15[165 − 170[ 167,5 30 0,15 0,03 60 0,3[170 − 175[ 172,5 45 0,225 0,045 105 0,525[175 − 180[ 177,5 40 0,2 0,04 145 0,725[180 − 185[ 182,5 35 0,175 0,035 180 0,9[185 − 190[ 187,5 15 0,075 0,015 195 0,975[190 − 200[ 195 5 0,025 0,0025 200 1

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 52 / 92

Page 66: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Point étudié

1 Introduction

2 Recueil des données

3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques

4 Statistique descriptive bivariée

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 53 / 92

Page 67: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables quantitatives

Histogramme en fréquence

CM2 : Analyse statistique descriptive

V. Variables quantitatives continues

c. representation graphique

Histogramme en frequence

Histogramme en e↵ectif

Diagramme des frequences cumulees

40 / 44

Principe :

Découpage de la variable quantitative en classesL’aire de chaque rectangle est proportionnelle à l’effectifde la classeSi amplitudes égales : hauteur du rectangle égale àl’effectif (ou fréquence) de la classeSi amplitudes non égales : hauteur du rectangle égale àla densité d’effectif (ou de fréquence)Représentation sous forme d’histogramme pour avoirune idée de la distribution des données

Histogramme en effectif

Diagramme des fréquences cumulées

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 54 / 92

Page 68: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables quantitatives

Boîte à moustachePermet d’évaluer la dispersion de la variable

1.5

1.6

1.7

1.8

Répartition de la taille des individusTa

ille

(m)

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 55 / 92

Page 69: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables quantitatives

Boîte à moustachePermet d’évaluer la dispersion de la variable

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 56 / 92

Page 70: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables quantitatives

Droite de Henry

Var quantitative :Indicateurs x , s2

ech

Rep. graphique : histogramme

Distribution de la taille

Taille

Frequency

140 160 180 200 220

05

1015

20

Question : Est-ce la distribution de la variable peut être modélisée par une loi normale ?Intérêt : Hypothèse importante dans de nombreuses méthodes statistiques

EstimationTests statistiquesModélisation

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 57 / 92

Page 71: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables quantitatives

Droite de Henry

Quelques rappels :

Quantile : valeur de x telle que P(X ≤ x) = αExemple : X ∼ N (0, 1). Pour α = 0.95, x = 1.645

Si X ∼ N (µ, σ)

P(X ≤ x) = P(X − µ

σ≤ x − µ

σ

)= P(Z ≤ t) = Φ(t)

Φ(t) = P(X ≤ x)

t = x − µ

σ= 1

σx − µ

σ︸ ︷︷ ︸Droite de Henry

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 58 / 92

Page 72: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables quantitatives

Droite de Henry

∀xi

P(X ≤ xi)ti/Φ(ti) = P(X ≤ xi )

Tous les couples (xi , ti ). Si X est distribuée selon une loi normale alors les points sontalignés sur la droite

xi

ti

ti =xi−µσ

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 59 / 92

Page 73: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables quantitatives

Droite de Henry

En pratique : X une variable x et s2ech. X ∼ N (x , s2

ech) ?

Pour chaque valeur de xi , on calcule P(X ≤ xi) ≈ Fi

Déterminer ti/Φ(ti) = Fi

Tracer le nuage de points (xi , ti) et la droite d’équation t = x−xsech

Remarque : Si beaucoup de valeurs de X , on peut regrouper la variable en classes.

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 60 / 92

Page 74: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables quantitatives

Droite de Henry

Exemple : Tailles de 150 étudiants. x = 174, sech = 16.

Classe Borne haute (xi) ni Ni fi Fi ti

130 - 150 150 9 9 0.060 0.060150 - 170 170 47 56 0.313 0.373170 - 190 190 74 130 0.493 0.866190 - 210 210 19 149 0.127 0.993210 - 230 230 1 150 0.007 1 -

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 61 / 92

Page 75: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables quantitatives

Droite de Henry

Exemple : Tailles de 150 étudiants. x = 174, sech = 16.

Classe Borne haute (xi) ni Ni fi Fi ti

130 - 150 150 9 9 0.060 0.060 -1.5548150 - 170 170 47 56 0.313 0.373 -0.3239170 - 190 190 74 130 0.493 0.866 1.1077190 - 210 210 19 149 0.127 0.993 2.4573210 - 230 230 1 150 0.007 1 -

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 62 / 92

Page 76: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables quantitatives

Droite de Henry

Exemple : Tailles de 150 étudiants. x = 174, sech = 16.

150 160 170 180 190 200 210

-10

12

x_i

t_i

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 63 / 92

Page 77: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables qualitatives

Diagramme en barre

Représente la distribution d’une variable à modalitésLes effectifs/pourcentages sont calculés par modalitésUn exemple avec la variable Appréciation constituée de 4 modalités :

Mauvais - Passable - Bon - Excellent

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 64 / 92

Page 78: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables qualitatives

40

70

30

10

0

10

20

30

40

50

60

70

80

Mauvais Passable Bon Excellent

Effec

tifs

Appréciation

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 65 / 92

Page 79: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables qualitatives

Diagramme circulaire

Permet de visualiser la répartition des modalités de la variableChaque modalité est représentée par une "part"La surface de chaque "part" est proportionnelle au pourcentage associé à la modalitéou, l’angle αi de la ième modalité :

αi = 360 × ni

n = 360 × fi

Exemple avec la variable Appréciation

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 66 / 92

Page 80: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiquesVariables qualitatives

27%

46%

20%

7%

Mauvais

Passable

Bon

Excellent

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 67 / 92

Page 81: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive univariée Représentations graphiques

Représentations graphiques : quelques conseils...

Légendes claires et concisesAnnoter les axes (ex : l’abscisse représente l’âge en années, l’ordonnée les effectifs)Ne pas surcharger un rapport de graphiques (trop de communication tue lacommunication !!!)Privilégier les tableaux pour les résultats communs et mettre en évidence lesrésultats intéressants au moyen de graphiquesUtiliser les indicateurs et les représentations graphiques adéquats !!!

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 68 / 92

Page 82: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée

Point étudié

1 Introduction

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 69 / 92

Page 83: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Motivations

Point étudié

1 Introduction

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 70 / 92

Page 84: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Motivations

Motivations

Pour approfondir l’analyse, il est souvent utile de croiser certaines variables entreelles :

Croiser le niveau de satisfaction avec le sexe (les femmes sont-elles plus satisfaites queles hommes par rapport à ce produit ?)Croiser l’âge avec le sexe (quelle est la moyenne d’âge chez les hommes ? Chez lesfemmes ?)Croiser l’âge avec le poids (l’âge est-il corrélé au poids ? )

Les représentations statistiques diffèrent en fonction du type de variables croisées :qualitative/qualitativequalitative/quantitativequantitative/quantitative

L’analyse descriptive bivariée prépare l’inférence statistique :Liaison entre variablesCorrélation entre variables

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 71 / 92

Page 85: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Point étudié

1 Introduction

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 72 / 92

Page 86: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Présentation des données

ConsidéronsX = x1, x2, . . . , xl

Y = y1, y2, . . . , ym

deux variables qualitatives ayant respectivement l et m modalités.

ExempleNiveau de satisfaction : Mauvais, Passable, Bon, Excellent.Sexe : Masculin, Féminin

Tableau de contingenceBasé sur l’effectif et la fréquence de chaque croisement de modalitéNotions supplémentaires : fréquences lignes et fréquences colonnes (conditionnelles)Permet, d’une manière descriptive, d’étudier le "lien" entre deux variablesqualitatives

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 73 / 92

Page 87: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Présentation des données - Effectifs joints / Effectifs marginaux

X = x1, x2, . . . , xl, Y = y1, y2, . . . , ym

Variable Yy1 y2 . . . yj . . . ym Total

Variable X

x1 n11 n12 . . . n1j . . . n1m n1.

x2 n21 n22 . . . n2j . . . n2m n2.

......

... . . .... . . .

......

xi ni1 ni2 . . . nij . . . nim ni....

...... . . .

... . . ....

...xl nl1 nl2 . . . nlj . . . nlm nl.

Total n.1 n.2 . . . n.j . . . n.m n

nij : effectif joint de la modalité xi et de la modalité yjni. : effectif marginal de la modalité xin.j : effectif marginal de la modalité yjn : taille de l’échantillon

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 74 / 92

Page 88: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Présentation des données - Fréquences jointes / Fréquences marginales

Fréquence jointe : Fréquence du couple de modalités (xi , yj)

fij = nij

n

Fréquence marginale : Fréquence de la modalité (xi)

fi. = ni.

n(resp. f.j = n.j

n pour (yj))

Variable Y

y1 y2 . . . yj . . . ym Total

Variable X

x1 f11 f12 . . . f1j . . . f1m f1.

x2 f21 f22 . . . f2j . . . f2m f2.

......

... . . .... . . .

......

xi fi1 fi2 . . . fij . . . fim fi....

...... . . .

... . . ....

...xl fl1 fl2 . . . flj . . . flm fl.

Total f.1 f.2 . . . f.j . . . f.m 1

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 75 / 92

Page 89: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Présentation des données - Fréquences conditionnelles lignes

Fréquence conditionnelle ligne : Fréquence de la modalité yj parmi les individusprésentant la modalité xi

fj/i = nij

ni.

Variable Yy1 y2 . . . yj . . . ym Total

Variable X

x1 f1/1 f2/1 . . . fj/1 . . . fm/1 1x2 f1/2 f2/2 . . . fj/2 . . . fm/2 1...

...... . . .

... . . ....

...xi f1/i f2/j . . . fj/i . . . fm/i 1...

...... . . .

... . . ....

...xl f1/l f2/l . . . fj/l . . . fm/l 1

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 76 / 92

Page 90: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Présentation des données - Fréquences conditionnelles colonnes

Fréquence conditionnelle colonne : Fréquence de la modalité xi parmi les individusprésentant la modalité yj

fi/j = nij

n.j

Variable Yy1 y2 . . . yj . . . ym

Variable X

x1 f1/1 f1/2 . . . f1/j . . . f1/mx2 f2/1 f2/2 . . . f2/j . . . f2/m...

...... . . .

... . . ....

xi fi/1 fj/2 . . . fi/j . . . fi/m...

...... . . .

... . . ....

xl fl/1 fl/2 . . . fl/j . . . fl/m

Total 1 1 . . . 1 . . . 1

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 77 / 92

Page 91: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Présentation des données - ExempleCroisement du niveau de satisfaction et du sexe

Effec%fs % %ligne %colonne Homme Femme total

Mauvais

30 0,11 0.75 0.20

10 0.04 0.25 0.08

40 0,14

Passable

45 0.16 0.69 0.30

20 0.07 0.31 0.15

65 0.23

Bon

50 0.18 0.43 0.33

65 0.23 0.57 0.27

115 0.41

Excellent

25 0.09 0.42 0.17

35 0.13 0.58 0.27

60 0.21

Total 150 0.54

130 0.46

280 1

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 78 / 92

Page 92: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Présentation des données - Exemple

Croisement du niveau de satisfaction et du sexe

Effec%fs % %ligne %colonne Homme

Mauvais

30 0,11 0.75 0.20

Effectifs : Parmi 280 individus, 30 hommes ont noté « mauvais »

% : Parmi 280 individus, 11% sont des hommes qui ont noté « mauvais »

%ligne : Parmi 40 individus qui ont noté « mauvais », 75% étaient des hommes (30/40)

%colonne : Parmi 150 hommes ,20% ont noté « mauvais » (30/150)

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 79 / 92

Page 93: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Représentations graphiques - Diagramme en barre groupé

30

45

50

25

10

20

65

35

0

10

20

30

40

50

60

70

Mauvais Passable Bon Excellent

EFFECTIFS

APPRÉCIATION

Répartition del'appréciation enfonction dusexe

Homme Femme

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 80 / 92

Page 94: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Représentations graphiques - Diagramme en barre empilé

30

4550

25

10

20

65

35

0

20

40

60

80

100

120

140

Mauvais Passable Bon Excellent

EFFECTIFSCU

MULÉS

APPRÉCIATION

Répartition del'appréciation enfonction dusexe

Homme Femme

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 81 / 92

Page 95: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables qualitatives

Représentations graphiques - Diagramme en mosaïque

Répartition de l'appréciation en fonction du sexe

Appréciation

Sexe

Mauvais Passable Bon Excellent

Femme

Homme

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 82 / 92

Page 96: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Variable quantitative / Variable qualitative

Point étudié

1 Introduction

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 83 / 92

Page 97: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Variable quantitative / Variable qualitative

Présentation des données

ConsidéronsVariable quantitative : X ∈ R

Variable qualitative : Y = y1, y2, . . . , ym

Variable Y Moyenne Ecart-typey1 xy1 sxy1y2 xy2 sxy2...

......

ym xym sxym

Variable Y Médiane Q1 Q3

y1 med(x)y1 Q1(x)(y1) Q3(x)(y1)y2 med(x)y2 Q1(x)(y2) Q3(x)(y2)...

......

...ym med(x)ym Q1(x)(ym) Q3(x)(ym)

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 84 / 92

Page 98: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Variable quantitative / Variable qualitative

Présentation des données

Exemple : croisement de l’âge en fonction du sexe

Sexe Moyenne Ecart-typeHomme 35 12Femme 29 9

Sexe Médiane Q1 Q3

Homme 22 33 45Femme 21 28 38

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 85 / 92

Page 99: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Variable quantitative / Variable qualitative

Représentations graphiques - Boîtes à moustachesCroisement de l’âge et du sexe

Femme Homme

2025

3035

4045

50

Distribution de l'âge en fonction du sexe

Sexe

Age

en

anné

es

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 86 / 92

Page 100: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables quantitatives

Point étudié

1 Introduction

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 87 / 92

Page 101: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables quantitatives

Représentation graphique - Nuage de pointsCroisement de la taille et du poids

140 160 180 200

6070

8090

100

110

120

Croisement de la taille et du poids

Taille en cm

Poi

ds e

n K

g

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 88 / 92

Page 102: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables quantitatives

Indicateur statistique - Coefficient de corrélation

Coefficient de corrélation linéaire de Pearson (N ⩾ 30 )

Mesure l’intensité du lien entre X et YCoefficient compris entre -1 et 1 (R ∈ [1, 1])Si R = 0 il n’y a pas de corrélation linéaire entre X et Y. Réciproquement, siR = |1|, il y a une corrélation linéaire parfaite entre X et Y

r = sxy

sx sy=

∑ni=1

∑nj=1(xi − x)(yi − y)√∑n

i=1(xi − x)2√∑n

i=1(yi − y)2

Attention : l’absence de relation linéaire entre deux variables ne permet de conclure àl’absence de relation ⇒ (exponentiel, puissance, . . . ) ⇒ Coefficient de corrélation deSpearman.

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 89 / 92

Page 103: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Statistique descriptive bivariée Deux variables quantitatives

Indicateur statistique - Coefficient de corrélation

Croisement de la taille et du poids

140 160 180 200

6070

8090

100

110

120

Croisement de la taille et du poids

Taille en cm

Poi

ds e

n K

g

r = 0.68

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 90 / 92

Page 104: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Conclusion

Point étudié

1 Introduction

2 Recueil des données

3 Statistique descriptive univariée

4 Statistique descriptive bivariée

5 Conclusion

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 91 / 92

Page 105: Statistique descriptive - univ-lille.frcerim.univ-lille2.fr/fileadmin/user_upload/statistiques/michael_genin/... · Statistique descriptive Michaël Genin Université de Lille 2 EA

Conclusion

Conclusion

Démarche générale de la statistique

Recueil des donnéesStatistique descriptive

Indicateurs statistiquesReprésentations graphiquesChoisis en fonction du type de variables

Statistique inférentielleExtrapolation de résultats calculés sur un échantillon à une population sous-jacente(estimation, tests statistiques, modélisations)Basée sur le calcul de probabilités

Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 92 / 92