statistique descriptive -...
TRANSCRIPT
Statistique descriptive
Michaël Genin
Université de Lille 2EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
Plan
1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes
2 Recueil des données
3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques
4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 1 / 92
Plan
1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes
2 Recueil des données
3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques
4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 1 / 92
Plan
1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes
2 Recueil des données
3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques
4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 1 / 92
Plan
1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes
2 Recueil des données
3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques
4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 1 / 92
Plan
1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes
2 Recueil des données
3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques
4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 1 / 92
Introduction
Point étudié
1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariée
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 2 / 92
Introduction Définitions
Point étudié
1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariée
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 3 / 92
Introduction Définitions
Définition générale de la statistiqueScience qui a pour objectif le recueil, l’analyse et l’interprétation des donnéesobservéesDistinction importante entre LA statistique et LES statistiqueS
La statistique fait référence à la scienceLes statistiques font référence aux résultats chiffrés (ex : les statistiques du chômage)
Démarche générale : 2 étapes consécutivesLe recueil des donnéesL’analyse et l’interprétation des données
Statistique descriptive : résumer et présenter les données observées de la manière laplus pertinente possible
Indicateurs statistiquesReprésentations graphiques
Statistique inférentielle : extrapoler les résultats liés à un échantillon à un populationsous-jacente
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 4 / 92
Introduction Vocabulaire
Point étudié
1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariée
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 5 / 92
Introduction Vocabulaire
Vocabulaire
Lorsqu’une étude est réalisée sur l’ensemble d’une population, on parle derecensement (ex : recensement INSEE)Lorsqu’une étude est réalisée sur une sous-population plus petite, on parled’échantillon (ex : échantillon de 1000 français)Cet échantillon est extrait de la population par le biais d’une méthoded’échantillonnage.
Echantillonnage aléatoire simple : tirer au hasard et manière indépendante n individusd’une population de N individus.
Un échantillon est constitué d’individus statistiques (ou observations statistiques)Sur ces individus sont mesurés des caractères (âge, poids, couleurs des yeux. . . )appelés également variablesDeux types de variables : les variables quantitatives et les variables qualitativesconstituées de plusieurs modalités
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 6 / 92
Introduction Type de variables
Point étudié
1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariée
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 7 / 92
Introduction Type de variables
Type de variables
Variables Quantitatives (quantifiables)Variables quantitatives continues (âge, poids, taille,. . . )Variables quantitatives discrètes (ne peuvent prendre qu’un nombre limité devaleurs. ex : nombre de personnes dans un foyer)
Variables Qualitatives (non quantifiables)Variables qualitatives binaires (sexe : Masculin / Féminin)Variables qualitatives nominales (Couleurs des yeux : marrons, bleus, verts, gris)Variables qualitatives ordinales (Appréciation : Mauvais, Passable, Bien, Très bien,Excellent)
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 8 / 92
Introduction Type de variables
Type de variables
RemarqueEn réalité, le nombre de mesures possibles pour une variable dépend de la précision de lamesure.
On peut considérer comme continue une variable qui peut prendre un grand nombre devaleurs.
Exemple :nombre de globules blancs ou rouges par mL de sang.
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 9 / 92
Introduction Liens avec les concepts probabilistes
Point étudié
1 IntroductionDéfinitionsVocabulaireType de variablesLiens avec les concepts probabilistes
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariée
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 10 / 92
Introduction Liens avec les concepts probabilistes
Liens avec les concepts probabilistes
Probabilités StatistiqueEspace fondamental PopulationEpreuve Tirage (d’un individu), expérimentationEvènement élémentaire Individu, observationVariable aléatoire Variable, caractèreEpreuves répétées EchantillonnageNombre de répétitions d’une épreuve Taille de l’échantillon, effectif totalProbabilité Fréquence observéeLoi de probabilité Distribution observée ou loi empiriqueEspérance mathématique Moyenne observéeVariance mathématique Variance observée
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 11 / 92
Introduction Liens avec les concepts probabilistes
Espace fondamental ≡ Population
Ω = 1, . . . , N Population (ex : 65 millions de francais)
Probabilites Statistique
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 12 / 92
Introduction Liens avec les concepts probabilistes
Epreuve aléatoire ≡ Tirage d’un individu
Ω = 1, . . . , N Population (ex : 65 millions de francais)
Epreuve aleatoire Tirage d’individu
Evt elementaireω = 3
Ex : individunumero 3
Probabilites Statistique
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 13 / 92
Introduction Liens avec les concepts probabilistes
Variable aléatoire ≡ Variable, caractère
Ω = 1, . . . , N Population (ex : 65 millions de francais)
Epreuve aleatoire Tirage d’individu
Evt elementaireω = 3
Ex : individunumero 3
Variable aleatoireX : Ω→ Eω → X(ω)
Variable, caractereTaille : Population → R+
individu → Taille (cm)
Probabilites Statistique
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 14 / 92
Introduction Liens avec les concepts probabilistes
Epreuves répétées ≡ Echantillonnage
Ω = 1, . . . , N Population (ex : 65 millions de francais)
Epreuve aleatoire Tirage d’individu
Evt elementaireω = 3
Ex : individunumero 3
Variable aleatoireX : Ω→ Eω → X(ω)
Variable, caractereTaille : Population → R+
individu → Taille (cm)
. . .
︸ ︷︷ ︸Epreuves repetees
. . .
︸ ︷︷ ︸Echantillonnage
Probabilites Statistique
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 15 / 92
Introduction Liens avec les concepts probabilistes
Nombre d’épreuves ≡ Taille de l’échantillon
Ω = 1, . . . , N Population (ex : 65 millions de francais)
Epreuve aleatoire Tirage d’individu
Evt elementaireω = 3
Ex : individunumero 3
Variable aleatoireX : Ω→ Eω → X(ω)
Variable, caractereTaille : Population → R+
individu → Taille (cm)
. . .
︸ ︷︷ ︸Epreuves repetees
. . .
︸ ︷︷ ︸Echantillonnage
Probabilites Statistique
Nombre d’epreuves : n Taille de l’echantillon : n
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 16 / 92
Introduction Liens avec les concepts probabilistes
Probabilités ≡ Fréquence observée
Ω = 1, . . . , N Population (ex : 65 millions de francais)
Epreuve aleatoire Tirage d’individu
Evt elementaireω = 3
Ex : individunumero 3
Variable aleatoireX : Ω→ Eω → X(ω)
Variable, caractereTaille : Population → R+
individu → Taille (cm)
. . .
︸ ︷︷ ︸Epreuves repetees
. . .
︸ ︷︷ ︸Echantillonnage
Probabilite :P (X ∈ [a, b])
Frequence observee d’individusdont la taille est compriseentre a et b cm
Loi des grands nombres
Probabilites Statistique
Nombre d’epreuves : n Taille de l’echantillon : n
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 17 / 92
Introduction Liens avec les concepts probabilistes
Loi de probabilité ≡ Distribution observée, loi empirique
Ω = 1, . . . , N Population (ex : 65 millions de francais)
Epreuve aleatoire Tirage d’individu
Evt elementaireω = 3
Ex : individunumero 3
Variable aleatoireX : Ω→ Eω → X(ω)
Variable, caractereTaille : Population → R+
individu → Taille (cm)
. . .
︸ ︷︷ ︸Epreuves repetees
. . .
︸ ︷︷ ︸Echantillonnage
Probabilite :P (X ∈ [a, b])
Frequence observee d’individusdont la taille est compriseentre a et b cm
Loi des grands nombres
Loi de probabilite de XDistribution observee de la taille
Probabilites Statistique
Nombre d’epreuves : n Taille de l’echantillon : n
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 18 / 92
Introduction Liens avec les concepts probabilistes
Espérance mathématique ≡ Moyenne observée
Ω = 1, . . . , N Population (ex : 65 millions de francais)
Epreuve aleatoire Tirage d’individu
Evt elementaireω = 3
Ex : individunumero 3
Variable aleatoireX : Ω→ Eω → X(ω)
Variable, caractereTaille : Population → R+
individu → Taille (cm)
. . .
︸ ︷︷ ︸Epreuves repetees
. . .
︸ ︷︷ ︸Echantillonnage
Probabilite :P (X ∈ [a, b])
Frequence observee d’individusdont la taille est compriseentre a et b cm
Loi des grands nombres
Loi de probabilite de XDistribution observee de la taille
Esperance mathematique :
E[X] =∫ +∞−∞ xf(x).dx
Moyenne observeex = 1
n
∑n
i=1xi
Probabilites Statistique
Nombre d’epreuves : n Taille de l’echantillon : n
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 19 / 92
Introduction Liens avec les concepts probabilistes
Variance mathématique ≡ Variance observée
Ω = 1, . . . , N Population (ex : 65 millions de francais)
Epreuve aleatoire Tirage d’individu
Evt elementaireω = 3
Ex : individunumero 3
Variable aleatoireX : Ω→ Eω → X(ω)
Variable, caractereTaille : Population → R+
individu → Taille (cm)
. . .
︸ ︷︷ ︸Epreuves repetees
. . .
︸ ︷︷ ︸Echantillonnage
Probabilite :P (X ∈ [a, b])
Frequence observee d’individusdont la taille est compriseentre a et b cm
Loi des grands nombres
Loi de probabilite de XDistribution observee de la taille
Esperance mathematique :
E[X] =∫ +∞−∞ xf(x).dx
Moyenne observeex = 1
n
∑n
i=1xi
Variance mathematique :
V [X] =∫ +∞−∞ (x− E[X])2f(x).dx
Variance observees2ech = 1
n
∑n
i=1(xi − x)2
Probabilites Statistique
Nombre d’epreuves : n Taille de l’echantillon : n
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 20 / 92
Recueil des données
Point étudié
1 Introduction
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariée
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 21 / 92
Recueil des données
Recueil des observations du phénomène étudiéAu travers de différentes variables (âge du patient, BMI, niveau de satisfaction...)
Données nombreuses ou difficiles à obtenir :Mise en place de méthodes rationnelles de recueilMéthodes d’échantillonnage (construire un échantillon représentatif de la population)Plan d’expérience (comment construire l’expérimentation en vue de répondrecorrectement à l’objectif de l’étude)
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 22 / 92
Recueil des données
Exemple : questionnaire soumis à un échantillon de patients dans un service de radiologie
Objectif : Evaluer la satisfaction des patients et mettre en évidence les problèmes pouraméliorer les pratiques
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 23 / 92
Recueil des données
Variables quantitatives
Variables qualitatives
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 24 / 92
Recueil des données
Recueil des données dans un tableur
1 individu par ligneVariables en colonnesVariables quantitatives : attention aux unités !!Variables qualitatives : utilise des codages chiffrés plutôt que du texte
1 = Excellent2 = Bon3 = Passable4 = Mauvais
Minimisation des erreurs de codage (Mauvais = mauvais)
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 25 / 92
Recueil des données
Num. Patient
Nom Prénom DDN Taille (cm)
Poids (Kg)
Sexe Accueil_téléphonique
Accueil_manip
1 Dupont Pierre 10/07/56 171 76 1 2 3
2 Durand Jean 23/09/78 185 83 1 1 1
…
Données formatées pour la plupart des logiciels d’analyse statistique
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 26 / 92
Recueil des données
Question : Qu’est-ce qu’on fait de ces données ?
Analyse et interprétation des données :Statistique descriptiveStatistique inférentielle
Important : toute analyse statistique doit répondre à un ou plusieurs objectifs (obj. ppal /objs secondaires). Il est essentiel de construire un plan d’analyse statistique afin de poserles questions relatives à l’étude.
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 27 / 92
Statistique descriptive univariée
Point étudié
1 Introduction
2 Recueil des données
3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques
4 Statistique descriptive bivariée
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 28 / 92
Statistique descriptive univariée
Objectif : résumer et présenter les données observées sous la forme la plus pertinentepossible.
Grâce à :
Indicateurs statistiquesReprésentations graphiques
Le choix se fait en fonction de la nature des variables.
Un descriptif des données permet de mettre en évidence des valeurs aberrantes
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 29 / 92
Statistique descriptive univariée Indicateurs statistiques
Point étudié
1 Introduction
2 Recueil des données
3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques
4 Statistique descriptive bivariée
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 30 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
ModeLe mode d’une distribution est la valeur la plus fréquente de celle-ci.
Exemple : Soit la série 12, 14, 12, 15, 12, 17, 18. Déterminer le mode de la série.
Valeur 12 14 15 17 18Effectif 3 1 1 1 1
Le mode de la série est donc 12.
RemarquesSi les données sont regroupées par classe, on définit la classe modale comme laclasse dont la densité d’effectif est la plus élevée et on attribue (arbitrairement) aumode la valeur centrale de cette classe.Une distribution peut être polymodale
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 31 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
ModeLe mode d’une distribution est la valeur la plus fréquente de celle-ci.
Exemple : Soit la série 12, 14, 12, 15, 12, 17, 18. Déterminer le mode de la série.
Valeur 12 14 15 17 18Effectif 3 1 1 1 1
Le mode de la série est donc 12.
RemarquesSi les données sont regroupées par classe, on définit la classe modale comme laclasse dont la densité d’effectif est la plus élevée et on attribue (arbitrairement) aumode la valeur centrale de cette classe.Une distribution peut être polymodale
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 31 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
ModeLe mode d’une distribution est la valeur la plus fréquente de celle-ci.
Exemple : Soit la série 12, 14, 12, 15, 12, 17, 18. Déterminer le mode de la série.
Valeur 12 14 15 17 18Effectif 3 1 1 1 1
Le mode de la série est donc 12.
RemarquesSi les données sont regroupées par classe, on définit la classe modale comme laclasse dont la densité d’effectif est la plus élevée et on attribue (arbitrairement) aumode la valeur centrale de cette classe.Une distribution peut être polymodale
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 31 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
Moyenne arithmétique
x = 1n
n∑i=1
xi
Attention : la moyenne arithmétique est sensible aux valeurs extrêmes dans le cadre depetits échantillons (n < 30).
Moyenne pondérée
Soient w1, w2, . . . , wn un ensemble de poids ∈ R+
x =∑n
i=1 wixi∑ni=1 wi
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 32 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
Exemple de moyenne arithmétique :
Soient 12, 13, 18, 9, 4, 13, 7, 12, 10, 19 les notes de n = 10 étudiants
x =
(12 + 13 + 18 + 9 + 4 + 13 + 7 + 12 + 10 + 19)10 = 11.7
Exemple de moyenne pondérée :
Notes 12 15 13 16Coefficients 2 3 2 4
x = 12 × 2 + 15 × 3 + 13 × 2 + 16 × 42 + 3 + 2 + 4 = 14.4545
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 33 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
Exemple de moyenne arithmétique :
Soient 12, 13, 18, 9, 4, 13, 7, 12, 10, 19 les notes de n = 10 étudiants
x = (12 + 13 + 18 + 9 + 4 + 13 + 7 + 12 + 10 + 19)10 = 11.7
Exemple de moyenne pondérée :
Notes 12 15 13 16Coefficients 2 3 2 4
x =
12 × 2 + 15 × 3 + 13 × 2 + 16 × 42 + 3 + 2 + 4 = 14.4545
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 33 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
Exemple de moyenne arithmétique :
Soient 12, 13, 18, 9, 4, 13, 7, 12, 10, 19 les notes de n = 10 étudiants
x = (12 + 13 + 18 + 9 + 4 + 13 + 7 + 12 + 10 + 19)10 = 11.7
Exemple de moyenne pondérée :
Notes 12 15 13 16Coefficients 2 3 2 4
x = 12 × 2 + 15 × 3 + 13 × 2 + 16 × 42 + 3 + 2 + 4 = 14.4545
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 33 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
MédianeIndicateur insensible aux valeurs extrêmes (utilisation dans le cas de petitséchantillons n < 30)Idée maîtresse : 50% des observations ont une valeur inférieure ou égale à lamédiane et 50% des observations ont une valeur supérieure ou égale à la médianeLe calcul de la médiane est fonction de la parité du nombre d’observations
Remarque : la médiane est insensible aux valeurs extrêmes.
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 34 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
Calcul de la médiane dans le cas impair1 On ordonne de manière croissante la série de données2 La médiane est égale à la valeur du rang n + 1
2 ou n est le nombre d’observations
Exercice :Soit la série statistique : 3, 2, 6, 5, 4. Calculer la médiane de la série.
On ordonne la série de manière croissante :
Valeur 2 3 4 5 6Rang 1 2 3 4 5
La médiane correspond à la valeur de rang 5 + 12 = 3.
Médiane = 4
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 35 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
Calcul de la médiane dans le cas impair1 On ordonne de manière croissante la série de données2 La médiane est égale à la valeur du rang n + 1
2 ou n est le nombre d’observations
Exercice :Soit la série statistique : 3, 2, 6, 5, 4. Calculer la médiane de la série.On ordonne la série de manière croissante :
Valeur 2 3 4 5 6Rang 1 2 3 4 5
La médiane correspond à la valeur de rang 5 + 12 = 3.
Médiane = 4
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 35 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
Calcul de la médiane dans le cas impair1 On ordonne de manière croissante la série de données2 La médiane est égale à la valeur du rang n + 1
2 ou n est le nombre d’observations
Exercice :Soit la série statistique : 3, 2, 6, 5, 4. Calculer la médiane de la série.On ordonne la série de manière croissante :
Valeur 2 3 4 5 6Rang 1 2 3 4 5
La médiane correspond à la valeur de rang 5 + 12 = 3.
Médiane = 4
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 35 / 92
Statistique descriptive univariée Indicateurs statistiques
Calcul de la médiane dans le cas pair1 On ordonne de manière croissante la série de données2 La médiane est égale à la moyenne de la valeur au rang n
2 et de la valeur au rangn + 2
2
Exercice :Soit la série statistique : 3, 2, 6, 5, 4, 7. Calculer la médiane de la série.
On ordonne la série de manière croissante :
Valeur 2 3 4 5 6 7Rang 1 2 3 4 5 6
La médiane correspond à la moyenne de la valeur de rang 62 = 3 et de la valeur de rang
82 = 4
Médiane = 4 + 52 = 4.5
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 36 / 92
Statistique descriptive univariée Indicateurs statistiques
Calcul de la médiane dans le cas pair1 On ordonne de manière croissante la série de données2 La médiane est égale à la moyenne de la valeur au rang n
2 et de la valeur au rangn + 2
2
Exercice :Soit la série statistique : 3, 2, 6, 5, 4, 7. Calculer la médiane de la série.On ordonne la série de manière croissante :
Valeur 2 3 4 5 6 7Rang 1 2 3 4 5 6
La médiane correspond à la moyenne de la valeur de rang 62 = 3 et de la valeur de rang
82 = 4
Médiane = 4 + 52 = 4.5
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 36 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives1. Indicateurs de position
QuartilesLes quartiles sont les valeurs qui partagent la série ordonnée en 4 groupes de mêmeeffectif
1er quartile (Q1) : 25% des observations ont une valeur inférieure ou égale à Q1.Réciproquement, 75% des observations ont une valeur supérieure ou égale à Q1.3ème quartile (Q3) 75% des observations ont une valeur inférieure ou égale à Q3.Réciproquement, 25% des observations ont une valeur supérieure ou égale à Q3.
Q1 Q3 Med
25% 25% 25% 25% min max
PercentilesLes percentiles sont les valeurs qui partagent la série ordonnée en 100 groupes de mêmeeffectif.
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 37 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs de position - Récapitulatif
ModeAvantages
Bon indicateur dans le cas de distributions asymétriquesBon indicateur de population hétérogèneInsensible aux valeurs extrêmes
Inconvénientsse prête mal aux calculs statistiquesSensible aux variations d’amplitude de classes
MoyenneAvantages
Se prête facilement aux calculs et tests statistiquesBon indicateur si distribution symétrique et dispersion faible
InconvénientsSensible aux valeurs extrêmesReprésente mal une population hétérogène (polymodale)
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 38 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs de position - Récapitulatif
MédianeAvantages
Moins sensible aux valeurs extrêmes que la moyenneBon indicateur si distribution asymétrique
InconvénientsSe prête mal aux calculs statistiquesClassement peut être long si les valeurs sont nombreuses
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 39 / 92
Statistique descriptive univariée Indicateurs statistiques
Distribution symétrique Distribution asymétrique
mode
moyennemédiane
mode moyennemédiane
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 40 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives2. Indicateurs de dispersion
Variance
s2ech = 1
n
n∑i=1
(xi − x)2
RemarqueLa dimension de la variance est le carré de celle de la variable⇒ difficile d’utiliser la variance comme norme de dispersion car changement d’unité.Pas de sens biologique direct contrairement à l’écart-type qui s’exprime dans la mêmeunité que la moyenne
Ecart-type
sech =√
s2ech
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 41 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives2. Indicateurs de dispersion
Théorème de Koenig-Huygens
s2ech = 1
n
n∑i=1
x2i − x2
Exemple : Soit la série statistique : 13, 12, 16, 15, 14. Calculer la variance de la série.
x = 14, n = 5
s2ech = ((13 − 14)2 + (12 − 14)2 + (16 − 14)2 + (15 − 14)2 + (14 − 14)2)
5
s2ech = 1
5(132 + 122 + 162 + 152 + 142) − 142
s2ech = 2 et sech =
√s2
ech = 1.41
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 42 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitatives2. Indicateurs de dispersion
Théorème de Koenig-Huygens
s2ech = 1
n
n∑i=1
x2i − x2
Exemple : Soit la série statistique : 13, 12, 16, 15, 14. Calculer la variance de la série.x = 14, n = 5
s2ech = ((13 − 14)2 + (12 − 14)2 + (16 − 14)2 + (15 − 14)2 + (14 − 14)2)
5
s2ech = 1
5(132 + 122 + 162 + 152 + 142) − 142
s2ech = 2 et sech =
√s2
ech = 1.41
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 42 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables quantitativesTableau de distribution
Comment résumer une variable quantitative ?
Si la taille de l’échantillon est ⩾ 30 : moyenne ± écart-typeSi la taille de l’échantillon est < 30 : médiane - (Q1-Q3)
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 43 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables qualitativesTableau de distribution
Tableau de distribution - Variables qualitatives nominales
Pour chaque modalité, on définit l’effectif ni c’est à dire le nombre d’observationsprésentant la modalité i .Les modalités doivent être mutuellement exclusives⇒ l’effectif total de l’échantillon étudié est égale à la somme des effectifs de chaquemodalité :
n =p∑
i=1
ni ,
avec p le nombre de modalités et n l’effectif total (taille de l’échantillon). Représentation
sous forme d’un tableau de distribution de fréquences.
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 44 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables qualitativesTableau de distribution
Exemple : tableau de répartition des groupes sanguins dans un hôpital du Nord Pas deCalais
groupe effectif (ni) fréquence (fi)O 45 0,45A 40 0,40B 10 0,10
AB 5 0,05Total 100 1
On appelle fréquence de la modalité xi
fi = ni /n
Un pourcentage est une fréquence exprimée en %, cad 100fi .
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 45 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables qualitativesTableau de distribution
Tableau de distribution - Var. qualitatives ordinales / quantitatives discrètes
Fréquences cumulées croissantes
Fi =i∑
j=1
fj
Cet indicateur a un sens pour les variables qualitatives ordinales et les quantitativesdiscrètes car on peut ordonner les modalités.On appelle x1, . . . ,xi , . . . , xp les p valeurs ordonnées de x (l’indice i correspond alors aurang).
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 46 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables qualitativesTableau de distribution
Tableau de distribution des effectifs et fréquences cumulésvaleur du caractère effectif fréquence effectif cumulé fréquence cumulée
modalité xi ni fi Ni Fix1 n1 f1 n1 f1x2 n1 f2 n1 + n2 f1 + f2. . . . .. . . . .. . . . .xi ni fi n1 + n2+ . . . +ni f1 + f2+ . . . +fi. . . . .. . . . .. . . . .
xp np fp n 1
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 47 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables qualitativesTableau de distribution
ExempleNombre d’enfants dans les familles
xi ni fi Ni Fi0 10 0,11 24 0,242 323 19 85 0,854 8 93 0,935 46 100
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 48 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables qualitativesTableau de distribution
ExempleNombre d’enfants dans les familles
xi ni fi Ni Fi0 10 0,1 10 0,11 24 0,24 34 0,342 32 0,32 66 0,663 19 0,19 85 0,854 8 0,08 93 0,935 4 0,04 97 0,976 3 0,03 100 1
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 49 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables qualitativesTableau de distribution
Tableau de distribution - Var. quantitatives regroupées en classes
Il est nécessaire de regrouper en classes les valeurs prises par la variable.
Ex : taille (en cm) [150-160[ ,[160-170[, [170-180[
L’intervalle de classe, également appelé amplitude, est la différence entre la bornesupérieure et la borne inférieure.
En règle générale, on choisit des classes de même amplitude.
Si l’amplitude n’est pas constante, il faut calculer la densité de fréquence :
di = fi
amplitudei
La densité de fréquence permet de comparer les fréquences d’une classe à l’autre.
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 50 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables qualitativesTableau de distribution
ExempleTailles des individus en cm :
Classe Ci ni fi di Ni Fi[140 − 160[ 10[160 − 165[ 20[165 − 170[ 30[170 − 175[ 172.5 45 0,225 0,045 105 0,525[175 − 180[ 40 145 0,725[180 − 185[ 35 180 0,9[185 − 190[ 15 0,075 0,015[190 − 200[ 5 0,025 0,0025
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 51 / 92
Statistique descriptive univariée Indicateurs statistiques
Indicateurs pour variables qualitativesTableau de distribution
ExempleTailles des individus en cm :
Classe Ci ni fi di Ni Fi[140 − 160[ 150 10 0,05 0,0025 10 0,05[160 − 165[ 162,5 20 0,1 0,02 30 0,15[165 − 170[ 167,5 30 0,15 0,03 60 0,3[170 − 175[ 172,5 45 0,225 0,045 105 0,525[175 − 180[ 177,5 40 0,2 0,04 145 0,725[180 − 185[ 182,5 35 0,175 0,035 180 0,9[185 − 190[ 187,5 15 0,075 0,015 195 0,975[190 − 200[ 195 5 0,025 0,0025 200 1
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 52 / 92
Statistique descriptive univariée Représentations graphiques
Point étudié
1 Introduction
2 Recueil des données
3 Statistique descriptive univariéeIndicateurs statistiquesReprésentations graphiques
4 Statistique descriptive bivariée
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 53 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables quantitatives
Histogramme en fréquence
CM2 : Analyse statistique descriptive
V. Variables quantitatives continues
c. representation graphique
Histogramme en frequence
Histogramme en e↵ectif
Diagramme des frequences cumulees
40 / 44
Principe :
Découpage de la variable quantitative en classesL’aire de chaque rectangle est proportionnelle à l’effectifde la classeSi amplitudes égales : hauteur du rectangle égale àl’effectif (ou fréquence) de la classeSi amplitudes non égales : hauteur du rectangle égale àla densité d’effectif (ou de fréquence)Représentation sous forme d’histogramme pour avoirune idée de la distribution des données
Histogramme en effectif
Diagramme des fréquences cumulées
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 54 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables quantitatives
Boîte à moustachePermet d’évaluer la dispersion de la variable
1.5
1.6
1.7
1.8
Répartition de la taille des individusTa
ille
(m)
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 55 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables quantitatives
Boîte à moustachePermet d’évaluer la dispersion de la variable
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 56 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables quantitatives
Droite de Henry
Var quantitative :Indicateurs x , s2
ech
Rep. graphique : histogramme
Distribution de la taille
Taille
Frequency
140 160 180 200 220
05
1015
20
Question : Est-ce la distribution de la variable peut être modélisée par une loi normale ?Intérêt : Hypothèse importante dans de nombreuses méthodes statistiques
EstimationTests statistiquesModélisation
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 57 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables quantitatives
Droite de Henry
Quelques rappels :
Quantile : valeur de x telle que P(X ≤ x) = αExemple : X ∼ N (0, 1). Pour α = 0.95, x = 1.645
Si X ∼ N (µ, σ)
P(X ≤ x) = P(X − µ
σ≤ x − µ
σ
)= P(Z ≤ t) = Φ(t)
Φ(t) = P(X ≤ x)
t = x − µ
σ= 1
σx − µ
σ︸ ︷︷ ︸Droite de Henry
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 58 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables quantitatives
Droite de Henry
∀xi
P(X ≤ xi)ti/Φ(ti) = P(X ≤ xi )
Tous les couples (xi , ti ). Si X est distribuée selon une loi normale alors les points sontalignés sur la droite
xi
ti
ti =xi−µσ
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 59 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables quantitatives
Droite de Henry
En pratique : X une variable x et s2ech. X ∼ N (x , s2
ech) ?
Pour chaque valeur de xi , on calcule P(X ≤ xi) ≈ Fi
Déterminer ti/Φ(ti) = Fi
Tracer le nuage de points (xi , ti) et la droite d’équation t = x−xsech
Remarque : Si beaucoup de valeurs de X , on peut regrouper la variable en classes.
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 60 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables quantitatives
Droite de Henry
Exemple : Tailles de 150 étudiants. x = 174, sech = 16.
Classe Borne haute (xi) ni Ni fi Fi ti
130 - 150 150 9 9 0.060 0.060150 - 170 170 47 56 0.313 0.373170 - 190 190 74 130 0.493 0.866190 - 210 210 19 149 0.127 0.993210 - 230 230 1 150 0.007 1 -
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 61 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables quantitatives
Droite de Henry
Exemple : Tailles de 150 étudiants. x = 174, sech = 16.
Classe Borne haute (xi) ni Ni fi Fi ti
130 - 150 150 9 9 0.060 0.060 -1.5548150 - 170 170 47 56 0.313 0.373 -0.3239170 - 190 190 74 130 0.493 0.866 1.1077190 - 210 210 19 149 0.127 0.993 2.4573210 - 230 230 1 150 0.007 1 -
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 62 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables quantitatives
Droite de Henry
Exemple : Tailles de 150 étudiants. x = 174, sech = 16.
150 160 170 180 190 200 210
-10
12
x_i
t_i
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 63 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables qualitatives
Diagramme en barre
Représente la distribution d’une variable à modalitésLes effectifs/pourcentages sont calculés par modalitésUn exemple avec la variable Appréciation constituée de 4 modalités :
Mauvais - Passable - Bon - Excellent
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 64 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables qualitatives
40
70
30
10
0
10
20
30
40
50
60
70
80
Mauvais Passable Bon Excellent
Effec
tifs
Appréciation
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 65 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables qualitatives
Diagramme circulaire
Permet de visualiser la répartition des modalités de la variableChaque modalité est représentée par une "part"La surface de chaque "part" est proportionnelle au pourcentage associé à la modalitéou, l’angle αi de la ième modalité :
αi = 360 × ni
n = 360 × fi
Exemple avec la variable Appréciation
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 66 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiquesVariables qualitatives
27%
46%
20%
7%
Mauvais
Passable
Bon
Excellent
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 67 / 92
Statistique descriptive univariée Représentations graphiques
Représentations graphiques : quelques conseils...
Légendes claires et concisesAnnoter les axes (ex : l’abscisse représente l’âge en années, l’ordonnée les effectifs)Ne pas surcharger un rapport de graphiques (trop de communication tue lacommunication !!!)Privilégier les tableaux pour les résultats communs et mettre en évidence lesrésultats intéressants au moyen de graphiquesUtiliser les indicateurs et les représentations graphiques adéquats !!!
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 68 / 92
Statistique descriptive bivariée
Point étudié
1 Introduction
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 69 / 92
Statistique descriptive bivariée Motivations
Point étudié
1 Introduction
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 70 / 92
Statistique descriptive bivariée Motivations
Motivations
Pour approfondir l’analyse, il est souvent utile de croiser certaines variables entreelles :
Croiser le niveau de satisfaction avec le sexe (les femmes sont-elles plus satisfaites queles hommes par rapport à ce produit ?)Croiser l’âge avec le sexe (quelle est la moyenne d’âge chez les hommes ? Chez lesfemmes ?)Croiser l’âge avec le poids (l’âge est-il corrélé au poids ? )
Les représentations statistiques diffèrent en fonction du type de variables croisées :qualitative/qualitativequalitative/quantitativequantitative/quantitative
L’analyse descriptive bivariée prépare l’inférence statistique :Liaison entre variablesCorrélation entre variables
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 71 / 92
Statistique descriptive bivariée Deux variables qualitatives
Point étudié
1 Introduction
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 72 / 92
Statistique descriptive bivariée Deux variables qualitatives
Présentation des données
ConsidéronsX = x1, x2, . . . , xl
Y = y1, y2, . . . , ym
deux variables qualitatives ayant respectivement l et m modalités.
ExempleNiveau de satisfaction : Mauvais, Passable, Bon, Excellent.Sexe : Masculin, Féminin
Tableau de contingenceBasé sur l’effectif et la fréquence de chaque croisement de modalitéNotions supplémentaires : fréquences lignes et fréquences colonnes (conditionnelles)Permet, d’une manière descriptive, d’étudier le "lien" entre deux variablesqualitatives
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 73 / 92
Statistique descriptive bivariée Deux variables qualitatives
Présentation des données - Effectifs joints / Effectifs marginaux
X = x1, x2, . . . , xl, Y = y1, y2, . . . , ym
Variable Yy1 y2 . . . yj . . . ym Total
Variable X
x1 n11 n12 . . . n1j . . . n1m n1.
x2 n21 n22 . . . n2j . . . n2m n2.
......
... . . .... . . .
......
xi ni1 ni2 . . . nij . . . nim ni....
...... . . .
... . . ....
...xl nl1 nl2 . . . nlj . . . nlm nl.
Total n.1 n.2 . . . n.j . . . n.m n
nij : effectif joint de la modalité xi et de la modalité yjni. : effectif marginal de la modalité xin.j : effectif marginal de la modalité yjn : taille de l’échantillon
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 74 / 92
Statistique descriptive bivariée Deux variables qualitatives
Présentation des données - Fréquences jointes / Fréquences marginales
Fréquence jointe : Fréquence du couple de modalités (xi , yj)
fij = nij
n
Fréquence marginale : Fréquence de la modalité (xi)
fi. = ni.
n(resp. f.j = n.j
n pour (yj))
Variable Y
y1 y2 . . . yj . . . ym Total
Variable X
x1 f11 f12 . . . f1j . . . f1m f1.
x2 f21 f22 . . . f2j . . . f2m f2.
......
... . . .... . . .
......
xi fi1 fi2 . . . fij . . . fim fi....
...... . . .
... . . ....
...xl fl1 fl2 . . . flj . . . flm fl.
Total f.1 f.2 . . . f.j . . . f.m 1
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 75 / 92
Statistique descriptive bivariée Deux variables qualitatives
Présentation des données - Fréquences conditionnelles lignes
Fréquence conditionnelle ligne : Fréquence de la modalité yj parmi les individusprésentant la modalité xi
fj/i = nij
ni.
Variable Yy1 y2 . . . yj . . . ym Total
Variable X
x1 f1/1 f2/1 . . . fj/1 . . . fm/1 1x2 f1/2 f2/2 . . . fj/2 . . . fm/2 1...
...... . . .
... . . ....
...xi f1/i f2/j . . . fj/i . . . fm/i 1...
...... . . .
... . . ....
...xl f1/l f2/l . . . fj/l . . . fm/l 1
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 76 / 92
Statistique descriptive bivariée Deux variables qualitatives
Présentation des données - Fréquences conditionnelles colonnes
Fréquence conditionnelle colonne : Fréquence de la modalité xi parmi les individusprésentant la modalité yj
fi/j = nij
n.j
Variable Yy1 y2 . . . yj . . . ym
Variable X
x1 f1/1 f1/2 . . . f1/j . . . f1/mx2 f2/1 f2/2 . . . f2/j . . . f2/m...
...... . . .
... . . ....
xi fi/1 fj/2 . . . fi/j . . . fi/m...
...... . . .
... . . ....
xl fl/1 fl/2 . . . fl/j . . . fl/m
Total 1 1 . . . 1 . . . 1
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 77 / 92
Statistique descriptive bivariée Deux variables qualitatives
Présentation des données - ExempleCroisement du niveau de satisfaction et du sexe
Effec%fs % %ligne %colonne Homme Femme total
Mauvais
30 0,11 0.75 0.20
10 0.04 0.25 0.08
40 0,14
Passable
45 0.16 0.69 0.30
20 0.07 0.31 0.15
65 0.23
Bon
50 0.18 0.43 0.33
65 0.23 0.57 0.27
115 0.41
Excellent
25 0.09 0.42 0.17
35 0.13 0.58 0.27
60 0.21
Total 150 0.54
130 0.46
280 1
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 78 / 92
Statistique descriptive bivariée Deux variables qualitatives
Présentation des données - Exemple
Croisement du niveau de satisfaction et du sexe
Effec%fs % %ligne %colonne Homme
Mauvais
30 0,11 0.75 0.20
Effectifs : Parmi 280 individus, 30 hommes ont noté « mauvais »
% : Parmi 280 individus, 11% sont des hommes qui ont noté « mauvais »
%ligne : Parmi 40 individus qui ont noté « mauvais », 75% étaient des hommes (30/40)
%colonne : Parmi 150 hommes ,20% ont noté « mauvais » (30/150)
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 79 / 92
Statistique descriptive bivariée Deux variables qualitatives
Représentations graphiques - Diagramme en barre groupé
30
45
50
25
10
20
65
35
0
10
20
30
40
50
60
70
Mauvais Passable Bon Excellent
EFFECTIFS
APPRÉCIATION
Répartition del'appréciation enfonction dusexe
Homme Femme
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 80 / 92
Statistique descriptive bivariée Deux variables qualitatives
Représentations graphiques - Diagramme en barre empilé
30
4550
25
10
20
65
35
0
20
40
60
80
100
120
140
Mauvais Passable Bon Excellent
EFFECTIFSCU
MULÉS
APPRÉCIATION
Répartition del'appréciation enfonction dusexe
Homme Femme
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 81 / 92
Statistique descriptive bivariée Deux variables qualitatives
Représentations graphiques - Diagramme en mosaïque
Répartition de l'appréciation en fonction du sexe
Appréciation
Sexe
Mauvais Passable Bon Excellent
Femme
Homme
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 82 / 92
Statistique descriptive bivariée Variable quantitative / Variable qualitative
Point étudié
1 Introduction
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 83 / 92
Statistique descriptive bivariée Variable quantitative / Variable qualitative
Présentation des données
ConsidéronsVariable quantitative : X ∈ R
Variable qualitative : Y = y1, y2, . . . , ym
Variable Y Moyenne Ecart-typey1 xy1 sxy1y2 xy2 sxy2...
......
ym xym sxym
Variable Y Médiane Q1 Q3
y1 med(x)y1 Q1(x)(y1) Q3(x)(y1)y2 med(x)y2 Q1(x)(y2) Q3(x)(y2)...
......
...ym med(x)ym Q1(x)(ym) Q3(x)(ym)
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 84 / 92
Statistique descriptive bivariée Variable quantitative / Variable qualitative
Présentation des données
Exemple : croisement de l’âge en fonction du sexe
Sexe Moyenne Ecart-typeHomme 35 12Femme 29 9
Sexe Médiane Q1 Q3
Homme 22 33 45Femme 21 28 38
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 85 / 92
Statistique descriptive bivariée Variable quantitative / Variable qualitative
Représentations graphiques - Boîtes à moustachesCroisement de l’âge et du sexe
Femme Homme
2025
3035
4045
50
Distribution de l'âge en fonction du sexe
Sexe
Age
en
anné
es
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 86 / 92
Statistique descriptive bivariée Deux variables quantitatives
Point étudié
1 Introduction
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariéeMotivationsDeux variables qualitativesVariable quantitative / Variable qualitativeDeux variables quantitatives
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 87 / 92
Statistique descriptive bivariée Deux variables quantitatives
Représentation graphique - Nuage de pointsCroisement de la taille et du poids
140 160 180 200
6070
8090
100
110
120
Croisement de la taille et du poids
Taille en cm
Poi
ds e
n K
g
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 88 / 92
Statistique descriptive bivariée Deux variables quantitatives
Indicateur statistique - Coefficient de corrélation
Coefficient de corrélation linéaire de Pearson (N ⩾ 30 )
Mesure l’intensité du lien entre X et YCoefficient compris entre -1 et 1 (R ∈ [1, 1])Si R = 0 il n’y a pas de corrélation linéaire entre X et Y. Réciproquement, siR = |1|, il y a une corrélation linéaire parfaite entre X et Y
r = sxy
sx sy=
∑ni=1
∑nj=1(xi − x)(yi − y)√∑n
i=1(xi − x)2√∑n
i=1(yi − y)2
Attention : l’absence de relation linéaire entre deux variables ne permet de conclure àl’absence de relation ⇒ (exponentiel, puissance, . . . ) ⇒ Coefficient de corrélation deSpearman.
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 89 / 92
Statistique descriptive bivariée Deux variables quantitatives
Indicateur statistique - Coefficient de corrélation
Croisement de la taille et du poids
140 160 180 200
6070
8090
100
110
120
Croisement de la taille et du poids
Taille en cm
Poi
ds e
n K
g
r = 0.68
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 90 / 92
Conclusion
Point étudié
1 Introduction
2 Recueil des données
3 Statistique descriptive univariée
4 Statistique descriptive bivariée
5 Conclusion
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 91 / 92
Conclusion
Conclusion
Démarche générale de la statistique
Recueil des donnéesStatistique descriptive
Indicateurs statistiquesReprésentations graphiquesChoisis en fonction du type de variables
Statistique inférentielleExtrapolation de résultats calculés sur un échantillon à une population sous-jacente(estimation, tests statistiques, modélisations)Basée sur le calcul de probabilités
Michaël Genin (Université de Lille 2) Statistique descriptive Version - 31 mai 2016 92 / 92