statistique numérique et analyse des données -...

13
Arnak Dalalyan Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 1 1 Statistique Numérique et Analyse des Données Séance 1: Statistique Descriptive Arnak DALALYAN Ecole des Ponts ParisTech Arnak Dalalyan Intro Quelques infos Motivations Stat. : qu’est-ce que c’est ? Statistique Descriptive Série numérique Histogramme Fn de répartition Statistiques d’une série Tendance centrale Dispersion Stats d’ordre Boxplots Exercice Deux séries Covariance Nuage des points Droite de régression QQ-plot Exemple de Galton 1 2 Quelques Informations Qui suis je ? Arnak Dalalyan, chercheur en Statistique E-mail : [email protected] Page web du module : certis.enpc.fr/~dalalyan/StatNum.html Organisation du cours 8 séances de 2h de cours/exercices. 4 séances de 2h sur machine (TP), en utilisant le logiciel R. 1 examen final (2h). Evaluation : la note finale (NF) est calculée par la formule : NF =(9 × CR + 9 × EF + 2 × NP)/20. CR : note moyenne des comptes-rendus des TP. EF : note de l’examen final. NP : note de participation (devoir maison, participation aux TP,...).

Upload: dokiet

Post on 11-Sep-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

1

Statistique Numérique et Analyse des Données

Séance 1: Statistique Descriptive

Arnak DALALYANEcole des Ponts ParisTech

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

2

Quelques Informations

Qui suis je ?

Arnak Dalalyan, chercheur en StatistiqueE-mail : [email protected]

Page web du module :certis.enpc.fr/~dalalyan/StatNum.html

Organisation du cours

8 séances de 2h de cours/exercices.4 séances de 2h sur machine (TP), en utilisant le logiciel R.1 examen final (2h).

Evaluation : la note finale (NF) est calculée par la formule :NF = (9× CR + 9× EF + 2× NP)/20.

CR : note moyenne des comptes-rendus des TP.EF : note de l’examen final.NP : note de participation (devoir maison, participation aux TP,...).

Page 2: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

3

Statistique : Motivations

Les statistiques sont utilisées dans des domaines trèsvariés comme :

en géophysique, pour les prévisions météorologiques, laclimatologie, la pollution, etc ;en démographie : le recensement permet de faire une photographieà un instant donné d’une population et permettra par la suite dessondages dans des échantillons représentatifs ;en sciences économiques et sociales, et en économétrie : l’étude ducomportement d’un groupe de population ou d’un secteuréconomique s’appuie sur des statistiques ;en marketing : le sondage d’opinion devient un outil pour la décisionou l’investissement ;en métrologie, pour tout ce qui concerne les systèmes de mesure etles mesures elles-mêmes ;en écologie (étude des communautés végétales et desécosystèmes)

Au jour d’aujourd’hui, les connaissances statistiques sontindispensables pour un ingénieur, indépendamment de laspécialisation choisie !

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

4

Statistique : qu’est-ce que c’est ?

La Statistique est une science qui comprend la collecte,l’analyse, l’interprétation de données ainsi que la présentation deces ressources afin de les rendre compréhensibles de tous.

collecte de données plan d’expérience ;interprétation et présentation des données StatistiqueDescriptive ;analyse des données et aide à la décision StatistiqueInférentielle ;

L’objectif de la Statistique en tant que discipline mathématique estd’explorer les «propriétés fréquentielles» d’un jeu de données.

«propriétés fréquentielles» : les propriétés qui restent invariantespar toute transformation des données (par exemple, la permutation)qui ne modifie pas la fréquence des résultats.

La Statistique est une science s’appuyant sur les probabilités !Pour ceux qui ont des lacunes en probabilités, un cours de remise àniveau a été proposé, dont les slides sont disponibles en ligne.Vous pouvez également consulter les chapitres 1-6 du polycopié dela 1ère annéecermics.enpc.fr/~jourdain/probastat/poly.pdf

Page 3: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

5

Statistique Descriptive

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

6

Série Numérique

On a à notre disposition n valeurs réelles - notées x1, . . . , xn -constituant les résultats d’une certaine expérience répétée n fois.

source : sondages, expérience scientifiques, enregistrementshistoriques ;problème : données volumineuses difficile à interpréter ;objectif : résumer et trouver des outils de visualisation.

On dit que x1, . . . , xn sont les valeurs d’une variable (statistique)observées sur n individus.Une variable statistique est dite discrète si le nombre de valeursprises par cette variable est petit devant n.

Exemple : on lance 100 fois un dé à 6 faces.nombre d’observations : 100 ; nombre de valeurs prises : 6. Lavariable est donc discrète.

Une variable qui n’est pas discrète est dite continue.Exemple : Dans le but d’étudier les taux de contamination des solspar la substance toxique PCB (biphenil polychlorinaté), 26échantillons de sols ont été prélevés. Le taux de PCB contenusdans ces échantillons (mesurés en 10−4 g par kg de sol) sont :

3,5 1 1,6 12 8,1 5,3 23 8,2 1,8 9,8 1,5 9,79 15 24 11 107 18 29 49 94 12 16 22

Page 4: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

7

Histogramme d’une série numériqueVariable discrète

La façon la plus répendue de représenter la répartition d’une sériestatistique est basée sur la notion de l’histogramme.

Pour une variable discrète, on définit l’histogramme comme lafonction h : R→ N qui à chaque x ∈ R associe le nombred’éléments dans la série x1, . . . , xn égaux à x .

Exemple : on lance 100 fois un dé à

6 faces.On obtient l’histogramme :

Histogram of x

x

Fre

quen

cy

1 2 3 4 5 6

05

1015

20

Deux définitions coexistent :

h(x) =

n∑

i=1

1l(xi = x), effectifs

1n

n∑i=1

1l(xi = x), fréquences

Sur les appareils photo numériques, on voit souvent affichél’histogramme des couleurs.

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

8

Histogramme d’une série numériqueVariable continue

Pour une variable continue, on on commence par choisir unepartition de R en un nombre fini d’intervalles : I0, I1, . . . , Ik .

On dénombre ensuite le nombre d’observations dans chacun des

intervalles : nj =n∑

i=1

1l(xi ∈ Ij ).

On définit l’histogramme h(x) comme une fonction constante parmorceaux donnée par :

h(x) =nj

n|Ij |, ∀x ∈ Ij .

Exemple : Dans le but d’étudier lestaux de contamination des sols par lasubstance toxique PCB (biphenil po-lychlorinaté), 26 échantillons de solsont été prélevés. Le taux de PCBcontenus dans ces échantillons (me-surés en 10−4 g par kg de sol) sont :

3,5 1 . . . 1.5 9,79 15 . . . 16 22

Histogram of a

a

Den

sity

0 20 40 60 80 100

0.00

0.01

0.02

0.03

0.04

0.05

Histogram of a

a

Den

sity

0 20 40 60 80 100 120

0.00

0.01

0.02

0.03

0.04

0.05

Page 5: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

9

Fonction de répartition empirique

Une représentation alternative des fréquences des valeurscontenues dans une série numérique est la fonction derépartition, appelée également histogramme cumulé.

Pour un x ∈ R, la valeur en x de la fonction de répartition d’unesérie numérique x1, . . . , xn est la proportion des éléments de la

série inférieurs ou égaux à x : Fn(x) =1n

n∑i=1

1l(xi ≤ x)

L’avantage de la fonction de répartition, comparé àl’histogramme, est que sa définition est identique dans le casd’une variable discrète et dans le cas d’une variable continue.

Dans les deux exemples précédents :

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

fonction de réparition empirique

Fn(

x)

0 20 40 60 80 100 120

0.0

0.2

0.4

0.6

0.8

1.0

fonction de réparition empirique

Fn(

x)

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

10

Meilleure vue des FdR

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

fn de réparition empirique

Fn(

x)

0 20 40 60 80 100 120

0.0

0.2

0.4

0.6

0.8

1.0

fn de réparition empirique

Fn(

x)

●●●●

●●

●●●●●●

●●●

●●●●

●●

●●

Histogram of x

x

Den

sity

1 2 3 4 5 6

0.00

0.10

0.20

Histogram of a

a

Den

sity

0 20 40 60 80 100

0.00

0.02

0.04

Page 6: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

11

Statistiques d’une sérieStatistiques de tendance centrale

On appelle une statistique toute fonction qui associe auxdonnées x1, . . . , xn un vecteur S(x1, . . . , xn) ∈ Rp. On utilise lesstatistiques pour résumer les données.Statistiques de tendance centrale :

La moyenne, notée x , est définie par :

x =1n

n∑i=1

xi .

La médiane, notée Medx , est un nombre réel tel qu’au moins lamoitié des données sont ≤ Medx et au moins la moitié des donnéessont ≥ Medx .Le mode, noté Modex , est la valeur la plus fréquente à l’intérieur del’ensemble des données.Contrairement à la moyenne, la médiane et le mode ne sont pastoujours uniques.Exemple : on lance 20 fois un dé équilibré. On obtient les résultats :

face 1 2 3 4 5 6effectif 3 1 4 5 5 2

x = 3.7, Medx = 4 Modex = 4 (ou 5).

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

12

Statistiques d’une sérieStatistiques de dispersion

Les trois statistiques de dispersion les plus utilisées sont la variance,l’écart-type et l’écart interquartile.

La variance, notée vx , est la valeur moyenne des carrés desécarts entre les données et la moyenne :

vx =1n

n∑i=1

(xi − x)2.

L’écart-type, est la racine carré de la variance : sx =√

vx .

La déviation absolue moyenne : dx =1n

n∑i=1

|xi −Medx |.

L’écart interquartile est la différence entre le troisième et lepremier quartile : Q3 −Q1, où le premier quartile Q1

(respectivement, le toisième quartile Q3) est la médiane desdonnées ≤ Medx (resp. ≥ Medx ).

L’écart-type et l’écart interquartile sont mesurés dans les mêmesunités que les données, mais pas la variance.

Page 7: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

13

Exercice

Soit x1, . . . , xn une série numérique. Montrer que1 La variance est la solution du problème des moidres carrés :

vx = mina∈R

1n

n∑i=1

(xi − a)2

et que le minimum est atteint au point a = x .2 La déviation absolue moyenne est la solution du problème :

dx = mina∈R

1n

n∑i=1

|xi − a|

et que le minimum est atteint au point a = Medx .3 On dit que la médiane est moins sensible aux données aberantes

que la moyenne. Justifier cette affirmation. (Indice : on pourraconsidérer le cas où un des xi tend vers +∞ ou −∞, alors quetous les autres xi restent inchangés.)

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

14

Statistiques d’ordre

Pour avoir une idée des valeurs présentes dans la sérienumérique, on s’intéresse souvent à mini xi et à maxi xi prise parles xi . En statistique, on on les appelle première et dernièrestatistiques d’ordre et utlise les notations

x(1) = min1≤i≤n

xi , x(n) = max1≤i≤n

xi .

Plus généralement, on définit la statistique d’ordre de rang k ,notée x(k), comme la kème plus petite valeur parmi x1, . . . , xn.

En d’autres termes, soit (i1, . . . , in) une permutation (il peut y enavoir plusieurs) des indices (1, . . . , n) qui classe les donnéesdans l’ordre croissant :

xi1 ≤ xi2 ≤ . . . ≤ xin .

On appelle alors statistique d’ordre k la valeur x(k) = xik .

Page 8: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

15

Quantiles

Exemple : on lance 20 fois un dé et obtient les résultats :

face 1 2 3 4 5 6effectif 3 1 4 5 5 2

La 6ème statistique d’ordre x(6) est alors 3.La 15ème statistique d’ordre x(15) = Q3 = 5.

Pour toute valeur α ∈ (0, 1), on appelle quantile d’ordre α, notéqxα, de la série x1, . . . , xn, la statistique d’ordre x(m) avec

m = [αn].

On peut redéfinir les quartiles et la médiane comme suit :

Q1 = qx0.25, Medx = qx

0.5, Q3 = qx0.75.

En pratique, ces définitions de quartiles et médiane peuventconduire vers des résultats qui diffèrent légèrement de ceuxobtenus par la première définition, mais la différence décroitlorsque la taille n de la série augmente.

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

16

Boxplots (boîtes à moustaches)Construction

Un résumé simple et pratique de la répartition d’une sériex1, . . . , xn est donné par le quintuplet (A,Q1,Medx ,Q3,B), où

A et B représentent les limites de l’intervalle en dehors duquel lesdonnées sont considérées comme aberrantes.Medx , Q1 et Q3 sont respectivement la médiane, le premier et letroisième quartile.

Ce quintuplet est utilisé pour construire le boxplot :

Les valeurs A et B sont déterminées par les formules

A = min{

xi : xi ≥ Q1 − 1.5∆}, B = max

{xi : xi ≤ Q3 + 1.5∆

}.

où ∆ = Q3 − Q1.Si la série numérique a une répartition normale (Gaussienne), laprobabilité qu’une valeur de la série se trouve en dehors del’intervalle [A,B] est de 0.7%.Toutes les valeurs qui se trouvent en dehors de l’intervalle [A,B],considérées comme valeurs aberrantes, sont désignées par unsymbole (?, ◦, ∗, . . .).

Page 9: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

17

Boxplots (boîtes à moustaches)Interprétation et exercice

Pour interpréter un boxplot, il faut noter quela moitié des valeurs de la série se trouvent entre Q1 et Q3,c’est-à-dire dans la boîte du boxplot,la moitié des valeurs de la série se trouvent à gauche de la médiane,s’il n’y a pas de valeurs aberrantes, toutes les valeurs de la série setrouvent entre A et B,si la répartition de la série est symétrique, alors la médiane se trouveau milieu de la boîte et les moustaches sont de longueurs égales.

Les boxplots sont pratiques pour comparer deux sériesstatistiques.

Exercice : dans le but d’étudier les taux de contamination des sols parla substance toxique PCB (biphenil polychlorinaté), 26 échantillons desols ont été prélevés. Le taux de PCB contenus dans ces échantillons(mesurés en 10−4 g par kg de sol) sont :

3,5 1 1,6 12 8,1 5,3 23 8,2 1,8 9,8 1,5 9,79 15 24 11 107 18 29 49 94 12 16 22

Les quatorze premières observations sont en fait des taux de PCB derégions rurales, alors que les 10 observations restantes proviennent derégions urbaines. Tracer des boxplots pour les régions rurales eturbaines. Commenter le résultat.

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

18

Covariance and corrélation

On appelle covariance des séries numériques x1, . . . , xn et y1, . . . , yn lavaleur

sxy =1n

n∑i=1

(xi − x)(yi − y).

où x et y sont respectivement la moyenne des xi et celle des yi .

On appelle coefficient corrélation (linéaire) des séries numériquesx1, . . . , xn et y1, . . . , yn la valeur

ρxy =sxy

sx sy,

où sx et sy sont respectivement l’écart-type des xi et celui des yi . Parconvention, on pose ρxy = 0 si au moins l’un des deux écart-types sx , syest nul.

Le coefficient de corrélation est toujours entre −1 est +1 :−1 ≤ ρxy ≤ 1.

De plus, |ρxy | = 1 si et seulement si les séries x1, . . . , xn et y1, . . . , ynsont liées par une relation affine, c’est-à-dire xi = ayi + b pour touti = 1, . . . , n.

Page 10: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

19

Nuage des points

Supposons que l’on dispose de deux séries numériques x1, . . . , xn ety1, . . . , yn représentant les valeurs de deux variables prélevées sur nindividus.

Il est naturel et pratique de représenter ces données sous forme d’unnuage de points.

Il s’agit de représenter par un symbole (losange, dans l’exemple de la Fig.1) les n points de coordonnées (xi , yi ).

A titre d’exemple, considérons les données présentées dans la Table 1.1(cf. poly).

Les 38 individus sont des pays, alors que les deux variables X et Ysont respectivement le PIB (produit intérieur brut) par habitant et laconsommation d’énergie par habitant.Le nuage de point de ces données est affiché dans la Figure 1.

0

2

4

6

8

10

Consommationd’energie

FIGURE: Le nuage de points représentant les données de la Table 1.1 (cf.poly).

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

20

Droite de régression

Supposons que l’on dispose de deux séries numériques x1, . . . , xn ety1, . . . , yn représentant les valeurs de deux variables prélevées sur nindividus.

Afin d’obtenir une droite approximant le nuage de points, on calcule ladroite de régression de Y sur X , donnée par l’équation y = ax + b où

a =sxy

s2x, b = y − ax .

Pour les données de la Table 1.1, la droite de régression ainsi que sonéquation sont données dans ci-dessous

0 1 2 3 4 5 6 7

x 104

0

2

4

6

8

10

PIB

Consommationd’energie

y = 0.00011*x + 1.3

Mi

di

FIGURE: La droite de régression pour les données de la Table 1.1.

On voit dans la formule que la droite de régression de Y sur X necoïncide pas, en général, avec la droite de régression de X sur Y .

Si l’on note Mi le point (xi , yi ) et par di la distance entre Mi etM′i = (xi , axi + b), alors la droite de régression est la droite pour laquelle∑

i d2i est minimale (méthode des moindres carrés).

Page 11: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

21

QQ-plot (graphiques quantiles-quantiles)

Un QQ-plot permet de voir rapidement l’adéquation d’une sérienumérique à une distribution, ou comparer les répartitions de deux sériesnumériques.

1er cas : Lorsque l’on s’intéresse à l’adéquation à une distribution,l’axe des ordonnées porte les quantiles qj de la distributionobservée, tandis que l’axe des abscisses porte les quantiles q∗jcorrespondants de la loi théorique.2ème cas : Lorsque l’on s’intéresse à la comparaison de deuxdistributions, l’axe des ordonnées porte les quantiles qx

j de la sériex1, . . . , xn, tandis que l’axe des abscisses porte les quantiles qy

j dela série y1, . . . , yn.

Le nuage des points (q∗j , qj ) (respectivement (qyj , q

xj )) s’aligne sur la

première bissectrice lorsque la distribution théorique proposée est unebonne représentation des observations (resp., lorsque les répartitionsdes xi et des yi sont égales).

Si le nuage des points (q∗j , qj ) s’aligne sur une droite, alors il existe unetransformation affine des observations telle que la distribution théoriqueproposée est une bonne représentation des observations transformées.

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

22

QQ-plot : exemples

On génère de façon aléatoire n copies indépendantes de variables(xi , ui , yi , zi ) où xi ∼ N (0, 1), ui ∼ N (0, 1), yi ∼ N (2, 4) et zi ∼ E(1).

On trace, pour différentes valeurs de n, les QQplots de x sur u, de x sur yet x sur z.

On y voit quele premier nuage se concentre sur la bissectrice (égalité des répartitions),

le deuxième nuage se concentre autour d’une droite (égalité desrépartitions après une transformation affine des variables),

le troisième nuage n’indique aucune relation entre les deux répartitions.

Page 12: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

23

Exemple de Galton

Le terme regression a été introduit par Francis Galton, chercheurbritannique du 19e siècle,

Sir Francis Galton 1822-1911

dans le célèbre article :Regression towards mediocrity in hereditary statureJournal of the Anthropological Institute 15 : 246-63 (1886)

pour décrire le phénomène biologique suivant : la taille des enfants nésdes parents inhabituellement grands (ou petits) se rapproche de la taillemoyenne de la population.

Galton a analysé 928 données, chaque donnée étant la paire(taille moyenne des deux parents, taille de l’enfant) mesurée en pouce (1pouce = 2,54 cm). (Les tailles des femmes sont multipliées par 1.08.)

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

24

Exemple de Galton (suite)

On voit ci-dessous le nuage des points, la droite de régression de taille del’enfant sur taille moyenne des parents ainsi que la droite de régression detaille moyenne des parents sur taille de l’enfant :

●●●●

●● ●●

●●

●●

● ●●

●●

●●

● ● ●●

●●

● ●

●●●

●●●

●●

●●

●●

● ●●

●●●●

●●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●● ●

● ● ●●

●●

●●

●●

●●●●

● ●●

●●

●●

●●

●●

●●

● ●

●●●

●●

●●

●●

●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

● ●

●●

● ●

● ●

● ●

●●

● ●

●●

● ● ●

●●

●●

●●●●

●●

● ●

●●●●

●●

●●

●●

●● ●●

●●

●●

●●

●●

●●

● ●

● ●

●●●●

●●●

●●

●● ●

●●

●●

●● ●●

●●● ●

●●

●●

●●

●●

●●●

●● ●

●●●

● ●●

●●

● ●

●●

●●

●●

●● ● ●

●●

●●

●● ●

●●

●●●

●●

●●●● ●

●●●

●● ●●

●●

●●

●●

●●

●●●

● ●●

● ●

● ●●

●●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●●

●●

●●●●

● ● ●●●

●●

● ●●

● ●●

●●

●● ●

●●●

● ●

●●●

●●

●●●

●●●

●●

●●●

●●●

● ●●●

● ●

●●● ●

●●●●●

● ●

●●

●●

●●●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●●

●●●

●●

●●

●●

●● ●●

●●

● ●

●●●

●●

●●

●●●

●●

●●

●●

●● ●

●●

●●●

●● ●●

● ●

●●

● ●

●●

●● ●

● ●

●●

●●

● ●●

●●

●●

●●●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●●

●●

●●

●●●●●

●●

●●

●●

●●

●●

●● ●

●●●●● ●

●●●

● ●●

● ●●●

●●

● ●●

● ●

●●●

● ●

●●

●●

●●

●●

●●

● ●● ●●●

●●

●●

● ●●●

●●●

●●●

●●

●●

● ● ●● ●●

●●●

●●

●●

64 66 68 70 72

6264

6668

7072

74

parent

child

On remarque que, comme attendu, les deux droites ont des pentes positives.On constate également que les deux droites ne coïncident pas.Exercice : quand est-ce que les deux droites de régression coïncident ?

Page 13: Statistique Numérique et Analyse des Données - …certis.enpc.fr/~dalalyan/Download/Stat_descr.pdf · en marketing : le sondage d’opinion devient un outil pour la décision ou

Arnak Dalalyan

IntroQuelques infos

Motivations

Stat. : qu’est-ce que c’est ?

Statistique DescriptiveSérie numérique

Histogramme

Fn de répartition

Statistiques d’une série

Tendance centrale

Dispersion

Stats d’ordre

Boxplots

Exercice

Deux séries

Covariance

Nuage des points

Droite de régression

QQ-plot

Exemple de Galton

1

25

Exemple de Galton (suite et fin)

On peut s’intéresser à la relation entre les répartition des variables taille del’enfant et taille moyenne des parents :

On voit qu’après une transformation affine, les deux variables auront à peuprès la même répartition.