stat explo

Upload: mohamed-rdait

Post on 21-Feb-2018

230 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/24/2019 Stat Explo

    1/73

    Introduction la Statistique Exploratoire

    L3 SID

    Xavier Gendre

    [email protected]

    17 dcembre 2012

  • 7/24/2019 Stat Explo

    2/73

    ii

  • 7/24/2019 Stat Explo

    3/73

    License

    This work is licensed under the Creative Commons Attribution - Pas dUtilisation Commer-ciale - Partage dans les Mmes Conditions 3.0 France License. To view a copy of this license,visit http://creativecommons.org/licenses/by-nc-sa/3.0/fr/.

    iii

    http://creativecommons.org/licenses/by-nc-sa/3.0/fr/http://creativecommons.org/licenses/by-nc-sa/3.0/fr/
  • 7/24/2019 Stat Explo

    4/73

    iv

  • 7/24/2019 Stat Explo

    5/73

    Notations

    E Cardinal de lensembleE

    K(x, y) Corrlation de Kendall entre les observations des variables couplesx et y

    (x, y) Corrlation de Pearson entre les observations des variables couplesx et y

    S(x, y) Corrlation de Spearman entre les observations des variables couplesx et y

    Cov(x, y) Covariance entre les observations des variables couplesx et y

    2 Distance du 2 lindpendance

    R Ensemble des nombres rels

    R+ Ensemble des nombres rels positifs [0, +

    [

    Ensemble vide

    Fx Fonction de rpartition associe aux observations dune variable x

    x Moyenne des observations dune variable x

    q Quantile dordre[0, 1]tM Transpose de la matriceM

    x(1), . . . , x(n) Version ordonne des observationsx1, . . . , xn

    Var (x) , 2x Variance des observations dune variable x

    v

  • 7/24/2019 Stat Explo

    6/73

    vi

  • 7/24/2019 Stat Explo

    7/73

    Table des matires

    License iii

    Notations v

    1 Moyenne et variance 1

    1.1 Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Moyenne pondre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2 Distribution des observations dune variable 72.1 Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.2 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.2.1 Intervalles de mme longueur . . . . . . . . . . . . . . . . . . . . . . . . 72.2.2 Intervalles de longueurs diffrentes . . . . . . . . . . . . . . . . . . . . . 8

    2.3 Poids cumuls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.4 Fonction de rpartition et quantiles . . . . . . . . . . . . . . . . . . . . . . . . . 112.5 Bote moustaches (box plot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.6 Diagramme quantile-quantile (q-q plot). . . . . . . . . . . . . . . . . . . . . . . 15

    3 Observations de deux variables couples 173.1 Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    3.2 Covariance et corrlation linaire . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    3.3 Rgression linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.4 Corrlations de rang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.4.1 Corrlation de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.4.2 Corrlation de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.5 Distance du2 lindpendance . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    4 Observations de plusieurs variables couples 33

    4.1 Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.2 Matrices de covariance et de corrlation . . . . . . . . . . . . . . . . . . . . . . 33

    4.3 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    4.4 Changement de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    4.4.1 Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.4.2 Distance des variables rduites . . . . . . . . . . . . . . . . . . . . . . . 40

    4.4.3 Distance de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    4.5 Matrices symtriques dfinies positives . . . . . . . . . . . . . . . . . . . . . . . 42

    vii

  • 7/24/2019 Stat Explo

    8/73

    viii TABLE DES MATIRES

    4.5.1 Matrices symtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.5.2 Matrices dfinies positives . . . . . . . . . . . . . . . . . . . . . . . . . . 444.5.3 Diagonalisation des matrices symtriques . . . . . . . . . . . . . . . . . 44

    5 Analyse en composantes principales 495.1 Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.2 Composantes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.3 Reprsentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    5.3.1 Plan principal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.3.2 Reprsentation des individus . . . . . . . . . . . . . . . . . . . . . . . . 515.3.3 Interprtation des axes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    5.4 Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.4.1 Qualit globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.4.2 Changement de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    A Exemple dACP 59

  • 7/24/2019 Stat Explo

    9/73

    Chapitre 1

    Moyenne et variance des observations

    dune variable

    1.1 Introduction

    Lors de ltude dun phnomne, nous sommes souvent amens observer des variablesqui lui sont relatives. Ces variables peuvent tre de diffrentes natures (grandeurs physiques,caractristiques biologiques, . . .).

    Exemple Si le phnomne est mtorologique, les variables dintrt peuvent tre la tem-prature t et la classe c des nuages. Un jour dt, nous pourrions observer t1 = 36

    C etc1= "Cirrus" et, un jour dhiver, avoir les observationst2 =

    4C et c2= "Cumulus".

    Comme lillustre cet exemple, le type dune variable est, a priori, quelconque. Dans cepremier chapitre, nous considrerons uniquement des variables valeurs relles. Ces variablessont ditesquantitativescar elles refltent une ide de grandeur (temprature, vitesse, ge, . . .).

    1.2 Moyenne pondre

    Nous supposons que nous avons notre disposition un nombre entier n >0 dobservationsx1, . . . , xn Rdune variable quantitative x.

    Dfinition 1.1. La moyenne x des observations x1, . . . , xn R

    pondre par les poidsp1, . . . , pn> 0 est dfinie par

    x= 1

    p1+ +pnni=1

    pixi .

    La variable x est dite centre si x = 0. Les poids sont dits normaliss si ils vrifientp1+ +pn= 1. Dans ce cas, la moyennex devient

    x=n

    i=1pixi .

    1

  • 7/24/2019 Stat Explo

    10/73

    2 CHAPITRE 1. MOYENNE ET VARIANCE

    Il est important de remarquer que, quels que soient les poids p1, . . . , pn, il est toujourspossible de calculer x avec les poids normaliss p1, . . . ,pn donns par

    pi= pip1+ +pn , i {1, . . . , n}.

    En effet, par dfinition, nous avons

    x= 1

    p1+ +pnni=1

    pixi=ni=1

    pip1+ +pnxi =

    ni=1

    pixi

    et les poids p1, . . . ,pn sont normaliss car

    n

    i=1pi =

    n

    i=1pi

    p1+ +pn =p1+ +pnp1+ +pn = 1 .

    Dans la suite, nous considrerons souvent le cas particulier de la moyenne uniforme pourlaquelle tous les poids sont gaux (i.e. toutes les observations ont la mme importance).Prenons, par exemple, p1 = = pn = 1. Dans ce cas, nous avons p1 = = pn = 1/n etnous retrouvons la moyenne usuelle

    x= 1

    n

    ni=1

    xi .

    Plus gnralement, dire que lobservationxi "pse" un poids pi revient considrer que lavaleur xi intervient dans le calcul de x avec la proportion pi.

    Exemple Un lotissement contient n = 10 maisons dont 6 mesurent 80 m2 et 4 mesurent120 m2. Afin de calculer la moyenne uniforme des surfaces, une premire faon consiste revenir la dfinition1.1,

    1

    10(80 + + 80

    6 fois

    + 120 + + 120 4 fois

    ) = 96 m2 .

    La seconde manire consiste considrer que les habitations de 80 m2 reprsentent 6/10 desmaisons du lotissement et que celles de 120 m2 en reprsentent 4/10. Ainsi, nous pouvonscalculer la surface moyenne en ne considrant plus que le groupe des habitats de 80 m2 etcelui des 120m2 pour obtenir

    6

    10 80 + 4

    10 120 = 96 m2 .

    Autrement dit, nous avons calcul la moyenne de x1 = 80 et de x2 = 120 pondre par lespoids p1= 6/10 et p2 = 4/10.

    Cette seconde faon de faire le calcul est un exemple de dcomposition par groupes ducalcul de la moyenne. Elle se gnralise par le Thorme 1.1 suivant.

    Rappel SoientG1, . . . , Gn des parties dun ensembleE, on dit quelles forment unepartitionde Esi et seulement si

  • 7/24/2019 Stat Explo

    11/73

    1.2. MOYENNE PONDRE 3

    (i) G1 Gn= Eet

    (ii)

    i, j

    {1, . . . , n

    }, i

    =j

    Gi

    Gj =

    .

    Thorme 1.1. [Moyenne par groupes] Soient un entier N > 0 et G1, . . . , GN unepartition de{1, . . . , n}, nous notons x la moyenne des observations x1, . . . , xn pondre par

    p1, . . . , pn> 0 et, pour toutk {1, . . . , N }, xk la moyenne desxi pouriGk,

    xk =

    iGk

    pixi

    iGkpi

    .

    Alors, la moyennex est la moyenne desxk pondre par les poidsqk =iGk

    pi,

    x= 1

    q1+ + qNNk=1

    qkxk .

    Dmonstration. Il suffit de remarquer queq1+ + qN =p1+ +pn et de remplacer lesxkpar leurs dfinitions,

    1

    q1+ + qNNk=1

    qkxk = 1

    p1+ +pnNk=1

    qkiGk

    piiGk

    pixi

    = 1

    p1+ +pnNk=1

    iGk

    pixi

    = 1

    p1+ +pnni=1

    pixi = x .

    Exercice 1.1. Montrer que si les poidsp1, . . . , pn> 0sont normaliss alors les poidsq1, . . . , q Ndfinis dans le Thorme1.1 sont aussi normaliss.

    Le Thorme 1.1 est particulirement utile lorsque la variable x ne peut prendre quunnombre Nfini de valeurs distinctesy1, . . . , yN. En effet, dans ce cas, nous pouvons dfinir lesgroupes G1, . . . , GN par

    Gk ={i {1, . . . , n} tels que xi = yk} , k {1, . . . , N }. (1.1)

    Le groupe Gk contient donc tous les indices i tels que lobservation xi soit gale la valeuryk. Par consquent, nous savons que xk =yk. De plus, G1, . . . , GNforment une partition de

    {1, . . . , n

    }. Si nous notons nk leffectif du groupe Gk, k

    {1, . . . , N

    }, le Thorme1.1 nous

  • 7/24/2019 Stat Explo

    12/73

    4 CHAPITRE 1. MOYENNE ET VARIANCE

    permet de calculer la moyenne uniforme x des observationsx1, . . . , xn en fonction des valeursy1, . . . , yNet des effectifs n1, . . . , nN,

    x= 1n

    Nk=1

    nkyk

    car qk =nk et n1+ + nN=n.Exercice 1.2. Montrer que les groupesG1, . . . , GNdfinis par (1.1)forment bien une partitionde{1, . . . , n}.

    Enfin, pour les calculs de moyenne, il est souvent pratique dutiliser le fait que la moyenneest linaire.

    Proposition 1.1. Si a et b sont des nombres rels quelconques et que nous considrons les

    observationszi = axi+ b, i {1, . . . , n}, relatives la variable quantitativez = ax + b, alorsz = ax + b= a x + b .

    Prenons, de plus, une variable quantitative y et ses n observations y1, . . . , yn R. Si nousconsidrons les observations zi = xi+ yi, i {1, . . . , n}, relatives la variable quantitativez = x + y, alors

    z= x + y= x + y .

    Exercice 1.3. Ecrire la preuve de la Proposition1.1.

    1.3 Variance

    Nous supposons partir de maintenant que nous disposons dun nombre entier n > 0dobservations x1, . . . , xn Rdune variable x et de poids p1, . . . , pn> 0 normaliss.Dfinition 1.2. La variance Var (x) des observationsx1, . . . , xn est dfinie par

    Var (x) =ni=1

    pi(xi x)2 .

    Nous noterons aussiVar (x) = 2x ox =

    Var (x) est appel lcart-type. La variablexest diterduite siVar (x) = 1.

    La variance est donc la moyenne des carrs des carts x1x, . . . , xnx pondre parp1, . . . , pn. Cette quantit mesure la dispersion des observations autour dex. De plus, elle esttoujours positive.

    Exercice 1.4. Montrer que siVar (x) = 0 alors toutes les observationsx1, . . . , xn sont gales la moyennex.

    La variance est quadratique. En particulier, nous avons la proposition suivante.

    Proposition 1.2. Si a et b sont des nombres rels quelconques et que nous considrons lesobservationszi = axi+ b, i {1, . . . , n}, relatives la variable quantitativez = ax + b, alors

    Var (z) =Var (ax + b) =a2

    Var (x) .

  • 7/24/2019 Stat Explo

    13/73

    1.3. VARIANCE 5

    Il faut faire attention car la variance nest pas additive ; cest--dire que, en gnral,nous navons pas Var (x + y) =Var (x) +Var (y).

    Exemple Pour n = 2, supposons que nous ayons observ x1=1, x2= 1, y1= 0 et y2 = 1et que les poids soient p1= p2 = 1/2. Dans ce cas, x = 0 et y = 1/2. Nous avons alors

    Var (x) +Var (y) = 1 +1

    4=

    5

    4= 9

    4=Var (x + y) .

    Exercice 1.5. Ecrire la preuve de la Proposition1.2.

    Pour calculer Var (x), il est parfois utile dutiliser lexpression donne par la propositionsuivante.

    Proposition 1.3. La variance vaut la moyenne des carrs moins le carr de la moyenne,

    Var (x) =x2 x2 ,

    avecx2 =ni=1

    pix2i .

    Dmonstration. Dveloppons le carr dans la dfinition de la variance,

    ni=1

    pi(xi x)2 =ni=1

    pix2i 2x

    ni=1

    pixi+ x2

    ni=1

    pi

    = x2

    2x2 + x2

    = x2 x2 .

    Exercice 1.6. Soit un entiern >0. Dduire de la Proposition1.3que, pour toutx1, . . . , xnR et pour toutp1, . . . , pn> 0 tels quep1+ +pn= 1, nous avons

    ni=1

    pixi

    2

    ni=1

    pix2i .

    Il sagit dun cas particulier de lingalit de Jensen.

    Comme pour la moyenne, il est possible de dcomposer lexpression de la variance pargroupes.

    Thorme 1.2. [Variance par groupes] En utilisant les mmes hypothses et notationsque dans le Thorme1.1,nous notons, pour toutk {1, . . . , N }, 2k la variance desxi pouriGk,

    2k = 1

    qk

    iGk

    pi(xi xk)2 .

    Alors, la varianceVar (x) se dcompose en

    Var (x) =Varinter(x) +Varintra(x) (1.2)

    avec

  • 7/24/2019 Stat Explo

    14/73

    6 CHAPITRE 1. MOYENNE ET VARIANCE

    Varinter(x) =Nk=1

    qk(xk x)2 (Variance inter-groupe)

    et

    Varintra(x) =Nk=1

    qk2k . (Variance intra-groupe)

    Dmonstration. Faisons apparatre les xk dans lexpression de la variance,

    Var (x) =ni=1

    pi(xi x)2

    =Nk=1

    iGk

    pi((xi xk) + (xk x))2

    =Nk=1

    iGk

    pi(xi xk)2 + 2Nk=1

    (xk x)iGk

    pi(xi xk)

    +Nk=1

    (xk x)2iGk

    pi

    =Nk=1

    qk2k+ 2

    Nk=1

    (xk x)iGk

    pi(xi xk) +Nk=1

    qk(xk x)2 .

    Pour conclure, il suffit de remarquer que le terme central est nul,

    iGk

    pi(xi xk) = iGk

    pixi xk iGk

    pi = qkxk xkqk = 0.

    Les deux termes qui apparaissent dans la dcomposition (1.2) ne sinterprtent pas de lamme faon. La variance inter-groupe Varinter(x)est la variance des moyennes et elle traduitla dispersion entre les groupes. La variance intra-groupe Varintra est la moyenne des varianceset elle correspond la dispersion dans les groupes.

  • 7/24/2019 Stat Explo

    15/73

    Chapitre 2

    Distribution des observations dune

    variable

    2.1 Introduction

    Une fois que nous disposons des observations dune variable quantitative, il peut tre int-ressant de regarder comment ces observations sont rparties. Pour rendre compte visuellementde cette distribution, il existe de nombreuses mthodes graphiques. Nous prsentons dans cechapitre certaines parmi les plus utilises.

    Dans la suite, nous supposons avoir n > 0 observations x1, . . . , xn R dune variablequantitative x et des poids p1, . . . , pn> 0 normaliss.

    2.2 Histogramme

    La premire reprsentation laquelle nous allons nous intresser est celle deshistogrammes.Nous considrons N+ 1 nombres rels a0 < a1

  • 7/24/2019 Stat Explo

    16/73

    8 CHAPITRE 2. DISTRIBUTION DES OBSERVATIONS DUNE VARIABLE

    nk pour un diagramme des effectifs, fk pour un diagramme des frquences,

    p(k) pour un diagramme des poids.

    Exemple Supposons que nos 20 observations aient toutes le mme poids 1/20 et soientrparties de la faon suivante : 5 valeurs dans [0, 10[, 3 valeurs dans [10, 20[, 5 valeurs dans[20, 30[ et 7 valeurs dans [30, 40[.

    0 10 20 30 40

    0

    1

    2

    3

    4

    5

    6

    7

    Figure2.1 Diagramme des effectifs pour des intervalles de mme taille.

    Exercice 2.1. Que faut-il modifier sur la Figure2.1 pour obtenir directement le diagrammedes frquences ?

    2.2.2 Intervalles de longueurs diffrentes

    Nous ne supposons plus que les intervalles soient tous de mme longueur. Si nous tracionsles rectangles comme prcdemment, leurs surfaces seraient fausses et cela donnerait une

    mauvaise reprsentation de la distribution des observations.Il est donc important de normaliser la hauteur des rectangles par la longueur des inter-

    valles :

    nkak ak1 pour un diagramme des effectifs,

    fkak ak1 pour un diagramme des frquences,

    p(k)

    ak ak1 pour un diagramme des poids.

    Exemple Reprenons les observations de lexemple prcdent et regroupons les intervalles[10, 20[ et [20, 30[. Nous avons donc deux intervalles de longueur 10 et un de longueur 20.

  • 7/24/2019 Stat Explo

    17/73

    2.2. HISTOGRAMME 9

    Si nous ne renormalisons pas la hauteur des rectangles, la reprsentation est fausse commele montre la Figure 2.2. En revanche, la figure 2.3 reprsente le diagramme des frquencescorrectement normalis.

    0 10 20 30 40

    0

    2

    4

    6

    8

    Figure 2.2 Diagramme des effectifs incorrect dans le cas dintervalles de longueurs diffrentes( comparer avec les Figures2.1et 2.3).

    0 10 20 30 40

    0.000

    0.005

    0.010

    0.015

    0.020

    0.025

    0.030

    0.035

    Figure 2.3 Diagramme des frquences pour des intervalles de longueurs diffrentes.

    Exercice 2.2. Si les poidsp1, . . . , pn sont tous gaux 1/n, comment comparer le diagrammedes frquences et celui des poids ?

  • 7/24/2019 Stat Explo

    18/73

    10 CHAPITRE 2. DISTRIBUTION DES OBSERVATIONS DUNE VARIABLE

    2.3 Poids cumuls

    Comme dans la section prcdente, nous considrons N+ 1nombres relsa0< a1

  • 7/24/2019 Stat Explo

    19/73

    2.4. FONCTION DE RPARTITION ET QUANTILES 11

    0 10 20 30 40

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Figure2.5 Diagramme des poids cumuls avec [0, 10[, [10, 30[ et [30, 40[.

    2.4 Fonction de rpartition et quantiles

    Lafonction de rpartitionpeut tre vue comme un diagramme des poids cumuls particulier

    pour lequel il ny aurait quune unique observation dans chaque intervalle. Il sagit dunefonction Fx constante par morceaux et croissante de 0 1 dfinie pour tout t Rpar

    Fx(t) =

    i tel quexit

    pi .

    Cette fonction fait donc un saut en chaque point xi. Pour la reprsenter, il peut tre pratiquede considrer la version ordonne des observations. Cette version est une permutation desobservations, note x(1), . . . , x(n), choisie de telle sorte que nous ayons

    x(1) x(n) .Nous savons alors que la fonction de rpartition Fx vaut 0 sur ]

    , x(1)[, quelle fait un saut

    chaque point x(i) et quelle vaut 1 sur [x(n), +[.

    Exemple Considrons que nous avons lesn = 5 observations suivantes :

    x1= 3 , x2=1, x3= 4, x4= 3 , x5= 0 .La version ordonne de ces observation est donc

    x(1)= x2=1, x(2)= x5= 0 , x(3)= x1= 3 , x(4)= x4= 3, x(5)= x3= 4 .Il faut noter que le choix de lordre de x(3) et x(4) est arbitraire puisque les donnes x1 et x4sont gales. Si nous considrons maintenant que les poids p1, . . . , p5 sont tous gaux 1/5,alors la fonction de rpartition est donne par la Figure 2.6.

  • 7/24/2019 Stat Explo

    20/73

    12 CHAPITRE 2. DISTRIBUTION DES OBSERVATIONS DUNE VARIABLE

    2 0 2 4 6

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    (

    (

    (

    (

    Figure2.6 Fonction de rpartition de x1 = 3, x2 =1, x3 = 4, x4 = 3, x5 = 0 avec despoids uniformes.

    Dfinition 2.1. Soit [0, 1], nous appelons quantile dordre tout nombre q R telque nous ayons une proportion des observations qui soit infrieure ou gale q.

    Ainsi, si = i/n pour un i {1, . . . , n}, alors q = qi/n = x(i). Par convention, si [0, 1/n[, nous poserons que le quantile dordre vaut q = car il ny a aucuneobservation avant x(1). Enfin, si [(i1)/n, i/n[ pour un i {1, . . . , n}, alors il existe

    [0, 1] tel que = (i 1 + )/n et nous interpolons entre q(i1)/n = x(i1) et qi/n = x(i)pour obtenir le quantile dordre ,q= x(i1)+

    x(i) x(i1)

    . (2.1)

    Notons que cette dfinition par interpolation est bien compatible avec la convention q =lorsque[0, x(1)[.

    Un des avantages de cette dfinition par interpolation est que les quantiles sont directe-ment lisibles sur le graphe de la fonction de rpartition. Il faut cependant faire attention auxdoublons dans les observations (comme x1 et x4 dans lexemple). Pour cela, nous notons p(i)le poids de lobservation x(i) et nous introduisons les quantits F

    (i) pouri {1, . . . , n},F(i) =p(1)+

    +p(i) Fx(x(i)) .

  • 7/24/2019 Stat Explo

    21/73

    2.4. FONCTION DE RPARTITION ET QUANTILES 13

    Il suffit alors de tracer la courbe linaire par morceaux joignant les points (x(i1), F(i1))

    et (x(i), F(i)) et de lire q sur laxe des abscisses comme tant lantcdent de sur cette

    courbe (voir Figure2.7). Si il ny a aucun doublon parmi les observations, cette courbe reliesimplement les points de saut deFx. Par contre, si il y a des doublons, certaines parties de lacourbes deviennent des segments verticaux comme cela se voit sur la Figure 2.7 entre x(3) etx(4).

    2 0 2 4 6

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    (

    (

    (

    (

    q

    Figure 2.7 Lecture du quantile q dordre grce la fonction de rpartition.

    Dfinition 2.2. Lamdiane est le quantileq0.5 dordre50%. De plus, nous appelons quar-tiles les quantilesq0.25 etq0.75 25% et75%.

    Exemple Reprenons les valeurs de lexemple prcdent. Pour calculer la mdiane, il fauttrouver le quantile dordre 50%. Or, nous savons que 0.5 = 2.5/5 = (3 1 + 0.5)/5(i.e.i = 3et = 0.5dans (2.1)). Donc, la mdiane vaut

    q0.5= x(2)+ 0.5

    x(3) x(2)

    = 0 + 0.5(3 0) = 1.5.

    De la mme faon, nous savons que 0.25 = 1.25/5 = (21 + 0.25)/5 et 0.75 = 3.75/5 =(4 1 + 0.75) et nous calculons les quartiles,

    q0.25= x(1)+ 0.25 x(2) x(1) =1 + 0.25(0 + 1) =0.75

  • 7/24/2019 Stat Explo

    22/73

    14 CHAPITRE 2. DISTRIBUTION DES OBSERVATIONS DUNE VARIABLE

    etq0.75= x(3)+ 0.25

    x(4) x(3)

    = 3 + 0.75(3 3) = 3 .

    Ces rsultats se retrouvent graphiquement comme lillustre la Figure 2.8.

    2 0 2 4 6

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    (

    (

    (

    (

    0.25

    q0.25=0.75

    0.5

    q0.5=1.5

    0.75

    q0.75=3

    Figure 2.8 Lecture de la mdiane et des quartiles de lexemple.

    Exercice 2.3. Considrons que nous avons lesn= 5 observations suivantes :

    x1= 3 , x2=1 , x3= 5 , x4= 2 , x5=3 .

    Tracer la fonction de rpartitionFx et calculer la mdiane et les quartiles. Retrouver ensuitegraphiquement ces rsultats.

    2.5 Bote moustaches (box plot)

    La bote moustaches (ou box ploten anglais) est un graphe synthtique et trs utilis enpratique pour reprsenter la distribution des observations dune variable quantitative. Le corpsde ce graphe fait apparatre la mdiane, les deux quartiles et linter-quartile I Q= q0.75q0.25.Nous ajoutons des "moustaches" pour reprsenter les donnes en dehors de linter-quartile.Les extrmits des moustaches peuvent avoir des significations diffrentes selon les situations(voir Figure2.9) :

  • 7/24/2019 Stat Explo

    23/73

    2.6. DIAGRAMME QUANTILE-QUANTILE (Q-Q PLOT) 15

    elles peuvent indiquer les valeurs minimales et maximales des observations, elles peuvent reprsenter le maximum entre la plus petite valeur et q0.25 1.5 IQainsi

    que le minimum entre la plus grande valeur et q0.75+ 1.5

    IQ(dans ce cas, les donnes

    en dehors sont dites exceptionnelles ou outliers), elles peuvent prendre dautres valeurs, il faut donc prendre garde cela pour interprter

    un box plot.

    minq0.25 q0.5 q0.75

    max

    IQ

    minq0.25 q0.5 q0.75

    q0.75+ 1.5 IQ

    IQ

    Donnes exceptionnelles

    Figure2.9 Les moustaches peuvent indiquer les valeurs minimales et maximales (au dessus)ou tre limites q

    0.251.5

    IQ et q

    0.75+ 1.5

    IQ (au dessous).

    2.6 Diagramme quantile-quantile (q-q plot)

    En plus de nos observations x1, . . . , xn de la variable x, nous supposons dans cette sectionque nous disposons aussi dun nombre entier m >0 dobservations y1, . . . , ym dune variablequantitative y qui na, a priori, aucun rapport avec x. De plus, pour [0, 1], nous noteronsq(x) et q(y) les quantiles dordre pour les variables x et y respectivement.

    Le diagramme quantile-quantile (ouq-q ploten anglais) est un outil graphique qui permetde comparer les distributions des deux jeux dobservations. Par exemple, en pratique, les don-nesx1, . . . , xn peuvent tre observes pour un phnomne tudier et les donnes y1, . . . , ympeuvent tre calcules partir dun modle thorique dcrivant ce phnomne. Le diagrammequantile-quantile permet alors de vrifier graphiquement la validit du modle en comparantla distribution observe avec la distribution thorique.

    Pour construire le diagramme quantile-quantile, il faut considrer un nombre entier K >0de valeurs 0 1 K 1 (plus K sera grand, plus notre diagramme pourra treprcis). Le diagramme sobtient finalement en traant la courbe linaire par morceaux quipasse par les points (qk(x), qk(y)) pour k {1, . . . , K }.

    Si cette courbe est "proche" de la premire diagonale (la droite " y = x"), alors nouspourrons conclure que les distributions de x et de ysont similaires. Si la courbe est proche dunedroite qui nest pas la premire diagonale, alors nous pourrons proposer une transformation

  • 7/24/2019 Stat Explo

    24/73

    16 CHAPITRE 2. DISTRIBUTION DES OBSERVATIONS DUNE VARIABLE

    affine (type "y =ax +b") pour rendre les distributions comparables. Enfin, si le diagrammene fait pas apparatre une droite, nous ne pouvons pas conclure, a priori.

    Exemple Nous considrons deux machines A et B qui sont utilises pour remplir des sachetsde 25 grammes dun mdicament. Elles ont toutes les deux t testes n = 1000fois chacune.Le tableau suivant donne le relev de ces mille tests, en indiquant, pour chaque machine, lenombre de fois o elle a donn un sachet dont le poids est indiqu en premire ligne :

    Poids 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

    A 10 10 10 50 30 10 20 40 80 450 150 10 40 0 90

    B 0 0 10 10 10 20 40 162 0 488 10 140 50 30 30

    Prenons 1 = 0.1, 2 = 0.2, . . . , 10 = 1.0 et calculons les quantiles associs : q1(A) = 20,q2(A) = 24, q3(A) = 25, . . . , q7(A) = 25, q8(A) = 26, q9(A) = 28, q10(A) = 30

    et q1(B) = 23, q2(B) = 23, q3(B) = 25, . . . , q7(B) = 25, q8(B) = 27, q9(B) = 28,q10(B) = 30. Nous traons donc le diagramme partir des points(q1(A), q1(B)) = (20, 23),(q2(A), q2(B)) = (24, 23), ... La Figure 2.10montre le diagramme obtenu et suggre queles deux machines nadmettent par les mmes distributions au vu de lcart la premirediagonale.

    20 22 24 26 28 30

    22

    24

    26

    2

    8

    30

    Figure 2.10 Diagramme quantile-quantile de lexemple.

  • 7/24/2019 Stat Explo

    25/73

    Chapitre 3

    Observations de deux variables

    couples

    3.1 Introduction

    La dernire section du chapitre prcdent prsente un exemple de comparaison entre deuxjeux de donnes relatifs des variables x et y. Lorsque ces jeux de donnes sont issus dunemme exprience, nous parlerons dobservations couples. Dans ce cas, le statisticien peutnaturellement se poser nombre de questions sur leurs liens potentiels : existe-t-il une relationentre x et y ? Si oui, de quelle nature ? Si non, comment le justifier ? . . .

    Dans ce chapitre, nous considrons donc deux jeux de mme taille n > 0 dobservations

    couples x1, . . . , xn et y1, . . . , yn relatifs des variables quantitatives x et y respectivement.Ces observations seront pondres par les poidsp1, . . . , pn> 0 normaliss.

    3.2 Covariance et corrlation linaire

    Un premire faon dtablir un lien entre les variables x et y consiste regarder si lesobservations ont tendance varier dans le mme sens.

    Dfinition 3.1. La covariance entre les observations dex et celles dey est dfinie par

    Cov(x, y) =n

    i=1pi(xi x)(yi y) .Le signe de la covariance a une signification importante. En effet, la covariance Cov (x, y)

    aura tendance tre positive si, pour de nombreux i {1, . . . , n}, nous avonsxi xet yi you bien si nous avons xi xet yi y. Autrement dit, nous aurons

    Cov(x, y)> 0 si les variables x et y ont tendance varier dans le mme sens, Cov(x, y)< 0 si les variables x et y ont tendance varier en sens inverse.

    Lorsque la covariance est proche de 0, il nest pas possible de linterprter directement.

    Exemple Six est la temprature extrieure et si y est le volume de crme glace achet, lesobservations de x et de y auront tendance varier dans le mme sens (plus il fait chaud, plusil y a de glaces consommes) et la covariance sera positive. Si x est la temprature extrieure

    17

  • 7/24/2019 Stat Explo

    26/73

    18 CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

    et si y est la consommation de gaz pour le chauffage, les observations de x et dey volueronten sens inverse (plus il fait chaud, moins nous chauffons les maisons) et la covariance serangative.

    Proposition 3.1. Soienta un nombre rel quelconque etz1, . . . , zn Rles observations dunevariable quantitativez, la covariance vrifie les proprits suivantes :

    Bilinarit :

    Cov(ax,y) =aCov(x, y) et Cov(x,ay) =aCov(x, y) ,

    Cov(x, y+ z) =Cov(x, y) +Cov(x, z)

    et

    Cov(x + z, y) =Cov(x, y) +Cov(z, y) ,

    Symtrie :Cov(x, y) =Cov(y, x) ,

    Positivit :Cov(x, x) 0 .

    Dmonstration. La covariance est symtrique par dfinition,

    Cov(x, y) =ni=1

    pi(xi x)(yi y) =ni=1

    pi(yi y)(xi x) =Cov(y, x).

    Pour avoir sa bilinarit, par symtrie, il suffit de montrer la linarit en x. La Proposition1.1donne

    Cov(ax,y) =ni=1

    pi(axi ax)(yi y) =ani=1

    pi(xi x)(yi y) =aCov(x, y)

    et

    Cov(x, y+ z) =ni=1

    pi(xi x) ((yi y) + (zi z))

    =n

    i=1pi(xi x)(yi y) +n

    i=1pi(xi x)(zi z)= Cov(x, y) +Cov(x, z) .

    Remarquons enfin que la covariance dune variable avec elle-mme est sa variance,

    Cov(x, x) =Var (x) 0 .

    Comme nous lavons vu au Chapitre 1, la variance nest pas additive. Cependant, il estpossible de dvelopper la variance dune somme de variables quantitatives en faisant intervenirla covariance.

  • 7/24/2019 Stat Explo

    27/73

    3.2. COVARIANCE ET CORRLATION LINAIRE 19

    Proposition 3.2. Nous avons

    Var (x + y) =Var (x) + 2Cov(x, y) +Var (y) .

    Dmonstration. Il suffit de dvelopper la somme qui dfinit la variance de x + y,

    Var (x + y) =ni=1

    pi((xi x) + (yi y))2

    =ni=1

    pi(xi x)2 + 2ni=1

    pi(xi x)(yi y) +ni=1

    pi(yi y)2

    = Var (x) + 2Cov(x, y) +Var (y) .

    Pour calculer la covariance Cov(x, y), il est souvent pratique dutiliser le rsultat suivant.

    Proposition 3.3. La covariance vaut la moyenne des produits moins le produit des moyennes,

    Cov(x, y) =xy x y

    avecxy =ni=1

    pixiyi.

    Dmonstration. Dcomposons la somme de la dfinition de la covariance,

    Cov(x, y) =n

    i=1pi(xi x)(yi y)=

    ni=1

    pixiyi xni=1

    piyi yni=1

    pixi+ x yni=1

    pi

    = xy 2x y+ x y= xy x y .

    En dehors de son signe, la valeur de la covariance Cov(x, y) ne donne pas beaucoup plusdinformations car elle est dpendante de lchelle des variables xet y . Pour contourner cela,il faut normaliser les observations et considrer la quantit suivante.

    Dfinition 3.2. La corrlation (ou coefficient de corrlation linaire de Pearson)entre les observations dex et dey est dfinie par

    (x, y) = Cov(x, y)Var (x)

    Var (y)

    =Cov(x, y)

    xy.

    Il est vident que le signe de la corrlation sinterprte toujours comme celui de la cova-riance. En particulier, il ny a toujours pas dinterprtation directe lorsque la corrlation estproche de zro. Cependant, il est possible dinterprter la valeur de la corrlation car celle-ci estune quantit borne et indpendante de lchelle dans laquelle sont exprimes les observationsde x et de y .

  • 7/24/2019 Stat Explo

    28/73

    20 CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

    Thorme 3.1. La corrlation est borne par1 en valeur absolue,

    1 (x, y) 1 .

    Dmonstration. Il est possible de voir les observations de x et de y comme deux vecteurs(x1 x , . . . , xn x) et(y1 y , . . . , yn y) de Rn. Ainsi, par la Proposition3.1,la covarianceCov(x, y) entre x et y est un produit scalaire (i.e. une forme bilinaire symtrique dfiniepositive, voir le cours dalgbre linaire) entre ces vecteurs. De plus, la norme associe ceproduit scalaire est

    Var (x). La preuve du thorme est donc une consquence directe de

    lIngalit de Cauchy-Schwarz que nous re-dmontrons ici.

    Soit t R, nous considrons la variable quantitative z = x+ty. En utilisant les Propositions1.2,3.1et 3.2,nous obtenons

    Var (z) =Var (x + ty) =Var (x) + 2tCov(x, y) + t2

    Var (y) .

    La variance de z est donc un polynme du second degr en t. Comme Var (z) 0 pour toutt R, nous savons que ce polynme a au plus une racine relle et que son discriminant estngatif,

    = 4Cov(x, y)2 4Var (x) Var (y) 0 .Autrement dit,

    Cov(x, y)2 Var (x) Var (y) |Cov(x, y)|

    Var (x)

    Var (y)

    |(x, y)| 1 .

    La valeur de (x, y) nous renseigne donc sur limportance du lien potentiel entre x et y.Plus particulirement, nous avons que plus|(x, y)| est proche de 1, plus la relation affineentre les variables x et y est avre comme nous allons le voir dans la section suivante.

    Exercice 3.1. Montrer que si les points observs (x1, y1), . . . , (xn, yn) sont sur une droitedquation "y = ax + b" alors|(x, y)|= 1. Rciproquement, montrer que si|(x, y)|= 1 alorsles points observs(x1, y1), . . . , (xn, yn) sont tous aligns le long dune droite dont on donneralquation selon que (x, y) = 1 ou que(x, y) =1. (Utiliser lexercice 1.4 et la preuve duThorme3.1)

    3.3 Rgression linaire

    Dans toute cette section, nous supposerons que les poids p1, . . . , pn sont uniformes, i.e.p1= = pn= 1/n.

    Lorsque nous cherchons tablir une relation entre deux variables quantitatives x et y,une premire approche simple consiste regarder si il existe une relation affine (i.e. de laforme y = ax + b avec a, b R) entre elles. Bien entendu, en pratique, il est presque toujoursimpossible dtablir une telle relation de faon exacte entre les observations de x et celles dey. Cependant, nous pouvons chercher la droite qui explique "au mieux" y par rapport x.

  • 7/24/2019 Stat Explo

    29/73

    3.3. RGRESSION LINAIRE 21

    Cette procdure sappelle largression linaireet elle se formalise comme ce qui suit. Nouscherchons deux nombres rels a et b tels que lerreur commise en expliquant les observations yiparaxi+ b,i

    {1, . . . , n

    }, soit la plus petite possible au sens des moindres carrs. Autrement

    dit, nous cherchons a, b Rtels que lerreur moyenne

    1

    n

    ni=1

    (yi (axi+ b))2 (3.1)

    soit minimale (voir Figure3.1). Les valeurs de a et de b telles que cette erreur soit minimaledonnent lquation y = ax + b de la droite de rgression.

    0.5 0.0 0.5 1.0

    1.0

    0.5

    0.0

    0.5

    1.0

    1.5

    (x1,y1)

    (x2,y2)

    (x3,y3)

    (x4,y4)

    (x5,y5)

    Figure 3.1 Erreurs (en rouge) commises entre les observations et la droite y = 0.5 x.

    Thorme 3.2. Si les variables x et y sont centres et rduites alors lerreur (3.1) est mi-nimale pour a = Cov(x, y) et b = 0. Dans ce cas, lquation de la droite de rgression estdonc

    y= Cov(x, y) x .

    Dmonstration. Nous commenons par dvelopper lerreur (3.1) en utilisant le fait que x =

  • 7/24/2019 Stat Explo

    30/73

    22 CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

    y= 0,

    1

    n

    n

    i=1 (yi (axi+ b))2 = 1

    n

    n

    i=1 ((yi axi) b)2=

    1

    n

    ni=1

    (yi axi)2 2bn

    ni=1

    (yi axi) + 1n

    ni=1

    b2

    = 1

    n

    ni=1

    (yi axi)2 2b(y ax) + b2

    = 1

    n

    ni=1

    (yi axi)2 + b2 .

    La quantit que nous cherchons minimiser est la somme de deux termes positifs, lun dpen-

    dant dea et lautre deb. Nous obtenons donc directement que b = 0. Pour dterminer a, nouscontinuons dvelopper cette quantit en utilisant que x2 =Var (x) = 1 et y2 =Var (y) = 1,

    1

    n

    ni=1

    (yi axi)2 = 1n

    ni=1

    y2i2a

    n

    ni=1

    yixi+a2

    n

    ni=1

    x2i

    = y2 2axy+ a2x2= a2 2xy a + 1 .

    Nous minimisons donc ce polynme du second degr en a = xy = Cov(x, y).

    Le rsultat du thorme3.2 se gnralise des variables quantitatives x et y qui ne sont

    plus supposes tre centres rduites de la faon suivante.

    Corollaire 3.1. Dans le cas gnral, lerreur (3.1) est minimale poura= Cov(x, y)/Var (x)etb = y ax et lquation de la droite de rgression est donne par

    y= Cov(x, y)

    Var (x) x +

    y Cov(x, y)

    Var (x) x

    .

    Dmonstration. Considrons les variables quantitatives x et y obtenues en centrant et enrduisantx et y respectivement,

    x = x x

    xet y =

    y yy

    .

    Pour ces variables, le Thorme3.2 nous donne lquation de la droite de rgression,

    y =Cov

    x, y x y y

    y=Cov

    x x

    x,y y

    y

    x x

    x

    y y= Cov(x, y)xy

    yx

    (x x)

    y = Cov(x, y)2x =a

    x + y Cov(x, y)2x

    x =b

    .

  • 7/24/2019 Stat Explo

    31/73

    3.3. RGRESSION LINAIRE 23

    Nous retrouvons dans ce rsultat le fait que si Cov(x, y) > 0, alors les variables varientdans le mme sens et inversement (voir Figures3.2 et 3.3).

    Exercice 3.2. Le Corollaire3.1 donne la droite de rgression dey par rapport x dquationy = ax +b. Sia= 0, nous pouvons en dduire quex= ay+b aveca = 1/a etb =b/a.Calculer lquation de la droite de rgression dex sury (i.e. trouvera, b Ravecx = ay + b)et comparer-la avecx = ay+ b. Conclure que les droites de rgression dey surx et dex sury ne sont pas les mmes.

    0.0 0.2 0.4 0.6 0.8 1.0

    1.0

    1.5

    2.0

    2.5

    3.0

    0.0 0.2 0.4 0.6 0.8 1.0

    1.0

    0.5

    0.0

    0.5

    1.0

    Figure3.2 Tracs des observations(xi, yi)et de la droite de rgression (en rouge) associe.A gauche, (x, y) = 0.9855 et droite, (x, y) =0.9863.

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    0.0 0.2 0.4 0.6 0.8 1.0

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Figure3.3 Tracs des observations(xi, yi)et de la droite de rgression (en rouge) associe.Dans les deux cas,(x, y) = 0et nous voyons quil nest pas possible dinterprter cette valeurcar les variables x et y peuvent tre indpendantes ( gauche) ou lies ( droite).

  • 7/24/2019 Stat Explo

    32/73

    24 CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

    3.4 Corrlations de rang

    Dans toute cette section, nous supposerons que les poids p1, . . . , pn sont uniformes, i.e.

    p1= = pn= 1/n.Le coefficient de corrlation de Pearson (x, y) est un bon indicateur de lalignement des

    observations et donc de lexistence dune relation affine entre les variables x et y . Cependant,ces variables peuvent tre lies sans pour autant que cette relation soit affine. Les coefficients decorrlation que nous allons introduire dans cette section mesurent lexistence dune relationentre x et y sans en prciser la nature. Ces deux coefficients sont bass sur les rangs desobservations dans leurs versions ordonnes.

    3.4.1 Corrlation de Spearman

    Pour chaque i {1, . . . , n}, nous dfinissons ri comme le rangde lobservation xi dans laversion ordonne x(1) x(n). De mme, si est le rang de yi parmi les y(1) y(n).En cas dgalit entre plusieurs observations, les rangs de celles-ci sont tous pris gaux lavaleur moyenne des rangs concerns. Dans la suite, les rangs r1, . . . , rn et s1, . . . , sn seronttraits comme les observations des variables de rang r et s respectivement.

    Exemple Supposons que nous ayons observ

    x1= 4.2 , x2= 3.1 , x3 = 5.1 , x4= 3.1 et x5= 1.3 .

    La version ordonne de nos observations est donc

    x(1)= 1.3 , x(2)= 3.1 , x(3)= 3.1 , x(4)= 4.2 et x(5)= 5.1 .

    Dans ce classement, le rang de x1 est r1 = 4, celui de x3 est r3 = 5 et celui de x5 estr5 = 1. Puisque x2 etx4 sont gaux et que leurs rangs auraient d valoir 2 ou 3, nous posonsr2 = r4= (2 + 3)/2 = 2.5. Au final, nous avons donc

    r1= 4 , r2= 2.5 , r3= 5, r4= 2.5 et r5= 1 .

    Dfinition 3.3. Le coefficient de corrlation de Spearman entre les observations desvariables couplesx ety est le coefficient de corrlation linaire entre les rangsr ets,

    S(x, y) =(r, s) .

    Par dfinition, la corrlation de Spearman est toujours comprise entre1et 1 et sa valeursinterprte de faon similaire celle de la corrlation de Pearson. En effet, si|S(x, y)| estproche de 1, la rpartition des points observs (x1, y1), . . . , (xn, yn) est proche de la courbedune fonction monotone (croissante si S(x, y) > 0 et dcroissante si S(x, y) < 0). Nouspourrons alors conclure lexistence dune relation monotone entre les variables x et y (voirFigure 3.4). Comme pour la corrlation de Pearson, si S(x, y) est proche de 0, il ny a, apriori, aucune interprtation.

  • 7/24/2019 Stat Explo

    33/73

    3.4. CORRLATIONS DE RANG 25

    1.0 0.5 0.0 0.5 1.0

    0.2

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    1.0 0.5 0.0 0.5 1.0

    1.2

    1.0

    0.8

    0.6

    0.4

    0.2

    0.0

    0.2

    Figure3.4 Pour ces observations(xi, yi), la corrlation de Spearman vautS(x, y) = 0.8787( gauche) et S(x, y) =0.8982 ( droite).

    Exemple Pour x, nous reprenons les observations de lexemple prcdents et, pour y, nousobservons

    y1= 3.8 , y2=0.6 , y3=1.2 , y4=3.5 et y5=3.5 .Ainsi, les rangs sont donns par

    s1= 5 , s2 = 4, s3= 3 , s4= 1.5 et s5 = 1.5 .

    La corrlation de Spearman entre x et y vaut donc

    S(x, y) =(r, s) = Cov(r, s)Var (r)

    Var (s)

    = 1.05

    1.9 1.9 0.553 .

    Les rangs r et s vrifient certaines proprits qui vitent de refaire systmatiquement lesmmes calculs lorsque nous cherchons obtenir la corrlation de Spearman.

    Proposition 3.4. La moyenne des rangs est toujours gale

    r= s =n + 1

    2 .

    Si il ny a aucun ex-quo ni parmi les observations dex, ni parmi celles dey, alors,

    Var (r) =Var (s) =n2 1

    12

    et

    S(x, y) = 1 6n(n2 1)

    n

    i=1(ri si)2 .

  • 7/24/2019 Stat Explo

    34/73

    26 CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

    Dmonstration. Par construction, il est vident que

    n

    i=1

    ri=

    n

    i=1

    si =

    n

    k=1

    k=

    n(n + 1)

    2 .

    Donc, nous avons r = s = (n + 1)/2.

    Labsence dgalit parmi les observations de x et parmi celles de y implique que les rangsr1, . . . , rn et s1, . . . , sn sont des permutations des entiers de 1 n. Par consquent,

    ni=1

    r2i =ni=1

    s2i =n

    k=1

    k2 = n(n + 1)(2n + 1)

    6 .

    La variance de r se calcule alors facilement,

    Var (r) = r2 r2

    = 1

    n

    ni=1

    r2i(n + 1)2

    4

    = (n + 1)(2n + 1)

    6 (n + 1)

    2

    4

    = (n + 1)(n 1)

    12 =

    n2 112

    ,

    et de mme pour Var (s) = (n2 1)/12.Pour le calcul de la corrlation de Spearman et parce que r = s, nous avons

    1

    n

    ni=1

    (ri si)2 = 1n

    ni=1

    ((ri r) (si s))2

    = 1

    n

    ni=1

    (ri r)2 2n

    ni=1

    (ri r)(si s) + 1n

    ni=1

    (si s)2

    = Var (r) 2Cov(r, s) +Var (s)=

    n2 16

    2Cov(r, s) .

    Ainsi, nous obtenons Cov(r, s) = n2

    112

    12n

    ni=1

    (ri si)2 et donc

    S(x, y) =(r, s) = Cov(r, s)Var (r)

    Var (s)

    = 1 6n(n2 1)

    ni=1

    (ri si)2 .

    Rappel Pour un entier n >0, la somme des nombres entiers de 1 n se calcule facilementgrce la remarque suivante qui consiste faire la somme de deux faons diffrentes (de 1

  • 7/24/2019 Stat Explo

    35/73

    3.4. CORRLATIONS DE RANG 27

    n et de n 1),

    n

    k=1 k = 1

    2 n

    k=1 k+n

    k=1(n + 1 k)=

    1

    2

    nk=1

    (k+ n + 1 k)

    = 1

    2

    nk=1

    (n + 1) =n(n + 1)

    2 .

    La somme des carrs des n premiers nombres entiers se calcule en remarquant que

    n

    k=1(k+ 1)3 =

    n

    k=1k3 1 + (n + 1)3 et

    n

    k=1(k+ 1)3 =

    n

    k=1k3 + 3

    n

    k=1k2 + 3

    n

    k=1k+

    n

    k=11 .

    En identifiant les deux galits et en utilisant le rsultat prcdent, nous obtenons,

    (n + 1)3 1 = 3n

    k=1

    k2 +3n(n + 1)

    2 + n

    nk=1

    k2 =2(n + 1)3 2 3n(n + 1) 2n

    6

    n

    k=1

    k2 =n(n + 1)(2n + 1)

    6 .

    3.4.2 Corrlation de KendallNous supposerons dans cette sous-section quil ny a aucun ex-quo ni parmi les observa-

    tions de x, ni parmi celles de y .

    Nous prsentons maintenant une autre mesure de corrlation base sur les rangs. Pourcela, nous introduisons la notion de variation concordante. Soient i, j {1, . . . , n} tels quei < j, nous disons quil y a une variation concordante entre i et j si

    ri < rj et si < sj ou ri > rj et si > sj .

    Remarquons que, en labsence dex-quo parmi les observations, toutes les paires i < j sont

    soit concordantes, soit non-concordantes. Nous notons R le nombre de variations concordantesparmi tous les choix i < j possibles.

    Dfinition 3.4. Le coefficient de corrlation de Kendall entre les observations des va-riables couplesx ety est dfini par

    K(x, y) = 4R

    n(n 1) 1 .

    Exercice 3.3. Montrer que

    0 R n(n 1)

    2

    et en dduire que

    1 K(x, y) 1.

  • 7/24/2019 Stat Explo

    36/73

    28 CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

    Comme pour les autres corrlations, celle de Kendall ne sinterprte pas lorsquelle estproche de 0. Si|K(x, y)| est proche de 1, nous pouvons en dduire que les carts xi xj etyi

    yj, pour i < j, sont lis. Cette situation suggre donc lexistence dune relation entre les

    variables x et y .

    Exemple Prenons les observations suivantes avec n = 5,

    x1= 4.2 , x2= 3.1 , x3= 5.1 , x4= 2.1 , x5 = 1.3

    ety1= 3.4 , y2=0.6 , y3=1.2 , y4=3.5 , y5= 3.8 .

    Nous avons les rangs suivants,

    r1= 4 , r2= 3, r3= 5 , r4= 2 , r5= 1

    ets1= 4 , s2= 3, s3= 2 , s4= 1 , s5= 5.

    Les paires (i, j) {1, . . . , n}2 telles que i < j qui sont concordantes sont(1, 2) , (1, 4) , (2, 4) et (3, 4) .

    Nous avons donc R = 4 et

    K(x, y) =4 45 4 1 =0.2 .

    3.5 Distance du2 lindpendance

    Toutes les mthodes que nous avons prsentes dans les sections prcdentes taient rela-tives des observations de variables quantitatives. Cependant, toutes les variables ne peuventpas tre reprsentes comme des mesures de grandeurs physiques. Certaines variables, ditesqualitatives, ne peuvent prendre quun nombre fini dtats (appels aussi des modes). Ces tatsne sont pas, en gnral, des mesures.

    Exemple Supposons que nous observions la couleur des yeux de plusieurs personnes. La va-riable relative ces observations est qualitative car elle ne peut prendre que des valeurs parmi

    {BLEU, MARRON, VERT}. En particulier, il nest ni possible de faire des calculs avec cesobservations, ni de les ordonner pour tudier les corrlations vues prcdemment.

    Soit un entier n >0, nous considrons que nous disposons des observations u1, . . . , un etv1, . . . , vn de deux variables qualitatives couples u et v respectivement. De plus, la variableu ne peut prendre que des valeurs dans{1, . . . , r}et la variable v ne peut prendre que desvaleurs dans{1, . . . , s} avec r,s >0 deux nombres entiers.

    Contrairement aux sections prcdentes, nous allons prsenter une mthode pour justifierlabsence de relation entre les variables u et v, i.e. lindpendance. Pour cela, nous allonsconsidrer les effectifs suivants, pour tout i {1, . . . , r}et tout j {1, . . . , s},

    ni,j ={

    k {

    1, . . . , n}

    tels que (uk, vk) = (i, j)}

    ,

  • 7/24/2019 Stat Explo

    37/73

    3.5. DISTANCE DU2 LINDPENDANCE 29

    ni=s

    j=1

    ni,j = {k {1, . . . , n} tels que uk =i}

    et

    nj =r

    i=1

    ni,j = {k {1, . . . , n} tels que vk = j} .

    Ces effectifs sont gnralement reprsents dans une table de contingenceavec ses marges quicontiennent les effectifs somms ni et nj (voir Figure3.5). Bien sr, les effectifs en ligne eten colonne sont relis par

    n=r

    i=1

    sj=1

    ni,j =r

    i=1

    ni=s

    j=1

    nj .

    Figure 3.5 Table de contingence pour r = 3 et s = 4 avec ses marges (en rouge) et lesmodes (en bleu).

    Lobjectif de la mthode que nous prsentons ici va tre de comparer cette table de contin-gence observe avec une table de contingence thorique qui correspond ce que nous aurionsd observer en cas dindpendance entre les variables u et v. Si ces deux tables sont assez"proches", alors nous pourrons accepter lide dindpendance entre nos variables.

    Considrons i {1, . . . , r} et j {1, . . . , s}, quelle doit tre la valeur thorique ni,jdu nombre dobservations de la paire (i, j) en cas dindpendance ? Pour rpondre cettequestion, il faut comprendre ce que lindpendance implique en terme deffectifs dobservations.Prenons la ligne des ni observations de i. Si le fait davoir observ u = i ninfluence pas la

  • 7/24/2019 Stat Explo

    38/73

    30 CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

    valeur prise par la variable v, alors lesnj observations dej se rpartissent le long de la lignedes i avec les proportions ni/n. Il faut noter que cet argument est symtrique entre u et vet que nous pouvons aussi en dduire que les ni observations de i se rpartissent le long de

    la colonne de j avec les proportions nj/n. Ainsi, nous obtenons les effectifs thoriques souslhypothse dindpendance,

    ni,j =ni nj

    n .

    Dfinition 3.5. Ladistance du 2 lindpendance est dfinie par

    2 =r

    i=1s

    j=1(ni,j ni,j)2

    ni,j

    .

    La quantit 2 nest pas une distance au sens mathmatique (elle nest pas symtrique,. . .) mais elle traduit lide de proximit entre les tables de contingence observe et thorique.Plus2 sera proche de 0, plus lhypothse dindpendance sera acceptable.

    De plus, il est important de noter la normalisation par ni,j des termes de la somme dfinis-

    sant 2. Leurs prsences assurent que les cellules des tables de contingence sont traites de lamme faon si elles contiennent un effectif important ou faible. En effet, un cart ni,jni,j = 1aura plus dimportance si ni,j = 1que si n

    i,j = 1000, par exemple.

    Afin de donner un ordre de grandeur pour 2, nous prsentons ici le calcul de la distancedans un cas particulier qui correspond la situation extrme o u et v ne sont absolumentpas indpendantes. Pour cela, nous considrons que les variables ont les mmes modes (i.e.r = s et, pour tout i {1, . . . , r}, i = i) et que les observations sont toujours gales (i.e.pour tout i {1, . . . , n}, ui = vi). La table de contingence des effectifs observs ni,j est doncdonne par

    [ni,j]1i,jr =

    n/r 0 00

    . . . . . .

    ......

    . . . . . . 0

    0 0 n/r

    .

    Pour tout i, j {1, . . . , r}, nous avons ni= nj =n/r et donc ni,j =n/r2. Ainsi, la table decontingence thorique est donne par

    ni,j1i,jr

    =

    n/r2 n/r2 n/r2n/r2

    . . . . . .

    ......

    . . . . . . n/r2

    n/r2

    n/r2 n/r2

    .

  • 7/24/2019 Stat Explo

    39/73

    3.5. DISTANCE DU2 LINDPENDANCE 31

    Nous pouvons maintenant calculer 2,

    2 =r

    i=1

    rj=1

    (ni,j n

    i,j)2

    ni,j=

    ri=1

    (ni,i n

    i,i)2

    ni,i+

    rj=1j=i

    (ni,j n

    i,j)2

    ni,j

    =r

    i=1

    (n/r n/r2)2

    n/r2 +

    rj=1j=i

    (0 n/r2)2n/r2

    =r

    i=1

    n(r 1)2

    r2 +

    rj=1j=i

    n

    r2

    = r

    n(r 1)2

    r2 +

    n(r 1)r2

    =n(r 1).

    Plus gnralement, nous avons le rsultat suivant qui nous permet de donner lordre de

    grandeur de 2 en cas dabsence totale dindpendance.

    Proposition 3.5. Nous avons

    2 n

    (r 1)(s 1) .

    Dmonstration. Admis.

  • 7/24/2019 Stat Explo

    40/73

    32 CHAPITRE 3. OBSERVATIONS DE DEUX VARIABLES COUPLES

  • 7/24/2019 Stat Explo

    41/73

    Chapitre 4

    Observations de plusieurs variables

    couples

    4.1 Introduction

    Dans le chapitre prcdent, nous avons introduit quelques outils permettant de discuterde lexistence dune relation entre deux variables. Parmi ces outils, certains peuvent tregnraliss pour considrer les relations potentielles entre un nombre arbitraire de variables.Nous nous restreindrons dans ce chapitre ltude dun jeu de donnes relatif n observationsde p variables quantitatives couples.

    Ainsi, dans la suite de ce chapitre, nous considrerons pvariables quantitativesx1, . . . , xp etnvecteurs observs (x11, . . . , x

    p1), . . . , (x1n, . . . , x

    pn) Rp pondrs par des poids p1, . . . , pn> 0

    normaliss. Pour i {1, . . . , n} et j {1, . . . , p}, nous notons donc xji la ime observation dela j me variable.

    Afin de garder des notations simples, pour tout j {1, . . . , p}, nous noterons xj pourdsigner la jme variable ou pour dsigner le vecteur de ses observations (xj1, . . . , x

    jn) Rn

    selon le contexte. De mme, pour tout i {1, . . . , n}, nous noterons xi = (x1i , . . . , xpi ) Rppour dsigner le vecteur des ime observations de chaque variable.

    4.2 Matrices de covariance et de corrlation

    Les notions de covariance et de corrlation linaire que nous avons vues taient dfiniesentre deux variables. Elles se gnralisent naturellement p variables en considrant toutesles paires de variables(xi, xj)pouri, j {1, . . . , p}. Les valeurs obtenues sont alors prsentessous forme matricielle.

    Dfinition 4.1. La matrice de covariance = (ij)1i,jp est la matrice carre de taille

    33

  • 7/24/2019 Stat Explo

    42/73

    34 CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

    p p dont les entres sont donnes parij =Cov(xi, xj) pouri, j {1, . . . , p}.

    =

    Var x1 Cov(x1, x2) Cov(x1, xp1) Cov(x1, xp)Cov(x2, x1) Var x2 Cov(x2, xp1) Cov(x2, xp)...

    ... . . .

    ... ...

    Cov(xp1, x1) Cov(xp1, x2) Var xp1 Cov(xp1, xp)Cov(xp, x1) Cov(xp, x2) . . . Cov(xp, xp1) Var (xp)

    Par dfinition, la diagonale de contient les variances des variables. De plus, grce la

    Proposition3.1,nous savons que cette matrice est symtrique, i.e.pour touti, j {1, . . . , p},ij = ji .

    Dfinition 4.2. Lamatrice de corrlation C= (Cij)1i,jp est la matrice carre de taillep

    p dont les entres sont donnes parCij =(x

    i, xj) pouri, j

    {1, . . . , p

    }.

    C=

    1 (x1, x2) (x1, xp1) (x1, xp)

    (x2, x1) 1 (x2, xp1) (x2, xp)...

    ... . . .

    ... ...

    (xp1, x1) (xp1, x2) 1 (xp1, xp)(xp, x1) (xp, x2) . . . (xp, xp1) 1

    Cette matrice na que des 1 sur sa diagonale et est galement symtrique car (xi, xj) =

    (xj, xi) pour tout i, j {1, . . . , p}.

    En pratique, nous utiliserons principalement la matrice de covariance. Une des raisons dece choix est la simplicit de lcriture matricielle de . Pour illustrer cela, nous considrons lamatrice des donnes centres X. Cette matrice est de taille n pet, pour tout i {1, . . . , n}et j {1, . . . , p}, lentre Xij vaut xji xj o xj est la moyenne des xj1, . . . , xjn pondre parles poids p1, . . . , pn.

    X=

    x11 x1 x21 x2 xp1 xpx12 x1 x22 x2 xp2 xp

    ... ...

    . . . ...

    x1n x1 xn1 x2 xpn xp

    Si lon considre que les donnes ont t obtenues en observant p variables sur n individus,

    chaque ligne deXest relative un individu et chaque colonne de Xest relative une variable.Nous introduisons aussi la matrice des poids W qui est la matrice diagonale de taille n ndonne par

    W =

    p1 0 0

    0 p2. . .

    ......

    . . . . . . 0

    0 0 pn

    .Proposition 4.1. La matrice de covariance scrit

    = tX W X .

  • 7/24/2019 Stat Explo

    43/73

    4.2. MATRICES DE COVARIANCE ET DE CORRLATION 35

    Dmonstration. Puisque tX est de taille pn, W de taille nn et X de taille np, lamatrice tXW Xest bien de taille p p. De plus, pour tout i, j {1, . . . , p}, nous avons

    tXW Xij

    =n

    k=1

    tXik(W X)kj =n

    k=1

    tXik

    n=1

    WkXj

    =n

    k=1

    WkkXkiXkj =n

    k=1

    pk

    xik xi

    xjk xj

    = Cov(xi, xj) = ij .

    Nous avons vu que le coefficient de corrlation linaire (x, y) nous permet de mesurer la"proximit" des points (x1, y1), . . . , (xn, yn) R2 une droite. Lorsque nous disposons dunnombre p de variables, en gnral, il nest plus possible de dcrire la relation entre toutes lesvariables en terme de simples droites (du moins, quand p >2) et il nous faut faire intervenirla quantit suivante qui gnralise la notion de corrlation linaire.

    Dfinition 4.3. Considrons une variable couple y supplmentaire et ses n observationsy1, . . . , yn R. Le coefficient R de corrlation multipledey avec les variablesx1, . . . , xpest la corrlation maximale entrey et toutes les combinaisons linaires desxj, j {1, . . . , p},

    R= sup

    (y, a1x1 + + apxp) avec(a1, . . . , ap) Rp

    .

    Exercice 4.1. A priori, la dfinition donneR[1, 1]. En comparant(y, a1x1 + + apxp)et (y, a1x1 apxp) pour un vecteur (a1, . . . , ap) Rp arbitraire, montrer que nousavons toujours0 R 1.

    Comme pour la corrlation linaire, le coefficient de corrlation multiple ne sinterprte paslorsquil est proche de zro. Quand Rest proche de1, cela suggre que les points(y1, x

    11, . . . , x

    p1),

    . . . , (yn, x1n, . . . , x

    pn)Rp+1 sont "proches" dun sous-espace linaire de dimensionp. Autre-

    ment dit, cela suggre lexistence dea1, . . . , ap, b R tels que les points observs soient dcritsde faon "acceptable" par la relation

    y = a1x1 + + apxp + b .

    Dans le cas particulier o p = 1, nous avons R =|(y, x1)| et nous retrouvons bien la mmeinterprtation : quand R est proche de 1, les points (y1, x

    11), . . . , (yn, x

    1n) du plan R

    2 sont"proches" dune droite, i.e.dun sous-espace de dimension p = 1.

    Exemple Dans le casp= 2, il est possible de donner une interprtation gomtrique simple ducoefficientR. En effet, dans ce cas, nous cherchons si les points (y1, x

    11, x

    22), . . . , (yn, x

    1n, x

    2n)

    R3 sont "proches" dun plan (i.e. un sous-espace de dimension p = 2). Pour les donnes

    centres, nous avons vu que la covariance est un produit scalaire dont la norme associe estlcart-type (voir la dmonstration du Thorme3.1). De plus, nous avons

    Cov(y, a1x1 + a2x

    2) =

    Var (y)

    Var (a1x1 + a2x2) (y, a1x1 + a2x2)et donc la corrlation (y, a1x

    1 +a2x2) joue le rle du cosinus de langle entre y y et

    a1(x1 x1) + a2(x2 x2)(faire lanalogie avec le produit scalaire usuel entre deux vecteurs u

    et v , u

    v=

    u

    v

    cos(u, v)).

  • 7/24/2019 Stat Explo

    44/73

    36 CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

    x1 x1

    x2 x2

    y y

    a1(x1 x1) + a2(x2 x2)

    Figure 4.1 La corrlation (y, a1x1 +a2x

    2) joue le rle du cos() o est langle formpar y y et a1(x1 x1) + a2(x2 x2).

    A laide de cette analogie, nous comprenons que le choix de (a1, a2) R2 qui rend(y, a1x1 +a2x

    2) maximal est celui tel que langle form par yy et a1(x1 x1) +a2(x2 x2) soitminimal (car cela maximise le cos()). En dautres termes, (y, a1x

    1 +a2x2) est maximal

    pour(a1, a2) R2 tels que a1(x1 x1) + a2(x2 x2) soit gal la projection orthogonale yde y y sur le plan engendr par x1 x1 et x2 x2. Ainsi, nous obtenons que R = (y, y).

    x1 x1

    x2 x2

    y

    y

    y

    Figure4.2 La corrlation (y, a1x1 +a2x

    2) maximale est atteinte pour (a1, a2) R2 telsquea1x

    1 + a2x2 soit la projection orthogonaley dey y sur le plan engendr par x1 x1 et

    x2 x2 et R = (y, y).

    Le rsultat obtenu dans cet exemple se gnralise p >2 par des arguments similaires etmne la proposition suivante.

  • 7/24/2019 Stat Explo

    45/73

    4.3. INERTIE 37

    Proposition 4.2. Considrons le vecteur centr Y = (y1y, . . . , yny) Rn et notonsIm(X) lespace engendr par les colonnes deX. Sidim(Im(X)) =p, la projection orthogonaley deY surIm(X) est donne par

    y =X(tXX)1tXY .

    De plus, nous avonsR = (y, y).

    Dmonstration. Nous allons montrer que si dim(Im(X)) =p alors M =X( tXX)1tXest laprojection orthogonale sur Im(X). Par dfinition, pour tout z Rp,

    M z = X (( tXX)1tXz )Im(X).De plus, M est idempotente car

    M2 = X( tXX)1tX X( tXX)1tX= X(

    t

    XX)1

    (t

    XX)(t

    XX)1t

    X= X( tXX)1tX=M .

    La matrice Mtant symtrique, il sagit bien de la projection orthogonale sur Im(X). Enfin,pour montrer que R = (y, y), il suffit de raisonner comme dans lexemple pour obtenir quela corrlation est maximale lorsque(a1, . . . , ap)

    Rp est tel que a1x1 + + apxp =y.

    4.3 Inertie

    La variance des observations dune variable quantitative est une mesure de la dispersionde ces observations par rapport leur moyenne. Pour tendre cette notion des observations

    dans Rp, une premire ide consiste faire la somme des variances des coordonnes.

    Dfinition 4.4. Linertie standard desn observations (x11, . . . , xp1), . . . , (x

    1n, . . . , x

    pn) Rp

    est dfinie par

    I=

    pj=1

    Var

    xj

    .

    Linertie standard tend lide de dispersion autour de la moyenne et le rle de cettemoyenne est jou par le vecteur g des moyennes des variables, appel centre de gravit,

    g=

    x1

    ...xp

    R

    p .

    En effet, il est possible de rcrire linertie standard de la faon suivante,

    I =

    pj=1

    Var

    xj

    =

    pj=1

    ni=1

    pi(xji xj)2

    =ni=1

    pi

    pj=1

    (xji gj)2

    =n

    i=1pid

    22(xi, g)

  • 7/24/2019 Stat Explo

    46/73

    38 CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

    o d2 est la distance euclidienne usuelle sur Rp. Cette criture nous amne considrer la

    dfinition suivante de linertie base sur une distance d quelconque sur Rp.

    Rappel Unedistancesur Rp est une fonctiond: RpRp R+qui vrifie les points suivants,pourx, y ,z Rp,

    1. d(x, y) =d(y, x) (Symtrie),

    2. d(x, x) = 0x = 0 (Sparation),3. d(x, z) d(x, y) + d(y, z)(Ingalit triangulaire).

    Dfinition 4.5. Etant donne une distanced surRp, nous dfinissons linertie par rapport d desn observations(x11, . . . , x

    p1), . . . , (x

    1n, . . . , x

    pn) Rp par

    Id=ni=1

    pid2(xi, g) .

    La distance d est une distance sur lespace des variables et permet de dfinir une notiondinertie Id mesurant la dispersion des observations en un sens particulier li au choix de d,par exemple, en donnant une importance diffrente chaque variable (voir les exemples de laSection4.4).

    Afin de dcrire ce qui induit de la dispersion dans nos donnes, nous serons amens considrer le rle que joue chaque vecteur dobservations xi dans le calcul de linertie.

    Dfinition 4.6. Pouri {1, . . . , n}, nous appelonscontribution linertie Idde lindividui la proportion pid

    2(xi, g)

    Id[0, 1] .

    Dans le cas de linertie standard I, cette contribution vaut donc

    piI

    pj=1

    (xji xj)2 .

    4.4 Changement de distance

    Nous avons vu que, en rcrivant linertie standard I, nous tions amens considrer la

    dfinition plus gnrale de linertie Id par rapport une distance d. Nous allons maintenantnous intresser une classe particulire de distances construite en suivant la remarque suivante,pouri {1, . . . , n},

    d22(xi, g) =

    pj=1

    (xji gj)2 = tXiXi

    o Xi = (x1i x1, . . . , xpi xp) Rp est le ime vecteur ligne de la matrice Xdes donnes

    centres. Etant donne une matrice symtrique dfinie positive M (voir les rappels de laSection 4.5) de taille pp, nous considrons la distance dM sur Rp dfinie par, pour toutx, y Rp,

    d2M(x, y) = t(x

    y)M(x

    y).

  • 7/24/2019 Stat Explo

    47/73

    4.4. CHANGEMENT DE DISTANCE 39

    Exercice 4.2. A laide des rappels de la Section 4.5, vrifier que dM est bien une distancesurRp.

    Ainsi, pour touti {1, . . . , n}, nous avonsd2M(xi, g) = tXiM Xiet nous notonsIMlinertiepar rapport dM. Nous prsentons quelques choix de Mdans la suite de cette section. Lanotion dinertie gnralisant celle de variance, nous disposons, en particulier, dun rsultatanalogue au Thorme1.2.

    Thorme 4.1. [Inertie par groupes] Soient N > 0 et G1, . . . , GN une partition de{1, . . . , n}. Pour toutk {1, . . . , N }, nous considrons

    qk =

    iGkpi et g

    (k) =

    x1k...

    xpk

    Rp

    oxjk est la moyenne desxji pouriGk,

    xjk = 1

    qk

    iGk

    pixji , j {1, . . . , p} .

    Etant donne une matrice symtrique dfinie positiveM, linertieIMse dcompose en

    IM =IinterM + I

    intraM

    avec

    IinterM =Nk=1

    qkd2M(g

    (k), g) (Inertie inter-groupe)

    et

    IintraM =Nk=1

    qkI(k)M (Inertie intra-groupe)

    oI(k)M est linertie par rapport dM des observationsxi = (x

    1i , . . . , x

    pi ) pouriGk,

    I(k)M =

    1

    qk

    iGk

    pid2M(xi, g

    (k))

    Dmonstration. Voir la feuille du TD 4.

    Exercice 4.3. Vrifier que dans le cas de linertie standardI, nous retrouvons bien

    I=

    p

    j=1Varinter(x

    j) +

    p

    j=1Varintra(x

    j) .

  • 7/24/2019 Stat Explo

    48/73

    40 CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

    4.4.1 Distance euclidienne

    SiMest la matrice identit Idp de taillep, alors la distance dMest la distance euclidienne

    classique sur Rp

    ,

    d2Idp(xi, g) = tXiIdpXi=

    tXiXi = d22(xi, g), i {1, . . . , n}.

    Ce cas correspond ce que nous avons vu dans la section prcdente et linertie standard,

    IIdp =I=ni=1

    pid22(xi, g) =

    pj=1

    Var

    xj

    .

    Par analogie avec la contribution dun individu linertie, il est possible ici de dfinir linfluencede chaque variable sur linertie.

    Dfinition 4.7. Pour j {1, . . . , p}, nous appelonscontribution linertie standard Ide la variablej la proportion

    Var

    xj

    I [0, 1].

    4.4.2 Distance des variables rduites

    Afin de mettre toutes les variables la mme chelle, nous pouvons considrer leurs versionsrduites,i.e.considrer les observations centres rduites (xjixj)/

    Var (xj). En prenant M

    comme la matrice p p diagonale des inverses des variances,

    M=

    1/Var x1 0 . . . 00 . . . . . . ......

    . . . . . . 0

    0 . . . 0 1/Var (xp)

    ,cela revient travailler avec avec la distance dMqui est telle que, pour tout i {1, . . . , n},

    d2M(xi, g) = tXiM Xi =

    pj=1

    (xji xj)2Var (xj)

    .

    Linertie par rapport dMest donc gale

    IM =ni=1

    pitXiM Xi =

    ni=1

    pi

    pj=1

    (xji xj)2Var (xj)

    =

    pj=1

    1

    Var (xj)

    ni=1

    pi(xji xj)2 =

    pj=1

    Var

    xj

    Var (xj)

    = p .

    LinertieIMest constante et chaque variable y contribue avec une proportion 1/p.

    Exercice 4.4. Faire un parallle entre lutilisation de la distance des variables rduites et lamatrice de corrlationC.

  • 7/24/2019 Stat Explo

    49/73

    4.4. CHANGEMENT DE DISTANCE 41

    4.4.3 Distance de Mahalanobis

    Plus gnralement, pour normaliser les observations des variables, le statisticien Maha-

    lanobis proposa, en 1936, de prendre M = 1, linverse de la matrice de covariance. Bienentendu, ce choix nest possible que lorsque est une matrice inversible. Cela donne, pouri {1, . . . , n},

    d21(xi, g) = tXi

    1Xi .

    De plus, nous avons le mme rsultat que pour la distance des variables rduites, savoir quelinertieI1 est constante et gale p,

    I

    1 =n

    i=1pi tXi1Xi =n

    i=1pip

    j=1p

    k=1 1jkXijXik=

    ni=1

    pi

    pj=1

    pk=1

    1

    jk

    (xji xj)(xki xk)

    =

    pj=1

    pk=1

    1

    jk

    Cov(xj , xk) =

    pj=1

    pk=1

    1

    jk

    kj

    =

    pj=1

    1

    jj

    =

    pj=1

    Idpjj =p .

    Par contre, la contribution des variables linertie nest plus ncessairement gale 1/pet nesexprime pas simplement.

    Lintrt du choix de la distance de Mahalanobis provient de considrations thoriques.En effet, lutilisation de 1 permet de dcrire les variables xj comme tant des sommes devariables rduites et non corrles. En particulier, les quantits d2M(xi, g)sexpriment alors enterme de sommes des contributions isoles de ces nouvelles variables.

    Exemple Prenonsp = 2, ,, Ret supposons quil existe deux variables rduites et noncorrlesu et v (i.e.Cov(u,v)=0) telles quex1 =u et x2 =u + v . Il est facile de montrer

    que Var x1 =2, Cov(x1, x2) =et Var x2 =2 + 2. En supposant que = 0et = 0,nous avons donc la matrice de covariance

    =

    2 2 + 2

    qui est inversible (son dterminant vaut 22 >0) et dont linverse est

    1 = 1

    22 2 + 2

    2 .

  • 7/24/2019 Stat Explo

    50/73

    42 CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

    Pour i {1, . . . , n}, nous avons donc

    d2

    1(xi, g) =

    tXi1Xi

    = 111X2i1+

    112 + 121 Xi1Xi2+ 122X2i2=

    2 + 2

    22 (x1i x1)2

    2

    22(x1i x1)(x2i x2) +

    2

    22(x2i x2)2

    = 1

    2(x1i x1)2

    + 2

    22(x1i x1)2

    2

    2(x1i x1)(x2i x2) +

    1

    2(x2i x2)2

    =

    x1i x1

    2+

    (x1i x1)

    x

    2i x2

    2

    = (ui u)2 + (ui u)

    (ui u) + (vi v)

    2 = (ui u)2 + (vi v)2 .Nous obtenons donc bien que les quantits d21(xi, g)scrivent comme la somme des contri-butions des observations ui et vi sparment.

    4.5 Matrices symtriques dfinies positives et diagonalisation

    Nous avons vu dans ce chapitre que les matrices symtriques dfinies positives jouent unrle important lorsque nous souhaitons tudier un ensemble depvariables couples. Lobjet decette section est de faire certains rappels dalgbre linaire sur les proprits de ces matricesque nous utiliserons dans la suite du cours.

    4.5.1 Matrices symtriques

    Dfinition 4.8. Considrons une matrice carreM de taille p p. Nous dirons que M estsymtrique si

    i, j {1, . . . , p}, Mij =Mji .

    Ces matrices ont de bonnes proprits comme nous le verrons par la suite. De plus, cestpourM symtrique que nous avons dfini la distance dMtelle que, pour tout i {1, . . . , n},

    d2M(xi, g) = tXiM Xi .

    Puisque nous nutilisons que cette proprit de la distance dM, il est facile de voir que nouspouvons considrer nimporte quelle matrice M de taille p p et quil est toujours possiblede se ramener une matrice symtrique Mtelle que, pour tout i {1, . . . , n},

    d2M(xi, g) = tXiM

    Xi = tXiM Xi = d

    2M(xi, g).

  • 7/24/2019 Stat Explo

    51/73

    4.5. MATRICES SYMTRIQUES DFINIES POSITIVES 43

    En effet, siM est une matricep pquelconque, nous avons, pour tout v = (v1, . . . , vp) Rp,

    t

    vM

    v =

    p

    j=1p

    k=1

    M

    jkvjvk

    =

    pj=1

    Mjjv2j +j

  • 7/24/2019 Stat Explo

    52/73

    44 CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

    4.5.2 Matrices dfinies positives

    Dfinition 4.9. Considrons une matrice carreM de taille p p. Nous dirons que M estdfinie positive si v Rp, tvM v 0 .Cette proprits implique en particulier que nous avons bien tXiM Xi 0, pour tout i{1, . . . , n}.

    Exemple La matrice

    M=

    2 11 2

    .

    est symtrique dfinie positive. En effet, pour tout (x, y) R2, nous avons

    x y 2 11 2

    x

    y = 2x2 2xy+ 2y2 =x2 + y2 + (x y)2 0 .La matrice

    M=

    1 22 1

    .

    est symtrique mais pas dfinie positive. En effet, prenons (1, 1) R2, nous avons1 1

    1 22 1

    11

    =2< 0 .

    4.5.3 Diagonalisation des matrices symtriquesUne des proprits particulirement intressantes des matrices symtriques est le rsultat

    suivant.

    Thorme 4.2. Toute matrice symtrique se diagonalise dans une base orthonorme.

    Dmonstration. Voir le cours dalgbre linaire.

    Rappel SoitEun espace vectoriel euclidien de dimensiond muni dun produit scalaire, .Une base{b1, . . . , bd} de E est dite orthonorme si, pour tout i, j {1, . . . , d} avec i= j,bi, bj= 0 etbi, bi= 1.

    Afin dobtenir les valeurs propres et les vecteurs propres dune matrice symtrique M,il faut procder par tapes. Nous donnons ici un exemple partir de la matrice symtriquedfinie positive suivante

    M=

    7 44 13

    .

    Exercice 4.5. Vrifier queMest bien dfinie positive.

    Rappel Soit Mune matrice de taille p p, nous disons que Rest une valeur propre deMassocie au vecteur propre v Rp si et seulement si M v= v.

  • 7/24/2019 Stat Explo

    53/73

    4.5. MATRICES SYMTRIQUES DFINIES POSITIVES 45

    Recherche des valeurs propres

    Les valeurs propres 1, . . . , p de Msont les racines du polynme caractristique de M,

    i.e. il faut rsoudre en R det(M Idp) = 0.Calculons ce dterminant dans notre cas,

    det(M Id2) = det

    7 44 13

    = (7 )(13 ) 16 =2 20 + 75 .

    Nous obtenons donc que les deux valeurs propres de M sont

    1=20 + 10

    2 = 15 et 2 =

    20 102

    = 5 .

    Remarquons que les deux valeurs propres de M sont positives. Cette remarque est plusgnralement vraie pour toutes les valeurs propres dune matrice dfinie positive.

    Proposition 4.3. Soit M une matrice symtrique de taille p p, si M est dfinie positivealors toutes ses valeurs propres sont positives.

    Dmonstration. Soit Rune valeur propre de M etv = (v1, . . . , vp) Rp \ {0}un vecteurpropre non-nul associ. Par dfinition, nous savons que tvM v 0. De plus, nous avons

    tvM v= tvv =

    pi=1

    v2i 0 .

    Nous en dduisons que 0.

    Recherche des vecteurs propres

    Par dfinition, pour i {1, . . . , p}, un vecteur propre vi associ la valeur propre i esttel que M vi = ivi. Pour le trouver, il faut donc rsoudre en x Rp

    (M iIdp)x= 0.Pour notre exemple, il nous faut trouver x = (x1, x2)

    R2 tel que pour 1 = 15, nous avons

    8 44 2 x1x2 = 0 8x1 4x2 = 04x1 2x2 = 0 2x1= x2 .En prenant x1= 1, nous obtenons un vecteur propre v1=

    12

    .

    pour 2 = 5, nous avons2 44 8

    x1x2

    = 0

    2x1 4x2 = 04x1+ 8x2 = 0 x1= 2x2 .

    En prenant x2= 1, nous obtenons un vecteur propre v2=

    21

    .

  • 7/24/2019 Stat Explo

    54/73

    46 CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

    Diagonalisation et interprtations

    Soit i {1, . . . , p}, nous notons dsormais ui Rp le vecteur propre normalis associ la valeur propre i > 0, i.e. ui est tel que u

    2i1+ +u

    2ip = 1. Ce vecteur propre sobtient

    partir dun vecteur propre vi non-nul associ i en considrant

    ui = vivi

    avecvi2 =v2i1+ + v2ip.Les vecteurs u1, . . . , up forment une base de R

    p. De plus, la matrice Mtant symtrique,nous pouvons considrer que cette base est orthonorme. La matrice de changement de baseallant de la base canonique celle donne par les ui est la matrice Pde taille p p dont lescolonnes sont les ui,

    P = u11 u21 . . . up1

    .

    ..

    .

    ..

    .

    ..u1p u2p . . . upp

    .En tant que matrice de changement de base,Pest inversible. En outre, la base canonique et labase forme par lesuitant orthonormes, la matrice Pest orthogonale (i.e.P

    1 = tP). Cettedernire remarque facilite le calcul de linverse P1 puisquil suffit simplement de considrerla matrice transpose tP.

    Considrons la matrice diagonaleD obtenue partir des valeurs propres 1, . . . , p,

    D=

    1 0 . . . 0

    0 . . .

    . . . ...

    ..

    .

    . ..

    . .. 00 . . . 0 p

    .

    Nous avons donc obtenu la diagonalisation de la matrice M,

    M=P DP1 =P D tP .

    Reprenons les vecteursv1 etv2 de notre exemple. Ils mnent aux vecteurs propres norma-liss

    u1=

    1/

    5

    2/5

    et u2=

    2/

    5

    1/

    5

    .

    Notons que ces vecteurs forment bien une base orthonorme de R2 caru12 =u22 = 1 ett

    u1u2= 0. La matrice de changement de base Pvaut donc

    P =

    1/

    5 2/

    5

    2/5 1/5

    et il est facile de vrifier quelle est inversible (det(C) = 1) et orthogonale,

    P1 =

    1/

    5 2/5

    2/

    5 1/

    5

    = tP .

    La diagonalisation deM scrit donc

    M=P15 00 5

    tP .

  • 7/24/2019 Stat Explo

    55/73

    4.5. MATRICES SYMTRIQUES DFINIES POSITIVES 47

    En dimensionp = 2, il est possible dillustrer cette diagonalisation par un dessin comme celuide la Figure4.3. La courbe CMreprsente lellipse associe la matrice symtrique positiveMet les droites engendres par les vecteurs propres u1 et u2 sont les deux axes de symtrie

    deCM. De plus, remarquons que le demi-grand axe le long de u1 vaut1= 15et celui le longde u2 vaut 2 = 5.

    15 10 5 0 5 10 15

    10

    5

    0

    5

    10

    CM

    u1

    u2

    Figure 4.3 Ellipse associe la matrice symtrique dfinie positive Met la base orthonormede diagonalisation{u1, u2}.

  • 7/24/2019 Stat Explo

    56/73

    48 CHAPITRE 4. OBSERVATIONS DE PLUSIEURS VARIABLES COUPLES

  • 7/24/2019 Stat Explo

    57/73

    Chapitre 5

    Analyse en composantes principales

    5.1 IntroductionComme dans le chapitre prcdent, nous considrons ici p variables quantitatives cou-

    plesx1, . . . , xp pour lesquelles nous disposons de n observations x1= (x11, . . . , x

    p1), . . . , xn=

    (x1n, . . . , xpn) Rp pondres par les poids p1, . . . , pn > 0 normaliss. Afin de simplifier les

    notations de ce chapitre, nous supposerons que ces observations sont centres, i.e.xj = 0pourtoutj {1, . . . , p}. Nous avons donc notre disposition la matrice de taille n pdes donnescentres,

    X=

    x11 x1 . . . xp1 xp

    ... . . .

    ...

    x1

    nx1 . . . xpn

    xp

    =

    x11 . . . x

    p1

    ... . . .

    ...x1n . . . x

    pn

    ,

    et la matrice diagonale de taille n n des poids,

    W =

    p1 0 . . . 0

    0 . . .

    . . . ...

    ... . . .

    . . . 00 . . . 0 pn

    .

    La matriceXcontient donc les observations, chaque colonne correspondant aux nobservationsdune variable et chaque ligne correspondant aux p observations pour un individu donn.

    Nous nous intressons la question suivante : comment donner une "bonne" reprsentationgraphique de ces donnesx1, . . . , xn Rp ? Si p = 2, il est possible de tracer le nuage de pointsassoci aux observations dans le plan. Si p >2, cette reprsentation nest plus faisable. Pourreprsenter les observations, nous allons chercher construire un plan sur lequel projeter lesobservations tout en essayant de conserver au maximum la structure des donnes.

    5.2 Composantes principales

    Le point de dpart de notre tude est le simple rsultat suivant.

    Proposition 5.1. La matrice de covariance = tXW Xest symtrique et dfinie positive.

    49

  • 7/24/2019 Stat Explo

    58/73

    50 CHAPITRE 5. ANALYSE EN COMPOSANTES PRINCIPALES

    Dmonstration. La symtrie de est vidente. Pour la dfinie positivit, nous considronsv Rp et nous avons

    tvv= tv tX WX v= t(Xv)W(Xv) =

    ni=1

    pi(Xv)2i 0 .

    Exercice 5.1. Dduire directement de cette proposition que la matrice de corrlation C estsymtrique et dfinie positive.

    En particulier, ce rsultat et le Thorme4.2 impliquent que est diagonalisable en baseorthonorme. De plus, grce la Proposition 4.3, nous pouvons considrer 1 p 0et des vecteurs u1, . . . , up Rp orthonorms tels que =P DP1 =P D tP avec

    D= 1 0 . . . 0

    0 . . . . . . ......

    . . . . . . 0

    0 . . . 0 p

    et P = u11

    . . . up

    1... ...

    u1p . . . upp

    .Les colonnes de P sont les vecteurs propres uj = (uj1, . . . , u

    jp) Rp, pour j {1, . . . , p}, et

    elles permettent de dfinir p nouvelles variables c1, . . . , cp comme des combinaisons linairesdes variables x1, . . . , xp,

    cj =

    pk=1

    ujkxk =uj1x

    1 + + ujpxp, j {1, . . . , p} .

    Les cj

    sont des variables "virtuelles" et sont appeles les variables principales. Pour i{1, . . . , n} et j {1, . . . , p}, laime observation de la variables cj est donc donne par

    cji =

    pk=1

    ujkxki =

    pk=1

    PkjXik = (XP)ij .

    Comme nous lavons fait pour les observations initiales, nous pouvons considrer le vecteurCj desn observations de la variable cj, j {1, . . . , p},

    Cj =

    cj1...

    cjn

    Rn .

    Etant donn que les variablesx1, . . . , xp sont supposes centres, il est important de remarquerquil en va de mme pour les variables c1, . . . , cp puisque ces dernires en sont des combinaisonslinaires.

    Dfinition 5.1. Les vecteurs C1, . . . , C p sont appels les composantes principales. Lamatrice C de taille n p dont les colonnes sont les composantes principales est la matricedes composantes principales,

    C=X P =

    c11 . . . c

    p1

    ... ...

    c1n . . . cpn

    .

  • 7/24/2019 Stat Explo

    59/73

    5.3. REPRSENTATION GRAPHIQUE 51

    La matriceCdoit tre considre de la mme manire que la matrice des donnes centresX. En effet, chaque ligne correspond auxp observations des variables c1, . . . , cp pour un indi-vidu donn et chaque colonne correspond aux n observations dune des variables principales.

    Le principal avantage considrer C plutt que X rside dans la structure de covariance.

    Proposition 5.2. La matrice de covariance des variables principales est la matrice diagonaleD. Autrement dit, pour tout j, j {1, . . . , p} avec j = j, nous avons Var cj = j etCov(cj, cj

    ) = 0.

    Dmonstration. Considrons j, j {1, . . . , p} et, grce la bilinarit de la covariance, cal-culons

    Cov(cj, cj

    ) = Cov

    pk=1

    ujkxk,

    pk=1

    uj

    kxk

    =pk=1

    pk=1

    ujkuj

    kCov

    xk, xk

    =

    pk=1

    pk=1

    PkjPkjkk =

    pk=1

    Pkj(P)kj

    = ( tPP)jj =Djj .

    Exercice 5.2. Si certaines des valeurs propres de sont nulles, que cela signifie-t-il pour lesvariables initialesx1, . . . , xp ?

    5.3 Reprsentation graphique

    5.3.1 Plan principal

    Pour i {1, . . . , n}, la ime ligne de la matrice Cdonnent les coordonnes Ci = (c1i , . . . , cpi ) Rp duime individu dans le repre des composantes principales. Les observations des variables

    principales sont dans Rp et, pour p > 2, nous ne pouvons toujours pas les reprsenter sim-plement. Cependant, par construction, nous avons class les variables principales par variancedcroissante,

    1= Varc1

    2= Varc2

    p= Var (cp) 0 .

    Autrement dit, les deux premires composantes principales correspondent aux deux directionsdans lesquelles la "dispersion" des donnes est la plus importante. Cest dans ce plan engendrpar C1 etC2, appel plan principal, que nous reprsenterons nos donnes.

    5.3.2 Reprsentation des individus

    Pour i {1, . . . , n}, les coordonnes du ime individu dans le plan principal sont doncdonnes par les deux premiers lments (c1i , c

    2i ) de la i

    me ligne de la matrice C.La question naturelle de la qualit de cette reprsentation se pose. Comme lillustre la figure

    5.1, nous allons raisonner de la mme faon que pour le coefficient de corrlation multipleR. Cest--dire que nous allons considrer langle i form entre le vecteur ci

    R

    p et la

  • 7/24/2019 Stat Explo

    60/73

    52 CHAPITRE 5. ANALYSE EN COMPOSANTES PRINCIPALES

    reprsentation du ime individu dans le plan principal dont les coordonnes sont (c1i , c2i ). Plus

    cet angle sera petit, meilleure sera la reprsentation du ime individu dans le plan principal,i.e. plus ci sera proche du plan principal. Pour i

    {1, . . . , n

    }, nous mesurons donc la qualit

    de la reprsentation du ime individu par la quantit

    cos2 i = (c1i )

    2 + (c2i )2

    (c1i )2 + + (cpi )2

    . (5.1)

    P

    ci= (c1i , . . . , c

    pi) Rp

    (c1i , c2i) Pi

    Figure5.1 Langle iform entre le vecteur c

    iRp et la reprsentation du ime individu

    dans le plan principal P.

    Plus le cosinus carr de (5.1) sera proche de1, plus la reprsentation duime individu serabonne. Pour faire apparatre cette qualit sur le graphique, la taille du point reprsentant leime individu peut tre proportionnelle cos2 i (voir Figure5.2).

  • 7/24/2019 Stat Explo

    61/73

    5.3. REPRSENTATION GRAPHIQUE 53

    2 1 0 1 2

    2

    1

    0

    1

    Figure 5.2 Nuage de n = 14 points reprsent dans le plan princ