analyse en composantes principales

18
Analyse en composantes principales(ACP) Il s’agit d’étud ier un tableau individus × Variables lorsque les variables sont quantitatives. Il s’agit tout d’abord de présenter une an alyse exploratoire permettant de d écrire les individus dans leurs multiples dimensions et de visualiser les relations entre les variables ; il s’agit ensuite d’étudier l’analyse en composantes principales ce qui permet de visualiser d’obtenir une carte des individus en fonction de leurs proximités et une carte des variables en fonction de leurs corrélations Les lignes du tableau à double entrées représentent des individus et les colonnes représentes les variables. A l’intersection de la ligne i et de la colonne k se trouve la valeur de la variable k pour l’individu i. Figure 1.1 Tableau des données en ACP. xik : valeur de la variable k pour l’individu i. I : nombre d’individus et ensemble des individus. K : nombre de variables et ensemble des variables.  Les questions que l’on se pose sur les individus et celles que l’on se pose sur les variab les ne sont pas de même nature. À propos de deux individus, on essaie d’évaluer leur ressemblance : deux individus se ressemblent d’autant plus qu’ils possèdent des valeurs proches pour l’ensemble des variables. En ACP, la distance d(i ,l) entre deux individus i et l est définie par : ( ) 2 2 ( ,)  ik lk  k K d i l x x =  À propos de deux variables, on essaie d’évaluer leur liaison. En ACP, la liaison entre deux variables est mesurée par le coefficient de corrélation linéaire (dans de rares situations, on utilise la covariance), noté usuellement r . Soit : cov( , ) 1 ( , ) ( ) ( ) k h ik k ih h k h k h  X X x X x X r k h  I s s V X V X  = =  Avec et k h  X X  sont les moyennes de et X k h  X  et et S k h S sont les écarts types Appliquée à un tel tableau, l’objectif général de l’ACP est une étude exploratoire. Les deux voies  principales de cette exploration sont : Un bilan des ressemblances entre individus . On cherche alors à répondre à des questions du type suivant : quels sont les individus qui se ressemblent ? Quels sont ceux qui diffèrent ? Plus généralement, on souhaite décrire la variabilité des individus .Pour cela, on cherche à mettre en évidence des groupes homogènes d’individus dans le cadre d’une typologie des individus. Selon un autre point de vue, on cherche les principales dimensions de variabilité des individus.

Upload: salmael

Post on 14-Oct-2015

10 views

Category:

Documents


0 download

TRANSCRIPT

  • 5/24/2018 Analyse en Composantes Principales

    1/18

    Analyse en composantes principales(ACP)

    Il sagit dtudier un tableau individus Variables lorsque les variables sont quantitatives. Ilsagit tout dabord de prsenter une analyse exploratoire permettant de dcrire les individusdans leurs multiples dimensions et de visualiser les relations entre les variables ; il sagit

    ensuite dtudier lanalyse en composantes principales ce qui permet de visualiser dobtenirune carte des individus en fonction de leurs proximits et une carte des variables en fonctionde leurs corrlationsLes lignes du tableau double entres reprsentent des individus et les colonnes reprsentesles variables. A lintersection de la ligne i et de la colonne k se trouve la valeur de la variable kpourlindividu i.

    Figure 1.1 Tableau des donnes en ACP.xik : valeur de la variable k pour lindividu i.I : nombre dindividus et ensembledes individus. K : nombre de variables et ensemble des variables.

    Les questions que lon se pose sur les individus et celles que lon se pose sur les variables ne sont pasde mme nature. propos de deux individus, on essaie dvaluer leur ressemblance : deux individus se ressemblentdautant plus quils possdent des valeurs proches pour lensemble des variables. En ACP, la distanced(i ,l) entre deux individus i et l est dfinie par :

    ( )22 ( , )

    ik lk

    k K

    d i l x x

    =

    propos de deux variables, on essaie dvaluer leur liaison. En ACP, la liaison entre deux variablesest mesure par le coefficient de corrlation linaire (dans de rares situations, on utilise la covariance),not usuellement r. Soit :

    cov( , ) 1( , )

    ( ) ( )k h ik k ih h

    k hk h

    X X x X x Xr k h

    I s sV X V X

    = =

    Avec etk hX X sont les moyennes de et Xk hX et et Sk hS sont les carts typesApplique un tel tableau, lobjectif gnral de lACP est une tude exploratoire. Les deux voiesprincipales de cette exploration sont :Un bilan des ressemblances entre individus. On cherche alors rpondre des questions du typesuivant : quels sont les individus qui se ressemblent ? Quels sont ceux qui diffrent ? Plus

    gnralement, on souhaite dcrire la variabilit des individus .Pour cela, on cherche mettre envidence des groupes homognes dindividus dans le cadre dune typologie des individus. Selon unautre point de vue, on cherche les principales dimensions de variabilit des individus.

  • 5/24/2018 Analyse en Composantes Principales

    2/18

    Un bilan des liaisons entre variables. Les questions sont alors : quelles variables sont corrlespositivement entre elles ? Quelles sont celles qui sopposent (corrles ngativement) ? Existe-t-il desgroupes de variables corrles entre elles ? Peut-on mettre en vidence une typologie des variables ?

    Un autre aspect de ltude des liaisons entre variables consiste rsumer lensemble des variables parun petit nombre de variables synthtiques appeles ici composantes principales. Ce point de vue esttrs li au prcdent : une composante principale peut tre considre comme le reprsentant (lasynthse) dun groupe de variables lies entre elles.Naturellement, ces deux voies ne sont pas indpendantes du fait de la dualit inhrente ltude duntableau rectangulaire : la structure du tableau peut tre analyse la fois par lintermdiaire de latypologie des individus et de la typologie des variables.Aussi, cherche-t-on en gnral relier ces deux typologies. Pour cela, on caractrise les classesdindividus par des variables (on slectionne ainsi les variables pour lesquelles lensemble des

    individus dune classe possde des valeurs particulirement grandes ou particulirement petites). Demme, on caractrise un groupe de variables lies entre elles par des individus types (on slectionneainsi les individus qui possdent des valeurs particulirement grandes ou des valeurs particulirementpetites pour un ensemble de variables lies positivement entre elles). Enfin, dans la situation idale, lesdeux typologies peuvent tre superposes : chaque groupe de variables caractrise un groupedindividus et chaque groupe dindividus rassemble les individus types dun groupe de variables.Ajoutons enfin que la notion de principale dimension de variabilit des individus rejoint celle devariable synthtique.

    1. Analyses exploratoire de donnes multidimensionnelles

    Le tableau suivant va servir de fil conducteur. Les lignes du tableau reprsente lesmodles de voitures de lanne 1989. et les colonnes les caractristiques techniques :cylindre, puissance, vitesse, poids, longueur, largeur.

    Numro modle Cylindre Puissance Vitesse poids Longueur Largeur

  • 5/24/2018 Analyse en Composantes Principales

    3/18

    12345

    678910111213141516

    1718192021222324

    HondaR19Fiat tipoPeugeot 205R21

    Citroen bxBmw 530iRover 827iR25Opel omegaPeugeot 405 breakFord sierraBmw 325iAudi 90 quattroFord scorpioRenaut espace

    Nissan vanetteVw caravaneFord fiestaFiat unoPeugeot 205Peugeot 205 rallyeSeat ibiza sxiCitroen ax sport

    13961721158017692068

    17692986267525481998190519932494199429331995

    19522109111711161580129414611294

    9092839088

    90188177182122125115171160150120

    8711250588010310095

    174180170180180

    182226222226190194185208214200177

    144149135145159189181184

    85096597010801135

    10601510136513501255112011901300122013451265

    14301320810780880805925730

    369415395440446

    424472469471473439451432439466436

    436457371364370370363350

    166169170169170

    168175175180177171172164169176177

    169184162155156157161160

    Etude descriptive des individusOn peut remarquer que- Peugeot 205 rallye, la Seat ibza sxi et la Citroen AX sport ont de fortes puissances et

    vitesse par rapport leurs autres caractristiques.- La Nissan Vanette et la VW caravelle se caractrisent par de petites vitesses- La Renault 21 a une petite puissance par rapport sa cylindre. Cest une diesel.

    Dune manire gnrale, lensemble des caractristiques voluent dans le mme sens, despetites voitures au plus grandes.

    Etude descriptive des variablesTableau 2

    Statistiques descriptivesN MinimumMaximum Moyenne Ecart type

    CYLINDRE 24 1116,00 2986,001906,1250 527,9087

    PUISSANC 24 50,00 188,00 113,6667 38,7844

    VITESSE 24 135,00 226,00 183,0833 25,2154

    POIDS 24 730,00 1510,001110,8333 230,2912

    LONGUEUR 24 350,00 473,00 421,5833 41,3405

    LARGEUR 24 155,00 184,00 168,8333 7,6537Corrlations

    CYLINDRE PUISSANCVITESSEPOIDSLONGUEURLARGEURCYLINDRE 1,000 ,861 ,693 ,905 ,864 ,709

  • 5/24/2018 Analyse en Composantes Principales

    4/18

    PUISSANC ,861 1,000 ,894 ,746 ,689 ,552VITESSE ,693 ,894 1,000 ,491 ,532 ,363

    POIDS ,905 ,746 ,491 1,000 ,917 ,791LONGUEUR ,864 ,689 ,532 ,917 1,000 ,864

    LARGEUR ,709 ,552 ,363 ,791 ,864 1,000

    Le tableau 2 donne quelques statistiques lmentaire et la matrice de corrlations entre lesvariables.Toutes les variables sont corrls positivement

    La vitesse est essentiellement corrle la puissance et moins aux autres variables.Les variables du groupe(Cylindre, longueur et poids) sont bien corrles entre ellesComme corrlation importantes, il reste Longueur et Largeur(0.86) et Puissance etVitesse(0.89).On peut rsumer cette premire analyse en prenant comme indice de proximit entre lesvariables leurs corrlations :A la premire tape on regroupe les deux premires variables les plus corrles : Poids etLongueur(0.917).A la deuxime tape on recherche la plus forte corrlation restante : Poids et Cylindre (0.90).la variable cylindre vient rejoindre le groupe( Poids, Longueur)A la troisime, le groupe Puissance et vitesse, se forme avec une corrlation de 0.894.A la quatrime tape, la largeur vient rejoindre le groupe (Cylindre, Poids, Longueur) ;corrlation Longueur Largeur = 0.864.Et enfin, les deux groupes (Puissance, Vitesse) et (Cylindre, Poids, Longueur, Largeur)fusionnent. La plus forte corrlation entre une variable dun groupe et une variable de lautregroupe vaut 0.861 ; Puissance et Cylindre.

    On peut mesurer la proximit entre chaque variable et lensemble de toutes les autres, ycompris elle mme , en utilisant plutt les corrlations carres. Il sagit de mesurer en quoiune variable reprsente plus quelle mme : par exemple, limportance de la variableCylindre est calcul en faisant la moyenne de toutes ses corrlations carres avec lensembledes variables :

    2 2 2 2 21 0.861 0.963 0.905 0.864 0.709 4.29

    6 6

    + + + + +=

    Le tableau suivant donne la proximit de chaque variable lensemble de toutes les variables :

    Variable ProximitCylindrePuissanceVitessePoidsLongueurLargeur

    0.7150.6460.4890.6810.6820.552

    Ainsi la variable qui rsume le mieux lensemble des six variables est la Cylindre. La vitesseest une variable plus indpendante des autres.

    2. Lanalyse en composantes principales

  • 5/24/2018 Analyse en Composantes Principales

    5/18

    Les donnes sont reprsentes dans un tableau IndividusVariables. Il y a p variables X1,X2,, Xpobserves sur n individus. On note xijla valeur prise par la variable Xjpourlindividu i.Lanalyse ACP consiste rechercher un petit nombre de nouvelles variables Y1, , Ymappeles composantes principales non corrles entre elles et rsumant aussi bien que

    possible les donnes de dpart. Le critre de linertie permet dobtenir les composantesprincipales et qui prsente trois avantages :- lapproche est gometrique, ce qui permet dobtenir une comprhension plus profonde

    de la mthodes et des aides linterprtation- lanalyse des correspondances prsente dans les chapitres suivants repose sur une

    gnralisation de lACP qui ne peut se concevoir que dans le cadre gomtrique- les sorties des programmes dACP correspondent cette approche

    2.1 Prsentation de lACP selon lapproche gomtrique

    Le nuage de points est associs aux donnes et ses caractristiques

    Le centre de gravit du nuage N est le point g dont les coordonnes sont les moyennes desdiffrentes variables :

    1 2... px x xg x

    p

    += =

    dans notre exemple g = (196 114 183 1111 422 169)le vecteur g reprsente en quelque sorte les caractristiques dune voiture moyenne

    la dispersion autour du centre de gravit est mesure laide de linertie totale du nuage depoints N dfinit par

    21

    ( , ) ( , )i iI N g d x gn= ou2

    ( , )i id x g reprsente le carre de la distance du point xiau centrede gravit g calcule en utilisant la formule :

    2 2( , ) ( )i i ij jd x g x x=

    Linertie totale peut se calculer directement des variances des variances

    2 2 2 2

    1 1 1 1 1 1

    1 1 1( , ) ( , ) ( ) ( )

    p p p pn n

    i i ij j ij j j

    j j i j i j

    I N g d x g x x x x sn n n= = = = = =

    = = = =

    Dans notre exemple :I(N,g) = 267072 +1441 +609 + 50824 + 1638 + 56 = 321640On voit que linertie du nuage est essentiellement due la cylindre. Un changementdchelle pourrait disparatre cette importance. Dans la pratique, il est pratique et mme

    prfrable dobtenir une description des donnes indpendante du choix de lunit de mesure.On peut rendre les donnes homognes en transformant les variables dorigine en variablescentres et rduites dont la moyenne est nulle et la variance est gale un.Le centre de gravit est 0 et linertie totale = p

    Premire axe principale et premire composante principaleOn cherche faire passer une droite 1 le mieux possible au milieu du nuage de points.

  • 5/24/2018 Analyse en Composantes Principales

    6/18

    La droite 1D sappelle le premier axe principal. On peut montrer que la droite 1D passe par

    lorigine 0, centre de gravit du nuage des donnes normes et est engendre par le vecteur u1appelle vecteur propre associ la plus grande valeur propre 1

    Directions principales - plans principaux - reprsentation des individus

    Le nuage prsente gnralement des directions d'allongement privilgies, celle d'allongement

    maximal D1 est dite premire direction principale (du nuage), la suivante D2 parmi toutes

    celles perpendiculaires D1est la seconde direction principale, la suivante D3parmi toutes

    celles perpendiculaires D1et D2est la troisime direction principale, etc.

    On choisit un vecteur unitaire uksur chaque direction Dket on obtient une base orthonorme

    de Rp, c'est la base principale du nuage.

    +-------------------------------------------------+-------------------------------------------------------+I | * * * II | * D1 * * I

    I * | * * * II * | * * * II - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - II * * * | G * * * II * * * | * * II * * * * | * I

    I * * * * * | II * * | I

    +-------------------------------------------------+-------------------------------------------------------+

    On appelle plan principal ixj le plan vectoriel dtermin par les directions Di et Dj. En

    gnral, le nuage est approximativement situ dans un sous-espace de Rpde faible dimension,

    engendr par les premires directions principales; l'examen de ses projections sur quelques

    plans principaux bien choisis (1x2, 1x3, etc.) permet alors de dcouvrir ses particularits et de

    dcrire sa structure assez prcisment.

    Composantes principales - reprsentation des variables

    De mme que les variables initiales sont associes aux axes canoniques de Rp

    , de nouvelles

    variables appeles composantes principales sont associes aux axes principaux: la composante

    principale ckest le vecteur de Rnqui donne les coordonnes des individus sur l'axe principal

    Dkmuni du vecteur unitaire uk.

  • 5/24/2018 Analyse en Composantes Principales

    7/18

    Les composantes principales sont naturellement des combinaisons linaires des variables

    initiales, on montre qu'elles sont centres et non corrles.

    L'examen des corrlations entre les variables initiales et les composantes principales permet

    d'interprter ces dernires et les axes principaux correspondants.

    Les programmes usuels permettent de reprsenter ces quantits dans lecercle des corrlations.

    Cette reprsentation n'est pas de mme nature que celle des individus sur les plans principaux.

    Et si certains logiciels superposent les deux sur les mmes graphiques, il faut garder l'esprit

    que la position des points-variables par rapport aux points-individus n'y est pas directement

    interprtable!

    Une prsentation alternative de l'ACP, moins intuitive mais quivalente, et privilgiant les

    variables, l'introduit comme la recherche de nouvelles variables (les composantes principales)

    non corrles entre elles, et les plus corrles avec l'ensemble des variables initiales.

    AIDES A L'INTERPRETATION

    Mme si tout n'a pas t dtaill, on aura compris que les bases mathmatiques de

    l'ACP sont rduites. L'art de l'analyste est celui de l'interprtation des rsultats, cela

    ncessite la fois la comprhension des mthodes employes et la connaissance du

    domaine des donnes tudies.

    L'interprtation s'appuie sur l'examen de diffrentes quantits calcules et dites par

    les logiciels d'ACP.

  • 5/24/2018 Analyse en Composantes Principales

    8/18

    i

    --------+-----------------------------------------------------+-----------------------

    0 ik Dk

    Taux d'inertie

    Il s'agit des inerties successives I1, I2, I3, etc. suivant les axes principaux D1, D2, D3, etc. du

    nuage. Leurs valeurs relatives traduisent l'importance de l'allongement suivant ces directions

    successives.

    On dite les taux relatifs I1/I, I2/I, I3/I, etc., ainsi que les taux relatifs cumuls. Lorsque ces

    derniers approchent 100%, on considre que l'on a assez d'axes principaux pour reprsenter

    convenablement le nuage.

    Contributions des axes aux individus (COR)

    Il s'agit des ratios tels que:

    ( , ) ki

    i

    ICor k i

    I=

    qui mesure la qualit de la reprsentation de l'individu i sur l'axe principal Dk.

    On a: ( , ) 1k

    Cor k i = Il n'est licite de commenter la position de l'individu i sur le plan principal kxh que si le ratio:

    [ ]ki hii

    I I

    I

    +n'est pas trop faible.

  • 5/24/2018 Analyse en Composantes Principales

    9/18

    La considration de ces ratios, qui sont des cosinus carrs, n'est pertinente que pour les points

    pas trop proches de l'origine. Pour ceux-ci, c'est plus leur position, centrale, que la direction

    dans laquelle se manifeste leur faible loignement, qui les caractrise.

    Contributions des individus aux axes (CTR)

    Il s'agit des ratios tels que: ( , ) ki

    k

    ICTR i k

    I=

    qui mesure la part prise par l'individu i dans la dtermination de l'axe principal Dk.

    On a: ( , ) 1i

    CTR i k =

    Contributions des axes aux variables (COR)

    Il s'agit des coefficients de corrlation au carr tels que:

    2( , ) ( , )k jCOR k i cor c x=

    entre la variable initiale x.jet la composante principale ck.Elles permettent comme on l'a vu

    de dgager la signification des axes.

    ( , ) 1k

    COR k j =

    Ces quantits les carrs de celles figures dans le cercle des corrlations utilis pour

    reprsenter graphiquement les variables.

    Contributions des variables aux axes (CTR)

    Il s'agit des ratios tels que:

    2

    2

    ( , )( , )

    ( , )

    k j

    k i

    i

    cor c xCTR j k

    Cor c x

    =

    On a : ( , ) 1j

    CTR j k = i

  • 5/24/2018 Analyse en Composantes Principales

    10/18

    L'observation des premiers plans principaux ne permet aucune conclusion, et peut mme tre

    source de contresens, si elle ne s'accompagne pas de l'examen des quantits prcdentes. Il

    faut donc toujours les faire diter par le logiciel utilis et les consulter.

    Elments supplmentaires

    Si on craint que l'influence de certains individus ne soit excessive pour la dtermination des

    axes principaux, il est possible de les placer en lments supplmentaires, c'est dire qu'ils ne

    font pas partie du nuage dont on cherche les directions principales, mais on peut figurer leur

    position sur les plans principaux obtenus.

    On traite de la mme manire des variables en lments supplmentaires, elles ne font pas

    partie de l'ensemble des variables de base mais on peut examiner leurs corrlations avec les

    composantes principales obtenues.

    Aprs une premire ACP des donnes tudies, il est recommand d'prouver la stabilit des

    configurations observes en effectuant de nouvelles analyses laissant en lments

    supplmentaires les individus ou variables d'importance trop marque, ou encore les donnes

    douteuses.

    CONCLUSION

    L'ACP est une technique de statistique descriptive dont le principe est simple mais qui met en

    oeuvre des calculs numriques importants, pour cette raison elle n'a pu se dvelopper qu'avec

    l'apparition des ordinateurs.

    Il est prsent possible de traiter des donnes de taille consquente sur micro-ordinateur.

    L'ACP est conseiller pour un premier examen, une mise en forme ou une prsentation

    synthtique de donnes abondantes croisant des individus avec des variables quantitatives. On

    n'omettra cependant pas d'examiner pralablement les donnes par les mthodes statistiquesusuelles (moyenne, cart-type, graphiques, corrlation, etc.).

  • 5/24/2018 Analyse en Composantes Principales

    11/18

    Un reproche frquemment adress l'ACP et aux techniques connexes est qu'elles ne

    rvleraient que des vidences. Le propos est injuste, mais il est rassurant que souvent les

    premiers axes retrouvent et confirment ce qui tait dj connu.

    Comme avec les autres mthodes descriptives, il faut tre trs prudent pour infrer des

    modles explicatifs ou causals partir des configurations obtenues.

    Elments supplmentaires

    Si on craint que l'influence de certains individus ne soit excessive pour la

    dtermination des axes principaux, il est possible de les placer en lments

    supplmentaires, c'est dire qu'ils ne font pas partie du nuage dont on cherche les

    directions principales, mais on peut figurer leur position sur les plans principaux

    obtenus.

    On traite de la mme manire des variables en lments supplmentaires, elles ne font

    pas partie de l'ensemble des variables de base mais on peut examiner leurs corrlations

    avec les composantes principales obtenues.

    Aprs une premire ACP des donnes tudies, il est recommand d'prouver la

    stabilit des configurations observes en effectuant de nouvelles analyses laissant en

    lments supplmentaires les individus ou variables d'importance trop marque, ou

    encore les donnes douteuses.

    Exemple : Une entreprise multinationale souhaite implanter dans un pays X lune

    de ses units de production. Elle ralise une tude pour valuer lattractivit

    conomique des 22 rgions (Tableau ci-dessous).. Objectif : est il possible de

  • 5/24/2018 Analyse en Composantes Principales

    12/18

    rsumer les 7 variables en 2 ou 3 maximum, avec un minimum de perte

    dinformation de manire pouvoir interprter plus facilement cette dernire.

    REGION POPUL TACT SUPERF NBENT NBBREV CHOM TELEPHR1 1624,00 39,14 8280,00 35976,00 241,00 5,20 700,00

    R2 2795,00 36,62 41308,00 85531,00 256,00 10,20 1300,00

    R3 1320,00 37,48 26013,00 40494,00 129,00 9,30 600,00

    R4 1390,00 38,63 17589,00 35888,00 91,00 9,00 600,00

    R5 1600,00 38,26 31582,00 40714,00 223,00 8,10 750,00

    R6 2795,00 36,62 27208,00 73763,00 296,00 9,50 1300,00

    R7 2370,00 38,78 39151,00 56753,00 229,00 7,90 1100,00

    R8 1340,00 37,85 25606,00 24060,00 155,00 9,30 550,00

    R9 240,00 8680 8273

    R10 1090,00 37,27 16202,00 27481,00 159,00 7,10 450,00

    R11 1730,00 37,80 12317,00 37461,00 181,00 10,80 750,00

    R12 10660 46,04 12012 273604 6722 7,3 5800

    R13 2110,00 32,12 27376,00 62202,00 179,00 13,20 1000,00R14 720,00 38,06 16942,00 21721,00 73,00 7,90 350,00

    R15 2300,00 34,34 23547,00 48353,00 185,00 8,60 960,00

    R16 2430,00 37,14 45348,00 78771,00 237,00 9,00 1100,00

    R17 3960,00 32,05 12414,00 78504,00 278,00 12,60 1600,00

    R18 3060,00 37,93 32082,00 72027,00 339,00 9,60 1300,00

    R19 1810,00 34,39 19399,00 36285,00 139,00 9,80 750,00

    R20 1590,00 36,82 25809,00 44598,00 133,00 10,10 750,00

    R21 4260,00 34,96 31400,00 132552,00 610,00 11,00 2300,00

    R22 5350,00 39,44 48698,00 159634,00 1474,00 7,40 2500,00

    Popul = population de la rgion en milliers dindividus

    Tact = Taux dactivit ( Population active/population totale de la rgion) en %

    SUPERF = superficie de la rgion en KM carrsNBENTR = nombre dentreprises dans la rgion

  • 5/24/2018 Analyse en Composantes Principales

    13/18

    NBREV = nombre de brevets dposs au cours de lanne

    CHOM = taux de chmage en %

    TELEPH = nombre de lignes tlphoniques en place dans la rgion

    Etape 1 : reprage des observations aberrantes

    Les individus prsentent des valeurs extrme risquent de fausser lanalyse ; les

    individus pour les quels beaucoup dinformations manquent sont galement dun

    intrt limit pour lanalyse. Dans le tableau ci-dessus, 4 informations sur les 7

    manquent pour la rgion 9. Par ailleurs les valeurs prises par la rgion 12 sont

    atypiques. Ces deux rgions seront supprimes.

    Etape 2

    Centrer et rduire les variables pour enlever lhtrognit des units de mesure

    Etape 3 :calcul dune matrice de corrlations entre les variables initiales

    Dans notre exemple :

    Matrices des Corrlations

    CHOM NBENTR TACT POPUL NBREV SUPERF TELZEPH

    CHOM 1,000 ,190 -,766 ,246 -,137 -,003 ,236

    NBENTR ,190 1,000 -,098 ,951 ,863 ,649 ,978

    TACT -,766 -,098 1,000 -,203 ,192 ,193 -,172

    POPUL ,246 ,951 -,203 1,000 ,827 ,513 ,984

    NBREV -,137 ,863 ,192 ,827 1,000 ,541 ,836

    SUPERF -,003 ,649 ,193 ,513 ,541 1,000 ,551

    TELEPH ,236 ,978 -,172 ,984 ,836 ,551 1,000

    Lanalyse de la matrice des corrlations permet le reprage de trois situations

    diffrentes, des corrlations leves proches de 0,8-0,9 (en gras) indiquant une

    premire dimension. Deux variables faiblement corrles avec les autres ( CHOM

  • 5/24/2018 Analyse en Composantes Principales

    14/18

    et TACT) mais assez fortement lies entre elles ( r = -0,76) suggrant une

    deuxime dimension. Enfin la variable SUPERF est corrle avec les variables du

    groupe 1, mais plus faiblement ( r proche de 0,5-0,6) et constitue une dimension

    elle seule.

    Etape 4 : calcul des combinaisons linaires.

    Lanalyse factorielle construit des combinaisons linaires des variables de dpart.

    Ces calculs donnent un tableau comportant la variance de chacune des

    composantes principales, ainsi que la part de variance initiale reprsente par

    chacune de celle-ci :

    Variance explique totale

    Comp Total % de la variance % cumuls Sommel% de la variance % cumuls

    1 4,158 59,395 59,395 4,158 59,395 59,395

    2 1,899 27,126 86,521 1,899 27,126 86,5213 ,595 8,495 95,016

    4 ,205 2,926 97,942

    5 ,105 1,503 99,446

    6 3,243E-

    02

    ,463 99,909

    7 6,379E-03 9,113E-02 100,000

    Mthode d'extraction : Analyse des principaux composants.

    Etape 5 : Choix des composantes principales

  • 5/24/2018 Analyse en Composantes Principales

    15/18

    Graphique des valeurs propres

    Numro de composant

    7654321

    Valeurpropre

    5

    4

    3

    2

    1

    0

    Matrice des composantes

    Composante1 2

    nombre d'entreprises ,990

    nombre de lignes de tlphones ,979

    population en milliers ,966

    nombre de brevets dposs ,884

    superficie en km carr ,676

    population active/pop totale ,941

    taux de chmage(%) -,905

    Mthode d'extraction : Analyse en composantes principales.

    a 2 composantes extraites.

    Etape 6 :Linterprtation est facile en terme graphique

  • 5/24/2018 Analyse en Composantes Principales

    16/18

    Diagramme de composantes

    Composante 1

    1,0,50,0-,5-1,0

    Composante2

    1,0

    ,5

    0,0

    -,5

    -1,0

    tax de chmage(%)

    population active/po

    superficie en km carnobre de brevets d

    population ennobre de lignenobre d'entrep

    Les coordonnes reprsentent les corrlations des variables de dpart avec les

    composantes. Laxe horizontal reprsente la 1recomposante, il peut sinterprter

    comme tant le potentiel de dveloppement conomique des rgions le nombre

    dentreprise, le nombre de lignes tlphoniques, la population et le nombre de

    brevets lui sont trs fortement corrles, la superficie lest moins.

    La 2mecomposante oppose le taux de chmage et le taux dactivit et peut

    sinterprter comme tant lactivit actuelle de la rgion. Le fait que les

    corrlations sont de signe oppos montre que plus le rapport population active sur

    population totale est lev, plus le taux de chmage est faible.

  • 5/24/2018 Analyse en Composantes Principales

    17/18

    Qualit de reprsentation

    InitialExtraction

    nombre d'entreprises 1,000 ,979nombre de lignes de tlphones 1,000 ,967

    population en milliers 1,000 ,946

    nombre de brevets dposs 1,000 ,882

    superficie en km carr 1,000 ,532

    population active/pop totale 1,000 ,894

    taux de chmage(%) 1,000 ,857

    Mthode d'extraction : Analyse des principaux composants.

    Lanalyse de la communalit se base sur le principe suivant :

    Plus la communalit est proche de zro plus la variable en question est mal restitue

    Plus la communalit est proche de un plus la variable en question est bien restitue

    Etape 7 : visualisation des individus sur les composantes

    REGR factor score 2 for analysis 1

    210-1-2-3

    REGR

    factorscore

    1for

    analysis

    1

    4

    3

    2

    1

    0

    -1

    -2

    R22

    R21

    R20R19

    R18R17

    R16

    R15

    R14

    R13

    R11

    R10R8

    R7R6

    R5

    R4R3

    R2

    R1

  • 5/24/2018 Analyse en Composantes Principales

    18/18