analyse en composantes principales
TRANSCRIPT
-
5/24/2018 Analyse en Composantes Principales
1/18
Analyse en composantes principales(ACP)
Il sagit dtudier un tableau individus Variables lorsque les variables sont quantitatives. Ilsagit tout dabord de prsenter une analyse exploratoire permettant de dcrire les individusdans leurs multiples dimensions et de visualiser les relations entre les variables ; il sagit
ensuite dtudier lanalyse en composantes principales ce qui permet de visualiser dobtenirune carte des individus en fonction de leurs proximits et une carte des variables en fonctionde leurs corrlationsLes lignes du tableau double entres reprsentent des individus et les colonnes reprsentesles variables. A lintersection de la ligne i et de la colonne k se trouve la valeur de la variable kpourlindividu i.
Figure 1.1 Tableau des donnes en ACP.xik : valeur de la variable k pour lindividu i.I : nombre dindividus et ensembledes individus. K : nombre de variables et ensemble des variables.
Les questions que lon se pose sur les individus et celles que lon se pose sur les variables ne sont pasde mme nature. propos de deux individus, on essaie dvaluer leur ressemblance : deux individus se ressemblentdautant plus quils possdent des valeurs proches pour lensemble des variables. En ACP, la distanced(i ,l) entre deux individus i et l est dfinie par :
( )22 ( , )
ik lk
k K
d i l x x
=
propos de deux variables, on essaie dvaluer leur liaison. En ACP, la liaison entre deux variablesest mesure par le coefficient de corrlation linaire (dans de rares situations, on utilise la covariance),not usuellement r. Soit :
cov( , ) 1( , )
( ) ( )k h ik k ih h
k hk h
X X x X x Xr k h
I s sV X V X
= =
Avec etk hX X sont les moyennes de et Xk hX et et Sk hS sont les carts typesApplique un tel tableau, lobjectif gnral de lACP est une tude exploratoire. Les deux voiesprincipales de cette exploration sont :Un bilan des ressemblances entre individus. On cherche alors rpondre des questions du typesuivant : quels sont les individus qui se ressemblent ? Quels sont ceux qui diffrent ? Plus
gnralement, on souhaite dcrire la variabilit des individus .Pour cela, on cherche mettre envidence des groupes homognes dindividus dans le cadre dune typologie des individus. Selon unautre point de vue, on cherche les principales dimensions de variabilit des individus.
-
5/24/2018 Analyse en Composantes Principales
2/18
Un bilan des liaisons entre variables. Les questions sont alors : quelles variables sont corrlespositivement entre elles ? Quelles sont celles qui sopposent (corrles ngativement) ? Existe-t-il desgroupes de variables corrles entre elles ? Peut-on mettre en vidence une typologie des variables ?
Un autre aspect de ltude des liaisons entre variables consiste rsumer lensemble des variables parun petit nombre de variables synthtiques appeles ici composantes principales. Ce point de vue esttrs li au prcdent : une composante principale peut tre considre comme le reprsentant (lasynthse) dun groupe de variables lies entre elles.Naturellement, ces deux voies ne sont pas indpendantes du fait de la dualit inhrente ltude duntableau rectangulaire : la structure du tableau peut tre analyse la fois par lintermdiaire de latypologie des individus et de la typologie des variables.Aussi, cherche-t-on en gnral relier ces deux typologies. Pour cela, on caractrise les classesdindividus par des variables (on slectionne ainsi les variables pour lesquelles lensemble des
individus dune classe possde des valeurs particulirement grandes ou particulirement petites). Demme, on caractrise un groupe de variables lies entre elles par des individus types (on slectionneainsi les individus qui possdent des valeurs particulirement grandes ou des valeurs particulirementpetites pour un ensemble de variables lies positivement entre elles). Enfin, dans la situation idale, lesdeux typologies peuvent tre superposes : chaque groupe de variables caractrise un groupedindividus et chaque groupe dindividus rassemble les individus types dun groupe de variables.Ajoutons enfin que la notion de principale dimension de variabilit des individus rejoint celle devariable synthtique.
1. Analyses exploratoire de donnes multidimensionnelles
Le tableau suivant va servir de fil conducteur. Les lignes du tableau reprsente lesmodles de voitures de lanne 1989. et les colonnes les caractristiques techniques :cylindre, puissance, vitesse, poids, longueur, largeur.
Numro modle Cylindre Puissance Vitesse poids Longueur Largeur
-
5/24/2018 Analyse en Composantes Principales
3/18
12345
678910111213141516
1718192021222324
HondaR19Fiat tipoPeugeot 205R21
Citroen bxBmw 530iRover 827iR25Opel omegaPeugeot 405 breakFord sierraBmw 325iAudi 90 quattroFord scorpioRenaut espace
Nissan vanetteVw caravaneFord fiestaFiat unoPeugeot 205Peugeot 205 rallyeSeat ibiza sxiCitroen ax sport
13961721158017692068
17692986267525481998190519932494199429331995
19522109111711161580129414611294
9092839088
90188177182122125115171160150120
8711250588010310095
174180170180180
182226222226190194185208214200177
144149135145159189181184
85096597010801135
10601510136513501255112011901300122013451265
14301320810780880805925730
369415395440446
424472469471473439451432439466436
436457371364370370363350
166169170169170
168175175180177171172164169176177
169184162155156157161160
Etude descriptive des individusOn peut remarquer que- Peugeot 205 rallye, la Seat ibza sxi et la Citroen AX sport ont de fortes puissances et
vitesse par rapport leurs autres caractristiques.- La Nissan Vanette et la VW caravelle se caractrisent par de petites vitesses- La Renault 21 a une petite puissance par rapport sa cylindre. Cest une diesel.
Dune manire gnrale, lensemble des caractristiques voluent dans le mme sens, despetites voitures au plus grandes.
Etude descriptive des variablesTableau 2
Statistiques descriptivesN MinimumMaximum Moyenne Ecart type
CYLINDRE 24 1116,00 2986,001906,1250 527,9087
PUISSANC 24 50,00 188,00 113,6667 38,7844
VITESSE 24 135,00 226,00 183,0833 25,2154
POIDS 24 730,00 1510,001110,8333 230,2912
LONGUEUR 24 350,00 473,00 421,5833 41,3405
LARGEUR 24 155,00 184,00 168,8333 7,6537Corrlations
CYLINDRE PUISSANCVITESSEPOIDSLONGUEURLARGEURCYLINDRE 1,000 ,861 ,693 ,905 ,864 ,709
-
5/24/2018 Analyse en Composantes Principales
4/18
PUISSANC ,861 1,000 ,894 ,746 ,689 ,552VITESSE ,693 ,894 1,000 ,491 ,532 ,363
POIDS ,905 ,746 ,491 1,000 ,917 ,791LONGUEUR ,864 ,689 ,532 ,917 1,000 ,864
LARGEUR ,709 ,552 ,363 ,791 ,864 1,000
Le tableau 2 donne quelques statistiques lmentaire et la matrice de corrlations entre lesvariables.Toutes les variables sont corrls positivement
La vitesse est essentiellement corrle la puissance et moins aux autres variables.Les variables du groupe(Cylindre, longueur et poids) sont bien corrles entre ellesComme corrlation importantes, il reste Longueur et Largeur(0.86) et Puissance etVitesse(0.89).On peut rsumer cette premire analyse en prenant comme indice de proximit entre lesvariables leurs corrlations :A la premire tape on regroupe les deux premires variables les plus corrles : Poids etLongueur(0.917).A la deuxime tape on recherche la plus forte corrlation restante : Poids et Cylindre (0.90).la variable cylindre vient rejoindre le groupe( Poids, Longueur)A la troisime, le groupe Puissance et vitesse, se forme avec une corrlation de 0.894.A la quatrime tape, la largeur vient rejoindre le groupe (Cylindre, Poids, Longueur) ;corrlation Longueur Largeur = 0.864.Et enfin, les deux groupes (Puissance, Vitesse) et (Cylindre, Poids, Longueur, Largeur)fusionnent. La plus forte corrlation entre une variable dun groupe et une variable de lautregroupe vaut 0.861 ; Puissance et Cylindre.
On peut mesurer la proximit entre chaque variable et lensemble de toutes les autres, ycompris elle mme , en utilisant plutt les corrlations carres. Il sagit de mesurer en quoiune variable reprsente plus quelle mme : par exemple, limportance de la variableCylindre est calcul en faisant la moyenne de toutes ses corrlations carres avec lensembledes variables :
2 2 2 2 21 0.861 0.963 0.905 0.864 0.709 4.29
6 6
+ + + + +=
Le tableau suivant donne la proximit de chaque variable lensemble de toutes les variables :
Variable ProximitCylindrePuissanceVitessePoidsLongueurLargeur
0.7150.6460.4890.6810.6820.552
Ainsi la variable qui rsume le mieux lensemble des six variables est la Cylindre. La vitesseest une variable plus indpendante des autres.
2. Lanalyse en composantes principales
-
5/24/2018 Analyse en Composantes Principales
5/18
Les donnes sont reprsentes dans un tableau IndividusVariables. Il y a p variables X1,X2,, Xpobserves sur n individus. On note xijla valeur prise par la variable Xjpourlindividu i.Lanalyse ACP consiste rechercher un petit nombre de nouvelles variables Y1, , Ymappeles composantes principales non corrles entre elles et rsumant aussi bien que
possible les donnes de dpart. Le critre de linertie permet dobtenir les composantesprincipales et qui prsente trois avantages :- lapproche est gometrique, ce qui permet dobtenir une comprhension plus profonde
de la mthodes et des aides linterprtation- lanalyse des correspondances prsente dans les chapitres suivants repose sur une
gnralisation de lACP qui ne peut se concevoir que dans le cadre gomtrique- les sorties des programmes dACP correspondent cette approche
2.1 Prsentation de lACP selon lapproche gomtrique
Le nuage de points est associs aux donnes et ses caractristiques
Le centre de gravit du nuage N est le point g dont les coordonnes sont les moyennes desdiffrentes variables :
1 2... px x xg x
p
+= =
dans notre exemple g = (196 114 183 1111 422 169)le vecteur g reprsente en quelque sorte les caractristiques dune voiture moyenne
la dispersion autour du centre de gravit est mesure laide de linertie totale du nuage depoints N dfinit par
21
( , ) ( , )i iI N g d x gn= ou2
( , )i id x g reprsente le carre de la distance du point xiau centrede gravit g calcule en utilisant la formule :
2 2( , ) ( )i i ij jd x g x x=
Linertie totale peut se calculer directement des variances des variances
2 2 2 2
1 1 1 1 1 1
1 1 1( , ) ( , ) ( ) ( )
p p p pn n
i i ij j ij j j
j j i j i j
I N g d x g x x x x sn n n= = = = = =
= = = =
Dans notre exemple :I(N,g) = 267072 +1441 +609 + 50824 + 1638 + 56 = 321640On voit que linertie du nuage est essentiellement due la cylindre. Un changementdchelle pourrait disparatre cette importance. Dans la pratique, il est pratique et mme
prfrable dobtenir une description des donnes indpendante du choix de lunit de mesure.On peut rendre les donnes homognes en transformant les variables dorigine en variablescentres et rduites dont la moyenne est nulle et la variance est gale un.Le centre de gravit est 0 et linertie totale = p
Premire axe principale et premire composante principaleOn cherche faire passer une droite 1 le mieux possible au milieu du nuage de points.
-
5/24/2018 Analyse en Composantes Principales
6/18
La droite 1D sappelle le premier axe principal. On peut montrer que la droite 1D passe par
lorigine 0, centre de gravit du nuage des donnes normes et est engendre par le vecteur u1appelle vecteur propre associ la plus grande valeur propre 1
Directions principales - plans principaux - reprsentation des individus
Le nuage prsente gnralement des directions d'allongement privilgies, celle d'allongement
maximal D1 est dite premire direction principale (du nuage), la suivante D2 parmi toutes
celles perpendiculaires D1est la seconde direction principale, la suivante D3parmi toutes
celles perpendiculaires D1et D2est la troisime direction principale, etc.
On choisit un vecteur unitaire uksur chaque direction Dket on obtient une base orthonorme
de Rp, c'est la base principale du nuage.
+-------------------------------------------------+-------------------------------------------------------+I | * * * II | * D1 * * I
I * | * * * II * | * * * II - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - II * * * | G * * * II * * * | * * II * * * * | * I
I * * * * * | II * * | I
+-------------------------------------------------+-------------------------------------------------------+
On appelle plan principal ixj le plan vectoriel dtermin par les directions Di et Dj. En
gnral, le nuage est approximativement situ dans un sous-espace de Rpde faible dimension,
engendr par les premires directions principales; l'examen de ses projections sur quelques
plans principaux bien choisis (1x2, 1x3, etc.) permet alors de dcouvrir ses particularits et de
dcrire sa structure assez prcisment.
Composantes principales - reprsentation des variables
De mme que les variables initiales sont associes aux axes canoniques de Rp
, de nouvelles
variables appeles composantes principales sont associes aux axes principaux: la composante
principale ckest le vecteur de Rnqui donne les coordonnes des individus sur l'axe principal
Dkmuni du vecteur unitaire uk.
-
5/24/2018 Analyse en Composantes Principales
7/18
Les composantes principales sont naturellement des combinaisons linaires des variables
initiales, on montre qu'elles sont centres et non corrles.
L'examen des corrlations entre les variables initiales et les composantes principales permet
d'interprter ces dernires et les axes principaux correspondants.
Les programmes usuels permettent de reprsenter ces quantits dans lecercle des corrlations.
Cette reprsentation n'est pas de mme nature que celle des individus sur les plans principaux.
Et si certains logiciels superposent les deux sur les mmes graphiques, il faut garder l'esprit
que la position des points-variables par rapport aux points-individus n'y est pas directement
interprtable!
Une prsentation alternative de l'ACP, moins intuitive mais quivalente, et privilgiant les
variables, l'introduit comme la recherche de nouvelles variables (les composantes principales)
non corrles entre elles, et les plus corrles avec l'ensemble des variables initiales.
AIDES A L'INTERPRETATION
Mme si tout n'a pas t dtaill, on aura compris que les bases mathmatiques de
l'ACP sont rduites. L'art de l'analyste est celui de l'interprtation des rsultats, cela
ncessite la fois la comprhension des mthodes employes et la connaissance du
domaine des donnes tudies.
L'interprtation s'appuie sur l'examen de diffrentes quantits calcules et dites par
les logiciels d'ACP.
-
5/24/2018 Analyse en Composantes Principales
8/18
i
--------+-----------------------------------------------------+-----------------------
0 ik Dk
Taux d'inertie
Il s'agit des inerties successives I1, I2, I3, etc. suivant les axes principaux D1, D2, D3, etc. du
nuage. Leurs valeurs relatives traduisent l'importance de l'allongement suivant ces directions
successives.
On dite les taux relatifs I1/I, I2/I, I3/I, etc., ainsi que les taux relatifs cumuls. Lorsque ces
derniers approchent 100%, on considre que l'on a assez d'axes principaux pour reprsenter
convenablement le nuage.
Contributions des axes aux individus (COR)
Il s'agit des ratios tels que:
( , ) ki
i
ICor k i
I=
qui mesure la qualit de la reprsentation de l'individu i sur l'axe principal Dk.
On a: ( , ) 1k
Cor k i = Il n'est licite de commenter la position de l'individu i sur le plan principal kxh que si le ratio:
[ ]ki hii
I I
I
+n'est pas trop faible.
-
5/24/2018 Analyse en Composantes Principales
9/18
La considration de ces ratios, qui sont des cosinus carrs, n'est pertinente que pour les points
pas trop proches de l'origine. Pour ceux-ci, c'est plus leur position, centrale, que la direction
dans laquelle se manifeste leur faible loignement, qui les caractrise.
Contributions des individus aux axes (CTR)
Il s'agit des ratios tels que: ( , ) ki
k
ICTR i k
I=
qui mesure la part prise par l'individu i dans la dtermination de l'axe principal Dk.
On a: ( , ) 1i
CTR i k =
Contributions des axes aux variables (COR)
Il s'agit des coefficients de corrlation au carr tels que:
2( , ) ( , )k jCOR k i cor c x=
entre la variable initiale x.jet la composante principale ck.Elles permettent comme on l'a vu
de dgager la signification des axes.
( , ) 1k
COR k j =
Ces quantits les carrs de celles figures dans le cercle des corrlations utilis pour
reprsenter graphiquement les variables.
Contributions des variables aux axes (CTR)
Il s'agit des ratios tels que:
2
2
( , )( , )
( , )
k j
k i
i
cor c xCTR j k
Cor c x
=
On a : ( , ) 1j
CTR j k = i
-
5/24/2018 Analyse en Composantes Principales
10/18
L'observation des premiers plans principaux ne permet aucune conclusion, et peut mme tre
source de contresens, si elle ne s'accompagne pas de l'examen des quantits prcdentes. Il
faut donc toujours les faire diter par le logiciel utilis et les consulter.
Elments supplmentaires
Si on craint que l'influence de certains individus ne soit excessive pour la dtermination des
axes principaux, il est possible de les placer en lments supplmentaires, c'est dire qu'ils ne
font pas partie du nuage dont on cherche les directions principales, mais on peut figurer leur
position sur les plans principaux obtenus.
On traite de la mme manire des variables en lments supplmentaires, elles ne font pas
partie de l'ensemble des variables de base mais on peut examiner leurs corrlations avec les
composantes principales obtenues.
Aprs une premire ACP des donnes tudies, il est recommand d'prouver la stabilit des
configurations observes en effectuant de nouvelles analyses laissant en lments
supplmentaires les individus ou variables d'importance trop marque, ou encore les donnes
douteuses.
CONCLUSION
L'ACP est une technique de statistique descriptive dont le principe est simple mais qui met en
oeuvre des calculs numriques importants, pour cette raison elle n'a pu se dvelopper qu'avec
l'apparition des ordinateurs.
Il est prsent possible de traiter des donnes de taille consquente sur micro-ordinateur.
L'ACP est conseiller pour un premier examen, une mise en forme ou une prsentation
synthtique de donnes abondantes croisant des individus avec des variables quantitatives. On
n'omettra cependant pas d'examiner pralablement les donnes par les mthodes statistiquesusuelles (moyenne, cart-type, graphiques, corrlation, etc.).
-
5/24/2018 Analyse en Composantes Principales
11/18
Un reproche frquemment adress l'ACP et aux techniques connexes est qu'elles ne
rvleraient que des vidences. Le propos est injuste, mais il est rassurant que souvent les
premiers axes retrouvent et confirment ce qui tait dj connu.
Comme avec les autres mthodes descriptives, il faut tre trs prudent pour infrer des
modles explicatifs ou causals partir des configurations obtenues.
Elments supplmentaires
Si on craint que l'influence de certains individus ne soit excessive pour la
dtermination des axes principaux, il est possible de les placer en lments
supplmentaires, c'est dire qu'ils ne font pas partie du nuage dont on cherche les
directions principales, mais on peut figurer leur position sur les plans principaux
obtenus.
On traite de la mme manire des variables en lments supplmentaires, elles ne font
pas partie de l'ensemble des variables de base mais on peut examiner leurs corrlations
avec les composantes principales obtenues.
Aprs une premire ACP des donnes tudies, il est recommand d'prouver la
stabilit des configurations observes en effectuant de nouvelles analyses laissant en
lments supplmentaires les individus ou variables d'importance trop marque, ou
encore les donnes douteuses.
Exemple : Une entreprise multinationale souhaite implanter dans un pays X lune
de ses units de production. Elle ralise une tude pour valuer lattractivit
conomique des 22 rgions (Tableau ci-dessous).. Objectif : est il possible de
-
5/24/2018 Analyse en Composantes Principales
12/18
rsumer les 7 variables en 2 ou 3 maximum, avec un minimum de perte
dinformation de manire pouvoir interprter plus facilement cette dernire.
REGION POPUL TACT SUPERF NBENT NBBREV CHOM TELEPHR1 1624,00 39,14 8280,00 35976,00 241,00 5,20 700,00
R2 2795,00 36,62 41308,00 85531,00 256,00 10,20 1300,00
R3 1320,00 37,48 26013,00 40494,00 129,00 9,30 600,00
R4 1390,00 38,63 17589,00 35888,00 91,00 9,00 600,00
R5 1600,00 38,26 31582,00 40714,00 223,00 8,10 750,00
R6 2795,00 36,62 27208,00 73763,00 296,00 9,50 1300,00
R7 2370,00 38,78 39151,00 56753,00 229,00 7,90 1100,00
R8 1340,00 37,85 25606,00 24060,00 155,00 9,30 550,00
R9 240,00 8680 8273
R10 1090,00 37,27 16202,00 27481,00 159,00 7,10 450,00
R11 1730,00 37,80 12317,00 37461,00 181,00 10,80 750,00
R12 10660 46,04 12012 273604 6722 7,3 5800
R13 2110,00 32,12 27376,00 62202,00 179,00 13,20 1000,00R14 720,00 38,06 16942,00 21721,00 73,00 7,90 350,00
R15 2300,00 34,34 23547,00 48353,00 185,00 8,60 960,00
R16 2430,00 37,14 45348,00 78771,00 237,00 9,00 1100,00
R17 3960,00 32,05 12414,00 78504,00 278,00 12,60 1600,00
R18 3060,00 37,93 32082,00 72027,00 339,00 9,60 1300,00
R19 1810,00 34,39 19399,00 36285,00 139,00 9,80 750,00
R20 1590,00 36,82 25809,00 44598,00 133,00 10,10 750,00
R21 4260,00 34,96 31400,00 132552,00 610,00 11,00 2300,00
R22 5350,00 39,44 48698,00 159634,00 1474,00 7,40 2500,00
Popul = population de la rgion en milliers dindividus
Tact = Taux dactivit ( Population active/population totale de la rgion) en %
SUPERF = superficie de la rgion en KM carrsNBENTR = nombre dentreprises dans la rgion
-
5/24/2018 Analyse en Composantes Principales
13/18
NBREV = nombre de brevets dposs au cours de lanne
CHOM = taux de chmage en %
TELEPH = nombre de lignes tlphoniques en place dans la rgion
Etape 1 : reprage des observations aberrantes
Les individus prsentent des valeurs extrme risquent de fausser lanalyse ; les
individus pour les quels beaucoup dinformations manquent sont galement dun
intrt limit pour lanalyse. Dans le tableau ci-dessus, 4 informations sur les 7
manquent pour la rgion 9. Par ailleurs les valeurs prises par la rgion 12 sont
atypiques. Ces deux rgions seront supprimes.
Etape 2
Centrer et rduire les variables pour enlever lhtrognit des units de mesure
Etape 3 :calcul dune matrice de corrlations entre les variables initiales
Dans notre exemple :
Matrices des Corrlations
CHOM NBENTR TACT POPUL NBREV SUPERF TELZEPH
CHOM 1,000 ,190 -,766 ,246 -,137 -,003 ,236
NBENTR ,190 1,000 -,098 ,951 ,863 ,649 ,978
TACT -,766 -,098 1,000 -,203 ,192 ,193 -,172
POPUL ,246 ,951 -,203 1,000 ,827 ,513 ,984
NBREV -,137 ,863 ,192 ,827 1,000 ,541 ,836
SUPERF -,003 ,649 ,193 ,513 ,541 1,000 ,551
TELEPH ,236 ,978 -,172 ,984 ,836 ,551 1,000
Lanalyse de la matrice des corrlations permet le reprage de trois situations
diffrentes, des corrlations leves proches de 0,8-0,9 (en gras) indiquant une
premire dimension. Deux variables faiblement corrles avec les autres ( CHOM
-
5/24/2018 Analyse en Composantes Principales
14/18
et TACT) mais assez fortement lies entre elles ( r = -0,76) suggrant une
deuxime dimension. Enfin la variable SUPERF est corrle avec les variables du
groupe 1, mais plus faiblement ( r proche de 0,5-0,6) et constitue une dimension
elle seule.
Etape 4 : calcul des combinaisons linaires.
Lanalyse factorielle construit des combinaisons linaires des variables de dpart.
Ces calculs donnent un tableau comportant la variance de chacune des
composantes principales, ainsi que la part de variance initiale reprsente par
chacune de celle-ci :
Variance explique totale
Comp Total % de la variance % cumuls Sommel% de la variance % cumuls
1 4,158 59,395 59,395 4,158 59,395 59,395
2 1,899 27,126 86,521 1,899 27,126 86,5213 ,595 8,495 95,016
4 ,205 2,926 97,942
5 ,105 1,503 99,446
6 3,243E-
02
,463 99,909
7 6,379E-03 9,113E-02 100,000
Mthode d'extraction : Analyse des principaux composants.
Etape 5 : Choix des composantes principales
-
5/24/2018 Analyse en Composantes Principales
15/18
Graphique des valeurs propres
Numro de composant
7654321
Valeurpropre
5
4
3
2
1
0
Matrice des composantes
Composante1 2
nombre d'entreprises ,990
nombre de lignes de tlphones ,979
population en milliers ,966
nombre de brevets dposs ,884
superficie en km carr ,676
population active/pop totale ,941
taux de chmage(%) -,905
Mthode d'extraction : Analyse en composantes principales.
a 2 composantes extraites.
Etape 6 :Linterprtation est facile en terme graphique
-
5/24/2018 Analyse en Composantes Principales
16/18
Diagramme de composantes
Composante 1
1,0,50,0-,5-1,0
Composante2
1,0
,5
0,0
-,5
-1,0
tax de chmage(%)
population active/po
superficie en km carnobre de brevets d
population ennobre de lignenobre d'entrep
Les coordonnes reprsentent les corrlations des variables de dpart avec les
composantes. Laxe horizontal reprsente la 1recomposante, il peut sinterprter
comme tant le potentiel de dveloppement conomique des rgions le nombre
dentreprise, le nombre de lignes tlphoniques, la population et le nombre de
brevets lui sont trs fortement corrles, la superficie lest moins.
La 2mecomposante oppose le taux de chmage et le taux dactivit et peut
sinterprter comme tant lactivit actuelle de la rgion. Le fait que les
corrlations sont de signe oppos montre que plus le rapport population active sur
population totale est lev, plus le taux de chmage est faible.
-
5/24/2018 Analyse en Composantes Principales
17/18
Qualit de reprsentation
InitialExtraction
nombre d'entreprises 1,000 ,979nombre de lignes de tlphones 1,000 ,967
population en milliers 1,000 ,946
nombre de brevets dposs 1,000 ,882
superficie en km carr 1,000 ,532
population active/pop totale 1,000 ,894
taux de chmage(%) 1,000 ,857
Mthode d'extraction : Analyse des principaux composants.
Lanalyse de la communalit se base sur le principe suivant :
Plus la communalit est proche de zro plus la variable en question est mal restitue
Plus la communalit est proche de un plus la variable en question est bien restitue
Etape 7 : visualisation des individus sur les composantes
REGR factor score 2 for analysis 1
210-1-2-3
REGR
factorscore
1for
analysis
1
4
3
2
1
0
-1
-2
R22
R21
R20R19
R18R17
R16
R15
R14
R13
R11
R10R8
R7R6
R5
R4R3
R2
R1
-
5/24/2018 Analyse en Composantes Principales
18/18