cours de statistiques - the home of romain...

35
Quelques Rappels Relations entre deux s´ eries de donn´ ees Analyse en Composantes Principales ACP : une explication g´ eom´ etrique Conclusion Cours de Statistiques Analyse en Composantes Principales Romain Raveaux 1 1 Laboratoire L3I – Universit´ e de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35

Upload: buianh

Post on 15-Sep-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Cours de StatistiquesAnalyse en Composantes Principales

Romain Raveaux1

1Laboratoire L3I – Universite de La Rochelleromain.raveaux01 at univ-lr.fr

Octobre 24-11, 2008

1 / 35

Page 2: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Sommaire

1 Quelques Rappels

2 Relations entre deux series de donneesRelations entre deux series de donnees numeriquesRelations entre deux variables ordinales

3 Analyse en Composantes PrincipalesIntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

4 ACP : une explication geometriqueDecripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

5 Conclusion

2 / 35

Page 3: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Type de variable

Numerique

Soit l’etude de la variable X , une serie de valeurs definies dans <.

Exemple: Age, poids,...

Nominale

Ne prend qu’un nombre limite de valeurs.

Et que ces valeurs n’ont entre elles aucune relation apparente.

Exemple : Le statut marital, qui pourrait prendre les valeurs ”Celibataire”,”Marie”, ”Veuf”, ”Divorce”, ”Union libre”.

Ordinale

Ne prend qu’un nombre limite de valeurs.

Et que ces valeurs n’ont entre elles aucune relation apparente.

Les grades dans l’armee: ”lieutenant”, ”capitaine”, ”commandant” etc...

Par nature, les rangs sont des variables ordinales.

Il existe d’autres types de variable : Binaire, Normale,... 3 / 35

Page 4: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Variable et Espace d’etude

Une serie a valeurs individuelles

Soit l’etude de la variable X , une serie de valeurs definies dans<.

Statistiques multi-dimensionnelles

Soit l’etude d’un ensemble fini de variables (Ω), Ω estl’univers des statistiques.

Avec card(Ω) = M

Ω = X1,X2, ...,Xm

∀Xi ∈ Ω, Xi est une serie a valeurs individuelles.

4 / 35

Page 5: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Estimateurs

Soit l’etude de la variable X , une serie de valeurs definies dans <+:

Moyenne d’une serie a valeurs individuelles

X =1

N

N∑i=1

xi

Variance d’une serie a valeurs individuelles

θ2 = V (X ) =N∑

i=1

(xi − X )2

L’ecart type ce deduit de la variance : θ =√

V (X )

5 / 35

Page 6: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Representation de ces estimateurs

Soit l’etude de la variable X suivant une loi normale (ℵ(µ, θ2)), demoyenne µ et de variance θ.

Densite de probabilite d’une loi gaussienne

f (x) =1

θ√

2πe−

12

( x−µθ

)2

Figure: Distrubutions gaussiennes.

6 / 35

Page 7: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Representation de ces estimateurs

Soit l’etude de la variable X suivant une loi normale (ℵ(µ, θ2)), demoyenne µ et de variance θ.

Densite de probabilite d’une loi gaussienne

f (x) =1

θ√

2πe−

12

( x−µθ

)2

Figure: Distrubutions gaussiennes.

7 / 35

Page 8: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Explication intuitive de ces estimateurs

Plus la variance d’un echantillon est grande et plus les donnees sonteparses. Cela peut denoter une erreur dans le phenomene mesure.

8 / 35

Page 9: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Relations entre deux series de donnees numeriquesRelations entre deux variables ordinales

Relations entre deux series de donnees observees

Exemples :

Mesurer le poids ou la longueur d’un organe (variabledependante) a differentes dates successives choisiesarbitrairement (variable independante).

Mesurer le rendement d’une culture (variable dependante) enfonction de differentes doses d’engrais (variableindependante).

Mesurer la capacite a resoudre un probleme ou a realiser unetache (variable dependante) en fonction de differentes dosesd’un medicament (variable independante).

9 / 35

Page 10: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Relations entre deux series de donnees numeriquesRelations entre deux variables ordinales

Covariance de deux echantillons

Soit l’etude de deux variables X et Y , deux series de valeursdefinies dans <:

Covariance

θxy = cov(X ,Y ) =N∑

i=1

(xi − X )(yi − Y )

La fonction covariance retourne des valeurs comprises dans[−∞,+∞]

X et Y independant =⇒ cov(X ,Y ) = 0

10 / 35

Page 11: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Relations entre deux series de donnees numeriquesRelations entre deux variables ordinales

Covariance de deux echantillons

Covariance

θxy = cov(X ,Y ) =N∑

i=1

(xi − X )(yi − Y )

Intuitivement, la covariance est une mesure de la variationsimultanee de deux variables aleatoires.

C’est-a-dire que la covariance devient plus positive pourchaque couple de valeurs qui different de leur moyenne dans lememe sens, et plus negative pour chaque couple de valeursqui different de leur moyenne dans le sens oppose.

11 / 35

Page 12: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Relations entre deux series de donnees numeriquesRelations entre deux variables ordinales

Correlation de deux variables aleatoires

Soit l’etude de deux variables X et Y , deux series de valeursdefinies dans <:

Correlation de Bravais-Pearson

cor(X ,Y ) =θxyθx .θy

=cov(X ,Y )√

cov(X ).√

cov(Y )

Le coefficient de correlation est compris entre [−1, 1]

cor(X ,Y ) = 0 =⇒, X et Y sont independant lineairement.

cor(X ,Y ) = 1, une relation affine existe entre X et Y. L’unedes variables est fonction affine croissante de l’autre variable.

cor(X ,Y ) = −1, une relation affine existe entre X et Y. L’unedes variables est fonction affine decroissante de l’autrevariable.

12 / 35

Page 13: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Relations entre deux series de donnees numeriquesRelations entre deux variables ordinales

Correlation de Kendall

Soit deux variables ordinales X et Y. La correlation de rangs rendcompte d’une relation non-lineaire entre ces deux variables.τ s’exprime de la facon suivante :

τ =S

D

Ou,S =

∑i<j

(sign(x [i ]− y [i ]).sign(y [i ]− x [i ])) (1)

et,

D =k(k − 1)

2(2)

13 / 35

Page 14: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Mapping de Rn dans Rk . Avec k ≤ n.

Projection dans un espace 2D d’un probleme a n dimensions.

Systeme d’axes independants.

Reduction de la dimensionalite d’un probleme.

Perte d’information.

Decomposition en valeurs propres. Transformation deKarhunen-Loeve.

Le nouvel espace est une combinaison lineaire de l’espaced’origine.

14 / 35

Page 15: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Centrer et Reduire une Matrice

Soit S la matrice des echantillons.

S contient k vecteurs colonnes. X1,...,Xk

Soit Xi un vecteur colonne a n valeurs.

k variables.

n echantillons par variable.

15 / 35

Page 16: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Centrer et Reduire une Matrice (SCR)

Matrice des donnees brutes:

m11 m12 m13 ... m1km21 m22 m23 ... m2k... ... ... ... ...

mn1 ... ... ... mnk

Calcul des moyennes et des variances pour chaque serie dedonnees:

M1 M2 M3 ... Mkσ1 σ2 σ3 ... σk

Centere et reduire la matrice :

(m11 − M1)/σ1 (m12 − M2)/σ2 ... (m1k − Mk )/σk(m21 − M1)/σ1 (m22 − M2)/σ2 ... (m2k − Mk )/σk

... ... ... ...(mn1 − M1)/σ1 (mn2 − M2)/σ2 ... (mnk − Mk )/σk

16 / 35

Page 17: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Matrice des Covariances (COVMAT)

A partir de la matrice centree reduite.

Construire une matrice carree.

Rend compte des interactions entre des pairs de variablesnumeriques.

Relations affines seulement.

cov(SCR.0, SCR.0) cov(SCR.0, SCR.1) cov(SCR.0, SCR.2) ... cov(SCR.0, SCR.k )cov(SCR.1, SCR.0) cov(SCR.1, SCR.1) cov(SCR.1, SCR.2) ... cov(SCR.1, SCR.k )

... ... ... ... ...cov(SCR.k , SCR.0) cov(SCR.k , SCR.1) cov(SCR.k , SCR.2) ... cov(SCR.k , SCR.k )

17 / 35

Page 18: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Recherche des valeurs propres et des vecteurs propres

Resoudre : Det(COVMAT − λI ) = 0 pour calculer les valeurspropres.

Calcul des vecteurs propres. Resoudre :(COVMAT − λ1 a k I )U = 0

Soit V la matrice des vecteurs propres.

Projection de SCR dans l’espace ACP. ACP = SCR.V

A =

(1 −3−2 2

)

A − λI =

(1 − λ −3−2 2 − λ

)det(A − λI ) = 0; (1 − λ)(2 − λ) − 6 = 0

λ2 − 3λ− 4 = 0

λ1 = −1; λ2 = 4

18 / 35

Page 19: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Recherche des valeurs propres et des vecteurs propres

Les vecteurs propres associes a la valeur propre -1 sont ceux quiverifient :(

2 −3−2 3

).

(xy

)= 0

Soit, 2x − 3y = 0, E−1 la droite engendree par

(23

)(−3 −3−2 −2

).

(xy

)= 0

Soit, −3x − 3y = 0, E4 la droite engendree par

(1−1

)

La matrice des vecteurs propres : V =

(2 13 −1

)

19 / 35

Page 20: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Inertie et information

Les valeurs propres nous indiquent le pourcentage d’informaionportee par chaque axe factoriel.Taux d’information :

λj

k∑i=1

(λi )

20 / 35

Page 21: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Conservation de l’information

Il est possible de fixer un taux d’information a garantir (τ): Parexemple, nous souhaitons que dans le nouvel espace cible 90% del’information soit conservee. Pour ce faire nous trions les valeurspropres et retenons les ”p” plus grandes valeurs jusqu’a obtenir letaux d’information desire.

Tri(λ = λiki=1)

Garder les ”p” plus grandes valeurs.

Tant que

p∑i=1

(λi ) ≤ τ

21 / 35

Page 22: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Une petite application ludique

Nous avons tous des miliers de photos sur nos PCs et cela prend beaucoup de place sur nos disques. Cela est en

partie du au fait que chaque image est en couleur: rouge ,vert, bleu (RGB). Chaque pixel, chaque site (x,y),

contient une information couleur sur l’intensite du rouge, l’intensite du vert, l’intensite du bleu. Il est donc possible

de diviser par trois la taille d’une image, en ne conservant qu’un seul canal ???? (RGB −− > ACP1)

(x, y, z) −− > x′)

Figure: L’image dont on veut reduire l’espace couleur

22 / 35

Page 23: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Image Couleur

(a) (b) (c)

(d)

Figure: (a),(b),(c) : Canal Rouge, Vert, et Bleu. (d) Projection despoints couleurs.

23 / 35

Page 24: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

ACP sur une image couleurMatrice de covariances:

P =

var(R) cov(R, G) cov(R, B)cov(G , R) var(G) cov(G , B)cov(B, R) cov(B, G) var(B)

Matrice des vecteurs propres:

V =

0.614 0.588 0.526−0.581 −0.114 0.8060.5346 −0.801 0.271)

Matrice des valeurs propres:

D =

λ1 0 00 λ2 00 0 λ3

=

2718 0 00 110 00 0 11)

La conservation de l’axe principale permet d’expliquer plus 90% de l’information:

λ1

3∑i=1

(λi )

> τ(0.90)

24 / 35

Page 25: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

ACP sur une image couleur

Projection des donnees originales sur les axes factoriels:

P =

RACP1RACP2RACP3

=

0.614 0.588 0.526−0.581 −0.114 0.8060.5346 −0.801 0.271)

.R

GB

Exemple : pour l’axe principal (λ1)

RACP1 = R ∗ 0.614 + G ∗ 0.588 + B ∗ 0.526

25 / 35

Page 26: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

IntroductionPreparation des donneesMatrice des covariancesRecherche des valeurs propresTaux d’Information

Image Couleur

(a) (b) (c)

Figure: (a) : Image originale. (b) Image projetee sur les trois axes del’ACP. (c) Image projetee sur l’axe principale.

26 / 35

Page 27: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Recherche des composantes principales

Analyse de la structure de la matrice variance-covariance;c-a-d de la variabilite, dispersion des donnees.

Objectif de l’ACP: decrire a l’aide de q ≤ p composantes unmaximum de cette variabilite.

Ce qui permet :

une reduction des donnees a q nouveaux descripteursune visualisation des donnees a 2 ou 3 dimensions (si q = 2 ou3)une interpretation des donnees : liaisons inter-variables

27 / 35

Page 28: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Recherche des composantes principales

Composantes : C1,C2, ...,Ck , ...,Cq

Ck = nouvelle variable = combinaison lineaire des variablesd’origine X1, ...,Xp:

Ck = a1kX1 + a2kX2 + . . . ...+ apkXp. coefficients ajk adeterminer. Ceux sont les composantes des vecteurs propres.

telle que les Ck soient:

2 a 2 non correlees,de variance maximale,d’importance decroissante.

28 / 35

Page 29: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Recherche des composantes principales

C1 = 1ere composante principale doit etre de variance maximale.

Geometriquement : C1 determine une nouvelle direction dans le nuage de points qui suit l’axed’allongement (etirement) maximal du nuage.

ci1 = coordonnee du point i sur l’axe C1 projection de xi sur C1.

ci1 =

p∑j=1

a1j xij .

C1 de variance maximale les projections ci1 sont les plus dispersees possible.

C1 = droite passant par le centre de gravite realisant le meilleur ajustement possible du nuage

c-a-d : qui conserve au mieux la distance entre les points (apres projection) =¿ droite de

projection assurant une distorsion minimale.

C2 = 2eme composante, orthogonale a C1 et de variance maximale.

29 / 35

Page 30: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Exemple : Un cas d’etude.

(a) (b) (c)

(d)

(a) : Image originale. (b) Image matricielle. (c) Axes principaux. (f) Projection sur C1 et C2.

30 / 35

Page 31: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Exemple : Un cas d’etude.

(e) (f)

(e) Projection sur C1. (f) Projection sur C2. 31 / 35

Page 32: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Choix des r premieres composantes principales

Objectif : garder un maximum d’information des donneesinitiales.

Mesure de cette information : le % de variance expliqueer∑

i=1

Var(Ci )

Intertie totale

Si les variables originales sont fortement correlees entre elles,un nombre reduit de composantes permet d’expliquer 80% a90% de variance !

32 / 35

Page 33: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Notion

Cette notion est fondamentale en ACP: Pour chaque variable, on evalue la correlation entre les donnees dans labase d’origine et les donnees dans la base cible.

Exemple : x = cor(X , XACP1) ; y = cor(X , XACP2)

Plus les variables sonct proches du bord du cercle et plus les variables sont bien representees par le plan factoriel,c’est-a-dire que la variable est bien correlee avec les deux facteurs constituant ce plan.

33 / 35

Page 34: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Decripage de la matrice des covariancesRecherche des composantes principalesChoix des r premieres composantes principalesCercle des correlations

Interpretation

L’angle entre 2 variables, mesure par son cosinus, est egal au coefficient de correlation lineaire entre les 2 variables:cos(angle) = r(X1,X2)

si les points sont tres proches (angle proche de 0) : cos(angle) = r(X1,X2) = 1 donc X1 et X2 sont tresfortement correles positivement.

si a est egal a 90 , cos(angle) = r(X1,X2) = 0 alors pas de correlation lineaire entre X1 et X2

si les points sont opposes, a vaut 180, cos(angle) = r(X1,X2) = -1 : X1 et X2 sont tres fortementcorreles negativement

Attention, on ne peut interpreter que les variables situees au bord du cercle

34 / 35

Page 35: Cours de Statistiques - The Home of Romain Raveauxromain.raveaux.free.fr/teaching/StatGeoACP1.pdf · Analyse en Composantes Principales ACP : une explication g eom etrique Conclusion

Quelques RappelsRelations entre deux series de donnees

Analyse en Composantes PrincipalesACP : une explication geometrique

Conclusion

Conclusion

ACP pour l’analyse de series de donnees numeriques.

Etude de matrice de covariances.Visualisation dans un espace decorrele.Description des interactions entre les variables.

Les inconvenients ?

N’apprehende que les relations affines entre les variables.(phenomene lineaire)

35 / 35