analyse en composantes principales · 2014. 9. 17. · onaprisicides”3” etdes”8”...

22
Analyse en composantes principales Gilles Gasso, Stéphane Canu INSA Rouen - Département ASI Laboratoire LITIS 1 17 septembre 2014 1. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 / 22

Upload: others

Post on 30-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • Analyse en composantes principales

    Gilles Gasso, Stéphane Canu

    INSA Rouen - Département ASILaboratoire LITIS 1

    17 septembre 2014

    1. Ce cours est librement inspiré du cours DM de Alain RakotomamonjyGilles Gasso, Stéphane Canu Analyse en composantes principales 1 / 22

  • Plan

    1 Introduction

    2 ACPPrincipeFormulation mathématique et résolution

    3 Algorithme

    4 PropriétésDes axes factorielsDe l’ACPRéduction de dimension

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 2 / 22

  • Introduction

    Introduction

    Objectifs

    {xi ∈ RD}i=1,··· ,N : ensemble de N points décrits par D attributs.

    Objectifs de l’analyse en composantes principales1 représentation (graphique) des points dans un sous-espace de dimension

    d (d Variable (attribut) : x j

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 3 / 22

  • Introduction

    Les données : description

    Données

    Soit X la matrice des données (xi ∈ RD) :

    X =

    x1,1 x1,2 . . . x1,D... ...xN,1 xN,2 . . . xN,D

    = x

    >1...

    x>N

    =( x1 x2 . . . xN )>

    Statistiques sommaires : moyenne et variance

    Moyenne x̄ =(x̄1 x̄2 . . . x̄D

    )> avec x̄ j = 1N ∑Ni=1 xi ,j ,Variance des variables var(x j) = 1N

    ∑Ni=1(xi ,j − x̄ j)2

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 4 / 22

  • Introduction

    Covariance et Matrice de covariance

    Covariance entre variables j et k

    cov(x j , xk) =1N

    N∑i=1

    (xi ,j − x̄ j)(xi ,k − x̄k)

    Si covariance grande (en valeur absolue) =⇒ variables j et kdépendantes. Covariance nulle =⇒ variables indépendantes

    Matrice de covariance Σ ∈ RD×D

    Σ est une matrice symétrique de terme général Σj ,k = cov(x j , xk) :

    Σ =1N

    N∑i=1

    (xi − x̄) (xi − x̄)>

    données centrées : Σ = 1N∑N

    i=1 xix>i , ou encore Σ =

    1N X>X

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 5 / 22

  • ACP Principe

    Analyse en Composantes Principales

    Principe

    Soit xi ∈ RD , i = 1, · · · ,N des données centrées.

    Objectif : trouver un sous-espace de dimension d ≤ D où projeter lesxi de façon à perdre le moins d’informations possibles

    −2 −1 0 1 2 3 4 5 6−2

    −1

    0

    1

    2

    3

    4

    5

    6

    Points

    Moyenne

    Axe 1

    Axe 2

    Trouver une “meilleure base orthonormale”de représentation des données parcombinaison linéaire de la base originale.

    p1, p2 : vecteurs orthonormés (axes 1 et 2).Projeter les données sur l’espace engendrépar p1 et p2 =⇒ changement de base

    Quel est le meilleur sous-espace dedimension 1 ?

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 6 / 22

  • ACP Principe

    Analyse en Composantes PrincipalesObjectifs et hypothèses

    X ∈ RN×D : matrice de données centrées.

    Objectif ACP : trouver un sous-espace de dimension d ≤ D quipermet d’avoir une représentation réduite de X .

    Comment ?

    Projection linéaire de xi ∈ RD sur ti ∈ Rd

    ti = P>xi avec P =(p1 · · · pd

    ), pi ∈ RD

    P ∈ RD×d : matrice de transformation linéaire

    Contrainte : P>P = ILes vecteurs de la nouvelle base sont orthogonaux 2 à 2 c’est-à-direp>j pi = 0 ∀ i 6= j

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 7 / 22

  • ACP Principe

    Analyse en Composantes Principales

    Reconstruction de xi à partir de tiSi d = D, la matrice P est orthogonale

    ti = P>xi =⇒ Pti = PP>xi =⇒ xi = Pti

    Dans ce cas, pas de réduction de dimension, juste un changement debase et donc pas de perte d’information

    d < D (réduction de dimension)Reconstruction de xi par l’approximation

    x̂i = Pti ou x̂i = PP>xi

    Problématique

    Construire P de sorte que l’erreur ‖xi − x̂i‖2 entre le vrai xi et sareconstruction x̂i soit minimale et ceci pour tous les points xi , i = 1, · · · ,N

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 8 / 22

  • ACP Formulation mathématique et résolution

    Minimisation d’erreur/maximisation variance

    Soit Je(P) l’erreur quadratique d’estimation. On a :

    Je(P) =1N

    N∑i=1

    ‖xi − x̂i‖2 =1N

    N∑i=1

    (xi − PP>xi )>(xi − PP>xi )

    =1N

    N∑i=1

    (x>i xi − 2x>i PP>xi + x>i PP>PP>xi )

    =1N

    N∑i=1

    x>i xi −1N

    N∑i=1

    x>i PP>xi =

    1N

    N∑i=1

    x>i xi −1N

    N∑i=1

    t>i ti

    = trace

    (1N

    N∑i=1

    x>i xi −1N

    N∑i=1

    ti t>i

    )= trace

    (1N

    N∑i=1

    xix>i −1N

    N∑i=1

    P>xix>i P

    )Je(P) = trace (Σ)− trace

    (P>ΣP

    )pour des données xi centrées

    minJe(P) revient à maximiser par rapport à P la variance P>ΣP despoints projetés.

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 9 / 22

  • ACP Formulation mathématique et résolution

    Axes factoriels et composantes principales

    Soit X la matrice des données et p ∈ RD tq ‖p‖ = 1. Soit le vecteurde RN , c1 = Xp1 =

    (x>1 p1 . . . x

    >N p1

    )>.On appelle premier axe factoriel de X le vecteur p1 tel que la variancede Xp1 soit maximale. Le vecteur c1 est appelé première composanteprincipale.

    Le k ième axe factoriel est le vecteur pk unitaire (‖pk‖ = 1) tel que lavariance de ck = Xpk soit maximale et que pk soit orthogonal aux k − 1premiers axes factoriels.

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 10 / 22

  • ACP Formulation mathématique et résolution

    Minimisation de l’erreur quadratique d’estimation

    Premier axe factoriel

    On cherche le sous espace engendré par p1 tq p>1 p1 = 1.Problème d’optimisation sous contrainte égalité :

    minp1

    Je(p1) =1N

    N∑i=1

    x>i xi −1N

    N∑i=1

    x>i p1p>1 xi avec p

    >1 p1 = 1

    Simplification de Je(p1)

    Je(p1) = −p>1

    (1N

    N∑i=1

    xix>i

    )p1 = −p>1 Σp1

    Le lagrangien s’écrit

    L(p1, λ1) = −p>1 Σp1 + λ1(p>1 p1 − 1)Gilles Gasso, Stéphane Canu Analyse en composantes principales 11 / 22

  • ACP Formulation mathématique et résolution

    Minimisation de l’EQE

    OptimisationConditions d’optimalité

    ∇p1L = 0 = −2Σp1 + 2λ1p1 et ∇λ1L = 0 = p>1 p1 − 1

    =⇒ Σp1 = λ1p1 et p>1 Σp1 = λ1Interprétation

    1 (λ1, p1) représente la paire (valeur propre, vecteur propre) de lamatrice de covariance Σ

    2 Je(p1) = −λ1 est la fonctionnelle que l’on cherche à minimiser

    SolutionLe premier axe factoriel p1 est le vecteur propre associé à la plus grandevaleur propre de Σ.

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 12 / 22

  • ACP Formulation mathématique et résolution

    k-ième axe factoriel

    LemmeLe sous-espace de dimension k minimisant l’erreur quadratique d’estimationdes données contient nécessairement le sous-espace de dimension k − 1.

    Calcul du 2e axe factoriel p2 sachant que p1 est connu

    minp2

    Je(p2) = −p>2 Σp2

    tel que p>2 p2 = 1, p>2 p1 = 0

    Interprétation : on cherche un vecteur unitaire p2 qui maximise lavariance p>2 Σp2 et qui soit orthogonal au vecteur p1

    ExerciceMontrer que p2 est le vecteur propre associé à λ2, la seconde plus grandevaleur propre de Σ

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 13 / 22

  • Algorithme

    Algorithme

    1 Centrer les données : {xi ∈ RD}Ni=1 −→ {xi = xi − x̄ ∈ RD}Ni=12 Calculer la matrice de covariance Σ = 1N X

    >X avec X> =(x1 · · · xN

    )3 Calculer la décomposition en valeurs propres {pj ∈ RD , λj ∈ R}Dj=1 de Σ

    4 Ordonner les valeurs propres λj par ordre décroissant

    5 Nouvelle base de représentation des données :

    P = (p1, · · · , pd) ∈ RD×d

    {p1, · · · , pd} sont les d vecteurs propres associés aux d plus grandes λj .

    6 Projection de tous les points via P s’obtient matriciellement :

    C = XP =(c1 · · · cd

    )Note : la projection d’un point quelconque x est donnée par t = P>(x − x̄)

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 14 / 22

  • Propriétés Des axes factoriels

    Propriétés des axes factoriels

    Les valeurs propres de Σ sont positives car Σ est une matricesemi-definie positive

    Le nombre d’axes factoriels est égal au nombre de valeurs propresnon-nulles de Σ.

    La variance expliquée par l’axe factoriel pk (homogène à une inertie)s’écrit Ik = p>k Σpk = p

    >k λkpk = λk .

    La variance totale des axes factoriels est I =∑d

    k=1 λk

    Pourcentage de variance expliquée par les d premiers axes∑dk=1 λk∑Dk=1 λk

    · 100

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 15 / 22

  • Propriétés Des axes factoriels

    Propriétés des axes factoriels

    Choix de la dimension d du sous-espaceValidation croiséeDétection "d’un coude" sur le graphique des valeurs propresOn choisit d de sorte qu’un pourcentage fixé (par exemple 95%) de lavariance soit expliqué

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8Spectre de la matrice de variance−covariance

    0 5 10 150

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    Pourcentage de variance cumulee

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 16 / 22

  • Propriétés De l’ACP

    Propriétés de l’ACP

    Les composantes principales {ci}i=1,··· ,D sont centrées etnon-corrélées ie

    cov(ci , ck) = 0 si i 6= k

    cov(ci , ck) =1N

    c>i ck =1N

    p>i X>Xpk = p>i Σpk = p

    >i (pkλk) = 0

    Soit ck = Xpk , le vecteur représentant la projection de X sur le k-ièmeaxe pk . La variance de la composante principale ck est

    1N

    c>k ck =1N

    p>k X>Xpk = p>k Σpk = p

    >k λkpk = λk

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 17 / 22

  • Propriétés De l’ACP

    Exemple des données iris : xi ∈ R4

    45

    67

    8

    2

    3

    4

    50

    2

    4

    6

    8

    Représentation 3D Corrélation entre les variables

    1 2 3 4

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5 −0.4

    −0.2

    0

    0.2

    0.4

    0.6

    0.8

    1

    −4 −2 0 2 4−1.5

    −1

    −0.5

    0

    0.5

    1

    1.5

    Composante principale 1

    Com

    posante

    princip

    ale

    2

    Projection en 2D par ACP

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 18 / 22

  • Propriétés Réduction de dimension

    Réduction de la dimensionalité

    ACP ≡ représenter les données dans un espace de dim. réduite.

    La nouvelle base de représentation est donnée par la matrice P .Chaque vecteur de cette base est combinaison linéaire des vecteurs dela base originale. P vérifie P>P = I .

    C = XP : matrice des composantes principales qui est en fait lamatrice de projections de tous les xi sur les axes factoriels.

    Reconstruction des xi à partir des composantes principalesxi est reconstruit par x̂i = Pti + x̄ avec ti = P>xi .On déduit que la matrice des données reconstruites est

    X̂ = CP> + 1N ⊗ x̄> ou x̂i =d∑

    k=1

    Ci ,kpk + x̄

    Note : un point quelconque projeté t est reconstruit par x̂ = Pt + x̄

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 19 / 22

  • Propriétés Réduction de dimension

    Réduction de la dimensionalité

    Si q = d , c’est à dire que le nouveau sous-espace de représentationest égale à l’espace original alors

    X̂ = X

    Erreur d’approximation sur un sous-espace vectoriel de dimension d

    Eq =1N

    N∑i=1

    ||xi − x̂ (d)i ||2 =

    D∑i=d+1

    λi

    L’analyse en composantes principale est un outil de visualisation desdonnées ...... et permet de faire de la reduction de la dimensionalité.

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 20 / 22

  • Propriétés Réduction de dimension

    Exemple : données USPS

    Caractères manuscripts sous forme d’images 16× 16Chaque image est transformée en un vecteur de dimension 256On a pris ici des ”3” et des ”8” (quelques exemples ci-dessous)

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    Moyenne

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    Corrélation entre les variables

    50 100 150 200 250

    50

    100

    150

    200

    250 −0.5

    0

    0.5

    1

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 21 / 22

  • Propriétés Réduction de dimension

    Exemple : données USPS

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    Figure: Reconstructionavec d = 2 composantes

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    5 10 15

    2

    4

    6

    8

    10

    12

    14

    16

    Figure: Reconstructionavec d = 50 composantes

    −10 −5 0 5 10−10

    −5

    0

    5

    10

    Composante principale 1

    Co

    mp

    osa

    nte

    prin

    cip

    ale

    2

    Projection en 2D par ACP

    3

    8

    Gilles Gasso, Stéphane Canu Analyse en composantes principales 22 / 22

    IntroductionACPPrincipeFormulation mathématique et résolution

    AlgorithmePropriétésDes axes factorielsDe l'ACPRéduction de dimension