cours-acp complet

17
 Cours d’anal yse de donn´ ees Jean-Marc Lasgouttes [email protected] Magi st` ere de Fina nce de Paris 1, 2` e a nn´ ee http://www-roc .inria.fr/ ~lasgoutt/a na-donnees/ Cours d’ana lyse de donn´ ees — Jea n-Marc Lasg outtes — a nn´ ee 2010-2 011. Introduction qu’est-ce que l’analyse de donn´ees? Cours d’analyse de donn´ ees Jean-Marc Lasgouttes ann´ ee 2010-2011. 1 Exemple : la temp´ erature en France janv f ev mars avri mai ju in jui l aout s ept oct nov dec ajac 7.7 8.7 10.5 12.6 15.9 19.8 22. 0 22.2 20.3 16.3 11.8 8.7 ange 4.2 4.9 7.9 10. 4 13.6 17. 0 18.7 18 .4 16.1 1 1.7 7.6 4. 9 ango 4.6 5.4 8.9 11. 3 14.5 17. 2 19.5 19 .4 16.9 1 2.5 8.1 5. 3 bes a 1.1 2.2 6.4 9.7 13.6 16.9 18.7 18.3 15.5 10.4 5.7 2.0 biar 7.6 8.0 10.8 12.0 14.7 17.8 19. 7 19.9 18.5 14.8 10.9 8.2 bord 5.6 6.6 10. 3 12.8 15.8 19 .3 20.9 21 .0 18.6 13. 8 9.1 6.2 bre s 6.1 5.8 7.8 9.2 11 .6 14. 4 15.6 16.0 14.7 12.0 9.0 7.0 cler 2.6 3.7 7.5 10. 3 13.8 17. 3 19.4 19.1 16.2 11.2 6.6 3. 6 dijo 1.3 2.6 6.9 10. 4 14.3 17. 7 19.6 19.0 15.9 10.5 5.7 2.1 emb r 0.5 1.6 5.7 9.0 13 .0 16. 4 18.9 18.3 15.3 10.1 4.6 0.5 gren 1.5 3.2 7.7 10. 6 14.5 17. 8 20.1 19 .5 16.7 1 1.4 6.5 2. 3 lil l 2.4 2.9 6.0 8.9 12.4 15.3 17.1 17.1 14.7 10.4 6.1 3.5 lim o 3.1 3.9 7.4 9.9 13.3 16.8 18.4 17.8 15.3 10.7 6.7 3.8 lyon 2.1 3.3 7.7 10. 9 14.9 18. 5 20.7 20 .1 16.9 1 1.4 6.7 3. 1  mars 5.5 6.6 10.0 13.0 16.8 20.8 23.3 22.8 19.9 15.0 10.2 6.9  mont 5.6 6.7 9.9 12.8 16.2 20.1 22.7 22.3 19.3 14.6 10.0 6.5 janv f ev mar s avri mai juin juil aout sept oct nov de c nan c 0.8 1.6 5.5 9.2 1 3.3 16.5 18.3 17. 7 14. 7 9.4 5.2 1 .8 nant 5.0 5. 3 8.4 10 .8 13.9 17 .2 18.8 1 8.6 16. 4 12.2 8.2 5.5 nice 7.5 8.5 10.8 13.3 16.7 20. 1 22.7 22.5 20.3 16.0 11.5 8.2 nime 5.7 6.8 10.1 13.0 16. 6 20.8 23.6 22 .9 19.7 14 .6 9.8 6.5 orle 2.7 3.6 6.9 9.8 13.4 16 .6 18.4 18. 2 15.6 10.9 6.6 3.6 pari 3.4 4. 1 7.6 10 .7 14.3 17 .5 19.1 1 8.7 16. 0 11.4 7.1 4.3 perp 7.5 8.4 11.3 13.9 17.1 21. 1 23.8 23.3 20.5 15.9 11.5 8.6 reim 1.9 2.8 6.2 9.4 13.3 16 .4 18.3 17. 9 15.1 10.3 6.1 3.0 renn 4.8 5. 3 7.9 10 .1 13.1 16.2 17.9 17.8 15.7 11.6 7.8 5.4 rou e 3.4 3.9 6.8 9.5 12.9 15 .7 17.6 17. 2 15.0 11.0 6.8 4.3 stq u 2.0 2.9 6.3 9.2 12.7 15 .6 17.4 17. 4 15.0 10.5 6.1 3.1 stra 0.4 1.5 5.6 9.8 1 4.0 17.2 19.0 18. 3 15. 1 9.5 4.9 1 .3 toul 8.6 9.1 11.2 13.4 16.6 20. 2 22.6 22.4 20.5 16.5 12.6 9.7 tlse 4.7 5. 6 9.2 11 .6 14.9 18 .7 20.9 2 0.9 18. 3 13.3 8.6 5.5 tour 3.5 4. 4 7.7 10 .6 13.9 17 .4 19.1 1 8.7 16.2 11.7 7.2 4.3 vich 2.4 3.4 7.1 9.9 13.6 17 .1 19.3 18. 8 16.0 11.0 6.6 3.4 Cours danalyse de donn´ ees Jean-Marc Lasgouttes ann´ ee 2010-2011. 2 La temp´ erature en France (2)  d = 2 ajac ange ango besa biar bord bres cler dijo embr gren lill limo lyon mars mont  nanc nant nice nime orle pari perp reim renn roue stqu stra toul tlse  tour vich ange ango besa biar bord bres cler dijo embr gren lill limo lyon mars mont nanc nant nice nime  orle pari perp reim renn roue stqu stra toul tlse tour vich Cours danalyse de donn´ ees Jean-Marc Lasgouttes ann´ ee 2010-2011. 3

Upload: hicham-lamrabet

Post on 21-Jul-2015

51 views

Category:

Documents


1 download

TRANSCRIPT

CoursdanalysededonneesJean-Marc [email protected]`ere de Finance de Paris 1, 2`e anneehttp://www-roc.inria.fr/~lasgoutt/ana-donnees/CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011.Introductionquest-cequelanalysededonnees ?CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 1Exemple:latemperatureenFrancejanv fev mars avri mai juin juil aout sept oct nov decajac 7.7 8.7 10.5 12.6 15.9 19.8 22.0 22.2 20.3 16.3 11.8 8.7ange 4.2 4.9 7.9 10.4 13.6 17.0 18.7 18.4 16.1 11.7 7.6 4.9ango 4.6 5.4 8.9 11.3 14.5 17.2 19.5 19.4 16.9 12.5 8.1 5.3besa 1.1 2.2 6.4 9.7 13.6 16.9 18.7 18.3 15.5 10.4 5.7 2.0biar 7.6 8.0 10.8 12.0 14.7 17.8 19.7 19.9 18.5 14.8 10.9 8.2bord 5.6 6.6 10.3 12.8 15.8 19.3 20.9 21.0 18.6 13.8 9.1 6.2bres 6.1 5.8 7.8 9.2 11.6 14.4 15.6 16.0 14.7 12.0 9.0 7.0cler 2.6 3.7 7.5 10.3 13.8 17.3 19.4 19.1 16.2 11.2 6.6 3.6dijo 1.3 2.6 6.9 10.4 14.3 17.7 19.6 19.0 15.9 10.5 5.7 2.1embr 0.5 1.6 5.7 9.0 13.0 16.4 18.9 18.3 15.3 10.1 4.6 0.5gren 1.5 3.2 7.7 10.6 14.5 17.8 20.1 19.5 16.7 11.4 6.5 2.3lill 2.4 2.9 6.0 8.9 12.4 15.3 17.1 17.1 14.7 10.4 6.1 3.5limo 3.1 3.9 7.4 9.9 13.3 16.8 18.4 17.8 15.3 10.7 6.7 3.8lyon 2.1 3.3 7.7 10.9 14.9 18.5 20.7 20.1 16.9 11.4 6.7 3.1mars 5.5 6.6 10.0 13.0 16.8 20.8 23.3 22.8 19.9 15.0 10.2 6.9mont 5.6 6.7 9.9 12.8 16.2 20.1 22.7 22.3 19.3 14.6 10.0 6.5janv fev mars avri mai juin juil aout sept oct nov decnanc 0.8 1.6 5.5 9.2 13.3 16.5 18.3 17.7 14.7 9.4 5.2 1.8nant 5.0 5.3 8.4 10.8 13.9 17.2 18.8 18.6 16.4 12.2 8.2 5.5nice 7.5 8.5 10.8 13.3 16.7 20.1 22.7 22.5 20.3 16.0 11.5 8.2nime 5.7 6.8 10.1 13.0 16.6 20.8 23.6 22.9 19.7 14.6 9.8 6.5orle 2.7 3.6 6.9 9.8 13.4 16.6 18.4 18.2 15.6 10.9 6.6 3.6pari 3.4 4.1 7.6 10.7 14.3 17.5 19.1 18.7 16.0 11.4 7.1 4.3perp 7.5 8.4 11.3 13.9 17.1 21.1 23.8 23.3 20.5 15.9 11.5 8.6reim 1.9 2.8 6.2 9.4 13.3 16.4 18.3 17.9 15.1 10.3 6.1 3.0renn 4.8 5.3 7.9 10.1 13.1 16.2 17.9 17.8 15.7 11.6 7.8 5.4roue 3.4 3.9 6.8 9.5 12.9 15.7 17.6 17.2 15.0 11.0 6.8 4.3stqu 2.0 2.9 6.3 9.2 12.7 15.6 17.4 17.4 15.0 10.5 6.1 3.1stra 0.4 1.5 5.6 9.8 14.0 17.2 19.0 18.3 15.1 9.5 4.9 1.3toul 8.6 9.1 11.2 13.4 16.6 20.2 22.6 22.4 20.5 16.5 12.6 9.7tlse 4.7 5.6 9.2 11.6 14.9 18.7 20.9 20.9 18.3 13.3 8.6 5.5tour 3.5 4.4 7.7 10.6 13.9 17.4 19.1 18.7 16.2 11.7 7.2 4.3vich 2.4 3.4 7.1 9.9 13.6 17.1 19.3 18.8 16.0 11.0 6.6 3.4CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 2LatemperatureenFrance(2) d = 2 ajac ange ango besa biar bord bres cler dijo embr gren lill limo lyon mars mont nanc nant nice nime orle pari perp reim renn roue stqu stra toul tlse tour vich ange ango besa biar bord bres cler dijo embr gren lill limo lyon mars mont nanc nant nice nime orle pari perp reim renn roue stqu stra toul tlse tour vich CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 3IndividusetvariablesPopulation groupe ou ensemble dindividusque lon analyse.Recensement etude de tous les individus dune population donnee.Sondage etude dune partie seulement dune population appelee echantillon.Variables ensemble de caracteristiques dune population. quantitatives: nombres sur lesquels les operations usuelles (somme, moyenne,...)ontunsens ; ellespeuventetrediscr`etes (ex: nombredelementsdansunen-semble) ou continues(ex : prix, taille) ; qualitatives: appartenance `a une categorie donnee ; elles peuvent etre nominales(ex : sexe, CSP) ouordinales quandles categories sont ordonnees (ex : tr`esresistant, assez resistant, peu resistant).CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 4LanalysededonneesBut synthetiser,structurer linformation contenue dans des donnees multidimension-nelles (n individus,p variables).Deuxgroupesdemethodes methodes de classication : reduire la taille de lensemble des individus en formantdes groupes homog`enes ; methodes factorielles: reduire le nombre de variables en les resumant par un petitnombre de composantes synthetiques.Deuxtypesdemethodesfactorielles analyse en composantes principales: variables numeriques ; analyse des correspondances: variables qualitatives.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 5ButducoursMethodescouvertesparlecours analyse en composantes principales (ACP) ; analyse (factorielle) des correspondances (AFC) ; analyse des correspondances multiples (ACM).Competencesrecherchees comprendre les fondements mathematiques des methodes ; savoir interpreter les tables et graphiques issus de ces methodes ;etre capable de mener soi-meme une telle etude.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 6CequececoursnestpasUncoursdemathematiquesnanci`eres il ny a pas de mod`eles probabilistes deprocessus nanciers (cours de bourse...).Uncoursdestatistiqueinferentielle il ne sera presque pas question ici de tests,destimateurs, de prevision statistique.Un cours oriente utilisateur on cherche `a la fois `a savoir utiliser les methodesdanalyse de donnees, et `a comprendre les fondements mathematiques de ces methodes.Uncoursappliqueauxdonneesnanci`eres ce cours est avant tout un cours demethode ; la plupart des exemples abordes ne seront pas issus de cette application.Uncours pratique Lescontraintesdeectifetdematerielnepermettentpasdeectuer des travaux pratiques.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 7OutilsutilisesAlg`ebrelineaire lesdonneessontvuesdemani`ereabstraite commeunnuagedepoints dans un espace vectoriel ; les notions suivantes doivent etre bien comprises vecteurs: produits scalaires, decomposition selon une base matrices: addition, multiplication, transposee, trace valeurset vecteurs propres: denition, proprietes metriques: denitions des distances dans un espace vectoriel par une norme, lienavec le produit scalaireAttention:lesetudiantssontsupposesmatriserlecalcul matriciel etlanotiondevaleurpropre ;lesTDetexamenscomporterontducalculmatriciel !Theoriedesprobabilites on utilisera quand meme quelques tests statistiques.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 8StatistiquesetprobabilitesUneapprochedierente Lesprobabilitesreposentsurunmod`elededonneesetfontengeneral deshypoth`esessimplicatrices.Ici,onutiliseraplusdesconsiderationsgeometriques.3lienspossibles les donnees statistiques sont empruntes dune forme de variabilite liee aux erreursde mesures ; on peut modeliser cette erreur par une variable aleatoire ; onconstate souvent que larepartitiondune variable est proche dune loi deprobabilites connue ; surtout, quanddesdonneessontissuedunsondage, onpeutconsidererquecesont des tirages dune variable aleatoire. Quand les echantillons sont assez grands,on connat des lois limites.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 9ReferencesCesreferencessont donnees`atitreindicatif ; aucunlivrenest demandepour cecours.Base du cours Gilbert Saporta, Probabilites, analyse des donnees et statistique, 2ndeedition, Technip, 2006.Version plus simple Jean-Marie Bouroche et Gilbert Saporta, Lanalyse des donnees,Que Sais-je ?, Presses Universitaires de France, 2002.Logiciel detraitement dedonnees Lestableset graphiquespresentesdanslecoursetlesTDsontproduitsparlelogiciel R(`alaidedupaquetageade4).Restunlogiciel libre (et donc gratuit) disponible pour Windows, Mac OS X et Linux `a ladressehttp://www.r-project.org.Archivesdececours cours, TD avec corrige, donnees sont disponibles `ahttp://www-roc.inria.fr/~lasgoutt/ana-donnees/CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 10PartieIvariablesquantitatives:analyseencomposantesprincipalesCoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 11DescriptiondedonneesquantitativesDenition Onappelle variable unvecteur xdetaillen.Chaquecoordonneexicorrespond `a un individu. On sinteresse ici `a des valeurs numeriques.Poids Chaque individu peut avoir un poids pi, tel que p1+ +pn = 1, notammentquandles individus nont pas la meme importance (echantillons redresses, donneesregroupees,...). On a souventp = 1/n.Representation histogramme en decoupant les valeurs de la variable en classes ; oualors bote `a moustache .Resumes ondisposeduneseriedindicateursqui nedonnequunevuepartielledesdonnees:eectif,moyenne,mediane,variance, ecarttype,minimum,maximum, eten-due,1erquartile,3`emequartile,...Cesindicateurs mesurent principalementla tendancecentrale et la dispersion.On utilisera principalement la moyenne, la variance et lecart type.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 12MoyennearithmetiqueDenition On note x =1nn

i=1xi,ou pour des donnees ponderes x =n

i=1pixi.Proprietes la moyenne arithmetique est une mesure de tendance centralequi dependdetouteslesobservationsetestsensibleauxvaleursextremes. Elleesttr`esutilisee`acause de ses bonnes proprietes mathematiques.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 13Varianceetecart-typeDenition la variancede x est denie pars2x =1nn

i=1(xi x)2ous2x =n

i=1pi(xi x)2Lecart-typesxest la racine carree de la variance.Proprietes La variance satisfait la formule suivantes2x =n

i=1pix2i ( x)2La variance est la moyenne des carres moins le carre de la moyenne . Lecart-type,qui a la meme unite que x, est une mesure de dispersion.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 14MesuredeliaisonentredeuxvariablesDenitions la covariance observee entre deux variables x et yestsxy =n

i=1pi(xi x)(yi y) =n

i=1pixiyi x y.et le coecient derde Bravais-Pearsonou coecient de correlation est donne parrxy =sxysxsy=

ni=1pi(xi x)(yi y)_ni=1pi(xi x)2_ni=1pi(yi y)2.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 15ProprietesducoecientdecorrelationBorne On a toujours (inegalite de Cauchy-Schwarz)1 rxy 1.Variablesliees |rxy| = 1 si et seulement si x et ysont lineairement liees :axi + byi = c, pour tout 1 i n.En particulier,rxx = 1.Variablesdecorrelees si rxy = 0, on dit que les variables sont decorrelees. Cela neveut pas dire quelles sont independantes !CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 16Lecoecientdecorrelationparlexemplex10.0 0.2 0.4 0.6 0.8 1.00.130.990.0 0.2 0.4 0.6 0.8 1.00.00.40.80.100.00.40.8x2 0.150.89x31.51.00.50.00.100.0 0.2 0.4 0.6 0.8 1.00.00.40.81.5 1.0 0.5 0.0x4Interpretation ona 4variablesnumeriquesavec 30individus. Lesvariables 1et 2sontindependantes ; lesvariables 1et 3ontunerelationlineaire ; lesvariables 2et 4ont une relation non-lineaire.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 17Quesignieunecorrelationlineaire ?Quest ce qui est signicatif ? si on a assez de donnees, on peut considerer quunecorrelation superieure `a 0, 5 est forte, et une correlation entre 0, 3 et 0, 5 est moyenne.Une correlation egale `a un indique que les deux variables sont equivalentes.Quest-cequecelaveut dire ? unecorrelationsignicativeindiqueuneliaisonentre deux variables, mais pas necessairement un lien de causalite. Exemple :Lenombredepompierspresentspourcombattreunincendieestcorreleauxdegats de lincendie.Mais ce ne sont pas les pompiers qui causent les degats.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 18Quesignieunedecorrelation ?qqqqq qqqqq4 2 0 2 412345xyPour ces deux variables, on ar = 0.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 19Rappels:notationmatricielleMatrice tableaude donnees carre ourectangulaire, note par unlettre majusculegrasse (ex : X).Vecteur matrice `a une seule colonne, note par une lettre minuscule grasse (ex : x).Cas particuliers matrice identite `a n lignes et n colonnes et vecteur unite de dimen-sionn :In =__1 0...0 1__, 1n =__1...1__.Transpositiondematrice echangedeslignesetdescolonnesdunematrice ; onnote M

la transposee de M.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 20TableaudedonneesOnnotexjilavaleurdelai-`emevariablepourlej-`emeindividu.Pournindividusetp variables, on a le tableauX = (x1, . . . , xp) =__x11x21 xp1x12x22... xji......x1nxpn__.X est une matrice rectangulaire `an lignes etp colonnes.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 21VecteursvariableetindividuVariable Une colonne du tableauxj=__xj1...xji...xjn__Individu Une ligne du tableaue

i = (x1i, . . . , xji, . . . , xpi)CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 22LamatricedespoidsDenition on associe aux individus un poidspitel quep1 + + pn = 1et on represente ces poids dans la matrice diagonale de taillenD =__p10p2...0 pn__.Casuniforme tous les individus ont le meme poidspi = 1/n et D =1nIn.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 23PointmoyenettableaucentrePointmoyen cest le vecteur gdes moyennes arithmetiques de chaque variable :g

= ( x1, . . . , xp),o` u xj=n

i=1pixji.On peut aussi ecrire g = X

D1n.Tableaucentre il est obtenu en centrant les variables autour de leur moyenneyji= xji xjou, en notation matricielle,Y = X1ng

= (I 1n1

nD)XCoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 24Matricedevariance-covarianceDenition cest une matrice carreede dimensionpV =__s21s12 s1ps21......sp1s2p__,o` usklest la covariance des variables xket x

ets2jest la variance de la variable xjFormulematricielleV = X

DXgg

= Y

DY.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 25MatricedecorrelationDenition Si lon noterk = sk/sks

, cest la matricep pR =__1 r12 r1pr211......rp11__,Formulematricielle R = D1/sVD1/s, o` uD1/s =__1s10...01sp__CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 26Lanalysedecomposantesprincipales(ACP)Contexte chaque individu est considere comme un point dun espace vectoriel Fdedimensionp. Lensembledes individus est unnuage depoints dans Fetgest soncentre de gravite.Principe oncherche`areduirelenombrepdevariablestoutenpreservantaumaxi-mum la structure du probl`eme.Pourcelaonprojettelenuagedepointssurunsous-espacededimensioninferieure.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 27Exempleendimension2On veut passer de 2 variables `a 1 seule.x2x1CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 28Exempleendimension2(suite)On cherche la direction qui dierencie le plus les points entre eux.x2x1CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 29DistanceentreindividusMotivation andepouvoir considerer lastructuredunuagedesindividus, il fautdenir une distance, qui induira une geometrie.Distanceeuclidienneclassique la distance la plus simple entre deux points de Rpest denie pard2(u, v) =p

j=1(uj vj)2= u v2Generalisationsimple on donne un poidsmj> 0 `a la variablejd2(u, v) =p

j=1mj(uj vj)2Utiliser ce poids est equivalent `a multiplier la coordonneejpar mjCoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 30MetriqueDenition soit M =diag(mj),o` um1, . . . , mpsontdesreelsstrictementpositifs.On poseu2M = u

Mu =p

j=1mju2j,d2M(u, v) = u v2M.Espacemetrique il est deni par le produit scalaireu, vM = u

Mv =p

j=1mjujvj.On notera que u2M = u, uM.Orthogonalite on dit que u et vsont M-orthogonaux si u, vM = 0.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 31ProprietesduproduitscalaireLeproduitscalaireestcommutatifu, vM = v, uMLeproduitscalaireestlineaireu, v +wM = u, vM +u, wM,u, vM = u, vMpour tout R.Identiteremarquableu +v2M = u2M +v2M + 2u, vMCoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 32Lecasdelametrique D1/s2Pourquoicettemetrique ? pour que les distances soient independantes des unitesde mesure et quelles ne privilegient pas les variables dispersees.Equivalenceaveclesdonneesreduites on a D1/s2 = D1/sD1/set doncu, vD1/s2 = D1/su, D1/sv.Travailler avec la metrique D1/s2est equivalent `a diviser chaque variable par son ecart-type et `a utiliser la metrique I.Donneescentreesreduites cest le tableau Z contenant les donneeszji=xji xjsj,qui se calcule matriciellement comme Z = YD1/s.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 33InertieDenition linertie en un point a du nuage de points estIa =n

i=1pieia2M =n

i=1pi(eia)

M(eia).Autresrelations linertietotaleIgestlamoitiedelamoyennedescarresdesdis-tances entre les individus2Ig =n

i=1n

j=1pipjeiej

2M.Linertie totale est aussi donnee par la trace de la matrice MVIg = Tr(MV),la trace dune matrice etant la somme de ses elements diagonaux.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 34Metriquesparticuli`eresMetriqueusuelle M = Ipcorrespondauproduitscalaireusuel etIg =Tr(V) =

pj=1s2i.Probl`emes la distance entre individus depend de lunite de mesure. la distance privilegie les variables les plus dispersees.Metriquereduite Ig = Tr(D1/s2V) = Tr(D1/sVD1/s) = Tr(R) = p.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 35UtilisationdesmetriquesUtiliser une metrique est donc equivalent `a tordre les donnees, par exemple pourles rendre comparablesx2x1x2x1Exemple utiliser la metrique reduite est equivalent `a travailler sur les donnees centreesreduites Z = YD1/s.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 36Lanalysedecomposantesprincipales(version2)Principe oncherche`aprojeter lenuagedepointssur unespaceFkdedimensionk < p.Crit`ere on veut que la moyenne des carres des distances entre les points projetes soitmaximale (elle est toujours plus petite que pour le nuage original).PourcelaonchercheFk,sous espacededimensionkdeFp,tel quelinertiedunuageprojetesurFksoitmaximale.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 37Rappels:valeurspropresetvecteurspropresDenition unvecteur v = 0detaillepestunvecteurpropredunematrice Adetaillep p sil existe C telle queAv = v. est une valeur proprede A associee `a v.Domaine Engeneral, lesvecteurspropresetvaleurspropressontcomplexes ; danstous les cas qui nous interessent, ils seront reels.Interpretationdesvecteurspropres cesontlesdirectionsdanslesquelleslama-trice agit.Interpretation des valeurs propres cest le facteur multiplicatif associe `aunedirection donnee.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 38Valeursetvecteurspropres:unexempleconcretLa matrice __5 1 12 4 21 1 3__a pour vecteurs propresv1 =__011__, v2 =__101__, v3 =__110__.On verie facilement que les valeurs propres associees sont1 = 2, 2 = 4, 3 = 6.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 39Valeursetvecteurspropres:casparticuliersMatricenulle sa seule valeur propre est 0, et tout vecteur est vecteur propre.Matriceidentite tout vecteur est vecteur propre de I avec valeur propre 1, puisqueIv = v.Matrice diagonale si D est une matrice diagonale avec les coecients 1, . . . , p,alorslei-`emevecteurcoordonneeestvecteurproprede Dassocie`alavaleurproprei.Lactiondunematricediagonaleestdemultiplier chacunedescoordonneesdunvecteur par la valeur propre correspondante.Matricediagonalisable cest unematricedont les vecteurs propres forment unebasede lespace vectoriel : tout vecteur peut etre represente de mani`ere unique commecombinaisonlineairedesvecteurspropres.Unematricedetaillep pqui apvaleurspropres reelles distinctes est diagonalisable dans R.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 40QuelquesmatricesdiagonalisablesMatricesymetrique une matrice symetrique reelle (A

= A) poss`ede une base devecteurs propres orthogonaux et ses valeurs propres sont reellesvi, vj = 0 sii = j, eti R.Matrice M-symetrique une matrice M-symetrique reelle (A

M = MA) poss`edeune base de vecteurs propres M-orthogonaux et ses valeurs propres sont reellesvi, vj

M = 0 sii = j, eti R.Matrice denie positive cest une matrice symetrique dont les valeurs propres sontstrictement positivesvi, vj = 0 sii = j, eti > 0.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 41Analysede VMValeurspropres la matrice VM est M-symetrique : elle est donc diagonalisable etses valeurs propres1, . . . , psont reelles.Axesprincipauxdinertie ce sont lesp vecteurs a1, . . . , aptels queVMak = kak, avec ak, a

M = 1 sik = , 0 sinon.Ils sont M-orthonormaux.Signedesvaleurspropres les valeurs propres de VM sont positives et on peut lesclasser par ordre decroissant1 2 3 p 0.Ideedulienaveclinertie on sait que Tr(VM) = 1 + +p. Si on ne gardequelesdonneesrelatives`a a1, . . . , aq, ongarderalinertie1 + + q, etcestlemieux quon puisse faire.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 42ResultatprincipalTheor`emeprincipal (Admis)1. SiFkest le sous-espace de dimensionkportant linertie principale, alorsFk+1 = Fkfk+1,o` ufk+1est lesous espacededimension1M-orthogonal `aFkportant linertiemaximale : les solutions sont embotees ;2. Fkest engendrepar les kvecteurs propres deVMassocies auxkplus grandesvaleurs propres.Interpretationdutheor`eme lACP sur k +1 variables est obtenue par ajout dunevariable dinertie maximale `a lACP sur k variables. Il nest pas necessaire de refaire toutle calcul.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 43LescomposantesprincipalesCoordonneesdesindividus supposons que eig =

p=1cia

, alorseig, ak

M =p

=1cia

, ak

M = cikLa coordonnee de lindividu centre eig sur laxe principal akest donc donne parla projection M-orthogonalecik = eig, ak

M = (eig)

Mak.Composantesprincipales ce sont les variables ckde taillen denies parck = YMak.Chaque ckcontientlescoordonneesdesprojections M-orthogonalesdesindividuscentres sur laxe deni par les ak.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 44RepresentationdesindividusdansunplanprincipalQuest-cequecest ? pourdeuxcomposantesprincipales c1et c2, onrepresentechaque individui par un point dabscisseci1et dordonneeci2.e2e5e4e8e7e6e1e3Axe 2Axe 1Quand ? Elle est utile quand les individus sont discernables.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 45ProprietesdescomposantesprincipalesMoyennearithmetique les composantes principales sont centrees : ck = c

kD1n = a

kMY

D1n = 0car Y

D1n = 0 (les colonnes de Ysont centrees).Variance la variance de ckestkcarV (ck) = c

kDck = a

kMY

DYMak= a

kMVMak = ka

kMak = k.Covariance de meme, pourk = ,cov(ck, c

) = c

kDc

= =

a

kMa

= 0.Les composantes principales ne sont pas correlees entre elles.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 46FacteursprincipauxDenition onassocie `aunaxeprincipal aklefacteurprincipal uk = Makdetaillep. Cest un vecteur propre de MVcarMVuk = MVMak = kMak = kukCalcul en pratique, on calcule les ukpar diagonalisation de MV, puis on obtient lesck = Yuk. Les akne sont pas interessants.La valeur dune variable ckpour lindividu eiest donccik = (eig)

uk =p

j=1yjiukjo` u u

j = (ui1, . . . , uip).CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 47FormulesdereconstructionIlestpossibledereconstruireletableaucentre Y`apartirdescomposantesprinci-pales et des facteurs principauxY =p

k=1cka

k =p

k=1cku

kM1.Preuve il sut de calculer_p

k=1cka

k_Ma

=p

k=1cka

kMa

= c

= YMa

.Comme M est inversible et que les akforment une base, on obtient Y.Approximation si on prend les kpremiers termes seulement, on obtient la meilleureapproximation de Ypar une matrice de rang kau sens des moindres carres (theor`emede Eckart-Young).CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 48LACPsurlesdonneescentreesreduitesMatricedevariance-covariance cest la matrice de correlation carZ

DZ = D1/sY

DYD1/s = D1/sVD1/s = R.Metrique on prend la metrique M = Ip.Facteursprincipaux ce sont lesp vecteurs propres orthonormes de R,Ruk = kuk, avec uk, u

= 1 sik = , 0 sinon.dont les valeurs propres sont classes par valeur propre decroissante1 2 3 p 0Composantesprincipales elles sont donnees par ck = Zuk.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 49Nombredaxes`aretenirDimensionde lespace des individus LACPvisant `areduireladimensiondelespace des individus, on veut conserver aussi peu daxes que possible. Il faut pour celaque les variables dorigine soient raisonnablement correlees entre elles.Les seuls crit`eres utilisables sont empiriques.Interpretationdesaxes onseorcedeneretenirquedesaxes`aproposdesquelsuneformedinterpretationestpossible(soitdirectement, soitentermedesvariablesaveclesquelsilssonttr`escorreles).Ondonneradesoutils`aceteetplusloindanslecours.Crit`eredeKaiser(variablescentrees-reduites) on ne retient que les axes asso-cies `a des valeurs propres superieures `a 1, cest-`a-dire dont la variance est superieure `acelle des variables dorigine.Une autre interpretation est que la moyenne des valeurs propres etant 1, on ne gardeque celles qui sont superieures `a cette moyenne.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 50Nombredaxes`aretenir(suite)Eboulisdesvaleurspropres onchercheun coude danslegraphedesvaleurspropres2 4 6 8 100.00.51.01.52.02.53.03.5CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 51LespacedesvariablesMetriqueD il faut munir lespace des variables dune metrique raisonnable. Onchoisit toujours la metrique D des poids :x, yD = x

Dy, x2D = x

Dx.Interpretation pour deux variables centreesx et y, on acov(x, y) = x, yD, V (x) = x2D,cor(x, y) =x, yDxDyD= cos( xy).Exemple les vecteurs ck/kforment une base D-orthonormale_ckk,c

_D= cor(ck, c

) =_1, sik = ,0, sinon.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 52CorrelationentrecomposantesetvariablesinitialesQuandontravaille surles variables centrees-reduites, la correlation entre une com-posante principale cket une variable zjestr(zj, ck) = cov(zj, ck)_V (ck)= (zj)

Dckket donc le vecteur des correlations de ckavec Z estr(Z, ck) = (r(z1, ck), . . . , r(zp, ck))

= Z

Dckk.Comme Z

Dck = Z

DZuk = Ruk = kuk, on a nalementr(Z, ck) =_kuk.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 53LecercledescorrelationsQuest-cequecest ? cestunerepresentationo` u,pourdeuxcomposantesprinci-pales,parexemple c1et c2,onrepresentechaquevariable zjparunpointdabscisser(zj, c1) et dordonneer(zj, c2).Eettaille celaarrivequandtoutes les variables sont correlees positivementavec la premi`ere composante principale. Cette composante est alors appelee facteur de taille , la seconde facteur de forme .CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 54Lecercledescorrelations(suite)Pourquoi uncercle ? comme les ck/kforment une base D-orthonormale,zj=p

k=1_ckk, zj_Dckk=p

i=1r(ck, zj)ckket donczj

2D = 1 =p

k=1r2(ck, zj).Les points sont bien `a linterieur dun cercle de rayon 1.Interpretation les points sont la projection orthogonale dans D des variables dans le plan denipar les composantes principales c1et c2. Il ne faut interpreter la proximite des points que sils sont proches de la circonfe-rence.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 55Contributiondunindividu`aunecomposanteDenition OnsaitqueV (ck) =k = ni=1pic2ik.Lacontributiondelindividui`a la composantekest doncpic2ikkInterpretation la contribution dun individu est importante si elle exc`ede dun facteurle poidspide lindividu concerne, cest-`a-direpic2ikk pi,ou de mani`ere equivalente|cik| _kChoixde selonlesdonnees,onsexeengeneral unevaleurdelordrede 2`a 4,que lon garde pour tousles axesCoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 56Individussur-representesQuest-cequecest ? cest un individu qui joue un role trop fort dans la denitiondun axe, par exemplepic2ikk> 0, 25Eet il tire `a lui laxe k et risque de perturber les representations des autres pointssurlesaxesderang k.Il estdoncsurtoutproblematiquesurlespremiersaxes.Untel individu peut etre le signe de donnees erronees.Solution on peut le retirer de lanalyse et le mettre en individu supplementaire .CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 57QualiteglobaledelarepresentationCalcul de linertie on se souvient que Ig = Tr(VM) ; comme la trace dune matriceest la somme de ses valeurs propres, on aIg = 1 + 2 + + p.Denition laqualitedelarepresentationobtenueparkvaleurspropresestlapro-portion de linertie expliquee1 + 2 + + k1 + 2 + + pSi parexemple1 + 2estegal 90%deIg,onendeduitquelenuagedepointsest aplati autour du premier plan principal.Utilisation cettevaleursertseulement`a evaluerlaprojectionretenue,pas`achoisirle nombre daxes `a garder.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 58QualitelocaledelarepresentationBut on cherche `a determiner si le nuage de points est tr`es aplati par la projection surlessous-espacesprincipaux.Danscecas,deuxindividus eloignespourraientarticielle-ment sembler proches les uns des autres.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 59AngleentreunindividuetunaxeprincipalIl estdeni parsoncosinuscarre.Lecosinusdelangleentrelindividucentreietlaxe principalkestcos(ei, ak) = eig, ak

MeigM.car les akforment une base orthonormale. Comme eig, ak

M = cik,cos2(ei, ak) =c2ik

pk=1c2ik.Cette grandeur mesure la qualite de la representation de lindividu i sur laxe principalaj.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 60Angleentreunindividuetunsous-espaceprincipalCest langleentrelindividuet saprojectionorthogonalesur le sous-espace. Laprojection de eigsur le sous-espaceFq,q p, est

qk=1cikak, et donccos2(

ei, Fq) =

qk=1c2ik

pk=1c2ik.La qualite de la representation de lindividu i sur le plan Fqest donc la somme desqualitesderepresentationsurlesaxesformantFq.Il estsignicatifquandlepoint einest pas trop pr`es de g.Crit`eres Uncos2egal `a0, 9correspond`aunanglede18degres. Parcontre, unevaleur de 0, 5 correspond `a un angle de 45 degres ! On peut considerer par exemple lesvaleurs superieures `a 0, 80 comme correctes.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 61VariablessupplementairesquantitativesMotivation lescomposantesprincipalesetantdeniespourmaximiserlescontribu-tions, le fait que les correlations obtenues soient proches de 1 peut ne pas etre signicatif.Par contre, une correlation forte entre une composante principale et une variable nayantpas participe `a lanalyse est tr`es signicative.Methode on met decote certaines variables pour quelles nesoient pas utili-seesdanslanalyse(ondiminuedoncladimensionde Renenlevantdeslignesetdescolonnes). On cherche ensuite `a savoir si elles sont liees `a un axe donne.Correlation on calcule la correlation de la variable avec les composantes principales eton la place dans le cercle des correlations. Si z est le vecteur centre-reduit correspondant`a cette variable, on calculecor( z, ck) = cov( z, ck)_V (ck)= z, ck

Dk=1kn

i=1pi zicik.Onpeuteventuellementutiliserunteststatistiquepourdeterminersi unecorrelationest signicative.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 62VariablessupplementairesqualitativesRepresentation onpeut representer par des symboles dierents les individus dechaque categorie sur les axes principaux.Valeur-test on consid`ere les n individus ayant une certaine caracteristique (homme,femme...)etlacoordonnee ckdeleurbarycentresurlaki`emecomposanteprincipale.La valeur-test est ck_ nk_n 1n n.Quand n est assez grand, elle est signicative si sa valeur absolue est superieure `a 2 ou3.Idee du calcul Si les n individus etaient pris au hasard, ck serait une variable aleatoirecentree (les z sont de moyenne nulle) et de variancek nn nn1car le tirage est sans remise.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 63IndividussupplementairesMethode on met de cote certains individus pour quils ne soient pas utilisees danslanalyse(ilsnesontpasprisencomptedanslecalcul descovariances). Onchercheensuite `a savoir si ils sont lies `a un axe donne.Casdesindividussur-representes onpeutdeciderdutilisercespointsenindi-vidussupplementaires,enparticulierquandlespointsconstituentun echantillonetnepresentent pas dinteret en eux-memes.Representation onlesajoute `alarepresentationsurlesplansprincipaux.Pourcal-culer leur coordonnee sur un axe xe, on ecrit ck = z, uk =p

j=1 zjukj,o` u les zjsont les coordonnees centrees-reduites dun individu supplementaire z.Cesindividus peuvent servirdechantillon-testpour verierleshypoth`eses tireesdelACP sur les individus actifs.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 64LACPentroistransparents(1)Donnees les donnees representent les valeurs de p variables mesurees sur n individus ;lesindividuspeuventavoirunpoids. Engeneral ontravaillesurdesdonneescentreesreduites Z (on retranche la moyenne et on divise par lecart type).Matrice de correlation cest lamatriceRde variance-covariance des variablescentrees reduites. Elle poss`edep valeurs propres1 p 0.Inertie totale cest la moitie de la moyenne des distances au carre entre les individus ;ellemesureletenduedunuagedepoints. Cest lagrandeur quoncherche`agardermaximale et elle peut secrireIg = 1 + 2 + + p = p.FacteursprincipauxukcesontdesvecteurspropresorthonormesdeRassociesaux k: Ruk = kuk. Leur j-i`eme composante (sur p) ukjest le poids de la variablejdans la composantek.Composantes principalesckcesont lesvecteursZukdedimensionn. Leur i-i`emecoordonneecikestlavaleurdelacomposantekpourlindividui. Lescksontdecorrelees et leur variance estV (ck) = k.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 65LACPentroistransparents(2)Nombre daxes on se contente en general de garder les axes interpretablesde valeurpropre superieure `a 1.Cercledescorrelations il permet de visualiser comment les variables sont correlees(positivement ounegativement)aveclescomposantesprincipales.`Apartir del`a, onpeut soit trouver une signication physique `a chaque composante, soit montrer que lescomposantes separent les variables en paquets.Representationdesindividus pourunplanprincipaldonne,larepresentationdesprojections des individus permet deconrmer linterpretationdes variables. Onpeutaussi visualiser les individus aberrants (erreur de donnee ou individu atypique).Contribution dun individu `a une composante cest la part de la variance dunecomposanteprincipalequi provientdunindividudonne. Si cettecontributionestsu-perieurde 2`a 4foisau`asonpoids, lindividudenitlacomposante. Si elleesttr`essuperieureauxautres, onditquil estsurrepresenteetonpeutavoirinteret`amettrelindividu en donnee supplementaire.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 66LACPentroistransparents(3)Qualiteglobaledelarepresentation cestlapartdelinertietotaleIgqui estexpliquee par les axes principaux qui ont ete retenus. Elle permet de mesurer la precisionet la pertinence de lACP.Qualitedelarepresentationdunindividu ellepermetdeverierquetouslesindividus sont bien representes par le sous-espace principal choisi ; elle sexprime commele carre du cosinus de langle entre lindividu et sa projection orthogonale.Individussuplementaires quandunindividuestsurrepresentesurundespremiersaxes, on peut le supprimer de lanalyse et le reintroduire dans la representation commeindividu supplementaire.Variablessupplementairesquantitatives certainesvariablespeuventetremisesde cote lors de lACP et reportees separement sur le cercle des correlation.Variables supplementaires qualitatives elles peuvent etre representees sur la pro-jection des individus, et leur liaison aux axes est donnee par les valeurs-test.CoursdanalysededonneesJean-MarcLasgouttesannee2010-2011. 67