analyse des structures sous-jacentes des...

28
14/11/2003 Analyse des structures sous- jacentes des données Analyse factorielle Analyse de correspondance LISREL M. Dramaix Laboratoire de Statistique Médicale

Upload: phungkhue

Post on 16-Sep-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

14/11/2003

Analyse des structures sous-jacentes des données

Analyse factorielleAnalyse de correspondance

LISREL

M. DramaixLaboratoire de Statistique Médicale

Page 2: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• OBJECTIFS– Réduire la dimension des données– Regrouper les variables « redondantes »

• COMMENT?– Recherche de la structure « cachée » :

construction de « facteurs »– réduction des données d’un grand nombre de

variables corrélées un plus petit nombre de facteurs non corrélés

Page 3: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• Facteurs– « regroupent » les variables originales en

fonction de leurs « affinités »

Page 4: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• Deux étapes

A. Extraction des facteurs. Méthode usuelle :

décomposition en composantes principales

B. Rotation des axes

Page 5: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• Communauté– variance d’une variable : une partie partagée

avec les autres (variance commune) + une partie spécifique (variance unique) + erreur (variance aléatoire)

– proportion variance commune = communauté

Page 6: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• Communauté– analyse factorielle variance commune– Comment la déterminer?

• On suppose : communauté de chaque variable = 1ANALYSE EN COMPOSANTES PRINCIPALES• on estime la communauté de chaque variable (R²)ANALYSE FACTORIELLE

Page 7: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• Composantes principales / analyse factorielle– Composantes principales : données

ensemble de combili ’s des var. originales– Analyse factorielle estimation de facteurs– Solutions

• similaires si nb. var ≥ 30 et communautés > 0.7• ≠ si nb. var. < 20 et communauté < 0.4

Page 8: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Bases– Matrice des données : n x p

• n = nb. sujets• p = nb. variables

– Décomposition de la matrice de données en r matrices (r ≤ p) d’importance décroissante

combien de matrices pour reconstituer la matrice originale?

Page 9: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Bases– Variables centrées réduites on travaille

avec la matrice de corrélation– Les éléments des vecteurs propres de la matrice

de corrélation sont les pondérations des variables dans les combili ’s

– Les valeurs propres reflètent l’importance des composantes

Page 10: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Communautés– initiales = 1

– après extraction • reflète la contribution des facteurs à la

reconstruction de chaque variable• = Σ carré des pondérations de la variable dans

chacun des facteurs extraits

Page 11: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Valeurs propres– Σ carrés écarts entre la matrice X de données et

les matrices de reconstitutionEx. : 3 matrices = valeurs propres : λ1, λ2, λ3

matrice la + importante = X1λ2+λ3 = Σ carrés écarts entre X et X1

Σ carrés écarts entre X et X1 minimum

– = % de reconstitution de X∑j jλjλ

Page 12: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

• Composantes - facteurs– Nb. composantes = nb. variables originales

– Composantes non corrélées entre elles

– L’objectif est de pouvoir décrire les données avec un nombre limité de facteurs : Réduction de la dimension des données

Décomposition en composantes principales

Page 13: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Facteurs– A chaque facteur correspond une valeur propre

– Les facteurs sont classés en fonction de leur valeur propre

– Ces valeurs propres correspondent à une partie de variabilité expliquée

Page 14: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Composantes - facteurs– Combien?

• Critère de Kaiser : facteurs avec valeur propre > 1• Scree plot (seuil nb. composantes = pt. inflexion) à

utiliser si n > 200• Jolliffe : valeurs propres > 0.7

• Critère de Kaiser recommandé si nb. var. < 30 et communauté moy. > 0.7 ou ≥ 0.6 et n > 250

Page 15: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Composantes - facteurs– Rotation des axes

• Pourquoi : maximiser les pondérations de certains items

• Types– rotation orthogonale = varimax facteurs

indépendants– rotation oblique

Page 16: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Composantes - facteurs– Rotation des axes

• choix :

– oblique si on suppose facteurs non indépendants à priori;

– dépend position des pts avant rotation;

– orthogonale raisonnable si corr. entre fact. après oblique faible

Page 17: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Composantes - facteurs– Les variables avec les pondérations les +

importantes donnent le « sens », le « nom » du facteur

• Quelles variables?– pondération > 0.3 ou > 0.4– signification pondération dépend de n table

– pondération = corrélation Pearson entre la variable et le facteur

Page 18: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Représentation graphique

– constituent les axes d’une représentation graphique où les variables peuvent être représentées

– les coordonnées d’une variable sur un axe sont les pondérations

Page 19: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Décomposition en composantes principales

• Facteurs - score factoriel

– Pour chaque facteur sélectionné et pour chaque sujet, on peut calculer un score factoriel

– On utilise le score factoriel comme une nouvelle variable

Page 20: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• Facteurs - score factoriel– Calcul des scores

• moyenne pondérée : on multiplie les valeurs des variables par les pondérations respectives.

si les variables n’ont pas les mêmes unités

• régression : tient compte des corrélations initiales entre les variables

les scores à deux facteurs orthogonaux peuvent être corrélés

• Bartlett et Anderson-Rubin (à utiliser si on veut scores non corrélés)

Page 21: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• Facteurs - score factoriel

– Utilité• nouvelle variable nombre de variables réduit

• peut résoudre les problèmes de colinéarité en analyse multivariable

Page 22: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• Conditions d’applications– Type de variables : quantitatives - ± normales– Nombre de sujets : pas de consensus

• 5 x nb. variables et pas moins de 100 sujets• 10-15 sujets / var.• n = 300 OK• facteur fiable si au moins 4 pondérations > 0.6• facteur fiable si au moins 10 pondérations > 0. 4 et n

> 150• Si toutes les communautés > 0.6 : n < 100 OK

Page 23: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• Problèmes– variables non corrélées à aucune autre les

ôter – éviter les corrélations quasiment parfaites– adéquation échant

• KMO (Kaiser=Meyer-Olkin) - mesure. Ok si > 0.5• Matrice anti-image : OK si diagonale > 0.5

Page 24: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse factorielle

• Problèmes

– Test de sphéricité Bartlett (test : matrice corr. = matrice identité) doit être significatif

– Résidus = diff. entre corrélations obs. et prédites par modèle

Page 25: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Analyse de Correspondance

• Même principe que l’analyse factorielle pour des variables en catégories

• Décomposition de la matrice formée par les fréquences

• Utilisation du χ²

Page 26: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

• LISREL = Linear Structural Relation

• Modèle général – à partir de variables observées, définir des

variables latentes (modèles de mesure)– établir des relations entre les variables latentes

= relations structurelles

LISREL

Page 27: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

LISREL

• Type de variables – quantitatives– ordinales

• LISREL Analyse factorielle– Analyse factorielle = méthode exploratoire– LISREL = analyse factorielle confirmatoire

= test de modèles

Page 28: Analyse des structures sous-jacentes des donnéeshomepages.ulb.ac.be/~aleveque/epitraumac/pdf-ppt/analysefactoriel... · – Matrice des données : n x p ... • Critère de Kaiser

Programme LISREL

• Analyse factorielle exploratoire

• Modèles de régression

• Multi-level

• Mesures répétées