l’adaptation de l’analyse factorielle exploratoire à des données discrètes

18
Cégep Gérald-Godin, Juin 2011 1/17. Gilles Raîche L’adaptation de l’analyse factorielle exploratoire à des données discrètes Gilles Raîche, UQAM Séminaire du Collectif sur le développement et les applications en mesure et évaluation 22 février 2012

Upload: arnaud

Post on 17-Mar-2016

45 views

Category:

Documents


1 download

DESCRIPTION

L’adaptation de l’analyse factorielle exploratoire à des données discrètes. Gilles Raîche, UQAM Séminaire du Collectif sur le développement et les applications en mesure et évaluation 22 février 2012. CONTENU DE L’ATELIER. Problématique - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 1/17.Gilles Raîche

L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Gilles Raîche, UQAM

Séminaire du Collectif sur le développement et les applications en

mesure et évaluation

22 février 2012

Page 2: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 2/17.Gilles Raîche

• Problématique• Données sur les pratiques d’évaluation en

salle de classe• Détermination du nombre de facteurs• Comparaisons des méthodes• Conclusions• Références et logiciels

CONTENU DE L’ATELIER

Page 3: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 3/17.Gilles Raîche

PROBLÉMATIQUE

Page 4: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 4/17.Gilles Raîche

• 1608 sujets étudiants : primaire, secondaire, collégial et universitaire

• 24 items à 4 choix de réponses de type fréquence : de jamais à toujours

• 4 dimensions théoriques : intégration, équité, authenticité et planification

• Exemple : • Mon enseignant utilise des tâches d'évaluation qui sont utiles pour moi.

DONNÉES SUR LES PRATIQUES D’ÉVALUATION EN SALLE DE CLASSE

Page 5: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 5/17.Gilles Raîche

# Librairies nécessaires> require(nFactors); require(psych); require(mirt)> X <- read.table(file="http://www.camri.uqam.ca/camri/data/PRATIQUES/ETUDIANTS/RAICHE_CDAME_DATA_2012_02_22.dat", header=TRUE)

> X <- data.frame(X[,-1]) # Retrait du facteur Ordre d'enseignement

# Informations descriptives sur les données> dim(X)[1] 1608 24 > summary(X[,1:3]) CP1 CP2 CP3 Min. : 1.000 Min. : 1.000 Min. : 1.000 1st Qu.: 3.000 1st Qu.: 3.000 1st Qu.: 3.000 Median : 3.000 Median : 4.000 Median : 3.000 Mean : 3.203 Mean : 3.484 Mean : 3.219 3rd Qu.: 4.000 3rd Qu.: 4.000 3rd Qu.: 4.000 Max. : 4.000 Max. : 4.000 Max. : 4.000 NA's :29.000 NA's :32.000 NA's :33.000

DONNÉES SUR LES PRATIQUES D’ÉVALUATION EN SALLE DE CLASSE

Page 6: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 6/17.Gilles Raîche

• Critère de Kaiser, test de l’éboulis et analyse parallèle

DÉTERMINATION DU NOMBRE DE FACTEURS SELON UNE ANALYSE DITE CLASSIQUE

5 10 15 20

24

6

Composantes principales

Val

eurs

pro

pres

Eigenvalues (>mean = 4 )Parallel Analysis (n = 2 )Optimal Coordinates (n = 2 )Acceleration Factor (n = 1 )

(OC) (AF)

Valeur propre

%

1 7,60 32 %

2 1,31 5 %

Page 7: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 7/17.Gilles Raîche

# Analyse factorielle exploratoire classique> corX <- cor(X, use="pairwise.complete.obs")

> eigenValues <- eigenComputes(x=X, use="pairwise.complete.obs")

> aParallel <- parallel(subject = dim(X)[1], var = dim(X)[2], rep = 1000, cent = 0.50)$eigen$mevpea

> nFact <- nScree(eig=eigenValues, x=eigenValues, aparallel=aParallel, cor=TRUE, model="components")

> summary(nFact, digits=2)

> plot(nFact, xlab="Composantes principales", ylab="Valeurs propres", main="")

DÉTERMINATION DU NOMBRE DE FACTEURS SELON UNE ANALYSE DITE CLASSIQUE

Page 8: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 8/17.Gilles Raîche

• Critère de Kaiser, test de l’éboulis et analyse parallèle

DÉTERMINATION DU NOMBRE DE FACTEURS SELON UNE ANALYSE BASÉE SUR LES

VARIABLES SOUS-JACENTES

5 10 15 20

02

46

8

Composantes principales

Val

eurs

pro

pres

Eigenvalues (>mean = 4 )Parallel Analysis (n = 2 )Optimal Coordinates (n = 2 )Acceleration Factor (n = 1 )

(OC) (AF)

Valeur propre

%

1 9,01 38 %

2 1,37 6 %

Page 9: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 9/17.Gilles Raîche

# Analyse factorielle exploratoire avec variables sous-jacentes> polyX <- polychoric(X, smooth=TRUE, global=TRUE)> eigenPoly <- eigenComputes(polyX[[1]], cor=TRUE])

> aParallel <- parallel(subject = dim(X)[1], var = dim(X)[2], rep = 1000, cent = 0.50)$eigen$mevpea

> nFactPoly <- nScree(eig=eigenPoly, x=eigenPoly, aparallel=aParallel, cor=TRUE, model="components")> summary(nFactPoly, digits=2)

> plot(nFactPoly, xlab="Composantes principales", ylab="Valeurs propres", main="")

DÉTERMINATION DU NOMBRE DE FACTEURS SELON UNE ANALYSE BASÉE SUR LES

VARIABLES SOUS-JACENTES

Page 10: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 10/17.Gilles Raîche

• Critères: ANOVA, AIC et BIC

DÉTERMINATION DU NOMBRE DE FACTEURS SELON UNE ANALYSE FACTORIELLE À

INFORMATION COMPLÈTE

anova(mod4, mod5)

X2 = 138.754 (SE = 0.31), df = 20, p = 0

AIC difference = 98.754 (SE = 0.31)

BIC difference = -8.901 (SE = 0.31)

Page 11: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 11/17.Gilles Raîche

DÉTERMINATION DU NOMBRE DE FACTEURS SELON UNE ANALYSE FACTORIELLE À

INFORMATION COMPLÈTE> mod1 <- polymirt(data=X, nfact=1)

> mod2 <- polymirt(data=X, nfact=2)

> mod3 <- polymirt(data=X, nfact=3)

> mod4 <- polymirt(data=X, nfact=4)

> mod5 <- polymirt(data=X, nfact=5)

> anova(mod1, mod2)

> anova(mod2, mod3)

> anova(mod3, mod4)

> anova(mod4, mod5)

Chi-squared difference:

X2 = 138.754 (SE = 0.31), df = 20, p = 0

AIC difference = 98.754 (SE = 0.31)

BIC difference = -8.901 (SE = 0.31)

Page 12: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 12/17.Gilles Raîche

COMPARAISONS DES MÉTHODES (SATURATIONS)

Item Classique (0,74)

Variables sous-jacentes (0,74)

Information complète(0,75)

F1 F2 h2 F1 F2 h2 F1 F2 h2

123456789101112131415161718192021222324

0,50 0,43 0,44 0,05 0,50 0,27 0,61 0,01 0,61 0,43 0,52 0,42 0,46 0,20 0,64 0,00 0,25-0,04-0,06 0,32 0,07 0,35 0,15 0,35

0,06-0,08 0,03 0,49 0,00 0,25-0,06 0,51-0,07 0,17 0,11 0,08 0,26 0,17-0,08 0,61 0,44 0,72 0,56 0,30 0,44 0,33 0,53 0,35

0,250,190,190,240,250,140,380,260,380,210,280,180,280,070,420,370,260,520,320,190,200,230,300,24

0,53 0,58 0,49 0,03 0,57 0,32 0,71-0,02 0,68 0,42 0,51 0,43 0,42 0,28 0,74-0,05 0,23-0,06-0,09 0,34 0,07 0,35 0,14 0,31

0,12-0,13 0,04 0,53 0,00 0,24-0,05 0,56-0,05 0,22 0,18 0,13 0,35 0,16-0,08 0,69 0,52 0,79 0,63 0,34 0,47 0,40 0,59 0,44

0,300,350,240,280,320,160,510,310,460,220,290,200,300,100,550,480,320,630,400,230,230,280,370,29

0,55 0,64 0,47 0,00 0,57 0,29 0,77-0,06 0,69 0,43 0,56 0,44 0,45 0,31 0,77-0,04 0,27-0,06-0,09 0,36 0,08 0,40 0,17 0,32

-0,14 0,16-0,09-0,58-0,03-0,30 0,08-0,63 0,03-0,24-0,17-0,15-0,36-0,15 0,07-0,70-0,51-0,80-0,65-0,35-0,49-0,40-0,59-0,46

0,320,440,230,340,330,170,600,400,480,240,340,220,330,120,600,490,330,640,430,250,250,320,380,31

Page 13: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 13/17.Gilles Raîche

COMPARAISONS DES MÉTHODES (SATURATIONS)

> corX <- cor(X, use="pairwise.complete.obs")> classique <- factanal(factors=2, covmat=corX, rot="promax")> PHIclass <- solve(classique$rot) %*% t(solve(classique$rot))> classique; PHIclass

> polyX <- polychoric(X, smooth=TRUE, global=TRUE)$rho> sousjacentes <- factanal(factors=2, covmat=polyX[[1]], rot="promax")> PHIpoly <- solve(sousjacentes $rot) %*% t(solve(sousjacentes $rot))

> sousjacentes; PHIpoly

> mod2 <- polymirt(data=X, nfact=2)

> summary(mod2, rot="promax")

Page 14: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 14/17.Gilles Raîche

COMPARAISONS DES MÉTHODES (SATURATIONS)

0.0 0.2 0.4 0.6 0.8

0.0

0.2

0.4

0.6

0.8

Facteur 1

Fact

eur 2

CP1

CP2

CP3

CP4

CP5

CP6

CP7

CP8

CP9

CP10

CP11

CP12

CP13

CP14

CP15

CP16

CP17

CP18

CP19

CP20

CP21

CP22

CP23

CP24

CP1

CP2

CP3

CP4

CP5

CP6

CP7

CP8

CP9

CP10

CP11

CP12

CP13

CP14

CP15

CP16

CP17

CP18

CP19

CP20

CP21

CP22

CP23

CP24

CP1

CP2

CP3

CP4

CP5

CP6

CP7

CP8

CP9

CP10

CP11CP12

CP13

CP14

CP15

CP16

CP17

CP18

CP19

CP20

CP21

CP22

CP23

CP24

ClassiqueVariables sous-jacentesInformation complète

Page 15: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 15/17.Gilles Raîche

COMPARAISONS DES MÉTHODES (SATURATIONS)

> loadFull <- round(unclass(summary(mod2, digits=2, rotate='promax')[[1]]), 2)loadFull[,2] <- -loadFull[,2]

> cex=1> plot(loadFull, type="n",xlab="Facteur 1", ylab="Facteur 2")> text(loadings(sousjacentes), rownames(loadings(sousjacentes)), cex=cex)> text(loadings(classique), rownames(loadings(classique)), cex=cex, col="red")> text(loadFull, rownames(loadPoly), cex=cex, col="green")> legend("topright", legend=c("Classique", "Variables sous-jacentes", "Information complète"), lty=1:3, col=c(1:3))

Page 16: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 16/17.Gilles Raîche

CONCLUSION

• Le nombre de facteurs à retenir varie selon le critère utilisé

• L’interprétation des facteurs extraits ne varie pas énormément

• Toutefois, la méthode classique est celle qui présente la plus petite communauté

• Tandis que la méthode par information complète présente la communauté la plus élevée

• Moins le nombre de catégories utilisée est grand, moins l’approche classique est appropriée

Page 17: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 17/17.Gilles Raîche

Bartholomew, D. J., Steele, F., Moustaki, I. et Galbraith, J. I. (2002). The analysis and interpretation of multivariate data for social scientists. Boca Raton, Floride : Chapman et Hall.

Cai, L. (2010). High-Dimensional exploratory item factor analysis by a Metropolis-Hastings Robbins-Monro algorithm. Psychometrika, 75, 33-57.

Chalmers, P. (2011). mirt 0.1.19 – Multidimensional item response theory. CRAN.

Mulaik, S. A. (2010). Foundations of factor analysis. 2e édition. Boca Raton, Floride : Chapman et Hall.

Raîche, G. et Magis, D. (2011). nFactors 2.12 – Application d’études de dimensionnalité en analyse factorielle. Montréal, Québec : Université du Québec à Montréal.

Raîche, G. (2006). L’intégration des pratiques d’évaluation des apprentissages aux pratiques pédagogiques dans le contexte des approches par compétences. Vivre le primaire, 19(2), 43-45.

RÉFÉRENCES ET LOGICIELS

Page 18: L’adaptation de l’analyse factorielle exploratoire à des données discrètes

Cégep Gérald-Godin, Juin 2011 18/17.Gilles Raîche

• Gilles Raîche

– http://www.Cdame.uqam.ca

[email protected]

CONTACT