université de montréal département de sociologie · la corrélation est un indice de la force...

Université de Montréal

département de sociologie

L'analyse de régression multiple

notes de cours

© Claire Durand, 1997

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 1

Table des matières

A) Rappel des principes de base: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11) La corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12) La ligne de régression, la régression simple . . . . . . . . . . . . . . . . . . . . . . . 2

B) La régression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21) Ce que l'on peut savoir avec une régression multiple . . . . . . . . . . . . . . . . 42) Considérations pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53) Sommes des carrés, équations, test F, r2 . . . . . . . . . . . . . . . . . . . . . . . . . 64) Les trois grands types d'analyse, utilité et conséquences . . . . . . . . . . . . . 75) La régression, la présentation et l'interprétation des informations . . . . . . 10

Annexe aux notes de cours :

De certaines procédures de SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14Commandes utiles pour la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19Commandes de régression (SPSS PC et UNIX). . . . . . . . . . . . . . . . . . . . . 20Commandes de régression avec SPSS Windows . . . . . . . . . . . . . . . . . . . . 21


r 'bsy

r 2'SC expliquée

SC totale

A) Rappel des principes de base:

1) La corrélation:

La corrélation est un indice de la force d'une relation linéaire ou linéarisée (après transformation)entre deux ou plusieurs variables. La corrélation donne aussi le sens (positif, négatif) de la relation.

La corrélation est un indice standardisé de la relation, ce qui permet de comparer les corrélationsentre elles.

La corrélation égale :

a) la covariance divisée par le produit des écarts-type de x et y

r=covarXY/sxsy

ou...

b) le coefficient de régression (b) divisé par l'écart-type de la variable dépendante

La corrélation au carré (la "variance expliquée") égale

- le ratio de la somme des carrés expliquée sur la somme des carrés totale et donc la variance de laligne de régression.


Y )'a%bx

Y'a%b1x1%b2x2%...%bnxn

2) La ligne de régression, la régression simple

On est intéressé à la régression quand on veut savoir jusqu'à quel point on peut prédire la valeur d'unevariable en connaissant la valeur d'une autre variable. L'équation de la régression simple est:

"Y’" peut être conceptualisé comme la valeur attendue, pour une valeur de X donnée "E(Y|X)".

Comme il y a des écarts autour de la moyenne, chaque valeur de y, yi se calcule selon l'équationsuivante:

yi = a+bxi+ei

"a" peut être conceptualisé comme l'intercept de Y, soit la valeur moyenne que prend Y quandla valeur de X =0;

"b" est le coefficient assigné à la variable indépendante X. Il peut donc être conceptualisé comme le poids donné à la variable indépendante X, pourprédire la variable dépendante Y.

"e" peut être conceptualisé comme l'"erreur" comprenant l'erreur de mesure (voir alpha deCronbach) ainsi que l'effet non contrôlé d'autres variables qui ne sont pas dans l'équation. Lavaleur de "ei" pour un cas donné est l'écart entre la valeur yi prédite par l'équation "a +bxi" etla valeur réelle yi.

B) La régression multiple:

Dans la régression multiple, on cherche la combinaison de poids (b) pour les variables indépendantes(Xi) qui amènerait les valeurs de Y prédites par l'équation aussi près que possible des valeurs de Ymesurées. L'équation est la suivante:

On cherche toujours à minimiser les écarts entre les valeurs prédites et les valeurs mesurées mais


en recourant à plusieurs variables qui nous aident à prédire; la corrélation multiple est un indicede la relation entre ces valeurs prédites et les valeurs mesurées.

Notons que l'analyse de variance est un cas spécial d'une régression multiple dans laquelle lesvariables multi-nominales ayant k catégories seraient dichotomisées en k-1 variables.

Il y a quatre types de régression multiple (Tabachnik et Fidell, 1989, p. 124); seulement les troispremiers seront abordés dans le cadre de ce cours. Ces quatre types diffèrent par la manière dont lesvariables entrent dans l'équation et donc par la façon dont est traitée la variance commune à une ouplusieurs variables.

1. La régression standard: Toutes les variables sont entrées en même temps dans l'équation. Lavariance commune à plusieurs variables n'est pas attribuée à aucune des variables. On cherche àestimer le degré de relation entre chaque variable indépendante et la variable dépendante. Ce typede régression permet de connaître la contribution unique (corrélation semi-partielle) de chaquevariable indépendante à la prédiction de la V.D.

2. La régression hiérarchique: Les variables sont entrées une à une ou par groupe de variablesselon un ordre déterminé par le chercheur.. La variance commune à plusieurs variables est attribuéeséquentiellement selon l'ordre d'entrée des variables. On cherche à estimer si et jusqu'à quel point unevariable indépendante ou un groupe de variables indépendantes ajoute à la prédiction, au-delà desautres variables déjà dans l'équation. Ce type de régression permet de connaître la contributionajoutée d'une ou de plusieurs variables. On fait l'équivalent d'une analyse de covariance.

3. La régression statistique ou pas-à-pas: Les variables indépendantes entrent dans l'équationuniquement en fonction de critères statistiques (probabilité statistique de signification du coefficient"b"). On cherche la meilleure équation de prédiction, sans égard à la signification des variables. Cetype de régression est utilisé surtout à titre exploratoire.

4. La régression SETWISE: Les variables sont entrées par bloc dont on compare la contributionglobale. On cherche le meilleur ensemble de prédicteurs, par exemple si l'utilisation de valium peutêtre mieux prédite par un ensemble de variables subjectives (attitudes ) ou par un ensemble devariables relatives à la santé.


1) Ce que l'on peut savoir avec une régression multiple (Tabachnik et Fidell, 1989, p. 124-127):

- si il existe une relation significative entre les prédicteurs et la V.D i.e. si, dans la population, larelation est différente de 0.

H0: r=0; H1: rÖ0

- si chacune des variables contribue de façon significative à la prédiction

H0: bi=0; H1: biÖ0

- si l'addition d'une variable (k) à un ensemble existant contribue de façon significative à la prédiction.(Différence des R2)

H0: bk=0; H1: bkÖ0

- si une relation autre que linéaire (curvilinéaire, logarithmique,...) prédirait mieux qu'une relationlinéaire. ( en transformant les variables et en comparant les coefficients, les résidus, ...)

- si un ensemble de prédicteurs est meilleur qu'un autre (Setwise)

- pour prédire les valeurs de la V.D. dans un nouvel ensemble de données pour lesquelles seules lesV.I ont été mesurées.

- pour effectuer des analyses de cheminement de causalité (surtout effectués maintenant avec desprocédures permettant l'évaluation simultanée des équations i.e Lisrel, EQS).


2) Considérations pratiques (Tabachnik et Fidell, 1989, p. 128-133):

- nombre de cas par variable.

Il devrait y avoir au minimum:

Régression standard et hiérarchique: 20 cas par variable

Régression statistique: 40 cas par variable, ceci parce que ce type de régression fortementdépendante de l'échantillon est moins stable et donc plus difficilement généralisable à la population.

Plus l'effet est présumé faible, moins la distribution des variables est normale, moins la fidélité estbonne, plus il faut de cas par variable.

Par ailleurs, lorsque l'on a beaucoup de variables et que certaines combinaisons de ces variablespeuvent constituer une échelle, il devient d'autant plus judicieux de réduire le nombre de variablesdans l'équation par la création d'échelles dont la fidélité (comme nous le verrons ultérieurement) peutêtre mesurée.

- valeurs extrêmes (outliers)

Les valeurs extrêmes ont un impact très important sur les solutions (ensemble de coefficients). Il estd'autant plus important de les identifier et d'agir en conséquence (transformer la variable ou retirerles cas de l'analyse).

- Multicollinéarité et singularité

On dit qu'il y a un problème de singularité lorsqu'une variable donnée est l'exacte combinaison d'une ou de plusieurs autres variables.

Comme dans l'analyse de régression on cherche à ce que chaque variable apporte le plus de varianceunique possible, il devient évident qu'une variable indépendante pouvant être exactement prédite parles autres variables indépendantes ne nous intéresse pas, puisqu'elle n'ajoute rien à la prédiction. Siun tel cas se produit, il faut identifier la variable indépendante pouvant être prédite par les autresvariables indépendantes et la retirer de l'analyse (sur des bases théoriques, logiques et statistiques).


- Normalité, linéarité, homoscédasticité(homogénéité des variances), indépendance des résidus

Les postulats du modèle linéaire que nous avons déjà vus sont évidemment tout aussi importants enrégression multiple. Il est toutefois difficile sinon impossible d'examiner ces questions de façonmultivariée en examinant les distributions univariées et bi-variées. L'analyse des résidus nouspermettra d'évaluer si les postulats sont respectés.

3) Sommes des carrés, équations, test F, r2:

Il faut comprendre que la même équation de répartition de la somme des carrés (voir cours surl'analyse de variance) est valable pour la régression i.e.:

La somme des carrés totale (Somme des écarts de chaque valeur de Y à la moyenne de Y, Y&) égalela somme des carrés de la régression (Écarts de chaque valeur prédite à la moyenne de Y) additionnéeà la somme des carrés des résidus (Écarts de chaque valeur de Y à la valeur prédite par l'équation).

(Y-Y&)= (Y'-Y&)+(Y-Y') où Y' est la valeur prédite de Y

etSStotal= SSreg+SSres

De la même manière que pour l'analyse de variance, les degrés de liberté se répartissent en degrés deliberté expliqués par les V.I. (un degré de liberté pour chaque variable indépendante) et en degrésde libertés de l'erreur (N-k-1 où k est le nombre de V.I.)

DLtotal= DLreg+DLres

La variance est évidemment toujours égale à la somme des carrés divisée par les degrés de liberté.CM=SS/DL

Le test F que l'on retrouve généralement par défaut dans la présentation des résultats égale le rapportentre la variance due à la régression et la variance due à l'erreur...

F=CMreg/CMres

La valeur de R2 égale le rapport de la Somme des écarts à la moyenne au carré (somme des carrés)due à la régression sur la Somme des carrés totale. Cette valeur constitue un indice de la proportionde la variance totale expliquée par les variables qui sont dans l'équation.

r2=SSreg/SStotal


4) Les trois grands types d'analyse, utilité et conséquences:

a) L'analyse de régression standard

Dans ce que l'on appelle l'analyse de régression standard, toutes les variables indépendantes sontentrées en même temps dans l'analyse. Cette méthode nous permet- d'évaluer la variance expliquée par un ensemble de variables.- d'évaluer la contribution unique de chaque variable entre autres en comparant les coefficients decorrélation, de corrélation semi-partielle (part corr) et partielle (partial corr)- d'estimer la signification statistique de la contribution de chaque variable lorsque toutes les variablessont dans l'analyse.

b) L'analyse de régression hiérarchique

Ce type d'analyse permet de répondre aux questions concernant la contribution d'une variable ou d'unensemble de variables au-delà de la contribution des variables qui sont déjà dans l'équation.

Elle permet de répondre à des questions théoriques du type: Est-ce que l'âge explique lecomportement au-delà de l'ancienneté dans l'organisation; est-ce que les valeurs de travail expliquentau-delà de la contribution des variables socio-démographiques, etc...

L'analyse de régression hiérarchique est similaire à l'analyse de covariance et donnera les mêmesrésultats. On aura tendance à utiliser l'analyse de covariance lorsqu'il y a plusieurs (mais pas trop de)variables multi-nominales et lorsqu'il y a des possibilités connues ou théoriques d'effets d'interaction:il est plus facile d'analyser les effets d'interaction avec l'analyse de covariance et on n'a pas à créer desvariables dichotomiques avec les variables multi-nominales. Toutefois, l'analyse de covariance estmoins appropriée ou devient plus difficile à analyser lorsque les variables sont particulièrementnombreuses.

Ce qui nous intéresse le plus dans les résultats de l'analyse hiérarchique, c'est la différence de varianceexpliquée lorsque l'on entre de nouvelles variables ou des ensembles de variables. Il nous intéresseévidemment de savoir aussi si cet ajout est significatif, c'est-à-dire s'il est susceptible d'ajouter àl'explication du phénomène à l'étude dans la population.

Donc, avec l'analyse hiérarchique, on émet des hypothèses et on les vérifie.


c) L'analyse de régression statistique.

Ce type d'analyse est souvent utilisé à titre exploratoire et trop souvent à titre d'analyse finale etdéfinitive. Dans la régression statistique, c'est en fait le BETA qui détermine quelle variable serainclue dans l'analyse et quand elle sera inclue dans l'analyse. Il suffit donc d'une fraction dans lescalculs pour que, dans le cas où deux variables d'importance théorique et empirique équivalentereliées entre elles, une seule des deux soit inclue dans l'analyse. Il faut souligner que cette méthodeest intéressante à titre exploratoire et qu'elle donnera les mêmes résultats finaux que les autresméthodes lorsque les variables indépendantes sont peu reliées entre elles.

Ce type d'analyse étant fortement dépendant de l'échantillon, on demande un plus grand nombre decas par variable (normalement 40).

Ce que nous donne la régression statistique, c'est le meilleur ensemble de prédicteurs statistiquesparmi les V.I. considérées; c'est la prédiction maximale avec les V.I. que l'on a, mais non pas laprédiction optimale, particulièrement au plan théorique.


REMARQUES:

- Quelque soit la méthode utilisée, si on retrouve les mêmes prédicteurs dans l'équation finale,les coefficients de régression seront les mêmes. Ce qui distingue les méthodes, c'est l'ordre d'entréedes variables, l'identité des variables qui seront gardées dans l'équation de prédiction (particulièrementquand il y a multi-collinéarité) et le type de questions auxquelles elles permettent de répondre.

- Il faut se souvenir que l'équation de régression est constituée d'une addition. On postule donc queles effets sont additifs.

- Plus la combinaison de prédicteurs est bonne, moins il y aura de résidus et moins ceux-ci serontimportants. L'analyse des résidus est donc essentielle. Elle permet de vérifier la justesse de laprédiction, d'identifier les problèmes quant aux postulats de l'analyse (normalité, linéarité,homoscédasticité, absence d'auto-corrélation) et d'examiner les valeurs extrêmes (OUTLIERS).

Les informations qui nous intéresseront dans un "listing" seront donc:

- R multiple et R2

- Test F de signification de R2

- Coefficients de régression (b), Erreur-type des coefficients et coefficients standardisés (BETA)

- Test T de signification de B (=B/SE(B))

- Changement de R2 après ajout d'une variable -- régressions statistique ou hiérarchique -- ou deplusieurs variables (régression hiérarchique).

- Corrélations de départ entre les variables indépendantes et dépendante

- Corrélation semi-partielle et partielle (surtout régression standard)

- Patrons et graphiques des résidus.


5) La régression, la présentation et l'interprétation des informations

- Qu'est-ce que la corrélation multiple (R)?

La corrélation multiple est une indice standardisé, variant entre -1 et +1, de la force de la relationentre l'ensemble des variables indépendantes et la variable dépendante. C'est la corrélation entre lesvaleurs prédites et les valeurs réelles. La corrélation multiple s'interprète comme la corrélation simple:Plus la corrélation est élevée, plus la relation linéaire entre les variables indépendantes et la variabledépendante est élevée.

"Il existe une relation forte (r=.75) entre l'ensemble des variables indépendantes et la satisfactionen emploi".

- Qu'est-ce que la corrélation multiple au carré (R2)?

La corrélation multiple au carré est un indice de la part de variance de la variable dépendanteexpliquée par les variables indépendantes qui sont dans l'équation. Ainsi, on dira que les variablesentrées dans l'équation expliquent 25% de la variance de la variable dépendante.

"Le bloc des variables socio-démographiques explique 5% de la variance de la satisfaction enemploi".

Qu'est que l'ajout de corrélation multiple au carré (?R2)?

Ce qu'on appelle le changement de R2 indique la proportion de l'explication de la variance de lavariable dépendante ajoutée par la-les variables indépendantes qui sont entrées dans l'équation.

"Les valeurs de travail expliquent 10% de la variance de la satisfaction en emploi, au-delà del'explication fournie par le bloc des variables socio-démographiques (5%)".


Que signifie le test F?

La valeur du test F indique si la variance ou l'ajout de variance expliquée sont significatifs, c'est-à-diresi, quelque soit la force de la relation entre les variables indépendantes et la variable dépendante,cette relation est susceptible d'exister dans la population et n'est pas due simplement au hasard del'échantillonnage.

Au-delà de la prédiction déjà expliquée par le bloc des variables socio-démographiques, les valeursde travail ajoutent de façon significative à la prédiction de la satisfaction en emploi tel qu'entémoigne le test F (F(dlreg, dlres)= , p=.002).

"On peut rejeter l'hypothèse que la relation constatée dans l'échantillon est due au hasard"

- Qu'est-ce qu'un coefficient de régression?

Le coefficient de régression ordinaire (non standardisé) indique quelle est l'augmentation prévue dansla variable dépendante à chaque unité d'augmentation de la variable indépendante. Dans unerégression multiple, il s'agit de l'augmentation prévue toutes choses égales par ailleurs, c'est-à-direcomme si toutes les autres variables avaient une valeur fixe. Les coefficients des différentesvariables ne peuvent être comparés entre eux puisqu'ils sont dépendants de l'échelle de mesurede chaque variable.

Un coefficient de régression qui a une valeur de 2 veut dire que à chaque fois que la valeur de lavariable indépendante augmente de 1, la variable dépendante augmente de 2, toutes choses égales parailleurs..

Si la variable dépendante est la satisfaction (sur une échelle de 1 à 10) et la variable indépendante lesalaire (en milliers de dollars),

"Le coefficient de régression "b" de .5 signifie qu'à chaque tranche de 1,000$ d'augmentation dusalaire, la satisfaction prédite est de ½ point plus élevée; il faut donc 2,000$ de plus en salaire pourque la satisfaction prédite soit de 1 point plus élevée et 10,000$ pour qu'elle soit 5 points plusélevée."


- Qu'est-ce qu'un coefficient standardisé (Beta)?

Le coefficient standardisé permet de comparer la contribution de chaque variable puisqu'il s'agit ducoefficient de régression ramené sur une échelle standard (variant de -1 à +1).

"Le coefficient standardisé de .5 pour la variable mesurant l'importance accordée à la nature dutravail est le plus haut coefficient ce qui montre que cette variable est celle qui contribue le plus àla prédiction de la satisfaction en emploi."

Que signifient les tests T pour les coefficients?

Les valeurs des tests T pour les coefficients sont constituées par la division de la valeur du coefficientde régression "b" par son erreur-type. Cette valeur doit être plus grande que 2 (. 1.96 écart-type)pour être significative. Elle indique si chacun des coefficients des variables présentes dans l'équationsont significatifs, c'est-à-dire si, quelque soit l'importance de la contribution de chaque variable, cettecontribution est susceptible d'exister vraiment dans la population à laquelle on veut inférer lesrésultats. Il faut souligner que cette information est inscrite dans l'univers des variables présentes dansl'équation; la contribution d'une variable est considérée comme significative, compte tenu de laprésence des autres variables dans l'équation.

La valeur du test T pour le coefficient de régression de l'âge (T= "$2", p=.03) indique que lacontribution de cette variable à l'explication de la satisfaction en emploi est significative.

"On peut rejeter l'hypothèse que la relation constatée dans l'échantillon est due au hasard"

Que signifie la corrélation semi-partielle (Part corr) dans la régression standard?

La corrélation semi-partielle dans la régression standard représente la contribution unique d'unevariable à l'explication de la variable dépendante, compte tenu des autres variables présentes.

La corrélation semi-partielle (r=.02) entre l'âge et la satisfaction en emploi montre que l'explicationcontribuée par l'âge seul est peu importante. La corrélation relativement forte (r=.50) entre l'âgeet la satisfaction en emploi s'explique donc presque entièrement par les autres variables présentesdans l'équation, nommément l'ancienneté et le niveau de scolarité et surtout, les valeurs de travailainsi que la région de travail.


Qu'est-ce qu'un résidu? qu'est-ce que çà veut dire?

Le résidu, c'est l'écart entre chaque valeur de la variable dépendante et la valeur que l'on a préditeétant donné les valeurs des variables indépendantes. Plus cet écart est important, moins la prédictionest juste; lorsqu'un résidu est plus grand que 3.16, on dit qu'il s'écarte anormalement de la distributiondes résidus. Cette distribution devrait approcher celle de la distribution normale. Elle devrait aussiêtre la même quelque soient les valeurs des variables indépendantes ou dépendante.

"Trois résidus sont supérieurs à 3,16; un est très supérieur. En examinant ce cas de façon pluspoussée, il est apparu qu'il possédait des caractéristiques particulières.... Si le cas est retiré del'analyse, les valeurs des coefficients sont légèrement modifiées, surtout pour la variable X, et il n'ya plus de résidus plus grand que 3.16."

ou:"Un examen attentif des résidus montre que ceux-ci se distribuent normalement et qu'aucun résidune présente une valeur statistiquement trop élevée. Ceci amène à conclure que la prédiction estvalable et appropriée pour tous les patrons de réponse."

L'interprétation:

L'interprétation fait référence à la problématique de recherche, à la population, à la "vraie vie". Elleréfère aux hypothèses de départ et peut nous permettre de conclure sur des interventions à effectuerpour régler le problème qui était à la source de notre étude, les nouvelles recherches qu'il faudraiteffectuer pour améliorer la compréhension de la situation, les raisons qui peuvent expliquer que lesrésultats présentés sont différents de ceux présentés par d'autres chercheurs auparavant.

"Les résultats ont montré que les valeurs de travail sont des prédicteurs importants de la satisfactionen emploi et qu'en fait une bonne partie de l'explication généralement attribuée à l'âge et à lascolarité passe par une différentiation des valeurs de travail. Les valeurs de travail avaient étérarement étudiées par les chercheurs qui se sont penché sur la satisfaction en emploi. Notre étudedémontre la pertinence de faire intervenir ces valeurs dans l'explication.

Parmi les valeurs qui apparaissent expliquer de la façon la plus probante la satisfaction en emploi,l'importance accordée à la nature même du travail apparaît la plus importante. Ce résultatapparaît très important au vu d'un certain discours économiste qui prétend que la valorisation dusalaire et le salaire lui-même sont presque les facteurs explicatifs uniques de la satisfaction enemploi ...

Université de Montréal

département de sociologie

L'analyse de régression multiple

Annexe aux notes de cours :

De certaines procédures de SPSS

© Claire Durand, 1995


Cours sur la régression - De certaines procédures de SPSS

Certaines procédures de SPSS permettent de modifier les codes de valeurs attribuées aux réponses.Certaines procédures conviennent aux opérations simples (EXEMPLE: procédure RECODE);d'autres procédures permettent d'effectuer des transformations plus complexes et des transformationsconditionnelles. Ces procédures sont très utiles pour créer des échelles ou pour "dichotomiser desvariables multi-nominales".

COMPUTE: permet de créer une nouvelle variable et de lui donner une valeur; COMPUTEpermet aussi de modifier les valeurs d'une variable existante.

IF: permet d'effectuer les opérations conditionnelles.

Exemple concret: Dichotomisation de variables multi-nominales:

Variable AGE: 5 catégories:

code 1: moins de 25 anscode 2: 25-34 anscode 3: 35-44 anscode 4: 45-54 anscode 5: 55 ans et plus

Dans une équation de régression, je ne peux utiliser que des variables continues ou des variablesdichotomiques de type 0,1. Il devient donc nécessaire de créer, à partir de la variable multinominale,de nouvelles variables codées 0,1. Le code 0 représente l'absence de la caractéristique et le code 1,la présence de la caractéristique.

Noter: On ne peut créer qu'un nombre de variables égal au nombre de catégories moins une(k-1).


Ainsi, on créera 4 nouvelles variables à partir de la variable originale âge:

- AGE2: le fait d'avoir entre 25 et 34 ans ;- AGE3: le fait d'avoir entre 35 et 44 ans ;- AGE4: le fait d'avoir entre 45 et 54 ans ;- AGE5: le fait d'avoir plus de 55 ans ;

Chacune de ces variables prendra la valeur "0" lorsque l'individu n'a pas la caractéristique i.e.n'appartient pas au groupe d'âge déterminé ou la valeur "1" lorsque l'individu appartient au grouped'âge déterminé.

Il est possible de déduire que les personnes qui ont un code 0 pour chacune de ces quatre nouvellesvariables sont des jeunes de moins de 25 ans.

Comment créer les nouvelles variables:

1) Il faut d'abord initialiser les variables, c'est-à-dire donner la même valeur à tout le monde (sinonpar défaut SPSS déciderait que tout le monde a la valeur manquante (missing)). Pour ce faire onutilise la commande COMPUTE.

COMPUTE AGE2=0.COMPUTE AGE3=0.COMPUTE AGE4=0.COMPUTE AGE5=0.

2) Il faut attribuer les valeurs "1" pour chacune des variables créées selon les réponses à la variableAGE originale. Pour ce faire, on utilise le IF (dans le "tableau" du COMPUTE dans SPSS WIndows)

IF (AGE=2) AGE2=1.IF (AGE=3) AGE3=1.IF (AGE=4) AGE4=1.IF (AGE=5) AGE5=1.


Les commandes COMPUTE et IF servent de multiples usages.

Exemples de COMPUTE:

COMPUTE age=95-annais.

6 La nouvelle variable (que j'ai appelé "age") donne l'âge des personnes puisque l'âge est l'annéeactuelle (95) à laquelle on soustrait l'année de naissance (annais).

COMPUTE nouv1=(vieil1+vieil2+vieil3)/3.

6 La nouvelle variable (que j'ai appelé "nouv1") est constituée de la somme de trois variablespréexistantes (vieil1, vieil2 et vieil3), somme que l'on divise ensuite par le nombre de variables (3).La nouvelle variable est donc la moyenne des trois anciennes variables. Noter que l'addition doit êtreentre parenthèses si l'on veut que la somme soit divisée par 3 (et non pas seulement la dernièrevariable) à cause de la priorité d'opération.

COMPUTE nouv2= lg10(taille).

6 La nouvelle variable (nouv2) est constituée du logarithme en base 10 de la variable "taille".

COMPUTE vieil1=vieil1-22.

6 La variable vieil1 est modifiée; on soustrait 22 à la valeur de chaque cas.

- Les principaux opérateurs:

addition: +soustraction: -multiplication: *division: /

- Les principales fonctions:

racine carrée SQRTpuissance **log base 10: LG10log naturel: LN


Exemples de IF:

IF (vieil1=2) nouv1=1.6 Pour chaque cas où la variable "vieil1" égale 2, la variable nouv1 prendra la valeur 1.

IF (vieil1=2 or vieil2=1) nouv2=36 Pour chaque cas où la variable "vieil1" égale 2 ou que la variable vieil2 égale 1, la variable nouv2prendra la valeur 3.

IF (age lt 27) jeune=1.6 Pour chaque cas où la variable "age" prend une valeur inférieure à 27 (27 ans), la varaible jeuneprend la valeur 1 (présence de la caractéristique définie par la variable "jeune").

6principaux opérateurs:

égalité: EQ ou =non égalité: NE ou ~=moins que: LT ou <moins que ou égal: LE ou <=plus que GT ou >plus que ou égal GE ou >=

Il faut aussi retenir que l'on peut utiliser

et: AND ou &ou: OR ou |

Remarques relatives à la régression:

Note1: Suite à la création des variables dans le cas du processus de multidichotomisation, on entrerahabituellement ensemble toutes les nouvelles variables relatives à une même variable multinominaled'origine.

Note2: Comme les variables nominales doivent être codées (0,1) dans une régression, on recoderade la même manière les variables codées (1,2) comme le sexe, par exemple.

Note2: Lorsqu'une variable s'avère significativement reliée à la variable dépendante, l'interprétationque l'on fera est que la présence de la caractéristique explique telle proportion de la variance de laV.D. Par exemple, on dira que le fait d'être âgé de 35 à 44 ans est significativement relié à la V.D.et explique X% de la variance...REGRESSION: permet de demander la procédure régression


Commandes utiles pour la régression:

PLOT (dans SPSS PC ou Unix): permet de produire un graphique des relations entre deux variablescontinues et donne, sur demande, l'équation de la droite de régression.

PLOT/FORMAT REGRESSION /TITLE 'résultats vs pretest' /VERTICAL MIN (0) MAX (50) /HORIZONTAL MIN (0) MAX (30) /PLOT result with pretest /FORMAT REGRESSION /TITLE 'résultats vs moyenne au CEGEP' /VERTICAL MIN (0) MAX (50) /HORIZONTAL MIN (0) MAX (100) /PLOT result with restot.

6 On peut demander plusieurs graphiques dans la même commande.6 Pour chaque graphique, on peut demander un titre et définir le minimum et le maximum de chaqueaxe; on peut aussi déterminer la hauteur et la largeur et les symboles utilisés.6 Lorsque l'on indique FORMAT REGRESSION, on obtient l'équation de régression et les pointsoù la droite de régression "traverse" les axes.

Dans SPSS WINDOWS :

On utilise GRAPH, SCATTER.

Après avoir fait produire le graphique, on peut obtenir la droite de régression, demander le r2 etl'intervalle de confiance de la droite; on peut modifier les largeurs, mettre des titres, etc. On ne pourrapas toutefois obtenir l'équation de la droite de régression. Il faut pour cela demander la commandeREGRESSION.


Commandes de régression (SPSS PC et UNIX).

REGRESSION /VARIABLES result pretest restot grscol anglo latino arabe /STATISTICS DEFAULTS CHANGE ZPP COEFF OUTS HISTORY /dependent result/method enter /RESIDUALS DEFAULTS OUTLIERS /dependent result/method stepwise restot anglo latino arabe /RESIDUALS DEFAULTS OUTLIERS /SCATTERPLOT (*PRED *RESID) /dependent result /method enter restot/enter anglo latino arabe/enter pretest /RESIDUALS DEFAULTS OUTLIERS /SCATTERPLOT (*PRED *RESID).

Comme pour la procédure PLOT, on peut demander plusieurs analyses dans une même procédureà condition toutefois qu'elles portent sur les mêmes variables.6 /VARIABLES donne la liste des variables qui pourront être utilisées.6 /STATISTICS donne les statistiques par défaut qui seront requises pour toutes les analysessubséquentes6 /DEPENDENT donne le nom de la variable dépendante pour une équation donnée6 /METHOD indique le mode d'entrée requis pour l'équation ainsi que les variables qui seront entréesà chaque étape; par défaut toutes les variables apparaissant dans la liste du début (/VARIABLES)sont entrées sauf la variable désignée comme V.D.6 /RESIDUALS indique les informations requises sur les résidus6 /SCATTERPLOT permet de demander des graphiques des relations entres les variables préditesou réelles de même que les résidus.


Commandes de régression avec SPSS Windows;

On ne peut demander qu'une équation de régression à la fois, sinon il faut éditer la fenêtre de syntaxe:

Voilà de quoi auront l'air les commandes une fois toutes les options, statistiques, "plots", demandésou édités:

6Régression standard

REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA HISTORY ZPP /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT result /METHOD=ENTER pretest restot /SCATTERPLOT=(result ,*ZPRED ) (*ZPRED ,*ZRESID ) /RESIDUALS HIST(ZRESID) NORM(ZRESID) .

***Note: Lorsque l'on veut une régression standard, il faut éditer la commande pour rajouter"ZPP" dans la sous-procédure /STATISTICS , ce qui permet d'obtenir les corrélations semi-partielles..

6Régression hiérarchique

REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA HISTORY CHANGE /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT result /METHOD=ENTER restot /METHOD=ENTER pretest /SCATTERPLOT=(result ,*ZPRED ) (*ZPRED ,*ZRESID ) /RESIDUALS HIST(ZRESID) NORM(ZRESID) .

***Note: Lorsque l'on veut une régression hiérarchique, il faut éditer la commande pourrajouter "CHANGE" dans la sous-procédure /STATISTICS, ce qui permet d'obtenir lesinformations sur la variance expliquée en plus à chaque étape.


6Régression statistique (pas à pas):

REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA HISTORY CHANGE /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT result /METHOD=STEPWISE pretest restot /SCATTERPLOT=(result ,*ZPRED ) (*ZPRED ,*ZRESID ) /RESIDUALS HIST(ZRESID) NORM(ZRESID) .

***Note: Lorsque l'on veut une régression statistique, il faut éditer la commande pourrajouter "CHANGE" dans la sous-procédure /STATISTICS, ce qui permet d'obtenir lesinformations sur la variance expliquée en plus à chaque étape.

université de montréal département de sociologie · la corrélation est un indice de la force...

Documents