introduction à la régression pls - math.unice.frbinard/gdt_pls_seance1.pdf · c. méthode de...

44

Upload: dinhnhan

Post on 10-Sep-2018

246 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Introduction à la régression PLS

Carole BINARD

16 novembre 2012

Page 2: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

1

Page 3: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Sommaire

1 Présentation de méthodes de régression dans le cadre de données cor-rélées 51.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 MCO, méthodes pas à pas et RCP . . . . . . . . . . . . . . . . . . . . 5

1.2.1 Moindres Carrés Ordinaires . . . . . . . . . . . . . . . . . . . . 61.2.2 Les méthodes pas à pas . . . . . . . . . . . . . . . . . . . . . . . 6

a. Méthode ascendante (en anglais � forward selection �) . . . . 6b. Méthode descendante (en anglais � backward selection �) . . 7c. Méthode de régression pas à pas (en anglais � stepwise regres-

sion �) . . . . . . . . . . . . . . . . . . . . . . . . . . 7d. Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2.3 Regression sur Composantes Principales (RCP) . . . . . . . . . 81.3 Partial Least Squares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3.2 L'algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

a. Recherche de la première composante . . . . . . . . . . . . . 9b. Interprétations géométriques . . . . . . . . . . . . . . . . . . 11

• w(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11• t(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11• p(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11• c1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

c. Ecriture de l'algorithme . . . . . . . . . . . . . . . . . . . . . 12d. Interprétations géométriques . . . . . . . . . . . . . . . . . . 12

• Interprétation des coordonnées de w(h) . . . . . . . . . 12• Interprétation des coordonnées de t(h) . . . . . . . . . . 12• Interprétation des coordonnées de p(h) . . . . . . . . . . 13• Interprétation du scalaire ch . . . . . . . . . . . . . . . 13

e. Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3.3 Propriétés mathématiques des composantes PLS . . . . . . . . . 13

a. Preuve de 1.19 . . . . . . . . . . . . . . . . . . . . . . . . . . 14b. Preuve de 1.20 . . . . . . . . . . . . . . . . . . . . . . . . . . 14c. Preuve de 1.21 . . . . . . . . . . . . . . . . . . . . . . . . . . 14d. Preuve de 1.22 . . . . . . . . . . . . . . . . . . . . . . . . . . 15e. Preuve de 1.23 . . . . . . . . . . . . . . . . . . . . . . . . . . 15f. Preuve de 1.24 . . . . . . . . . . . . . . . . . . . . . . . . . . 15g. Preuve de 1.25 . . . . . . . . . . . . . . . . . . . . . . . . . . 15h. Preuve de 1.26 . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2

Page 4: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

1.3.4 Autres propriétés relatives à la régression PLS . . . . . . . . . . 16a. Simpli�cation de l'algorithme de régression PLS1 lorsqu'il n'y

a pas de données manquantes . . . . . . . . . . . . . . 16b. Construction des paramètres de la PLS par orthogonalisation

de Gram-Schmidt de suites de Krylov . . . . . . . . . 18c. Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.3.5 Formules de décomposition . . . . . . . . . . . . . . . . . . . . . 20a. X et y en fonction des nouvelles composantes . . . . . . . . . 20b. X[h] en fonction de X . . . . . . . . . . . . . . . . . . . . . . 21

• Preuve de 1.31 . . . . . . . . . . . . . . . . . . . . . . 21c. t[h] en fonction de X . . . . . . . . . . . . . . . . . . . . . . . 22d. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.3.6 Equation de régression PLS et estimation . . . . . . . . . . . . . 23a. Equation de régression PLS . . . . . . . . . . . . . . . . . . . 23b. Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2 Etude d'un exemple 272.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2 Traitement des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2.1 Estimation des paramètres par MCO . . . . . . . . . . . . . . . 282.2.2 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.2.3 Mise en évidence de corrélations entre variables . . . . . . . . . 29

a. Matrice des corrélations . . . . . . . . . . . . . . . . . . . . . 30b. Déterminant de X ′X . . . . . . . . . . . . . . . . . . . . . . 30c. Remarque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.3 Régression dans le cadre de données corrélées . . . . . . . . . . . . . . 302.3.1 Les méthodes pas à pas . . . . . . . . . . . . . . . . . . . . . . . 30

a. Application sur les données . . . . . . . . . . . . . . . . . . . 30b. Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.3.2 La RCP appliquée à nos données . . . . . . . . . . . . . . . . . 32a. L'algorithme utilisé . . . . . . . . . . . . . . . . . . . . . . . 32b. Nombre de composantes à retenir . . . . . . . . . . . . . . . . 32c. Application sur les données . . . . . . . . . . . . . . . . . . . 32

2.3.3 La PLS appliquée à nos données . . . . . . . . . . . . . . . . . . 34a. Nombre de composantes à retenir . . . . . . . . . . . . . . . . 34b. Application sur nos données . . . . . . . . . . . . . . . . . . . 35

2.3.4 Comparaison RCP vs régression PLS à partir des résidus . . . . 37

3 Conclusion et perspectives 383.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2 Pour aller plus loin... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.2.1 PLS : une famille de méthodes . . . . . . . . . . . . . . . . . . . 383.2.2 PLS : une approche algorithmique de la régression . . . . . . . . 39

A Suites de Krylov 40

3

Page 5: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

B Validation croisée 41B.1 Test et validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41B.2 k-fold cross-validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41B.3 leave-one-out cross-validation . . . . . . . . . . . . . . . . . . . . . . . 41

4 16 novembre 2012

Page 6: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Chapitre 1

Présentation de méthodes de

régression dans le cadre de données

corrélées

1.1 Introduction

Dans certains problèmes de régression linéaire ou de prédiction d'un phénomène,les variables explicatives peuvent être corrélées (voire fortement corrélées) entraînantparfois de la quasi colinéarité. Ce phénomène est souvent appelé multicolinéarité etproduit de très mauvais résultats concernant les coe�cients de régression estimés parMoindres Carrés Ordinaires (MCO) ou pour les prédictions basées sur ces estimations.Beaucoup de méthodes ont alors été développées pour pallier à ce problème telles quela Régression sur Composantes Principales (RCP) et la régression PLS (Partial LeastSquares regression).

1.2 MCO, méthodes pas à pas et RCP

Le modèle de régression utilisé pour les méthodes est dé�ni par l'équation :

y = β0 +Xβ + ε (1.1)

où,y est un vecteur à n observations,β0 est une constante inconnue,X est une matrice n × p contenant n observations et p variables,β est un vecteur à p coe�cients inconnus,ε est un vecteur à n coordonnées. C'est le vecteurs d'erreur i.i.d de moyenne nulle et devariance σ2.

Si les variables contenues dans X et le vecteur y sont centrées, l'équation 1.1 peutêtre simpli�ée comme suit :

y = Xβ + ε (1.2)

5

Page 7: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

1.2.1 Moindres Carrés Ordinaires

Quand la matrice X est de rang p, l'estimateur par les MCO βMCO est obtenu parminimisation de la somme des carrés des résidus :

βMCO = argminβ

(‖y −Xβ‖2

)(1.3)

On cherche donc à minimiser la quantité :

ε′ε =(y −Xβ

)′ (y −Xβ

)(1.4)

Ce qui donne :βMCO = (X ′X)

−1X ′y (1.5)

où βMCO est un vecteur p × 1 de paramètres estimés. C'est un estimateur sans biaisde β, de variance minimale.

Quand les variables explicatives sont fortement corrélées entre elles, X ′X est dite malconditionnée et la variance de l'estimateur des MCO devient grande.Avec une multico-linéarité, les coe�cients estimés par MCO peuvent devenir statistiquement insigni�ant(trop grand, trop petit voire de signe contraire) même si le coe�cient de détermination(R2) est grand. C'est pourquoi un certain nombre de méthodes ont été developpéesa�n de proposer des estimations tout en combattant la multicolinéarité des variablesdu modèle.

1.2.2 Les méthodes pas à pas

Lorsqu'un modèle de régression multiple contient un nombre important de variablesexplicatives fortement corrélées entre elles, il est intéressant d'examiner si un sous-ensemble de ces variables permettrait d'obtenir un modèle meilleur que le modèle global.

a. Méthode ascendante (en anglais � forward selection �)

La méthode de régression ascendante consiste à inclure une à une les variablesexplicatives du modèle global dans un nouveau modèle. Elle se décompose en plusieursétapes.La première étape consiste à sélectionner la variable explicative présentant la corrélationla plus élevée de toutes avec la variables à expliquer. Une fois la variable sélectionnée,il est nécessaire d'étudier la signi�cativité de son coe�cient. S'il s'avère qu'il n'est passigni�cativement di�érent de 0, la variable ne sera pas retenue pour faire partie dunouveau modèle. Il s'agit ensuite de réitérer ce processus sans omettre de tester lasigni�cativité du coe�cient relatif à la variable étudiée.Le problème est que l'on ne soucie pas de savoir si les variables incluses aux étapesprécédentes sont toujours aussi pertinentes dans l'explication de y malgré l'ajout d'unenouvelle variable.

6 16 novembre 2012

Page 8: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

b. Méthode descendante (en anglais � backward selection �)

La procédure démarre en estimant les paramètres du modèle complet incluant toutesles variables explicatives. A chaque étape, on choisit la variable dont le test de Student(H0 :αj = 0) est le moins signi�catif (p-value la plus grande), on la supprime et onréestime le modèle. Lors du passage du modèle complet Mp (non contraint) au modèlecontraint Mq, on subit une perte. Il s'agit donc de tester si cette perte est signi�cativeou pas. Pour cela on utilise la statistique de Fisher construite à partir des E.A.V asso-ciées à chaque modèle :Modèle Mp :SCT = SCEp + SCRp

Modèle Mq :SCT = SCEq + SCRq

Le test associé : {H0 : SCEp − SCEq = 0H1 : SCEp − SCEq 6= 0

On peut construire la statistique de test suivante :

F =R2p−R2

q(p−q)

[1−R2p]

(n−p−1)

avec :p :nombre de variables du modèle non contraintq :nombre de variables du contraintn :le nombre d'observations

On rejette l'hypothèse H0 au risque α si la statistique de test dépasse un certain seuilfα, tel que :

fα = F1−α[p− q, n− p− 1]

c. Méthode de régression pas à pas (en anglais � stepwise regression �)

Il s'agit d'une amélioration de la méthode ascendante. A chaque étape de la pro-cédure, on examine à la fois si une nouvelle variable doit être ajoutée selon un seuild'entrée �xé, et si une des variables déjà incluses doit être éliminée selon un seuil de sor-tie �xé. Cette méthode permet de retirer du modèle d'éventuelles variables qui seraientdevenues moins indispensables du fait de la présence de celles nouvellement introduites.La procédure s'arrête lorsqu'aucune variable ne peut être rajoutée ou retirée du modèleselon les critères choisis.

d. Remarques

Il est important de noter que ces méthodes peuvent ne pas conduire au même choixde variables explicatives à retenir dans le modèle �nal.Nous verrons, dans le chapitre 2 (Etude d'un exemple), que ces méthodes fournissentdes résultats di�cilement acceptables pour les praticiens. En e�et, nous verrons que lesvariables les plus corrélées avec la variable réponse n'interviennent pas forcément dansle modèle issu de la sélection.

7 16 novembre 2012

Page 9: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

Comment alors construire un modèle comportant toutes les variables indépendantesdans le cas de données corrélées ?

1.2.3 Regression sur Composantes Principales (RCP)

La RCP est un moyen de traiter du problème de matrices mal conditionnées. L'ob-jectif est d'obtenir un certain nombre de composantes captant le maximum de variationrelative aux variables de la matrice X tout en assurant au modèle une certaine qualitéde prédiction. La RCP peut en fait être considérée comme une méthode de régressionlinéaire dans laquelle la variable réponse est régressée sur de nouvelles composantes.

On considère la matrice X centrée (ou centrée-réduite), et

X ′Xγ(i) = λiγ(i) , i = 1, 2, . . . , p (1.6)

où les λi sont les valeurs propres de la matrices des covariances (ou des corrélations)X ′Xet les γ(i) sont les vecteurs propres associés. Le vecteur γ(i) est utilisé pour construirela ieme composante principale de la forme :

C(i) = γ(i)1 X(1) + γ

(i)2 X(2) + . . .+ γ(i)

p X(p) (1.7)

Les composantes C(i) sont orthogonales 2 à 2 et combinaison linéaire des variablesinitiales (elles sont appelées variables latentes). De la sorte, tous les prédicteurs sontgardés car y est combinaison linéaire des composantes principales.

Mais est-ce que ces composantes sont les meilleures pour établir la prédiction de yétant donné qu'elles ne font qu'extraire le maximum de variance des prédicteurs sanstenir compte de y ?

1.3 Partial Least Squares

La régression PLS est une méthode itérative développée par Herman Wold dans lesannées 60 et permet la construction de modèles prédictifs quand les variables sont nom-breuses et fortement corrélées entre elles. Cette méthode peut également être utiliséequand le nombre de variables dépasse celui des observations.

1.3.1 Présentation

Pour régresser une variable y (centrée) sur p variables explicatives(X(1), X(2), . . . , X(p)

)(centrées), la méthode PLS propose de trouver de nouveaux facteurs qui joueront lemême rôle que les variables explicatives initiales. Ces nouveaux facteurs sont appelésvariables latentes ou composantes. Chaque composante est une combinaison linéairedes variables X(1), X(2), . . . , X(p). Beaucoup de similarités sont donc à noter entre larégression PLS et la RCP.Dans les deux méthodes l'objectif est de construire de nouvelles variables qui soientcombinaison linéaire des variables initiales sur lesquelles la variable réponse est régres-sée. Par contre, la principale di�érence entre les deux méthodes réside dans le fait que

8 16 novembre 2012

Page 10: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

la RCP utilise uniquement les corrélations entre les variables exogènes alors que la PLSutilise non seulement ces mêmes corrélations mais également celles entre X et y pourconstruire les nouveaux facteurs qui joueront le rôle de variables explicatives.La matrice X justi�era alors d' une décomposition bilinéaire de la forme suivante :

X = t(1)p′(1) + t(2)p′(2) + . . .+ t(p)p′(p) =

p∑j=1

t(j)p′(j) = TP ′ (1.8)

où :- les t(j) sont des combinaisons linéaires des variables explicatives initiales, que nousécrirons Xw(j), - les vecteurs p(j) de taille p×1 sont appelés les poids (dans la littéra-ture on parle de loadings). 1

Notons que cette expression fournit une décomposition de X similaire à la décomposi-tion obtenue en Composantes Principales ( 1.7). La di�érence entre les deux est mieuxcomprise compte tenu des critères de maximisation que les deux méthodes doiventrésoudre. En régression PLS, le critère d'optimisation est donné par :

argmaxwk,qk

{cov(X[k−1]wk, y[k−1]qk

)}sous les contraintes :w′kwk = q′kqk = 1 et cov

(X[k−1]wk, X[k′−1]wk′

)= 0, k 6= k′. 2

1.3.2 L'algorithme

On souhaite construire des composantes qui puissent à la fois se rapprocher des com-posantes issues de la RCP (combinaison linéaire des variables explicatives dé�nissant unespace dans lequel le nuage des individus initial est le moins déformé possible) et s'endéfaire a�n d'améliorer la prédiction de la variable réponse (en prenant en considérationle lien entre y et les X(j)).

a. Recherche de la première composante

A la �n des années 80 Hoskuldsson et Manne ont démontré que la première com-posante PLS, t(1) = Xw(1) est obtenue en maximisant le critère de Tucker de l'analysefactorielle inter-batterie :

cov2(y,Xw(1)) = r2(y;Xw(1))V ar(Xw(1))V ar(y) (1.9)

sous la contrainte : ||w(1)|| = 1

On essaie ainsi de maximiser simultanément la variance expliquée par t(1) et la cor-rélation entre t(1) et y. On cherche donc un vecteur w(1) normé maximisant :

< t(1), y >=< Xw(1), y >= ||Xw(1)||.||y||.cor(Xw(1), y) (1.10)

1. Plusieurs propriétés relatives aux composantes construites au cours de l'algorithme seront pré-sentées en 1.3.3.

2. Alors que le criètre de maximisation de la RCP est : argmaxwk

{var (Xwk)} sous les contraintes :

w′kwk = 1 et cov (Xwk, Xwk′) = 0, k 6= k′

9 16 novembre 2012

Page 11: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

Pour obtenir l'expression de w(1), on résoud le problème d'optimisation sous contrainte1.10 en utilisant la méthode des multiplicateurs de Lagrange :

L(w(1), λ) = cov(y,Xw(1))− λ(w′(1)w(1) − 1) = w′(1)X ′y − λ(w′(1)w(1) − 1) (1.11)

avec λ ∈ R+ .On annule les dérivées partielles :

∂L∂λ

= −(w′(1)w(1) − 1) = 0 (1.12)

∂L∂w(1)

= X ′y − 2λw(1) = 0 (1.13)

Soit encore :

w′(1)w(1) = 1 (1.14)

X ′y = 2λw(1) (1.15)

En multipliant 1.15 par w′(1) on a :

w′(1)X ′y = 2λ (1.16)

(car w′(1)2λw(1) = 2λw′(1)w(1) = 2λ)

Soit θ ∈ R tel que :

θ = 2λ = w′(1)X ′y =< t(1), y >= y′Xw(1) par symetrie (1.17)

Comme X ′y = 2λw(1) = θw(1) on a par 1.17 :

(X ′y)y′Xw(1) = (θw(1))θ = θ2w(1) (1.18)

Par conséquent, w(1) est vecteur propre de la matrice X ′yy′X associé à la valeur propreθ2.Et la maximisation de < Xw(1), y > revient à considérer θ2 comme étant la plus grandedes valeurs propres de la matrice X ′yy′X. 3

On peut donc en déduire une expression de w(1) et de la valeur propre associée.Par ce qui précède, on peut écrire : X ′yy′Xw(1) = λ1w

(1).Or

λ1 =< Xw(1), y >2

= (w′(1)X ′y)′(w′(1)X ′y)

= y′Xw(1)w′(1)X ′y

= y′XX ′y

3. cela a été souligné dans [3]

10 16 novembre 2012

Page 12: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

Ainsi :X ′yy′Xw(1) = (X ′y)y′X(w(1))

= λ1w(1)

= y′XX ′yw(1)

= w(1)y′XX ′y (car y′XX ′y ∈ R)

= (w(1))y′X(X ′y)

⇒ w(1) = X ′y

Et comme w(1) doit être de norme 1 on a : w(1) = X′y‖X′y‖

A�n de savoir si la première composante t(1) = Xw(1) explique su�samment l'ensembledes variables explicatives et la variable endogène y, nous e�ectuons deux régressions :une de X sur t(1) puis une de y sur t(1).On a :

X = X[0] = t(1)p′(1) +X[1]

y = y[0] = c1t(1) + y[1]

où : p(1) =X′

[0]t(1)

t′(1)t(1)

(coe�cient de régression linéaire multiple classique) et c1 =y′[0]t(1)

t′(1)t(1)

b. Interprétations géométriques

• w(1) est un vecteur de Rp. Chacune de ses coordonnées s'écrit :

w(1)j =

cov(X(j), y

)√∑pj=1 cov

2 (X(j), y)

De la sorte w(1)j représente la pente de la droite des moindres carrés, passant par l'origine,

du nuage de points(yi, X

(j)i

).

• t(1) est un vecteur de Rn. Chacune de ses coordonnées s'écrit :

t(1)i =

∑pj=1w

(1)j X

(j)i∑p

j=1

(w

(1)j

)2

où w′(1)j =

w(1)j√∑p

j=1

(w

(1)j

)2De la sorte, t

(1)i représente la pente de la droite des moindres carrés, passant par l'origine,

du nuage de points(w

(1)j , X

(j)i

).

• p(1) est un vecteur de Rp. Chacune de ses coordonnées p(1)j représente le coe�cient

de régression de t(1) dans la régression de la jieme colonne de X[0] sur la composantet(1).

11 16 novembre 2012

Page 13: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

• c1 est un scalaire de R. Il représente le coe�cient de régression de t(1) dans la ré-gression de la variable y[0] sur la variable t(1).

On réitère les étapes précédentes mais sur les X et y dé�atés.

Dé�nition 1. On appelle dé�ation de X l'extraction des résidus suite à la régressionde X sur t(1).On appelle dé�ation de y l'extraction des résidus suite à la régression de y sur t(1).

On construit donc les résidus (X[1] et y[1]) de chacune de nos régressions a�n deréitérer les étapes décrites précédemment :

X[1] = X[0] − t(1)p′(1)

y[1] = y[0] − c1t(1)

c. Ecriture de l'algorithme

A�n de construire toutes les composantes via la méthode PLS, on passe par l'algo-rithme itératif suivant : Etape 0 : X[0] = X ; y[0] = y

Etape 1 : Pour h = 1, ..., p :

Etape 1.1 : w(h) =X′

[h−1]y[h−1]

||X′[h−1]

y[h−1]||

Etape 1.2 : on construit t(h) : t(h) =X[h−1]w

(h)

w′(h)w(h)

Etape 1.3 : p(h) =X′

[h−1]t(h)

t′(h)t(h)

Etape 1.4 :ch =y′[h−1]

t(h)

t′(h)t(h)

Etape 1.5 :X[h] = X[h−1] − t(h)p′(h)

Etape 1.6 :y[h] = y[h−1] − cht(h)

où :y[h−1] : résidus issus de la régression de y[h−2] sur t

(h−1)

X[h−1] : résidus issus de la régression de X[h−2] sur t(h−1)

d. Interprétations géométriques

• Interprétation des coordonnées de w(h)

pour h = 1, . . . , p

w(h) =X′

[h−1]y[h−1]

||X′[h−1]

y[h−1]||

où w(h)j est la coordonnée j du vecteur w(h) représentant le coe�cient de régression de

y[h−1] dans la régression de la jieme colonne de la matrice x[h−1] sur la variable y[h−1]

• Interprétation des coordonnées de t(h)

pour h = 1, . . . , p

t(h) =X[h−1]w

(h)

w′(h)w(h)

12 16 novembre 2012

Page 14: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

où t(h)i est la coordonnée i du vecteur t(h) représentant le coe�cient de régression de w(h)

dans la régression sans constante de la variable dé�nie par la iieme ligne de la matriceX[h−1] sur la variable w(h).

• Interprétation des coordonnées de p(h)

pour h = 1, . . . , p

p(h) =X′

[h−1]t(h)

t′(h)t(h)

où p(h)j est la coordonnée j du vecteur p(h) représentant le coe�cient de régression de

t(h) dans la régression de la jieme colonne de la matrice X[h−1] sur la composante t(h)

• Interprétation du scalaire ch

pour h = 1, . . . , p

ch =y′[h−1]

t(h)

t′(h)t(h)

C'est le coe�cient de régression de t(h) dans la régression de la variable y[h−1] sur lavariable t(h)

e. Remarques

A chaque étape h, la régression PLS maximise la variance des � prédicteurs �(X

(j)[h−1]

)et maximise la corrélation entre X[h−1] et la � variable à expliquer �y[h−1]. Donc, contrai-rement à la méthode des moindres carrés où la détermination de paramètres optimauxse ramène à la résolution d'un système d'équations linéaires, la régression PLS justi�ede problèmes d'optimisation dépendant d'itérations successives.L'algorithme est ici construit sous l'hypothèse qu'il n'y a pas de données manquantes.Il existe pourtant une version qui s'adapte au cas de données manquantes mais nousn'en ferons pas référence ici. 4

1.3.3 Propriétés mathématiques des composantes PLS

Nous allons présenter dans cette section les propriétés des composantes PLS construitesà partir de l'algorithme précédent.

t′(h)X[h] = 0 (1.19)

t′(h)y[h] = 0 (1.20)

t′(h)t(l) = 0, l > h (1.21)

w′(h)p(h) = 1 (1.22)

w′(h)X ′[l] = 0, l ≥ h (1.23)

w′(h)p(l) = 0, l > h (1.24)

w′(h)w(l) = 0, l > h (1.25)

t′(h)X[l] = 0, l ≥ h (1.26)

4. on invite le lecteur à se référer à [20] p.76-77 pour de plus amples informations

13 16 novembre 2012

Page 15: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

a. Preuve de 1.19

Par dé�ition, X[h] est le résidu de la régression de X[h−1] sur t(h). Ainsi X[h] est

orthogonal à t(h).

b. Preuve de 1.20

Par dé�nition, y[h] est lé résidu de la régression de y[h−1] sur t(h). Ainsi y[h] est

orthogonal à t(h).

c. Preuve de 1.21

On procède par récurrence.cas initial :

t′(1)t(2) = t′(1)(X[1]w(1))

= 0 (par 1.19)

hypothèse de récurrence :

On suppose la propriété d'orthogonalité vraie jusqu'à l'itération h : t(1), t(2), . . . , t(h) or-thogonaux deux à deux. Montrons alors que cette propriété est vraie jusqu'à l'itérationh+1 :

t′(h)t(h+1) = t′(h)(X[h]w(h+1))

= 0 (par 1.19)

t′(h−1)t(h+1) = t′(h−1)(X[h]w(h+1))

= t′(h−1)(X[h−1] − t(h)p′(h))w(h+1)

= (t′(h−1)X[h−1]︸ ︷︷ ︸=0

− t′(h−1)t(h)︸ ︷︷ ︸=0 par HR

p′(h))w(h+1) = 0

t′(h−2)t(h+1) = t′(h−2)(X[h]w(h+1))

= t′(h−2)(X[h−1] − t(h)p′(h))w(h+1)

= t′(h−2)(X[h−2] − t(h−1)p′(h−1) − t(h)p′(h))w(h+1)

= (t′(h−2)X[h−2] − t′(h−2)t(h−1)p′(h−1) − t′(h−2)t(h)p′(h))w(h+1)

= (t′(h−2)X[h−2]︸ ︷︷ ︸=0

− t′(h−2)t(h−1)︸ ︷︷ ︸=0 par HR

p′(h−1) − t′(h−2)t(h)︸ ︷︷ ︸=0 par HR

p′(h))w(h+1) = 0

Et ainsi de suite, d'où le résultat.

14 16 novembre 2012

Page 16: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

d. Preuve de 1.22

w′(h)p(h) = w′(h)X ′[h−1]t

(h)

t′(h)t(h)

=(w′(h)X ′[h−1])t

(h)

t′(h)t(h)

=(t′(h))t(h)

t′(h)t(h)= 1

e. Preuve de 1.23

Prouvons w′(h)X ′[l] = 0 pour l > h.

Pour l=h

w′(h)X ′[h] = w′(h)(X[h−1] − t(h)p′(h))′

= w′(h)X ′[h−1] − w′(h)p(h)t′(h)

= t′(h) − 1.t′(h) (d′apres 1.22)

= 0

Pour l>hMontrons que w′(h)X ′[l] = 0, pour un indice l > h, implique w′(h)X ′[l+1] = 0

w′(h)X ′[l+1] = w′(h)(X[l] − t(l+1)p′(l+1))′

= w′(h)X ′[l] − w′(h)p(l+1)t′(l+1)

= w′(h)X ′[l]︸ ︷︷ ︸=0

=0︷ ︸︸ ︷w′(h)X ′[l] t

(l+1)

t′(l+1)t(l+1)= 0

f. Preuve de 1.24

w′(h)w(l) = w′(h)X ′[l−1]y[l−1] = 0 si l − 1 > h⇔ l > h (d'après 1.23)

g. Preuve de 1.25

w′(h)p(l) = w′(h)

(X′

[l−1]t(l)

t′(l)t(l)

)= 0 si l − 1 > h⇔ l > h (d'après 1.23)

h. Preuve de 1.26

Prouvons t′(h)X[l] = 0, l > h.

Pour l=h

15 16 novembre 2012

Page 17: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

t′(h)X[h] = t′(h)(X[h−1] − t(h)p′(h)

)= t′(h)X[h−1] − t′(h)t(h)p′(h)

= t′(h)X[h−1] − t′(h)t(h) t′(h)X[h−1]

t′(h)t(h)= 0

Pour l>h

t′(h)X[l] = t′(h)(X[l−1] − t(l)p′(l)

)= t′(h)X[l−1] − t′(h)t(l)︸ ︷︷ ︸

=0 par 1.21

p′(l)

= t′(h)(X[l−2] − t(l−1)p′(l−1)

)= t′(h)X[l−2] − t′(h)t(l−1)︸ ︷︷ ︸

=0 par 1.21

p′(l−1)

...

= t′(h)X[h] = 0 (pour le cas l = h)

1.3.4 Autres propriétés relatives à la régression PLS

a. Simpli�cation de l'algorithme de régression PLS1 lorsqu'il n'y a pas dedonnées manquantes

On va montrer ici que le calcul de y[h] à chaque étape h n'est pas nécessaire.En e�et, à l'étape 1.1 de l'algorithme PLS1 (pour la calcul de w[h]), intervient le termeX ′[h−1]y[h−1]. Or :

X ′[h−1]y[h−1] = X ′[h−1]

(y[h−2] − ch−1t

(h−1))

= X ′[h−1]

(y[h−3] − ch−2t

(h−2) − ch−1t(h−1)

)...

= X ′[h−1]

(y − c1t

(1) − . . .− c[h−1]t(h−1)

)= X ′[h−1]y −X ′[h−1]c1t

(1)︸ ︷︷ ︸=0

− . . .−X ′[h−1]c[h−1]t(h−1)︸ ︷︷ ︸

=0

(par 1.26)

= X ′[h−1]y

Ainsi, à l'étape 1.1, w(h) s'écrit : w(h) =X′

[h−1]y

‖X′[h−1]

y‖

A l'étape 1.4, le calcul de y[h] est également inutile en absence de données manquantes

16 16 novembre 2012

Page 18: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

car :y′[h−1]t

(h) =(y[h−2] − ch−1t

(h−1))′t(h)

=(y[h−3] − ch−2t

(h−2) − ch−1t(h−1)

)′t(h)

...

=(y − c1t

(1) − . . .− ch−1t(h−1)

)′t(h)

= y′t(h) − c1 t′(1)t(h)︸ ︷︷ ︸

=0

− . . .− ch−1 t′(h−1)t(h)︸ ︷︷ ︸

=0

(par 1.21)

= y′t(h)

Et donc le calcul de ch devient :ch = y′t(h)

t′(h)t(h)

Grâce à la même propriété d'orthogonalité entre les composantes ( 1.21), on peut sim-pli�er le calcul de p(h) en absence de données manquantes. En e�et :

X ′[h−1]t(h) =

(X[h−2] − t(h−1)p′(h−1)

)′t(h)

=(X[h−3] − t(h−2)p′(h−2) − t(h−1)p′(h−1)

)′t(h)

...

=(X − t(1)p′(1) − . . .− t(h−1)p′(h−1)

)′t(h)

= X ′t(h) − p(1) t′(1)t(h)︸ ︷︷ ︸=0

− . . .− p(h−1) t′(h−1)t(h)︸ ︷︷ ︸=0

(par 1.21)

= X ′t(h)

Et p(h) s'écrit : p(h) = X′t(h)

t′(h)t(h)

Etapes Algorithme PLS1 avant simpli�cation Algorithme PLS1 après simpli�cationEtape 0 X[0] = X X[0] = X

y[0] = yEtape 1 pour h = 1, . . . , p pour h = 1, . . . , p

Etape 1.1 w(h) =X′

[h−1]y[h−1]

‖X′[h−1]

y[h−1]‖w(h) =

X′[h−1]

y

‖X′[h−1]

y‖

Etape 1.2 t(h) =X[h−1]w

(h)

w′(h)w(h) t(h) =X[h−1]w

(h)

w′(h)w(h)

Etape 1.3 p(h) =X′

[h−1]t(h)

t′(h)t(h)p(h) = X′t(h)

t′(h)t(h)

Etape 1.4 ch =y′[h−1]

t(h)

t′(h)t(h)ch = y′t(h)

t′(h)t(h)

Etape 1.5 X[h] = X[h−1] − t(h)p′(h) X[h] = X[h−1] − t(h)p′(h)

y[h] = y[h−1] − cht(h)

Table 1.1 � Mises en évidence des simpli�cations apportées à l'algorithme PLS1

17 16 novembre 2012

Page 19: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

b. Construction des paramètres de la PLS par orthogonalisation de Gram-Schmidt de suites de Krylov

Soient les hypothèses suivantes :- w(h) = X ′[h−1]y

- w(h) = w(h)

‖w(h)‖- les w(h) sont orthogonaux 2 à 2- les w(h) sont orthognaux 2 à 2-{w(1), w(2), . . . , w(h)

}engendre le même espace que la suite de Krylov

{s, Cs, . . . , Ch−1s

}(avec s = X ′y et C = X ′X)-{w(1), w(2), . . . , w(h)

}engendre le même espace que la suite de Krylov

{s, Cs, . . . , Ch−1s

}(avec s = X ′y et C = X ′X)-{p(1), p(2), . . . , p(h)

}engendre le même espace que la suite de Krylov

{Cs,C2s, . . . , Chs

}(avec s = X ′y et C = X ′X)-{t(1), t(2), . . . , t(h)

}engendre le même espace que la suite de Krylov

{t,Dt, . . . , Dh−1t

}(avec t = Xs et D = XX ′)

Alors :

• La suite{w(1), w(2), . . . , w(h)

}est obtenue par orthogonalisation de Gram-

Schmidt sur la suite de Krylov{s, Cs, . . . , Ch−1s

}:

Pour h=1 :

w(1) = X ′[0]y = X ′y = s⇒ w(1) = w(1)

‖w(1)‖ = X′y‖X′y‖ = s

‖s‖

Pour h>1 : On sait que w(h) appartient à l'espace engendré par{w(1), w(2), . . . , w(h)

}≈{

s, Cs, . . . , Ch−1s}(par hypothèse). On a donc une écriture de w(h) en fonction des

éléments de{s, Cs, . . . , Ch−1s

}:

w(h) =h−2∑i=0

αiCis+ αh−1C

h−1s (1.27)

Or par hypothèse w′(l)w(h) = 0, l < h.

Donc w(h) est orthogonal aux éléments de{w(1), w(2), . . . , w(h−1)

}et aussi aux éléments

de{s, Cs, . . . , Ch−2s

}.

Soit Π{s,Cs,...,Ch−2s} la projection orthognale sur l'espace{s, Cs, . . . , Ch−2s

}. Alors :

Π{s,Cs,...,Ch−2s}w(h) = Π{s,Cs,...,Ch−2s}

(h−2∑i=0

αiCis+ αh−1C

h−1s

)

⇒ 0 =h−2∑i=0

αiCis+ Π{s,Cs,...,Ch−2s}

(αh−1C

h−1s)

⇒h−2∑i=0

αiCis = −Π{s,Cs,...,Ch−2s}

(αh−1C

h−1s)

18 16 novembre 2012

Page 20: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

D'où :w(h) = αh−1C

h−1s− Π{s,Cs,...,Ch−2s}(αh−1C

h−1s)

Et donc :

w(h) =w(h)

‖w(h)‖(1.28)

correspond à l'orthogonalisation de Gram-Schmidt de l'élément Ch−1s de la suite{s, Cs, . . . , Ch−1s

}.

• La suite{t(1), t(2), . . . , t(h)

},aux éléments normés à 1, est obtenue par or-

thogonalisation de Gram-Schmidt sur la suite de Krylov{t,Dt, . . . , Dh−1t

}.

Pour h=1 :t(1) = Xw(1)

Par ce qui précède : t(1) = X w(1)

‖w(1)‖ = X X′y‖X′y‖ qui est proportionnel à t = XX ′y.

Pour h>1 : On sait que t(h) appartient à l'espace engendré par{t(1), t(2), . . . , t(h)

}qui,

par hypothèse :{t(1), t(2), . . . , t(h)

}≈{t,Dt, . . . , Dh−1t

}. On peut donc écrire t(h)

comme suit :

t(h) =h−2∑i=0

βiDit+ βh−1D

h−1t

Par 1.21, on sait que t(h) est orthogonal aux éléments de{t(1), t(2), . . . , t(h−1)

}et donc

également orthogonal aux éléments de{t,Dt, . . . , Dh−2t

}. Soit Π{t,Dt,...,Dh−2t} la pro-

jection orthogonale sur l'espace{t,Dt, . . . , Dh−2t

}. On a alors :

Π{t,Dt,...,Dh−2t}(t(h))

= Π{t,Dt,...,Dh−2t}

(h−2∑i=0

βiDit+ βh−1D

h−1t

)

⇒ 0 =h−2∑i=0

βiDit+ Π{t,Dt,...,Dh−2t}

(βh−1D

h−1t)

⇒h−2∑i=0

βiDit = −Π{t,Dt,...,Dh−2t}

(βh−1D

h−1t)

D'où :t(h) = βh−1D

h−1t− Π{t,Dt,...,Dh−2t}(βh−1D

h−1t)

Et donc :

t(h)

‖t(h)‖=

βh−1Dh−1t− Π{t,Dt,...,Dh−2t}

(βh−1D

h−1t)

‖βh−1Dh−1t− Π{t,Dt,...,Dh−2t} (βh−1Dh−1t) ‖

qui correspond à l'orthogonalisation de Gram-Schmidt de l'élément Dh−1t de la suitede Krylov

{t,Dt, . . . , Dh−1t

}Proposition 1. Soient Wh =

[w(1), . . . , w(h)

]et Ph =

[p(1), . . . , p(h)

]. Alors P ′hWh est

une matrice bidiagonale à droite.

19 16 novembre 2012

Page 21: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

Preuve 1. On sait que w(h) ∈{s, Cs, . . . , Ch−1s

}, w(h) est orthogonal aux vecteurs de

l'espace{s, CS, . . . , Ch−2s

}et que p(l) appartient à l'espace

{Cs, . . . , C ls

}. Donc pour

l ≤ h− 2 :p′(l)w(h) = 0

Et d'après la propriété 1.24 on a :

p′(l)w(h) = 0, pour l > h

Et d'après 1.22, p′(h)w(h) = 1.Donc en écrivant P ′hWh comme suit :

P ′hWh =

p′(1)w(1) p′(1)w(2) . . . . . . p′(1)w(h)

p′(2)w(1) p′(2)w(2) . . . . . . p′(2)w(h)

...... . . . . . .

......

... . . . . . ....

p′(h)w(1) p′(h)w(2) . . . . . . p′(h)w(h)

les relations entre p(h) et w(h) conduisent à la matrice :

P ′hWh =

1 p′(1)w(2) . . . . . . 0

0 1. . . . . . 0

......

. . . . . ....

0 0 . . .. . . p′(h−1)w(h)

0 0 . . . . . . 1

qui est une matrice bidiagonale à droite.

c. Remarques

Les hypothèses dressées dans cette partie sont prouvées dans [20]. D'autres proprié-tés existent (et également démontrées dans [10] et dans [20]) mais ne sont pas explicitéesdans ce �chier (propriétés sur les vecteurs issus de la PLS1, liaison entre l'ACP appliquéesur X et la régression PLS de y sur X...).

1.3.5 Formules de décomposition

a. X et y en fonction des nouvelles composantes

Les matrice X et le vecteur y peuvent se décomposer par régression sur les compo-santes t(1), t(2), . . . , t(k) où k est le nombre total de composantes :

X[k] = X[k−1] − t(k)p′(k)

= X[k−2] − t(k−1)p′(k−1) − t(k)p′(k)

...

= X − t(1)p′(1) − t(2)p′(2) − . . .− t(k)p′(k)

20 16 novembre 2012

Page 22: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

D'où :X = t(1)p′(1) + t(2)p′(2) + . . .+ t(k)p′(k) +X[k] (1.29)

Par le même raisonnement :

y = c1t(1) + c2t

(2) + . . .+ ckt(k) + y[k] (1.30)

Comme les t(h) sont orthogonaux entre eux, on retrouve bien les mêmes coe�cients derégression dans 1.29 et 1.30 que dans la méthode itérative décrite plus haut :ex : t′(1)X = t′(1)t(1)p′(1) ⇒ p(1) = X′t(1)

t′(1)t(1)

b. X[h] en fonction de X

La matrice des résidus X[h] à l'étape h peut s'exprimer en fonction de X :

X[h] = X(I − w(1)p′(1)

) (I − w(2)p′(2)

). . .(I − w(h)p′(h)

)(1.31)

• Preuve de 1.31 Prouvons X[h] = X∏h

j=1(I − w(j)p′(j)), pourh ≥ 1, pourh ≥ 1.Procédons par récurrence :

Cas initial : pour h=1

X[1] résidus de la régression de X[0] sur t(1) :

X[1] = X[0] − t(1)p′(1)

Or X[0] = X et t(1) = X[0]w(1).

D'où :X[1] = X −Xw(1)p′(1)

= X(I − w(1)p′(1)

)Hypothèse de récurrenceSupposons la propriété vraie pour un entier h. Montrons qu'elle est vraie au rang h+1.

Pour h>1

X[h+1] = X[h] − t(h+1)p′(h+1)

= X[h] −X[h]w(h+1)p′(h+1)

= X[h]

(I − w(h+1)p′(h+1)

)= X

h∏j=1

(I − w(j)p′(j)

) (I − w(h+1)p′(h+1)

)(par HR)

= X

h+1∏j=1

(I − w(j)p′(j)

)

21 16 novembre 2012

Page 23: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

c. t[h] en fonction de X

La composante t(h) est combinaison linéaire des colonnes de X :

t(h) = X[h−1]w(h) = X

h−1∏j=1

(I − w(j)p′(j)

)w(h) = Xw∗(h) (1.32)

avec w∗(h) =∏h−1

j=1

(I − w(j)p′(j)

)w(h)

Proposition 2. w∗(h) =∏h−1

j=1

(I − w(j)p′(j)

)w(h) véri�e l'équation de récurrence :{

w∗(1) = w(1)

w∗(h) = w(h) − w∗(h−1)p′(h−1)w(h)

Preuve 2.

w∗(h+1) =h∏j=1

(I − w(j)p′(j)

)w(h+1)

=

(h−1∏j=1

(I − w(j)p′(j)

)) (I − w(h)p′(h)

)w(h+1)

=

(h−1∏j=1

(I − w(j)p′(j)

)) (w(h+1) − w(h)p′(h)w(h+1)

)=

h−1∏j=1

(I − w(j)p′(j)

)w(h+1)

︸ ︷︷ ︸=w(h+1)

−h−1∏j=1

(I − w(j)p′(j)

) (w(h)p′(h)w(h+1)

)

= w(h+1) −h−1∏j=1

(I − w(j)p′(j)

)w(h)

︸ ︷︷ ︸w∗(h)

(p′(h)w(h+1)

)

= w(h+1) − w∗(h)p′(h)w(h+1)

En e�et,∏h−1

j=1

(I − w(j)p′(j)

)w(h+1) = w(h+1) car p′(i)w(h+1) = 0 pour i ≤ h−1 et P ′hWh

est bidiagonale.

Proposition 3. La matrice W ∗h =

[w∗(1), w∗(2), . . . , w∗(h)

]véri�e l'équation :

W ∗h = Wh (P ′hWh)

−1

avec Wh =[w(1), w(2), . . . , w(h)

]et P ′h =

[p′(1), p′(2), . . . , p′(h)

]Preuve 3. On sait, par la proposition 1, que P ′hWh est bidiagonale à droite et, par laproposition 2, que w∗(h) = w(h) − w∗(h−1)p′(h−1)w(h).

22 16 novembre 2012

Page 24: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

Ainsi, w(h) = w∗(h) + w∗(h−1)p′(h−1)w(h) et donc Wh = W ∗hP′hWh.

En e�et :

W ∗hP′hWh =

w∗(1)1 w

∗(2)1 . . . w

∗(h−1)1 w

∗(h)1

w∗(1)2 w

∗(2)2 . . . w

∗(h−1)2 w

∗(h)2

...... . . .

...

w∗(1)p w

∗(2)p . . . w

∗(h)p w

∗(h)p

1 p′(1)w(2) 0 . . . 00 1 p′(2)w(3) . . . 0...

. . . . . ....

...... 0 1 p′(h−1)w(h)

0 0 . . . 0 1

=

w∗(1)1 w

∗(1)1 p′(1)w(2) + w

∗(2)1 . . . w

∗(h)1 + w

∗(h−1)1 p′(h−1)w(h)

w∗(1)2 w

∗(1)2 p′(1)w(2) + w

∗(2)2 . . . w

∗(h)2 + w

∗(h−1)2 p′(h−1)w(h)

...... . . .

...

w∗(1)p w

∗(1)p p′(1)w(2) + w

∗(2)p . . . w

∗(h)p + w

∗(h−1)p p′(h−1)w(h)

=

...

... . . ....

w(1) w(2) . . . w(h)

...... . . .

...

= Wh

Donc W ∗h = Wh (P ′hWh)

−1

d. Conclusion

Les composantes PLS t(1), t(2), . . . , t(k) sont donc des combinaisons linéaires des co-lonnes de X (matrice centrée-réduite des variables initiales), non corrélées entre elles,résumant au mieux X tout en expliquant autant que possible y (vecteur centré-réduitde la variable réponse initiale). Ces composantes sont donc analogues à des composantesprincipales des X(1), X(2), . . . , X(p) (les p variables explicatives initiales) expliquant aumieux la variable réponse initiale.

1.3.6 Equation de régression PLS et estimation

a. Equation de régression PLS

Jusqu'à présent, les formules ont été établies à partir d'une matrice devariables explicatives centrées-réduites nommée X et d'un vecteur réponsecentré-réduit nommé y. Pour alléger les notations des formules précédentesaucune distinction d'écriture n'a été établie entre les matrices/vecteur ini-tiaux et les matrices/vecteur centrés-réduits.Dans cette partie nous allons faire une distinction entre les di�érents élé-ments :

- X : matrice de taille n × p des variables explicatives initiales non centrées-réduites- y : vecteur de taille n × 1 de la variable à expliquer initiale non centrée-réduite- E0 : matrice de taille n × p des variables explicatives initiales centrées-réduites

23 16 novembre 2012

Page 25: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

- f0 : vecteur de taille n × 1 de la variable à expliquer initiale centrée-réduite

D'après la décomposition de f0 sur t(1), t(2), . . . , t(h) (voir formule 1.30) on déduitla régression PLS de y sur X(1), X(2), . . . , X(p) :

f0 =y − ysy

= c1t(1) + c2t

(2) + . . .+ ckt(k) + f[k]

=k∑j=1

cjt(j) + f[k]

=k∑j=1

cjE0w∗(j) + f[k] (par 1.32)

=k∑j=1

cj

p∑J=1

w∗(j)J

(X(J) −X(J)

sX(J)

)︸ ︷︷ ︸

E(J)0

+f[k]

=

p∑J=1

k∑j=1

cjw∗(j)J

(X(J) −X(J)

sX(J)

)+ f[k]

=

p∑J=1

βJ

(X(J) −X(J)

sX(J)

)+ f[k]

avec βJ =∑k

j=1 cjw∗(j)J

Ainsi :y − ysy≈

p∑J=1

βJ

(X(J) −X(J)

sX(J)

)

⇒ y

sy≈ y

sy−

p∑J=1

βJ

(X

(J)

sX(J)

)+

p∑J=1

βJ

(X(J)

sX(J)

)

⇒ y

sy≈ β0 +

p∑J=1

βJ

(X(J)

sX(J)

)avec β0 = y

sy−∑p

J=1 βJ

(X

(J)

sX(J)

)Et on a donc :

y ≈ β′0 +

p∑J=1

β′JX(J) (1.33)

pour β′0 = β0sy et β′J = βJ

sysX(J)

L'équation 1.33 est donc la régression PLS de y sur les variables explicativesX(1), X(2), . . . , X(p).

24 16 novembre 2012

Page 26: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

Pouvons-nous alors estimer β tel que :

βPLS = argminβ‖y −Xβ‖ ?

b. Estimation

L'objectif est de résoudre un problème de la forme Ax = b en présence d'un grandnombre de données. Dans ce contexte, les méthodes directes sont impossibles mais pasles méthodes itératives. Parmi ces méthodes, nous allons considérer celles faisant in-tervenir des espaces de Krylov de la forme

{v, Av, . . . , Ak−1v

}. 5, où v est le � résidu

initial �(v = Ax0− b) . Ainsi projeter le problème linéaire sur ce sous-espace permet dese ramener à un problème de plus petite taille qui approche le problème initial. Cepen-dant, cette approche devient di�cile quand la matrice A n'est pas symétrique (ce quiest notre cas :p >> n). Dans ce cas, une approche possible est de se ramener au cassymétrique défni positif en résolvant l'équation normale ATAx = AT b et de considérerl'espace de Krylov de la forme :

{v,ATAv, . . . , (ATA)h−1v

}.

En posant : A = X, x = β, b = y et v = X ′y (a signe pres) pourx0 =−→0 on

a :βPLS = argmin

β∈Kh

‖y −Xβ‖

où : Kh = V ect{XTy,XTXXTy, . . . , (XTX)h−1XTy

}= V ect

{s, Cs, . . . , Ch−1s

}avec

s = X ′y et C = X ′X. 6

Proposition 4. Soient Wh =[w(1), . . . , w(h)

]et Ph =

[p(1), . . . , p(h)

]. Alors on dé�nit

Th =[t(1), . . . , t(h)

]par :

Th = XWh (P ′hWh)−1

Preuve 4. Par l'alogrithme de PLS1, on dé�nit t(h) par : t(h) = X[h−1]w(h), ∀h =

1, . . . , k avec k dé�ni par validation-croisée. Et par 1.32 on a : t(h) = Xw∗(h) avecw∗(1) = w(1) et pour h > 1 w∗(h) =

∏h−1i=1

(I − w(i)p′(i)

)w(h). Ainsi on peut écrire :

Th = XW ∗h

avec Th =[t(1), . . . , t(h)

]et W ∗

h =[w∗(1), . . . , w∗(h)

]Or par la proposition 2, W ∗

h = Wh (P ′hWh)−1. Donc on a bien : Th = XWh (P ′hWh)

−1.

Proposition 5. SoientWh =[w(1), . . . , w(h)

], Ph =

[p(1), . . . , p(h)

]et Ch = [c1, . . . , ch]

′.

Alors on dé�nit βPLS par :

βPLS = Wh (P ′hWh)−1Ch

avec h le nombre de composantes retenues après validation croisée.

5. voir annexe A6. pour plus de détails voir [13] et [11]

25 16 novembre 2012

Page 27: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

Preuve 5. A partir de l'algorithme PLS1, on peut avoir une estimation de y :

y = c1t(1) + c2t

(2) + . . .+ cht(h)

avec h le nombre de composantes dé�ni par validation croisée.

En posant Ch =

c1

c2...ch

et Th =

. . .t(1) t(2) . . . t(h)

. . .

on a :

y = ThCh

= XW ∗hCh

= XWh (P ′hWh)−1Ch = XβPLS

avec βPLS = Wh (P ′hWh)−1Ch

Remarque 1. On sait que les composantes de la régression PLS(t(1), t(2), . . . , t(h)

)sont

orthogonales. On a donc : c′h =(t′(h)t(h)

)−1t′(h)y[h−1] =

(t′(h)t(h)

)−1t′(h)y et donc :

Ch = (T ′hTh)−1T ′hy

26 16 novembre 2012

Page 28: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Chapitre 2

Etude d'un exemple

A�n de mettre en lumière les avantages de la PLS, d'un point de vue pratique, nousallons traiter d'un exemple étudié dans [20].

2.1 Les données

L'objectif est de déterminer l'in�uence de sept composants sur l'indice d'octanemoteur de douze mélanges di�érents.

distillation directe 0 ≤ x1 ≤ 0.21Réformat 0 ≤ x2 ≤ 0.62

Naphta de craquage thermique 0 ≤ x3 ≤ 0.12Naphta de craquage catalytique 0 ≤ x4 ≤ 0.62

Polymère 0 ≤ x5 ≤ 0.12Alkylat 0 ≤ x6 ≤ 0.74

Essence naturelle 0 ≤ x7 ≤ 0.08

Table 2.1 � Présentation des 7 composants

Les données représentant des proportions, les variables somment toutes à 1.

27

Page 29: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

``````````````mélangecomposantes

x1 x2 x3 x4 x5 x6 x7

1 0.00 0.23 0.00 0.00 0.00 0.74 0.032 0.00 0.10 0.00 0.00 0.12 0.74 0.043 0.00 0.00 0.00 0.10 0.12 0.74 0.044 0.00 0.49 0.00 0.00 0.12 0.37 0.025 0.00 0.00 0.00 0.62 0.12 0.18 0.086 0.00 0.62 0.00 0.00 0.00 0.37 0.017 0.17 0.27 0.10 0.38 0.00 0.00 0.088 0.17 0.19 0.10 0.38 0.02 0.06 0.089 0.17 0.21 0.10 0.38 0.00 0.06 0.0810 0.17 0.15 0.10 0.38 0.02 0.10 0.0811 0.21 0.36 0.12 0.25 0.00 0.00 0.0612 0.00 0.00 0.00 0.55 0.00 0.37 0.08

Table 2.2 � Données de Cornell (variables exogènes)

Les 7 variables exogènes sont mises en relation ave une variable endogène notée y :

hhhhhhhhhhhhhhhhhhhmélange

indice d'octane moteury

1 98.72 97.83 96.64 92.05 86.66 91.27 81.98 83.19 82.410 83.211 81.412 88.1

Table 2.3 � Données de Cornell (variable endogène)

2.2 Traitement des données

2.2.1 Estimation des paramètres par MCO

28 16 novembre 2012

Page 30: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

Figure 2.1 � Estimation des coe�cients par MCO du modèle général (utilisation dulogiciel R)

Figure 2.2 � Statistiques des paramètres estimés (sorties logiciel R)

2.2.2 Remarques

Plusieurs points sont à souligner :- les variances des paramètres sont excessivement grandes- les paramètres estimés sont également grands (en valeur absolue)- le coe�cient de la 7eme variable n'a pas été estiméTout cela nous laisse penser que la matrice X ′X est mal conditionnée. Un fait d'ailleurscon�rmé par la sortie logiciel précédente où la présence de singularités a été soulignée.

2.2.3 Mise en évidence de corrélations entre variables

Plusieurs moyens existent pour prouver la présence de corrélations entre les va-riables. Ici, nous allons nous contenter de 2 � tests �simples que sont la construction dela matrice X ′X et le calcul de son déterminant.

29 16 novembre 2012

Page 31: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

a. Matrice des corrélations

Figure 2.3 � Corrélations entre variables exogènes et endogène (sorties logiciel R)

b. Déterminant de X ′X

Figure 2.4 � déterminant de la matrice X ′X (sorties logiciel R)

c. Remarque

La présence de corrélations (con�rmées par det (X ′X) ≈ 0 et les forts coe�cientsde corrélation entre les variables) explique les résultats � aberrants �de l'estimation parMCO.

2.3 Régression dans le cadre de données corrélées

2.3.1 Les méthodes pas à pas

Nous avons vu que lorsqu'un modèle de régression multiple contient un nombre im-portant de variables explicatives fortement corrélées entre elles, il est intéressant d'exa-miner si un sous-ensemble de ces variables permettrait d'obtenir un modèle meilleur quele modèle global. Plusieurs méthodes existent (méthode ascendant (forward), méthodedescendante (backward), méthode mixte (stepwise)) et nous avons choisi d'utiliser laméthode mixte qui nous semble être la plus objective des trois (grâce à une � mise enconcurrence �des variables explicatives).

a. Application sur les données

Ici, les données sont centrées-réduites et on applique la méthode mixte (stepwise) : 1

1. voir [7] pour comprendre les choix de sélection du logiciel (même si le document utilise un autrelogiciel (le logiciel SAS), les interprétations statistiques restent identiques)

30 16 novembre 2012

Page 32: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration
Page 33: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

b. Remarques

Les variables x1, x2, x4, x5 sont retenues. 2 Cependant, ce modèle est di�cilementacceptable par le praticien qui ne comprendra pas pourquoi la variable x6, alors la pluscorrélée à y, n'est pas prise en compte.Le problème avec ce genre de modèles (issus de sélections) est qu'il est di�cile deproposer à l'utilisateur une formule qui ne tienne pas compte de variables pourtantin�uentes et ne permette pas de quanti�er l'e�et de leurs variations sur la réponse y.C'est pourquoi on va considérer des méthodes (présentées théoriquement au chapiteprécédent) prenant en compte toutes les variables dans le modèle.

2.3.2 La RCP appliquée à nos données

a. L'algorithme utilisé

Etapes Procédures CodeEtape 0 initialisation de la matrice d'itération X[0] = XEtape 1 Construction itérative des k composantes principales pour h = 1, . . . , kEtape 1.1 initialisation de la hiemecomposante principale t(h) = X[h−1][, 1]Etape 1.2 à répéter jusqu'à convergence de p(h) ou de 1

n−1t′(h)t(h)

Etape 1.2.1 construction du hieme vecteur propre p(h) =X′

[h−1]t(h)

t′(h)t(h)

Etape 1.2.2 construction de la hieme composante principale t(h) =X[h−1]p

(h)

p′(h)p(h)

Etape 1.3 Extraction des résidus de la régression de X[h−1] sur t(h) X[h] = X[h−1] − t(h)p′(h)

Table 2.4 � Algorithme NIPALS

b. Nombre de composantes à retenir

En pratique, on utilise le plus souvent des critères empiriques comme celui de Kaiserou le diagramme des valeurs propres a�n de mettre en évidence la présence d'un coude(voir [19]). Comme ce dernier n'est pas toujours évident à identi�er, on va considérerle critère de Kaiser. D'après ce critère, quand on travaille avec des données centrées-réduites, les composantes principales correspondant à des valeurs propres supérieures à1 doivent etre retenues. En e�et, les composantes principales t étant des combianisons

linéaires des z(j)i =

x(j)i −x

(j)

sx(j)

de variance maximale V ar(t) = λ, seules présentent un

intérêt des composantes de variance supérieure à celle des variables initiales (centrées-réduites) et donc supérieure à 1.

c. Application sur les données

On calcule les vecteurs et valeurs propres associées de la matrice X ′X (matrice descorrélations) :

2. cela rejoint les résultats obtenus dans [20]

32 16 novembre 2012

Page 34: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

Figure 2.5 � Calculs des valeurs propres et vecteurs propres de la matrice des corréla-tions par l'algorithme des puissances itérées (sorties logiciel R)

Le nombre de composantes à retenir est de 4.

On applique l'algorithme NIPALS sur la matrice centrée-réduite des variables explica-tives initiales a�n de déterminer les composantes principales. On se donne ε = 0.000001le seuil qui nous permet de � tester �la convergence de p(h) dans l'algorithme et on a :

Figure 2.6 � Composantes principales issues de l'ACP (sorties logiciel R)

Pour estimer la variable réponse, on régresse celle-ci sur les 4 composantes construites :

33 16 novembre 2012

Page 35: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

y centré-réduit y non centré-réduity y y y

1.551 1.365 98.7 97.4831.413 1.393 97.8 97.6671.229 1.374 96.6 97.5440.524 0.502 92.0 91.857-0.304 -0.397 86.6 85.9920.401 0.474 91.2 91.673-1.025 -1.089 81.9 81.482-0.841 -0.917 83.1 82.603-0.948 -0.929 82.4 82.522-0.826 -0.811 83.2 83.297-1.102 -1.010 81.4 81.994-0.074 0.046 88.1 88.885

Table 2.5 � Tableau des y observés (centrés-réduits et non centrés-réduits) et desprévisions y associées à partir de la RCP à 4 composantes

2.3.3 La PLS appliquée à nos données

a. Nombre de composantes à retenir

Toujours d'après [20], la validation croisée (ou cross-validation) est le moyen le plusutilisé pour déterminer le nombre de composantes à inclure dans la régression PLS. 3

Au regard du peu de données disponibles, on applique la � leave-one-out cross-validation �.On dé�nit 2 critères :

RSSh =n∑i=1

(yi − y[h],i

)2

PRESSh =n∑i=1

(yi − y[h](−i)

)2. 4

où :yi = y[h−1],i + cht

(h)i + y[h],i

y[h],(−i) est l'estimation pour l'individu i de y lorsque l'individu i a été retiré dans laconstruction de l'estimateur PLS.

RemarqueLe PRESS de l'étape h sera forcément inférieur ou égal à ce qu'il été à l'étape h− 1.Il sera également supérieur ou égal au RSS de l'étape h. Par contre, s'il est inférieurau RSS de l'étape h − 1 cela signi�erait que la qualité d'estimation du modèle se se-rait considérablement améliorée. En e�et, on pourrait, dans ce cas, estimer avec plus

3. voir annexe B pour plus de détails sur la Validation-croisée4. où :

- y[h],i est la prédiction de yi (à l'aide du modèle 1.30) obtenu en utilisant toutes les observations- y[h](−1) est la prédiction de yi (via le modèle 1.30) obtenu sans utiliser l'observation i.

34 16 novembre 2012

Page 36: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

de précision les valeurs � yi �des individus (sans les connaitre au préalable) qu'avec lemodèle, de l'étape précédente, construit à partir de toutes les observations.Donc le fait que la composante h ait une importance signi�cative dans la régressionpourrait se traduire par le fait que PRESSh soit inférieur à RSSh−1.

Soit le critère suivant (à calculer à chaque étape h) :

Q2h = 1− PRESSh

RSSh−1

D'après ([20]), une nouvelle composante est signi�cative (donc conservée) siQ2h ≥ 0.0975

ou si√PRESSh ≤ 0.95

√RSSh−1 .

5 Cette équation signi�e que pour conserver la com-posante h il faut que les résidus, tels qu'ils sont calculés dans le PRESSh (pris en valeurabsolue), n'excèdent pas 95% des résidus tels qu'ils sont calculés dans le critère RSSh−1.

b. Application sur nos données

On calcule tout d'abord toutes les composantes possibles (au total p=nombre decolonnes de la matrice X (centrée-réduite)) :

Figure 2.7 � Composantes de la régression PLS de y sur X et coe�cients associés(sorties logiciel R)

On sélectionne les composantes à retenir par validation croisée.

5. Le fait que l'équation soit sous forme de racine est simplement la conséquence du fait qu'oncherche à se replacer à l'échelle des résidus et non à l'échelle des résidus au carré.

35 16 novembre 2012

Page 37: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

Figure 2.8 � Résultats de la cross-validation (sorties logiciel R)

Les composantes à retenir sont les 3 premières. Elles permettent d'avoir une esti-mation de la variable réponse.

y centré-réduit y non centré-réduity y y y

1.551 1.376 98.7 97.5591.413 1.381 97.8 97.5921.229 1.359 96.6 97.4450.524 0.494 92.0 91.808-0.304 -0.397 86.6 85.9950.401 0.489 91.2 91.775-1.025 -1.087 81.9 81.497-0.841 -0.921 83.1 82.575-0.948 -0.929 82.4 82.524-0.826 -0.816 83.2 83.260-1.102 -1.020 81.4 81.929-0.074 0.070 88.1 89.041

Table 2.6 � Tableau des y observés (centrés-réduits et non centrés-réduits) et desprévisions y associées à partir de la régression PLS à 3 composantes.

36 16 novembre 2012

Page 38: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

2.3.4 Comparaison RCP vs régression PLS à partir des résidus

résidus issus de la RCP résidus issus de la PLS1.217 1.1410.133 0.208-0.944 -0.8450.143 0.1920.608 0.605-0.473 -0.5750.418 0.4030.497 0.525-0.122 -0.124-0.097 -0.060-0.594 -0.529- 0.785 -0.941

Table 2.7 � Comparaison des résidus des régressions sur CP et PLS

RMSE RCP RMSE PLS0.6068552 0.606773

Table 2.8 � comparaison des qualités prédictives des modèles issus des régressions surCP et PLS

37 16 novembre 2012

Page 39: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Chapitre 3

Conclusion et perspectives

3.1 Conclusion

La régression PLS1 réalise donc un compromis entre la régression multiple de ysur X et l'analyse en composantes principales de X. Le nombre de composantes k estdéterminé par validation croisée. L'algorithme utilisé (s'inspirant de l'algorithme NI-PALS) est itératif et permet d'exprimer les composantes, alors nouvellement construitest(1),t(2),...,t(k), en fonction des variables initiales X(j) pour obtenir le modèle de régres-sion PLS à k composantes :

y = c1t(1) + c2t

(2) + ...+ ckt(k) + res

= c1w(1)1 x(1) + ...+ c1w

(1)p x(p) + c2w

(2)1 (x(1) − p(1)

1 t(1)) + ...+ c2w(2)p (x(p) − p(1)

p t(1)) + ...

+ ckw(k)1 (x(1) − p(k−1)

1 t(k−1)) + ...+ ckw(k)p (x(p) − p(k−1)

p t(k−1)) + res

Ce modèle assure des qualités de prédiction du phénomène meilleures que la RCP mêmequand cette dernière justi�e de plus de composantes. Cela s'explique par le fait que lescomposantes PLS captent l'information portée par les variables explicatives tout en sesouciant du lien entre les variables exogènes et endogène. En�n, il est important de noterque l'algorithme tel qu'il a été présenté n'est pas celui qui s'applique avec des donnéesmanquantes. Pour rentrer dans ce cadre quelques conditions doivent être véri�ées pourle calcul des composantes.

3.2 Pour aller plus loin...

Ce qui a été présenté dans ce �chier concerne la régression PLS et en particulier laPLS1. Pour cela, la PLS fait appel à di�érents thèmes et notions mathématiques.

3.2.1 PLS : une famille de méthodes

- régression PLS :↪→ PLS1 (cas univarie)↪→ PLS2 (cas multivarie)

- GLM-PLS ([4])

38

Page 40: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

- PLS-Cox ([1], [2])

- Kernel PLS ([8], [12], [16], [17])

- Sparse-PLS ([6], [14], [15])

3.2.2 PLS : une approche algorithmique de la régression

- algorithme NIPALS ([20])

- SIMPLS ([3], [9], [20])

- PLS et méthodes de Lanczos ([3])

- PLS et gradients conjugués

- algorithme PLS-Cox ([3] + références de [3])

39 16 novembre 2012

Page 41: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Annexe A

Suites de Krylov

Les méthodes de Krylov sont des méthodes de résolution itératives du systèmelinéaire de dimension n :

Ax = b

où A est une matrice carrée inversible, utilisant des projections dans des sous-espacesparticuliers, les espaces de Krylov.

Les espaces de Krylov permettent de construire, par des opérations de type produitmatrice-vecteur, produit scalaire ou combinaison linéaire de vecteurs, des sous-espacesa�nes pour chercher des approximations de la solution du système linéaire précédent.

On appelle sous-espace de Krylov d'ordre k, associé à M ∈ Rk et v ∈ R le sous-espace :

Kk (M, v) = V ect(v,Mv, . . . ,Mk−1v

)où(v,Mv, . . . ,Mk−1v

)est la suite de Krylov associée.

On peut dé�nir quelques propriétés :1. Kk (σv, τM) = Kk (v,M), pour σ, τ 6= 02. Kk (v, (M − τI)) = Kk (v,M)3. Kk (Av,AMA′) = AKk (v,M), pour A′ = A−1

40

Page 42: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Annexe B

Validation croisée

La validation croisée est une méthode qui permet de tester la �abilité d'un modèle.Il existe au moins trois techniques de validation croisée : 1

1. test et validation2. k-fold cross-validation3. leave-one-out cross validation

B.1 Test et validation

On divise l'échantillon de taille n en un échantillon d'apprentissage et en un échan-tillon test. Le modèle est alors construit sur l'échantillon d'apprentissage et validé surl'échantillon test. L'erreur est estimée en calculant l'erreur quadratique moyenne. Ce-pendant, cette méthode statistique suggère un grand nombre d'observations pour éta-blir 2 sous-échantillons de taille satisfaisante. Ceci est di�cile d'obtenir dans la réalité.D'autres méthodes sont alors utilisées.

B.2 k-fold cross-validation

On divise k fois l'échantillon puis on sélectionne un des k échantillons comme en-semble de validation et les (k − 1) autres échantillons constitueront l'ensemble d'ap-prentissage. On calcule l'erreur quadratique moyenne puis on répète l'opération ensélectionnant un autre éhantillon de validation parmi les (k − 1) échantillons qui n'ontpas encore été utilisés pour la validation du modèle. L'opération se répète ainsi k foispour que chaque sous-échantillon ait été utilisé une fois comme ensemble de validation.La moyenne des k erreur quadratiques moyennes est calculée pour estimer l'erreur deprédiction.

B.3 leave-one-out cross-validation

Cette méthode est un cas particulier de la méthode précédente où k = n. Ici, onapprend sur (n− 1) observations puis on valide le modèle sur l'observation restante.On répète l'opération n fois.

1. tout ceci est davantage détaillé dans [18]

41

Page 43: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Bibliographie

[1] Philippe Bastien. Pls-cox model : Application to gene expression data. In : Pro-ceedings COMPSTAT'04, Springer : Physica-Verlag, pages 655�662, 2004.

[2] Philippe Bastien. Deviance residuals based pls regression for censored data in highdimensional setting. Chemometrics and intelligent laboratory systems, 2008.

[3] Philippe Bastien. Régression PLS et données censurées. PhD thesis, Conservatoirenational des arts et métiers de Paris, mars 2008.

[4] Philippe Bastien, Vincenzo Esposito Vinzi, and Michel Tenenhaus. Pls generalisedlinear regression. Computational statistics and data analysis, 2004.

[5] Marie Chavent and Brigitte Patouille. Calcul des coe�cients de régression et dupress en régression pls1. Revue MODULAD, (30) :1�9, Juin 2003.

[6] Hyonho Chun and Sunduz Keles. Sparse partial least squares regression for simul-taneous dimension reduction and variable selection. Journal of the Royal StatisticalSociety, avril 2009.

[7] Josiane Confais and Monique Le Guen. Premiers pas en régression linéaire avecsas. Revue MODULAD, (35) :330�332, 2006.

[8] B.S. Dayal and J.F. MacGregor. Improved pls algorithms. Journal of Chemome-trics, (11) :73�85, 1997.

[9] S. de Jong. Simpls : An alternative approach to partial least squares regression.Chemometrics and Intelligent Laboratory Systems, (18), 1993.

[10] Inge S. Helland. On the structure of partial least squares regression. Departmentof Mathematical Sciences - Agricultural University of Norway, 1988.

[11] INRIA. Projet aladin : Algorithmes adaptés au calcul numérique intensif. Technicalreport, 2001.

[12] De Jong and C. ter Braak. Comments on the pls kernel algorithm. Journal ofChemometrics, (8) :169�174, 1994.

[13] Athanassios Kondylis. PLS methods in regression - Model assessment and in-ference. PhD thesis, Insitut de statistique - Faculté des sciences économiques -Université de Neuchatel, septembre 2006.

[14] Kim-Anh Le Cao, Pascal G.P. Martin, Christele Robert-Granie, and PhilippeBesse. Sparse canonical methods for biological data integration : application toa cross-platform study. septembre 2008.

[15] Kim-Anh Le Cao, Debra Rossouw, Christele Robert-Granie, and Philippe Besse.A sparse pls for variable selection when integrating omics data.

42

Page 44: Introduction à la régression PLS - math.unice.frbinard/GDT_PLS_seance1.pdf · c. Méthode de régression pas à pas (en anglais stepwise regression ) Il s'agit d'une amélioration

Groupe de travail PLS Introduction à la régression PLS

[16] F. Lingren, P. Geladi, and S. Wold. The kernel algorithm for pls. Journal ofChemometrics, (7) :45�59, 1993.

[17] S. Rannar, F. Lindgren, P. Geladi, and S. Wold. A pls kernel algorithm for datasets with many variables and fewer objects. part i : Theory and algorithm. Journalof Chemometrics, (8) :111�125, 1994.

[18] Payam Refaeilzadeh, Lei Tang, and Huan Liu. Cross-validation. Technical report,Arizona State University, novembre 2008.

[19] Gilles Saporta. Probabilités, analyse des données et statistique. Technip, 1990.

[20] Michel Tenenhaus. La régression PLS - Théorie et Pratique. Technip, 1998.

43 16 novembre 2012