polynomial regression on riemannian manifolds, report, 2012

5
egression polynomiale sur une vari´ et´ e riemannienne Florent Renucci et Albert Thomas Dans cet article, les auteurs d´ eveloppent une m´ ethodologie qui g´ en´ eralise aux vari´ et´ es rieman- niennes les m´ ethodes classiques de r´ egression polynomiale param´ etrique dans un espace euclidien. 1 Introduction D’un point de vue g´ en´ eral, la m´ ethode statistique de r´ egression consiste ` a estimer la relation math´ ematique entre un ensemble de variables, appel´ ees variables explicatives ou descriptives ou ind´ ependantes, et une variable observ´ ee ou mesur´ ee. On cherche donc ` a d´ eterminer, parmi une certaine classe de fonctions, la fonction qui d´ ecrive de fa¸ con optimale (en un certain sens) cette relation. La r´ egression polynomiale consiste ` a estimer la relation entre variables explicatives et donn´ ees observ´ ees ` a l’aide d’une fonction polynomiale de degr´ e fix´ e k. Le nombre de param` etres inconnus est alors k + 1 et ils sont le plus souvent estim´ es en minimisant un crit` ere des moindres carr´ es, qui est le carr´ e de la distance euclidienne entre les valeurs observ´ ees et les valeurs pr´ edites par le mod` ele polynomial. L’un des probl` emes ` a r´ esoudre dans ce contexte est ´ evidemment le choix du degr´ e du polynˆ ome. Dans cet article, les auteurs se limitent ` a une seule variable explicative, qui est une variable de temps t [0,T ]. 2 Polynˆ omes riemanniens 2.1 efinition Afin de d´ efinir des fonctions polynomiales dont les valeurs appartiennent ` a une vari´ et´ e riema- nienne (M,g) donn´ ee, les auteurs partent de la constatation qu’une fonction polynomiale eucli- dienne f : [0,T ] R n , de degr´ e k, est enti` erement d´ etermin´ ee par 1. La condition ˙ f k+1 (t) = 0. 2. La donn´ ee de (k + 1) conditions initiales : f (0), ˙ f (0),..., ˙ f k (0), o` u ˙ f (t),..., ˙ f k (t) R n esignent les d´ eriv´ ees successives de f par rapport ` a t. Par analogie, une fonction polynomiale riemannienne γ de degr´ e k est d´ efinie comme suit. Une fonction γ : [0,T ] M de classe C k est une courbe de classe C k . On sait donc d´ efinir pour tout t le vecteur tangent ˙ γ (t), qui est un ´ el´ ement de l’espace tangent T γ(t) M . L’application t 7(γ (t), ˙ γ (t)) d´ efinit un champ de vecteurs C k-1 sur M , le long de la courbe γ . Puisque M est une vari´ et´ e riemannienne, on la munit de l’unique connexion compatible avec la m´ etrique g et de torsion nulle, ce qui permet de d´ efinir les d´ eriv´ ees covariantes successives du champ de vecteurs ˙ γ le long de γ . Le polynˆ ome riemannien γ sera ainsi d´ efini par 1. La condition (˙ γ ) (k) ˙ γ (t)=0 2. La donn´ ee de (k + 1) conditions initiales : γ (0), ˙ γ (0), ˙ γ ˙ γ (0),..., (˙ γ ) (k-1) ˙ γ (0), o` u(˙ γ ) (i) ˙ γ (t) T γ(t) M esigne la i e eriv´ ee covariante du champ ˙ γ (t) par rapport ` γ . 1

Upload: florent-renucci

Post on 07-Jul-2015

160 views

Category:

Technology


5 download

DESCRIPTION

D’un point de vue général, la méthode statistique de régression consiste à estimer la relation mathématique entre un ensemble de variables, appelées variables explicatives ou descriptives ou indépendantes, et une variable observée ou mesurée. On cherche donc à déterminer, parmi une certaine classe de fonctions, la fonction qui décrive de façon optimale (en un certain sens) cette relation. La régression polynomiale consiste à estimer la relation entre variables explicatives et données observées à l’aide d’une fonction polynomiale de degré fixé k. Le nombre de paramètres inconnus est alors k + 1 et ils sont le plus souvent estimés en minimisant un critère des moindres carrés, qui est le carré de la distance euclidienne entre les valeurs observées et les valeurs prédites par le modèle polynomial. L’un des problèmes à résoudre dans ce contexte est évidemment le choix du degré du polynôme.

TRANSCRIPT

Regression polynomiale sur une variete riemannienne

Florent Renucci et Albert Thomas

Dans cet article, les auteurs developpent une methodologie qui generalise aux varietes rieman-niennes les methodes classiques de regression polynomiale parametrique dans un espace euclidien.

1 Introduction

D’un point de vue general, la methode statistique de regression consiste a estimer la relationmathematique entre un ensemble de variables, appelees variables explicatives ou descriptives ouindependantes, et une variable observee ou mesuree. On cherche donc a determiner, parmi unecertaine classe de fonctions, la fonction qui decrive de facon optimale (en un certain sens) cetterelation. La regression polynomiale consiste a estimer la relation entre variables explicatives etdonnees observees a l’aide d’une fonction polynomiale de degre fixe k. Le nombre de parametresinconnus est alors k + 1 et ils sont le plus souvent estimes en minimisant un critere des moindrescarres, qui est le carre de la distance euclidienne entre les valeurs observees et les valeurs preditespar le modele polynomial. L’un des problemes a resoudre dans ce contexte est evidemment le choixdu degre du polynome.

Dans cet article, les auteurs se limitent a une seule variable explicative, qui est une variable detemps t ∈ [0, T ].

2 Polynomes riemanniens

2.1 Definition

Afin de definir des fonctions polynomiales dont les valeurs appartiennent a une variete riema-nienne (M, g) donnee, les auteurs partent de la constatation qu’une fonction polynomiale eucli-dienne f : [0, T ]→ Rn, de degre k, est entierement determinee par

1. La condition fk+1(t) = 0.

2. La donnee de (k + 1) conditions initiales : f(0), f(0), . . . , fk(0),

ou f(t), . . . , fk(t) ∈ Rn designent les derivees successives de f par rapport a t. Par analogie, unefonction polynomiale riemannienne γ de degre k est definie comme suit. Une fonction γ : [0, T ]→Mde classe Ck est une courbe de classe Ck. On sait donc definir pour tout t le vecteur tangent γ(t),qui est un element de l’espace tangent Tγ(t)M . L’application t 7→ (γ(t), γ(t)) definit un champ de

vecteurs Ck−1 sur M , le long de la courbe γ. Puisque M est une variete riemannienne, on la munitde l’unique connexion compatible avec la metrique g et de torsion nulle, ce qui permet de definirles derivees covariantes successives du champ de vecteurs γ le long de γ. Le polynome riemannienγ sera ainsi defini par

1. La condition (∇γ)(k)γ(t) = 0

2. La donnee de (k + 1) conditions initiales : γ(0), γ(0),∇γ γ(0), . . . , (∇γ)(k−1)γ(0),

ou (∇γ)(i)γ(t) ∈ Tγ(t)M designe la ie derivee covariante du champ γ(t) par rapport a γ.

1

2.2 Calcul : la methode d’Euler

En general le polynome riemannien ainsi defini n’a pas d’expression explicite et doit etrecalcule numeriquement. Les auteurs font appel a la methode d’integration d’Euler en l’adaptantau contexte riemannien.

Pour utiliser la methode d’Euler dans le cas euclidien, on commence par se ramener a unsysteme differentiel d’ordre 1 en introduisant des fonctions auxiliaires uj : [0, T ] → Rn (i =

1, . . . , k), et en ecrivant l’equation fk+1(t) = 0 sous la forme

f(t) = u1(t)

u1(t) = u2(t)

...

uk−1(t) = uk(t)

uk(t) = 0

(1)

avec les conditions initiales f(0), u1(0), . . . , uk(0). On choisit ensuite un pas de temps τ = T/n et oncalcule de proche en proche une approximation f de f aux points du maillage {0, τ, . . . , (n−1)τ, T},en partant des valeurs initiales f(0) = f(0), u1(0) = u1(0), . . . , uk−1(0) = uk−1(0), uk(0). A la le

etape (l = 1, . . . , n), on effectue les calculs suivants

f(lτ) = f((l − 1)τ) + τ u1((l − 1)τ)

u1(lτ) = u1((l − 1)τ) + τ u2((l − 1)τ)

...

uk−1(lτ) = uk−1((l − 1)τ) + τ uk((l − 1)τ)

uk(lτ) = uk((l − 1)τ).

(2)

Interpretons ce schema d’integration d’un point de vue riemannien, en distinguant la varieteRn et les espaces tangents TpRn en chaque point p ∈ Rn. On considere f(t) comme un point dela variete Rn, et les vecteurs uj(t) comme des vecteurs de l’espace tangent Tf(t)R

n a la variete

Rn au point f(t). La le etape de la methode d’Euler s’interprete alors de la maniere suivante :pour j = 1, . . . , k − 1, le vecteur uj((l − 1)τ) est incremente de τ uj+1((l − 1)τ) (ces 2 vecteursappartiennent au meme espace tangent Tf((l−1)τ)R

n) puis ”transporte” par translation au point

f(jτ) de Rn ; le vecteur uk est constant, et donc ”transporte” sans incrementation. Le point f(lτ)est obtenu en parcourant la distance τ‖u1((l − 1)τ)‖ le long de la demi-droite issue du pointf((l − 1)τ) et de vecteur directeur u1((l − 1)τ), et en remarquant que cette droite est l’uniquegeodesique issue de f((l − 1)τ) et de vecteur tangent u1((l − 1)τ) en ce point. On peut encoreexprimer ce point de vue en disant que f(lτ) est l’image par l’application exponentielle au pointf((l − 1)τ) du vecteur τ u1((l − 1)τ)).

La methode d’Euler pour integrer l’equation differentielle covariante (∇γ)(k)γ(t) = 0 se deduirepar analogie du cas euclidien. Pour se ramener a un systeme differentiel d’ordre 1, on introduitk champs de vecteurs auxiliaires v1(t), . . . , vk(t) ∈ Tγ(t) et on exprime l’equation (∇γ)(k)γ(t) = 0sous la forme

γ(t) = v1(t)

∇γv1(t) = v2(t)

...

∇γvk−1(t) = vk(t)

∇γvk(t) = 0

(3)

avec les conditions initiales γ(0), v1(0), . . . , vk(0).

2

L’utilisation de la derivation covariante par rapport a γ garantit que les vecteurs vj(t) ap-partiennent au meme espace tangent Tγ(t)M a la variete M au point γ(t), et que les champst 7→ (γ(t), vj(t)) sont des champs de vecteurs le long de la courbe γ. En notant γ(t) et vj(t)les approximations respectives de γ et vj(t) fournies par le schema d’integration, l’analogue dutransport par translation des vecteurs uj((l − 1)τ) du point γ((l − 1)τ) au point γ(lτ) sera letransport parallele des vecteurs vj((l − 1)τ) du point γ((l − 1)τ) au point γ(lτ) le long de lageodesique joignant ces deux points. Le point γ(lτ) sera obtenu comme l’image par l’applicationexponentielle au point γ((l−1)τ) du vecteur τv1((l−1)τ). La le etape (l = 1, . . . , n) de la methoded’Euler adaptee au cadre riemannien comporte donc les calculs suivants, en partant des valeursγ(0) = γ(0), v1(0) = v1(0), . . . , vk−1(0) = vk−1(0), vk(0),

γ(lτ) = expγ((l−1)τ)(τ v1((l − 1)τ))

v1(lτ) = TransportParalleleγ((l−1)τ)→γ(lτ)[v1((l − 1)τ) + τ v2((l − 1)τ)]

...

vk−1(lτ) = TransportParalleleγ((l−1)τ)→γ(lτ)[vk−1((l − 1)τ) + τ vk((l − 1)τ)]

vk(lτ) = TransportParalleleγ((l−1)τ)→γ(lτ)[vk((l − 1)τ)].

(4)

2.3 Exemple : integration sur Sn

Considerons comme exemple de variete riemannienne la sphere Sn ⊂ Rn+1 de rayon 1, munie dela metrique g induite par la metrique euclidienne de Rn+1. On a vu dans le paragraphe ci-dessusque les deux ingredients necessaires pour calculer un polynome riemannien sont : l’applicationexponentielle et le transport parallele le long des geodesiques.

Pour trouver l’equation de la geodesique t 7→ c(t) issue du point x et de vecteur tangent al’origine v 6= 0, on peut partir de la caracterisation ∇cc = 0, avec les conditions initiales c(0) = xet c(0) = v. Sn etant une sous-variete de Rn+1 munie de la metrique induite par la metriqueeuclidienne, la derivee covariante sur la sphere est egale a la derivee (usuelle) dans Rn+1 projeteesur l’espace tangent a la sphere, qui est l’hyperplan orthogonal au rayon. L’equation ∇cc = 0 estdonc equivalente a

c− 〈c, c〉c = 0 (5)

avec c(0) = x et c(0) = v. On verifie que la fonction definit par

c(t) = cos(t‖v‖)x + sin(t‖v‖) v

‖v‖(6)

est la solution de cette equation, et donc la geodesique cherchee.Determinons a present les equations du transport parallele le long de la geodesique c(t).

L’equation de la geodesique montre que, pour tout t, les vecteurs c(t) et c(t) restent dans leplan vectoriel engendre par les vecteurs x et v. De plus, c(t) est de norme 1 et c(t) est denorme constante egale a ‖v‖. On peut donc choisir une base orthonormee de Rn+1 de la forme

{c(t), c(t)|‖v‖ , e3, . . . , en+1} ou les vecteurs e3, . . . , en+1 sont constants. Soit t 7→ (c(t), X(t)) un champ

de vecteurs le long de c(t). L’equation du transport parallele le long de c(t) est ∇cX(t) = 0. Surla base choisie, on a au temps t

X(t) = a2(t)c(t)

‖v‖+

n+1∑k=3

ak(t)ek, (7)

la composante sur c(t) etant nulle puisque X(t) est dans l’espace tangent a la sphere, donc ortho-gonal a c(t). La derivee en t est

3

X(t) = a2(t)c(t)

‖v‖+ a2(t)

c(t)

‖v‖+

n+1∑k=3

ak(t)ek

= a2(t)c(t)

‖v‖− a2(t)‖v‖c(t) +

n+1∑k=3

ak(t)ek,

et sa projection sur l’espace tangent est donc

∇cX(t) = a2(t)c(t)

‖v‖+

n+1∑k=3

ak(t)ek (8)

L’equation du transport parallele le long de c(t) est donc equivalente a a1(t) = 0 et ak(t) =ak(0) pour k = 2, . . . , n + 1. Si l’on decompose X(t) sous la forme X(t) = X c(t) + X⊥(t) avec

X c(t) = a2(0) c(t)‖v‖ et X⊥(t) =∑n+1k=3 ak(0)ek, on voit donc que X⊥(t) est inchange par transport

parallele, et que X c(t) est transforme comme c(t).Par definition de l’application exponentielle et compte tenu de l’equation de la geodesique issue

du point x et de vecteur tangent a l’origine v, on a

expx(v) = c(1) = cos(‖v‖)x + sin(‖v‖) v

‖v‖.

3 Estimation des parametres de la regression polynomiale

3.1 Theorie

Supposons que l’on dispose de N observations y1, . . . , yN ∈ M effectuees au temps respectifst1, . . . , tN , et que l’on veuille ajuster a ces donnees un polynome (riemannien) γ de degre k.Cela revient a determiner les (k+ 1) conditions initiales γ(0), γ(0),∇γ γ(0), . . . , (∇γ)k−1γ(0) pourminimiser le critere des moindres carres riemannien :

1

N

N∑i=1

dM (γ(ti), yi)2 (9)

ou dM est la distance riemannienne sur M induite par la metrique g. On peut ecrire ce problemesous la forme : minimiser la fonction

E0(γ(0), v1(0), . . . , vk(0)) =1

N

N∑i=1

dM (γ(ti), yi)2 (10)

sous les contraintes

γ(t) = v1(t)

∇γv1(t) = v2(t)

...

∇γvk−1(t) = vk(t)

∇γvk(t) = 0.

(11)

Pour se ramener a un probleme d’optimisation sans contrainte, les auteurs utilisent la methodedes multiplicateurs de Lagrange en introduisant des champs de vecteurs λj ∈ TM j = 1, . . . , k eten minimisant le Lagrangien a l’aide de la methode des variations.

4

3.2 Coefficient de determination pour les regressions dans les espacesmetriques

Pour evaluer la qualite de l’ajustement du modele aux observations, les auteurs proposent decalculer un coefficient R2, defini par analogie avec la regression dans un espace euclidien.

La variance totale correspond a l’ecart quadratique des observations par rapport a la moyennede Frechet, c’est-a-dire a la valeur predite par un polynome constant (de degre 0) :

V ar({yi}) =1

Nminy∈M

N∑i=1

dM (yi, y)2.

Pour un polynome γ, la somme des carres des ecarts (SSE) est

SSE =1

N

N∑i=1

dM (yi, γ(ti))2.

Le coefficient R2 est alors defini par

R2 = 1− SSE

V ar({yi}).

Ce coefficient est compris entre 0 et 1. Il est d’autant plus grand que l’ajustement par γ estmeilleur que l’ajustement par la moyenne de Frechet.

4 Exemples

Les auteurs presentent plusieurs applications.

1. La sphere Sn, pour laquelle les equations sont simplifiees du fait que Sn est une sous-varietede l’espace euclidien Rn+1.

2. Le groupe de Lie SO(3) (ensemble des matrices (3, 3) orthogonales). Dans ce cas, la structurede groupe et le choix d’une metrique invariante a gauche permettent d’identifier l’espace tan-gent en un point a l’algebre de Lie du groupe (l’ensemble des matrices (3, 3) antisymetriques).

3. Deux applications dans l’espace des formes de Kendall, l’une au developpement du cranechez le rat, l’autre au processus de vieillissement du corps calleux dans l’espece humaine.

5 Discussion

La methodologie developpee dans cet article apporte une grande flexibilite dans le choix desfonctions de regressions sur des varietes riemannienne. Les deux applications aux donnees de lacroissance du crane chez le rat et du vieillissement du corps calleux illustrent bien l’interet de cetteflexibilite accrue.

Du point de vue numerique, les auteurs n’abordent pas la question des performances de lamethode d’integration d’Euler, en particulier ils ne donnent pas d’indication sur le choix du pasde temps. On sait d’autre part que l’algorithme du gradient, utilise pour estimer les parametres,ne presente pas de bonnes performances pres du minimum. On peut aussi s’interroger sur leconditionnement numerique du probleme lorsque le degre du polynome augmente. En effet, dansle cadre euclidien, on sait que l’utilisation de la base {1, X, . . . ,Xk} dans l’espace des polynomesde degre k conduit, lorsque k augmente, a des difficultes numeriques.

Du point de vue statistique, le probleme du choix du degre optimal du polynome est peuenvisage. En effet, les auteurs traitent le coefficient R2 comme une quantite deterministe et nediscutent pas le caractere significatif de l’augmentation de ce coefficient lorsqu’on augmente ledegre du polynome γ. Une methode de validation-croisee aurait aussi pu etre envisagee.

5