estimation monte carlo sans modèle de politiques de...

23
Estimation Monte Carlo sans modèle de politiques de décision Raphael Fonteneau * Susan A. Murphy ** Louis Wehenkel * Damien Ernst * * Département d’Electricité, Electronique et Informatique - Université de Liège Grande Traverse, 10 - 4000 Liège - Belgium {raphael.fonteneau,l.wehenkel,dernst}@ulg.ac.be ** Département de Statistiques - Université du Michigan 439 West Hall, 1085 S. Univ. - University of Michigan - Ann Arbor, MI 48109-1107 [email protected] RÉSUMÉ. Cet article propose un estimateur de l’espérance du retour de politiques de décision dé- terministes en boucle fermée à partir d’un échantillon de transitions d’un système dynamique. Cet estimateur, appelé en anglais “Model-free Monte Carlo (MFMC) estimator”, calcule une moyenne des retours d’un ensemble de “trajectoires artificielles” construites à partir de de la politique à évaluer ainsi que de transitions du système disponibles dans un échantillon fixé dont l’acquisition s’est faite indépendamment de la politique à évaluer. Sous certaines hypothèses de continuité Lipschitzienne de la dynamique du système, de la fonction de récompense et de la po- litique de décision à évaluer, on montre que le biais et la variance de l’estimateur proposé sont bornés par des termes qui dépendent des constantes de Lipschitz, du nombre de trajectoires ar- tificielles, de la parcimonie de l’échantillon de transitions ainsi que de la variance “naturelle” du retour de la politique. ABSTRACT. We propose an algorithm for estimating the finite-horizon expected return of a closed loop control policy from an a priori given (off-policy) sample of one-step transitions. This algorithm, named Model-free Monte Carlo (MFMC) estimator, averages cumulated rewards along a set of “broken trajectories” made of one-step transitions selected from the sample on the basis of the control policy. Under some Lipschitz continuity assumptions on the system dynamics, reward function and control policy, we provide bounds on the bias and variance of the estimator that depend only on the Lipschitz constants, on the number of broken trajectories used in the estimator, and on the sparsity of the sample of one-step transitions. MOTS-CLÉS : Apprentissage par renforcement, Evaluation de politiques de décision, Estimation par méthode de Monte Carlo KEYWORDS: Reinforcement Learning, Policy Evaluation, Monte Carlo Estimation RSTI - RIA – 25/2011. Apprentissage artificiel, pages 321 à 343

Upload: others

Post on 19-Sep-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation Monte Carlo sans modèlede politiques de décisionRaphael Fonteneau* — Susan A. Murphy**

Louis Wehenkel* — Damien Ernst*

* Département d’Electricité, Electronique et Informatique - Université de LiègeGrande Traverse, 10 - 4000 Liège - Belgium

raphael.fonteneau,l.wehenkel,[email protected]

** Département de Statistiques - Université du Michigan439 West Hall, 1085 S. Univ. - University of Michigan - Ann Arbor, MI 48109-1107

[email protected]

RÉSUMÉ. Cet article propose un estimateur de l’espérance du retour de politiques de décision dé-terministes en boucle fermée à partir d’un échantillon de transitions d’un système dynamique.Cet estimateur, appelé en anglais “Model-free Monte Carlo (MFMC) estimator”, calcule unemoyenne des retours d’un ensemble de “trajectoires artificielles” construites à partir de de lapolitique à évaluer ainsi que de transitions du système disponibles dans un échantillon fixé dontl’acquisition s’est faite indépendamment de la politique à évaluer. Sous certaines hypothèses decontinuité Lipschitzienne de la dynamique du système, de la fonction de récompense et de la po-litique de décision à évaluer, on montre que le biais et la variance de l’estimateur proposé sontbornés par des termes qui dépendent des constantes de Lipschitz, du nombre de trajectoires ar-tificielles, de la parcimonie de l’échantillon de transitions ainsi que de la variance “naturelle”du retour de la politique.

ABSTRACT. We propose an algorithm for estimating the finite-horizon expected return of a closedloop control policy from an a priori given (off-policy) sample of one-step transitions. Thisalgorithm, named Model-free Monte Carlo (MFMC) estimator, averages cumulated rewardsalong a set of “broken trajectories” made of one-step transitions selected from the sample onthe basis of the control policy. Under some Lipschitz continuity assumptions on the systemdynamics, reward function and control policy, we provide bounds on the bias and variance ofthe estimator that depend only on the Lipschitz constants, on the number of broken trajectoriesused in the estimator, and on the sparsity of the sample of one-step transitions.

MOTS-CLÉS : Apprentissage par renforcement, Evaluation de politiques de décision, Estimationpar méthode de Monte Carlo

KEYWORDS: Reinforcement Learning, Policy Evaluation, Monte Carlo Estimation

RSTI - RIA – 25/2011. Apprentissage artificiel, pages 321 à 343

Page 2: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

322 RSTI - RIA – 25/2011. Apprentissage artificiel

1. Introduction

Les problèmes de contrôle optimaux sous incertitudes se rencontrent dans de nom-breux domaines, notamment en finance, en médecine, en sciences de l’ingénieur ouen intelligence artificielle. Parmi les techniques couramment utilisées pour résoudrede tels problèmes, une vaste majorité utilisent un critère d’évaluation des politiquesde décision dans le but de s’orienter efficacement dans l’espace des politiques admis-sibles, et de converger vers une politique de décision (quasi-)optimale.

Dans le cas où le système à contrôler peut être simulé à moindre coût, une tech-nique fréquemment utilisée consiste à estimer le retour des politiques de décision parméthode de Monte Carlo (MC). Concrètement, cette méthode génère de nombreusestrajectoires indépendantes du système lorsque celui-ci est contrôlé par la politiquede décision qu’on souhaite évaluer, et les retours des trajectoires ainsi obtenues sontmoyennés. Ceci permet d’obtenir une estimation non biaisée de l’espérance du retourde la politique de décision. Cependant, lorsque générer de telles trajectoires coûte tropcher, cette approche n’est pas réaliste.

Dans cet article, on décrit un critère d’évaluation des politiques de décision récem-ment introduit (Fonteneau et al., 2010), fonctionnant dans les cas où l’on ne peut passimuler la politique à évaluer. Dans ce contexte, les seules informations disponiblessur le système se résument à un échantillon de transitions du système, collectées aupréalable au moyen de protocoles expérimentaux, et ce de manière indépendante de lapolitique à évaluer. Ce critère d’évaluation est un estimateur de l’espérance du retourde la politique de décision dont le calcul s’inspire de l’estimateur MC. De manièreanalogue aux méthodes MC, l’espérance du retour de la politique de décision est esti-mée en moyennant les retours obtenus par des trajectoires indépendantes, c’est-à-direles sommes des récompenses observées tout au long de chaque trajectoire. Ce quidifférencie l’estimateur MC classique de ce nouvel estimateur − nommé MFMC del’anglais Model-free Monte Carlo −, c’est que les trajectoires utilisées ne sont pasdes trajectoires “réelles” (c’est-à-dire des trajectoires qui pourraient être obtenues parsimulation), mais des trajectoires “artificielles” reconstruites à partir de la politiquede décision à évaluer et des transitions disponibles dans l’échantillon. Sous certaineshypothèses de continuité Lipschitzienne de la dynamique du système, de la fonctionde récompense ainsi que de la politique de décision, il est possible de borner le biaiset la variance de l’estimateur MFMC. On montre alors que l’estimateur MFMC tend àse comporter comme l’estimateur MC lorsque la parcimonie de l’échantillon de tran-sitions converge vers zéro.

La suite de cet article est organisée de la manière suivante. La section 2 proposeune brève présentation de travaux connexes. La section 3 formalise le problème sou-levé dans cet article, tandis que la section 4 détaille l’estimateur MFMC ainsi que sesprincipales propriétés théoriques. Des résultats de simulation sont présentés en section5. Les démonstrations des résultats théoriques sont données en annexe.

Page 3: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 323

2. Travaux connexes

Le problème consistant à évaluer l’espérance du retour d’une politique de décisiona déjà fait l’objet de nombreuses recherches, notamment dans le cadre de l’appren-tissage par renforcement. En apprentissage par renforcement, l’espérance du retourd’une politique de décision est souvent évaluée au travers d’une fonction de valeurqui, à un état initial, associe l’espérance du retour de la politique de décision par-tant de cet état. Les méthodes basées sur les différences temporelles (Temporal Diffe-rence methods, (Sutton, 1988; Watkins et al., 1992; Rummery et al., 1994; Bradtke etal., 1996)) font partie des techniques qui permettent d’estimer une fonction de valeurà partir de la connaissance de transitions du système. Ces techniques ont l’avantaged’avoir été étudiées en profondeur d’un point de vue théorique (Dayan, 1992; Tsit-siklis, 1994). Dans le cas où l’espace d’état est de grande taille, infini et/ou continu,ces méthodes doivent être combinées avec des approximateurs de fonction (Sutton etal., 2009; Busoniu et al., 2010).

Depuis quelques années, une nouvelle classe d’algorithmes d’apprentissage parrenforcement permet d’estimer des fonctions de valeur en l’absence de modèle du sys-tème, cela en utilisant des approximateurs de fonction ajustés à partir d’une collectionde transitions du système fixée au préalable (algorithmes en mode batch). De bons ré-sultats expérimentaux ont été obtenus (Ormoneit et al., 2002; Ernst et al., 2005; Ried-miller, 2005), et de nombreux papiers se sont focalisés sur l’analyse des propriétésthéoriques de ces algorithmes (Antos et al., 2008; Munos et al., 2008).

Le principal point négatif de ces techniques est la forte dépendance que la qualitéde leur solution entretient avec le choix des approximateurs de fonction, choix loind’être trivial (Busoniu et al., 2010). A la différence de ces techniques, l’estimateurMFMC décrit dans cet article n’utilise pas d’approximateurs de fonction. Il s’agitd’une extension de l’estimateur de Monte Carlo traditionnel à un contexte où l’onne connaît pas de modèle du système. Dès lors, ce travail est étroitement lié avec lesrecherches visant à construire des estimateurs de Monte Carlo performants en présenced’un modèle (Dimitrakakis et al., 2008).

3. Formulation du problème

Tout au long de cet article, on considère un système à temps discret, stationnaire,dont la dynamique est modélisée par l’équation

xt+1 = f(xt, ut, wt) t = 0, 1, . . . , T − 1 .

T ∈ N∗ est l’horizon d’optimisation du problème, xt appartient à un espace d’étatnormé X , ut appartient à un espace de décisions normé U . Une récompense instanta-née

rt = ρ(xt, ut, wt) ∈ R

Page 4: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

324 RSTI - RIA – 25/2011. Apprentissage artificiel

est associée à chaque transition du système entre les instants t et t+1. Les incertitudesdu problème sont modélisées par un processus aléatoire non observable

wt ∈ W, t = 0 . . . T − 1

que l’on suppose indépendamment et identiquement distribué (i.i.d.) selon une loi deprobabilité pW(.), ∀t = 0, . . . , T−1. Dans la suite de cet article, on notewt ∼ pW(.),et comme cela est sous-entendu par la notation, on suppose que pW(.) ne dépend nidu couple état-décision (xt, ut) ∈ X × U , ni de t ∈ J0, T − 1K (on utilise la notationJ0, T − 1K = 0, . . . , T − 1).

Soit h une politique de décision déterministe, en boucle fermée, non stationnaire :

h : J0, T − 1K×X → U .

A un instant t ∈ J0, T − 1K et un état du système xt ∈ X , la politique de décisionh associe une décision ut = h(t, xt) ∈ U . Soit Jh(x0) l’espérance du retour de lapolitique de décision h partant de l’état initial x0 ∈ X :

Jh(x0) = Ew0,...,wT−1∼pW(.)

[Rh(x0)

],

avec

Rh(x0) =

T−1∑t=0

ρ (xt, h(t, xt), wt) ,

xt+1 = f (xt, h(t, xt), wt) ,∀t ∈ J0, T − 1K .

Une réalisation de la variable aléatoire Rh(x0) correspond à une somme de récom-penses obtenues lorsqu’on simule une trajectoire de la politique de décision h par-tant de l’état initial x0 ∈ X , perturbée par le processus aléatoire wt ∼ pW(.), t =0 . . . T − 1. On suppose également que Rh(x0) admet une variance finie σ2

Rh(x0),

σ2Rh(x0) = V ar

w0,...,wT−1∼pW(.)

[Rh(x0)

].

Dans cet article, les fonctions f et ρ, ainsi que la distribution de probabilités pW(.),sont fixées et inconnues, donc non simulables. On dispose simplement d’un échan-tillon de n ∈ N∗ transitions du système Fn =

[(xl, ul, rl, yl

)]nl=1

. Pour chaquetransition

(xl, ul, rl, yl

)∈ X × U × R × X , les deux premiers éléments

(xl, ul

)sont choisis arbitrairement, tandis que le couple (rl, yl) est déterminé par le couple(ρ(xl, ul, .), f(xl, ul, .)

)tiré selon la distribution pW(.). A partir d’un tel échantillon

Fn, l’objectif est d’estimer Jh(x0).

4. Un estimateur de Jh(x0) en l’absence de modèle du système

On rappelle préalablement en section 4.1 la définition de l’estimateur MC, ainsique son biais et sa variance. L’estimateur MFMC, qui procède par imitation de l’esti-mateur MC dans un contexte où aucun modèle du système n’est connu, est décrit en

Page 5: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 325

section 4.2 . Le biais et la variance de ce nouvel estimateur sont analysés théorique-ment en section 4.3.

4.1. L’estimateur de Monte Carlo

L’estimateur MC est utilisé dans un contexte où l’on dispose d’un modèle du sys-tème, c’est-à-dire quand les fonctions f , ρ et pW(.) sont connues. Une estimation deJh(x0) est alors obtenue en moyennant les retours de p ∈ N∗ trajectoires du sys-tème lorsque celui ci est contrôlé par la politique de décision h partant de l’état initialx0 ∈ X . Formellement, l’estimateur MC s’écrit

Mhp(x0) =

1

p

p∑i=1

T−1∑t=0

ρ(xit, h(t, xit), w

it

)où,

∀t ∈ J0, T − 1K,∀i ∈ J1, pK, wit ∼ pW(.) ,

xi0 = x0 ,

xit+1 = f(xit, h(t, xit), w

it

).

Le biais et la variance de l’estimateur MC se calculent de façon immédiate :

Ewit∼pW(.),i=1...p,t=0...T−1

[Mhp(x0)− Jh(x0)

]= 0 ,

V arwit∼pW(.),i=1...p,t=0...T−1

[Mhp(x0)

]=σ2Rh(x0)

p.

4.2. L’estimateur MFMC

L’estimateur MFMC, de l’anglais “Model-Free Monte Carlo” (Fonteneau etal., 2010), fonctionne en construisant, à partir d’un échantillon Fn de transitions dusystème, p ∈ N∗ séquences de transitions appelées “trajectoires artificielles”. Ces tra-jectoires artificielles servent d’approximation des p trajectoires “réelles” qui seraientobtenues si la politique de décision h pouvait être simulée sur le système. L’estimateurMFMC estime Jh(x0) en moyennant les retours de ces trajectoires artificielles, c’est-à-dire, pour chaque séquence de transitions, les sommes des récompenses portées parles transitions qui la composent. Les transitions sont choisies de manière à minimi-ser les cassures au sein des trajectoires artificielles ainsi que leur “éloignement” destrajectoires réelles qu’on obtiendrait en simulant la politique de décision h.

Les p trajectoires artificielles sont créées de manière séquentielle, et chaque tran-sition de l’échantillon Fn est utilisée au plus une fois. Il est donc nécessaire que

Page 6: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

326 RSTI - RIA – 25/2011. Apprentissage artificiel

p×T ≤ n. Etant donnée une trajectoire artificielle en cours de construction, la t−èmetransition ajoutée est choisie parmi les transitions non encore utilisées de telle sorteque ses deux premiers éléments minimisent la distance - cela en utilisant une me-sure de distance ∆ dans X × U - avec le couple formé par le dernier élément de la(t − 1)−ème transition et de la décision suggérée par la politique h au niveau dudernier élément de la transition (t− 1).

Estimation MFMC (arguments : Fn, h(., .), x0,∆(., .), T, p)

On note G l’échantillon courant de transitions issues de Fn non encore utilisées ;Initialement, G ← Fn ;Pour i = 1 à p, construire une trajectoire artificielle :

t← 0 ;xit ← x0 ;Tant que t < T ,

uit ← h(t, xit) ;H ← arg min

(x,u,r,y)∈G(∆((x, u), (xit, u

it))) ;

Soit lit le plus petit indice dans Fn des transitions deH ;t← t+ 1,xit ← yl

it ;

G ← G \ (xlit , ulit , rlit , ylit) ;fin Tant que

fin PourRetourner l’ensemble des indices

liti=p,t=T−1

i=1,t=0.

Figure 1. Version tabulaire de l’algorithme MFMC : construction d’un ensemble dep trajectoires artificielles de T transitions à partir d’un échantillon de n transitions

Une version tabulaire de l’algorithme MFMC permettant la construction des tra-jectoires artificielles est donnée à la figure 1. A partir de la politique de décision h,de l’état initial x0, de la mesure de distance ∆ et du nombre de trajectoires p, l’al-gorithme MFMC renvoie un ensemble d’indices de transitions lit

i=p,t=T−1i=1,t=0 (indices

correspondant au positionnement des transitions dans Fn). En utilisant cet ensembled’indices, on définit formellement l’estimateur MFMC de l’espérance du retour de lapolitique de décision h partant de l’état initial x0, noté Mh

p(Fn, x0) :

Mhp(Fn, x0) =

1

p

p∑i=1

T−1∑t=0

rlit .

Une illustration de l’estimateur MFMC est donnée en figure 2. Cette figure représenteles transitions sélectionnées par l’algorithme MFMC, ainsi que les trajectoires réelles

Page 7: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 327

qui seraient obtenues si elles étaient soumises aux mêmes perturbations que celles quiont affecté la génération des transitions sélectionnées.

x l01

, u l01

, r l01

, y l 01

x l1

1

, ul 11

, r l11

, y l11

x11= f x ,h0, x ,w l0

1

x0

x1p

xT−11

xT1

xTp

xT−1p

x2p

xT−2p

x21 xT−2

1

Trajectoire réellesous perturbations

Transition généréesous perturbation

w l01

w l11

w lT−21

w lT−11

w lti

w lti

w l0i

,... ,wlT−1i

w l01

w l0i

w l1i

w lT−1i

w l0p

w l11

w lT−21

w lT−11

w l0p

xT2

xTp−1

Estimateur MFMC

∑t=0

T−1

r lt1

∑t=0

T−1

r lt2

∑t=0

T−1

r ltp−1

∑t=0

T−1

r ltp

01

1p∑i=1

p

∑t=0

T−1

rlti

0p

11 T−1

1

1p

T−1p

Figure 2. L’estimateur MFMC reconstruit p trajectoires artificielles à partir de tran-sitions du système

La complexité de l’algorithme MFMC est linéaire en fonction de la cardinalité nde l’ensemble de transitions Fn, de la longueur T des trajectoires artificielles et dunombre de trajectoires artificielles p.

4.3. Etude théorique de l’estimateur MFMC

Cette section est dédiée à l’analyse des principales propriétés théoriques de l’esti-mateur MFMC, à savoir son biais et sa variance.

1) Tout d’abord, on définit un ensemble d’échantillons de transitions com-patibles avec l’échantillon Fn de la manière suivante : de l’échantillon Fn =[(xl, ul, rl, yl

)]nl=1

, on extrait l’échantillon de couples état - décision

Pn =[(xl, ul

)]nl=1∈ (X × U)n,

et on considère tous les échantillons de n transitions qui pourraient être générés encomplétant chaque paire (xl, ul) de Pn par un couple (ρ(xl, ul, wl), f(xl, ul, wl)) ∈R×U , wl étant tirée selon la distribution de probabilité pW(.). On désigne par Fn untel échantillon “aléatoire” de transitions, dont le caractère aléatoire est induit par les nperturbations wl l = 1 . . . n. L’échantillon Fn peut ainsi être considéré comme uneréalisation de la variable aléatoire Fn ;

Page 8: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

328 RSTI - RIA – 25/2011. Apprentissage artificiel

2) Ensuite, on étudie la distribution de l’estimateur Mhp(Fn, x0), considéré comme

une fonction de Fn ; la distribution de Mhp(Fn, x0) est caractérisée par l’intermé-

diaire de son biais et de sa variance, que l’on exprime en fonction de la k−parcimoniede l’échantillon de couples état-décision Pn. La k−parcimonie peut être interprétéecomme le plus petit rayon γ tel que toutes les boules de rayon γ - selon la mesurede distance ∆ - contiennent au moins k couples de Pn. L’utilisation de la notion dek−parcimonie implique naturellement que l’espace X × U est borné selon la mesurede distance ∆.

Les caractérisations du biais et de la variance de l’estimateur MFMC nécessitentquelques hypothèses et définitions supplémentaires détaillées ci-dessous, et les théo-rèmes exprimant ces caractérisations sont donnés à la suite. Les démonstrations desthéorèmes sont reportées en annexes.

Hypothèse 4.1 (Continuité Lipschitzienne des fonctions f , ρ et h) La dynamiquedu système f , la fonction de récompense ρ ainsi que la politique de décision hsont supposées Lipschitziennes, c’est-à-dire qu’il existe trois constantes Lf , Lρ etLh ∈ R+ telles que ∀ (x, x′, u, u′, w) ∈ X 2 × U2 ×W,

‖f(x, u, w)− f(x′, u′, w)‖X ≤ Lf (‖x− x′‖X + ‖u− u′‖U ) ,

|ρ(x, u, w)− ρ(x′, u′, w)| ≤ Lρ (‖x− x′‖X + ‖u− u′‖U ) ,

∀t ∈ J0, T − 1K, ‖h(t, x)− h(t, x′)‖U ≤ Lh ‖x− x′‖X ,

où ‖.‖X et ‖.‖U désignent les normes sur les espaces X et U , respectivement.

La mesure de distance utilisée dans cet article est définie de la manière suivante :

Définition 4.2 (Mesure de distance ∆)

∀(x, x′, u, u′) ∈ X 2 × U2,∆ ((x, u), (x′, u′)) = (‖x− x′‖X + ‖u− u′‖U ) .

On suppose que l’espace X × U est borné selon la mesure de distance ∆, et, étantdonné un entier k ∈ N∗ tel que k ≤ n, on définit la k−parcimonie, αk(Pn) del’échantillon de couples état-décision Pn de la manière suivante :

Définition 4.3 (k−parcimonie)

αk (Pn) = sup(x,u)∈X×U

∆Pnk (x, u)

,

où ∆Pnk (x, u) représente la distance entre (x, u) ∈ X ×U et le k−ème couple le plusprès (en utilisant la mesure de distance ∆) dans Pn.

On définit également l’espérance de l’estimateur MFMC, notée Ehp,Pn(x0) :

Page 9: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 329

Définition 4.4 (Espérance de l’estimateur MFMC)

Ehp,Pn(x0) = Ew1,...,wn∼pW(.)

[Mhp(Fn, x0)

].

Dès lors, on peut calculer des bornes supérieures sur le biais et la variance de l’esti-mateur MFMC, données dans les théorèmes suivants.

Théorème 4.5 (Biais de l’estimateur MFMC)∣∣Jh(x0)− Ehp,Pn(x0)∣∣ ≤ CαpT (Pn)

avec C = Lρ

T−1∑t=0

T−t−1∑i=0

[Lf (1 + Lh)]i.

La démonstration de ce théorème est donnée en annexe A. L’expression donnée ci-dessus montre que le biais de l’estimateur converge vers 0 lorsque la pT−parcimonietend vers 0. Il est à noter que la pT−parcimonie ne dépend que de l’échantillon decouples état-décision Pn et du paramètre p, le biais augmentant avec le nombre detrajectoires artificielles. On définit également la variance V hp,Pn(x0) de l’estimateurMFMC :

Définition 4.6 (Variance de l’estimateur MFMC)

V hp,Pn(x0) = V arw1,...,wn∼pW(.)

[Mhp(Fn, x0)

]= E

w1,...,wn∼pW(.)

[(Mhp(Fn, x0)− Ehp,Pn(x0)

)2].

On a alors le théorème suivant.

Théorème 4.7 (Variance de l’estimateur MFMC)

V hp,Pn(x0) ≤(σRh(x0)√p

+ 2CαpT (Pn)

)2

avec C = Lρ

T−1∑t=0

T−t−1∑i=0

[Lf (1 + Lh)]i .

La preuve de ce théorème est donnée en annexe B. On observe que la variance de l’es-timateur MFMC converge vers la variance de l’estimateur MC lorsque la parcimoniede l’échantillon de transitions converge vers 0.

En ce qui concerne les deux théorèmes présentés dans cette section, il est à no-ter que les bornes calculées peuvent s’avérer particulièrement larges, étant donné lecaractère assez général des hypothèses faites sur le système.

Page 10: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

330 RSTI - RIA – 25/2011. Apprentissage artificiel

5. Illustration

Cette section propose une étude expérimentale du comportement de l’estimateurMFMC au travers d’un exemple illustratif.

5.1. Description du problème

La dynamique du système et la fonction de récompense sont données par :

∀(xt, ut, wt) ∈ X × U ×W, xt+1 = sin(π

2(xt + ut + wt)

)et

∀(xt, ut, wt) ∈ X × U ×W, ρ(xt, ut, wt) =1

2πe−

12 (x2

t+u2t ) + wt ,

où l’espace d’état X est égal à [−1, 1] et l’espace de décisions U est égal à [− 12 ,

12 ] .

Chaque perturbation wt appartient à l’intervalleW = [− ε2 ,

ε2 ] avec ε = 0.1. pW(.) est

une distribution de probabilité uniforme sur l’intervalleW . L’horizon d’optimisationT est égal à 15. La politique de décision h dont on souhaite évaluer l’espérance duretour est définie de la manière suivante :

∀x ∈ X ,∀t ∈ J0, T − 1K, h(t, x) = −x2.

L’état initial du sytème est fixé à x0 = −0.5 . L’échantillon de transitions Fn, utiliséen remplacement du modèle supposé inconnu, a été généré selon le mécanisme décriten section 4.3.

5.2. Résultats

Influence de la parcimonie. Dans un premier jeu d’expériences, on travaille à va-leur de paramètre p fixée, p = 10. L’estimateur MFMC va ainsi construire p = 10trajectoires artificielles afin d’estimer Jh(−0.5). Pour différentes cardinalités

nj = (10j)2 j = 1 . . . 10,

50 échantillons de transitionsF1nj , . . . ,F

50nj sont générés. L’estimateur MFMC est cal-

culé pour chacun de ces échantillons. Etant donné une valeur de cardinalité nj = m2j ,

les 50 différents échantillons F1nj , . . . ,F

50nj sont générés en considérant les mêmes

couples état-décision (xl, ul) l = 1 . . . nj (c’est-à-dire l’échantillon Pnj ). Cetéchantillon de couples couvre l’espace X × U de manière “uniforme”, c’est à dire

xl = −1 +2j1mj

et ul = −1 +2j2mj

avec j1, j2 ∈ J0,mj − 1K.

Les résultats de ce premier jeu d’expériences sont rassemblés sur la figure 3. Pourchaque valeur de cardinalité nj , les 50 calculs de l’estimateur MFMC sont représen-tés par une boîte à moustache. Chaque boîte s’étend du premier au troisième quartile,

Page 11: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 331

Figure 3. Calculs de l’estimateur MFMC pour différentes cardinalités de l’échan-tillon de transitions, avec p = 10. Les carrés représentent Jh(x0)

Figure 4. Calculs de l’estimateur MC avec p = 10

coupée par la médiane. Les valeurs extrêmes sont représentées par les moustachesqui s’étendent depuis les extrémités de la boîte jusqu’aux valeurs adjacentes des don-nées, cela dans une limite de 1.5 fois la largeur de l’intervalle interquartile partant

Page 12: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

332 RSTI - RIA – 25/2011. Apprentissage artificiel

de l’extrémité de la boîte. Les outliers, dont les valeurs sont au-dessus de la limitedes moustaches, sont représentés par des croix. Les carrés représentent une estima-tion précise de Jh(−0.5) obtenue par méthode de Monte Carlo pour un très grandnombre de simulations. On peut observer sur ce graphique que lorsque la cardinalitéde l’échantillon de transitions augmente, ce qui correspond ici à une diminution de lapT−parcimonie αpT (Pn), la précision de l’estimation de Jh(−0.5) par l’estimateurMFMC augmente. Comme cela a été expliqué précédemment, il existe des similitudesentre l’estimateur MFMC et l’estimateur MC. Cela s’observe expérimentalement enmettant la figure 3 en parallèle avec la figure 4, sur laquelle on a représenté les résul-tats obtenus par 50 calculs indépendants de l’estimateur MC pour p = 10 trajectoiresréelles. On observe ainsi que l’estimateur MFMC tend à se comporter de manière si-milaire à l’estimateur MC quand la parcimonie de l’échantillon de transitions tendvers zéro.

Figure 5. Calculs de l’estimateur MFMC pour différentes valeurs du nombre de tra-jectoires artificielles p. Les carrés représentent Jh(x0)

Influence du nombre de trajectoires artificielles. Dans un deuxième jeu d’expé-riences, on souhaite observer l’influence sur la qualité de l’estimation du nombre detrajectoires artificielles p à partir desquelles l’estimateur MFMC calcule ses prédic-tions. Pour chaque valeur du nombre de trajectoires

pj = j2 j = 1 . . . 10,

50 échantillons F110,000, . . . ,F50

10,000 contenant chacun 10000 transitions sont générés.L’estimateur MFMC est calculé pour chaque échantillon de transitions, et les résultatssont rassemblés sur la figure 5. Cette figure montre que le biais de l’estimateur MFMCest assez faible pour les premières valeurs du nombre de trajectoires artificielles p, puis

Page 13: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 333

Figure 6. Calculs de l’estimateur MC pour diférentes valeurs du nombre de trajec-toires p. Les carrés représentent Jh(x0).

augmente avec p. Ceci concorde avec le théorème 4.5 qui borne le biais de l’estimateurMFMC par un terme croissant en p.

La figure 6 représente l’évolution de l’estimateur MC lorsque le nombre de tra-jectoires réelles augmente. On constate que, pour les premières valeurs du paramètrep, le comportement de l’estimateur MC est peu différent de l’estimateur MFMC. Enrevanche, la précision de l’estimateur MC croît avec le paramètre p, ce qui n’est pas lecas de l’estimateur MFMC dont la précision se détériore fortement au-delà d’un cer-tain seuil. Il est à noter que la valeur de ce seuil peut être augmentée en faisant croîtrela cardinalité de l’échantillon de transitions de manière à diminuer la pT−parcimonie.

6. Conclusions et perspectives d’améliorations

Cet article propose un estimateur de l’espérance du retour des politiques de déci-sion dans un contexte où aucun modèle du système n’est disponible. Ce nouvel es-timateur, nommé MFMC, fonctionne en reconstruisant des trajectoires artificielles àpartir de transitions du système, préalablement collectées dans un échantillon, puis enmoyennant les retours de ces trajectoires artificielles. A cet égard, l’estimateur MFMCpeut être considéré comme une extension de l’estimateur de Monte Carlo classique aucontexte où les simulations de la politique de décision sont impossibles. Cet articlepropose également des bornes théoriques sur le biais et la variance de l’estimateurMFMC ; ces bornes dépendent de la parcimonie de l’échantillon de trajectoires, ainsi

Page 14: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

334 RSTI - RIA – 25/2011. Apprentissage artificiel

que des constantes de Lipschitz des fonctions de dynamique, de récompense et de lapolitique de décision à évaluer. Quand la parcimonie de l’échantillon tend vers 0, lebiais et la variance de l’estimateur MFMC convergent vers les biais et variance del’estimateur de Monte Carlo classique.

Différentes perspectives d’améliorations des travaux présentés dans cet article sontenvisageables. Tout d’abord, il serait certainement plus réaliste de considérer un pro-cessus de perturbations qui dépendrait des couples état-décision, et il serait intéressantd’analyser comment les bornes calculées dans ce papier évolueraient sous ces nou-velles hypothèses. Ces bornes pourraient certainement permettre d’optimiser certainesvaleurs des paramètres, comme par exemple le nombre de trajectoires artificielles p,où bien le choix de la mesure de distance ∆ utilisée pour construire les trajectoiresartificielles. Il est à noter que le calcul explicite des bornes nécessite la connaissancedes constantes de Lipschitz (ou de bornes supérieures sur ces constantes), ce qui im-plique la mise au point d’un mécanisme permettant d’estimer de telles constantes àpartir d’un échantillon de transitions.

D’autre part, la borne sur la variance de l’estimateur MFMC dépend explicitementde la variance “naturelle” du retour de la politique de décision. Utiliser cette bornedans l’optique de déterminer des valeurs optimales de p et ∆ implique également lamise au point d’une technique de calcul de borne sur la variance naturelle à partir del’échantillon de transitions.

Finalement, l’estimateur MFMC s’ajoute au catalogue des techniques capablesd’estimer l’espérance du retour d’une politique de décision. Les avantages ainsi queles inconvénients de l’estimateur MFMC par rapport aux autres techniques d’estima-tions proposées dans la littérature méritent certainement d’être investigués dans defuturs travaux.

Remerciements

Ces travaux ont été financés par le FRIA (Fonds pour la formation à la Recherchedans l’Industrie et dans l’Agriculture), le FRS-FNRS (Fonds de la Recherche Scienti-fique) ainsi que le NIH (financements P50 DA10075 et R01 MH080015). Les résultatsdécrits dans cet article ont été obtenus grâce aux Pôles d’Attraction InteruniversitaireBIOMAGNET et DYSCO ainsi qu’au réseau européen d’excellence PASCAL2.

7. Bibliographie

Antos A., Munos R., Szepesvari C., « Fitted Q-iteration in continuous action-space MDPs », inJ. Platt, D. Koller, Y. Singer, S. Roweis (eds), Advances in Neural Information ProcessingSystems 20, MIT Press, Cambridge, MA, p. 9-16, 2008.

Bradtke S., Barto A., « Linear least-squares algorithms for temporal difference learning », Ma-chine Learning, vol. 22, p. 33-57, 1996.

Busoniu L., Babuska R., De Schutter B., Ernst D., Reinforcement Learning and Dynamic Pro-gramming using Function Approximators, Taylor & Francis CRC Press, 2010.

Page 15: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 335

Dayan P., « The Convergence of TD(λ) for general λ », Machine Learning, vol. 8, p. 341-162,1992.

Dimitrakakis C., Lagoudakis M. G., « Rollout sampling approximate policy iteration », Ma-chine Learning, vol. 72, p. 157-171, 2008.

Ernst D., Geurts P., Wehenkel L., « Tree-based batch mode reinforcement learning », Journalof Machine Learning Research, vol. 6, p. 503-556, 2005.

Fonteneau R., Murphy S., Wehenkel L., Ernst D., « Model-free Monte Carlo–like policy eva-luation », Proceedings of The Thirteenth International Conference on Artificial Intelligenceand Statistics (AISTATS) 2010, JMLR : W&CP 9, Chia Laguna, Sardinia, Italy, p. 217-224,2010.

Munos R., Szepesvári C., « Finite-time bounds for fitted value iteration », Journal of MachineLearning Research, vol. 9, p. 815-857, 2008.

Ormoneit D., Sen S., « Kernel-based reinforcement learning », Machine Learning, vol. 49,n˚ 2-3, p. 161-178, 2002.

Riedmiller M., « Neural fitted Q iteration - first experiences with a data efficient neural reinfor-cement learning method », Proceedings of the Sixteenth European Conference on MachineLearning (ECML 2005), Porto, Portugal, p. 317-328, 2005.

Rummery G., Niranjan M., On-line Q-learning using connectionist systems, Technical Reportn˚ 166, Cambridge University Engineering Department, 1994.

Sutton R., « Learning to predict by the methods of temporal difference », Machine Learning,vol. 3, p. 9-44, 1988.

Sutton R. S., Maei H. R., Precup D., Bhatnagar S., Silver D., Szepesvári C., Wiewiora E., « Fastgradient-descent methods for temporal-difference learning with linear function approxima-tion », Proceedings of the 26th Annual International Conference on Machine Learning,ICML ’09, ACM, New York, NY, USA, p. 993-1000, 2009.

Tsitsiklis J., « Asynchronous stochastic approximation and Q-learning », Machine Learning,vol. 16, p. 185-202, 1994.

Watkins C., Dayan P., « Q-Learning », Machine Learning, vol. 8, n˚ 3-4, p. 179-192, 1992.

Page 16: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

336 RSTI - RIA – 25/2011. Apprentissage artificiel

Annexes

A. Démonstration du théorème 4.5

Avant de démontrer le théorème 4.5, on donne trois résultats préliminaires. Etantdonné un vecteur de perturbations Ω = [Ω(0), . . . ,Ω(T − 1)] ∈ WT , on définit lafonction de valeur état-décision Qh,ΩT−t(x, u) pour t ∈ J0, T − 1K perturbée par Ω de lamanière suivante :

Définition A.1 (Fonction de valeur perturbée)

Qh,ΩT−t(x, u) = ρ (x, u,Ω(t)) +

T−1∑t′=t+1

ρ(xt′ , h(t′, xt′),Ω(t′))

avec

xt+1 = f(x, u,Ω(t)) ,

xt′+1 = f(xt′ , h(t′, xt′),Ω(t′)),∀t′ ∈ Jt+ 1, T − 1K .

On définit ensuite l’espérance du retour de la politique h conditionnée à un vecteur deperturbations Ω :

Définition A.2 (Espérance du retour conditionnée à un vecteur de perturbations )

E[Rh(x0)|Ω

]= Ew0,...,wT−1∼pW(.)

[Rh(x0)|w0 = Ω(0), . . . , wT−1 = Ω(T − 1)

].

A partir des définitions données ci-dessus, on obtient immédiatement les deux lemmessuivants :

Lemme A.3

∀(Ω, x0) ∈ WT ×X ,E[Rh(x0)|Ω

]= Qh,ΩT (x0, h(0, x0))

Lemme A.4∀(x, u) ∈ X × U , ∀Ω ∈ WT ,

Qh,ΩT−t+1(x, u) = ρ (x, u,Ω(t− 1))+Qh,ΩT−t(f(x, u,Ω(t− 1)

), h(t, f(x, u,Ω(t− 1))

))Ensuite, on démontre la continuité Lipschitzienne des fonctions de valeur état-décisionperturbées :

Page 17: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 337

Lemme A.5 (Continuité Lipschitzienne de Qh,ΩT−t)∀t ∈ J0, T − 1K,∀(x, x′, u, u′) ∈ X 2 × U2,∣∣Qh,ΩT−t(x, u)−Qh,ΩT−t(x

′, u′)∣∣ ≤ LQT−t∆((x, u), (x′, u′))

avec LQT−t = Lρ∑T−t−1i=0

[Lf (1 + Lh)

]i.

Démonstration du lemme A.5. La démonstration se fait par récurrence. On considèrela propriété H(T − t) correspondant à la continuité Lipschitzienne de la fonction devaleur Qh,ΩT−t :

H(T − t) : ∀(x, x′, u, u′) ∈ X 2 × U2,∣∣Qh,ΩT−t(x, u)−Qh,ΩT−t(x′, u′)

∣∣ ≤ LQT−t∆((x, u), (x′, u′))

avec LQT−t = Lρ

T−t−1∑i=0

[Lf (1 + Lh)

]i,

et on montre par récurrence que H(T − t) est vraie, ∀t ∈ J0, T − 1K. Par souci deconcision, on utilise dans cette démonstration la notation :

∆QT−t =

∣∣∣Qh,ΩT−t(x, u)−Qh,ΩT−t(x′, u′)

∣∣∣ .– Initialisation : t = T − 1.

On a∆Q

1 = |ρ(x, u,Ω(T − 1))− ρ(x′, u′,Ω(T − 1)| ,

et la continuité Lipschitzienne de ρ permet d’écrire :

∆Q1 ≤ Lρ

(‖x− x′‖X + ‖u− u′‖U

)= Lρ∆((x, u), (x′, u′)) ,

ce qui démontre queH(1) est vraie.

– Récurrence : 1 ≤ t ≤ T − 1.

Supposons que H(T − t) soit vraie, pour 1 ≤ t ≤ T − 1. En utilisant le lemme A.4,on peut écrire :

∆QT−t+1 =

∣∣∣Qh,ΩT−t+1(x, u)−Qh,ΩT−t+1(x′, u′)∣∣∣

=∣∣∣ρ(x, u,Ω(t− 1))− ρ(x′, u′,Ω(t− 1))

+ Qh,ΩT−t(f(x, u,Ω(t− 1)), h(t, f(x, u,Ω(t− 1))))

− Qh,ΩT−t(f(x′, u′,Ω(t− 1)), h(t, f(x′, u′,Ω(t− 1))))∣∣∣ .

Page 18: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

338 RSTI - RIA – 25/2011. Apprentissage artificiel

De là,

∆QT−t+1 ≤

∣∣ρ(x, u,Ω(t− 1))− ρ(x′, u′,Ω(t− 1))∣∣

+∣∣Qh,ΩT−t(f(x, u,Ω(t− 1)), h(t, f(x, u,Ω(t− 1))))

− Qh,ΩT−t(f(x′, u′,Ω(t− 1)), h(t, f(x′, u′,Ω(t− 1))))∣∣.

H(T − t) et la continuité Lipschitzienne de ρ permettent d’écrire :

∆QT−t+1 ≤ Lρ∆((x, u), (x′, u′))

+ LQT−t∆

((f(x, u,Ω(t− 1)), h(t, f(x, u,Ω(t− 1)))),

(f(x′, u′,Ω(t− 1)), h(t, f(x′, u′,Ω(t− 1))))

).

Les continuités Lipschitziennes des fonctions f et h permettent d’écrire :

∆QT−t+1 ≤ Lρ∆((x, u), (x′, u′))

+ LQT−t(Lf∆((x, u), (x′, u′)) + LhLf∆((x, u), (x′, u′))

),

puis,∆QT−t+1 ≤ LQT−t+1

∆((x, u), (x′, u′))

étant donné queLQT−t+1

.= Lρ + LQT−tLf (1 + Lh).

Cela démontreH (T − t+ 1) et clôt la démonstration.

Etant donnée une trajectoire artificielle τ i =[(xlit , ul

it , rl

it , yl

it

)]T−1

t=0, on désigne

par Ωτi

le vecteur de perturbations associé Ωτi

=[wl

i0 , . . . , wl

iT−1

], c’est à dire le

vecteur constitué des T perturbations (inconnues) qui ont affecté la génération destransitions

(xlit , ul

it , rl

it , yl

it

)(cf. premier point de la section 4.3). On démontre alors

le lemme suivant.

Lemme A.6 (Bornes sur l’espérance du retour conditionnée à Ω)

∀i ∈ J1, pK, bh(τ i, x0) ≤ E[Rh(x0)|Ωτ

i]≤ ah(τ i, x0) ,

Page 19: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 339

avec

bh(τ i, x0) =

T−1∑t=0

[rlit − LQT−tδit

],

ah(τ i, x0) =

T−1∑t=0

[rlit + LQT−tδ

it

],

δit = ∆(

(xlit , ul

it), (yl

it−1 , h(t, yl

it−1))

),∀t ∈ J0, T − 1K ,

yli−1 = x0,∀i ∈ J1, pK.

Démonstration du lemme A.6. On donne la démonstration pour le calcul de laborne inférieure. La borne supérieure se calcule suivant le même principe. Avec

u0 = h(0, x0), la continuité Lipschitzienne de Qh,Ωτi

T implique :∣∣∣∣Qh,ΩτiT (x0, u0)−Qh,Ωτi

T (xli0 , ul

i0)

∣∣∣∣ ≤ LQT ∆(

(x0, u0), (xli0 , ul

i0)).

Le lemme (A.3) donne :

Qh,Ωτi

T (x0, u0) = E[Rh(x0)|Ωτ

i].

On a donc :∣∣∣∣E [Rh(x0)|Ωτi]−Qh,Ω

τi

T (xli0 , ul

i0)

∣∣∣∣ =

∣∣∣∣Qh,ΩτiT (x0, h(0, x0))−Qh,Ωτi

T (xli0 , ul

i0)

∣∣∣∣≤ LQT ∆

((x0, h(0, x0)), (xl

i0 , ul

i0)). [1]

Il s’ensuit que :

Qh,Ωτi

T (xli0 , ul

i0)− LQT δi0 ≤ E

[Rh(x0)|Ωτ

i].

En utilisant le lemme (A.4), on a :

Qh,Ωτi

T (xli0 , ul

i0) = ρ

(xli0 , ul

i0 , wl

i0

)+Qh,Ω

τi

T−1

(f(xl

i0 , ul

i0 , wl

i0), h(1, f(xl

i0 , ul

i0 , wl

i0))).

Par définition de Ωτi

, on a :

ρ(xli0 , ul

i0 , wl

i0

)= rl

i0 et f

(xli0 , ul

i0 , wl

i0

)= yl

i0 .

Il s’ensuit que :

Qh,Ωτi

T

(xli0 , ul

i0

)= rl

i0 +Qh,Ω

τi

T−1

(yli0 , h(1, yl

i0)),

Page 20: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

340 RSTI - RIA – 25/2011. Apprentissage artificiel

etQh,Ω

τi

T−1

(yli0 , h(1, yl

i0))

+ rli0 − LQT δi0 ≤ E

[Rh(x0)|Ωτ

i].

La continuité Lipschitzienne de Qh,Ωτi

T−1 donne :∣∣∣∣Qh,ΩτiT−1 (yli0 , h(1, yl

i0))−Qh,Ω

τi

T−1 (xli1 , ul

i1)

∣∣∣∣ ≤ LQT−1∆(

(yli0 , h(1, yl

i0)), (xl

i1 , ul

i1))

= LQT−1δi1,

ce qui implique :

Qh,Ωτi

T−1

(xli1 , ul

i1

)− LQT−1

δi1 ≤ Qh,Ωτ

i

T−1

(yli0 , h(1, yl

i0)).

Finalement, on obtient :

Qh,Ωτi

T−1

(xli1 , ul

i1

)+ rl

i0 − LQT δi0 − LQT−1

δi1 ≤ E[Rh(x0)|Ωτ

i].

La calcul de la borne inférieure s’obtient en développant l’itération ci-dessus.

On démontre un lemme supplémentaire.

Lemme A.7 (Largeur des bornes)

∀i ∈ J1, pK, ah(τ i, x0

)− bh

(τ i, x0

)≤ 2CαpT (Pn) [2]

avec

C =

T−1∑t=0

LQT−t .

Démonstration du lemme A.7. Par construction des bornes, on a la relation

ah(τ i, x0

)− bh

(τ i, x0

)=

T−1∑t=0

2LQT−tδit.

L’algorithme MFMC sélectionne p × T transitions distinctes en minimisant les dis-tances ∆

((yl

it−1 , h(t, yl

it−1)), (xl

it , ul

it))

. Par conséquent, étant donnée la définitionde la k−parcimonie de l’échantillon Pn avec k = pT , on a

δit = ∆(

(ylit−1 , h(t, yl

it−1)), (xl

it , ul

it))≤ ∆PnpT

(ylit−1 , h(t, yl

it−1)

)≤ αpT (Pn) ,

ce qui termine la démonstration.

Page 21: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 341

A partir des lemmes démontrés précédemment, on peut désormais calculer uneborne supérieure sur le biais de l’estimateur MFMC.

Démonstration du théorème 4.5. Par définition des bornes ah(τ i, x0

)et bh

(τ i, x0

),

on a

∀i ∈ J1, pK,bh(τ i, x0

)+ ah

(τ i, x0

)2

=

T−1∑t=0

rlit .

Dès lors, étant donnés les lemmes A.6 et A.7, on a ∀i ∈ J1, pK ,

∣∣∣∣∣ Ew1,...,wn∼pW(.)

[E[Rh(x0)|Ωτ

i]−T−1∑t=0

rlit

]∣∣∣∣∣≤ Ew1,...,wn∼pW(.)

[∣∣∣∣∣E [Rh(x0)|Ωτi]−T−1∑t=0

rlit

∣∣∣∣∣]≤ CαpT (Pn) .

Ensuite,

∣∣∣∣∣1pp∑i=1

Ew1,...,wn∼pW(.)

[E[Rh(x0)|Ωτ

i]−T−1∑t=0

rlit

]∣∣∣∣∣≤ 1

p

p∑i=1

∣∣∣∣∣ Ew1,...,wn∼pW(.)

[E[Rh(x0)|Ωτ

i]−T−1∑t=0

rlit

]∣∣∣∣∣ ≤ CαpT (Pn) ,

ce qui peut être reformulé de la manière suivante :∣∣∣∣∣ Ew1,...,wn∼pW(.)

[1

p

p∑i=1

E[Rh(x0)|Ωτ

i]]− Ehp,Pn(x0)

∣∣∣∣∣ ≤ CαpT (Pn) ,

puisque1

p

p∑i=1

T−1∑t=0

rlit = Mh

p(Fn, x0) .

Comme l’algorithme MFMC sélectionne p×T transitions distinctes, les perturbationswl

it

i=p,t=T−1

i=1,t=0sont i.i.d. selon pW(.). Quel que soit i ∈ J1, pK, le Théorème de

l’espérance totale implique que :

Ewli0 ,...,w

liT−1∼pW(.)

[E

wli0 ,...,w

liT−1∼pW(.)

[Rh(x0)|Ωτ

i]]

= Ew0,...,wT−1∼pW(.)

[Rh(x0)

]= Jh(x0) ,

ce qui conclut la démonstration.

Page 22: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

342 RSTI - RIA – 25/2011. Apprentissage artificiel

B. Démonstration du théorème 4.7

Pour commencer, on démontre le lemme suivant.

Lemme B.1 (Variance d’une somme de variables aléatoires)Soit X0, . . . , XT−1 T variables aléatoires de variances finies σ2

0 , . . . , σ2T−1, res-

pectivement. On a alors :

V ar

[T−1∑t=0

Xt

]≤

(T−1∑t=0

σt

)2

.

Démonstration du lemme B.1. La démonstration s’obtient par récurrence sur lenombre de variables aléatoires, cela en utilisant la formule

Cov(Xi, Xj) ≤ σiσj ,∀i, j ∈ J0, T − 1K,

qui découle directement de l’inégalité de Cauchy-Schwarz.

Démonstration du théorème 4.7. On désigne par Nhp(Fn, x0) la variable aléatoire

Nhp(Fn, x0) = Mh

p(Fn, x0)− 1

p

p∑i=1

E[Rh(x0)|Ωτ

i].

En utilisant le lemme B.1, on peut écrire

V hp,Pn(x0) ≤(√√√√ V ar

w1,...,wn∼pW(.)

[1

p

p∑i=1

E[Rh(x0)|Ωτ i

]]

+

√V ar

w1,...,wn∼pW(.)

[Nhp(Fn, x0)

])2

[3]

Comme les perturbationswl

it

i=p,t=T−1

i=1,t=0sont i.i.d. suivant la distribution pW(.) (cf

démonstration du théorème 4.5), le Théorème de l’espérance totale permet d’écrire

V arw1,...,wn∼pW(.)

[1

p

p∑i=1

E[Rh(x0)|Ωτ

i]]

=σ2Rh(x0)

p. [4]

Concentrons nous sur V arw1,...,wn∼pW(.)

[Nhp(Fn, x0)

]. Par définition, on a

Nhp(Fn, x0) =

1

p

p∑i=1

[T−1∑t=0

rlit − E

[Rh(x0)|Ωτ

i]]

.

Page 23: Estimation Monte Carlo sans modèle de politiques de décisionpdfs.semanticscholar.org/820b/483ed107c7a58bd69552074a9d... · 2017. 9. 12. · Estimation Monte Carlo sans modèle de

Estimation MFMC 343

Dès lors, en utilisant le lemme B.1, on a

V arw1,...,wn∼pW(.)

[Nhp(Fn, x0)

]

≤ 1

p2

(p∑i=1

√√√√ V arw1,...,wn∼pW(.)

[T−1∑t=0

rlit − E

[Rh(x0)|Ωτ i

]] )2

[5]

Ensuite,

V arw1,...,wn∼pW(.)

[T−1∑t=0

rlit − E

[Rh(x0)|Ωτ

i]]

≤ Ew1,...,wn∼pW(.)

(T−1∑t=0

rlit − E

[Rh(x0)|Ωτ

i])2

≤ Ew1,...,wn∼pW(.)

[(ah(τ i, x0)− bh(τ i, x0)

)2]=(ah(τ i, x0)− bh(τ i, x0)

)2≤ 4C2(αpT (Pn))2 , [6]

puisque∑T−1t=0 rl

it et E

[Rh(x0)|Ωτ i

]appartiennent à l’intervalle[

bh(τ i, x0), ah(τ i, x0)]

dont la largeur est bornée par 2CαpT (Pn), d’après lelemme A.7.

En rassemblant les equations (3), (4), (5) et (6), on obtient :

V hp,Pn(x0) ≤(σRh(x0)√p

+ 2CαpT (Pn)

)2

,

ce qui termine la démonstration.