mcgill university school of computer science - nouvelles …jpineau/talks/jpineau-ulaval... ·...

1

Nouvelles approches structurelles pour la

planification rapide avec mod èles POMDPs

Joelle PineauSchool of Computer Science

McGill University

Université LavalVendredi 4 mars 2005

Joelle PineauApproches structurelles pour modèles POMDPs 2

Planification pour la robotique gériatrique

Transportd’objets

Soins à distance

Socialisation

Appel à l’aide

Surveillance

Sourced’information

Suivi des ADLs(“Activities ofdaily living”)

Aide-mémoire

Aide physique

Lien entrepersonnelde soutien

2


Apprentissage par renforcement

État

Utilisateur+ Environment + Robot

Action

Observation, Récompense


Types d’incertitude

Effet → Actions ayant des effets non-déterministes

État → Observations partielles ou erronées

3


Exemple d’incertitude attribuée à l’effet

Startpositio n

Distribu tion over po ssib len ex t-step positions

Positioninitiale

Distribution des probabilitépour la position suivante

Action

P(s’) = ∫ P(s’ | s, a) P(s) ds


Types d’incertitude

Effet → Actions ayant des effets non-déterministes

État → Observations partielles ou erronées

4


Exemple d’incertitude attribuée à l'effet

Optimisation de plans qui sont

robustes aux données manquantes,

ambiguës, datées, erronées.

P(s | z) = η P(z | s) P(s)


Sommaire

• La planification robuste à l’incertitude

• Les Processus de Décision Markoviens PartiellementObservables (POMDPs)

• Algorithme 1: “Point-based value iteration” (PBVI)

• Algorithme 2: “Policy-contingent abstraction” (PolCA+)

5


Le modèle POMDP

• Le POMDP constitue un riche modèle pour planifier les séquencesd’actions optimales par rapport à:

– l’incertitude attribuée à l’éffet,

– l’incertitude attribuée à l’état,

– les coûts et récompenses.


Applications POMDPs dans les dix dernières années

Autres:

• Entretien d’équipement[Puterman., 1994]

• Distribution sur réseaux[Thiebeaux et al., 1996]

• Vérification de circuits [correspondence, 2004]

• Génération des préférences[Boutilier, 2002]

• Diagnostique médicale[Hauskrecht, 1997]

Robotique:

• Navigation robuste[Simmons & Koenig, 1995; + many more]

• Contrôle d’hélicoptères[Bagnell & Schneider, 2001; Ng et al., 2003]

• Traitement d’images[Bandera et al., 1996; Darrell & Pentland, 1996]

• Contrôle opérationnel de robots[Pineau et al., 2003]

• Modèles de dialogue[Roy, Pineau & Thrun, 2000; Peak & Horvitz, 2000]

6


Le modèle POMDP

Un POMDP est défini par { S, A, Z, T, O, R }:

L’état: st-1 st

at-1 atL’environment: zt-1 zt

rt-1 rt

Transition: T = Pr(s’|s,a)États: SActions: A

Observations: ZPerception: O = Pr(z|s,a)Récompenses: R(s,a)

La croyance:“belief state”

bt-1 bt


Exemples de croyances chez les robots mobiles

particules indiquant la position

Croyance uniforme Croyance bi-modale

7


Définition de la croyance

• La croyance est une répartition des états.Dimension: dim(B) = |S|-1

Exemple: S={s1, s2}

P(s1)

0

1




Exemple: S={s1, s2, s3}

P(s1)

P(s2)

0

1

1

8




Exemple: S={s1, s2, s3, s4}

P(s1)

P(s2)

0

1

1

P(s3)


La planification avec modèles POMDPs

Objectif: Trouver la séquence d’actions qui maximisel’obtention de récompenses.

!"

#$%

&+= '

((

BbAa

bVbabTabRbV

'

)'()',,(),(max)( )

Valeur Récompenseimmédiate

Récompenseà venir

9


• V(b) est repésenté par la surface supérieure d’un ensemble de vecteurs.– Chaque vecteur est une composante de la politique d’actions.– Dim(vecteur) = nombre d’états.

• Pour optimiser le plan: modifier/rajouter des vecteurs.

La fonction POMDP

P(s1)

V(b)

b

2 états


Solution optimale pour POMDP

• Exemple: 2 états, 3 actions, 3 observations

P(crime)

V0(b)

b

Longueur du plan # vecteurs 0 1

10



• Exemple: 2 états, 3 actions, 3 observationsLongueur du plan # vecteurs

0 1 1 3

V1(b)

b

Appeler-911Enquêter

Dormir

P(crime)




0 1 1 3 2 27

V2(b)

b

Appeler-911

P(crime)

Dormir

Enquêter

11




0 1 1 3 2 27 3 2187

V3(b)

b

Appeler-911

P(crime)

Dormir

Enquêter




0 1 1 3 2 27 3 2187 4 14,348,907V3(b)

b

Appeler-911

P(crime)

Dormir

Enquêter

12


Combien de vecteurs pour un problème de cette taille?

104 (navigation) x 103 (dialogue) états1000+ observations100+ actions


Le défi de la multiplication des croyances

)A(Z

1!"="nn

O

Le nombre de vecteurs se multiplie de faconexponentielle en fonction de la longueur du plan:

Γ = # vecteursn = longueur du planA = # actionsZ = # observations

13


La planification optimale considère toutes lescroyances de façon équivalente

Croyance uniforme Croyance bi-modale Croyance N-modale

→ Aucune séquence d’actions ou d’observations nepeut mener à cette croyance N-modale.

particules indiquant la position


Sommaire





14


Algorithme: Point-based value iteration

P(s1)

V(b)

b1 b0 b2

Approche:Choisir un petit ensemble de points

Optimiser un plan pour ces points ⇒ la valeur et le gradient

a,z a,z

⇒ points séparés et plausibles

Choisir l’action d’apres la valeur ⇒ ( )bbV !="#$

$max)(


Analyse de complexité

Espace: Temps:

)A(Z

1!"n

O )AS(Z

1!"n

O

)B(O )BZAS(1!

"n

O

Espace: Temps:

15


• Alterner entre:

1. l’ajout de nouveaux points, et

2. l’optimisation du plan.

• Terminer quand:- le temps allouer à la planification est échu, ou- une bonne politique d’actions est en place.

Version “anytime” de l’algorithme PBVI


Le choix des croyances

• Stratégies antécédantes:

États seulement Discrétisation Echantillonage

• Propriétés théoriques à utiliser?

x1

x0

x2

16


ε ≤ α’· b’ - α · b’

≤ (α’ - α) · (b’ - b)

≤ ∑i

Propriété théorique de PBVI

Lemma: L’erreur introduite lorsque la valeur est estimée par une itération de programmation dynamique sur un ensemble de points B, plutot que sur le simplex Δ est limitée par:

b b’

ε

δ

α’α

Rmax(1-γ)( - αi ) ( bi’ - bi ) bi’ ≥ bi

( - αi ) ( bi’ - bi ) bi’ < biRmin(1-γ)


L’espace des croyances possibles

b0

b b b…

b b b…… …

… … …

a,za,z

a,z

a,za,z

a,z

Propriété théoriques valable pour l’espace des croyances possibles.

17


L’espace des croyances possibles

b0

b b b…

b b b…… …

… … …

Propriété théoriques valable pour l’espace des croyances possibles.

a,za,z

a,z

a,za,z

a,z

Points choisis, B Candidats, B


Analyse: La planification pour robots interactifs

Objectif: Trouver le patient etcommuniquer un message.

États = Position-du-robot × Position-du-patient

Observations = Position-du-robot + Patient-trouvé

Actions = {Nord, Sud, Est, Ouest, Message}

870 états30 observations5 actions

18


Résultats

Patient found 17% of trialsPatient found 90% of trials

No Belief PBVI

No Belief

PBVI


Comparaison des techniques de sélection des croyances

19


Erreur

a) Récompense b) Erreur


Comparison avec d’autres approches

old

PBV

I

new

PB

VI

20


Comparison avec d’autres approches

old

PBV

I

new

PB

VI


Choix d’actions par QMDP

21


Choix d’action par PBVI


Choix d’action avec nombre réduit de croyances

22


PBVI en résumé

• Contribution algorithmique:

– Nouvel algorithme pour l’échantillonage des croyances.

– Sélection efficace des points.

– Version “anytime”.

• Contribution pratique:

– Performance supérieure aux algorithmes précédants pour problèmes connus.

– Nouveau problème (1 ordre de magnitude sur les problèmes précédants).

• Contribution théorique:

– Erreur due à l’approximation est limitée.

[ Pineau, Gordon & Thrun, IJCAI 2003. Pineau, Gordon & Thrun, NIPS 2003. ]


Le vrai défi

Comment passer de 870 étatsaux problèmes plus réalistes?

Pictures courtesy of Sebastian Thrun.

23


Navigation

La structure dans les POMDPs

⇒ Plusieurs domaines de planification possèdent descaractéristiques structurelles qui peuvent être exploitées.

Cognitive support Social interaction

High-level controller

Move AskWhere

Left Right Forward Backward


Méthodes structurelles pour POMDPs

Méthodes factorielles[Boutilier & Poole, 1996; Hansen & Feng, 2000; Guestrin et al., 2001]

– Idée: Représenter l’espace des états avec des facteurs à valeur multiple.

Méthodes hiérarchiques[Wiering & Schmidhuber, 1997; Theocharous et al., 2000; Hernandez-Gardiol &

Mahadevan, 2000; Pineau & Thrun, 2000]

– Idée: Exploiter connaissances du domaine pour diviser un problèmecomplexe en plusieurs problèmes de taille réduite.

24


Sommaire






Une hiérarchie de POMDPs

Act

ExamineHealth Navigate

MoveVerifyFluids ClarifyGoal

North South East West

VerifyMeds

tâche

action abstraite

action de base

25


PolCA+: Planification POMDP avec hiérarchie

Navigate

Move ClarifyGoal

South East WestNorthACTIONSNorthSouthEastWest

ClarifyGoalVerifyFluidsVerifyMeds

Étape 1: Choisir les actionsAMove = {N,S,E,W}



Navigate

Move ClarifyGoal

South East WestNorth

ÉTATSX-positionY-position

X-goalY-goal

HealthStatus

ACTIONSNorthSouthEastWest


Étape 1: Choisir les actions

Étape 2: Minimiser les états AMove = {N,S,E,W}

SMove = {s1,s2}

26



Navigate

Move ClarifyGoal



X-goalY-goal

HealthStatus



PARAMÈTRES

{bh,Th,Oh,Rh}


Étape 2: Minimiser les états

Étape 3: Extraire les paramètres

AMove = {N,S,E,W}

SMove = {s1,s2}



Navigate

Move ClarifyGoal



X-goalY-goal

HealthStatus



OPTIMISATION

πh

PARAMÈTRES

{bh,Th,Oh,Rh}


Étape 2: Minimiser les états

Étape 3: Extraire les paramètres

Étape 4: Optimiser tâche h

AMove = {N,S,E,W}

SMove = {s1,s2}

27


PolCA+ pour planification du Nursebot

• Objectif: Un robot est déployé dans un foyer de personnes âgées,pour fonctions d’accompagnement, aide-mémoire et contact social.


Résultats

-2000

2000

6000

10000

14000

0 400 800 1200

Time Steps

Cu

mu

lative

Re

wa

rd

PolCA+

PolCA

QMDP

Hiérarchie + Croyance

Execution Steps

Hiérarchie + Croyance

Hiérarchie + CroyancePolCA+

Nombre d’actions exécutées

Som

me

des r

écom

pens

es

28


Comparaison de la performance de l’usager

0.1 0.10.18

Erre

ur p

ar a

ctio

n

Usager 1 Usager 2 Usager 3

POMDPIgnorer la croyance

Erreur par action


Expériences avec population cible

29


PolCA+ en résumé

• Contribution algorithmique:– Nouvelle approche hiérarchique pour planification POMDP.– Minimisation automatique des états et observations.

• Contribution pratique:– Première instance de contrôle de haut-niveau pour robots par POMDP.– Nouvelle application pour modèles de dialogue.

• Contribution théorique:– Pour cas particuliers (parfaitement observables), garantie d’optimalité

récursive.

[ Pineau, Gordon & Thrun, UAI 2003. Pineau et al., RAS 2003. Roy, Pineau & Thrun, ACL 2001]


Conclusion

Défi:Développer des algorithmes tractables permettantl’optimisation d’une politique d’actions robuste àl’incertitude.

Contribution:Deux algorithmes complémentaires: PBVI et PolCA+, quipermettent l’extension des POMDPs et mènent audéploiement en milieu pratique.

30


Travail à venir

• Algorithmes présentés requièrent un modèle POMDP:– Apprentissage automatique du modèle

– Adaptation à l’usager

• Solutions pour domaines avec un grand nombre d’états:– Échantillonage des états

– Projection et réduction de la dimension

– Domaines avec états continus / hybrides


Questions?

Collaborateurs: Geoffrey Gordon, Judith Matthews, Michael Montemerlo,Martha Pollack, Nicholas Roy, Sebastian Thrun

mcgill university school of computer science - nouvelles …jpineau/talks/jpineau-ulaval... ·...

Documents