apprentissage de représentation et auto-organisation modulaire pour un agent autonome

55
Apprentissage de représentation et auto- organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

Upload: tave

Post on 25-Feb-2016

31 views

Category:

Documents


0 download

DESCRIPTION

Apprentissage de représentation et auto-organisation modulaire pour un agent autonome. Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet. long-terme. Environnement. action. perception. renforcement. instantané. Construire un agent autonome. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Apprentissage de représentation et auto-organisation modulaire

pour un agent autonome

Bruno Scherrer6 janvier 2003

Directeurs : F. Alexandre, F. Charpillet

Page 2: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

2

Construire un agent autonome

• Calculer une stratégie/politique

• Exemples– marcher– conduire une voiture– jouer au backgammon

Environnement

perception actionrenforcement

instantané

long-terme

Page 3: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

3

Représentation et organisation modulaire

Organisationen modulesspécialisés

Organisationcentralisée

24 V

50000 V

Perception brute Représentation

?

Page 4: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

4

S'inspirer d'un système performant

• autonome• robuste• "anytime"• dynamique• distribué & parallèle• tolérant aux pannes

réseaux fortement connectés de processeurs élémentaires

fonctionnant en parallèle

Algorithmes connexionnistes

Page 5: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

5

Objectifs

• Montrer que les problèmes consistant à– calculer une stratégie/politique– apprendre une représentation– organiser un système en modules

admettent des solutions connexionnistes

Comprendre les enjeux computationnelsd'une telle approche

Page 6: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

6

Plan

• Introduction• Un calcul connexionniste • Contrôle optimal et apprentissage par

renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives

Page 7: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

7

Algorithmes connexionnistes

• Connectivité• Activations• Loi(s) d'apprentissage• (A)synchronisme ? entrées

sorties

propagationsynchrone

Loi deHebb

Système dynamique généralement complexe à analyser et concevoir !

Page 8: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

8

Un calcul connexionniste

unités

Activation

t=0

M

t=1

M M

t=∞

...

M M M...

<1Contraction Point fixe

Page 9: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

9

Un calcul connexionniste

• Calcul du point fixe d'une contraction– Solution traditionnelle

– Solution connexionniste

calcul distribuéparallèle

asynchroneM

[Bertsekas & Tsitsiklis, 89]

Page 10: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

10

• Propriétés du calcul du point fixe…– anytime– dynamique

… avec une méthode connexionniste– massivement parallèle

• Difficulté : taille du réseau– nombre d’itérations pour approcher le point

fixe

Bilan

Page 11: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

11

Plan

• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par

renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives

Page 12: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

12

Contrôle optimalétatsactionstransitionrécompense

T(s,a,s’)=P(s’|s,a)

R(s)

: S → AOn cherche une politique

qui maximise les récompenses sur le long terme

On calcule la fonction de valeur optimale :

instantané

long-terme

Page 13: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

13

Illustration

Actions

Plan :

Page 14: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

14

Illustration

• Récompense

Page 15: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

15

Illustration

• Fonction de valeur optimale

récompense

Page 16: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

16

Illustration

• Politique optimale

fonction de valeur optimale

Page 17: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

17

Lien avec le connexionnisme

V

R

s

s'

s''

...

T(s,←,s')

T(s,↑,s'')

Page 18: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

18

Un calcul dynamique

Page 19: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

19

Apprentissage par renforcement

• Problème de contrôle optimal dont on ne connaît pas les paramètres a priori

• Estimation des paramètres

• Le dilemme exploration/exploitation

? ?

Page 20: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

20

Lien avec le connexionnisme

• Dans le réseau– Estimation de R : calculée par chaque unité– Estimation de T : loi d'apprentissage du

réseau

similaire à la loi de HebbV

R

s

s'

s''

...

T(s,←,s')

T(s,↑,s'')

Page 21: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

21

• Une architecture connexionniste pour l’apprentissage par renforcement :

• Difficulté : taille de l'espace d'états– nombre d’itérations pour le point fixe– estimation de R et T

Bilan

SATRSA

Estimation paramètres Controle

environnement

πTR

Page 22: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

22

Plan

• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par

renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives

Page 23: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

23

Représentation

Difficile à exploiter

Page 24: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

24

Représentation

Chemin sous-optimal

Page 25: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

25

Représentation

Chemin optimal

Page 26: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

26

Qu'est-ce qu'une bonne représentation ?

Qualité

Complexité

Page 27: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

27

Mesure de l’erreur d'approximation

• L’erreur d’approximation définie par

dépend de l’erreur d’interpolation

et est le point fixe de

• Calcul de la politique la plus incertaine

[Munos, 99]

instantané

long-terme

Page 28: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

28

Mesure de l’erreur

• Erreur d’interpolation

Page 29: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

29

Mesure de l’erreur

• Erreur d’approximation

Page 30: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

30

Mesure de l’erreur

• Politique la plus incertaine

Page 31: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

31

Réduction de l'erreur

Qualité

Complexité

Spécialisation

Généralisation

Page 32: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

32

Réduction de l’erreur

• On peut améliorer une approximation...

…en faisant une descente de gradient :

Point fixe

instantanélong-terme

zones d'intérêt

Page 33: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

33

Réduction de l’erreurzone d'intérêt

Spécialisation

Généralisation

Page 34: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

34

Réduction de l’erreur

• Nouvelle représentation, nouvelles erreurs

Spécialisation

Généralisation

Page 35: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

35

Réduction de l’erreur

• Nouvelle représentation, nouvelles erreurs

Page 36: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

36

Réduction de l’erreur

• Nouvelle représentation, nouvelles erreurs

Page 37: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

37

Réduction de l’erreur

• Nouvelle représentation, nouvelles erreursSpécialisation

Généralisation

Page 38: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

38

Expériences (1/2)

Page 39: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

39

Expériences (1/2)

Page 40: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

40

Expériences (2/2)

Page 41: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

41

Expériences (2/2)

Page 42: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

42

• Une couche fonctionnelle connexionniste supplémentaire

Bilan

SATRSA

Estimation paramètres Controle

environnement

πTR

App. représentationπTR

S

TR

Optimisation du rapport complexité / qualité

Page 43: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

43

Plan

• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par

renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives

Page 44: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

44

Apprentissage de représentation

M

bonne représentationmauvaise représentation

Page 45: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

45

Apprentissage de représentation

M1

M2

M3

M4

Avoir une seule représentation peut être insuffisant !

Page 46: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

46

Apprentissage de représentations

M1

M2

M3

M4

Page 47: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

47

Une approche modulaire

M1

M2

M3

M4

Page 48: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

48

• L’apprentissage de représentation c’est :

• L’auto-organisation modulaire c’est :

Description

Problème de classification : nuées dynamiques

Page 49: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

49

Expérience

6 tâches à résoudre

3 modules

Page 50: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

50

Expérience

1

2

3

Module 1 Module 2 Module 3

Page 51: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

51

Bilanenvironnement

SATRSA

Estimation paramètres Controle TR

App. représentationTR

S

TR

π

TR

π

π

SATRSA

Estimation paramètres Controle TR

App. représentationTR

S

Amélioration du rapport complexité / qualité

Page 52: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

52

Plan

• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par

renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives

Page 53: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

53

Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement

Grand espace d'états ? Apprentissage de représentation

Multiplicité des problèmes ? Auto-organisation modulaire

Conclusions

parallélisme massif

optimisation du taux qualité / complexité

amélioration du taux qualité / complexité

Page 54: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

54

Schémas d'approximations convergents Généricité des résultats

Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches

Conclusions

Page 55: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome

55

Perspectives

• Extensions/améliorations des travaux de thèse– Gestion adaptative des ressources– Coopération des modules– Implantation matérielle parallèle– Approximateurs de fonctions plus puissants– Le dilemme exploration/exploitation

• Liens avec des travaux de sciences cognitives