apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Apprentissage de représentation et auto-organisation modulaire

pour un agent autonome

Bruno Scherrer6 janvier 2003

Directeurs : F. Alexandre, F. Charpillet

2

Construire un agent autonome

• Calculer une stratégie/politique

• Exemples– marcher– conduire une voiture– jouer au backgammon

Environnement

perception actionrenforcement

instantané

long-terme

3

Représentation et organisation modulaire

Organisationen modulesspécialisés

Organisationcentralisée

24 V

50000 V

Perception brute Représentation

?

4

S'inspirer d'un système performant

• autonome• robuste• "anytime"• dynamique• distribué & parallèle• tolérant aux pannes

réseaux fortement connectés de processeurs élémentaires

fonctionnant en parallèle

Algorithmes connexionnistes

5

Objectifs

• Montrer que les problèmes consistant à– calculer une stratégie/politique– apprendre une représentation– organiser un système en modules

admettent des solutions connexionnistes

Comprendre les enjeux computationnelsd'une telle approche

6

Plan

• Introduction• Un calcul connexionniste • Contrôle optimal et apprentissage par

renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives

7

Algorithmes connexionnistes

• Connectivité• Activations• Loi(s) d'apprentissage• (A)synchronisme ? entrées

sorties

propagationsynchrone

Loi deHebb

Système dynamique généralement complexe à analyser et concevoir !

8

Un calcul connexionniste

unités

Activation

t=0

M

t=1

M M

t=∞

...

M M M...

<1Contraction Point fixe

9

Un calcul connexionniste

• Calcul du point fixe d'une contraction– Solution traditionnelle

– Solution connexionniste

calcul distribuéparallèle

asynchroneM

[Bertsekas & Tsitsiklis, 89]

10

• Propriétés du calcul du point fixe…– anytime– dynamique

… avec une méthode connexionniste– massivement parallèle

• Difficulté : taille du réseau– nombre d’itérations pour approcher le point

fixe

Bilan

11

Plan

• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par


12

Contrôle optimalétatsactionstransitionrécompense

T(s,a,s’)=P(s’|s,a)

R(s)

: S → AOn cherche une politique

qui maximise les récompenses sur le long terme

On calcule la fonction de valeur optimale :

instantané

long-terme

13

Illustration

Actions

Plan :

14

Illustration

• Récompense

15

Illustration

• Fonction de valeur optimale

récompense

16

Illustration

• Politique optimale

fonction de valeur optimale

17

Lien avec le connexionnisme

V

R

s

s'

s''

...

T(s,←,s')

T(s,↑,s'')

18

Un calcul dynamique

19

Apprentissage par renforcement

• Problème de contrôle optimal dont on ne connaît pas les paramètres a priori

• Estimation des paramètres

• Le dilemme exploration/exploitation

? ?

20

Lien avec le connexionnisme

• Dans le réseau– Estimation de R : calculée par chaque unité– Estimation de T : loi d'apprentissage du

réseau

similaire à la loi de HebbV

R

s

s'

s''

...

T(s,←,s')

T(s,↑,s'')

21

• Une architecture connexionniste pour l’apprentissage par renforcement :

• Difficulté : taille de l'espace d'états– nombre d’itérations pour le point fixe– estimation de R et T

Bilan

SATRSA

Estimation paramètres Controle

environnement

πTR

22

Plan



23

Représentation

Difficile à exploiter

24

Représentation

Chemin sous-optimal

25

Représentation

Chemin optimal

26

Qu'est-ce qu'une bonne représentation ?

Qualité

Complexité

27

Mesure de l’erreur d'approximation

• L’erreur d’approximation définie par

dépend de l’erreur d’interpolation

et est le point fixe de

• Calcul de la politique la plus incertaine

[Munos, 99]

instantané

long-terme

28

Mesure de l’erreur

• Erreur d’interpolation

29


• Erreur d’approximation

30


• Politique la plus incertaine

31

Réduction de l'erreur

Qualité

Complexité

Spécialisation

Généralisation

32

Réduction de l’erreur

• On peut améliorer une approximation...

…en faisant une descente de gradient :

Point fixe

instantanélong-terme

zones d'intérêt

33

Réduction de l’erreurzone d'intérêt

Spécialisation

Généralisation

34


• Nouvelle représentation, nouvelles erreurs

Spécialisation

Généralisation

35



36



37


• Nouvelle représentation, nouvelles erreursSpécialisation

Généralisation

38

Expériences (1/2)

39

Expériences (1/2)

40

Expériences (2/2)

41

Expériences (2/2)

42

• Une couche fonctionnelle connexionniste supplémentaire

Bilan

SATRSA

Estimation paramètres Controle

environnement

πTR

App. représentationπTR

S

TR

Optimisation du rapport complexité / qualité

43

Plan



44

Apprentissage de représentation

M

bonne représentationmauvaise représentation

45

Apprentissage de représentation

M1

M2

M3

M4

Avoir une seule représentation peut être insuffisant !

46

Apprentissage de représentations

M1

M2

M3

M4

47

Une approche modulaire

M1

M2

M3

M4

48

• L’apprentissage de représentation c’est :

• L’auto-organisation modulaire c’est :

Description

Problème de classification : nuées dynamiques

49

Expérience

6 tâches à résoudre

3 modules

50

Expérience

1

2

3

Module 1 Module 2 Module 3

51

Bilanenvironnement

SATRSA

Estimation paramètres Controle TR

App. représentationTR

S

TR

π

TR

π

π

SATRSA

Estimation paramètres Controle TR

App. représentationTR

S

Amélioration du rapport complexité / qualité

52

Plan



53

Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement

Grand espace d'états ? Apprentissage de représentation

Multiplicité des problèmes ? Auto-organisation modulaire

Conclusions

parallélisme massif

optimisation du taux qualité / complexité

amélioration du taux qualité / complexité

54

Schémas d'approximations convergents Généricité des résultats

Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches

Conclusions

55

Perspectives

• Extensions/améliorations des travaux de thèse– Gestion adaptative des ressources– Coopération des modules– Implantation matérielle parallèle– Approximateurs de fonctions plus puissants– Le dilemme exploration/exploitation

• Liens avec des travaux de sciences cognitives

apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Documents