apprentissage de représentation et auto-organisation modulaire pour un agent autonome bruno...

55
Apprentissage de représentation et auto- organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

Upload: aurore-pasquier

Post on 03-Apr-2015

104 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

Apprentissage de représentation et auto-organisation modulaire

pour un agent autonome

Bruno Scherrer

6 janvier 2003

Directeurs : F. Alexandre, F. Charpillet

Page 2: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

2

Construire un agent autonome

• Calculer une stratégie/politique

• Exemples– marcher– conduire une voiture– jouer au backgammon

Environnement

perception actionrenforcement

instantané

long-terme

Page 3: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

3

Représentation et organisation modulaire

Organisation

en modules

spécialisés

Organisation

centralisée

24 V

50000 V

Perception brute Représentation

?

Page 4: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

4

S'inspirer d'un système performant

• autonome• robuste• "anytime"• dynamique• distribué & parallèle• tolérant aux pannes

réseaux fortement connectés de processeurs élémentaires

fonctionnant en parallèle

Algorithmes connexionnistes

Page 5: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

5

Objectifs

• Montrer que les problèmes consistant à– calculer une stratégie/politique– apprendre une représentation– organiser un système en modules

admettent des solutions connexionnistes

Comprendre les enjeux computationnels

d'une telle approche

Page 6: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

6

Plan

• Introduction

• Un calcul connexionniste

• Contrôle optimal et apprentissage par renforcement

• Apprentissage de représentation

• Auto-organisation modulaire

• Conclusions et perspectives

Page 7: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

7

Algorithmes connexionnistes

• Connectivité• Activations• Loi(s) d'apprentissage• (A)synchronisme ?

entrées

sorties

propagationsynchrone

Loi deHebb

Système dynamique généralement complexe à analyser et concevoir !

Page 8: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

8

Un calcul connexionniste

unités

Activation

t=0

M

t=1

M M

t=∞

...

M M M...

<1Contraction Point fixe

Page 9: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

9

Un calcul connexionniste

• Calcul du point fixe d'une contraction– Solution traditionnelle

– Solution connexionniste

calcul distribuéparallèle

asynchrone

M

[Bertsekas & Tsitsiklis, 89]

Page 10: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

10

• Propriétés du calcul du point fixe…– anytime– dynamique

… avec une méthode connexionniste– massivement parallèle

• Difficulté : taille du réseau– nombre d’itérations pour approcher le point

fixe

Bilan

Page 11: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

11

Plan

• Introduction

• Un calcul connexionniste

• Contrôle optimal et apprentissage par renforcement

• Apprentissage de représentation

• Auto-organisation modulaire

• Conclusions et perspectives

Page 12: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

12

Contrôle optimal

étatsactionstransitionrécompense

T(s,a,s’)=P(s’|s,a)

R(s)

: S → AOn cherche une politique

qui maximise les récompenses sur le long terme

On calcule la fonction de valeur optimale :

instantané

long-terme

Page 13: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

13

Illustration

Actions

Plan :

Page 14: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

14

Illustration

• Récompense

Page 15: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

15

Illustration

• Fonction de valeur optimale

récompense

Page 16: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

16

Illustration

• Politique optimale

fonction de valeur optimale

Page 17: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

17

Lien avec le connexionnisme

V

R

s

s'

s''

...

T(s,←,s')

T(s,↑,s'')

Page 18: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

18

Un calcul dynamique

Page 19: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

19

Apprentissage par renforcement

• Problème de contrôle optimal dont on ne connaît pas les paramètres a priori

• Estimation des paramètres

• Le dilemme exploration/exploitation

? ?

Page 20: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

20

Lien avec le connexionnisme

• Dans le réseau– Estimation de R : calculée par chaque unité– Estimation de T : loi d'apprentissage du

réseau

similaire à la loi de HebbV

R

s

s'

s''

...

T(s,←,s')

T(s,↑,s'')

Page 21: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

21

• Une architecture connexionniste pour l’apprentissage par renforcement :

• Difficulté : taille de l'espace d'états– nombre d’itérations pour le point fixe– estimation de R et T

Bilan

SATRSA

Estimation paramètres Controle

environnement

πTR

Page 22: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

22

Plan

• Introduction

• Un calcul connexionniste

• Contrôle optimal et apprentissage par renforcement

• Apprentissage de représentation

• Auto-organisation modulaire

• Conclusions et perspectives

Page 23: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

23

Représentation

Difficile à exploiter

Page 24: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

24

Représentation

Chemin sous-optimal

Page 25: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

25

Représentation

Chemin optimal

Page 26: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

26

Qu'est-ce qu'une bonne représentation ?

Qualité

Complexité

Page 27: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

27

Mesure de l’erreur d'approximation

• L’erreur d’approximation définie par

dépend de l’erreur d’interpolation

et est le point fixe de

• Calcul de la politique la plus incertaine

[Munos, 99]

instantané

long-terme

Page 28: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

28

Mesure de l’erreur

• Erreur d’interpolation

Page 29: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

29

Mesure de l’erreur

• Erreur d’approximation

Page 30: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

30

Mesure de l’erreur

• Politique la plus incertaine

Page 31: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

31

Réduction de l'erreur

Qualité

Complexité

Spécialisation

Généralisation

Page 32: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

32

Réduction de l’erreur

• On peut améliorer une approximation...

…en faisant une descente de gradient :

Point fixe

instantanélong-terme

zones d'intérêt

Page 33: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

33

Réduction de l’erreur

zone d'intérêt

Spécialisation

Généralisation

Page 34: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

34

Réduction de l’erreur

• Nouvelle représentation, nouvelles erreurs

Spécialisation

Généralisation

Page 35: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

35

Réduction de l’erreur

• Nouvelle représentation, nouvelles erreurs

Page 36: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

36

Réduction de l’erreur

• Nouvelle représentation, nouvelles erreurs

Page 37: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

37

Réduction de l’erreur

• Nouvelle représentation, nouvelles erreurs

Spécialisation

Généralisation

Page 38: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

38

Expériences (1/2)

Page 39: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

39

Expériences (1/2)

Page 40: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

40

Expériences (2/2)

Page 41: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

41

Expériences (2/2)

Page 42: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

42

• Une couche fonctionnelle connexionniste supplémentaire

Bilan

SATRSA

Estimation paramètres Controle

environnement

πTR

App. représentationπTR

S

TR

Optimisation du rapport complexité / qualité

Page 43: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

43

Plan

• Introduction

• Un calcul connexionniste

• Contrôle optimal et apprentissage par renforcement

• Apprentissage de représentation

• Auto-organisation modulaire

• Conclusions et perspectives

Page 44: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

44

Apprentissage de représentation

M

bonne représentationmauvaise représentation

Page 45: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

45

Apprentissage de représentation

M1

M2

M3

M4

Avoir une seule représentation peut être insuffisant !

Page 46: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

46

Apprentissage de représentations

M1

M2

M3

M4

Page 47: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

47

Une approche modulaire

M1

M2

M3

M4

Page 48: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

48

• L’apprentissage de représentation c’est :

• L’auto-organisation modulaire c’est :

Description

Problème de classification : nuées dynamiques

Page 49: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

49

Expérience

6 tâches à résoudre

3 modules

Page 50: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

50

Expérience

1

2

3

Module 1 Module 2 Module 3

Page 51: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

51

Bilanenvironnement

SATRSA

Estimation paramètres Controle TR

App. représentationTR

S

TR

π

TR

π

π

SATRSA

Estimation paramètres Controle TR

App. représentationTR

S

Amélioration du rapport complexité / qualité

Page 52: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

52

Plan

• Introduction

• Un calcul connexionniste

• Contrôle optimal et apprentissage par renforcement

• Apprentissage de représentation

• Auto-organisation modulaire

• Conclusions et perspectives

Page 53: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

53

Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement

Grand espace d'états ? Apprentissage de représentation

Multiplicité des problèmes ? Auto-organisation modulaire

Conclusions

parallélisme massif

optimisation du taux qualité / complexité

amélioration du taux qualité / complexité

Page 54: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

54

Schémas d'approximations convergents Généricité des résultats

Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches

Conclusions

Page 55: Apprentissage de représentation et auto-organisation modulaire pour un agent autonome Bruno Scherrer 6 janvier 2003 Directeurs : F. Alexandre, F. Charpillet

55

Perspectives

• Extensions/améliorations des travaux de thèse– Gestion adaptative des ressources– Coopération des modules– Implantation matérielle parallèle– Approximateurs de fonctions plus puissants– Le dilemme exploration/exploitation

• Liens avec des travaux de sciences cognitives