apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Apprentissage de représentation et auto-organisation modulaire

pour un agent autonome

Bruno Scherrer6 janvier 2003

Directeurs : F. Alexandre, F. Charpillet

Construire un agent autonome

• Calculer une stratégie/politique

• Exemples– marcher– conduire une voiture– jouer au backgammon

Environnement

perception actionrenforcement

instantané

long-terme

Représentation et organisation modulaire

Organisationen modulesspécialisés

Organisationcentralisée

50000 V

Perception brute Représentation

S'inspirer d'un système performant

• autonome• robuste• "anytime"• dynamique• distribué & parallèle• tolérant aux pannes

réseaux fortement connectés de processeurs élémentaires

fonctionnant en parallèle

Algorithmes connexionnistes

Objectifs

• Montrer que les problèmes consistant à– calculer une stratégie/politique– apprendre une représentation– organiser un système en modules

admettent des solutions connexionnistes

Comprendre les enjeux computationnelsd'une telle approche

• Introduction• Un calcul connexionniste • Contrôle optimal et apprentissage par

renforcement• Apprentissage de représentation• Auto-organisation modulaire• Conclusions et perspectives

Algorithmes connexionnistes

• Connectivité• Activations• Loi(s) d'apprentissage• (A)synchronisme ? entrées

sorties

propagationsynchrone

Loi deHebb

Système dynamique généralement complexe à analyser et concevoir !

Un calcul connexionniste

unités

Activation

M M M...

<1Contraction Point fixe

Un calcul connexionniste

• Calcul du point fixe d'une contraction– Solution traditionnelle

– Solution connexionniste

calcul distribuéparallèle

asynchroneM

[Bertsekas & Tsitsiklis, 89]

• Propriétés du calcul du point fixe…– anytime– dynamique

… avec une méthode connexionniste– massivement parallèle

• Difficulté : taille du réseau– nombre d’itérations pour approcher le point

• Introduction• Un calcul connexionniste• Contrôle optimal et apprentissage par

Contrôle optimalétatsactionstransitionrécompense

T(s,a,s’)=P(s’|s,a)

: S → AOn cherche une politique

qui maximise les récompenses sur le long terme

On calcule la fonction de valeur optimale :

instantané

long-terme

Illustration

Actions

Plan :

Illustration

• Récompense

Illustration

• Fonction de valeur optimale

récompense

Illustration

• Politique optimale

fonction de valeur optimale

Lien avec le connexionnisme

T(s,←,s')

T(s,↑,s'')

Un calcul dynamique

Apprentissage par renforcement

• Problème de contrôle optimal dont on ne connaît pas les paramètres a priori

• Estimation des paramètres

• Le dilemme exploration/exploitation

Lien avec le connexionnisme

• Dans le réseau– Estimation de R : calculée par chaque unité– Estimation de T : loi d'apprentissage du

réseau

similaire à la loi de HebbV

T(s,←,s')

T(s,↑,s'')

• Une architecture connexionniste pour l’apprentissage par renforcement :

• Difficulté : taille de l'espace d'états– nombre d’itérations pour le point fixe– estimation de R et T

SATRSA

Estimation paramètres Controle

environnement

Représentation

Difficile à exploiter

Représentation

Chemin sous-optimal

Représentation

Chemin optimal

Qu'est-ce qu'une bonne représentation ?

Qualité

Complexité

Mesure de l’erreur d'approximation

• L’erreur d’approximation définie par

dépend de l’erreur d’interpolation

et est le point fixe de

• Calcul de la politique la plus incertaine

[Munos, 99]

instantané

long-terme

Mesure de l’erreur

• Erreur d’interpolation

• Erreur d’approximation

• Politique la plus incertaine

Réduction de l'erreur

Qualité

Complexité

Spécialisation

Généralisation

Réduction de l’erreur

• On peut améliorer une approximation...

…en faisant une descente de gradient :

Point fixe

instantanélong-terme

zones d'intérêt

Réduction de l’erreurzone d'intérêt

Spécialisation

Généralisation

• Nouvelle représentation, nouvelles erreurs

Spécialisation

Généralisation

• Nouvelle représentation, nouvelles erreursSpécialisation

Généralisation

Expériences (1/2)

Expériences (2/2)

• Une couche fonctionnelle connexionniste supplémentaire

SATRSA

Estimation paramètres Controle

environnement

App. représentationπTR

Optimisation du rapport complexité / qualité

Apprentissage de représentation

bonne représentationmauvaise représentation

Apprentissage de représentation

Avoir une seule représentation peut être insuffisant !

Apprentissage de représentations

Une approche modulaire

• L’apprentissage de représentation c’est :

• L’auto-organisation modulaire c’est :

Description

Problème de classification : nuées dynamiques

Expérience

6 tâches à résoudre

3 modules

Expérience

Module 1 Module 2 Module 3

Bilanenvironnement

SATRSA

Estimation paramètres Controle TR

App. représentationTR

SATRSA

Estimation paramètres Controle TR

App. représentationTR

Amélioration du rapport complexité / qualité

Construction d'algorithmes connexionnistes ? Calcul d'un point fixe Application à l'apprentissage par renforcement

Grand espace d'états ? Apprentissage de représentation

Multiplicité des problèmes ? Auto-organisation modulaire

Conclusions

parallélisme massif

optimisation du taux qualité / complexité

amélioration du taux qualité / complexité

Schémas d'approximations convergents Généricité des résultats

Validation sur des problèmes complexes Véhicule de type voiture Agent autonome devant résoudre une multitude de tâches

Conclusions

Perspectives

• Extensions/améliorations des travaux de thèse– Gestion adaptative des ressources– Coopération des modules– Implantation matérielle parallèle– Approximateurs de fonctions plus puissants– Le dilemme exploration/exploitation

• Liens avec des travaux de sciences cognitives

apprentissage de représentation et auto-organisation modulaire pour un agent autonome

Documents

v1 bras 2000 sigma 3 articulations c/d a/b e/f bras...

architecture modulaire maintenance industrielle

protection modulaire et parafoudres - ourdoconline.com ·...

onduleur on line modulaire aunilec

architecture modulaire bp agent technique de prévention et...

banc modulaire des technologies

tablaeau modulaire schneider.pdf

contrôleur programmable de sécurité modulaire

gamme modulaire d‘actionneurs électriques

thème montage modulaire

dispositif modulaire

svs cellule modulaire isolé

voiture autonome

lubrification et graissage la juste quantité au bon...

autonome auto's

sirh souple, complet et modulaire

plate-forme modulaire d'ingÉnierie a1

vente construction modulaire

agent commercial

nerveux autonome