Download - Implémentation de mécanismes de développement cognitif précoce dans des agents artificiels autonomes
Implementation of DEvelopmentAl Learning (IDEAL)
[email protected]://liris.cnrs.fr/ideal
ANR-RPDOC 2010
8 octobre 2010 1
Implémentation de mécanismes de développement cognitif précoce
dans des agents artificiels autonomes
Plan de la pésentation
• Développement cognitif précoce?• Démonstration préliminaire• Principes• Positionnement scientifique• Objectifs et déroulement du projet
5/20/2010 2
Développement cognitif précoce• Développement "à partir de zéro"
– Pas d'ontologie de l'environnement prédéfinie.– Mécanismes qui précèdent le raisonnement et la réflexion.
• Hypothèse "émergentiste"– La cognition est un phénomène émergent des comportements
(phénoménologie, Heidegger, 1927 ).– Implémenter des mécanismes d'organisation des comportements … pour
observer des phénomènes cognitifs (connaissance, émotions, décision, etc.).
• Hypothèse "constructiviste" (Piaget, 1937)– Epistémologie pragmatique ("meaning is use", Wittgenstein, 1953).– Epistémologie évolutionniste (Popper, 1972).– Motivation intrinsèque.
5/20/2010 3
Organisation autonome des comportements
• Initialisation:– Ensemble de possibilités d'interaction primitives– Tendances innées à certaines interactions
• Apprentissage de séquences d'interaction:– Séquences non markoviennes– Séquences hiérarchiques (Jeff Hawkins, 2004)
• Challenges:– Modélisation autonome de traces d'activité– Mémoire épisodique procédurale
5/20/2010 4
Ceci n'est pas un labirynthe
… C'est un environnement offrant des régularités séquentielles hiérarchiques
5/20/2010 5
Ceci n'est pas un "buffer perceptif"Touch: Move: Turn:
0
-1
010
-10
0
0
0
-5
… ce sont des schemes sensorimoteurs (Piaget, 1937)
5/20/2010 6
Ceci n'est pas un mécanisme de récompense
• Inclination = espérance de succès * Satisfaction• Nombre de collisions (n) * Satisfaction (-10)• + Nombre de déplacements (m) * Satisfaction (10)• = inclination à se déplacer dans ce contexte
• Ceci est une motivation intrinsèque :– Prédilection innée pour certains schèmes– Reconnaissance autonome du contexte – Auto organisation des comportements
5/20/2010 7
Légende 3D
5/20/2010 8
Démonstration
Link
Touch:
Bump:
Ouch!
Oh!Surprise:
Rub:
5/20/2010 9
Mécanisme d'apprentissage
Turn, wTouch, w
Turn S (0)
Touch S (-1)
Touch F (0)
Schema
Act
Schema's context
Schema's intention
Act's schema
Learning
Move, w
Move S (10)
Bump F (-10)
Touch-Move, w
Touch-Move S (10)
Touch-MoveF(-1)
Turn F (-5)
Touch-Move-Turn, w
Touch-Move-TurnS (10)
5/20/2010 10
Trace O O O O O O O O O O O O O O
O O
O O O
O
O
(O)
O
O
O((O))
(O)
O
O
O
(O)
O
O
(O)(O((O)))
O O
O
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 68 69 70 71 72 73 74 76 77 78 79 80
O
67
O
75 81 82 83 84
85 86 87 88 89 90
O
(O)(O((O))) (O)(O((O)))
((O)(O((O)))) ((O)(O((O))))
O
O O O O
OO
O
(O)
(O)
O
(O)
O
(O)
O
O((O)) O((O))O((O))
O
O((O))
(O)(O((O))) (O)(O((O))) (O)(O((O)))
(O)(O((O)))
((O)(O((O)))) ((O)(O((O))))((O)(O((O)))) ((O)(O((O))))((O)(O((O)))) ((O)(O((O))))
O((O))
(O)(O((O)))
((O)(O((O)))) ((O)(O((O))))
O X XTouch Forward Right Left Succeed Fail
(O)
O((O))
(O)(O((O)))
(((O)(O((O)))) ((O)(O((O))))) (((O)(O((O)))) ((O)(O((O)))))
(O)(O((O)))
91
((O)(O((O)))) ((O)(O((O))))
Control cycles
S4
[S4,F]
S5
[S5,S]
S7S6
[S6,F]
S8
S7
S10
S8
S12
S10
[S2,S]
5/20/2010 11
Apprentissage du context
S7
S3, S
S7,S
Time
S8
S10, 4
S8, S(3)
S10,S
S9, 6
S9,S
S13,1
Currentsituation
S6,S(5)
Basesituation
S6
S3,S
83 84
S12,1
S11
S11,S
Enacted schema
Enacted act
S5, SS2, S
5/20/2010 12
Résultats
• Apprend à augmenter sa satisfaction/cycle.• Apprend à percevoir son environnement.
– Sans buffer perceptif prédéfini.– "Compréhension pragmatique" de la perception.
• Construit une "Situation awareness".– Inclut des anticipations et des "affordances".
• Mémorise des épisodes d'interaction.– Mémoire épisodique avec des "temporal patterns".
5/20/2010 13
Spécificités• / Modélisation cognitive.
– Pas de tâche prédefinie.– Pas d'engagement ontologique préalable sur l'environnement.
• / Apprentissage par renforcement– Pas d'objectif final à atteindre ni de "problem-space" pré modélisé.– Satisfaction vs Reward
• / Apprentissage de séquences– Ne requiert pas l'hypothèse de Markov
• / Schema mechanism– Motivation Intrinsèque
• / Robotique– Pas de buffer perceptif prédéfini.
• / Raisonnement à partir de trace– Modélisation automatique des traces
5/20/2010 14
SchemeScheme
Représentation alternative de la cognition
Symbolic computation
PerceptionAction
EnvironmentTime
Scheme Scheme
Scheme
Préserve l'unité perception/action (de nombreux auteurs)Ancre le sens dans l'activité (Harnad, 1990)Ouvre la voie vers d'autre mécanismes (Piaget, 1937)
Elaboration
5/20/2010 15
De: Vers:
Faiblesses
• Ca sert à rien!– (A part comprendre les systèmes auto motivés)
• Mécanismes de très bas niveau• Beaucoup de chemin à parcourir
5/20/2010 16
Challenges
• Simulation de "cours d'action"– Par inhibition des actions
• Perception distale– Double processus?
• Apprentissage de régularités spatiales– Représentations mentales
• Découverte d'objets persistants• Implémentation dans des robots5/20/2010 17
Projet IDEAL• Objectifs :
– Produire des démonstrations en ligne interactives.– Anticipation d'un futur débat public d'éthique.
• Stratégie :– Augmenter progressivement la complexité.
• Environnement de "jeu" 3D interactif– Blender ? Ogre ? IrrLicht ?
• Enrichir les mécanismes d'apprentissage
5/20/2010 18
Déroulement
• Printemps 2011– 2 stages de Master 2 en informatique
• Outils d’analyse d’activité d’agents artificiels intelligents• Intégration d’agents artificiels intelligents dans des
environnements de simulation interactifs
• Automne 2011– 1 doctorant (3 ans)
• 2012 - 2013– 2 autres stages de Master
5/20/2010 19