agents apprenants pour l'intelligence ambiante sofia z aidenberg laboratoire dinformatique de...
TRANSCRIPT
1
Agents apprenantspour l'intelligence ambiante
Sofia ZAIDENBERGLaboratoire d’Informatique de Grenoble
Équipe PRIMA
19/01/2010Journée RFIA : apprentissage et robotique
Encadré parPatrick REIGNIER et James L. CROWLEY
Informatique ambiante
19/01/2010
2 Journée RFIA : apprentissage et robotique
Informatique ubiquitaire
[Weiser, 1991][Weiser, 1994][Weiser et Brown, 1996]
19/01/2010
3 Journée RFIA : apprentissage et robotique
4 19/01/2010
Journée RFIA : apprentissage et robotique
L’informatique ambiante Dispositifs « autistes »
Indépendants Hétérogènes Inconscients
Système ubiquitaire Accompagner sans s’imposer En périphérie de l’attention Invisible Informatique calme
19/01/2010
5 Journée RFIA : apprentissage et robotique
Problématique Context-aware computing +
Personnalisation Situation + utilisateur action
19/01/2010
8 Journée RFIA : apprentissage et robotique
Alice
Bob
1. Perception
2. Décision
Personnalisation par
Apprentissage
Solution proposée
19/01/2010
10 Journée RFIA : apprentissage et robotique
Plan Présentation du problème Apprentissage dans les systèmes
ubiquitaires Système ubiquitaire Apprentissage par renforcement du modèle de
contexte Expérimentations et résultats Conclusion
19/01/2010
11 Journée RFIA : apprentissage et robotique
Système proposé Un assistant virtuel qui personnifie
le système ubiquitaire L’assistant
Perçoit le contexte grâce aux capteurs Exécute des actions grâce aux actionneurs Reçoit les retours de l’utilisateur pour
l’entraînement Adapte son comportement à ces retours
(apprentissage)
19/01/2010
12 Journée RFIA : apprentissage et robotique
Contraintes Entraînement simple Apprentissage rapide Cohérence au départ Life long learning Confiance de l’utilisateur
Transparence [Bellotti et Edwards, 2001] Système intelligible
Avoir un fonctionnement compris par l’utilisateur Système « responsable »
Peut s’expliquer
19/01/2010
13 Journée RFIA : apprentissage et robotique
système s’adapte aux changements del’environnement et des préférences
Exemple
19/01/2010
14 Journée RFIA : apprentissage et robotique
J109 J120
hyperionRappel !
Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Système ubiquitaire Apprentissage par renforcement du modèle de
contexte Expérimentations et résultats Conclusion
19/01/2010
20 Journée RFIA : apprentissage et robotique
Interconnexion des modules
19/01/2010
22 Journée RFIA : apprentissage et robotique
ACTIVITÉCLAVIER
Capteurs Actionneurs
EMAILS
LOCALISATION
APPLICATIONS
SYNTHÈSEVOCALE
CONTRÔLEDISTANT
PRÉSENCE
APPLICATIONS
EMAILS
Base de données Regroupe
Connaissances statiques Historique des événements et actions
Permet de fournir des explications
Centralisée Interrogée Alimentée Simplifie les requêtes
19/01/2010
24 Journée RFIA : apprentissage et robotique
par tous les modules sur tous les dispositifs
Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Système ubiquitaire Apprentissage par renforcement
du modèle de contexte Apprentissage par renforcement Application de l’apprentissage par renforcement
Expérimentations et résultats Conclusion
19/01/2010
25 Journée RFIA : apprentissage et robotique
Rappel : nos contraintes Entraînement simple Apprentissage rapide Cohérence au départ Apprentissage à vie Explications
19/01/2010
26 Journée RFIA : apprentissage et robotique
Supervisé[Brdiczka et al., 2007]
Apprentissage par renforcement (AR)
19/01/2010
27 Journée RFIA : apprentissage et robotique
Propriété de Markov L’état à l’instant t
ne dépend que de l’état à l’instant t-1
Algorithme standard Q-Learning [Watkins, 1989]
Mise-à-jour des Q-valeurs lors d’une nouvelle expérience{état, action, état suivant, récompense}
Lent car ne progresse que lorsque quelque chose se passe A besoin de beaucoup d’exemples pour apprendre un
comportement
19/01/2010
28 Journée RFIA : apprentissage et robotique
Exemple
19/01/2010
29 Journée RFIA : apprentissage et robotique
Rapide
Loin de la porte+ Rapide =
Ouvrir la porte
Modèle du monde
Architecture DYNA
19/01/2010
30 Journée RFIA : apprentissage et robotique
Agent
Monde
Modèle du monde
ActionRécompenseÉtat
DYNASwitch
[Sutton, 1991]
Politique
Architecture DYNA
19/01/2010
31 Journée RFIA : apprentissage et robotique
Environnement
Modèle du monde
Utilisation
Mise-à-jour
Mise-à-jour
Mise-à-jour
Politique
Interactionsréelles
Fonctionnement global
19/01/2010
32 Journée RFIA : apprentissage et robotique
Environnement
Base de données
État
Action
Récompense ? Exempl
e
Action
Modèle du monde
Interactionsréelles
Mise-à-jour
Mise-à-jour
Politique
Utilisation
Perception
Exemple
Récompense
Politique
Modélisation du problème Composants :
États Actions
19/01/2010
33 Journée RFIA : apprentissage et robotique
Modèle du monde
Interactionsréelles
Utilisation
Mise-à-jour
Mise-à-jour
Politique
Composants : Modèle de transition Modèle de
récompense
L’espace d’états États définis par des prédicats
Humainement compréhensibles (explications)
Exemples : arrivéeEmail ( de = Marc, à = Bob ) dansSonBureau ( John )
État-action : entrée( ) Musique en pause
19/01/2010
34 Journée RFIA : apprentissage et robotique
Modèle du monde
Interactionsréelles
Utilisation
Mise-à-jour
Mise-à-jour
Politique
Prédicats
Prédicats
système
Prédicats environneme
nt
Karl<+>
L’espace d’états Division d’états
arrivéeEmail( de= directeur, à= <+> )Notifier
arrivéeEmail(de = newsletter, à= <+> )Ne pas notifier
19/01/2010
35 Journée RFIA : apprentissage et robotique
Modélisation du problème Utilisateur état ?
Oui état non-observable Problème non-markovien & Environnement stationnaire
Non état observable Problème markovien & Environnement non-stationnaire
Apprentissage à vie Évolutions peu fréquentes de l’environnement DYNA adapté aux modèles imparfaits
PDMPO ou DEC-PDMPO Résolution exacte très complexe Méthodes approximatives Passage à l’échelle de problèmes réels difficile
19/01/2010
36 Journée RFIA : apprentissage et robotique
[Buffet, 2003]
L’espace d’actions Les actions possibles combinent
Transmettre un rappel à l’utilisateur Informer d’un nouvel email Verrouiller l’écran d’un ordinateur Déverrouiller l’écran d’un ordinateur Pauser la musique jouant sur un ordinateur Relancer la musique jouant sur un ordinateur Ne rien faire
19/01/2010
37 Journée RFIA : apprentissage et robotique
Modèle du monde
Interactionsréelles
Utilisation
Mise-à-jour
Mise-à-jour
Politique
Récompenses Récompenses explicites
Par une interface non intrusive
Problèmes récompenses utilisateur
Récompenses implicites Collectées à partir d’indices
(valeur numérique moindre)
Utilisation de traces d’éligibilité
Lissage du modèle
19/01/2010
38 Journée RFIA : apprentissage et robotique
Modèle du monde
Interactionsréelles
Utilisation
Mise-à-jour
Mise-à-jour
Politique
Modèle de l’environnement Construits par apprentissage supervisé
À partir d’exemples réels
Initialisés par le sens commun Système fonctionnel immédiatement Modèle initial vs. Q-valeurs initiales [Kaelbling,
2004] Extensibilité
19/01/2010
39 Journée RFIA : apprentissage et robotique
Modèle du monde
Interactionsréelles
Utilisation
Mise-à-jour
Mise-à-jour
Politique
Modèle de récompense
Modèle de transition
Modèle de récompense
Modèle de transition
19/01/2010
40 Journée RFIA : apprentissage et robotique
s1 s2États de départ
Action ou événement
Modifications
Modèle de récompense
Modèle de transition
+Probabilité
Apprentissage supervisédu modèle de transition La base de données contient des exemples{état précédent, action, état suivant}
19/01/2010
41 Journée RFIA : apprentissage et robotique
Modèle du monde
Interactionsréelles
Utilisation
Mise-à-jour
Mise-à-jour
Politique
s s’
…
t2t1
t3
s’tn+1
Fonctionnement global
19/01/2010
42 Journée RFIA : apprentissage et robotique
Environnement
Base de données
État
Action
Récompense ? Exempl
e
Action
Modèle du monde
Interactionsréelles
Mise-à-jour
Mise-à-jour
Politique
Utilisation
Perception
Exemple
Récompense
Politique
Épisode Un pas d’un épisode en 2 temps :
Sélection d’un événement qui modifie l’état Sélection d’une action pour réagir à l’événement
19/01/2010
43 Journée RFIA : apprentissage et robotique
Modèle du monde
Interactionsréelles
Mise-à-jour
Politique
Utilisation Mise-à-jour
Épisode
19/01/2010
44 Journée RFIA : apprentissage et robotique
Agentd’AR
Environnement
Modèle du monde
Base de données
Appris à partir d’interactions réelles
ou
Q-Learning :mise à jour de
Modèle du monde
Interactionsréelles
Mise-à-jour
Politique
Utilisation Mise-à-jour
Politique
Expérience
Politique
Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Système ubiquitaire Apprentissage par renforcement du modèle de
contexte Expérimentations et résultats Conclusion
19/01/2010
45 Journée RFIA : apprentissage et robotique
Expérimentations Enquête grand public évaluation qualitative
Évaluations quantitatives en 2 étapes : Évaluation de la phase initiale Évaluation du système en fonctionnement normal
19/01/2010
46 Journée RFIA : apprentissage et robotique
Évaluation n°1« autour de l’apprentissage initial »
19/01/2010
47 Journée RFIA : apprentissage et robotique
Évaluation n°1« autour de l’apprentissage initial »
19/01/2010
48 Journée RFIA : apprentissage et robotique
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 970
10
20
30
40
50
60
Épisodes initiaux avec événements et états initiaux tirés au hasard dans la base de données
102550100
Épisodes
Not
e
Nombred’itérationspar épisode :
Évaluation n°2« interactions et apprentissages »
19/01/2010
49 Journée RFIA : apprentissage et robotique
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103
109
100
105
110
115
120
125
Épisodes
No
te
Évaluation n°2« interactions et apprentissages »
19/01/2010
50 Journée RFIA : apprentissage et robotique
60 67 74 81 88 95 102 109 116 123 130 137 144 151 158 165 172 179 18688
89
90
91
92
93
94
95
96
97
Épisodes
No
te
Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Système ubiquitaire Apprentissage par renforcement du modèle de
contexte Expérimentations et résultats Conclusion
19/01/2010
51 Journée RFIA : apprentissage et robotique
Contributions Personnalisation d’un système ubiquitaire
Sans spécification explicite Évolutive
Adaptation de l’apprentissage par renforcement indirectà un problème réel Construction d’un modèle du monde Injection de connaissances initiales
Mise en place d’un prototype
19/01/2010
52 Journée RFIA : apprentissage et robotique
Perspectives
Analyse non-interactive des données
Interactions avec l’utilisateur Phase de débriefing
19/01/2010
53 Journée RFIA : apprentissage et robotique
Conclusion
L’assistant est un moyende faire une application d’intelligence ambiante
C’est l’utilisateur qui le rend intelligent
19/01/2010
54 Journée RFIA : apprentissage et robotique
Merci de votre attention
Questions ?
19/01/2010
55 Journée RFIA : apprentissage et robotique
Bibliographie[Bellotti et Edwards, 2001]
Victoria BELLOTTI et Keith EDWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, 2001.
[Brdiczka et al., 2007]
Oliver BRDICZKA, James L. CROWLEY et Patrick REIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, 2007.
[Buffet, 2003] Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, 2003.
[Emonet et al., 2006]
Rémi Emonet, Dominique Vaufreydaz, Patrick Reignier et Julien Letessier. « O3MiSCID: an Object Oriented Opensource Middleware for Service Connection, Introspection and Discovery ». Dans1st IEEE International Workshop on Services Integration in Pervasive Environments, 2006.
[Kaelbling, 2004] Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, 2004.
[Maes, 1994] Pattie MAES. « Agents that reduce work and information overload ». Dans Commun. ACM, 1994.
[Maisonnasse 2007]
Jerome MAISONNASSE, Nicolas GOURIER, Patrick REIGNIER et James L. CROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, 2007.
[Moore, 1975] Gordon E. MOORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting,1975. 19/01/201
056 Journée RFIA : apprentissage et robotique
Bibliographie[Nonogaki et Ueda, 1991]
Hajime Nonogaki et Hirotada Ueda. « FRIEND21project: a construction of 21st century human interface ». Dans CHI '91: Proceedings of the SIGCHI conference on Human factors in computing systems, 1991.
[Roman et al., 2002]
Manuel ROMAN, Christopher K. HESS, Renato CERQUEIRA,Anand RANGANATHAN, Roy H. CAMPBELL et Klara NAHRSTEDT. « Gaia: A Middleware Infrastructure to Enable Active Spaces ». Dans IEEE Pervasive Computing, 2002.
[Sutton, 1991] Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, 1991.
[Weiser, 1991] Mark WEISER. « The computer for the 21st century ». Dans Scientic American, 1991.
[Weiser, 1994] Mark WEISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, 1993.
[Weiser et Brown, 1996]
Mark WEISER et John Seely BROWN. « The coming age of calm technology ». http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm, 1996.
[Watkins, 1989] CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, 1989.
19/01/2010
57 Journée RFIA : apprentissage et robotique
Interconnexion des modules
19/01/2010
58 Journée rfia : apprentissage et robotique
ACTIVITÉ
CLAVIER
Capteurs Actionneurs
EMAILS
LOCALISATION
PRÉSENCE
APPLICATIONS
APPLICATIONS
EMAILSSYNTHÈSE
VOCALE
CONTRÔLE
DISTANT
Service OMiSCID
19/01/2010
59 Journée rfia : apprentissage et robotique
Définition d’un état
19/01/2010
60 Journée rfia : apprentissage et robotique
Prédicat Arguments
alarm title, hour, minute
xActivity machine, isActive
inOffice user, office
absent user
hasUnreadMail from, to, subject, body
entrance isAlone, friendlyName, btAddress
exit isAlone, friendlyName, btAddress
task taskName
user login
userOffice office, login
userMachine machine, login
computerState machine, isScreenLocked, isMusicPaused
Modèle de l’environnement
19/01/2010
61 Journée rfia : apprentissage et robotique
ModèleÉtat E[état suivant]
E[renforcement]
ActionÉvénement
ou
Réduction de l’espace d’états Accélération de l’apprentissage
Factorisation d’états
Division d’états
19/01/2010
62 Journée rfia : apprentissage et robotique
État Action Q-valeur
…entrance(isAlone=true, friendlyName=<+>, btAddress=<+>)…
pauseMusic 125.3
État Action Q-valeur
…hasUnreadMail(from=boss, to=<+>,subject=<+>, body=<+>)…
inform 144.02
…hasUnreadMail(from=newsletter, to=<+>, subject=<+>, body=<+>)…
notInform 105
Jokers<*> et <+>
Le simulateur de l’environnement
19/01/2010
63 Journée rfia : apprentissage et robotique
Critère d’évaluation : la note Résultat de l’AR : une Q-table Comment savoir si elle est « bonne » ? Apprentissage réussi si
Comportement correspond aux souhaits de l’utilisateur
Et c’est mieux si on a beaucoup exploré et si on a une estimation du comportement dans beaucoup d’états
19/01/2010
64 Journée rfia : apprentissage et robotique
« Le tableau de bord »
19/01/2010
65 Journée rfia : apprentissage et robotique
Permet d’envoyer par un clic les mêmes événements que les capteurs
Modèle de récompense Ensemble d’entrées spécifiant
Des contraintes sur certains arguments de l’état Une action La récompense
19/01/2010
66 Journée rfia : apprentissage et robotique
Modèle de récompense
19/01/2010
67 Journée rfia : apprentissage et robotique
s1
-50
États de départ
Action
Récompense
Modèle de transition
Modèle de récompense
Apprentissage supervisédu modèle de récompense La base de données contient des exemples{état précédent, action, récompense}
19/01/2010
68 Journée rfia : apprentissage et robotique
Modèle du monde
Interactionsréelles
Utilisation
Mise-à-jour
Mise-à-jour
Politique
s a rsss
…
a r
s a r
e1
en+1