agents apprenants pour l'intelligence ambiante sofia z aidenberg laboratoire dinformatique de...

58
Agents apprenants pour l'intelligence ambiante Sofia ZAIDENBERG Laboratoire d’Informatique de Grenoble Équipe PRIMA 19/01/2010 1 Journée RFIA : apprentissage et robotique Encadré par Patrick REIGNIER et James L. CROWLEY

Upload: marcellin-carton

Post on 03-Apr-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

1

Agents apprenantspour l'intelligence ambiante

Sofia ZAIDENBERGLaboratoire d’Informatique de Grenoble

Équipe PRIMA

19/01/2010Journée RFIA : apprentissage et robotique

Encadré parPatrick REIGNIER et James L. CROWLEY

Page 2: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Informatique ambiante

19/01/2010

2 Journée RFIA : apprentissage et robotique

Informatique ubiquitaire

[Weiser, 1991][Weiser, 1994][Weiser et Brown, 1996]

Page 3: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

19/01/2010

3 Journée RFIA : apprentissage et robotique

Page 4: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

4 19/01/2010

Journée RFIA : apprentissage et robotique

Page 5: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

L’informatique ambiante Dispositifs « autistes »

Indépendants Hétérogènes Inconscients

Système ubiquitaire Accompagner sans s’imposer En périphérie de l’attention Invisible Informatique calme

19/01/2010

5 Journée RFIA : apprentissage et robotique

Page 6: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Problématique Context-aware computing +

Personnalisation Situation + utilisateur action

19/01/2010

8 Journée RFIA : apprentissage et robotique

Alice

Bob

1. Perception

2. Décision

Page 7: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Personnalisation par

Apprentissage

Solution proposée

19/01/2010

10 Journée RFIA : apprentissage et robotique

Page 8: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Plan Présentation du problème Apprentissage dans les systèmes

ubiquitaires Système ubiquitaire Apprentissage par renforcement du modèle de

contexte Expérimentations et résultats Conclusion

19/01/2010

11 Journée RFIA : apprentissage et robotique

Page 9: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Système proposé Un assistant virtuel qui personnifie

le système ubiquitaire L’assistant

Perçoit le contexte grâce aux capteurs Exécute des actions grâce aux actionneurs Reçoit les retours de l’utilisateur pour

l’entraînement Adapte son comportement à ces retours

(apprentissage)

19/01/2010

12 Journée RFIA : apprentissage et robotique

Page 10: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Contraintes Entraînement simple Apprentissage rapide Cohérence au départ Life long learning Confiance de l’utilisateur

Transparence [Bellotti et Edwards, 2001] Système intelligible

Avoir un fonctionnement compris par l’utilisateur Système « responsable »

Peut s’expliquer

19/01/2010

13 Journée RFIA : apprentissage et robotique

système s’adapte aux changements del’environnement et des préférences

Page 11: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Exemple

19/01/2010

14 Journée RFIA : apprentissage et robotique

J109 J120

hyperionRappel !

Page 12: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Système ubiquitaire Apprentissage par renforcement du modèle de

contexte Expérimentations et résultats Conclusion

19/01/2010

20 Journée RFIA : apprentissage et robotique

Page 13: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Interconnexion des modules

19/01/2010

22 Journée RFIA : apprentissage et robotique

ACTIVITÉCLAVIER

Capteurs Actionneurs

EMAILS

LOCALISATION

APPLICATIONS

SYNTHÈSEVOCALE

CONTRÔLEDISTANT

PRÉSENCE

APPLICATIONS

EMAILS

Page 14: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Base de données Regroupe

Connaissances statiques Historique des événements et actions

Permet de fournir des explications

Centralisée Interrogée Alimentée Simplifie les requêtes

19/01/2010

24 Journée RFIA : apprentissage et robotique

par tous les modules sur tous les dispositifs

Page 15: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Système ubiquitaire Apprentissage par renforcement

du modèle de contexte Apprentissage par renforcement Application de l’apprentissage par renforcement

Expérimentations et résultats Conclusion

19/01/2010

25 Journée RFIA : apprentissage et robotique

Page 16: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Rappel : nos contraintes Entraînement simple Apprentissage rapide Cohérence au départ Apprentissage à vie Explications

19/01/2010

26 Journée RFIA : apprentissage et robotique

Supervisé[Brdiczka et al., 2007]

Page 17: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Apprentissage par renforcement (AR)

19/01/2010

27 Journée RFIA : apprentissage et robotique

Propriété de Markov L’état à l’instant t

ne dépend que de l’état à l’instant t-1

Page 18: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Algorithme standard Q-Learning [Watkins, 1989]

Mise-à-jour des Q-valeurs lors d’une nouvelle expérience{état, action, état suivant, récompense}

Lent car ne progresse que lorsque quelque chose se passe A besoin de beaucoup d’exemples pour apprendre un

comportement

19/01/2010

28 Journée RFIA : apprentissage et robotique

Page 19: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Exemple

19/01/2010

29 Journée RFIA : apprentissage et robotique

Rapide

Loin de la porte+ Rapide =

Ouvrir la porte

Modèle du monde

Page 20: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Architecture DYNA

19/01/2010

30 Journée RFIA : apprentissage et robotique

Agent

Monde

Modèle du monde

ActionRécompenseÉtat

DYNASwitch

[Sutton, 1991]

Page 21: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Politique

Architecture DYNA

19/01/2010

31 Journée RFIA : apprentissage et robotique

Environnement

Modèle du monde

Utilisation

Mise-à-jour

Mise-à-jour

Mise-à-jour

Politique

Interactionsréelles

Page 22: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Fonctionnement global

19/01/2010

32 Journée RFIA : apprentissage et robotique

Environnement

Base de données

État

Action

Récompense ? Exempl

e

Action

Modèle du monde

Interactionsréelles

Mise-à-jour

Mise-à-jour

Politique

Utilisation

Perception

Exemple

Récompense

Politique

Page 23: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Modélisation du problème Composants :

États Actions

19/01/2010

33 Journée RFIA : apprentissage et robotique

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

Composants : Modèle de transition Modèle de

récompense

Page 24: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

L’espace d’états États définis par des prédicats

Humainement compréhensibles (explications)

Exemples : arrivéeEmail ( de = Marc, à = Bob ) dansSonBureau ( John )

État-action : entrée( ) Musique en pause

19/01/2010

34 Journée RFIA : apprentissage et robotique

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

Prédicats

Prédicats

système

Prédicats environneme

nt

Karl<+>

Page 25: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

L’espace d’états Division d’états

arrivéeEmail( de= directeur, à= <+> )Notifier

arrivéeEmail(de = newsletter, à= <+> )Ne pas notifier

19/01/2010

35 Journée RFIA : apprentissage et robotique

Page 26: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Modélisation du problème Utilisateur état ?

Oui état non-observable Problème non-markovien & Environnement stationnaire

Non état observable Problème markovien & Environnement non-stationnaire

Apprentissage à vie Évolutions peu fréquentes de l’environnement DYNA adapté aux modèles imparfaits

PDMPO ou DEC-PDMPO Résolution exacte très complexe Méthodes approximatives Passage à l’échelle de problèmes réels difficile

19/01/2010

36 Journée RFIA : apprentissage et robotique

[Buffet, 2003]

Page 27: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

L’espace d’actions Les actions possibles combinent

Transmettre un rappel à l’utilisateur Informer d’un nouvel email Verrouiller l’écran d’un ordinateur Déverrouiller l’écran d’un ordinateur Pauser la musique jouant sur un ordinateur Relancer la musique jouant sur un ordinateur Ne rien faire

19/01/2010

37 Journée RFIA : apprentissage et robotique

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

Page 28: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Récompenses Récompenses explicites

Par une interface non intrusive

Problèmes récompenses utilisateur

Récompenses implicites Collectées à partir d’indices

(valeur numérique moindre)

Utilisation de traces d’éligibilité

Lissage du modèle

19/01/2010

38 Journée RFIA : apprentissage et robotique

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

Page 29: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Modèle de l’environnement Construits par apprentissage supervisé

À partir d’exemples réels

Initialisés par le sens commun Système fonctionnel immédiatement Modèle initial vs. Q-valeurs initiales [Kaelbling,

2004] Extensibilité

19/01/2010

39 Journée RFIA : apprentissage et robotique

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

Modèle de récompense

Modèle de transition

Modèle de récompense

Page 30: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Modèle de transition

19/01/2010

40 Journée RFIA : apprentissage et robotique

s1 s2États de départ

Action ou événement

Modifications

Modèle de récompense

Modèle de transition

+Probabilité

Page 31: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Apprentissage supervisédu modèle de transition La base de données contient des exemples{état précédent, action, état suivant}

19/01/2010

41 Journée RFIA : apprentissage et robotique

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

s s’

t2t1

t3

s’tn+1

Page 32: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Fonctionnement global

19/01/2010

42 Journée RFIA : apprentissage et robotique

Environnement

Base de données

État

Action

Récompense ? Exempl

e

Action

Modèle du monde

Interactionsréelles

Mise-à-jour

Mise-à-jour

Politique

Utilisation

Perception

Exemple

Récompense

Politique

Page 33: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Épisode Un pas d’un épisode en 2 temps :

Sélection d’un événement qui modifie l’état Sélection d’une action pour réagir à l’événement

19/01/2010

43 Journée RFIA : apprentissage et robotique

Modèle du monde

Interactionsréelles

Mise-à-jour

Politique

Utilisation Mise-à-jour

Page 34: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Épisode

19/01/2010

44 Journée RFIA : apprentissage et robotique

Agentd’AR

Environnement

Modèle du monde

Base de données

Appris à partir d’interactions réelles

ou

Q-Learning :mise à jour de

Modèle du monde

Interactionsréelles

Mise-à-jour

Politique

Utilisation Mise-à-jour

Politique

Expérience

Politique

Page 35: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Système ubiquitaire Apprentissage par renforcement du modèle de

contexte Expérimentations et résultats Conclusion

19/01/2010

45 Journée RFIA : apprentissage et robotique

Page 36: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Expérimentations Enquête grand public évaluation qualitative

Évaluations quantitatives en 2 étapes : Évaluation de la phase initiale Évaluation du système en fonctionnement normal

19/01/2010

46 Journée RFIA : apprentissage et robotique

Page 37: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Évaluation n°1« autour de l’apprentissage initial »

19/01/2010

47 Journée RFIA : apprentissage et robotique

Page 38: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Évaluation n°1« autour de l’apprentissage initial »

19/01/2010

48 Journée RFIA : apprentissage et robotique

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 970

10

20

30

40

50

60

Épisodes initiaux avec événements et états initiaux tirés au hasard dans la base de données

102550100

Épisodes

Not

e

Nombred’itérationspar épisode :

Page 39: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Évaluation n°2« interactions et apprentissages »

19/01/2010

49 Journée RFIA : apprentissage et robotique

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103

109

100

105

110

115

120

125

Épisodes

No

te

Page 40: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Évaluation n°2« interactions et apprentissages »

19/01/2010

50 Journée RFIA : apprentissage et robotique

60 67 74 81 88 95 102 109 116 123 130 137 144 151 158 165 172 179 18688

89

90

91

92

93

94

95

96

97

Épisodes

No

te

Page 41: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Système ubiquitaire Apprentissage par renforcement du modèle de

contexte Expérimentations et résultats Conclusion

19/01/2010

51 Journée RFIA : apprentissage et robotique

Page 42: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Contributions Personnalisation d’un système ubiquitaire

Sans spécification explicite Évolutive

Adaptation de l’apprentissage par renforcement indirectà un problème réel Construction d’un modèle du monde Injection de connaissances initiales

Mise en place d’un prototype

19/01/2010

52 Journée RFIA : apprentissage et robotique

Page 43: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Perspectives

Analyse non-interactive des données

Interactions avec l’utilisateur Phase de débriefing

19/01/2010

53 Journée RFIA : apprentissage et robotique

Page 44: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Conclusion

L’assistant est un moyende faire une application d’intelligence ambiante

C’est l’utilisateur qui le rend intelligent

19/01/2010

54 Journée RFIA : apprentissage et robotique

Page 45: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Merci de votre attention

Questions ?

19/01/2010

55 Journée RFIA : apprentissage et robotique

Page 46: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Bibliographie[Bellotti et Edwards, 2001]

Victoria BELLOTTI et Keith EDWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, 2001.

[Brdiczka et al., 2007]

Oliver BRDICZKA, James L. CROWLEY et Patrick REIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, 2007.

[Buffet, 2003] Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, 2003.

[Emonet et al., 2006]

Rémi Emonet, Dominique Vaufreydaz, Patrick Reignier et Julien Letessier. « O3MiSCID: an Object Oriented Opensource Middleware for Service Connection, Introspection and Discovery ». Dans1st IEEE International Workshop on Services Integration in Pervasive Environments, 2006.

[Kaelbling, 2004] Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, 2004.

[Maes, 1994] Pattie MAES. « Agents that reduce work and information overload ». Dans Commun. ACM, 1994.

[Maisonnasse 2007]

Jerome MAISONNASSE, Nicolas GOURIER, Patrick REIGNIER et James L. CROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, 2007.

[Moore, 1975] Gordon E. MOORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting,1975. 19/01/201

056 Journée RFIA : apprentissage et robotique

Page 47: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Bibliographie[Nonogaki et Ueda, 1991]

Hajime Nonogaki et Hirotada Ueda. « FRIEND21project: a construction of 21st century human interface ». Dans CHI '91: Proceedings of the SIGCHI conference on Human factors in computing systems, 1991.

[Roman et al., 2002]

Manuel ROMAN, Christopher K. HESS, Renato CERQUEIRA,Anand RANGANATHAN, Roy H. CAMPBELL et Klara NAHRSTEDT. « Gaia: A Middleware Infrastructure to Enable Active Spaces ». Dans IEEE Pervasive Computing, 2002.

[Sutton, 1991] Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, 1991.

[Weiser, 1991] Mark WEISER. « The computer for the 21st century ». Dans Scientic American, 1991.

[Weiser, 1994] Mark WEISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, 1993.

[Weiser et Brown, 1996]

Mark WEISER et John Seely BROWN. « The coming age of calm technology ». http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm, 1996.

[Watkins, 1989] CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, 1989.

19/01/2010

57 Journée RFIA : apprentissage et robotique

Page 48: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Interconnexion des modules

19/01/2010

58 Journée rfia : apprentissage et robotique

ACTIVITÉ

CLAVIER

Capteurs Actionneurs

EMAILS

LOCALISATION

PRÉSENCE

APPLICATIONS

APPLICATIONS

EMAILSSYNTHÈSE

VOCALE

CONTRÔLE

DISTANT

Page 49: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Service OMiSCID

19/01/2010

59 Journée rfia : apprentissage et robotique

Page 50: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Définition d’un état

19/01/2010

60 Journée rfia : apprentissage et robotique

Prédicat Arguments

alarm title, hour, minute

xActivity machine, isActive

inOffice user, office

absent user

hasUnreadMail from, to, subject, body

entrance isAlone, friendlyName, btAddress

exit isAlone, friendlyName, btAddress

task taskName

user login

userOffice office, login

userMachine machine, login

computerState machine, isScreenLocked, isMusicPaused

Page 51: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Modèle de l’environnement

19/01/2010

61 Journée rfia : apprentissage et robotique

ModèleÉtat E[état suivant]

E[renforcement]

ActionÉvénement

ou

Page 52: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Réduction de l’espace d’états Accélération de l’apprentissage

Factorisation d’états

Division d’états

19/01/2010

62 Journée rfia : apprentissage et robotique

État Action Q-valeur

…entrance(isAlone=true, friendlyName=<+>, btAddress=<+>)…

pauseMusic 125.3

État Action Q-valeur

…hasUnreadMail(from=boss, to=<+>,subject=<+>, body=<+>)…

inform 144.02

…hasUnreadMail(from=newsletter, to=<+>, subject=<+>, body=<+>)…

notInform 105

Jokers<*> et <+>

Page 53: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Le simulateur de l’environnement

19/01/2010

63 Journée rfia : apprentissage et robotique

Page 54: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Critère d’évaluation : la note Résultat de l’AR : une Q-table Comment savoir si elle est « bonne » ? Apprentissage réussi si

Comportement correspond aux souhaits de l’utilisateur

Et c’est mieux si on a beaucoup exploré et si on a une estimation du comportement dans beaucoup d’états

19/01/2010

64 Journée rfia : apprentissage et robotique

Page 55: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

« Le tableau de bord »

19/01/2010

65 Journée rfia : apprentissage et robotique

Permet d’envoyer par un clic les mêmes événements que les capteurs

Page 56: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Modèle de récompense Ensemble d’entrées spécifiant

Des contraintes sur certains arguments de l’état Une action La récompense

19/01/2010

66 Journée rfia : apprentissage et robotique

Page 57: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Modèle de récompense

19/01/2010

67 Journée rfia : apprentissage et robotique

s1

-50

États de départ

Action

Récompense

Modèle de transition

Modèle de récompense

Page 58: Agents apprenants pour l'intelligence ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA 19/01/20101Journée RFIA : apprentissage

Apprentissage supervisédu modèle de récompense La base de données contient des exemples{état précédent, action, récompense}

19/01/2010

68 Journée rfia : apprentissage et robotique

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

s a rsss

a r

s a r

e1

en+1