apprentissage par renforcement de modèles de contexte pour linformatique ambiante sofia z aidenberg...

67
Apprentissage par renforcement de modèles de contexte pour l’informatique ambiante Sofia ZAIDENBERG Laboratoire d’Informatique de Grenoble Équipe PRIMA Jury composé de 16 octobre 2009 M me Brigitte PLATEAU M. Olivier SIGAUD M. Olivier BOISSIER M. James L. CROWLEY M. Patrick REIGNIER M me Marie-Pierre GLEIZES Présidente du jury Rapporteur Rapporteur Directeur de thèse Co-directeur de thèse Examinatrice

Upload: liliane-leroy

Post on 03-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Apprentissage par renforcementde modèles de contexte

pour l’informatique ambiante

Sofia ZAIDENBERGLaboratoire d’Informatique de Grenoble

Équipe PRIMAJury composé de

16 octobre 2009

Mme Brigitte PLATEAU

M. Olivier SIGAUD

M. Olivier BOISSIER

M. James L. CROWLEY

M. Patrick REIGNIER

Mme Marie-Pierre GLEIZES

Présidente du jury

Rapporteur

RapporteurDirecteur de thèse

Co-directeur de thèseExaminatrice

Page 2: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Informatique ambiante

16/10/2009

2 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Informatique ubiquitaire

[Weiser, 1991][Weiser, 1994][Weiser et Brown, 1996]

Page 3: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

16/10/2009

3 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 4: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

4 16/10/2009

Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 5: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

L’informatique ambiante Dispositifs « autistes »

Indépendants Hétérogènes Inconscients

Système ubiquitaire Accompagner sans s’imposer En périphérie de l’attention Invisible Informatique calme

16/10/2009

5 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 6: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Intelligence ambiante Context-aware computing

16/10/2009

6 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

1. Perception

2. Décision

Page 7: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

État de l’art

16/10/2009

7 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

[Roman et al., 2002][Nonogaki et Ueda, 1991]FRIEND21 Gaia

Blossom

Sajid SADI et Pattie MAES

http://consciousanima.net/projects/blossom/

Page 8: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Problématique Personnalisation

Situation + utilisateur action

16/10/2009

8 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Alice

Bob

Page 9: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Personnalisation Personnalisation d’un agent informatique

complexe qui assiste l’utilisateur.

Deux solutions [Maes, 1994]

L’utilisateur spécifie lui-même le comportement Système trop complexe Tâche laborieuse Peu-évolutif

Choix prédéfini par un expert Non-personnalisé Non-évolutif Utilisateur ne maîtrise pas tout le système

16/10/2009

9 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 10: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Solution proposée

16/10/2009

10 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Apprentissage

Page 11: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Plan Présentation du problème Apprentissage dans les systèmes

ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Apprentissage par renforcement du modèle de

contexte Expérimentations et résultats Conclusion

16/10/2009

11 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 12: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Système proposé Un assistant virtuel qui personnifie

le système ubiquitaire L’assistant

Perçoit le contexte grâce aux capteurs Exécute des actions grâce aux actionneurs Reçoit les retours de l’utilisateur pour

l’entraînement Adapte son comportement à ces retours

(apprentissage)

16/10/2009

12 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 13: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Contraintes Entraînement simple Apprentissage rapide Cohérence au départ Life long learning Confiance de l’utilisateur

Transparence [Bellotti et Edwards, 2001] Système intelligible

Avoir un fonctionnement compris par l’utilisateur Système « responsable »

Peut s’expliquer

16/10/2009

13 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

système s’adapte aux changements del’environnement et des préférences

Page 14: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Exemple

16/10/2009

14 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

J109 J120

hyperionRappel !

Page 15: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Apprentissage par renforcement du modèle de

contexte Expérimentations et résultats Conclusion

16/10/2009

15 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 16: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Enquête grand public Objectif

Mesurer les attentes et besoins vis-à-vis del’« informatique ambiante » et de ses usages

Enquête dirigée par Nadine Mandran (LIG)

Évaluation simultanée de deux systèmes Notre assistant Système COMPOSE de Yoann Gabillon (MAGMA et

IIHM) Composition (semi-)automatique, dynamique et

contextuelle de services pour répondre aux requêtes utilisateur

16/10/2009

16 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 17: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Modalités de l’enquête 26 sujets interrogés

Non-experts Répartis de manière suivante :

16/10/2009

17 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Sexe

femmehommetotal

Classe d'âge

18-2526-4040-6060+

Page 18: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Résultats 44 % des sujets intéressés, 13 % conquis

Profils des sujets intéressés : Personnes très occupées Surchargées cognitivement

Apprentissage comme un plus Système plus fiableEntraînement progressif vs configuration lourdeEntraînement simple et agréable (« juste un clic »)

16/10/2009

18 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 19: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

RésultatsPhase d’apprentissage doit être courteExplications indispensables

Interactions Variable selon les sujets Phase optionnelle de débriefing

Erreurs acceptées si conséquences pas graves Contrôle à l’utilisateur Révèle habitudes inconscientes Crainte de devenir « assisté »

16/10/2009

19 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 20: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire

Contraintes Technologies adoptées

Apprentissage par renforcement du modèle de contexte

Expérimentations et résultats Conclusion

16/10/2009

20 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 21: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Système ubiquitaire

16/10/2009

21 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

J109 J120

hyperion

Rappel !

Utilise les dispositifs existants

Hétérogènes

Éparpillés

Besoins du système

OMiSCID

OSGi

Système multiplateforme

Système distribué

Protocole de communication

Découverte dynamique de services

Déploiement facile

[Emonet et al., 2006]

Page 22: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Interconnexion des modules

16/10/2009

22 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

ACTIVITÉCLAVIER

Capteurs Actionneurs

EMAILS

LOCALISATION

APPLICATIONS

SYNTHÈSEVOCALE

CONTRÔLEDISTANT

PRÉSENCE

APPLICATIONS

EMAILS

Page 23: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Exemple d’échanges de messages

16/10/2009

23 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

J109 J120

hyperion

protee

Text2Speech sur protee ?

Oui !

OMiSCID

Non…

Installe et démarreText2Speech

Dépôt debundles

Page 24: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Base de données Regroupe

Connaissances statiques Historique des événements et actions

Permet de fournir des explications

Centralisée Interrogée Alimentée Simplifie les requêtes

16/10/2009

24 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

par tous les modules sur tous les dispositifs

Page 25: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Apprentissage par renforcement

du modèle de contexte Apprentissage par renforcement Application de l’apprentissage par renforcement

Expérimentations et résultats Conclusion

16/10/2009

25 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 26: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Rappel : nos contraintes Entraînement simple Apprentissage rapide Cohérence au départ Apprentissage à vie Explications

16/10/2009

26 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Supervisé[Brdiczka et al., 2007]

Page 27: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Apprentissage par renforcement (AR)

16/10/2009

27 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Propriété de Markov L’état à l’instant t

ne dépend que de l’état à l’instant t-1

Page 28: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Algorithme standard Q-Learning [Watkins, 1989]

Mise-à-jour des Q-valeurs lors d’une nouvelle expérience{état, action, état suivant, récompense}

Lent car ne progresse que lorsque quelque chose se passe A besoin de beaucoup d’exemples pour apprendre un

comportement

16/10/2009

28 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 29: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Exemple

16/10/2009

29 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Rapide

Loin de la porte+ Rapide =

Ouvrir la porte

Modèle du monde

Page 30: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Architecture DYNA

16/10/2009

30 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Agent

Monde

Modèle du monde

ActionRécompenseÉtat

DYNASwitch

[Sutton, 1991]

Page 31: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Politique

Architecture DYNA

16/10/2009

31 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Environnement

Modèle du monde

Utilisation

Mise-à-jour

Mise-à-jour

Mise-à-jour

Politique

Interactionsréelles

Page 32: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Fonctionnement global

16/10/2009

32 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Environnement

Base de données

État

Action

Récompense ? Exempl

e

Action

Modèle du monde

Interactionsréelles

Mise-à-jour

Mise-à-jour

Politique

Utilisation

Perception

Exemple

Récompense

Politique

Page 33: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Modélisation du problème Composants :

États Actions

16/10/2009

33 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

Composants : Modèle de transition Modèle de

récompense

Page 34: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

L’espace d’états États définis par des prédicats

Humainement compréhensibles (explications)

Exemples : arrivéeEmail ( de = Marc, à = Bob ) dansSonBureau ( John )

État-action : entrée( ) Musique en pause

16/10/2009

34 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

Prédicats

Prédicats

système

Prédicats environneme

nt

Karl<+>

Page 35: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

L’espace d’états Division d’états

arrivéeEmail( de= directeur, à= <+> )Notifier

arrivéeEmail(de = newsletter, à= <+> )Ne pas notifier

16/10/2009

35 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 36: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Modélisation du problème Utilisateur état ?

Oui état non-observable Problème non-markovien & Environnement stationnaire

Non état observable Problème markovien & Environnement non-stationnaire

Apprentissage à vie Évolutions peu fréquentes de l’environnement DYNA adapté aux modèles imparfaits

PDMPO ou DEC-PDMPO Résolution exacte très complexe Méthodes approximatives Passage à l’échelle de problèmes réels difficile

16/10/2009

36 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

[Buffet, 2003]

Page 37: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

L’espace d’actions Les actions possibles combinent

Transmettre un rappel à l’utilisateur Informer d’un nouvel email Verrouiller l’écran d’un ordinateur Déverrouiller l’écran d’un ordinateur Pauser la musique jouant sur un ordinateur Relancer la musique jouant sur un ordinateur Ne rien faire

16/10/2009

37 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

Page 38: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Récompenses Récompenses explicites

Par une interface non intrusive

Récompenses implicites Collectées à partir d’indices

(valeur numérique moindre)

16/10/2009

38 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

Page 39: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Modèle de l’environnement Construits par apprentissage supervisé

À partir d’exemples réels

Initialisés par le sens commun Système fonctionnel immédiatement Modèle initial vs. Q-valeurs initiales [Kaelbling,

2004] Extensibilité

16/10/2009

39 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

Modèle de récompense

Modèle de transition

Modèle de récompense

Page 40: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Modèle de transition

16/10/2009

40 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

s1 s2États de départ

Action ou événement

Modifications

Modèle de récompense

Modèle de transition

+Probabilité

Page 41: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Apprentissage supervisédu modèle de transition La base de données contient des exemples{état précédent, action, état suivant}

16/10/2009

41 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

s s’

t2t1

t3

s’tn+1

Page 42: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Fonctionnement global

16/10/2009

42 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Environnement

Base de données

État

Action

Récompense ? Exempl

e

Action

Modèle du monde

Interactionsréelles

Mise-à-jour

Mise-à-jour

Politique

Utilisation

Perception

Exemple

Récompense

Politique

Page 43: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Épisode

16/10/2009

43 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Agentd’AR

Environnement

Modèle du monde

Base de données

Appris à partir d’interactions réelles

ou

Q-Learning :mise à jour de

Modèle du monde

Interactionsréelles

Mise-à-jour

Politique

Utilisation Mise-à-jour

Politique

Expérience

Politique

Page 44: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Apprentissage par renforcement du modèle de

contexte Expérimentations et résultats Conclusion

16/10/2009

44 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 45: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Expérimentations Enquête grand public évaluation qualitative

Évaluations quantitatives en 2 étapes : Évaluation de la phase initiale Évaluation du système en fonctionnement normal

16/10/2009

45 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 46: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Évaluation n°1« autour de l’apprentissage initial »

16/10/2009

46 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 47: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Évaluation n°1« autour de l’apprentissage initial »

16/10/2009

47 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 970

10

20

30

40

50

60

Épisodes initiaux avec événements et états initiaux tirés au hasard dans la base de données

102550100

Épisodes

Not

e

Nombred’itérationspar épisode :

Page 48: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Évaluation n°2« interactions et apprentissages »

16/10/2009

48 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103

109

100

105

110

115

120

125

Épisodes

No

te

Page 49: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Évaluation n°2« interactions et apprentissages »

16/10/2009

49 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

60 67 74 81 88 95 102 109 116 123 130 137 144 151 158 165 172 179 18688

89

90

91

92

93

94

95

96

97

Épisodes

No

te

Page 50: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Plan Présentation du problème Apprentissage dans les systèmes ubiquitaires Enquête grand public Réalisation d’un système ubiquitaire Apprentissage par renforcement du modèle de

contexte Expérimentations et résultats Conclusion

16/10/2009

50 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 51: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Contributions Personnalisation d’un système ubiquitaire

Sans spécification explicite Évolutive

Adaptation de l’apprentissage par renforcement indirectà un problème réel Construction d’un modèle du monde Injection de connaissances initiales

Mise en place d’un prototype

16/10/2009

51 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 52: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Perspectives

Analyse non-interactive des données

Interactions avec l’utilisateur Phase de débriefing

16/10/2009

52 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 53: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Conclusion

L’assistant est un moyende faire une application d’intelligence ambiante

C’est l’utilisateur qui le rend intelligent

16/10/2009

53 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 54: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Merci de votre attention

Questions ?

16/10/2009

54 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 55: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Bibliographie[Bellotti et Edwards, 2001]

Victoria BELLOTTI et Keith EDWARDS. « Intelligibility and accountability: human considerations in context-aware systems ». Dans Human-Computer Interaction, 2001.

[Brdiczka et al., 2007]

Oliver BRDICZKA, James L. CROWLEY et Patrick REIGNIER. « Learning Situation Models for Providing Context-Aware Services ». Dans Proceedings of HCI International, 2007.

[Buffet, 2003] Olivier Buffet. « Une double approche modulaire de l'apprentissage par renforcement pour des agents intelligents adaptatifs ». Thèse de doctorat, Université Henri Poincaré, 2003.

[Emonet et al., 2006]

Rémi Emonet, Dominique Vaufreydaz, Patrick Reignier et Julien Letessier. « O3MiSCID: an Object Oriented Opensource Middleware for Service Connection, Introspection and Discovery ». Dans1st IEEE International Workshop on Services Integration in Pervasive Environments, 2006.

[Kaelbling, 2004] Leslie Pack Kaelbling. « Life-Sized Learning ». Lecture at CSE Colloquia, 2004.

[Maes, 1994] Pattie MAES. « Agents that reduce work and information overload ». Dans Commun. ACM, 1994.

[Maisonnasse 2007]

Jerome MAISONNASSE, Nicolas GOURIER, Patrick REIGNIER et James L. CROWLEY. « Machine awareness of attention for non-disruptive services ». Dans HCI International, 2007.

[Moore, 1975] Gordon E. MOORE. « Progress in digital integrated electronics ». Dans Proc. IEEE International Electron Devices Meeting,1975. 16/10/200

955 Apprentissage par renforcement de modèles de

contexte pour l'informatique ambiante – Sofia Zaidenberg

Page 56: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Bibliographie[Nonogaki et Ueda, 1991]

Hajime Nonogaki et Hirotada Ueda. « FRIEND21project: a construction of 21st century human interface ». Dans CHI '91: Proceedings of the SIGCHI conference on Human factors in computing systems, 1991.

[Roman et al., 2002]

Manuel ROMAN, Christopher K. HESS, Renato CERQUEIRA,Anand RANGANATHAN, Roy H. CAMPBELL et Klara NAHRSTEDT. « Gaia: A Middleware Infrastructure to Enable Active Spaces ». Dans IEEE Pervasive Computing, 2002.

[Sutton, 1991] Richard S. Sutton. « Dyna, an integrated architecture for learning, planning, and reacting ». Dans SIGART Bull, 1991.

[Weiser, 1991] Mark WEISER. « The computer for the 21st century ». Dans Scientic American, 1991.

[Weiser, 1994] Mark WEISER. « Some computer science issues in ubiquitous computing ». Dans Commun. ACM, 1993.

[Weiser et Brown, 1996]

Mark WEISER et John Seely BROWN. « The coming age of calm technology ». http://www.ubiq.com/hypertext/weiser/acmfuture2endnote.htm, 1996.

[Watkins, 1989] CJCH Watkins. « Learning from Delayed Rewards ». Thèse de doctorat, University of Cambridge, 1989.

16/10/2009

56 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 57: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Interconnexion des modules

16/10/2009

57 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

ACTIVITÉ

CLAVIER

Capteurs Actionneurs

EMAILS

LOCALISATION

PRÉSENCE

APPLICATIONS

APPLICATIONS

EMAILSSYNTHÈSE

VOCALE

CONTRÔLE

DISTANT

Page 58: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Service OMiSCID

16/10/2009

58 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 59: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Définition d’un état

16/10/2009

59 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Prédicat Arguments

alarm title, hour, minute

xActivity machine, isActive

inOffice user, office

absent user

hasUnreadMail from, to, subject, body

entrance isAlone, friendlyName, btAddress

exit isAlone, friendlyName, btAddress

task taskName

user login

userOffice office, login

userMachine machine, login

computerState machine, isScreenLocked, isMusicPaused

Page 60: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Modèle de l’environnement

16/10/2009

60 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

ModèleÉtat E[état suivant]

E[renforcement]

ActionÉvénement

ou

Page 61: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Réduction de l’espace d’états Accélération de l’apprentissage

Factorisation d’états

Division d’états

16/10/2009

61 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

État Action Q-valeur

…entrance(isAlone=true, friendlyName=<+>, btAddress=<+>)…

pauseMusic 125.3

État Action Q-valeur

…hasUnreadMail(from=boss, to=<+>,subject=<+>, body=<+>)…

inform 144.02

…hasUnreadMail(from=newsletter, to=<+>, subject=<+>, body=<+>)…

notInform 105

Jokers<*> et <+>

Page 62: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Le simulateur de l’environnement

16/10/2009

62 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 63: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Critère d’évaluation : la note Résultat de l’AR : une Q-table Comment savoir si elle est « bonne » ? Apprentissage réussi si

Comportement correspond aux souhaits de l’utilisateur

Et c’est mieux si on a beaucoup exploré et si on a une estimation du comportement dans beaucoup d’états

16/10/2009

63 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 64: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

« Le tableau de bord »

16/10/2009

64 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Permet d’envoyer par un clic les mêmes événements que les capteurs

Page 65: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Modèle de récompense Ensemble d’entrées spécifiant

Des contraintes sur certains arguments de l’état Une action La récompense

16/10/2009

65 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Page 66: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Modèle de récompense

16/10/2009

66 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

s1

-50

États de départ

Action

Récompense

Modèle de transition

Modèle de récompense

Page 67: Apprentissage par renforcement de modèles de contexte pour linformatique ambiante Sofia Z AIDENBERG Laboratoire dInformatique de Grenoble Équipe P RIMA

Apprentissage supervisédu modèle de récompense La base de données contient des exemples{état précédent, action, récompense}

16/10/2009

67 Apprentissage par renforcement de modèles de contexte pour l'informatique ambiante – Sofia

Zaidenberg

Modèle du monde

Interactionsréelles

Utilisation

Mise-à-jour

Mise-à-jour

Politique

s a rsss

a r

s a r

e1

en+1