1 apprentissage jean-françois bérubé dans le cadre du cours ift 6802 université de montréal...

27
1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

Upload: acelin-fevre

Post on 04-Apr-2015

111 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

1

ApprentissageApprentissage

Jean-François Bérubé

Dans le cadre du cours IFT 6802

Université de Montréal

DIRO, 2 Avril 2003

Page 2: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

2

Introduction : Pourquoi ?Introduction : Pourquoi ?

Approche classique de la conception d’un agent:– « L’intelligence » de l’agent est entièrement introduite

par le programmeur.

MAIS:– Le programmeur ne connaît pas toujours parfaitement

l’environnement de l’agent.– Dans un tel cas, l’apprentissage peut être la seule

façon pour un agent d’acquérir les compétences dont il a besoin.

– N’est-ce pas là une réelle forme d’autonomie et par le fait même d’intelligence?

Page 3: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

3

Introduction : Comment ?Introduction : Comment ?

Apprendre pour un humain: facile!

Pour une machine: difficile!!!

– On aura besoin d’algorithmes précis et parfois complexes

L’apprentissage est un vaste domaine qui chevauche l’informatique, les statistiques et les domaines précis des applications

Page 4: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

4

Plan de la présentationPlan de la présentation

L’apprentissage: aperçu général– Modèle général d’un agent qui apprend

– Présentation de quelques techniques d’apprentissage

L’apprentissage dans les systèmes multi-agents– De l’apprentissage mono-agent à multi-agents

– Qu’apprend un agent dans les SMA ?

– Caractéristiques multi-agents des apprentissages

Conclusion

Page 5: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

5

Objectifs de l’apprentissageObjectifs de l’apprentissage

Acquisition d’une connaissance explicite par un système informatique 

Construction de nouvelles connaissances ou amélioration de connaissances déjà existantes [inférence] 

« Les perceptions [d’un agent] ne devraient pas seulement lui servir à choisir ses actions mais aussi à améliorer ses capacités à agir » [Russell & Norvig]

Objectif : améliorer les performances du système

Page 6: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

6

Modèle d’un agent qui apprendModèle d’un agent qui apprend

EnvironnementGénérateur

de problèmes

Module d’apprentissage

Unité decritique

Module de performance

Standard de performance

feedback

objectifs d’apprentissage

Agent

changements

connaissances

Senseurs

Actions

Source: Russell & Norvig

Page 7: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

7

Les formes d’apprentissageLes formes d’apprentissage Supervisé

– Un exemple de « la bonne solution » est donné pendant une phase d’entraînement

– Utilisé pour la classification, les régressions, estimation de probabilités conditionnelles

Par renforcement– Le système n’a pas accès à des exemples; il a

cependant un feedback sur ses actions– Utilisé pour le contrôle des robots

Page 8: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

8

Apprentissage supervisé - Exemple intuitif -

Apprentissage supervisé - Exemple intuitif -

Ensemble des exemples d’entraînement

{(visage, identité)}

Exemple test

( , ?)

Anne

Jean

Maude

Eric

Paul

Qui est-ce?

Une image = profil d’un cas

Source: Yoshua Bengio

Page 9: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

9

Apprentissage supervisé - Exemple intuitif (plus proche voisin) -

Apprentissage supervisé - Exemple intuitif (plus proche voisin) -

Choisir l’exemple d’apprentissage dontle « profil » (image) est le plus proche de celui de l’exemple test

identité=Paul

plus proche voisin

Source: Yoshua Bengio

Page 10: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

10

Apprentissage supervisé - Deux phases -

Apprentissage supervisé - Deux phases - La phase d’entraînement

– On présente des exemples au système– L’agent « apprend » à partir des exemples

La phase d’application (ou d’utilisation)– Nouvelles situations jamais vues auparavant– On demande à l’agent de généraliser ce qu’il a

appris (faire un transfert)

Page 11: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

11

Apprentissage supervisé - Généralisation -

Apprentissage supervisé - Généralisation - Idée: mémoriser les paires (perception,action)

pour ensuite s’en servir afin d’induire l’action à exécuter devant une situation nouvelle

On veut éviter que l’agent apprenne par cœur– Qu’il ne puisse que résoudre des problèmes

qu’il a déjà vus On veut un apprentissage qui lui permette de

généraliser– Il doit savoir faire ressortir l’essence des

exemples qu’il apprend

Page 12: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

12

Apprentissage supervisé - Généralisation -

Apprentissage supervisé - Généralisation - Principe de la généralisation par induction

– Situation inconnue Induction de h, une approximation (maximisation de la vraisemblance) de la fonction f permettant d’associer une perception à une action

– Évaluer h(nouvelle situation) action

– Feedback mise-à-jour de la base de connaissances (ou d’exemples)

Page 13: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

13

Apprentissage supervisé - Généralisation -

Apprentissage supervisé - Généralisation -

2 4 6 8 10

0.5

1

1.5

2

2.5

3

a. Underlying Function

Entrée : profil du cas

Sortie :valeurà prédire

Pointillé : la meilleureréponse possible étantdonnée l’entrée (maisinconnue de l’apprenant)

Chaque point:un exemple

Source: Yoshua Bengio

Page 14: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

14

Apprentissage supervisé - Généralisation -

Apprentissage supervisé - Généralisation -

Source: Yoshua Bengio

2 4 6 8 10

0.5

1

1.5

2

2.5

3

b. Overfitting

On apprend par cœur mais ça ne généralise pas bien de nouveaux cas. Erreur faible sur les exemples d’apprentissage mais élevée en test.

Page 15: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

15

Apprentissage supervisé - Généralisation -

Apprentissage supervisé - Généralisation -

Source: Yoshua Bengio

2 4 6 8 10

0.5

1

1.5

2

2.5

3

c. Underfitting

On a choisi un modèle trop simple (linéaire): erreur élevée en apprentissage ET en test

Page 16: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

16

Apprentissage supervisé - Généralisation -

Apprentissage supervisé - Généralisation -

Source: Yoshua Bengio

2 4 6 8 10

0.5

1

1.5

2

2.5

3

d. Good FitLe modèle est suffisamment flexible pour capturer la forme courbe

Page 17: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

17

Apprentissage supervisé - Arbres de décision -

Apprentissage supervisé - Arbres de décision - Un arbre de décision permet de représenter un

ensemble de fonctions booléennes associées à une activité de prise de décision

Input: situation décrite par un ensemble de propriétés Output: une décision (oui/non) relative à cette

situation

Principe:

Propriétés d’une situation

Décision à prendreDécision (oui/non)

Page 18: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

18

Clients

Temps d’attente

J’ai faimAller ailleurs

J’ai réservé Ven ou sam Aller ailleurs

Il pleutBar

Non Oui

Non Oui

Oui

Oui Non Oui Oui

OuiNonOuiNon

Vais-je attendre ???Aucun

Peu Beaucoup

>60 30-60 10-30<10

OuiNon Non Oui

Non Oui OuiNon Non Oui

NonOui

Non Oui

r Clients(r,Beaucoup) Temps d’attente(r,10-30) J’ai faim(r,Non) J’attends(r)

Source: Russell & Norvig

Apprentissage supervisé - Arbres de décision -

Apprentissage supervisé - Arbres de décision -

Page 19: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

19

Apprentissage supervisé - Apprendre des arbres de décision -

Apprentissage supervisé - Apprendre des arbres de décision -

Ensemble d’entraînement– Série d’exemples dans lesquels toutes les

propriétés d’une situation sont connues Comment apprendre un arbre ?

– Un exemple => un chemin dans l’arbre Arbres trop gros Quoi faire dans des situations inconnues ?

– Trouver l’arbre minimal est incalculable– Des heuristiques permettent un compromis

entre la taille de l’arbre et la difficulté de calcul

Page 20: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

20

Apprentissage supervisé - Apprendre des arbres de décision -

Apprentissage supervisé - Apprendre des arbres de décision -

Les heuristiques d’apprentissage– Classifier les exemples en considérant d’abord

les variables les plus importantes: celles qui permettent d’obtenir une décision le plus rapidement

– On continue d’introduire des variables permettant d’obtenir une décision à partir des conséquences de sa variable parent

– Les exemples impertinents sont éliminés

Page 21: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

21

Apprentissage supervisé - Application des arbres de décision -

Apprentissage supervisé - Application des arbres de décision -

Entraînement d’un simulateur de vol– Professeurs : 3 pilotes expérimentés– « Enseignement » : chacun répète 30 fois un

vol prédéterminé– 90000 exemples sont créés– Les exemples sont décrits par 20 variables

Résultats

– L’élève dépasse ses maîtres!!

Page 22: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

22

Apprentissage supervisé - Réseaux de neurones -

Apprentissage supervisé - Réseaux de neurones -

Réseau composé de nœuds reliés entre eux par des arcs auxquels des poids sont associés

Exemples

Page 23: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

23

Apprentissage par renforcement Apprentissage par renforcement Apprentissage à l’aide d’exemples:

– Professeur => exemples

– Modèle de l’environnement => faire des prédictions

– Fonction d’utilité => évaluer les actions

Mais si on a rien de tout ça ???– Utiliser les feedback reçus

– Aux échecs : gagner constitue une récompense

– Au ping pong : chaque point devient une récompense

Reinforcement learning

Page 24: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

24

Apprentissage par renforcementApprentissage par renforcement

Principe:

Agent

Environnement

Action

Perceptions

Positif?

Évaluation

Il faut apprendre les meilleurs actions à poser et la façon d’évaluer les perceptions

Page 25: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

25

Apprentissage par renforcement - Applications -

Apprentissage par renforcement - Applications - Joueur d’échecs (Samuel 1959-1967)

– Utilisation d’une fonction linéaire permettant d’évaluer les différentes positions

– Les poids dans cette fonction sont appris par reinforcement learning

– Les décisions du joueur virtuel finissait par s’approcher de celles des bons joueurs

Robots Utilisation dans les SMA

Page 26: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

26

RésuméRésumé

L’agent apprend en observant:

– l’effet de ses actions Apprentissage par renforcement

– une série d’exemples (supervisé) Induction d’arbres de décision Réseaux de neurones

Page 27: 1 Apprentissage Jean-François Bérubé Dans le cadre du cours IFT 6802 Université de Montréal DIRO, 2 Avril 2003

27

RéférencesRéférences

Bengio, Yoshua. Présentation sur les algorithmes d’apprentissage, www.iro.umontreal.ca/~bengioy

Russell, S. et Norvig, P. Artificial Intelligence A Modern Approach, Prentice-Hall, 1995, 932 pages.