1 apprentissage jean-françois bérubé dans le cadre du cours ift 6802 université de montréal...

1

ApprentissageApprentissage

Jean-François Bérubé

Dans le cadre du cours IFT 6802

Université de Montréal

DIRO, 2 Avril 2003

2

Introduction : Pourquoi ?Introduction : Pourquoi ?

Approche classique de la conception d’un agent:– « L’intelligence » de l’agent est entièrement introduite

par le programmeur.

MAIS:– Le programmeur ne connaît pas toujours parfaitement

l’environnement de l’agent.– Dans un tel cas, l’apprentissage peut être la seule

façon pour un agent d’acquérir les compétences dont il a besoin.

– N’est-ce pas là une réelle forme d’autonomie et par le fait même d’intelligence?

3

Introduction : Comment ?Introduction : Comment ?

Apprendre pour un humain: facile!

Pour une machine: difficile!!!

– On aura besoin d’algorithmes précis et parfois complexes

L’apprentissage est un vaste domaine qui chevauche l’informatique, les statistiques et les domaines précis des applications

4

Plan de la présentationPlan de la présentation

L’apprentissage: aperçu général– Modèle général d’un agent qui apprend

– Présentation de quelques techniques d’apprentissage

L’apprentissage dans les systèmes multi-agents– De l’apprentissage mono-agent à multi-agents

– Qu’apprend un agent dans les SMA ?

– Caractéristiques multi-agents des apprentissages

Conclusion

5

Objectifs de l’apprentissageObjectifs de l’apprentissage

Acquisition d’une connaissance explicite par un système informatique

Construction de nouvelles connaissances ou amélioration de connaissances déjà existantes [inférence]

« Les perceptions [d’un agent] ne devraient pas seulement lui servir à choisir ses actions mais aussi à améliorer ses capacités à agir » [Russell & Norvig]

Objectif : améliorer les performances du système

6

Modèle d’un agent qui apprendModèle d’un agent qui apprend

EnvironnementGénérateur

de problèmes

Module d’apprentissage

Unité decritique

Module de performance

Standard de performance

feedback

objectifs d’apprentissage

Agent

changements

connaissances

Senseurs

Actions

Source: Russell & Norvig

7

Les formes d’apprentissageLes formes d’apprentissage Supervisé

– Un exemple de « la bonne solution » est donné pendant une phase d’entraînement

– Utilisé pour la classification, les régressions, estimation de probabilités conditionnelles

Par renforcement– Le système n’a pas accès à des exemples; il a

cependant un feedback sur ses actions– Utilisé pour le contrôle des robots

8

Apprentissage supervisé - Exemple intuitif -

Apprentissage supervisé - Exemple intuitif -

Ensemble des exemples d’entraînement

{(visage, identité)}

Exemple test

( , ?)

Anne

Jean

Maude

Eric

Paul

Qui est-ce?

Une image = profil d’un cas

Source: Yoshua Bengio

9

Apprentissage supervisé - Exemple intuitif (plus proche voisin) -

Apprentissage supervisé - Exemple intuitif (plus proche voisin) -

Choisir l’exemple d’apprentissage dontle « profil » (image) est le plus proche de celui de l’exemple test

identité=Paul

plus proche voisin


10

Apprentissage supervisé - Deux phases -

Apprentissage supervisé - Deux phases - La phase d’entraînement

– On présente des exemples au système– L’agent « apprend » à partir des exemples

La phase d’application (ou d’utilisation)– Nouvelles situations jamais vues auparavant– On demande à l’agent de généraliser ce qu’il a

appris (faire un transfert)

11

Apprentissage supervisé - Généralisation -

Apprentissage supervisé - Généralisation - Idée: mémoriser les paires (perception,action)

pour ensuite s’en servir afin d’induire l’action à exécuter devant une situation nouvelle

On veut éviter que l’agent apprenne par cœur– Qu’il ne puisse que résoudre des problèmes

qu’il a déjà vus On veut un apprentissage qui lui permette de

généraliser– Il doit savoir faire ressortir l’essence des

exemples qu’il apprend

12


Apprentissage supervisé - Généralisation - Principe de la généralisation par induction

– Situation inconnue Induction de h, une approximation (maximisation de la vraisemblance) de la fonction f permettant d’associer une perception à une action

– Évaluer h(nouvelle situation) action

– Feedback mise-à-jour de la base de connaissances (ou d’exemples)

13



2 4 6 8 10

0.5

1

1.5

2

2.5

3

a. Underlying Function

Entrée : profil du cas

Sortie :valeurà prédire

Pointillé : la meilleureréponse possible étantdonnée l’entrée (maisinconnue de l’apprenant)

Chaque point:un exemple


14




2 4 6 8 10

0.5

1

1.5

2

2.5

3

b. Overfitting

On apprend par cœur mais ça ne généralise pas bien de nouveaux cas. Erreur faible sur les exemples d’apprentissage mais élevée en test.

15




2 4 6 8 10

0.5

1

1.5

2

2.5

3

c. Underfitting

On a choisi un modèle trop simple (linéaire): erreur élevée en apprentissage ET en test

16




2 4 6 8 10

0.5

1

1.5

2

2.5

3

d. Good FitLe modèle est suffisamment flexible pour capturer la forme courbe

17

Apprentissage supervisé - Arbres de décision -

Apprentissage supervisé - Arbres de décision - Un arbre de décision permet de représenter un

ensemble de fonctions booléennes associées à une activité de prise de décision

Input: situation décrite par un ensemble de propriétés Output: une décision (oui/non) relative à cette

situation

Principe:

Propriétés d’une situation

Décision à prendreDécision (oui/non)

18

Clients

Temps d’attente

J’ai faimAller ailleurs

J’ai réservé Ven ou sam Aller ailleurs

Il pleutBar

Non Oui

Non Oui

Oui

Oui Non Oui Oui

OuiNonOuiNon

Vais-je attendre ???Aucun

Peu Beaucoup

>60 30-60 10-30<10

OuiNon Non Oui

Non Oui OuiNon Non Oui

NonOui

Non Oui

r Clients(r,Beaucoup) Temps d’attente(r,10-30) J’ai faim(r,Non) J’attends(r)

Source: Russell & Norvig



19

Apprentissage supervisé - Apprendre des arbres de décision -


Ensemble d’entraînement– Série d’exemples dans lesquels toutes les

propriétés d’une situation sont connues Comment apprendre un arbre ?

– Un exemple => un chemin dans l’arbre Arbres trop gros Quoi faire dans des situations inconnues ?

– Trouver l’arbre minimal est incalculable– Des heuristiques permettent un compromis

entre la taille de l’arbre et la difficulté de calcul

20



Les heuristiques d’apprentissage– Classifier les exemples en considérant d’abord

les variables les plus importantes: celles qui permettent d’obtenir une décision le plus rapidement

– On continue d’introduire des variables permettant d’obtenir une décision à partir des conséquences de sa variable parent

– Les exemples impertinents sont éliminés

21

Apprentissage supervisé - Application des arbres de décision -

Apprentissage supervisé - Application des arbres de décision -

Entraînement d’un simulateur de vol– Professeurs : 3 pilotes expérimentés– « Enseignement » : chacun répète 30 fois un

vol prédéterminé– 90000 exemples sont créés– Les exemples sont décrits par 20 variables

Résultats

– L’élève dépasse ses maîtres!!

22

Apprentissage supervisé - Réseaux de neurones -

Apprentissage supervisé - Réseaux de neurones -

Réseau composé de nœuds reliés entre eux par des arcs auxquels des poids sont associés

Exemples

23

Apprentissage par renforcement Apprentissage par renforcement Apprentissage à l’aide d’exemples:

– Professeur => exemples

– Modèle de l’environnement => faire des prédictions

– Fonction d’utilité => évaluer les actions

Mais si on a rien de tout ça ???– Utiliser les feedback reçus

– Aux échecs : gagner constitue une récompense

– Au ping pong : chaque point devient une récompense

Reinforcement learning

24

Apprentissage par renforcementApprentissage par renforcement

Principe:

Agent

Environnement

Action

Perceptions

Positif?

Évaluation

Il faut apprendre les meilleurs actions à poser et la façon d’évaluer les perceptions

25

Apprentissage par renforcement - Applications -

Apprentissage par renforcement - Applications - Joueur d’échecs (Samuel 1959-1967)

– Utilisation d’une fonction linéaire permettant d’évaluer les différentes positions

– Les poids dans cette fonction sont appris par reinforcement learning

– Les décisions du joueur virtuel finissait par s’approcher de celles des bons joueurs

Robots Utilisation dans les SMA

26

RésuméRésumé

L’agent apprend en observant:

– l’effet de ses actions Apprentissage par renforcement

– une série d’exemples (supervisé) Induction d’arbres de décision Réseaux de neurones

27

RéférencesRéférences

Bengio, Yoshua. Présentation sur les algorithmes d’apprentissage, www.iro.umontreal.ca/~bengioy

Russell, S. et Norvig, P. Artificial Intelligence A Modern Approach, Prentice-Hall, 1995, 932 pages.

1 apprentissage jean-françois bérubé dans le cadre du cours ift 6802 université de montréal...

Documents