apprentissage automatique et notions connexes

132
Apprentissage automatique et notions connexes ARTC - ESIEA 4ème année Intervenant : Paul MUNTEANU Centre de Recherche du Groupe ESIEA

Upload: macy

Post on 21-Jan-2016

59 views

Category:

Documents


0 download

DESCRIPTION

Apprentissage automatique et notions connexes. ARTC - ESIEA 4ème année Intervenant : Paul MUNTEANU Centre de Recherche du Groupe ESIEA. Objectifs du module. Présenter les bases de l'apprentissage automatique Introduire, par ce biais, des nouveaux concepts de l'IA : - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Apprentissage automatique et notions connexes

Apprentissage automatiqueet notions connexes

ARTC - ESIEA 4ème année

Intervenant : Paul MUNTEANUCentre de Recherche du Groupe ESIEA

Page 2: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 2

Objectifs du module

• Présenter les bases de l'apprentissage automatique• Introduire, par ce biais, des nouveaux concepts de l'IA :

– une nouvelle stratégie de recherche : les algorithmes génétiques

– des nouveaux formalismes de représentation des connaissances : les réseaux de neurones et les réseaux bayésiens

• Thématique commune :– importance accordée aux aspects numériques en IA

– importance accordée aux sources d'inspiration biologiques de l'IA, en complément des maths et de l'informatique

Page 3: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 3

Bibliographie (facultative)

• T.M. Mitchell, « Machine Learning », McGraw-Hill, 1997– un bouquin sur l'AA écrit récemment, avec le recul de quelques

dizaines d'années de carrière scientifique brillante, par un des pères fondateurs du domaine

• S. Russel, P. Norvig, « Artificial Intelligence: A Modern Approach », Prentice Hall, 1995– une vraie encyclopédie de l'IA actuelle

– le livre de référence le plus utilisé dans l'enseignement de l'IA dans le monde

Page 4: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 4

Plan du cours

• Introduction à l'AA

• Notions théoriques d'AA

• Notions algorithmiques d'AA

• Exemples d'algorithmes d'AA– basés sur des algorithmes génétiques

– basés sur des réseaux de neurones

– basés sur des réseaux bayésiens

Page 5: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 5

Introduction à l'AA

• Définition de l'AA

• Relation avec d'autres disciplines

• Intérêt pratique et applications de l'AA

• Typologie de l'AA

Page 6: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 6

Définition de l'AA

• Tâche non-triviale, comme pour toutes les disciplines scientifiques

• Pas de définition consensuelle

• Solution de facilité– renvoyer la balle dans le champ des psychologues :

« automatisation des activités qui, si elles étaient réalisées par des êtres vivants, s'appelleraient apprentissage »

Page 7: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 7

Définitions plus opérationnelles

• L'apprentissage est la construction ou la modification des représentations de ce dont on fait l'expérience (« Learning is constructing or modifying representations of what is being experienced » - Michalski, 1986)

• L'apprentissage automatique est l'étude des méthodes informatiques d'acquisition de nouvelles connaissances, de nouvelles aptitudes et de nouvelles façons d'organiser les connaissances existantes(« [Machine Learning is] the study of computational methods for acquiring new knowledge, new skills, and new way to organise existing knowledge » - Carbonell, 1987)

Page 8: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 8

Définitions plus opérationnelles (2)

• On dit qu'un programme informatique apprend de l'expérience E, par rapport à un ensemble de tâches T et à une mesure de performance P, si ses performances dans l'accomplissement des tâches de T, telles qu'elles sont mesurées par P, s'améliorent avec l'expérience E » (« A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E » - Mitchell, 1997)

Page 9: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 9

Relation avec d'autres disciplines

• AA IA Informatique

• Influencé par un grand nombre d'autres disciplines– algorithmique, résolution de problème

– probabilités, statistiques, théorie de l'information

– reconnaissance des formes, automatique, traitement du signal

– génétique, neurophysiologie, éthologie, psychologie

– philosophie

Page 10: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 10

Intérêt pratique de l'AA

• on le fait une seule fois (à la différence des humains, les programmes peuvent partager les connaissances apprises par simple copie)

• même si c'est lent ça peut être plus rapide que la programmation (plus le recueil d'expertise)

• parfois, on ne peut pas faire autrement ! (comment écrire un programme pour réaliser une tâche que nous ne savons pas réaliser nous-mêmes ?)

Page 11: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 11

Applications pratiques de l'AA

• systèmes experts – méthode d'acquisition de connaissances alternative ou

complémentaire au recueil d'expertise

• traitement automatique du langage naturel (écrit)

• traitement (synthèse et reconnaissance) de la parole

• reconnaissance d'images

Page 12: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 12

Applications pratiques de l'AA (2)

• planification, robotique

• personnalisation de logiciels – lecteurs de news ou de mail

– bureautique

– jeux

• activités beaucoup plus terre-à-terre : industrie chimique, agriculture, zootechnie, ...

Page 13: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 13

Extraction de Connaissances à partir des Données (ECD)

• Regroupe la partie la plus importante des applications de l'AA à l'heure actuelle

• L'AA est utilisé pour la fouille des données historiques accumulées par les entreprises

• ECD AA, AA ECD !– l'ECD combine l'AA avec des techniques issues des bases de

données, des statistiques, de la visualisation, etc.

– l'AA ne se réduit pas à la fouille de données

Page 14: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 14

Applications de l'ECD

• Analyse de risque– assurances : caractéristiques des clients à haut risque

– banques : décider si un crédit peut être accordé à une certaine personne

• Marketing– publipostage : caractéristiques de la population à cibler

– grande distribution : profils des consommateurs, effet des soldes ou de la publicité, modèles d'achat (« panier de la ménagère »)

Page 15: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 15

Applications de l'ECD (2)

• Analyse financière– maximiser le retour sur investissement des portefeuilles

d'actions

• Gestion des stocks– quand commander un produit

– quelle quantité demander

• Maintenance et contrôle de qualité– détection et diagnostic des pannes ou des défauts

– choix des solutions à appliquer

Page 16: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 16

Applications de l'ECD (3)

• Détection des fraudes– informatique

– cartes bancaires

– télécommunications, distribution d'eau et d'énergie

• Recherche scientifique– médecine : diagnostic, choix des traitements

– astronomie : analyse des données recueillies par satellite, catégorisation des étoiles

Page 17: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 17

Typologie de l'AA

• Selon la provenance de l'expérience exploitée par l'apprentissage :– fournie : apprentissage à partir d'exemples – acquise d'une manière autonome, par interaction

avec l'environnement : apprentissage par renforcement

Page 18: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 18

Les exemples

• Exemple = un objet, une situation, etc.• La représentation la plus simple : attribut-valeur• Les exemples sont caractérisés par les valeurs de leurs

attributs (champs, variables, etc.)• Tous les exemples sont décrits par les mêmes attributs• Un ensemble d'exemples peut donc être représenté

comme une table à deux dimensions :– les lignes correspondent aux exemples

– les colonnes correspondent aux attributs

Page 19: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 19

Les attributs

• Caractérisent les différents aspects (traits, facettes, paramètres) des exemples

• Extrêmement hétérogènes• Pour un traitement informatique on doit les répartir dans

des types qui partagent (pour un système donné):– le même encodage

– les mêmes opérations inter- et intra-type

Certains types « usuels » pour l'AA

Page 20: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 20

Les types d'attributs

• atomiques– nominaux : valeurs identifiées par des noms, sans autre

relation entre elles que l'exclusion réciproque

– numériques : valeurs identifiées par des nombres• discrets (Z)

• continus (R)

– binaires : 2 valeurs qui peuvent être vues comme :• nominales (vrai/faux)

• numériques (0/1)

Page 21: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 21

– hiérarchiques : relation d'ordre partiel

• structurés– multimédia (textes, images, sons, films), séquences

d'événements, etc.

Les types d'attributs (suite)

couleur

froidechaude

jaune rouge vert bleu

Page 22: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 22

Typologie de l'AA à partir d'exemples

• Selon le degré de guidage de la part de l'instructeur :– apprentissage supervisé

• l'instructeur indique un attribut particulier que l'algorithme devra apprendre à prédire à partir des autres attributs

– apprentissage non-supervisé• tous les attributs sont traités de la même manière

– inventer de nouveaux concepts (proposer des partitions « naturelles » des exemples)

– découvrir des relations entre les attributs

Page 23: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 23

Plan du cours

• Introduction à l'AA

• Notions théoriques d'AA

• Notions algorithmiques d'AA

• Exemples d'algorithmes d'AA

Page 24: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 24

Aspects théoriques de l'AA

• Les principales méthodes d'inférence de l'AA :– la déduction– l'induction

• Le biais d'induction

• Formalisation du biais d'induction– logique– probabilités– théorie de l'information

Page 25: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 25

La déduction

• la méthode d'inférence la plus étudiée d.p.d.v. théorique (logique formelle) et la plus utilisée pour automatiser le raisonnement en IA

• garantit le préservation de la vérité : à partir de prémisses vraies on obtient toujours des conclusions vraies

• est utilisée dans certaines formes d'apprentissage (analytique) pour organiser d'une manière plus opérationnelle des connaissances qu'on possède déjà

• généralement utilisée pour exploiter les résultats de l'apprentissage

Page 26: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 26

La déduction (2)

• La déduction nous permet de formaliser des raisonnements comme :

« Tous les éléphants sont gris »

« Clyde est un éléphant »

« Clyde est gris »

• Ça marche très bien quand on raisonne du général vers le particulier !

Page 27: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 27

Limites de la déduction

• Mais pas dans l'autre sens (du particulier vers le général) :« Clyde est un éléphant » « Clyde est gris »

« Dimbo est un éléphant » « Dimbo est gris »

...

« Tous les éléphants sont gris »

• Dans un certain sens cette inférence est incorrecte (tant qu'on n'ait pas vu tous les éléphants on ne pourra jamais être certains de la conclusion)

Page 28: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 28

L'induction

• Et pourtant on utilise tous ce type d'inférence très souvent ! – après avoir vu suffisamment d'images d'éléphants n'importe

quel enfant apprend qu'ils sont tous gris

• Elle est donc indispensable dans la plupart des formes d'apprentissage (empirique)

• Elle est même utilisée intensément dans les sciences expérimentales

• Ce type d'inférence s'appelle induction

Page 29: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 29

Exemple d'induction

X

Y

Quelle est la relation entre X et Y ?

Page 30: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 30

Exemple d'induction (2)

La déduction nous permet de rejeter une infinité d'hypothèses :celles qui sont en désaccord avec les exemples

X

Y

Page 31: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 31

Exemple d'induction (3)

Mais il reste encore une infinité d'autres hypothèses entre lesquelles la déduction ne peut pas discerner !

X

Y

Page 32: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 32

Exemple d'induction (4)

Et pourtant la meilleure solution nous paraît évidente :la plus « simple » des hypothèses en accord avec les exemples

X

Y

Page 33: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 33

Le biais d'induction

• Dans la plupart des cas la seule adéquation aux exemples (critère imposé par la déduction) ne suffit pas pour choisir entre les hypothèses possibles

• Tout autre critère de sélection ou de préférence que l'adéquation aux exemples s'appelle biais d'induction

• Le biais d'induction peut être plus ou moins explicite dans un algorithme d'apprentissage - mais il existe toujours !

• Le biais d'induction le plus utilisé : le rasoir d'Occam

« Toutes choses égales par ailleurs, préfère l'hypothèse la plus simple »

Page 34: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 34

Généralisation du rasoir d'Occam

Ce biais est si fort qu'il nous pousse parfois à négliger certaines imperfections des hypothèses, pourvu qu'elles soient simples

(on peut penser dans ce cas que les imperfections sont causées plutôtpar le bruit de mesure que par une relation plus complexe entre x et y)

x

y

Page 35: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 35

Formalisation du biais d'induction

• Logique : ramener l'induction à la déduction– restreindre suffisamment la classe des hypothèses

acceptables afin d'obtenir une solution unique en accord avec les exemples

• cas précédent : la classe des fonctions linéaires y=f(x)

– formuler un critère de préférence parmi les hypothèses qui sont en accord avec les exemples :

• cas précédent : la fonction polynomiale de degré minimal

Page 36: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 36

Formalisation du biais d'induction (2)

• Probabilités– les critères statistiques « orthodoxes » tels que le

maximum de vraisemblance, P(D|H), ne suffisent généralement pas

• cas précédent : P(D|H) = 1 pour toutes les hypothèses en accord avec les exemples

– approche « bayésienne » des probabilités : critère du maximum a posteriori P(H|D)

Page 37: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 37

Théorie bayésienne des probabilités

• Théorème de Bayes :

• La probabilité a priori va biaiser l'apprentissage envers les hypothèses les « moins surprenantes » dans l'état actuel de nos connaissances (avant avoir vu les données)

• La théorie des probabilités traite dans un cadre unitaire la déduction et l'induction

P H D

P H P D H

P Dct P D H

P H

Page 38: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 38

Formalisation du biais d'induction (3)

• Théorie de l'information (principe de la description de longueur minimale MDL = Minimum Description Length)

– L'apprentissage est vu comme un problème de compression de l'information

– La meilleure théorie est celle qui minimise la longueur totale du message transmis : DL(H) + DL(D|H)

0111000110 111000101000111001110101

Théorie Données|Théorie

DL(H) DL(D|H)

Page 39: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 39

Formalisation du biais d'induction (4)

• La quantité d'information portée par un message de probabilité p est -log2(p)– en conséquence, le nombre optimal de bits nécessaires pour le

coder est -log2(p)

• Justification intuitive :– un message de probabilité 1 n'apporte aucune information

• ça ne sert à rien de gaspiller de la bande passante pour informer notre interlocuteur que la nuit il fait noir

– un message de probabilité approchant 0 apporte une information qui tend vers l'infini

• feriez-vous des économies pour être le premier à annoncer que des extraterrestres ont atterris à Laval ?

Page 40: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 40

Formalisation du biais d'induction (5)

• Donc :

– le critère MDL est conceptuellement identique au critère du maximum a posteriori mais évite l'explicitation des probabilités (ce qui plaît aux informaticiens)

– la méthode de codage adoptée spontanément par les informaticiens tient intrinsèquement compte des probabilités, par simple souci d'économie

HDPHP

HDPHPHDDLHDL

2

22

log

loglog

Page 41: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 41

Plan du cours

• Introduction à l'AA

• Notions théoriques d'AA

• Notions algorithmiques d'AA

• Exemples d'algorithmes d'AA

Page 42: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 42

Notions algorithmiques d'AA

• Une fois qu'on a défini ce qu'on cherche (en acceptant un certain biais d'induction) le problème n'est pas résolu pour autant !

• Théoriquement : on pourrait évaluer toutes les hypothèses afin de trouver la meilleure

• Pratiquement : la recherche exhaustive est impossible à réaliser (l'espace des hypothèses possibles est très grand, souvent infini)

Page 43: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 43

AA comme recherche heuristique

• la plupart des algorithmes d'AA réalisent donc une recherche heuristique de la « meilleure » hypothèse

• l'espace de recherche est défini par le formalisme utilisé pour la représentation des hypothèses

• la qualité des hypothèses est calculée par une fonction d'évaluation

• au cours de la recherche, l'affinement des hypothèses est réalisé par certains opérateurs de transformation

Page 44: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 44

Illustration

Espace de recherche

Hypothèse initiale

Hypothèse finale

Opérateur de transformation

Trajectoire déterminée par la stratégie de recherche

Score de l'hypothèse calculé par la fonction d'évaluation

Page 45: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 45

Algorithme générique d'AA

Initialisation : une (ou plusieurs) hypothèse(s) initiale(s)

Recherche d'une (ou plusieurs) hypothèse(s) améliorée(s) :

Tant que non condition d'arrêt

Choix du (des) opérateur(s) à appliquer sur la (les) hypothèse(s)

courante(s) en vue de l'amélioration de la fonction d'évaluation

Obtention d'une (de plusieurs) hypothèse(s) par l'application du

(des) opérateurs choisi(s)

Post-traitement de la  (des) hypothèse(s) obtenue(s)

Page 46: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 46

Stratégies de recherche « classiques »

• Par escalade (hill-climbing)

– par descente du gradient

• Avec liste tabou

• Par recuit simulé

• Avec retour-arrière (backtracking)

• En faisceau (beam-search)

– par algorithmes génétiques

Page 47: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 47

Recherche par escalade

• une seule hypothèse courante

• on choisit à chaque itération l'opérateur qui réalise l'amélioration maximale de la fonction d'évaluation

• avantage : la plus rapide

• désavantage : – dépendante de l'hypothèse initiale

– facilement piégée par les optima locaux

• cas particulier : descente du gradient

Page 48: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 48

Recherche par descente du gradient

• Les hypothèses sont des fonctions d'un ensemble de paramètres numériques :

• La fonction d'évaluation :• E est dérivable en• L'opérateur de transformation est :

selon qu'on veut maximiser ou minimiser• Paramètre : taux d'apprentissage  (qui diminue

généralement au cours du temps)

H w

f H w E w

w

wEwHwH

E w

Page 49: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 49

Descente du gradient

Min local

Min global

E w

w

Page 50: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 50

Amélioration de la recherche par escalade

• L'optimum retrouvé dépend du point de départ de la recherche– multiples départs avec point initial aléatoire

• Pour sortir d'un optimum local on peut accepter de dégrader la qualité de l'hypothèse courante :– liste tabou

– recuit simulé

Page 51: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 51

Recherche avec liste tabou

• Extension directe de la recherche par escalade• On applique toujours l'opérateur qui produit

l'hypothèse de qualité maximale (même si celle-ci est d'une moins bonne qualité que l'hypothèse courante)

• Pour éviter les risques de cyclage, on maintien une liste des k derniers agents évalués (k à déterminer par l'utilisateur)

• Subsiste encore des risques de blocage

Page 52: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 52

Risques de blocage

1

2

3 4

5

6 0

Optimum local

Optimum global

Si k<=2 alors situation de cyclage

Si k>=3 alors situation de blocage

Page 53: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 53

Recherche par recuit simulé

• Autre extension directe de la recherche par escalade

• Afin d'éviter les optima locaux on accepte parfois de modifier l'hypothèse courante dans un sens qui diminue la fonction d'évaluation (afin d'explorer de nouvelles régions de l'espace de recherche)

• La probabilité d'accepter une telle hypothèse est contrôlée par un paramètre T (« température ») qui décroît au cours du temps

Page 54: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 54

Recherche par recuit simulé

• A chaque itération :– on choisit au hasard un opérateur de transformation que l'on

applique à l'hypothèse courante HC afin de produire une nouvelle hypothèse HN

– soit f la différence entre les valeurs de la fonction d'évaluation de HN et HC

– si f > 0 alors la nouvelle hypothèse devient l'hypothèse courante

– sinon, la nouvelle hypothèse devient l'hypothèse courante avec

la probabilité e f T

Page 55: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 55

Recherche avec retour-arrière

• Les stratégies de recherche précédentes sont des stratégies irrévocables

• La recherche avec retour-arrière est une stratégie tentative

• Si la recherche par escalade aboutit à un optimum local inacceptable :– on remet en cause un des choix de transformation qui ont été

faits – on recommence la recherche avec l'hypothèse la plus

prometteuse qui n'a pas encore été poursuivie

Page 56: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 56

Recherche en faisceau

• Contrôlée par un paramètre b = la taille du faisceau

• Au lieu de garder uniquement la meilleure hypothèse, on

garde un « faisceau » des b meilleures hypothèses

• A chaque itération on applique tous les opérateurs de

transformation à toutes les hypothèses du faisceau et on

sélectionne les b meilleures

Page 57: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 57

Les stratégies de recherche "bio"

• Toutes les méthodes précédentes sont des solutions génériques,

assez peu surprenantes, données par des informaticiens à des

problèmes de recherche NP-complets

• La proximité entre l'IA et les sciences de la vie a donné naissance

à des approches plus exotiques et qui ont reçus des noms bizarres :

algorithmes génétiques, systèmes à fourmis, etc.

Page 58: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 58

Les stratégies de recherche "bio" (2)

• La nature résout souvent des problèmes de recherche :– trouver les caractéristiques génétiques idéales d'une

population biologique dans un certain écosystème

– trouver le chemin optimal vers la nourriture par une colonie d'animaux sociaux (comme les fourmis)

• Les stratégies de recherche "bio" abstraient les caractéristiques des solutions naturelles afin de les intégrer dans des stratégies techniques de recherche

Page 59: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 59

Recherche par algorithmes génétiques

• Cas particulier de la recherche en faisceau • Utilise des codages particuliers des hypothèses

(« génomes »)– suite de bits (approche classique)

– programmes représentés par leur arbre syntaxique (« programmation génétique »)

• Utilise des opérateurs de transformation particuliers, inspirés de l'évolution naturelle des espèces biologiques : sélection, croisements et mutations

Page 60: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 60

Opérateurs génétiques

11101001000

00001010101

11101010101Croisement

00001001000

11101001000 11101011000Mutation

11101001000 11101001000Sélection

Page 61: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 61

Algorithme génétique « générique »

Génère p hypothèses au hasard, pour former la population initiale P

Pour chaque HiP

Calcule la valeur de la fonction d'évaluation Eval(Hi)

Tant que la condition d'arrêt n'est pas remplie (max(Eval(Hj))<Seuil)

Génère la population suivante, PS, par sélection, croisement et mutation à partir de P

PPS

Pour chaque HiP

Calcule la valeur de la fonction d'évaluation Eval(Hi)

Retourne argmax(Eval(Hj))

Page 62: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 62

Génération de la population suivante

Initialise la population suivante

Pour chaque HiP Calcule sa probabilité de sélection

Sélection :

Choix aléatoire, en accord avec prob, de (1-r)p hypothèses de P pour faire partie de PS

Croisement :

Choix aléatoire de rp/2 paires d'hypothèses de P, en accord avec prob, croisement de ces paires d'hypothèses et rajout de leurs descendants à PS

Mutation :

Choix aléatoire de mp hypothèses de PS, avec une probabilité uniforme, et inversion, pour chacune de ces hypothèses, d'un bit choisi aléatoirement

PS

PHj

ii

j

HEval

HEvalHprob

Page 63: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 63

Discussion

• p, r, m sont des paramètres fournis par l'utilisateur• un bon fonctionnement nécessite un subtil dosage de

croisements et mutations• pour éviter trop de consanguinité : maintien de plusieurs

sous-populations relativement autonomes

Page 64: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 64

Plan du cours

• Introduction à l'AA

• Notions théoriques d'AA

• Notions algorithmiques d'AA

• Exemples d'algorithmes d'AA

Page 65: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 65

L'apprentissage supervisé

• Les exemples = des énoncés de problèmes déjà résolus accompagnés de leurs solutions

• Le but : apprendre à résoudre des problèmes du même type

• La solution est représentée comme un attribut particulier (éventuellement structuré), qu'il faut apprendre à prédire à partir des autres attributs

Page 66: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 66

L'apprentissage supervisé (2)

• Soit X1, X2, …, Xn les attributs prédictifs et Y l'attribut à prédire

• La relation entre Y et X1, X2, …, Xn peut être exprimée

– de manière déterministe Y = f(X1, X2, …, Xn)

– de manière probabiliste P(Y| X1, X2, …, Xn)

• Selon le type de Y on parlera de :– discrimination ou classification supervisée (Y est nominal :

la classe)

– régression (Y est numérique)

Page 67: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 67

L'apprentissage supervisé (3)

• Algorithmes « symboliques » (issus de l'IA)– induction d'arbres de décision

– induction de règles

– programmation logique inductive

• Algorithmes connexionnistes (réseaux de neurones)– réseaux multi-couches à retro-propagation du gradient

• Algorithmes « paresseux » (l'induction est retardée)– la méthode des K plus proches voisins

– le raisonnement à partir des cas

Page 68: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 68

L'induction de règles

• Les règles de production = le formalisme traditionnel de représentation des connaissances en IA classique :

Si prémisses Alors conclusion• En apprentissage supervisé :

– les prémisses des règles portent sur les valeurs des attributs– la conclusion détermine la classe

• La méthode d'induction la plus utilisée (séparer pour régner) :– construction des règles une par une– recherche heuristique (par escalade ou en faisceau) des meilleures

prémisses de chaque règle

Page 69: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 69

Induction de règles avec des algorithmes génétiques

• A la différence de la méthode « séparer pour régner », les règles sont apprises toutes en même temps

• 2 grandes familles d'approches :– Pittsburgh : individu = paquet de règles

– Michigan : individu = règle, population = paquet de règles

• Un des algorithmes les plus connus (Pittsburgh) :– GABIL (DeJong, Spears, Gordon, Using genetic algorithms for

concept learning, Machine Learning, 13, 1993)

Page 70: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 70

Représentation des hypothèses

• Attributs :

• Classe :

• Une règle :

• Principe d'encodage des règles :– un bit par valeur d'attribut (ou de classe) :

0 = valeur interdite, 1 = valeur permise

– groupes de bits de longueur et position fixe pour chaque attribut et pour la classe

• Codage de la règle : 1001 01 111 10

X x x x x X x x X x x x1 11

12

13

14

2 21

22

3 31

32

33 , , , , , , , ,

Y y y 1 2,

1222

411

111 alors et ou Si yYxXxXxX

Page 71: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 71

Représentation des hypothèses (2)

• Problèmes :– l'AG risque de produire des génomes inintéressants (1 pour

plusieurs valeurs de la classe)– règles indépendantes : il faut prévoir une stratégie de

résolution des conflits • Dans GABIL :

– restriction à l'apprentissage des concepts (classes binaires : exemples positifs et négatifs d'un concept)

– apprentissage de règles uniquement pour les exemples positifs (si aucune règle applicable, l'exemple est classé négatif)

– il n'est plus nécessaire d'encoder la conclusion de la règle

Page 72: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 72

Représentation des hypothèses (3)

• Principe d'encodage des paquets de règles

– juxtaposition des codes des règles qui constituent le paquet

– les génomes des paquets de règles ont une longueur variable

• Exemple :

– codage : 1001 01 111 1111 11 001

13

33

1222

411

111

alors Si

alors et ou Si

yYxX

yYxXxXxX

Page 73: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 73

Opérateurs génétiques

• Opérateurs de sélection et mutation standard• Opérateur de croisement modifié

– à deux points de coupure

– problème : génomes de longueur variable

– solution : les points de coupure du deuxième parent sont choisis à des endroits avec la même sémantique que ceux du premier parent

0101 11 101 0001 01 111 1111 11 1011001 01 111 1111 11 001 1101 11 001

Page 74: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 74

Fonction d'évaluation

• Récompense non-linéaire de la précision des paquets de règles :– la précision d'une hypothèse H = la proportion d'exemples bien

classés par cette hypothèses parmi les exemples d'apprentissage

– éval(H) = précision(H)2

• Observation– pas de traitement du bruit

– pas de biais en faveur des hypothèses simples

– amélioration possible

Page 75: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 75

Réseaux de neurones

• Apprentissage de fonctions à valeurs réelles, discrètes ou vectorielles

• Robustes aux bruits et aux erreurs• Inspiration biologique

– homme : 1011 neurones connectés chacun à 104 autres

• Fonctionnement complexe obtenu par l'interconnexion d'unités de traitement très simples connexionnisme

Page 76: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 76

Applications

• Traitement du signal– reconnaissance de la parole

– reconnaissance de bruits de termites

• Interprétation de scènes visuelles• Stratégies de contrôle

– véhicule autonome (70 mph sur 90 miles)

Page 77: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 77

Caractéristiques générales

• L'apprentissage peut être long• La relaxation est par contre très rapide• Approximateur de fonctions type « boite noire », i.e.

perte de lisibilité par rapport à d'autres approximateurs comme les arbres de décisions ou les règles

Page 78: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 78

Le plus simple des réseau :le perceptron

x1Perceptron

x2

x0=1

xp

w1

w0

w2

wp

p

iii xwxw

0

s

s = 1 si > 0

-1 sinon

xw

Page 79: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 79

Le perceptron

• Séparation linéaire des classes– ET, OU, !ET, !OU mais pas OUX

– exemple du ET : w1 = w2 = 0.5 et w0 = -0.8

– exemple du OU : w1 = w2 = 0.5 et w0 = -0.3

Page 80: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 80

Règle d'apprentissage LMS

• L'espace de recherche est caractérisé par le vecteur de poids à valeurs réelles– recherche dans p

• Règle d'apprentissage LMS (règle delta)wi = wi + wi

wi = (t-s) xi

• Convergence après multiples applications si les exemples sont linéairement séparables

Page 81: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 81

L'unité linéaire

x1Unité linéaire

x2

x0=1

xp

w1

w0

w2

wp

p

iii xwxw

0

s

xws

Page 82: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 82

Descente du gradient

• Unité linéaire = perceptron sans fonction de seuillage • L’erreur d'apprentissage, i.e. le critère à optimiser, est

définie par :

• La direction permettant de descendre le long de la surface d'erreur est défini par le gradient de E par rapport à :

w

Dd

ddDd

dd xwysywE 22

2

1

2

1

pw

E

w

E

w

EwE ,,,

10

id

Dddd

i

xsyw

E

Page 83: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 83

Règle d'apprentissage delta

• La descente de gradient s'effectue par :

avec • La version incrémentale (stochastique) diminue le

risque d'obtenir un minimum local en utilisant plusieurs erreurs, une pour chaque donnée :

wEw

idDd

ddi xsyw

idddiddd xsywsywE 2

2

1

Page 84: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 84

Algorithme de descente de gradient pour unités linéaires

Initialise les poids avec des petites valeurs aléatoires (entre -0,05 et 0,05)

tant que la condition d'arrêt n'est pas remplie

pour chaque exemple d'apprentissage

calcule la sortie s du neurone

pour chaque poids du réseau wi

yx,

iii xsyww

Page 85: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 85

Réseau de neurones multi-couches et rétro-propagation du gradient

• Le perceptron ne modélise que des fonctions linéaires (même si plusieurs en cascade)

• Un réseau multi-couches peut exprimer une variété très riche de fonctions non linéaires– neurones avec sorties non linéaires en fonction des entrées

– les sorties des neurones sont dérivables en fonction de leurs entrées

Page 86: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 86

Neurone artificiel avec fonction de seuillage sigmoïdale

x1Neurone

x2

x0=1

xp

w1

w0

w2

wp

p

iii xwxw

0

xwe

s

1

1

s

Page 87: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 87

Les réseaux multi-couches

Entrées Couche(s) cachée(s) Sorties

x1

x2

x3

xn

s1

s2

sm

Page 88: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 88

Définition du critère à optimiser

• Le réseau multi-couches calcule une fonction non-linéaire des entrées et des poids :

• Le réseau pouvant avoir plusieurs sorties, l'erreur sur l'ensemble des données est redéfinie par :

• L'erreur pour la version stochastique :

wxfs

,

Dd sortiesk

dkdkDd

dd sysywE 22

2

1

2

1

2)(

2

1

sortiesk

kkd sywE

Page 89: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 89

Retro-propagation du gradient

• Comment calculer ?• Notations (on omet l'indice d) :

– eji : l'entrée i du neurone j– wji : le poids de l'entrée i du neurone j– activj = (l'activation du neurone j)

– sj : la sortie du neurone j

• Alors :

où j est le « terme d'erreur » du neurone j

E wd

w eji jii

jijjij

d

ji

j

j

d

ji

d eeactiv

E

w

activ

activ

E

w

E

Page 90: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 90

Retro-propagation du gradient (2)

• La structure du réseau nous permet de calculer les termes d'erreur à partir de la couche de sortie vers la couche d'entrée

• Après plusieurs calculs on obtient :– pour les neurones de sortie (numérotés de 1 à m,

correspondant aux variables à prédire)

– pour les neurones des couches cachées

k k k k ks s y s 1

h h h kh kk sorties

s s w 1

Page 91: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 91

Remarques

• La rétro-propagation est assez similaire aux règles LMS et delta : (t-s) xi

• Le terme (t-s) est remplacé par le terme k plus complexe, intégrant le passage par la sigmoïde

• Pour h, les exemples ne fournissant pas directement l'erreur, on la calcule en sommant les k pour chaque unité de sortie influencée par h, pondérés par wkh, « responsabilité » de h dans k

Page 92: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 92

Algorithme de rétro-propagation du gradient

Initialise les poids avec des petites valeurs aléatoires (entre -0,05 et 0,05)

tant que la condition d'arrêt n'est pas remplie

pour chaque exemple d'apprentissage

calcule su pour chaque neurone u

pour chaque neurone de sortie k

calcule son terme d'erreur

pour chaque neurone caché h

calcule son terme d'erreur

pour chaque poids du réseau wji

x y,

w w eji ji j ji

k k k k ks s y s 1

h h h kh kk sorties

s s w 1

Page 93: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 93

Critères d'arrêt

• convergence de l'erreur sur l'ensemble d'apprentissage– risque de sur-apprentissage

• minimisation de l'erreur sur un ensemble indépendant

erreur

ensemble de validation

ensemble d'apprentissage

nb. itérations

Page 94: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 94

Minima locaux

• Pour éviter certains minima locaux, il est possible d'ajouter un terme d'inertie dans la mise à jour des poids :

– permet la sortie de petits minima locaux

– permet la sortie de plateaux

– augmente la grandeur du pas si la direction du gradient ne change pas et accélère ainsi la convergence

1 nwxnw jijijji

Page 95: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 95

Sur-apprentissage

• Réduction du risque de sur-apprentissage par réduction des poids (weight decay) – la réduction des poids s'effectue en modifiant le terme

d'erreur

– biaise l'apprentissage contre les surfaces trop complexes

Dd sortiesk ji

ijkdkd wsywE,

22

2

1

Page 96: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 96

Modification dynamique de la structure

• Ajout incrémental de neurones dans la couche cachée• Elagage

– élimination des neurones ayant des poids très faibles

– élimination des neurones dont une faible variation de poids ne change pas beaucoup l'erreur (optimal brain damage), i.e.

mesure de l'importance de la connexion avec :jiw

E

Page 97: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 97

L'apprentissage non-supervisé

• Invention de nouveaux concepts (Clustering)

• Découverte de relations entre les attributs

Page 98: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 98

Clustering

• Classification non-supervisée, catégorisation, segmentation• Objectif :

– trouver des regroupements « naturels » (clusters) des exemples• inventer un nouvel attribut C dont les valeurs c1, c2,…, ck indiquent le

cluster auquel un exemple appartient• à la différence de la discrimination, les valeurs de C ne sont pas fournies

avec les exemples d'apprentissage– critère pour réaliser les regroupements :

• maximiser la similarité inter-cluster• minimiser la similarité intra-cluster

• Exemple d'application : – segmentation de la clientèle en groupes homogènes

Page 99: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 99

Cartes auto-organisatrices de Kohonen

• Transformation de l'espace n-dimensionnel des exemples en un espace bi-dimensionnel (une carte)

• Préservation du voisinage : deux exemples qui sont similaires dans l'espace original seront également proches dans la carte

• La carte est matérialisée par un réseau de neurones • Idée de base : chaque neurone apprend à reconnaître un

cluster d'exemples

Page 100: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 100

Le réseau

• Neurones :– les sorties des neurones représentent les distances entre le vecteur

des entrées et le vecteur des poids :– sous certaines conditions de normalisation :

• Réseau :– une seule couche de neurones– les attributs des exemples sont distribués sur tous les neurones par

des connexions adaptatives– chaque neurone a une influence sur ses voisins par des connexions

d'un type spécial : les connexions récurrentes

wxd

, w x

Page 101: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 101

Structure du réseau de Kohonen

x1 x2 xn

Voisinage carré de dimension 1 :

connexion récurrenteconnexion adaptative

Page 102: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 102

Principe de l'algorithme de Kohonen

• Chaque neurone se spécialise dans la reconnaissance d'un cluster d'exemples similaires

• Les neurones voisins dans le réseau représentent des clusters proches dans l'espace des exemples

• Après la présentation d'un exemple , les vecteurs des poids du neurone le plus actif et de ceux de son voisinage se déplacent vers

• L'apprentissage est contrôlé par un paramètre qui décroît au cours de l'apprentissage

• Le voisinage des neurones se rétrécit également au cours de l'apprentissage

x

x

Page 103: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 103

Algorithme de Kohonen

tant que la condition d'arrêt n'est pas remplie

présenter un exemple au réseau et calculer les sorties des neurones :

rechercher le neurone de sortie maximale i* et son voisinage I*

adapter les poids des neurones k I* {i* }selon la règle :

x

xwd i

,

w w x wk k k

Page 104: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 104

L'apprentissage non-supervisé

• Invention de nouveaux concepts (Clustering)

• Découverte de relations entre les attributs

Page 105: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 105

Apprentissage de réseaux bayésiens

• Réseaux bayésiens = le formalisme de représentation des connaissances incertaines le plus utilisé actuellement

• Hybridation réussie entre : – la compréhensibilité des résultats des méthodes symboliques

– les fondements probabilistes rigoureux des méthodes statistiques

– la structure en réseau de composants simples des approches connectionnistes

Page 106: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 106

Applications des réseaux bayésiens

• Réalisation de systèmes experts par recueil d'expertise– aide au diagnostic médical, technique, logiciel

– assistants "intelligents" (Office 97)(selon Bill Gates, l'avantage compétitif à terme de Microsoft serait son expertise dans les réseaux bayésiens [Los Angeles Times, octobre 1996])

– applications militaires de pilotage automatique des systèmes de défense

– etc.

• Plus récemment : Data Mining par apprentissage automatique de réseaux bayésiens

Page 107: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 107

Inférence probabiliste

• Le domaine étudié est représenté par un ensemble de variables (attributs) X1, X2,…, Xn

• On dispose des valeurs d'un sous-ensemble de ces variables (variables observées)

• On veut caractériser les valeurs possibles d'un autre sous-ensemble de variables (variables requises) sous la forme de leurs distributions de probabilités

Page 108: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 108

Représentation des connaissances

• La distribution des probabilités jointes (DPJ) : P(X1 = x1, X2 = x2,…, Xn = xn) P(x1, x2,…, xn) pour toutes les combinaisons possibles des valeurs des variables

• La connaissance de la DPJ est suffisante pour mener à bien toute inférence portant sur l'ensemble des variables

• La représentation de la DPJ nécessite un nombre de paramètres exponentiel par rapport au nombre de variables (plus d'un milliard pour 20 variables binaires)

Page 109: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 109

Indépendance conditionnelle

• Soit A, B et C des ensembles de variables et a, b et c des combinaisons de valeurs pour ces ensembles de variables

• Si P(A = a|C = c) = P(A = a|B = b, C = c) a, b, c alors on dit que les variables A sont indépendantes des variables B si on connaît les variables C

• La relation d'indépendance conditionnelle entre les variables A et B est symétrique

• Idée : exploiter les indépendances conditionnelles entre les variables afin de représenter la DPJ d'une manière plus compacte

Page 110: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 110

Exploitation des indépendances conditionnelles

• Règle du ET :

• Soit Pai {Xi-1, Xi-2,…, X1} tels que :

pour toutes les valeurs possibles

• Formulation équivalente :

– la variable Xi est indépendante des variables {Xi-1, Xi-2,…, X1}\Pai si on

connaît les variables Pai

n

iiiiiiinn xXxXxXxXPxXxXxXP

11122112211 ,,,,,,

iiiiiiiiii paPaxXPxXxXxXxXP 112211 ,,,

Page 111: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 111

Représentation compacte de la DPJ

• Alors on peut écrire la DPJ sous la forme :

– notation plus compacte :

• Au lieu d'un nombre de valeurs exponentiel par rapport au nombre de variables, on a besoin, pour chaque variable, d'un nombre de valeurs exponentiel par rapport au nombre de ses parents

n

iiiiinn paPaxXPxXxXxXP

12211 ,,,

n

iiin paxPxxxP

121 ,,,

Page 112: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 112

Réseaux bayésiens (RB)

• Graphe orienté sans cycle – les nœuds représentent les variables du domaine

– les arcs représentent les influences directes entre les variables

• Tables de probabilités conditionnelles (TPC) attachées à chaque nœud Xi

– soit Pai les parents du nœud Xi

– la TPC du nœud Xi contient les probabilités P(Xi = xi| Pai = pai) pour toute valeur xi de Xi et toute combinaison de valeurs pai de Pai

Page 113: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 113

Exemple - l'histoire

• [Stuart & Russell, AI - A Modern Approach]– une personne habitant Los Angeles (tremblements de terre

fréquents) installe chez elle une alarme contre les cambriolages

– elle demande à ses amis John et Mary (qui restent chez eux dans la journée) de l'appeler au travail s'ils entendent l'alarme

– John appelle toujours quand il croît entendre l'alarme mais la confond parfois avec la sonnerie du téléphone

– Mary aime écouter de la musique forte et, donc, n'entend pas toujours l'alarme

Page 114: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 114

Exemple - le réseau bayésien

A

J M

TC

P A C T

P A C T

P A C T

P A C T

, ,

, ,

, ,

, ,

0 95

0 94

0 29

0 001

P C 0 001, P T 0 002,

P J A

P J A

0 9

0 05

,

,

P M A

P M A

0 7

0 01

,

,

Page 115: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 115

Construction de RB

• Algorithme théorique :– Choix d'un ordre sur les variables– Pour i de 1 à n :

• création du nœud correspondant à la variable Xi

• recherche d'un ensemble minimal de variables Pai, parmi les variables déjà traitées, tels que la variable Xi est indépendante des variables {Xi-1, Xi-2,…, X1}\Pai si on connaît les variables Pai

• création d ’arcs orientés entre les variables Pai et la variable Xi

• création de la TPC correspondant à la variable Xi

• La complexité du réseau obtenu est très dépendante de l'ordre des variables

• Dans la pratique, on s'appuie sur les relations de causalité directe entre les variables

Page 116: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 116

Inférence à partir des RB

• La connaissance de la DPJ est suffisante pour mener à bien toute inférence probabiliste portant sur les variables du domaine

• L'inférence dans les réseaux bayésiens est NP-difficile • Il existe cependant des algorithmes d'inférence

suffisamment rapides pour la plupart des applications pratiques– inférence exacte : la méthode des arbres de jonction

– inférence approximative : méthodes type Monte-Carlo

Page 117: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 117

Exemple - types d'inférence possibles

• Diagnostique : P(C|J) ?

• Inférence causale : P(J|C) ?

• Inférence inter-causale : P(C|A,T) ?

• Inférence mixte :

– P(A|J,¬T) ? : combinaison de diagnostic et d'inférence causale

– P(C|J,¬T) ? : combinaison de diagnostic et d'inférence

inter-causale

Page 118: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 118

Méthodes d'apprentissage des RB

• Plusieurs catégories de méthodes selon que :– la structure du réseau est connue ou non

• apprentissage de paramètres

• apprentissage de structure

– les valeurs de tous les attributs sont disponibles ou non• on va s'intéresser uniquement à la première catégorie

• pour les cas où certaines valeurs des variables sont absentes d'une manière aléatoire (valeurs manquantes) ou systématique (variables cachées) des méthodes d'apprentissage de type échantillonnage de Gibbs ou EM (Expectation-Maximisation) ont été développées

Page 119: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 119

Apprentissage des paramètres

• La méthode la plus simple : le comptage

• Risque : certaines combinaisons parents-enfant peuvent être peu ou pas du tout représentées

• Méthodes plus sophistiquées :– estimation bayésienne avec prise en compte des probabilités

a-priori

– utilisation de modèles locaux (arbres de décision) pour représenter la dépendance parents-enfant

uUN

uUxXN

ueUueUueUe

ueUueUueUxeXe

uUuUuUxXP

nn

nn

nn

,

,,,

2211

2211

2211

Page 120: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 120

Apprentissage de la structure

• Définir une fonction d'évaluation des différentes structures possibles et utiliser une stratégie de recherche heuristique pour trouver la structure « optimale »

• Deux méthodes génériques en apprentissage pour définir les fonctions d'évaluation : – le principe de la description minimale (MDL = Minimum

Description Length)

– l'approche bayésienne qui passe par le calcul des probabilités a posteriori

Page 121: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 121

Codage de la théorie

• Théorie = réseau bayésien R

iii

iii

ii

i

Pa

n

iiii

ii

NXvalPaval

probDLXvalPavalGTPCDLGTPCDL

n

PaPaDLPaDLnoeudDLGDL

GTPCDLGDLRDL

C i

2

log1

1

loglog

Page 122: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 122

Codage des données

• Données = somme des descriptions des exemples

• Les paramètres qui minimisent cette expression sont

• Donc :

iiR

n

i paxiiii

N

j

n

iijijR

N

j

n

iijijR

N

jjR

N

jj

paxPpaPaxXN

paxPpaxP

ePReDLRDDL

ii

log,

loglog

log

1 ,

1 11 1

11

ii

iiiiiiR paPaN

paPaxXNpaxP

,

n

iii PaXHNRDDL

1

Page 123: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 123

Exemple de codage des données

• Soit le réseau

et deux exemples à transmettre : e1 = (v, v, v) et e2 = (v, f, v)

– PR(A=v, B=v, C=v) = PR(A=v).PR(B=v).PR(C=v|A=v, B=v)

– PR(A=v, B=f, C=v) = PR(A=v).PR(B=f).PR(C=v|A=v, B=v)

– Le nombre de bits nécessaires est donc :

DL(D|R) = -(2 log2(PR(A=v)) + log2(PR(B=v)) + log2(PR(B=f)) +

log2(PR(C=v|A=v, B=v)) + log2(PR(C=v|A=v, B=f)))

A B

C

Page 124: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 124

Le score MDL

• Le score se décompose donc en une somme de sous-scores locaux à chaque nœud (propriété importante pour l'optimisation)

ii

iiiii

Pa

n

DRscore

PaXHNN

XvalPavaln

RDDLRDLDRscore

C i

,

2

log1loglog

,

Page 125: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 125

L'approche bayésienne

• P(G) réalise une pénalisation des structures dissemblables à une structure a priori ou, en absence d'une telle structure, des structures complexes (rasoir d'Occam)

• P(D|G) doit prendre en compte toutes les valeurs possibles des TPC :

P G DP G P D G

P D avec P(D) indépendant de G

scoreB G D P G P D G, : le score "Bayésien"

P D G P D G P G dG G G ,

Page 126: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 126

Le score BD

• Si :– on accepte certaines hypothèses qui peuvent être résumées sous la forme :

"chaque distribution P(Xi|Pai) peut être apprise indépendamment des autres"

– les a priori sur les paramètres peuvent être représentés sous une certaine forme analytique (loi de Dirichlet)

• Alors :– l'intégrale de la vraisemblance peut être calculée analytiquement

– le score résultant porte le nom de "Bayésien Dirichlet" (BD)

Page 127: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 127

Le score BDe

• Problème avec le score BD :– demande l'obtention des a priori pour tous les paramètres de toutes les

structures évaluées : infaisable !

• Si en plus des hypothèses déjà acceptées :– on accepte que la vraisemblance ne puisse pas départager des structures

qui représentent les mêmes relations d'indépendance conditionnelle (structures "équivalentes")

• Alors :– on aboutit à une formule analytique et à une méthode d'élicitation des a

priori sur les paramètres qui définissent le score Bde

• Les scores BD et BDe sont décomposables sur les nœuds

Page 128: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 128

Optimisation des scores

• La recherche de la structure optimale d.p.d.v. de ces scores (et de la plupart des autres) est NP-difficile

Recherche heuristique• Le plus souvent : recherche gloutonne, tabou ou recuit

simulé• Ses stratégies de recherche demandent la définition

d'un ensemble d'opérateurs de transformation qui permettent l'exploration de l'espace de recherche

Page 129: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 129

Opérateurs de transformation

A B

C

D

A B

C

D

A B

C

D

A B

C

D

Rajoute un arc

Enlève un arc Renverse un arc

Page 130: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 130

Détails algorithmiques

• Le point de départ de la recherche : – le réseau totalement déconnecté– un réseau a priori fourni par l'utilisateur– un réseau à structure contrainte qui peut être obtenu rapidement

(l'arbre de recouvrement maximal)

• La décomposabilité du score :– facilite le calcul du score des hypothèses transformées : au plus

deux scores locaux à actualiser– peut être utilisée pour optimiser les calculs à l'aide d'une mémoire

« cache »

Page 131: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 131

Interprétation causale des réseaux bayésiens

• Contestée par certains chercheurs : peut-on vraiment apprendre des causalités à partir des données (sans faire des expériences) ?

• Ses partisans s'appuient sur des hypothèses qui, selon eux, permettent de donner à certains arcs la sémantique de liens de causalité directe entre les variables

• A l'origine d'une famille de méthodes d'apprentissage de structure reposant directement sur des tests d'indépendance conditionnelle :– plus efficaces que les méthodes fondées sur un score

– capables dans certains cas de découvrir la présence de variables cachées

– très sensibles aux erreurs faites par les tests d'indépendance conditionnelle et à leur paramétrage

Page 132: Apprentissage automatique et notions connexes

ESIEA 4 - ARTC - AA Paul MUNTEANU 132

Conclusion

• Il est difficile d'imaginer l'IA sans l'AA• L'AA a déjà prouvé son intérêt pratique par un grand

nombre d'applications• Avec la Fouille de Données (Data Mining), l'AA connaît

une nouvelle jeunesse et une approche plus pragmatique• En FD, le "tout automatique" et "les expériences de

laboratoire" sont remplacés par une collaboration directe avec les experts humains et une confrontation sans merci avec les tâches pratiques à résoudre.