réseaux de neurones artificielsevelyne.lutton.free.fr/slidescours/coursrn.pdfplan • l’idée –...

48
Réseaux de neurones artificiels (formels) Christian TRELEA AgroParisTech

Upload: dangkhanh

Post on 15-Sep-2018

226 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Réseaux de neurones artificiels (formels)

Christian TRELEA AgroParisTech

Page 2: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Plan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage supervisé des RN • Capacité de généralisation • RN en classification • Apprentissage non supervisé – autres types de RN

2

Page 3: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

L’idée (origine ~1940)

• Les organismes vivants, même assez primitifs (ex. insectes), réalisent des tâches complexes de traitement de l’information – orientation – communication – comportement social – …

• La puissance de traitement de leur système nerveux vient de

l’interconnexion (ex. 1014 connexions chez l’homme) – d’un grand nombre (ex. 1011 chez l’homme) – d’unités de traitement simples et similaires: les neurones

3

Page 4: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

L’idée (suite)

• La motivation initiale était de faire du neuro-mimétisme – Toutefois, la vision des années 1940 était assez simpliste; – la réalité biologique c’est avéré plus complexe depuis.

• En revanche, cette idée c’est avérée très féconde en mathématiques et en

ingénierie • Aujourd’hui, les réseaux de neurones artificiels (RN) forment un ensemble

de techniques – matures – efficaces – avec une base théorique solide – largement utilisées dans de nombreux domaines

• Médecine (diagnostic, prothèses, conseils d’urgence) • Prospection minière et pétrolière • Reconnaissance vocale, écriture manuscrite • Télécommunication (compression des données) • Finance (estimation immobilier, détection fausses déclarations, prédiction des cours) • Industrie (mesure, prédiction contrôle) • Transports (pilotage automatique, détection de risques, détection de pannes)

4

Page 5: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Le neuromimétisme

5

Page 6: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Le neuromimétisme • De gros projets

– SyNAPSE (Darpa) – IBM, HP, universités de Columbia, Cornell, … – Human Brain Project (UE, 1 G€) – Ecole polytechnique fédérale de Lausanne + 86 partenaires

• Beaucoup de questions

– Une intelligence peut-elle émerger? Comparable, supérieure à la notre?

– Une conscience? Des émotions? – Un cerveau artificiel aura-t-il besoin de sommeil? Sera-t-il sujet à des

troubles mentaux? – Aidera-t-il à comprendre les maladies mentales? Pourrat-on remplacer

un cerveau endommagé?

6

Page 7: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Et l’intelligence artificielle ? • Une promesse des années 1960-80, non tenue à ce mont-là • Commence à devenir réalité ~2010

7

Watson (Charles Lickel, IBM) • Une analyse comparable, voire meilleure que l’expertise

humaine • Capable d’acquérir, de mobiliser et de transmettre des

connaissances • Intelligence généraliste

• A battu les champions du jeu télévisé « Jeopardy! » – réponses rapides à des questions très diverses, posées avec humour et jeux de mots

• Meilleur taux de succès dans le diagnostic du cancer que les médecins spécialistes

• Conseil financier, relations client, cuisine… • Principe

• Brasser d’énormes quantités de données (1015

octets) • Auto-amélioration des algorithmes de recherche:

apprend à apprendre

Page 8: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Intelligence artificielle (suite)

• Ellie (Université de Californie du Sud) – Psychologue virtuelle – détecte des signes

de pathologie psychologique – Analyse mots, intonation, expression du

visage, position du corps des patients – Plus attentive et mieux acceptée qu’un

psychologue humain

• Marlowe (Francis Chateauraynaud, Ecole des hautes études en sciences sociales) – Analyseur d’actualité, générateur de blog – Détecte l’émergence d’un thème, d’une

controverse… – Donne l’illusion d’un sens critique et d’une

opinion sur les événements

8

Page 9: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Plan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage supervisé des RN • Capacité de généralisation • RN en classification • Apprentissage non supervisé – autres types de RN

9

Page 10: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Neurone biologique et neurone formel

Dendrites (103) = Entrées Affectées de « poids »

• Excitatrices (w>0) • Inhibitrices (w<0)

w1

w2

x1 Potentiel d’activation

∑= ii xwax2

Somme pondérée

Fonction d’activation (transfert)

Axone = sortie

y = g(a) g

Synapses = connexions

McCulloch & Pitts, 1943

Perceptron

10

Page 11: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Neurone biologique et neurone formel

• L’unité de base est relativement – simple (somme pondérée + seuil) – lente (103 Hz dans le cerveau humain)

• La complexité du traitement, la vitesse et la tolérance aux

pannes sont dues à – Une forte connectivité (103 synapses pour chaque neurone) – Un parallélisme massif (1011 neurones chez l’humain, structurés en

« couches »)

11

Page 12: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Le perceptron multicouche

1

z1

zn

x1

xm

… x2

1

y1

ym

Entrées Sorties

Couche 1 « cachée »

Couche 2 de sortie

Poids de la couche cachée

Sorties de la couche cachée

Poids de la couche de sortie

Fonction d’activation de la couche cachée

Fonction d’activation de la couche de sortie

12

Page 13: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Le perceptron multicouche

• La fonction remplie par le RN dépend de – Structure du réseau

• Nombre de couches • Nombre d’entrées • Nombre de sorties • Nombre de neurones dans chaque couche

– Valeur des poids de chaque couche • Potentiel d’activation

– Fonction d’activation de chaque couche • Sortie de chaque neurone

Apprentissage du réseau

Seuil Logistique Tangente

hyperbolique Linéaire Radiale 13

Page 14: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Approximation universelle par RN

• Théorème central – Un perceptron à 2 couches

• Dont la couche cachée a une fonction d’activation sigmoïde (ex. logistique, tanh, etc.)

• Dont la couche de sortie a une fonction d’activation linéaire – Peut approximer

• uniformément • avec une précision arbitraire • sur un domaine fini

– Toute fonction suffisamment régulière

• Remarques – En théorie, il n’y aurait besoin d’aucune autre structure de réseau. Toutefois,

dans les applications, il peut s’avérer plus pratique d’utiliser plusieurs couches, des sorties non linéaires, etc.

– C’est un théorème purement existentiel. Il ne dit pas comment déterminer un nombre approprié de neurones dans la couche cachée et les valeurs des poids pour approximer une fonction donnée avec une précision donnée !

Hornik 1989, 1990, 1991

14

Page 15: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Approximation par RN, comment ça marche ?

-10 -5 0 5 100

0.2

0.4

0.6

0.8

1

1.2

1.4

Entrée (X)

Sort

ie (Y

)

Superposition de sigmoïdes

-10 -5 0 5 100

0.5

1

1.5

2

Entrée (X)

Sort

ie (Y

)

Superposition de sigmoïdes

-10 -5 0 5 100

0.5

1

1.5

2

Entrée (X)

Sort

ie (Y

)

Superposition de sigmoïdes

-10-50510

-100

10

0

0.2

0.4

0.6

0.8

1

1.2

1.4

Entrée (X2)

Superposition de sigmoïdes

Entrée (X1)

Sort

ie (Y

)

-100

10

-100

10

0

0.5

1

1.5

2

2.5

3

Entrée (X1)

Superposition de sigmoïdes

Entrée (X2)

Sort

ie (Y

)

-10

0

10 -10

0

10

0

1

2

3

Entrée (X2)

Superposition de sigmoïdes

Entrée (X1)

Sort

ie (Y

)

15

Page 16: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Autres approximateurs universels

• Il existe de nombreux jeux de « fonctions de base » dont la superposition peut approcher arbitrairement n’importe quelle autre fonction – Polynômes – série de Taylor

• Fonctions de base : 1, x, x2, x3, …

– Fonction trigonométriques – série de Fourrier • Fonctions de base : 1, cos x, sin x, cos 2x, sin 2x, …

– Ondelettes

– Etc.

16

Page 17: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Approximation parcimonieuse nombre de paramètres ajustables (poids) réduit

Barron 1993

Fonctions de base « fixes »

Fonctions de base adaptées au problème en cours

• Si l’approximation dépend des paramètres ajustables (poids) de manière non linéaire, elle est plus parcimonieuse que si elle dépend linéairement des poids – Le nombre de paramètres, pour une précision donnée:

• croît exponentiellement avec le nombre des variables d’entrée pour un approximateur linéaire

• croît linéairement avec le nombre des variables d’entrée pour un approximateur non linéaire

• Exemples – Approximateurs linéaires par rapport aux coefficients ajustables (w)

• Taylor : y = w0 + w1x1 + w2x2 + … • Fourrier : y = w0 + w1cos x + w2sin x + w3cos 2x + w4sin 2x + …

– Approximateur non linéaire par rapport aux coefficients ajustables (w) • RN : y = w1 + w2tanh (w3 + w4x) + w5tanh (w6 + w7x) …

17

Page 18: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Plan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage supervisé des RN • Capacité de généralisation • RN en classification • Apprentissage non supervisé – autres types de RN

18

Page 19: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Apprentissage supervisé des RN détermination des poids d’un réseau

• Comme son modèle biologique – un RN « apprend » (= ajuste ses poids) – à partir d’ « exemples » (= couples (X, Y) connus) – en renforçant ou en affaiblissant itérativement ses « synapses » (= poids)

• L’apprentissage est le paradigme central de la résolution d’un problème à l’aide de RN artificiels:

– on ne donne pas de règles, lois, algorithmes ou méthodes, – seulement des « exemples » de valeurs connues (= base de données) – sur lesquels on « entraîne » le réseau (= modifie les poids) – lequel va ensuite travailler « par analogie » (= interpolation)

• Remarques – Une fois mis en service, un RN peut éventuellement continuer d’évoluer (apprendre) au fur et à

mesure que de nouveaux exemples deviennent disponibles – L’apprentissage itératif peut être long, difficile et sans garantie a priori de finir avec un jeu de

poids satisfaisant. C’est le prix à payer pour la parcimonie (non linéarité par rapport aux poids). – (Pour un approximateur linéaire par rapport aux poids, les valeurs des poids se calculent

explicitement par régression linéaire, mais leur nombre devint vite prohibitif si le nombre des entrées et la précision demandée sont élevés)

19

Page 20: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Apprentissage

• Modifier les poids du réseau – dans le sens de la diminution de l’écart – entre la sortie du réseau et les exemples

• Calculer la sensibilité (variation) de l’écart par

rapport à la variation du poids à ajuster

• Modifier le poids en question selon une certaine règle

20

iwE

∂∂

∂∂

+=i

ancieni

nouveaui w

Efww

Page 21: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Apprentissage

21

Soit une base de données de M exemples : ( ) MkYX kk ...1, =

L’écart global est : ( )( )∑=

−=M

kknkpk YwwXXyE

1

21,,1 ...,,...,

Sortie du réseau pour l’exemple k

Sortie connue pour l’exemple k (cible)

Sensibilité de l’écart par rapport au poids wi

( )i

kM

kkk

i wyYy

wE

∂∂

−=∂∂ ∑

=12

Sensibilité de la sortie par rapport au poids wi, pour l’exemple k

Page 22: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Sensibilité de la sortie par rapport aux poids

22

Cas 1 : le poids appartient à la couche de sortie

wi

Potentiel d’activation

1)(')(==

agaag

Zi

Fonction d’activation (transfert)

g

y = g(a)

Somme pondérée

kiki

k

i

k Zagwag

wy

,)(')(=

∂∂

=∂∂

Exemples

( ))(1)()('1

1)()(

agagage

alsigag a

−=+

== −

2)(1)('

)tanh()(

agageeeeaag aa

aa

+=+−

== −

Activation linéaire Activation logistique Activation tangente hyperbolique

a

Page 23: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Sensibilité de la sortie par rapport aux poids

23

Cas 2 : le poids appartient à la couche cachée

1

Xj

1

y

wi Zj a1,j

a2

g1

g2

i

kjjk

i

k

i

k

wZ

wagwag

wy

∂=

∂∂

=∂∂ ,

22,22 )('

)(

wj

kikji

kj

i

kj Xagwag

wZ

,,11,11, )('

)(=

∂=

La règle se généralise pour plusieurs couches : Il faut calculer les dérivées en chaine : Ecart sortie dernière couche cachée …. 1ère couche cachée

« Rétro-propagation du gradient » (du gradient de l’écart par rapport aux poids)

Page 24: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Ajustement des poids

24

010

2030

010

2030

-10

-5

0

5

10

i

ancieni

nouveaui w

Eww∂∂

−= α

Descente selon le gradient

Ecar

t E

Taux d’apprentissage

L’ajustement des poids selon l’opposé du gradient n’a plus qu’une valeur historique

Toutefois, le calcul du gradient de l’écart par rapport aux poids est au cœur d’algorithmes

d’apprentissage beaucoup plus efficaces (Quasi-Newton, Levenberg-Marquardt, …)

Page 25: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Plan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage supervisé des RN • Capacité de généralisation • RN en classification • Apprentissage non supervisé – autres types de RN

25

Page 26: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Sur-paramétrage et généralisation • De manière générale, l’ajustement d’un modèle à un jeu de données

(exemples) particulier est d’autant meilleur que le nombre de paramètres ajustables est grand

• Toutefois, un nombre de paramètres excessif peut compromettre la capacité de généralisation (interpolation) du modèle

Exemple: interpolation polynomiale

26

-2 0 2 4 6 8 10-0.5

0

0.5

1

1.5

2

Entrée (X)

Sort

ie (Y

)

Interpolation polynômiale

-2 0 2 4 6 8 10-0.5

0

0.5

1

1.5

2

Entrée (X)

Sort

ie (Y

)

Interpolation polynômiale

-2 0 2 4 6 8 10-0.5

0

0.5

1

1.5

2

Entrée (X)

Sort

ie (Y

)

Interpolation polynômiale

-2 0 2 4 6 8 10-0.5

0

0.5

1

1.5

2

Entrée (X)

Sort

ie (Y

)

Interpolation polynômiale

-2 0 2 4 6 8 10-0.5

0

0.5

1

1.5

2

Entrée (X)

Sort

ie (Y

)

Interpolation polynômiale

-2 0 2 4 6 8 10-0.5

0

0.5

1

1.5

2

Entrée (X)

Sort

ie (Y

)

Interpolation polynômiale

Données disponibles

2 paramètres 4 paramètres

18 paramètres 12 paramètres 8 paramètres

Page 27: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Sur-paramétrage et généralisation

• Les RN sont, par nature, extrêmement sujets au sur-paramétrage

• Ils peuvent apprendre très bien un jeu d’exemples particulier mais proposer des surfaces de réponse très « accidentées » mauvaise généralisation (interpolation) – Le nombre de neurones cachés n’est par connu a priori – Lors de l’apprentissage, les poids sont initialisés par un tirage

aléatoire. La capacité de généralisation peut être très variable d’un tirage à l’autre

• Il peut vite devenir extrêmement fastidieux de chercher aveuglement un nombre de neurones et un tirage initial convenable, surtout si la base de données est grande et l’apprentissage long

• Techniques pour améliorer la capacité de généralisation : – Régularisation

27

Page 28: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

0

5

10

05

1015

200

5

10

15

20

25

Entrée 1

Sortie 1

Entrée 2

Sorti

e 1

Exemples : sur-paramétrage d’un RN

28

0 5 10 15 20 250

2

4

6

8

10

12

14

16

18

Entr

Sort

Sortie 1

• Comme d’autres modèles, les RN sur-paramétrés produisent des surfaces de réponse « accidentées », conduisant à une mauvaise interpolation (généralisation)

• Toutefois, grâce aux fonctions d’activation bornées, les variations des sorties prédites restent limitées (comparées aux polynômes par exemple)

15 neurones cachés

25 neurones cachés

Page 29: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Régularisation des RN • Limiter le nombre de paramètres (neurones cachés)

– Difficile de trouver le bon nombre (sous/sur paramétrage)

• Arrêter l’apprentissage avant la convergence – Utiliser une deuxième base d’exemples indépendants : base de

validation – Ajuster les poids sur la base d’apprentissage, mais choisir le

réseau avec l’erreur minimale sur la base de validation : meilleure capacité de généralisation

• Modération des poids – Lors de l’apprentissage, se donner comme objectif

supplémentaire la réduction des valeurs moyenne des poids surface de réponse plus régulière

29

Page 30: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Exemple : régularisation par limitation du nombre des paramètres (poids)

30

0 5 10 15 20 250

5

10

15

20

Entrée

Sorti

e

Sortie 1

0 5 10 15 20 250

2

4

6

8

10

12

14

16

18

Entr

Sort

Sortie 1

2 neurones cachés

15 neurones cachés

02

46

8

0

10

200

5

10

15

20

Entrée 1

Sortie 1

Entrée 2

Sorti

e 1

0

5

10

05

1015

200

5

10

15

20

25

Entrée 1

Sortie 1

Entrée 2

Sorti

e 125 neurones

cachés

3 neurones cachés

Demande des tâtonnements pour trouver le bon nombre de neurones cachés Un nombre trop faible conduit à un mauvais ajustement Un nombre trop élevé conduit à une surface de réponse irrégulière

Page 31: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Exemple : régularisation par arrêt précoce

31

0 5 10 15 20 250

5

10

15

20

Entrée

Sorti

e

Sortie 1

0 5 10 15 20 250

2

4

6

8

10

12

14

16

18

Entr

Sort

Sortie 1

15 neurones cachés

15 neurones cachés

02

46

8

0

10

20-5

0

5

10

15

20

Entrée 1

Sortie 1

Entrée 2

Sorti

e 1

0

5

10

05

1015

200

5

10

15

20

25

Entrée 1

Sortie 1

Entrée 2

Sorti

e 125 neurones

cachés

25 neurones cachés

Si la base de validation contient suffisamment d’exemples représentatifs, le réseau obtenu présente une capacité de généralisation satisfaisante (mais pas forcément une surface de réponse très régulière)

Page 32: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Principe : régularisation par modération des poids

32

-10 -5 0 5 100.2

0.4

0.6

0.8

1

1.2

Entrée (X)

Sort

ie (Y

)

y = 0.3 + 0.8 tanh (-18 – 10 x)

y = 0.3 + 0.8 tanh (-1 – 0.5 x)

-100

10 -10

0

10

0

0.5

1

1.5

Entrée (X2)Entrée (X1)

Sort

ie (Y

)

-10

0

10 -10

0

100

50

100

Entrée (X2)Entrée (X1)

Sort

ie (Y

)

Ecart-type des poids = 0.5

Ecart-type des poids = 50

Les RN qui ont des poids « petits » présentent des surfaces de réponse « lisses »

Page 33: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Principe : régularisation par modération des poids

• Trouver un compromis entre deux critères contradictoires : – Bon ajustement aux exemples de la base

d’apprentissage – Surface de réponse régulière = poids « petits »

33

( ) ∑∑==

+−=N

ii

M

kkk wYyE

1

2

1

2 α

Page 34: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

02

46

8

0

10

200

5

10

15

20

Entrée 1

Sortie 1

Entrée 2So

rtie

1

Exemple : régularisation par modération des poids

34

0 5 10 15 20 252

4

6

8

10

12

14

16

18

Entrée

Sort

ie

Sortie 1

0 5 10 15 20 250

2

4

6

8

10

12

14

16

18

Entr

Sort

Sortie 1

15 neurones cachés

Pondération poids = 0.02

15 neurones cachés

Pondération poids = 0

0

5

10

05

1015

200

5

10

15

20

25

Entrée 1

Sortie 1

Entrée 2

Sorti

e 125 neurones

cachés

25 neurones cachés

Demande des tâtonnements pour trouver la bonne pondération Une pondération trop forte des poids conduit à un mauvais ajustement Une pondération trop faible des poids conduit à une surface de réponse irrégulière Les poids « inutiles » ne sont pas forcément mis à zéro Il existe des variantes plus élaborées de cette méthode, qui trouvent automatiquement la bonne pondération et font tendre les poids inutiles vers zéro (idée : se baser sur la précision « attendue » de l’ajustement, ex. précision des mesures) MacKay 1995

Page 35: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Conclusion sur la régularisation des RN

• La régularisation est un point clé pour obtenir de « bons » RN : – Surfaces de réponse lisses – Bonne capacité de généralisation (interpolation)

• Dans la pratique, on combine plusieurs techniques de régularisation :

– Un nombre de neurones cachés « raisonnable » • Selon la complexité de la surface de réponse et le nombre d’exemples disponibles • Nombre de poids réduit, calculs rapides

– Une base de validation formée d’exemples indépendants

• Assurer une bonne représentativité statistique du réseau • Si manque de données : validation croisée

– Une modération des poids pour limiter les effets des paramètres excédentaires

• Paramètre de pondération des poids choisi selon des critères de précision attendue du réseau, par exemple répétabilité des mesures des sorties cible

• Au final, il faut toujours analyser de manière critique le réseau obtenu – Au minimum, tracer les surfaces de réponse

35

Page 36: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Distribution des exemples dans les bases d’apprentissage et de validation

• Pour une bonne généralisation, les exemples utilisés pour mettre au point le réseau (bases d’apprentissage et de validation) doivent être représentatifs de l’utilisation préconisée du réseau

– Couvrir tout l’espace utile des entrées • Etendue dans chaque dimension (pas d’extrapolation) • Pour toutes les combinaisons (pas de trous) : difficile à atteindre si les entrées sont nombreuses

36

-4 -2 0 2 4 6 8 10 121

2

3

4

5

6

7

8

Entrée

Sorti

e

Sortie 1

• Revoir la répartition des exemples • Ne pas utiliser le réseau dans les zones non apprises !

0

5

10

024680

2

4

6

8

10

12

Entrée 1

Sortie 1

Entrée 2

Sorti

e 1

Page 37: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Test final du réseau • Une fois un réseau satisfaisant trouvé

– Structure • Entrées (éliminer entrées peu informatives) • Sorties (un réseau à plusieurs sorties ou plusieurs réseaux) • Nombre de neurones cachés

– Poids • Bon ajustement sur la base d’apprentissage • Bonne généralisation sur la base de validation

• Il est conseillé de tester le réseau sur une base d’exemples

totalement indépendante – Base de test – Qui n’a servi ni à l’ajustement des poids, ni à l’arrêt de l’apprentissage – Dont les exemples sont représentatifs de l’utilisation réelle du réseau

(bonne répartition dans l’espace des entrées)

• En cas de problème revoir la structure du réseau et/ou la répartition des exemples entre les bases (apprentissage, validation, test)

37

Page 38: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Plan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage supervisé des RN • Capacité de généralisation • RN en classification • Apprentissage non supervisé – autres types de RN

38

Page 39: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Classification avec RN

39

Classifieur RN

Entrées représentant les descripteurs de l’objet à classer

Sorties codant l’appartenance aux différentes

classes possibles

• Descripteurs à utiliser = caractéristiques des objets à classer • Mode de codage des classes • Bases d’exemples dont la classe est connue (apprentissage, validation, test)

pour mettre au point le réseau (structure, valeur des poids)

Difficultés potentielles • Comment détecter et que faire si la réponse du classifieur est ambiguë

(plusieurs classes possibles)? • Comment détecter et comment répondre si un objet d’une classe inconnue

est présenté en entrée? • Que faire si les classes possibles ne sont pas connues a priori ? cf.

apprentissage non supervisé plus loin

Quand et comment dire

« je ne sais pas » ?

Page 40: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Codage des classes

40

Codage linéaire : Une seule sortie,

dont la valeur indique la classe

Codage « grand-mère » : Autant de sorties que de classes,

dont les valeurs indiquent le degré d’appartenance à chaque classe

RN affinage

Classes ordonnées Classes ordonnées ou non

0 = totalement affiné 1 = affiné 2 = moyennement affiné 3 = peu affiné 4 = frais

Fermeté

Couverture

pH

RN affinage

totalement affiné affiné moyennement affiné peu affiné frais

Fermeté

Couverture

pH

Une seule sortie vaut 1, les autres 0

Comment interpréter les valeurs intermédiaires des sorties ?

Page 41: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Surface discriminante • La réponse du RN + la règle d’attribution d’un exemple à une classe (ex. degré

d’appartenance maximum) génèrent une partition de l’espace des entrées • Les RN permettent de discriminer des classes non séparables linéairement

41

Entrée 1

Entr

ée 2

« Surface » discriminante Classe 1

Classe 2

exemples

Entrée 1

Entr

ée 2

« Surface » discriminante Classe 1

Classe 2 Classes linéairement séparables

Classes non séparables

linéairement

Entrée 1

Entr

ée 2

Exemple historique de classes non séparables linéairement :

« OU » exclusif (XOR)

Page 42: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Surface discriminante et généralisation

• Les problèmes de généralisation, de sur-paramétrisation et de régularité (de la surface discriminante) se posent de la même façon pour les RN utilisés en classification

42

Entrée 1

Entr

ée 2

Surface qui discrimine parfaitement les deux classes sur la base d’apprentissage Très irrégulière, peu plausible Sur-ajustement probable

Classe 1

Classe 2

Surface un peu moins performante sur la base d’apprentissage Mais régulière et plus plausible Meilleures performances en validation

Page 43: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Plan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage supervisé des RN • Capacité de généralisation • RN en classification • Apprentissage non supervisé – autres types de RN

43

Page 44: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Réseaux à apprentissage non supervisé

• Il n’y a pas de cible (sortie correcte) définie a priori pour chaque exemple

• C’est au réseau de trouver, au cours de l’apprentissage, des similitudes (groupes, régularités) dans les données

• Utilisés comme techniques de réduction, de visualisation et de classification de grandes masses de données multidimensionnelles (~ACP, AFD… mais non linéaire)

44

Page 45: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Carte auto-organisatrice de Kohonen (SOM)

Entr

ées

Poids

Neurones Apprentissage

• Les poids du réseau sont initialisés aléatoirement • Un exemple est choisi aléatoirement dans la base

d’apprentissage – Le neurone dont les poids sont les plus similaires à l’exemple

est choisi comme neurone vainqueur – Les poids du neurone vainqueur et d’autres neurones dans

son voisinage topologique sont modifiés pour se rapprocher de l’exemple

• On recommence un grand nombre de fois, en diminuant progressivement le voisinage topologique

• La carte s’auto-organise pour que les neurones proches topologiquement aient des poids similaires et donc répondent à des exemples similaires

Page 46: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Carte auto-organisatrice de Kohonen (SOM)

Demo local

Exemple – Les 3 entrés sont des coordonnées dans

l’espace colorimétrique RVB

– La carte s’auto-organise pour que les neurones proches (typologiquement) correspondent à des couleurs proches

– Similitude: les zones où les neurones ont des poids proches sont coloriés en gris clair et inversement

Demo WEB

Page 47: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Exemple : carte de la qualité de vie

47

Base de données sur la qualité de vie dans différents pays : santé, nutrition, éducation… Ces indicateurs constituent les entrées du réseau

Après apprentissage, les pays à qualité de vie similaire se retrouvent proches sur la carte Les pays qui n’ont pas servi à l’apprentissage se retrouvent placés de manière cohérente (généralisation)

Page 48: Réseaux de neurones artificielsevelyne.lutton.free.fr/SlidesCours/CoursRN.pdfPlan • L’idée – l’inspiration biologique • Réseaux de neurones formels (artificiels) • Apprentissage

Conclusion générale • Les RN sont des outils puissants

– Théoriquement « universels »

• A utiliser avec discernement, quand vraiment approprié – Données disponibles

• Nombreuses (outil statistique!) • Représentatives de toutes les situations envisagées (l’extrapolation ne fonctionne pas)

– Relations non linéaires (sinon, un modèle linéaire est plus simple et plus fiable)

– Connaissance a priori insuffisante ou phénomènes trop complexes (sinon, un modèle spécifiquement adapté, construit sur la base de cette connaissance, sera plus simple, plus précis, plus facile à manipuler et à maîtriser, présentera une meilleure extrapolation)

• Un minimum de savoir-faire est nécessaire, sous peine de résultats totalement fantaisistes – Maîtriser les degrés de liberté excédentaires

• Régularisation • Test / validation sur de jeux de données importants et représentatifs de l’utilisation réelle

48