sys828: systèmes biométriques Éric granger b3-1 contenu du cours

Post on 04-Apr-2015

113 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

SYS828: Systèmes biométriques Éric Granger

B3-1

CONTENU DU COURS

ARECONNAISSANCE

BIOMÉTRIQUE

BALGORITHMES POUR

L’APPRENTISSAGE AUTOMATIQUE

CCONCEPTION DE

SYSTÈMES ROBUSTES

Ø A.1 Un système généralisé

Ø A.2 État de l’art – reconnaissance avec visages et signatures

Ø B.1 Introduction aux algorithmes d’apprentissage

Ø B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs

Ø B.3 Apprentissage supervisé pour la classification de vecteurs

Ø B.4 Apprentissage supervisé pour la classification de séquences

Ø C.1 Systèmes de classification modulaires et hiérarchiques

Ø C.2 Techniques pour la fusion multimodale

Ø C.3 Systèmes adaptatifs

Ø C.4 Reconnaissance contextuelle

SYS828: Systèmes biométriques Éric Granger

B3-2

CONTENU DU COURS

B. Algorithmes d’apprentissage:

B.1 Introduction aux algorithmes d’apprentissage

B.2 Apprentissage non-supervisé pour la catégorisation de vecteurs

B.3 Apprentissage supervisé pour la classification de vecteurs

B.4 Apprentissage supervisé pour la classification de séquences

SYS828: Systèmes biométriques Éric Granger

B3-3

Sommaire Sommaire –– Section B.3 Section B.3

B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la catégorisation de vecteurscatégorisation de vecteurs

1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP

2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)

3.3. réseaux de neurones probabilistes (PNN)réseaux de neurones probabilistes (PNN)

4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)

SYS828: Systèmes biométriques Éric Granger

B3-4

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAPFondements – modèle ART

Taxonomie des réseaux ARTMAP:

SYS828: Systèmes biométriques Éric Granger

B3-5

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAPRéseau fuzzy ARTMAP

Modèle ARTMAP: famille de RNA classificateurs capables d’apprentissage rapide, en-ligne, supervisé, non-supervisé et incrémental

SYS828: Systèmes biométriques Éric Granger

B3-6

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP Structure simplifiée d’un réseau ARTMAP:

SYS828: Systèmes biométriques Éric Granger

B3-7

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP

Description algorithmique – mode entraînement:

1. Initialisation des poids: fixer tous les poids Wab = 0

2. Encodage d’un patron d’entrée: remise à la base du ρ

3. Choix de catégorie

4. Critère de vigilance

5. Prédiction d’une classe: le code de réponse désirée t est transmise à Fab

fonction de prédiction: le patron y active la couche Fab via les poids Wab

SYS828: Systèmes biométriques Éric Granger

B3-8

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP

Description algorithmique – mode entraînement:

5. Prédiction d’une classe: (suite) prédiction:

• actif pour le neurone K correspondant à la prédiction (yK

ab = 1 et ykab = 0 pour k ≠ K)

si la prédiction K correspond à la réponse désirée, on procède à l’apprentissage (étape 6), sinon on effectue un ‘match tracking’

max ( ) : 1,2,...,yabkK S k L

SYS828: Systèmes biométriques Éric Granger

B3-9

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP

Description algorithmique – mode entraînement:

‘match tracking’:

augmente ρ du fuzzy ART juste assez pour induire une recherche pour soit: trouver un autre neurone commis de F2 qui prédit la

classe désirée (étape 3) créer un neurone non-commis de F2 pour apprendre

la classe désirée (étape 6)

SYS828: Systèmes biométriques Éric Granger

B3-10

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP

Description algorithmique – mode entraînement:6. Apprentissage:

mise à jour du prototype de J: le vecteur prototype wJ du neurone J est adapté selon:

création d’un nouveau lien associatif: si J vient d’être commis, on fixe wJK

ab = 1, où k = K est la réponse désiré

Retour à l’étape 2 pour prendre une autre entrée

SYS828: Systèmes biométriques Éric Granger

B3-11

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau fuzzy ARTMAP

Description algorithmique – mode test:

Afin de prédire la classe liée à chaque patron d’entrée:

1. 2. Encodage d’un patron d’entrée3. Choix de catégorie4. 5. Prédiction d’une classe (sans tests)6.

SYS828: Systèmes biométriques Éric Granger

B3-12

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau ARTMAP-FD • Entraînement sur patrons de classes connues: patrons étiquette de classe

A a a class #1 b b B class #2 C c C class #3

• Test sur patrons de classes connues et inconnues: patrons prédiction du classificateur

A class #1 C class #3 D classe inconnue!

SYS828: Systèmes biométriques Éric Granger

B3-13

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau ARTMAP-FD

ARTMAP-FD: une extension de fuzzy ARTMAP qui permet de détecter des patrons qui appartiennent à de classes inconnues

pour chaque entrée a en mode test, on calcul la mesure de familiarité:

J

J

J

J

TT

w

wA

AA

A

)(

)()(

max

)(ASi patron déclaré connu (prédit une classe K)

)(ASi patron déclaré inconnu (aucune prédiction)

SYS828: Systèmes biométriques Éric Granger

B3-14

B.3(1) Réseaux ARTMAPB.3(1) Réseaux ARTMAP

Réseau ARTMAP-FD

Mesure simple du degré d’appartenance d’un patron à un hyper rectangle (catégorie):

φ(A) = 1 à l’intérieur, et φ(A) < 1 à l’extérieur

XX

X XX

X

( )a1

0a

SYS828: Systèmes biométriques Éric Granger

B3-15

Sommaire Sommaire –– Section B.3 Section B.3

B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la classification de vecteursclassification de vecteurs

1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP

2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)

3.3. réseaux de neurones probabilistes (PNN)réseaux de neurones probabilistes (PNN)

4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)

SYS828: Systèmes biométriques Éric Granger

B3-16

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Qu’est ce qu’un réseau RBF?

fonctions à bases radiales – un domaine de recherche actif an analyse numérique depuis environ 1980

– solution au problème d’interpolation multi variable– approximation de fonctions dans des espaces

multidimensionnels

réseau RBF – un réseau de neurone pour la classification et la régression (Broomhead et Low, 1988)

− un réseau de neurones non-récurrent (‘feed forward’) à apprentissage supervisé

− conception inspirée de méthodes d’interpolation qui exploitent les RBF

SYS828: Systèmes biométriques Éric Granger

B3-17

B.3(2) Réseaux RBFB.3(2) Réseaux RBFMéthodes d’interpolation:

Apprentissage: trouver une surface multidimensionnelle qui correspond le mieux avec les données d’entraînementGénéralisation: utiliser cette surface pour interpoler les données de test

X

X

X

X

X

X

OX

données apprises

donnée de test

SYS828: Systèmes biométriques Éric Granger

B3-18

B.3(2) Réseaux RBFB.3(2) Réseaux RBFStructure générale d’un réseau de neurones RBF:

couche cachée: transformation non linéaire x → φ(x)− chaque neurone constitue une fonction cachée φ(x) (i.e., RBF) pour

la transformation non linéaire des patrons d’entrée x− le nombre de neurones est généralement bien plus grand que le

nombre de nœuds d’entréecouche de sortie: transformation linéaire φ(x) → y

− combinaison linéaire des fonctions φ(x) pour produire une sortie

...

x1

x2

x3

Nx

X

...

1( )x

3 ( )x

1( )xm

2 ( )x

( ) :x fonction non linéairei

3w

1mw

1w

2w

Sortie y1

( )xim

i ii

y w

SYS828: Systèmes biométriques Éric Granger

B3-19

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Théorème sur la séparabilité de patrons (Cover, 1965)

Un problème de classification qui est transposé de façon non linéaire dans un espace de haute dimensionnalité a une plus grande probabilité d’être séparable qu’en basse dimensionnalité

Séparabilité – problème à 2 classes:

transpose x dans l’espace image de haute dimensionnalité avec des fonctions cachées φ(x) non-linéaires à valeur réelle:

le problème est ‘φ – séparable’ s’il existe un vecteur de paramètres w à m1 dimensions tel que:

11 2( ) [ ( ), ( ), ..., ( )]φ x x x x

m

1

2

( ) 0,

( ) 0,

w φ x x

w φ x x

T

T

C

C

SYS828: Systèmes biométriques Éric Granger

B3-20

B.3(2) Réseaux RBFB.3(2) Réseaux RBFThéorème sur la séparabilité de patrons (Cover, 1965)

Exemple 2D – cas des fonctions cachées φ polynomiales:

classe de transformations obtenue à partir d’une combinaison linéaire des produits des coordonnées de x = (x1, x2)

variété d’ordre r :

X

O

O

O

X

X

XX

XO

X O

O

OX

1 2

1 1 2 2 0

( ) [ , ]

0

x

(2 fonctions de base)

x x

w x w x w

2 21 2 1 2

2 21 1 2 2 3 1 4 2 0

( ) [ , , , ]

0

(

x

4 fonctions de base)

x x x x

w x w x w x w x w

2 21 2 1 2 1 2

2 21 1 2 2 3 1 4 2 5 1 2 0

( ) [ , , , , ]

0

x

(5 fonctions de base)

x x x x x x

w x w x w x w x w x x w

1 2 1 2

1 2 1

...0 ...

... 0N r

r

i i i i i ii i i m

y w x x x

SYS828: Systèmes biométriques Éric Granger

B3-21

B.3(2) Réseaux RBFB.3(2) Réseaux RBFThéorème sur la séparabilité de patrons (Cover, 1965)

Exemple – cas des fonctions cachées Gaussiennes: problème XOR (linéairement non séparable)

21

22

1 1

2 2

1( ) ,

1

0( ) ,

0

x-μ

x-μ

x μ

x μ

e

e

Input pattern x

First Hidden Function

Second Hidden Function

(1,1) 1 0.1353 (0,1) 0.3678 0.3678 (0,0) 0.1353 1 (1,0) 0.3678 0.3678

1( )x 2 ( )x

))(),(( 21 xx

(0,0) (1,0)

(0,1)(1,1)

(0,0)

(1,1)

(0,1)(1,0)

1

2

Decision Boundary

SYS828: Systèmes biométriques Éric Granger

B3-22

B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation

Problème: étant donnée N patrons différents et les N réponses désirées correspondantes

, trouvez une fonction qui satisfait:

La technique RBF consiste à utiliser une fonction de la forme:

1

( ) ( )x x xN

i ii

y w

11 12 13 1 1 1

21 21 21 2 2 2

1 2 3

11 12 13 1

21 21 21 2

1 2

( )

ou

avec x x

N

Nji j i

N NN N N NN

N

N

N N

w d

w d

w d

1 1

2 2

3

; ;

, 1

d w

Φw d alors w Φ d

N NN NN

d w

d w

d w

0 | 1, 2, ,x mi R i N

NiRd i ,,2,1|1 1: Ny R R ( )x i iy d

x1

x2

d

SYS828: Systèmes biométriques Éric Granger

B3-23

B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation

Théorème de Micchelli (1986):Si est un ensemble de patrons distincts, alors la matrice N-par-N d’interpolation est non singulière (i.e., une solution existe).

Théorème de Light (1971):Si est un ensemble de patrons distincts, une matrice d’interpolation avec éléments de la forme

est positive et définie.

1x

N

i i

1x

N

i i

( )ji j ix x

SYS828: Systèmes biométriques Éric Granger

B3-24

B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation

RBF communes qui respectent le théorème de Light:

fonctions multi quadratiques:

fonctions multi quadratiques inverse:

fonctions Gaussiennes:

1/ 22 2( ) pour un 0, r r c r r

1/ 22 2

1( ) pour un 0, r r r

r c

2

2( ) exp pour un 0,

2

rr r r

SYS828: Systèmes biométriques Éric Granger

B3-25

B.3(2) Réseaux RBFB.3(2) Réseaux RBFInterpolation

Exemple en 1-D: données d’entraînement {(xi ,yi)} = {(-1, 1), (0, 2), (1, 1)} avec RBF multi quadratique:

2

1 1 2 2 3 3

2 2 21 2 3

( ) ( 0.5)

( ) ( ) ( ) ( )

( 1) 0.5 0.5 ( 1) 0.5

x x x x x x x

x x x

r r

y w w w

w w w

1

2

1

5.05.15.4

5.15.05.1

5.45.15.0

1

2

1

5.05.15.4

5.15.05.1

5.45.15.0

1

3

2

1

3

2

1

w

w

w

w

w

w

SYS828: Systèmes biométriques Éric Granger

B3-26

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Interpolation

Selon les théorèmes de Michelli et Light, on peut résoudre:

mais, en pratique, on veut résoudre quand Φ est arbitrairement proche d’une matrice singulière

solutions: théorie de régularisation (solution exacte) réseau RBF généralisé (estimation)

-1w=Φ d

SYS828: Systèmes biométriques Éric Granger

B3-27

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRégularisation

Problème avec l’interpolation stricte: généralisation sur de nouvelles données → sur apprentissage

L’apprentissage peut être perçu comme un problème de reconstruction d’hyper surfaces:

problèmes directes vs inverses

Problèmes inverses sont soit bien ou mal posés:un problème est bien posé ssi il respecte 3 conditions: 1. existe: il exister un y(x) pour chaque x 2. unique: y(x1) = y(x2) ssi x1 = x2

3. continue: si dist(x1,x2) < δ(ε) implique dist(y(x1),y(x2)) < ε

SYS828: Systèmes biométriques Éric Granger

B3-28

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRégularisation

Problèmes inverses mal posés: pas assez d’information dans TRAIN pour décrire un y(x) de façon unique (viole #2) bruit/imprécisions dans TRAIN ajoute trop d’incertitude dans y(x): discontinuités (viole #3)

Solution possible: inclure de l’information a priori sur la transformation entrée-sortie y(x)

mais, le processus générateur de TRAIN doit être lisse et exhiber de la redondance

SYS828: Systèmes biométriques Éric Granger

B3-29

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Régularisation

Idée de base de la régularisation:stabiliser la solution avec une fonctionnelle non négative qui intègre de l’information a priori sur la forme de la solution.

information a priori contient des contraintes de lissage sur y(x) hypothèse sur la famille de fonctions qui décrit le phénomène qu’on cherche à approximer...

SYS828: Systèmes biométriques Éric Granger

B3-30

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Régularisation Théorie de régularisation de Tikhonov:

terme d’erreur standard – distance entre y(xi) et di

terme de régularisation (stabilisateur) – dépend des propriétés géométriques de y(xi)

où P est un opérateur différentielle linéaire qui intègre l’information a priori sur la forme de la solution y(x)

fonction de coût totale à minimiser:

21( )

2Pc y y

22

1

1 1( ) ( ) ( ) [ ( )]

2 2x P

N

s c i ii

y y y d y y

2

1

1( ) ( ( ))

2x

N

s i ii

y d y

SYS828: Systèmes biométriques Éric Granger

B3-31

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Régularisation

paramètre de régularisation λ :

nombre positif réel qui indique si TRAIN est suffisant pour spécifier y(x) si λ→ 0 , problème non-contrainte: y(x) est déterminée entièrement par TRAINsi λ→ ∞, les contraintes de lissage imposées a priori par P sont suffisant pour spécifier y(x): TRAIN est non fiableen pratique , alors les deux informations contribuent à la solution

0

SYS828: Systèmes biométriques Éric Granger

B3-32

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation

Une solution au problème de régularisation: [Poggio et Girosi, 1990]

somme pondérée de fonctions de Green, G(x;xi), centrées sur les xi de TRAIN:

l’approche par régularisation est équivalent à l’expansion de y(x) en termes d’un ensemble de fonctions de Green, spécifiée par la forme de P

le nombre de fonctions de Green est égal à |TRAIN|

1

( ) ( ; )N

ii

y w G

ix x x

SYS828: Systèmes biométriques Éric Granger

B3-33

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation

Détermination de coefficients wi:

est évaluées pour chaque patron de TRAIN, alors:

si on pose: et

en éliminant y, alors:

1 2( ), ( ), , ( )y x x xT

Ny y y

),(),(),(

),(),(),(

),(),(),(

21

22212

12111

NNNN

N

N

GGG

GGG

GGG

xxxxxx

xxxxxx

xxxxxx

G

1( )w d y

y = Gw

dwIG )( dIGw 1)(

SYS828: Systèmes biométriques Éric Granger

B3-34

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Réseau de régularisation

Les fonctions G(x;xi), centrées à xi, sont spécifiées par la forme de P

si P est invariant aux rotations et aux translations, alors G(x;xi) dépend seulement de la norme Euclidienne du vecteur différence, alors:

sous ces conditions, G(x;xi) doit être une RBF, et la solution de régularisation doit prendre la forme:

( ; ) ( )x x x xi iG G

1

( ) ( )ix x xN

ii

y w G

SYS828: Systèmes biométriques Éric Granger

B3-35

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation

Exemple: fonctions Gaussiennes multi variablescorrespondent à un opérateur différentiel P qui est invariants aux rotations et aux translations:

la solution au problème de régularisation prend la forme:

qui consiste d’une superposition linéaire de Gaussiennes avec centres xi et avec dispersions σi

2

22

1exp),( i

iiG xxxx

2

21

1( ) exp

2x x x

N

i ii i

y w

SYS828: Systèmes biométriques Éric Granger

B3-36

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Réseau de régularisation

Réseau RBF de régularisation:

la sortie est la somme pondérée des sorties de la couche cachée

1

( ) )x G(x xN

i ii

y w ,

G

2x

1mx

mx

1x

G

G

j

N( )xy

InputLayer

Hiddenlayerof N Green’sfunctions

Outputlayer

1dIGw 1)(

SYS828: Systèmes biométriques Éric Granger

B3-37

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseau de régularisation

Propriétés d’un réseau RBF de régularisation: [Poggio et Girosi, 1990]

☻ approximateurs universels: ils peuvent approximer n’importe quelle fonction continue arbitrairement bien avec un nombre suffisant de neurones cachées:– étant donnée une fonction non linéaire inconnue f, il existe toujours

un choix de coefficients w qui approxime f mieux que tout autre choix possible;

– ses solutions sont optimales: il minimise la fonction de coût ε(y).

complexité de calculs: la correspondance des neurones cachées avec N patrons donne un réseau très coûteux

calcul des poids w est O(N3) car on doit inverser une matrice N-par-Ndifficile à réaliser en pratique pour de grands N...

SYS828: Systèmes biométriques Éric Granger

B3-38

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés

Un approximation de la solution régularisée: solution sous optimale dans l’espace à dimension M < N, qui est alors moins coûteuseon peut dériver un approximation avec la méthode de Galerkin’s [Poggio and Girosi, 1990]:

car:

où les centre ti et les poids wi sont à déterminer.

*

1 1

( ) ( ) ( )M M

i i i ii i

y w w G

x x x t

( ) ( ) 1,2,..,x x ti iG i M M N

SYS828: Systèmes biométriques Éric Granger

B3-39

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés

Architecture générale:

2x

1mx

mx

1x

j

M* ( )xy

InputLayer

Hidden layer of of radial functions

Outputlayer

1

b0

1

SYS828: Systèmes biométriques Éric Granger

B3-40

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés

Détermination des poids wi:

Un nouvelle fonction de coût:

la minimisation de cette fonction de coût en fonction du vecteur de poids donne:

22

* *

1 1

( ) ( )N M

i j i ji j

y d w G y

x t D

0

1 1 1 2 1

2 1 2 2 2

1 1

(t , t ) (t , t ) ... (t , t )

(t , t ) (t , t ) ... (t , t )

. : : . : :

(t , t ) (t , t ) ... (t , t )

M

M

M M M M

G G G

G G GG

G G G

0( )G G G w G dT T

SYS828: Systèmes biométriques Éric Granger

B3-41

B.3(2) Réseaux RBFB.3(2) Réseaux RBF Réseaux RBF généralisés

il a été démontré que lorsque le paramètre λ → 0, le vecteur w converge vers une solution pseudo-inverse pour M ≤ N [Broomhead et Lowe, 1988]:

1( )

+w = G d

w G G G dT T

SYS828: Systèmes biométriques Éric Granger

B3-42

B.3(2) Réseaux RBFB.3(2) Réseaux RBFRéseaux RBF généralisés

Comparaison entre réseaux RBF régularisés (exact) et généralisés (estimation):

le nombre de neurones de la couche cachée: régularisation: N généralisés: M ≤ N (selon la complexité du

problème) les paramètres inconnus:

régularisation: poids de la couche de sortie généralisés: les poids de la couche de sortie et la position des centres

SYS828: Systèmes biométriques Éric Granger

B3-43

B.3(2) Réseaux RBFB.3(2) Réseaux RBFStratégies d’apprentissage

Structure générale d’un réseau RBF classificateur: couche cachée: transformation non linéaire x → φ (x)couche de sortie: transformation linéaire φ(x) → y (combinaison linéaire des fonctions cachées)

SYS828: Systèmes biométriques Éric Granger

B3-44

B.3(2) Réseaux RBFB.3(2) Réseaux RBFStratégies d’apprentissage

L’activation des neurones:

couche cachée: (j = 1, .., M)

(dans le cas de RBF de forme Gaussienne)

couche de sortie: (par classe k)

superposition linéaire de RBF capables d’approximation universelle

Apprentissage: optimiser les centre μi , les dispersions σj et les poids wkj

1

( ) ( )M

k kj jj

y w

x x

2( ) exp

2j

jj

xx

SYS828: Systèmes biométriques Éric Granger

B3-45

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Stratégies d’apprentissage

Le processus d’apprentissage du réseau RBF généralisé comprend deux phases d’optimisation:

1. les neurones cachées – évoluent lentement selon une stratégie d’optimisation non linéaire

2. les poids de sortie – s’ajustent rapidement selon une stratégie d’optimisation linéaire

SYS828: Systèmes biométriques Éric Granger

B3-46

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Stratégies d’apprentissage

Plusieurs différentes stratégies d’apprentissage selon la façon dont les centres sont déterminés

Principales stratégies en littérature:

1. centres fixes, sélectionnés de façon aléatoire2. centres obtenus par apprentissage non-supervisé3. centres obtenus par apprentissage supervisé

SYS828: Systèmes biométriques Éric Granger

B3-47

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

2 2

2max

( ) exp( ), 1, 2,...,j j

mG x x i m

d

max

2

d

m

SYS828: Systèmes biométriques Éric Granger

B3-48

B.3(2) Réseaux RBFB.3(2) Réseaux RBF1. centres fixes sélectionnés de façon aléatoire

Approche LMS – résoudre des équations linéaires pour dériver les poids wi de la couche de sortie: − méthode pseudo-inverse:− où G+ est la matrice pseudo-inverse de la matrice

Calcul de G+ par décomposition en valeur singulière− si G est une matrice réelle N-by-M, il existe deux matrices

orthogonales et telle que

− alors, la matrice avec matrice N-by-N

+w = G d{ }ijgG

2

2exp , 1,2,..., ; 1,2,...,ij i j

mg i N j m

d

x μ

}u,...,u,u{U N21 }v,...,v,v{V M21T

1, 2, ,diag( ..., ), min( , )U GV K K M N TUVG

)0,...,0,1

,...,1

,1

(diagK21

SYS828: Systèmes biométriques Éric Granger

B3-49

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

2( ) exp , 1,2i iG i x μ x μ

1μ [1,1]T,

2μ [0,0]T

1x

1x

1

2

Fixed input = +1

b(bias)

Inputnode

GaussianFunction

Linearoutputneuron

2

1

( ) ( )i ii

y w b

x G x t

1. centres fixes sélectionnés de façon aléatoire

Exemple: problème XOR (linéairement non séparable)

SYS828: Systèmes biométriques Éric Granger

B3-50

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Input-Output TransformationComputed for XOR Problem

Data Point,j Input Pattern, Desired Output, jx jd

1 (1,1) 0 2 (0,1) 1 3 (0,0) 0 4 (1,0) 1

13678.03678.0

111353.0

13678.03678.0

11353.01

G [ ]w Tb

[0 1 0 1]d T

T -1 Tw=(G G) G d

2.5018

2.5018

2.8404

w

1. centres fixes sélectionnés de façon aléatoire

SYS828: Systèmes biométriques Éric Granger

B3-51

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

1. centres fixes sélectionnés de façon aléatoire

Problème avec la méthode à centres fixés:

justifiée seulement si TRAIN est distribué d’une façon représentative pour le problème

peut nécessiter plusieurs neurones cachées, et un grand TRAIN pour obtenir des performances adéquates

SYS828: Systèmes biométriques Éric Granger

B3-52

B.3(2) Réseaux RBFB.3(2) Réseaux RBF2. centres obtenus par apprentissage non-supervisé

Apprentissage hybride:

couche cachée: apprentissage non-supervisé de type auto-organisateur pour estimer les centres des RBFs

e.g., catégorisation k-means ou GMM

couche de sortie: apprentissage supervisé pour estimer les poids linéaires

e.g., algorithme LMS, règle delta (à base d’erreurs)

SYS828: Systèmes biométriques Éric Granger

B3-53

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

2. centres obtenus par apprentissage non-supervisé

Exemple: apprentissage séquentielle k-means (en-ligne):

1. Initialisation – choisir aléatoirement les centres

2. Échantillonnage – prendre un patron x de TRAIN

3. Calcul de proximité – déterminer J, l’index du centre qui est le plus proche de x

4. Ajuster les centres –

retourner à l’étape 2

arg min ( ) ( ) 1,2,...,jJ n n j m x μ :

( ) [ ( ) ( )],( 1)

( )

j j

jj

n n n j Jn

n

μ x μ μ

μ , sinon0 1

SYS828: Systèmes biométriques Éric Granger

B3-54

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

3. centres sélectionnés par apprentissage supervisé

Tous les paramètres libres sont ajustés par un processus d’apprentissage supervisé à base d’erreur (e.g., l’algo. LMS)

Exploite des la descente de gradient, avec la fonction de coût:

Détermine tous les paramètres qui minimisent E.

2

1

1

2

N

jj

E e

*

1

( )

( ) x ti

j j j

M

j i j i Ci

e d F x

d w G

SYS828: Systèmes biométriques Éric Granger

B3-55

B.3(2) Réseaux RBFB.3(2) Réseaux RBF3. centres sélectionnés par apprentissage supervisé

poids linéaires:

position des centres:

dispersion des centres:

1

( )( ) ( ( ) )

( )x

N

j j iji

E ne n G t n

w n

1

1

( )2 ( ) ( ) ( ( ) ) [ ( )]

( )x x

N

i j j i i j iji

E nw n e n G t n t n

t n

11

( )( ) ( ) ( ( ) ) ( )

( )x

N

i j j i jiji

E nw n e n G t n Q n

n

Tijijji )]n(tx)][n(tx[)n(Q

)n(

)n(E)n()1n(

1i

31

i1

i

1i

1ii m,...,2,1i ,)n(w

)n(E)n(w)1n(w

1i

2ii m,...,2,1i ,)n(t

)n(E)n(t)1n(t

SYS828: Systèmes biométriques Éric Granger

B3-56

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

3. centres sélectionnés par apprentissage supervisé

Remarques:

− il est possible de se fait prendre dans un minimum local dans l’espace des paramètres, surtout pour et

− on utilise différents paramètres de taux d’apprentissage pour chacune des équations précédentes

− la procédure par descente de gradient dans le réseaux RBF n’implique pas la rétro-propagation d’erreurs.

it 1i

321 ,,

SYS828: Systèmes biométriques Éric Granger

B3-57

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

* arg max ( | ) : 1, 2,...,xkk p c k K

réseaux RBF pour la classification

Problème de classification à k classes:

sachant tous les statistiques sous-jacentes d’un problème de classification, la règle de décision de la probabilité a posteriori maximum (MAP) est optimale:

selon le théorème de Bayes, on calcule la probabilité a posteriori comme:

1

( | ) ( )( | )

( | ) ( )

xx

x

k kk K

h hh

p c P cp c

p c P c

SYS828: Systèmes biométriques Éric Granger

B3-58

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

1

( | ) ( | ) ( | )x xM

k kj

p c p j p j c

réseaux RBF pour la classification

Transposition dans le réseau RBF:

si plusieurs RBF (j = 1, 2, ..., M) sont utilisées pour représenter les classes, on peut remplacer dans l`équation de probabilité a posteriori:

les probabilités conditionnelles:

la probabilité non-conditionnelle:

1 1

( ( | ) ( ) ( | ) ( )x) x xK M

h hh j

p p c P c p j P j

réseaux RBF pour la classification

Transposition dans le réseau RBF:couche cachée: l’activation φj est interprétée comme la probabilité à posteriori de la présence du RBF j sachant x:

poids de la couche de sortie: interprété comme la probabilité à posteriori d’appartenance à une classe étant donnée les RBFs

SYS828: Systèmes biométriques Éric Granger

B3-59

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

1

( | ) ( )( ) ( | )

( | ) ( )j M

m

p j p jp j

p j p j

x

x xx

( | ) ( )( | )

( )k k

kj k

p j c P cw p c j

p j

SYS828: Systèmes biométriques Éric Granger

B3-60

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

réseaux RBF pour la classification

Remarques:le réseau RBF classificateur est une réalisation parallèle du test d’hypothèse Bayesien

chaque sorties du réseaux RBF est interprétée comme une probabilité a posteriori

la distribution de chaque classe est modélisée comme un mélange de Gaussiennes: permet d’accommoder classes multimodales, ou non-Gaussiennes

des RBFs Gaussiennes permettent de régulariser

s’adapte bien à la détection de nouveauté, détection d’ambiguïté, etc.

SYS828: Systèmes biométriques Éric Granger

B3-61

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Comparaison MLP vs RBF

Neurones de la couche cachée:

MLP: calculent une fonction non-linéaire du produit scalaire entre entrée et poids

activation dépend de la somme pondérée avec entrées, et d’une fonction d’activation monotonique donc, l’activation est constante sur surfaces d’hyperplans

RBF: calculent une fonction non-linéaire de la distance entre entrée et centres

activation dépend de la distance radiale entre entrée et centroïde, et une fonction d’activation locale donc, l’activation est constante sur hyper ellipses

SYS828: Systèmes biométriques Éric Granger

B3-62

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Comparaison MLP vs RBF

Séparation des classes:MLP: les neurones cachés forment des hyperplans dans l’espace d’entrée

discriminatif – bornes de décision explicitesRBF: les neurones cachées représentent des RFB locales

génératif – bornes des décision implicites

SYS828: Systèmes biométriques Éric Granger

B3-63

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Comparaison MLP vs RBF

Représentation des connaissances dans l’espace des neurones cachées p/r à l’espace d’entrée:

MLP: distribuée plusieurs neurones cachés vont s’activer pour contribuer à la sortie car optimisation globale de tous les poids donne une approximation globale

RBF: locale très peu de neurones cachés vont s’activer pour contribuer à la sortie une approximation locale

SYS828: Systèmes biométriques Éric Granger

B3-64

B.3(2) Réseaux RBFB.3(2) Réseaux RBF

Comparaison MLP vs RBF

Architecture neuronique:

MLP: peut avoir plusieurs couches cachées et des patrons complexes d’interconnexions

tous les neurones partagent le même modèle neuronique couches cachées et de sorties non-linéaires

RBF: simple, consistant généralement d’une couche cachée

la couche cachée est différente de la couche de sortie couche cachée non-linéaires et couche de sortie linéaires

SYS828: Systèmes biométriques Éric Granger

B3-65

B.3(2) Réseaux RBFB.3(2) Réseaux RBFComparaison MLP vs RBF

Processus d’apprentissage de paramètres:

MLP: tous les paramètres sont appris en même temps, via un processus supervisé global

problème d’optimisation complexe qui peut converger lentement, et trouver des minimums locaux

RBF: les paramètres sont appris en deux étapes1. centres et dispersions sont apprises par apprentissage

non-supervisé (choix sans effectuer une optimisation complexe...)

2. les poids w sont apprises par apprentissage supervisé rapide (solution à un problème linéaire)

SYS828: Systèmes biométriques Éric Granger

B3-66

Sommaire Sommaire –– Section B.3 Section B.3

B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la classification de vecteursclassification de vecteurs

1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP

2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)

3.3. réseaux de neurones probabilistes réseaux de neurones probabilistes (PNN)(PNN)

4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)

SYS828: Systèmes biométriques Éric Granger

B3-67

B.3(3) Réseaux PNNB.3(3) Réseaux PNN

Classificateur neuronique ‘feedforward’ (Specht, 1988)

Structure: réseau à 3 couches

1. couche d’entrée: unités de distribution des caractéristiques

2. couche cachée: noyaux Gaussiennes sphériques centrés sur chaque patron de TRAIN

3. couche de sommation: sommation des neurones cachés par classe

Réalisation parallèle d’une technique d’estimation de PDFs non-paramétrique (~ fenêtres de Parsen)

SYS828: Systèmes biométriques Éric Granger

B3-68

B.3(3) Réseaux PNNB.3(3) Réseaux PNN

SYS828: Systèmes biométriques Éric Granger

B3-69

B.3(3) Réseaux PNNB.3(3) Réseaux PNN

Avantages:

apprentissage rapide (entrainement en une passe)

converge asymptotiquement vers la borne de décision optimale quand |TRAIN| augmente

peut donner des résultats comparables au MLP-BP

Inconvénients:

ressources: un neurone caché est requis pour chaque patron de TRAIN

alors, on limite aux problèmes avec petites bases

SYS828: Systèmes biométriques Éric Granger

B3-70

Sommaire Sommaire –– Section B.3 Section B.3

B.B.33 Apprentissage supervisé pour la Apprentissage supervisé pour la classification de vecteursclassification de vecteurs

1.1. réseaux de neurones ARTMAPréseaux de neurones ARTMAP

2.2. réseaux de neurones à fonctions de base réseaux de neurones à fonctions de base radiale (RBF)radiale (RBF)

3.3. réseaux de neurones probabilistes (PNN)réseaux de neurones probabilistes (PNN)

4.4. machines à vecteurs de support (SVM)machines à vecteurs de support (SVM)

SYS828: Systèmes biométriques Éric Granger

B3-71

B.3(4) SVMB.3(4) SVM

‘Support Vector Machines’: (Vapnik, 1992) reconnu comme un des meilleurs classificateurs statistiques̶i classificateur binaire à 2 classes̶i plusieurs applications pratiques: détection de visage,

reconnaissance de caractères, etc.̶i un sujet de recherche intensif depuis jj 2001

Variantes pertinentes:

a. SVM linéaires (LSVM) – approche discriminative

b. SVM non-linéaires (méthode à noyau) – approche hybride discriminative-générative

SYS828: Systèmes biométriques Éric Granger

B3-72

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

LSVM – un classificateur linéaire à 2 classes (dichotomie):

y

(a) SVM linéaires – cas séparable

Problème de conception:soit l’ensemble de données pour l’apprentissage:

notre objectif est de trouver un hyperplan:

qui sépare les données des deux classes

SYS828: Systèmes biométriques Éric Granger

B3-73

B.3(4) SVMB.3(4) SVM

1 2

1 1 2 2

{ , , ..., }

( , ),( , ) ...,( , ) 1,1

D

x x x

n n

dn n

z z z

y y y

, ,wx w db b

SYS828: Systèmes biométriques Éric Granger

B3-74

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Approche SVM: déterminer l’hyperplan séparateur qui maximise marge M entre patrons des deux classes

La marge de l’hyperplan, M = d+ + d– , avec

d+ ≡ la distance la plus courte entre cet hyperplan et le patron positif (classe +1) le plus proche

d– ≡ la distance la plus courte entre cet hyperplan et le patron négatif (classe -1) le plus proche

SYS828: Systèmes biométriques Éric Granger

B3-75

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable Exemple: un cas de données linéairement séparables

SYS828: Systèmes biométriques Éric Granger

B3-76

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Maximisation de marges – une justification de l’idée est liée au principe du MDL:

MDL ≡ ‘Minimum Description Length’

la meilleure description de données (en termes de Egen ) est celle qui permet de stocker le plus petit nombre de bits

SYS828: Systèmes biométriques Éric Granger

B3-77

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparablesi les patrons TRAIN et TEST sont pigés d’une même distribution inconnue

et, si tous les patrons TEST sont à une distance maximum de Δ par rapport à un patron TRAIN (de la même classe):

.: preuve: une marge de 2Δ est suffisant pour correctement classifier tous les patrons TEST

SYS828: Systèmes biométriques Éric Granger

B3-78

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparablesi tous les patrons sont à une distance d’au moins Δ du plan séparateur, et l’ensemble des patrons est borné par une sphère:

.: une petite perturbation dans la définition du plan séparateur est tolérable

.: maximiser la marge permet de choisir un hyperplan qui est encodé avec le minimum de bits

SYS828: Systèmes biométriques Éric Granger

B3-79

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Calcul de la marge M:

− on peut définir les contraintes d’optimisation suivantes:

1, pour 1

1, pour 1

qu'on peut combiner comme suit :

1 0, pour 1,2,...,

i i

i i

i i i

b y

b y

c y b i n

wx

wx

wx

SYS828: Systèmes biométriques Éric Granger

B3-80

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Calcul de la marge M (suite)

on peut démontrer que d+ = d– = 1 / ||w|| , où ||w|| est la norme Euclidienne de w

la marge de l’hyperplan devient donc:

-

2 2 = =

||w||w wM d d

SYS828: Systèmes biométriques Éric Granger

B3-81

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Problème d’optimisation sous contraintes:

Apprentissage → recherche dans l’hyperplan (w et b) avec la marge maximum, permettant de classifier tous les patrons dans Dn

le problème consiste alors à minimiser la fonction de coût:

( ) , sujet aux contraintes :2

1 0, pour 1,2,...,i i i

L

c y b i n

2w

w

wx

SYS828: Systèmes biométriques Éric Granger

B3-82

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Problème d’optimisation avec contraintes: (suite)

pour résoudre un problème d’optimisation avec coût L(w) et paramètre w, on peut fixer

mais, lorsqu’il y a des contraintes ci ≥ 0, on utilise les multiplicateurs Lagrangiens, et on vérifie notre solution avec les conditions Karush-Kuhn-Tucker (KKT)

2

minimiser ( ) 32

( )alors : 3 0 3

wL w w

L ww w

w

Exemple (1D):

( ) / 0L w w

SYS828: Systèmes biométriques Éric Granger

B3-83

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite)

Lagrangien – fonction de cout formé en soustrayant un terme pour chaque contrainte ci ≥ 0, pondéré par un multiplicateur Lagrangien positif:

on peut alors résoudre le problème dual – maximiser L(w,α) en fonction de α sujet au contraintes:

le problème général consiste donc à trouver la solution:

( , )0 et 0, pour 1,2,...,i

Li n

w

w

( , ) ( ) i ii

L L c w w

max min ( , )w

wL

SYS828: Systèmes biométriques Éric Granger

B3-84

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable Problème d’optimisation avec contraintes: (suite)

on introduit un multiplicateur Lagrangien αi (i = 1, 2, ..., n), pour chaque contrainte d’inégalité:

L(w,b,α) doit être (1) minimisé p/r aux variables primaires (w et b), tout en (2) maximisant p/r aux variables duales (αi )

aux extremums, nous avons:( , , ) ( , , )0 et 0

L b L b

b

w w

w

2

1

( , , ) ( ( ) 1)2

ww wx

n

i i ii

L b y b

SYS828: Systèmes biométriques Éric Granger

B3-85

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparableRésolution: min L(w,b,α) par rapport aux variables primaires afin de produire des contraintes pour la substitution

1 1

( , , )0 0

n n

i i i i i ii i

L by y

ww x w x

w

2

1

( , , ) ( ( ) 1)2

n

i i ii

L b y b

w

w wx

1

( , , )0 0

i

n

i i

L by

b

w

SYS828: Systèmes biométriques Éric Granger

B3-86

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Substitution: on combine ces contraintes dans L(w,b,α)

2

1

, 1 1 1

1 1 1 1 1 1

( , , ) ( ( ) 1)2

1

1

2

n

i i ii

n n n

i j i j i j i i j j j ii j i j

n n n n n n

i j i j i j i j i j i j i i ii j i j i i

L b y b

y y y y b

y y y y b y

ww wx

x x x x

x x x x

SYS828: Systèmes biométriques Éric Granger

B3-87

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

La formulation duale – on cherche à maximiser:

on peut résoudre avec des techniques d’optimisation classiques en programmation quadratique (basées sur, e.g., l’ascente de gradient avec contraintes)

1 1 1

1

1

2

sujet aux contraintes linéaires :

0 et 0

x xn n n

i i j i j i ji i j

n

i i ii

L y y

i y

SYS828: Systèmes biométriques Éric Granger

B3-88

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas séparable

Cette solution fait en sorte que les conditions KKT suivantes sont satisfaites:

après avoir trouvé w via l’entrainement, on peut s’en servir pour estimer b

1

1

0

0

( ) 1 0

( ( ) 1) 0 et 0

w xw

wx

wx

n

i i ii

n

i ii

i i

i i i i

Ly

Ly

b

y b i

y b i

SYS828: Systèmes biométriques Éric Granger

B3-89

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas non-séparable

Problème − l’optimisation n’a pas de solution si les 2 classes ne sont pas linéairement séparables:

SYS828: Systèmes biométriques Éric Granger

B3-90

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas non-séparable

Solution – marge molle (‘soft margin’) pour modéliser le chevauchement ou le bruit:

ξi ≡ distance entre patron erroné xi et la droite définie par les SV de sa classe

contraintes pour l’optimisation:

1 , pour 1

1 , pour 1

wx

wxi i

i

i

i i

b y

b y

SYS828: Systèmes biométriques Éric Granger

B3-91

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas non-séparable

Solution – marge molle pour modéliser le chevauchement ou le bruit:

on repose les contraintes p/r à une marge dur

on cherche alors à minimiser le critère d’optimisation quadratique suivant:

sujet aux contraintes:

2

1

|| ||

2

w n

ii

C

( ) 1 , 0,i i i iic y b i wx

SYS828: Systèmes biométriques Éric Granger

B3-92

B.3(4) SVMB.3(4) SVM(a) SVM linéaires – cas non-séparable

La formulation duale – on cherche à maximiser:

on obtient w et b selon:

1 1 1

1

1

2

sujet aux contraintes :

0 , et 0

x xn n n

i i j i j i ji i j

n

i i ii

L y

i yC

y

1

1 ( ) 0

w x

wx

n

i i ii

i i i i

y

y b

SYS828: Systèmes biométriques Éric Granger

B3-93

B.3(4) SVMB.3(4) SVM

(a) SVM linéaires – cas non-séparable

Fonction de décision:

Vecteurs de support: patrons d’entrainement xi de Dn

(i = 1, 2, …, n) avec αi ≠ 0

1

ˆ sign signwx x xn

i i ii

y b y b

SYS828: Systèmes biométriques Éric Granger

B3-94

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Solution: projeter les patrons dans un espace de plus grande dimensionnalité avec une transformation non-linéaire

− cet espace devrait séparer les deux classes plus facilement

− étant donné une fonction , travailler avec une l’espace image du patron φ(xi) au lieu de celle du patron xi

: d F

SYS828: Systèmes biométriques Éric Granger

B3-95

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Avec un SVM, on doit calculer les produits φ(xi)φ(xj) pour passer à l’espace image

cependant, ce calcul peut être très coûteux dans un espace de grande dimensionnalité

Fonction noyaux: on utilise plutôt une fonction noyau k(xi, xj), qui représente un produit dans un espace image ( , ) ( ) ( )x x x xi j i jk

SYS828: Systèmes biométriques Éric Granger

B3-96

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Fonction noyaux communs:

Polynomial:

Gaussien ou ‘Radial Basis Function’ (RBF):

*( , ) ( ) , ,x x x x pi j i jk u v u v p

2

*2

( , ) exp ,2

x xx x

i j

i jk

SYS828: Systèmes biométriques Éric Granger

B3-97

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

La formulation duale – on cherche à maximiser

sujet aux contraintes:

1 1 1

1

2( , )x x

n n n

i i j i ji i j

i jkL y y

0 et 0i i ii

C y

SYS828: Systèmes biométriques Éric Granger

B3-98

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

La formulation duale:

on détermine les variables primaires w et b avec:

pour:

( 0)1 ,x xi ji j jj

y ky b

0 i C

1

( , )w x xn

i ii

i jy k

SYS828: Systèmes biométriques Éric Granger

B3-99

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Mode opérationnel:

fonction de décision:

ˆ sig ( )n ,x xii ii

ky y b

SYS828: Systèmes biométriques Éric Granger

B3-100

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Avec cette solution, les conditions KKT suivants sont satisfaits avec :

rem: αi = 0 pour tous patrons de Dn qui ne sont pas des vecteurs de support

( ) 1 0,

0 , tel que ( ) 1

, tel que ( ) 1

wx

wx

wx

i i

i i i

i i i

y b i

C i y b

C i y b

SYS828: Systèmes biométriques Éric Granger

B3-101

B.3(4) SVMB.3(4) SVM(b) SVM non-linéaires

Synthèse des propriétés:objectif: conçu pour maximiser la marge dans l’espace des partons

méthode Lagrangienne: permet de formuler l’apprentissage comme un problème d’optimisation quadratique (sous contraintes)

populations non linéairement séparables: utilise une marge molle et/ou une fonction noyau

relations non-linéaires: projeter les patrons dans une espace de haute dimensionnalité

fonctions noyaux: permettent de simplifier le calcul

SYS828: Systèmes biométriques Éric Granger

B3-102

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Considérations pratiques:

pour optimiser la capacité du modèle: le choix du noyau est le paramètre le plus important

noyau polynomial: si on augmente le degré du polynôme, on augmente la capacité

noyau Gaussien: si on augmente la variance, on diminue la capacité

SYS828: Systèmes biométriques Éric Granger

B3-103

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Considérations pratiques:

optimiser C: représente le compromis entre la marge et le taux d’erreurs

données non-bruitées: le choix de C a généralement peu d’impact

données bruitées: le choix de C est critique

les petites valeurs donnent habituellement de meilleurs résultats

SYS828: Systèmes biométriques Éric Granger

B3-104

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Problèmes à N classes:

apprentissage: approche un contre tousutilise un ensemble de SVM (un par classe)SVMj apprend classe j vs les reste, j = 1, 2, ..., N

opérations: choisir la classe (SVMj) dont la prédiction tombe le plus loin dans la région positive

SYS828: Systèmes biométriques Éric Granger

B3-105

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Apprentissage: (complexité du problème de PQ)

Mémoire – taux de croissance O(n2) est requise pour stocker la matrice de noyaux

Comment gérer des Dn avec n = 100,000 patrons?

Approches proposées:1. ‘Chunking’: à chaque itération, résoudre le problème de PQ

utilisant tous les αi non-nuls de l’itération précédente + le M pires patrons (violations de conditions KKT)

2. Décomposition: résoudre une série de problèmes PQ plus petites, où chacun ajoute un patrons qui viole les conditions KKT

SYS828: Systèmes biométriques Éric Granger

B3-106

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Apprentissage: approche ‘Sequential Minimal Optimisation’ (SMO)

Objectif: résoudre le problème d’optimisation le plus petit à chaque itération

Processus itératif:

1. choisir 2 αi pour l’optimisation conjoint, avec au moins un des deux qui viole les conditions KKT

2. trouver la valeur optimal pour ces 2 αi et faire une mise-à-jour du modèle SVM

SYS828: Systèmes biométriques Éric Granger

B3-107

B.3(4) SVMB.3(4) SVM

(b) SVM non-linéaires

Apprentissage: approche ‘Sequential Minimal Optimisation’ (SMO)

ce processus itératif converge toujours vers un optimum

top related