dea instrumentation et commande reconnaissance des formes erreurs et coûts des algorithmes s. canu...
TRANSCRIPT
DEA instrumentation et commande
Reconnaissance des formes
Erreurs et coûts des algorithmes
S. Canu
http://psichaud.insa-rouen.fr/~scanu/RdF
Buts de la RdFD : Algorithme
de Reconnaissance
des Formes
Une forme x(vecteur forme
des caractéristiques)
C’est la forme
« y=D(x) »
classe" vraiela" ,
)( ,...,,...,1 : RdF
décisions des ensemble ,...,2,1tiquescaractéris des espace
D(x)Rx
xDxLlRD
LyRx
d
d
d
Nous voulons un algorithme de RdF performant
K
kkXk
D
sSPdxkxfxDsCXDSCEDJ
DJD
1 ,)(,)(,)(
)(min décision de règle uned'Cout D
RdF et apprentissage
D : Algorithme de
Reconnaissancedes Formes
Une forme x(vecteur forme
des caractéristiques)
C’est la forme
« y=D(x) »
A : Algorithme d’apprentissage
niyxS iin ,1 , Ensemble d’apprentissage (échantillon)
)(,)(C,et )(
:couts les
XDSCEDJDJ
A priorisur la
nature de la solution
2
1
3
Les problèmes PYXP ,
Grandes déviations
P 1
n erri i1
n EP
Z E(Z)
Fréquence Probabilitéd’erreur d’erreur
précision confiance
1
n erri i1
n EP
La moyennen’est pas
l’espérance
prise en comptede l’enchantillonnage
Grandes déviationsBienaimé
Tchebitchev– pour tout P
– Démonstration
P X E(X) 2
2
précision confiance
Hypothèse X v.a. centrée E(X) 0
2 x2 P(x)dx x2 P(x)dx x x2 P(x)dx
x
2 x2 P(x)dx x 2 P(x) dx
x 2 P x
Grande déviation
P X E(X) 2
2
P1
nXi
i1
n p
p(1 p)
n 2
1
4n 2
-6 -4 -2 0 2 4 60
confiance = (4n)-1/2 précision
p : probabilité d’erreur
Xi = 1 si on c’est trompé, = 0 sinon
Application :comparaison d’algorithmesAlgorithme 1 (adaline)
Algorithme 2 (perceptron)
m exemplespour le test
ˆ p 2 nb err
m
ˆ p 1 ˆ p 2
ˆ p 1 nb err
m
Donc l’algorithme 1est meilleur que l’algorithme 2
Application :comparaison d’algorithmesAlgorithme 1 (adaline)
Algorithme 2 (perceptron)
m exemplespour le test
ˆ p 2 nb err
m
ˆ p 1 ˆ p 2
ˆ p 1 nb err
m
Donc l’algorithme 1est meilleur que l’algorithme 2
ˆ p 1 ˆ p 2 2 1
nssi
Application :Choix de la taille de l’ensemble
testAlgorithme 1 (adaline)m exemples
pour le testˆ p
nb err
m
1
mXi
i1
m
Comment choisir m pour que probabilité d’erreur = ?ˆ p
P ˆ p p 1
4m 2
m 1
4 2
m 0,05 0,1 500 0,01 50.000
Comment améliorer cette borne ?
Comment améliorer cette borne ?
– Améliorer l’inégalité des grandes déviations.
– Inégalité de markov
– Hoeffding erreur bornée
– Chernov Classification
– Bernstein
– Bennet
Grandes déviationsgénéralisation de
Bienaimé Tchebitchev– pour tout P
– Démonstration
P X E(X) 2
2
Fonctionpositiveh(x)>0
Hypothèse X v.a. centrée E(X) 0
2 x2 P(x)dx x2 P(x)dx x x2 P(x)dx
x
2 x2 P(x)dx x 2 P(x) dx
x 2 P x
Lemme de Markov– soit (A,,D) un espace probabilisé
– soit X une v.a. sur (A,)
– soit > 0
– Alors :
– Démonstration– comme Bienaymé Tchébychev
P X E(X) E h(x)
h() x, h(x) 0
E h(X) h(x) P(x)dx h( ) P(x)dxx
Comment choisir h(x) ? h est la fonction génératrice des moments : h(X) et(X)
(comment choisir t?)
P X E(X) 2e 2
h(x) e x 2 sur 0,1
P ˆ p n p 2e n 2
P ˆ p n p 2e n h1 (n )
h1(x) = (1+ x) log(x) - x
xP ˆ p n p 2e n h2 (n )
h2 (x) x
1 x / 3
Hoeffding
Bennett
Bernstein
Récapitulons
181log8
11
2
1
3/1
2
1
2
1
21
21
21
21
21
(erreur) sinon 1
(ok) )( si 0)(
2
2
mm
ii
mm
ii
mm
ii
m
ii
iiiii
epem
P
epem
P
epem
P
npe
mP
yxfyxfe
Approximation normale
Hoeffding (1963)
Bernstein (1946)
Bennett (1962)
Taille de l’échantillon pour une précision
81log(8/11)log(2
2
3/1)log(
2
)log(
4
1
1
22
22
n
nn
nn
Exemples
0.02 0.04 0.06 0.08 0.1 0.12 0.140
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
n ta
ille
de l'
éch
antil
lon
Grandes dé viations pour =0.05, p=.5
Bienaymé Tchebychevapproximation normaleHoeffdingBersteinBennett
0.02 0.04 0.06 0.08 0.1 0.12 0.14
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
n ta
ille
de l'
éch
antil
lon
Grandes dé viations pour =0.05, p=.5
Bienaymé Tchebychevapproximation normaleHoeffdingBersteinBennett
Exemples
320018001000600500
Estimation de l’erreur d’un classifieur
Avec un ensemble de test
Avec des exemples – validation croisée– bootstrap
Indépendamment des exemples– il faut une borne
– Beaucoup d’exemples : ensemble test DONNEES
– Peu d’exemples : le rééchantillonnage TEMPS– Validation croisée
– Jackknife
– Bootstrap
– Analyse théorique : PRECISION
Estimation de l’erreur facture
Ensemble test
– grandes déviations
Rééchantillonnage– Validation croisée
– Jackknife
– Bootstrap
X1
X2
X3
.Xi
.Xn
Bootstrap
Young G.A. (1994) Bootstrap: More than a stab in the Dark, Statistical Science 9 pp 382-415
Quelle est la loi de ? (comment estimer le biais et la variance d’un estimateur ?)
Idée : « observer » la distribution deon tire plusieurs échantillonson calcule plusieurs réalisations de
nouvelle idée : créer des échantillons « fictifs »
ˆ*1
- ˆ
Éch
an
tillo
n in
itial
X*1 X*2 X*3 … X*i … X*n
Tirage de n points AVEC REMISE
X*1 X*2 X*3 … X*i … X*n
X*1 X*2 X*3 … X*i … X*n
X*1 X*2 X*3 … X*i … X*n
pri
nci
pe
ˆ*2
ˆ*b
ˆ*B
Bootstrap
X1
X2
X3
.Xi
.Xn
ˆ*1
Éch
an
tillo
n in
itial
X*1 X*2 X*3 … X*i … X*n
Tirage de n points AVEC REMISE
X*1 X*2 X*3 … X*i … X*n
X*1 X*2 X*3 … X*i … X*n
X*1 X*2 X*3 … X*i … X*n
ˆ*2
ˆ*b
ˆ*B
Biais :
Variance : ˆˆ1
ˆˆ1
1
2*
1
*
B
bb
B
bb
B
B
0.3 0.4 0.5 0.6 0.70
10
20
30
40
Exemple de Bootstrapn = 20;xi=rand(n,1);
m = mean(xi); % 0.528
B=200;for b=1:B ind = round(n*rand(n,1)+1/2); mb(b)=mean(xi(ind));end
hist(mb);
std(mb) % 0.0676
sqrt(1/12/n) % 0.0645
ind = 13 17 13 8 9 11 5 8 14 19 2 20 4 8 3 1 19 4 16 6
(Fractiles)
r(x) estimateur P.M.C. + I. B sur l’échantillon initial (x )
Innovation équivalente : = x - r(x )
Validation par Bootstrap
t t+1 t
Erreur initiale
Erreur BS1
Echantillon BS2
P.M.C.
(
((b (B
(x*1 ... (x*b (x* B
r*1(x) ... r*b(x) ... r*B(x)
^ t
t
t t t
t t t
^ ^ ^
^
Validation par Bootstrap
– Faire B fois (B 50)
– 1 : Générer un nouvel échantillon : x*b(t) ; t = 1:T
x*b(t+1) = r(x*b(t)) + b(t)
– 2 : Apprendre ce nouvel échantillon : r*b(x)
– Biais b : � (x(t+1) - r*b(x(t))) -
� (x*b(t+1) - r*b(x*b(t)))
2
t=1
T-11T-1
2
t=1
1T-1
^
^
^
^
-10 -5 0 5 10 15-4
-3
-2
-1
0
1
2
3
4
5
6
Exemple de bootstrap
– Avec une probabilité (1 - ), pour tous les :
EP(w) < Cemp(w) + (VCdim(B), Cemp(w), n, )
erreur < coût visible + complexité, nb d’exemples, précision
– mesure de complexité :
– Taille de B ?
– Nombre de paramètres ?
– dimension de Vapnik - Chervonenkis (pire des cas)
– e.g. Dim VC d'un ensemble de fonctions à seuil = taille du plus grand ensemble S pour lequel le système peut implémenter les 2|S| dichotomies sur S.
w B
Théorie des bornes
Un exemple
de grande déviation
– T une v.a.
de bernouilli
P(T 0) 1 P(t K )
p E(T) 1 0 K K
ˆ p 1
nTi
i1
n P ˆ p 0 1 n
P ˆ p p K 1 n
P ˆ p p ' 1 '
K
n
n log
log 1 '
K
Convergence uniforme
P, f F P Cemp ( f ) EP( f ) (n,, taille de F )
P supf F Cemp ( f ) EP( f )
cas simple card(F ) = F <
P Cemp ( f1) EP( f1) ou ... ou Cemp ( f F ) EP( f F ) F P Cemp ( f ) EP( f ) 2 F e n 2
cas général card(F ) = F = 2 VCF e n 2
Borne sur l’erreur d’apprentissage
Théorème (Vapnik & Chervonenkis, 1974)
)22(log)1(2
1
(erreur) sinon 1
(ok) )( si 0)(
1
dndn
ppE
pen
P
yxfyxfe
bayes
n
ii
iiiii