apprentissage statistique (ens 2010 – 2011)certis.enpc.fr/~audibert/cours1et2.pdf · but de...

APPRENTISSAGE STATISTIQUE(ENS 2010 – 2011)

Notes des cours 1 et 2

Jean-Yves Audibert

Table des matières

Chapitre 1. Description formelle et exemples 11. Problématique 12. Exemples 23. Fonctions cibles pour le classement et la régression aux moindres carrés 54. Lien entre classement binaire et régression aux moindres carrés 75. Consistance 86. Pas de consistance uniformément universelle 9

Chapitre 2. Algorithmes par moyennage local 131. Principe 132. L’algorithme des k-plus proches voisins 163. Algorithme par noyau 204. Algorithme par partition 21

Chapitre 3. Algorithmes par minimisation du risque empirique 231. Principe de la minimisation du risque empirique 232. Réseaux de neurones 253. Outils probabilistes 274. Etude de la performance de la minimisation du risque empirique 33

Bibliographie 37

iii

CHAPITRE 1

Description formelle et exemples

1. Problématique

Nous observons une base de données composée de n couples Z1 = (X1, Y1), . . . ,Zn = (Xn, Yn) que nous supposons être des réalisations indépendantes d’une mêmeloi P inconnue. Les X1, . . . , Xn appartiennent à un espace X et s’appellent lesentrées. Typiquement, X = Rd pour un grand entier d. Les Y1, . . . , Yn appartiennentà un espace Y, et s’appellent les sorties. Typiquement, Y est fini ou Y est un sous-ensemble de R.

But de l’apprentissage statistique : prédire la sortie Y associée à toute nouvelleentrée X, où il est sous-entendu que la paire (X,Y ) est une nouvelle réalisationde la loi P , cette réalisation étant indépendante des réalisations précédemmentobservées.

Une fonction de prédiction est une fonction (mesurable) de X dans Y. Dans cechapitre, nous supposons que toutes les quantités que nous manipulons sont mesu-rables. L’ensemble de toutes les fonctions de prédiction est noté F(X ,Y). La basede données Z1, . . . , Zn est appelée ensemble d’apprentissage, et sera parfois notéeZn1 . Un algorithme d’apprentissage est une fonction qui à tout ensemble d’appren-

tissage renvoie une fonction de prédiction, i.e. une fonction de l’union ∪n≥1Zn dansl’ensemble F(X ,Y), où Z = X × Y. C’est un estimateur de “la meilleure” fonctionde prédiction, où le terme “meilleure” sera précisé ultérieurement.

Soit ℓ(y, y′) la perte encourue lorsque la sortie réelle est y et la sortie préditeest y′. La fonction ℓ : Y × Y → R est appelée fonction de perte.

Exemple du classement : ℓ(y, y′) = 1Iy =y′ (i.e. ℓ(y, y′) = 1 si y = y′ et ℓ(y, y′) =0 sinon). Un problème d’apprentissage pour lequel cette fonction de perte estutilisée est appelé problème de classement (ou plus couramment par angli-cisme classification). L’ensemble Y considéré en classement est le plus souventfini, voire même de cardinal deux en classement binaire.

Exemple de la régression Lp : Y = R et ℓ(y, y′) = |y− y′|p où p ≥ 1 est un réelfixé. Dans ce cas, on parle de régression Lp. La tâche d’apprentissage lorsquep = 2 est aussi appelée régression aux moindres carrés.

La qualité d’une fonction de prédiction g : X → Y est mesurée par son risque (ouerreur de généralisation) :

R(g) = E[ℓ(Y, g(X)

)]. (1.1.1)

Le risque est donc l’espérance par rapport à loi P de la perte encourue sur la donnée(X,Y ) par la fonction de prédiction g.

1

2 1. DESCRIPTION FORMELLE ET EXEMPLES

Remarque 1.1. La littérature regorge de notations différentes pour désignercette quantité :

Eℓ[·, g(·)] (1.1.2)E(X,Y )ℓ[Y, g(X)] (1.1.3)

EdP (X,Y )ℓ[Y, g(X)] (1.1.4)EP (dX,dY )ℓ[Y, g(X)] (1.1.5)E(X,Y )∼P ℓ[Y, g(X)] (1.1.6)∫ℓ[y, g(x)]dP (x, y) (1.1.7)

(1.1.8)

Si la notation (1.1.2) peut paraître un peu cavalière (par la quantité d’informationsous-entendue), les notations complètes (1.1.4), (1.1.5), (1.1.6) et (1.1.7) sont sou-vent lourdes à employer. Un compromis est l’utilisation de (1.1.1) ou pour soulignerquelles sont les variables aléatoires de (1.1.3). Enfin, si nous notons (Ω,F ,P) l’espaceprobabilisé dans lequel vivent nos variables aléatoires X,Y,X1, Y1, . . . , Xn, Yn, lerisque peut également s’écrire R(g) = EdP(w)ℓ[Y (w), g(X(w))] =

∫ℓ[Y (w), g(X(w))]dP(w).

La qualité d’un algorithme d’apprentissage g peut être mesurée par son risquemoyen

EZn1R[g(Zn

1 )],

traditionnellement écrit ER(g), où il est sous-entendu que l’espérance est prise parrapport à la loi de l’ensemble d’apprentissage.

Un modèle est un ensemble P de probabilités sur Z dans lequel nous supposonsque P est. P est inconnue mais P est connu. Un modèle est dit paramétrique si ilexiste une injection de P dans Rd pour un certain entier d. Sinon le modèle est ditnon paramétrique.

Exemple 1 : X = R, Y = −1; 1. Alors le modèle

P =Probabilités t.q. L(X|Y = 1) et L(X|Y = −1) sont des gaussiennes

est paramétrique (à 5 paramètres).

Exemple 2 : |Z| = +∞ (i.e. Z de cardinal infini). Alors le modèle composé partoutes les distributions sur Z est non paramétrique.

La “meilleure” fonction de prédiction est la (ou plus rigoureusement une) fonc-tion de F(X ,Y) minimisant R. Une telle fonction n’existe pas nécessairement maisexiste pour les fonctions de pertes usuelles (notamment celles que nous considére-rons par la suite). Cette “meilleure” fonction sera appelée fonction cible ou fonctionoracle ou prédicteur de Bayes) (cf. Section 3).

2. Exemples

Dans ce paragraphe, nous proposons des exemples illustrant la problématiqueprécédente.

Exemple 1.1. La reconnaissance de caractères manuscrits est un des problèmessur lequel les méthodes d’apprentissage ont permis des avancées fulgurantes. Lecontexte est le suivant : nous disposons d’une image numérisée d’un caractère ma-nuscrit. Cette image est essentiellement un tableau de nombre réels indiquant l’in-tensité lumineuse en chacun des pixels. Nous souhaitons trouver la fonction qui à

2. EXEMPLES 3

ce tableau de réels renvoie le caractère présent dans l’image. A l’heure actuelle,les meilleures méthodes pour trouver une telle fonction sont de nature statistique :elles reposent donc sur

Figure 1. Reconnaissance de chiffres manuscrits. Les 56 erreurssur les 10 000 caractères de la base de test (MNIST/VSV2) d’un desmeilleurs algorithmes de reconnaissance de caractères manuscrits[3, 9]. Le premier nombre en haut à droite indique la valeur préditeet le second indique la vraie valeur. Le nombre en bas à gauche estle numéro de l’image (de 1 à 10 000).

(1) la constitution d’une base d’images de caractères où les images sont éti-quetées par le caractère qu’elle contient. Un Xi correspond donc à une deces images et un Yi désigne le caractère que Xi contient.

(2) l’utilisation de cette base pour proposer une estimation non paramétriquede la fonction cible.

Le taux d’erreur sur la reconnaissance de chiffres manuscrits (problème intéressantnotamment les centres de tri postaux) sont de l’ordre de 0.5% pour les meilleursalgorithmes (voir figure 1).

Exemple 1.2. Ces dernières années ont vu un essor de la recherche sur lamanière d’interfacer le cerveau humain avec un ordinateur. Un des enjeux fonda-mentaux de ce domaine est de permettre aux personnes ayant perdu l’usage de leursmains de communiquer avec un ordinateur.


Figure 2. En haut à gauche : exemple d’emplacement d’élec-trodes sur la surface du cerveau du sujet vu de haut. En haut àdroite : exemple de signal électrique observé à une électrode durantles 700 ms suivant le stimulus. L’activité observée environ 300 msaprès le stimulus est caractéristique de la réaction du sujet au sti-mulus. En bas à gauche : topographie (vue de haut) de la variancedu signal due à la présence ou non de stimuli. Cette topographiemontre que le signal est relativement peu localisé en un point pré-cis de la surface du cerveau. En bas à droite : signaux électriquesmoyens observés à une électrode pour différents stimuli [2, 10].

Une des méthodes d’interface cerveau-machine consiste à placer des électrodes àla surface de leur cerveau (méthode non invasive) ou à l’intérieur (méthode invasive).Le but est de déduire de l’observation des signaux électriques les pensées et/ouvolontés du sujet. A l’heure actuelle, ces méthodes reposent sur

– la constitution d’une base d’apprentissage : il est demandé à un (ou des)sujet(s) sous observation à penser à quelque chose de précis (par exemple,bouger la souris vers le haut, le bas, la gauche ou la droite ; autre exemple :à une des lettres de l’alphabet). La nature de cette pensée est une sortie Yi

associée à l’entrée Xi qui est le signal électrique observé pendant la secondesuivant la requête.

– l’apprentissage de la fonction cible à partir de cette base de signaux élec-triques étiquetés.

3. FONCTIONS CIBLES POUR LA CLASSIFICATION ET LA RÉGRESSION 5

Exemple 1.3. Pour faire face aux fluctuations incontrôlées du marché, lesbanques proposent aujourd’hui des produits dont les fluctuations sont indépen-dantes de la tendance (baissière ou haussière) du marché. Ces placements, dits degestion alternative, reposent sur l’achat des actions qui vont croître le plus (ou dumoins baisser le moins) et la vente pour le même montant des actions qui vontbaisser le plus (ou croître le moins). La difficulté pour mettre en place ce type deproduit est d’identifier ces actions “sur-performantes” et “sous-performantes”.

Une méthode utilisée par les banques est– de recenser un ensemble de paramètres caractérisant l’action. Ces paramètres

proviennent autant des analystes techniques (qui étudient les courbes à tra-vers des paramètres tels que la moyenne mobile, les seuils de résistance, ...)que des analystes financiers (qui étudient les paramètres de la société : chiffred’affaires, bénéfices, indices de rentabilité, ...).

– de constituer une base de données où une entrée Xi est un vecteur des para-mètres décrits ci-dessus et la sortie Yi associée évalue la sur/sous-performancede l’action sur la période suivant l’observation de ces paramètres (typique-ment de l’ordre d’une semaine)

– l’apprentissage de la fonction cible qui, à une date donnée, pour chaque actiondu marché, associe aux paramètres observés l’indice de sur/sous-performancede l’action.

3. Fonctions cibles pour le classement et la régression aux moindrescarrés

Soit µ la loi de X. Par définition de µ, pour toute fonction intégrable h : X → R,E h(X) =

∫X h(x)dµ(x) =

∫Z h(x)dP (x, y). Soit P (·|x) la loi conditionnelle de la

variable aléatoire Y sachant X = x. Par définition, pour tout x ∈ X , P (·|x) estune probabilité sur l’espace Y (en particulier, nous avons

∫Y dP (y|x) = 1) et pour

toute fonction intégrable f : Z → R,

Ef(X,Y ) =∫X

( ∫Yf(x, y)dP (y|x)

)dµ(x). (1.3.9)

Théorème 3.1.

(1) Supposons que pour tout x ∈ X , l’infimum infy∈Y EP (dY |x)ℓ(Y, y) est at-teint. Alors une fonction g∗ : X → Y t.q. pour tout x ∈ X , g∗(x) minimisey 7→ EP (dY |X=x)ℓ(Y, y) est une fonction cible :

∀x ∈ X g∗(x) ∈ argminy∈Y

EP (dY |x)ℓ(Y, y) =⇒ g∗ ∈ argminF(X ,Y)

R.

(2) En régression aux moindres carrés, une fonction cible est

η∗(x) = E(Y |X = x) =

∫YydP (y|x).

Par ailleurs, cette fonction satisfait :

∀η : X → R R(η) = R(η∗) + E(η − η∗)2,

avec E(η − η∗)2 =∫X [η(x)− η∗(x)]2dµ(x) en version décompressée.

(3) En classification, les fonctions cibles sont les fonctions g∗ satisfaisantg∗(x) ∈ argmaxy∈Y P (Y = y|X = x) pour tout x ∈ X . Par ailleurs,


lorsque Y = 0; 1, la fonction x 7→ 1Iη∗(x)≥1/2 est une fonction cible pourla classification.

Démonstration.

(1)R(g) = E

[ℓ(Y, g(X)

)]= EP (dX)

[EP (dY |X)

[ℓ(Y, g(X)

)]]≥ EP (dX)

[infy∈Y EP (dY |x)ℓ(Y, y)

]= EP (dX)

[EP (dY |X)

[ℓ(Y, g∗(X)

)]]= EP (dX,dY )

[ℓ(Y, g∗(X)

)]= R(g∗)

On a ainsi démontré que ∀g, R(g) ≥ R(g∗). Donc g∗ est bien une fonctioncible.

(2)

Lemme 3.2 (Décomposition par la variance). Soit W une variablealéatoire et a ∈ R, alors

E(W − a

)2= E

(W − EW

)2+(EW − a

)2Démonstration.

E(W − a

)2= E

(W 2 − 2aW + a2

)= E

(W 2)−(EW

)2+(Ew − a

)2= E

(W − EW

)2+(EW − a

)2

Revenons à la démonstration du point (ii). On a ℓ(Y, y) =(Y − y

)2. Enappliquant le lemme précédent à l’espérance conditionnelle EP (dY |X=x),on obtient

EP (dY |X=x)

(Y − y

)2= EP (dY |X=x)

(Y − EY

)2+(EP (dY |X=x)Y − y

)2Le premier terme étant indépendant de la valeur de y, l’infimum poury ∈ Y de EP (dY |X=x)

(Y − y

)2 est atteint pour y = E(Y |X = x

). On a

donc bien η∗(x) = E(Y |X = x) comme prédicteur cible. De plus,

R(η) = E(Y − η(X)

)2= EP (dX)

[EP (dY |X)

(Y − η(X)

)2]= EP (dX)

[EP (dY |X)

(Y − E(Y |X)

)2+(E(Y |X

)− η(X)

)2]= EP (dX)

[EP (dY |X)

(Y − η∗(X)

)2+(η∗(X)− η(X)

)2]= R(η∗) + EP (dX)

[(η∗(X)− η(X)

)2](3) En classification, on a |Y| < +∞, l’infimum recherché est donc bien at-

teint.

g∗(x) ∈ argminy∈Y EP (dY |X=x)(1IY =y)= argminy∈Y P (Y = y|X = x)= argmaxy∈Y P (Y = y|X = x)

4. LIEN ENTRE CLASSEMENT BINAIRE ET RÉGRESSION AUX MOINDRES CARRÉS 7

Lorsque Y = 0, 1,η∗(x) = E

(Y |X = x

)= P

(Y = 1|X = x

)× 1 + P

(Y = 0|X = x

)× 0

= P(Y = 1|X = x

)η∗(x) ≥ 1

2 ⇔ P(Y = 1|X = x

)≥ 1

2⇔ P

(Y = 1|X = x

)≥ P

(Y = 0|X = x

)⇔ 1 ∈ argmaxy∈0,1 P (Y = y|X = x)

Le théorème précédent affirme que– pour le classement où ℓ(y, y′) = 1Iy =y′ , la fonction qui à une entrée x renvoie

la sortie la plus probable (au sens de la distribution conditionnelle de Ysachant X = x : L(Y |X = x)) est “la” fonction cible en classement.

– pour la régression aux moindres carrés où Y = R et ℓ(y, y′) = |y − y′|2, lafonction qui à une entrée x renvoie la sortie moyenne E(Y |X = x) est “la”fonction cible en régression aux moindres carrés.

Exercice 1.Y = 0, 1L(X|Y = 0

)∼ U

([0, 1

2 ])

L(X|Y = 1

)∼ U

([0, 1]

)Quel est le classificateur cible ? On discutera suivant la valeur de p = P(Y = 1).

Solution. Notons p0 et p1 les densités de X sachant respectivement Y = 0 etY = 1. On a p1(x) = 1Ix∈[0;1] et p0(x) = 21Ix∈[0;1/2]. La loi de X admet donc ladensité p(x) = P(Y = 0)p0(x) + P(Y = 1)p1(x)

P (Y = 1|X = x) =P(Y = 1)p1(x)

p(x)

=p p1(x)

p p1(x) + (1− p)p0(x)=

p1Ix∈[0;1]

p1Ix∈[0;1] + 2(1− p)1Ix∈[0;1/2].

Un classificateur cible est donc la fonction

g∗(x) = 1IP (Y=1|X=x)≥1/2 =

1 si x > 1

21Ip≥ 2

3si 0 ≤ x ≤ 1

2

Notez que quand X admet une densité par rapport à la mesure de Lebesgue, un classificateurcible qui serait arbitrairement changé en un nombre fini de points reste un classificateur cible.

4. Lien entre classement binaire et régression aux moindres carrés

Dans cette section, nous considérons le problème de prédiction binaire, c’est-à-dire où la sortie ne peut prendre que deux valeurs. C’est en particulier la problé-matique des logiciels de lutte contre les pourriels (ou, par anglicisme, spam). Sansperte de généralité, nous pouvons considérer : Y = 0; 1. Le théorème suivantprécise le lien entre classement binaire et régression aux moindres carrés dans lecontexte de la prédiction binaire.

Considérons Y = 0; 1. Soit η∗ la fonction cible en régression aux moindrescarrés définie par η∗(x) = E(Y |X = x) = P(Y = 1|X = x). Soit g∗ la fonction cibleen classement définie par

g∗(x) = 1Iη∗(x)≥1/2 =

1 si P(Y = 1|X = x) ≥ 1/20 sinon


Pour toute fonction de régression η : X → R, on définit la fonction de classementgη , 1Iη≥1/2.

Théorème 4.1. Nous avons

Rcla(gη)−Rcla(g∗) ≤ 2

√Rreg(η)−Rreg(η∗),

où Rcla et Rreg désignent respectivement les risques en classement et en régressionaux moindres carrés : précisément Rcla(gη) = P[Y = gη(X)] et Rreg(η) = E

[(Y −

η(X))2].

Démonstration. Pour simplifier, on utilisera dans la suite la notation g à laplace de gη.

Rcla(g)−Rcla(g∗) = E

[1IY =g(X) − 1IY =g∗(X)

]= EP (dX)

[EP (dY |X)

[1IY =g(X) − 1IY =g∗(X)

]]= EP (dX)

[η∗(X)

[1IY =g(X) − 1IY =g∗(X)

]−(1− η∗(X)

) [1I0 =g(X) − 1I0 =g∗(X)

] ]= EP (dX)

[1Ig(X )=g∗(X)

[(2η∗(X)− 1

)1Ig∗(X)=1

+(1− 2η∗(X)

)1Ig∗(X)=0

]]= EP (dX)

[1Ig(X )=g∗(X)

∣∣2η∗(X)− 1∣∣] (1.4.10)

On remarque que 1Ig(X )=g∗(X)

∣∣η∗(X)− 12

∣∣ ≤ ∣∣η∗(X)− η(X)∣∣. On a donc

Rcla(g)−Rcla(g∗) ≤ EP (dX)2

∣∣η∗(X)− η(X)∣∣

≤Inégalité de

Cauchy-Schwartzou Théorème 3.5

2

√EP (dX)

(η∗(X)− η(X)

)2≤ 2

√Rreg(η)−Rreg(η∗)

Autrement dit, si η est une “bonne” fonction de régression, alors sa versionseuillée gη est une “bonne” fonction de classement.

5. Consistance

Définition 5.1. Un algorithme d’apprentissage est dit consistant par rapportà P si et seulement si

ER(g) −→n→+∞

R(g∗).

Un algorithme d’apprentissage est dit consistant par rapport à P si et seulement siil est consistant par rapport à tout P ∈ P.

Un algorithme d’apprentissage est dit universellement consistant si et seule-ment si il est consistant par rapport à toute probabilité P sur Z.

Théorème 5.1. Si un algorithme η est universellement consistant pour larégression aux moindres carrés à sorties dans [0; 1]

(i.e. Y = [0; 1], ℓ(y, y′) =

(y−y′)2), alors l’algorithme g = 1Iη≥1/2 est universellement consistant pour le pro-

blème de classement binaire à sorties dans 0; 1(i.e. Y = 0; 1, ℓ(y, y′) = 1Iy =y′

).

6. PAS DE CONSISTANCE UNIFORMÉMENT UNIVERSELLE 9

Démonstration. Le point de départ consiste à remarquer que si η est uni-versellement consistant pour la régression aux moindres carrés à sorties dans [0; 1],alors η est en particulier consistant par rapport à toute distribution telle que lessorties sont dans 0; 1 avec probabilité un (i.e. presque sûrement). Le résultat dé-coule du Théorème 4.1 et de l’inégalité de Cauchy-Schwarz (pour faire “rentrer”l’espérance sous la racine).

Pour une distribution telle que les sorties sont dans 0; 1 avec probabilité un :

0 ≤ E[Rcla(g)

]−Rcla(g

∗) = E[Rcla(g)−Rcla(g

∗)]

≤ 2 E√Rreg(η)−Rreg(η∗) (théorème 4.1)

≤ 2√E[Rreg(η)−Rreg(η∗)

](inég. de Cauchy-Schwarz)

Or E[Rreg(η)−Rreg(η

∗)]= E

[Rreg(η)

]−Rreg(η

∗) −→n→+∞

0 car η est universellement

consistant. Par conséquent, on a E[Rcla(g)

]− Rcla(g

∗) −→n→+∞

0, et donc g est

uniformément consistant pour la classification binaire.

6. Pas de consistance uniformément universelle

Les résultats de consistance universelle ne disent pas le nombre de donnéesnécessaires pour avoir une garantie du type ER(g) ≤ R(g∗) + ε pour ε > 0 fixé.Pour que ce nombre existe, il faudrait avoir un résultat de consistance universelleuniforme, i.e.

limn→+∞

supP

ER(g)−R(g∗)

= 0,

la consistance universelle n’affirmant que

supP

limn→+∞

ER(g)−R(g∗)

= 0.

En général, ce nombre n’existe pas d’après le théorème suivant.

Théorème 6.1. Si |X | = +∞, il n’existe pas d’algorithme d’apprentissageuniformément universellement consistant ni en régression aux moindres carrés (ℓ(y, y′) = (y − y′)2) ni en classement (ℓ(y, y′) = 1Iy =y′).

Démonstration. Il suffit de le montrer en classification binaire d’après le lienentre les excès de risque en classification binaire et régression (cf. Théorème 4.1).

Le principe de la démonstration est d’exhiber une familleH de lois pour laquellesupP∈H

ER(g)−R(g∗) sera minoré par un nombre strictement positif. Soit alors H =

Pσ : σ ∈ −1, 1 une famille de proba sur Z = X ×0, 1 ayant la même premièremarginale notée µ, ie ∀σ Pσ(dX) = µ(dX) et telle que ∃X0, ...,Xm partition de X ,w > 0, ξ0 > 0 et ξ > 0 vérifiant :

– ∀σ ∀x ∈ X0 Pσ(Y = 1|X = x) = 1+ξ02

– ∀j = 0 ∀x ∈ Xj Pσ(Y = 1|X = x) =1+σjξ

2– w = µ(x ∈ X1) = ... = µ(x ∈ Xn)

On dit alors que H est un hypercube de probabilités.Dans ce cadre, nous avons la borne inférieure suivante où n désigne toujours lataille de l’ensemble d’apprentissage.


Théorème 6.2.

supP∈H

ER(g)−R(g∗) ≥ mwξ

2(1− ξ

√nw)

Démonstration. [1, Section 8].

De ce théorème on tire la conséquence :

∀n ∈ N ∀g algorithme de classement supPER(g)−R(g∗) > 1

2

En effet si on considère l’hypercube de probabilités défini comme indiqué précé-demment avec ξ = 1 et m = αn = 1/w où α est un paramètre qui va être choisiarbitrairement grand. Alors en appliquant le Théorème 6.2, on obtient

supPER(g)−R(g∗) > 1

2

(1−

√1/α

)−→

α→+∞

1

2,

qui implique la non consistance universelle uniforme de tout algorithme de classe-ment.

1−ξ

2

1

2

1+ξ

2

X

X1 X2 X3X0 X5X4

11+ξ0

2

0

P (Y = 1|X = x)

x

Figure 3. Représentation d’une probabilité de l’hypercube. Icil’hypercube est tel que m = 5 et la probabilité représentée estcaractérisée par σ = (+,−,−,+,−).

L’absence d’algorithme universellement uniformément consistant nous amèneà définir un «bon» algorithme d’apprentissage comme étant un algorithme univer-sellement consistant et ayant une propriété de convergence uniforme sur une classe

6. PAS DE CONSISTANCE UNIFORMÉMENT UNIVERSELLE 11

de probabilités paraissant pertinente pour le problème à traiter. Plus précisément,si P est un ensemble de probabilités sur Z dans laquelle nous pensons que P est,nous souhaitons que le bon algorithme satisfasse

limn→+∞

supP∈P

ER(g)−R(g∗)

= 0

et également avoir une suite supP∈P

ER(g) − R(g∗)

décroissant le plus vite pos-

sible vers 0 pour que peu de données soient nécessaires à l’algorithme pour prédireefficacement dans le cas où P ∈ P. L’ensemble P doit être pensé comme une modé-lisation de notre a priori, et il en résulte un a priori implicite sur la fonction cible.L’obtention d’algorithmes incorporant un a priori et étant efficace lorsque l’a prioriest correct est au coeur de la recherche actuelle en apprentissage statistique.

CHAPITRE 2

Algorithmes par moyennage local

1. Principe

Dans ce chapitre 1, on considère la régression aux moindres carrés sur Rd avecsorties bornées : X = Rd et Y = [−B;B] pour B > 0 et ℓ(y, y′) = (y − y′)2. Unefonction cible est η∗ : x 7→ E(Y |X = x).

Idée principale : Pour estimer E(Y |X = x), moyenner les Yi des Xi proches de x.

Cette idée nous amène à nous intéresser aux algorithmes d’apprentissage de laforme

η : x 7→n∑

i=1

Wi(x)Yi,

où les poids réels Wi(x) vont être des fonctions bien choisies de x, n,X1, . . . , Xn.Exemple 1 : Algorithme par partition : soit A1, A2, . . . une partition finie ou

dénombrable de X (i.e. Aj = ∅, ∪jAj = X et Aj ∩ Ak = ∅ pour j = k).Soit A(x) l’élément de la partition qui contient x. L’algorithme par partitionconsidère les poids

Wi(x) =1IXi∈A(x)∑nl=1 1IXl∈A(x)

, (2.1.11)

où nous utilisons la convention 00 = 0.

Exemple 2 : Algorithme par noyau (ou estimateur de Nadaraya-Watson) : SoientK : Rd → R+ et h > 0 un paramètre (dit de largeur du noyau). L’algorithmepar noyau considère les poids

Wi(x) =K(

x−Xih )∑n

l=1 K(x−Xl

h ), (2.1.12)

où nous utilisons toujours la convention 00 = 0. Les deux noyaux les plus

courants sont le noyau fenêtre K(x) = 1I∥x∥≤1 et le noyau gaussien e−∥x∥2

,avec ∥ · ∥ la norme euclidienne.

Exemple 3 : L’algorithme des k-plus proches voisins (k-p.p.v.) considère lespoids

Wi(x) =

1k si Xi fait partie des k-p.p.v. de x dans Xn

1

0 sinon . (2.1.13)

où Xn1 , X1, . . . , Xn.

Théorème 1.1 (Théorème de Stone). Supposons que les poids Wi et la loigénérant les couples entrée-sortie satisfassent

(i) ∃c > 0 ∀f : X → R+ ∀n ∈ N E∑n

i=1 |Wi(X)|f(Xi)≤ cEf(X)

1. Ce chapitre s’inspire largement des six premiers chapitres du livre [6]. Autre référenceintéressante mais centrée sur le problème de classification [4]

13

14 2. ALGORITHMES PAR MOYENNAGE LOCAL

(ii) ∃D > 0 ∀n ∈ N∑n

i=1 |Wi(X)| ≤ D P−presque sûrement (p.s.), i.e.

P∑n

i=1 |Wi(X)| ≤ D= 1

(iii) ∀a > 0 E∑n

i=1 |Wi(X)|1I∥Xi−X∥>a

−→

n→+∞0

(iv)∑n

i=1 Wi(X) converge vers 1 en probabilité, i.e. ∀ε > 0

P∣∣∑n

i=1 Wi(X)− 1∣∣ > ε

−→

n→+∞0

(v) E∑n

i=1[Wi(X)]2 −→n→+∞

0.

Alors η : x 7→∑n

i=1 Wi(x)Yi est consistant par rapport à la loi générantles données.

Démonstration. Le but est de montrer que R(η)−R(η∗) tend vers 0 quandla taille n de l’ensemble d’apprentissage tend vers l’infini. Pour ce faire, remarquonsdans un premier temps que :

R(η)−R(η∗) = E(η − η∗)2

Or on peut éclater le terme η − η∗ comme suit :

η(x)− η∗(x) = (−1 +∑n

i=1 Wi(x))η∗(x)

+∑n

i=1 Wi(x)(Yi − η∗(Xi))+

∑ni=1 Wi(x)(η

∗(Xi)− η∗(x))= α1 + α2 + α3

où pour i ∈ 1, 2, 3, αi est le i-ème terme de la somme ci-dessus.En utilisant le fait que (a+ b+ c)2 ≤ 3(a2 + b2 + c2), on trouve que :

E(η − η∗)2 ≤ 3(I1 + I2 + I3)

où Ii = Eα2i , i ∈ 1, 2, 3. Il suffit donc de montrer que chacun des termes Ii tend

vers 0 quand n tend vers l’infini.

– Occupons nous de I1Nous allons utiliser le théorème de convergence dominée présenté comme suitdans le language probabiliste :

Théorème 1.1. si fn est une suite de fonction telle que– fn −→

en probaf

– ∀n, |fn| ≤ g intégrablealors E(fn − f) −→

n→+∞0

On a I1 = E((−1 +∑n

i=1 Wi(X))2η∗(X)2). D’après l’hypothèse (iv), ona

(−1 +∑n

i=1 Wi(X))η∗(X) −→en proba

0

En parallèle, d’après l’hypothèse (ii) on a :

(−1 +∑n

i=1 Wi(X))2η∗(X)2 ≤ (D + 1)2B2

on a donc bien I1 −→n→+∞

0

1. PRINCIPE 15

– Passons à I2

I2 = E( n∑

i=1

Wi(X)(Yi − η∗(Xi))

)2

= E( n∑

i=1

W 2i (X)(Yi − η∗(Xi))

2

)+ E

(∑i=j

Wi(X)Wj(X)(Yi − η∗(Xi))(Yj − η∗(Xj))

)Comme l’ensemble des sorties est Y = [−B,B], on peut majorer le premierterme comme suit :

E(n∑

i=1

W 2i (X)(Yi − η∗(Xi))

2) ≤ 4B2E( n∑i=1

W 2i (X)

)−→

d’après (v)0

Le deuxième terme s’annule. En effet il suffit de conditionner l’espérancede manière à faire apparaître à la place de Yi le terme E(Yi|X1, . . . , Xn) =E(Yi|Xi) = η∗(Xi) car les données sont i.i.d..

– Finalement, pour I3 :

I3 = EX,X1,..,Xn

(∑ni=1 Wi(X)(η∗(Xi)− η∗(X))

)2

≤ E(∑n

i=1

√|Wi(X)|

√|Wi(X)||η∗(Xi)− η∗(X)|

)2

≤Cauchy Schwarz

E(∑n

i=1 |Wi(X)| ×∑n

i=1 |Wi(X)||η∗(Xi)− η∗(X)|2)

≤d’après (ii)

DE(∑n

i=1 |Wi(X)||η∗(Xi)− η∗(X)|2)

Nous allons désormais approcher η∗ par une fonction η uniformément conti-nue (i.e., une fonction satisfaisant ∀ϵ > 0 ∃a > 0 tel que si x1 et x2 vérifient∥x1 − x2∥ ≤ a, alors |η(x1)− η(x2)| ≤ ϵ).On peut en effet légitimement considérer une telle approximation car lesfonctions continues à support compact sont uniformément continues et pourtoute proba µ sur Rd l’ensemble de ces fonctions est dense dans L2(µ) (preuvedans [6, appendice A.1]).Ce qui revient à dire que pour

η∗ ∈ L2(µ) ∀ε > 0 ∃η uniformément continue tq E(η − η∗)2 < ε

On note alors :

γ =

n∑i=1

|Wi(X)||η∗(Xi)− η∗(X)|2,

et on introduit la fonction uniformément continue approximante η.

γ ≤∑n

i=1 |Wi(X)|(|η∗(Xi)− η(Xi)|

+ |η(Xi)− η(X)|1I∥Xi−X∥>a

+ |η(Xi)− η(X)|1I∥Xi−X∥≤a

+ |η(X)− η∗(X)|)2


γ ≤ 4∑n

i=1 |Wi(X)|(|η∗(Xi)− η(Xi)|2

+ |η(Xi)− η(X)|21I∥Xi−X∥>a

+ |η(Xi)− η(X)|21I∥Xi−X∥≤a

+ |η(X)− η∗(X)|2)

On était déjà arrivé au fait que I3 ≤ DEγ donc en utilisant (i) pour le premierterme et (ii) pour la somme des poids en facteur :

I3 ≤ 4D(

cE|η∗(Xi)− η(Xi)|2+ 4B2E(

∑ni=1 |Wi(X)|1I∥Xi−X∥>a)

+ Dε+ DE|η(X)− η∗(X)|2

)Le premier et le dernier terme sont repectivement ≤ cε et ≤ Dε d’après ladéfinition de η. Enfin le deuxième terme tend vers 0 quand n → ∞ d’après(iii). On a donc montré que ∀ε > 0, I3 était plus petit qu’une constante foisε pour n suffisamment grand. On a donc que I3 −→

n→∞0 et le théorème de

Stone est prouvé.

2. L’algorithme des k-plus proches voisins

2.1. Consistance. Le théorème suivant donne un résultat de consistance del’algorithme des k-p.p.v. dans le cas où presque sûrement nous pouvons définir lesk-plus proches voisins de manière univoque. Ce résultat de consistance nécessite defaire varier le nombre k de plus proches voisins considérés avec la taille de l’ensembled’apprentissage : plus l’ensemble d’apprentissage est grand, plus k doit être grand,mais tout en restant un o(n).

Théorème 2.1. Soit P une probabilité sur Z telle que : si X,X1, X2, . . . sontindépendantes et identiquement distribuées (i.i.d.) de loi la première marginale deP (i.e. la loi de X lorsque (X,Y ) est tiré suivant P ), alors p.s.

∀n ∈ N ∃σ permutation de 1, . . . , n ∥Xσ(1) −X∥ < · · · < ∥Xσ(n) −X∥L’algorithme des k-p.p.v. est consistant par rapport à P si k −→

n→+∞+∞ et

k/n −→n→+∞

0.

Démonstration. On va appliquer le théorème de Stone.Rappelons que

Wi(x) =

1k si Xi fait partie des k-p.p.v. de x dans Xn

1

0 sinon .

• On prouve facilement que (ii) et (iv) sont vraies car∑n

i=1 Wi(X) = k × 1k = 1

• De même (v) est vraie car∑n

i=1 Wi(X)2 = k × 1k2 −→

k→∞0

• Prouvons que (iii) est vraie : Soit B(x, a) la boule de Rd fermée centrée en x etde rayon a pour la norme euclidienne. Nous avons

|Wi(X)|1I∥Xi−X∥>a ≤ |Wi(X)|1I∥Xσ(k)−X∥>a,

donc ∑ni=1 |Wi(X)|1I∥Xi−X∥>a ≤ P(∥Xσ(k) −X∥ > a)

= P(∑n

i=1 1IXi∈B(X,a) < k)= EXfn(X),

2. L’ALGORITHME DES k-PLUS PROCHES VOISINS 17

où pour toute entrée x

fn(x) = PX1,..,Xn

( n∑i=1

1IXi∈B(x,a) < k).

Soit µ la première marginale de P : µ(dX) = P (dX). Le support de µ est définipar

supp(µ) =x ∈ Rd|∀r > 0 µ

(B(x, r)

)> 0.

Par construction cet ensemble vérifie µX ∈ supp(µ)

= 1.

La quantité fn(x) est donc la probabilité que la réalisation d’une loi binomialede paramètres n et µ

(B(x, a)

)soit strictement inférieure à k. Raisonnons à x ∈

supp(µ) fixé. Soit U la réalisation d’une loi binomiale de paramètres n et p =µ(B(x, a)

)> 0. Puisque k/n −→

n→+∞0, on a pn > k pour n assez grand. Alors,

on peut écrire

fn(x) = P(U < k) = P(np− U > np− k) ≤ E(np− U)2

(np− k)2=

p(1− p)

n(p− kn )

2−→

n→+∞0.

Cette convergence a lieu µ-p.s. (par rapport à x car µsupp(µ)

= 1).

Par le théorème de convergence dominée (en remarquant que la fonction fnest dominée par 1), on obtient Eµ(dX)fn(X) −→

n→+∞0, donc (iii) est vérifiée.

• Finissons par montrer que (i) est vraie

EX,X1,..,Xn

∑ni=1 |Wi(X)|f(Xi)

= E∑n

i=11k1IXi∈k−p.p.v. de X dans X1,..,Xnf(Xi)

= 1k

∑ni=1 E1IXi∈k−p.p.v. de X dans X1,..,Xnf(Xi)

= 1k

∑ni=1 E1IX∈k−p.p.v. de Xi dans X1,..,Xi−1,X,Xi+1,..,Xnf(X)

= nkEf(X) 1n

∑ni=1 1IX∈k−p.p.v. de Xi dans X1,..,Xi−1,X,Xi+1,..,Xn,

où l’avant-dernière inégalité utilise le fait que X,X1, . . . , Xn sont i.i.d.. Or pour

Xi

X

n+ 1 entrées X,X1, . . . , Xn, nous avonsX ∈ k − p.p.v. de Xi dans X1, .., Xi−1, X,Xi+1, .., Xn

=

∑nj=1 1IXj∈B(Xi,∥Xi−X∥) ≤ k


Donc en introduisant µn = 1n

∑ni=1 δXi et Ex(x

′) =

µn

(B(x, ∥x− x′∥)

)≤ k

n

,

pour un X fixé, nous avons

1

n

n∑i=1

1IX∈k−p.p.v. de Xi dans X1,..,Xi−1,Xi+1,..,Xn =1

n

n∑i=1

1IEXi(X)

= µn

(x ∈ Rd : Ex(X) est vrai

)alors

E∑n

i=1 |Wi(X)|f(Xi) = nkE

[f(X)µn

(x ∈ Rd : µn

(B(x, ∥x−X∥)

)≤ k

n

)]donc grâce au lemme suivant E

∑ni=1 |Wi(X)|f(Xi) ≤ γEf(X), ce qui clôt la

preuve de (i).

Lemme 2.2. Soit ν une probabilité sur Rd et

Ea(x′) =

x ∈ Rd : ν

(B(x, ∥x− x′∥)

)≤ a

pour x′ ∈ Rd et a > 0. Il existe γ > 0 tel que pour tout a > 0 et tout x′ ∈ Rd :ν(Ea(x′)

)≤ γa.

Ea(x′)

x′

x

xm

Figure 1. Si x = argmaxx∈Ea(x′)∩(x′+Cj)∥x− x′∥ existe et appar-tient à Ea(x′), alors tous les xm peuvent être pris égaux à x, sinonon faire tendre les xm vers x tout en restant dans Ea(x′)∩(x′+Cj).C’est parce que le cône est d’angle ≤ π/3 que la boule centrée enx contient Ea(x′) ∩ (x′ + Cj). Remarque : Ea(x′) ∩ (x′ + Cj) n’estpas nécessairement borné, mais dans ce cas il suffit de prendre xm

partant à l’infini.

2. L’ALGORITHME DES k-PLUS PROCHES VOISINS 19

Démonstration. On appelle cône d’angle θ un ensemble A tel que ∃x ∈Rd tq

A =y ∈ Rd : angle(x, y) ≤ θ

2

=

y ∈ Rd : x.y ≥ cos( θ2 )

Etant donné que la sphère unité est compacte on peut paver la boule et a fortioril’espace comme suit :

Rd = ∪γj=1Cj

où les Cj sont des cônes d’angle π3 .

Pour u et u′ dans le cône d’angle ≤ π3 tels que ∥u∥ ≤ ∥u′∥, on vérifie que ∥u−u′∥ ≤

∥u′∥.Le cône Cj translaté de x′ est (noté) x′ + Cj . D’après ce qui précède on a donc

ν(Ea(x′)

)≤

γ∑i=1

ν(Ea(x′) ∩ (x′ + Cj)

)Et pour une suite appropriée (xm) de vecteurs de Ea(x′) ∩ (x′ + Cj), qui tend versle point de Ea(x′) ∩ (x′ + Cj) le plus loin de x′ lorsque celui-ci existe (voir figure),on a :

ν(Ea(x′) ∩ (x′ + Cj)

)= lim

m→∞ν(Ea(x′) ∩ (x′ + Cj) ∩B(xm, ∥xm − x′∥)

)≤ lim sup

m→∞ν(B(xm, ∥xm − x′∥)

)≤ a

Ainsi ν(Ea(x′)

)≤ γa et le lemme est prouvé.

D’après ce qui précède, on conclut à la consistance de l’algorithme des k-plusproches voisins pour la probabilité P grâce au théorème de Stone (Théorème 1.1).

Pour prouver un résultat de consistance universelle pour l’algorithme des k-

p.p.v., il faut avoir une règle pour définir les p.p.v. en présence d’égalité de distances.La règle la plus simple consiste à traiter les problèmes d’égalité par tirage au sort,au sens où si pour une distance d et x ∈ Rd, l’ensemble E =

i ∈ 1, . . . , n :

∥Xi − x∥ = d

est de cardinal |E| ≥ 2, alors les points (Xe)e∈E sont ordonnésen tirant une permutation aléatoire (suivant la loi uniforme sur l’ensemble despermutations de E).

Une autre méthode est d’ajouter à toutes les entrées observées une composanteréelle aléatoire i.i.d., indépendantes des (Xi, Yi) et de loi absolument continue parrapport à la mesure de Lebesgue. L’avantage de cette seconde méthode est quela preuve de son universelle consistance est beaucoup plus simple que celle de lapremière. En effet, si W,W1,W2, . . . notent la composante réelle ajoutée, alors

P(∃i = j ∥(Xi,Wi)− (X,W )∥ = ∥(Xj ,Wj)− (X,W )∥

)≤∑

i =j P[(Wi −W )2 = ∥(Xj ,Wj)− (X,W )∥2 − ∥Xi −X∥2

]=∑

i =j EW,Wj ,X,Xi,Xj

(EWi1I(Wi−W )2=∥(Xj ,Wj)−(X,W )∥2−∥Xi−X∥2

)=∑

i =j EW,Wj ,X,Xi,Xj

(0)

= 0.

L’universelle consistance de cette procédure se déduit donc du théorème précédent.Le théorème suivant montre la vitesse de convergence de l’excès de risque de

l’algorithme des k-p.p.v. lorsque des hypothèses raisonnables sont mises sur la dis-tribution générant les données.


Théorème 2.3. Soit d ≥ 3. Supposons que la loi P vérifie– X ∈ A presque sûrement, avec A ⊂ Rd borné,– il existe σ > 0 tel que pour tout x ∈ A, Var (Y |X = x) ≤ σ2,– la fonction η∗ : x 7→ E(Y |X = x) est L-lipschitzienne (i.e., pour tout (x, x′),|η(x)− η(x′)| ≤ L||x− x′||).

Alors, l’estimateur des k-p.p.v. satisfait

ER(η)−R(η∗) ≤ σ2

k+ cL2

(k

n

)2/d

,

où c est une constante dépendant uniquement de d et du diamètre de A.

2.2. Remarques pratiques.– L’algorithme des k-p.p.v. nécessite de conserver en mémoire tous les points

de la base d’apprentissage, d’où un stockage coûteux (en O(n)).– Une implémentation naïve de l’algorithme repose sur le calcul des distances

entre le point pour lequel la prédiction est recherchée et les points de l’en-semble d’apprentissage, d’où un algorithme en O(n). Des méthodes baséessur la construction d’un arbre associé à l’ensemble d’apprentissage ont uncoût moyen en O(lnn). Cela nécessite néanmoins la construction de l’arbre,ce qui a en général un coût en O(n lnn) (voir par exemple ’kd-tree’ suren.wikipedia.org). Une implémentation de cette méthode est accessibleen ligne sous le nom d’«approximate nearest neighbour» (www.cs.umd.edu/~mount/ANN/) qui permet également de rechercher les plus proches voisinsde manière approchée (ce qui mène à un gain de temps considérable). Uneastuce pour améliorer la recherche approchée des plus proches voisins est deconstruire plusieurs arbres de recherche (si possible les plus différents pos-sibles).

– Le choix du paramètre k peut être effectué par une méthode dite de vali-dation croisée que nous décrivons ci-dessous. Cette méthode, courammentutilisée pour trouver les 1 ou 2 paramètres de réglage d’un algorithme d’ap-prentissage, repose sur l’estimation du risque moyen ER(g) d’un algorithmepar

1n

∑pj=1

∑(x,y)∈Bj

ℓ[y, g(∪k =jBk)(x)

](2.2.14)

où p est l’ordre de la validation croisée et B1,. . .,Bp est une partition équi-librée (i.e. n/p − 1 < |Bj | < n/p + 1) de l’ensemble d’apprentissage. Moinsformellement, il faut couper l’ensemble d’apprentissage en p parties, entraî-ner l’algorithme sur p − 1 de ces parties, regarder la perte qu’encourt cetalgorithme sur les données de la p-ème partie, et faire cela p fois (correspon-dant aux p parties pouvant être laissées de côté lors de l’apprentissage). Pourp = n, l’estimateur du risque est appelé erreur «laisser-un-de-côté».

Pour les k-p.p.v., chaque k définit un algorithme. Choisir k par valida-tion croisée d’ordre p signifie choisir le k qui minimise l’erreur de validationcroisée donnée par (2.2.14). En pratique, on prend p d’ordre 5 à 10 suivantles contraintes de temps de calcul.

3. Algorithme par noyau

Le théorème suivant donne un résultat de consistance universelle pour l’algo-rithme par noyau.

4. ALGORITHME PAR PARTITION 21

Théorème 3.1. On note par B(0, u) la boule euclidienne de Rd de centre 0 etde rayon u > 0. Si il existe 0 < r ≤ R et b > 0 tels que

∀u ∈ Rd b1IB(0,r) ≤ K(u) ≤ 1IB(0,R)

et si hn −→n→+∞

0 et nhdn −→

n→+∞+∞, alors l’algorithme par noyau défini par

g(x) =∑n

i=1

(K(

x−Xih )∑n

l=1 K(x−Xl

h )

)Yi

(avec la convention 00 = 0) est universellement consistant.

Démonstration. La preuve utilise également le théorème de Stone (cf. [6,chapitre 5]).

Remarque 3.1. C’est un algorithme couramment employé notamment en vi-sion par ordinateur et avec le noyau gaussien. Il est néanmoins à utiliser avec pré-caution pour des dimensions de l’espace d’entrée supérieures à 10.

4. Algorithme par partition

Tout d’abord, rappelons que cet algorithme repose sur une partition de Rd

A1, A2, . . . finie ou dénombrable et que pour tout x ∈ Rd, nous notons A(x) l’élé-ment de la partition qui contient le point x. En pratique, cette partition est prised’autant plus fine que la taille n de l’ensemble d’apprentissage est grande. Le théo-rème suivant indique une bonne manière de choisir la partition en fonction de n.

Théorème 4.1. On note encore par B(0, u) la boule euclidienne de Rd de centre0 et de rayon u > 0. Le diamètre de Aj est noté Diam(Aj) = sup

x1,x2∈Aj

∥x1 − x2∥.

Si pour tout R > 0 max

j:Aj∩B(0,R) =∅Diam(Aj) −→

n→+∞0

|j:Aj∩B(0,R)=∅|n −→

n→+∞0

alors l’algorithme par partition définie par pour tout x ∈ Rd

g(x) =∑n

i=1

(1IXi∈A(x)∑n

ℓ=1 1IXℓ∈A(x)

)Yi

(avec la convention 00 = 0) est universellement consistant.

Démonstration. De nouveau par le théorème de Stone (détails de la preuveau chapitre 4 de [6]).

Remarque 4.1. Pour une grille (régulière) de Rd de pas Hn, les hypothèsesdu théorème sont simplement Hn −→

n→+∞0 et nHd

n −→n→+∞

+∞. En pratique,

contrairement à l’algorithme par noyau gaussien, il y a un effet escalier (bien souventnon désiré) au bord des éléments de la partition, puisque la sortie prédite pour uneentrée x change brusquement lorsque x change d’élément de la partition.

Remarque 4.2. Dans les arbres de décision, les éléments de la partition sontdéfinis par les réponses à un ensemble de questions, ces questions étant éventuel-lement choisies en fonction de l’ensemble d’apprentissage observé. Chaque noeudd’un arbre de décision correspond à un ensemble de l’espace Rd des entrées. Lescontraintes sur les parties de Rd associées aux noeuds sont les suivantes :


s0 s4 s3

s5

s1

s2 x(2)>s1

ouinon

oui

oui

oui

non

non

non

non

non

oui

oui

x(1)>s0

x(1)>s4

x(2)<s2

x(1)>s3

x(2)>s5

Figure 2. A gauche : Exemple de partition provenant d’un arbrede décision. A droite : Arbre de décision correspond à cette parti-tion.

– la racine est associée à Rd

– si A ⊂ Rd est l’ensemble associé à un noeud et si A(1), . . . , A(k) sont lesparties associées aux fils de ce noeud, alors

A(1) ∪ · · · ∪A(k) = A et ∀1 ≤ i < j ≤ k A(i) ∩A(j) = ∅,

autrement dit A(1), . . . , A(k) est une partition de A.Dans un arbre de décision binaire, tout noeud possède zéro ou deux fils. Donc toutnoeud est soit une feuille (noeud terminal), soit caractérisé par une question surl’entrée x dont la réponse est «oui» ou «non». Les questions typiques sur x sont :la i-ème composante de x est elle plus grande qu’un certain seuil (cf. figure 2) ? Dequel côté x est-il par rapport à un certain hyperplan de Rd ? x appartient-il à uncertain hyperrectangle ?

L’arbre de décision est très utilisée notamment en raison de sa simplicité d’in-terprétation, de la rapidité de l’algorithme et de sa capacité à être mis à jour demanière dynamique (les branches de l’arbre peuvent être développées au fur et àmesure que de nouvelles données viennent compléter l’ensemble d’apprentissage).

Le choix des questions peut dépendre de tout l’ensemble d’apprentissage, ouuniquement de

X1, . . . , Xn

. Dans ce dernier cas, on dit que l’arbre de décision

possède la “X-property” (cf. chapitre 20 de [4] pour une discussion dans le casdu classement), et les sorties Y1, . . . , Yn ne servent que dans le moyennage. Unexemple d’arbre ayant la “X-property” est lorsque les questions à un noeud coupentl’ensemble des points correspondant à ce noeud en deux sous-ensembles de mêmetaille (à plus ou moins un X près), et cela sans tenir compte des sorties.

Se restreindre à ce type de partition peut paraître restrictif en pratique, maisprocure une garantie de non sur-apprentissage (la notion de sur-apprentissage seraexpliquée au chapitre suivant). En fait, lorsqu’un arbre de décision possède la “X-property”, l’analyse de sa performance théorique provient des concepts présentésdans ce chapitre, alors que dans le cas contraire (par exemple, lorsque la partitionest choisie en essayant que les valeurs des sorties soient le plus homogène possiblesur les éléments de la partition), l’étude du comportement de l’arbre de décisionrelève davantage des outils qui seront présentés dans le chapitre suivant.

CHAPITRE 3

Algorithmes par minimisation du risque empirique

1. Principe de la minimisation du risque empirique

Rappelons tout d’abord que le risque d’une fonction de prédiction g : X → Yest défini par

R(g) = Eℓ[Y, g(X)].

Le but d’un algorithme d’apprentissage est de trouver une fonction de prédictiondont le risque est aussi faible que possible (autrement dit aussi proche que possibledu risque des fonctions cibles).

La distribution P générant les données étant inconnue, le risque R et les fonc-tions cibles sont inconnus. Néanmoins, le risque R(g) peut être estimé par sonéquivalent empirique

r(g) = 1n

∑ni=1 ℓ[Yi, g(Xi)].

Si nous supposons Eℓ[Y, g(X)]

2< +∞, alors la loi forte des grands nombres

et le théorème de la limite centrale permettent d’affirmer

r(g)p.s.−→

n→+∞R(g)

√n[r(g)−R(g)

] L−→n→+∞

N(0,Var ℓ[Y, g(X)]

).

Pour toute fonction de prédiction g, la variable aléatoire r(g) effectue donc desdéviations en O(1/

√n) autour de sa moyenne R(g).

Puisque nous cherchons une fonction qui minimise le risque R et puisque cerisque est approché par le risque empirique r, il est naturel de considérer l’algorithmed’apprentissage, dit de minimisation du risque empirique, défini par

gMRE ∈ argming∈G

r(g), (3.1.15)

où G est un sous-ensemble de F(X ,Y).Prendre G = F(X ,Y) n’est pas une bonne idée. Tout d’abord, cela entraîne un

problème de choix puisqu’en général, pour tout ensemble d’apprentissage, il existeune infinité de fonctions de prédiction minimisant le risque empirique (voir figure1). Par ailleurs et surtout, si on prend l’algorithme du plus proche voisin commeminimiseur du risque empirique (en régression aux moindres carrés ou en classe-ment), alors on peut montrer que cet algorithme est «loin» d’être universellementconsistant.

Prendre G = F(X ,Y) mène en général à un surapprentissage dans la mesureoù l’algorithme résultant a un risque empirique qui peut être très inférieure à sonrisque réel (même lorsque la taille de l’ensemble d’apprentissage tend vers l’infini).

En pratique, il faut prendre G suffisamment grand pour pouvoir raisonnable-ment approcher toute fonction tout en ne le prenant pas trop grand pour éviter quel’algorithme «surapprenne». La «grandeur» de l’ensemble G est appelée capacité

23

24 3. ALGORITHMES PAR MINIMISATION DU RISQUE EMPIRIQUE

Xi

Yi

Figure 1. Surapprentissage en régression aux moindres carrés :les couples entrées-sorties sont représentés par des croix. Les deuxcourbes minimisent le risque empirique 1

n

∑ni=1[Yi− g(Xi)]

2 (puis-qu’elles ont toutes les deux un risque empirique nulle). La courbefine semble apprendre par coeur la valeur des sorties associées auxentrées de l’ensemble d’apprentissage. On dit qu’elle “surapprend”.Au contraire, la courbe épaisse explique plus simplement les don-nées.

ou complexité. Un autre point de vue consiste à rajouter à r(g) une pénalisation,quand par exemple, la fonction g est trop irrégulière. Ces deux approches sont enfait proches l’une de l’autre. L’approche par pénalisation sera adoptée pour lesMachines à Vecteurs Supports

Soit g une fonction minimisant le risque sur G :

g ∈ argming∈G

R(g).

On suppose le minimum atteint pour simplifier l’exposé. D’après l’inégalité

R(gMRE) ≥ R(g) ≥ R(g∗),

L’excès de risque de gMRE se décompose en deux termes positifs, appelés erreurd’estimation et erreur d’approximation (ou biais) :

R(gMRE)−R(g∗) = R(gMRE)−R(g)︸︷︷︸erreur d’estimation

+ R(g)−R(g∗)︸︷︷︸erreur d’approximation

,

Plus G est grand, plus l’erreur d’approximation est faible mais plus l’erreur d’es-timation est en général grande. Il y a donc un compromis à trouver dans le choixde G. Ce compromis est souvent appelé dilemme «biais-variance» , où le termevariance provient du lien entre l’erreur d’estimation et la variabilité de l’ensemble

2. RÉSEAUX DE NEURONES 25

d’apprentissage que nous avons supposé dans notre formalisme être une réalisationde variables aléatoires i.i.d..

L’erreur d’estimation peut être bornée par deux fois le suprémum du processusempirique : g 7→ |R(g)− r(g)| défini sur G. En effet, nous avons

R(gMRE)−R(g) = R(gMRE)− r(gMRE) + r(gMRE)− r(g)︸︷︷︸≤0

+r(g)−R(g)

≤ supg∈G|R(g)− r(g)|+ 0 + sup

g∈G|R(g)− r(g)|

≤ 2supg∈G|R(g)− r(g)|. (3.1.16)

Voir Section 4 pour plus de bornes concernant l’erreur d’estimation.

2. Réseaux de neurones

2.1. Définitions. Les réseaux de neurones sont nés de la volonté de modéli-ser le fonctionnement du cerveau. Un neurone biologique reçoit des stimuli de sesvoisins, et produit un signal lorsque son seuil d’activation est dépassé. La modéli-sation de Mc Culloch et Pitts (1943) considère que le neurone fait une combinaisonlinéaire de ses entrées, d’où la fonction d’activation

g(x) = 1I∑dj=1 ajx(j)+a0>0,

où les xj sont les stimuli envoyés par les neurones voisins et −a0 est le seuil d’acti-vation.

Définition 2.1. Une sigmoïde σ est une fonction croissante telle queσ(x) −→

x→−∞0

σ(x) −→x→+∞

1

Exemple 1 : σ(x) = 1Ix≥0

Exemple 2 : σ(x) = 11+exp(−x)

Exemple 3 : σ(x) = 12 + 1

π arctanx

Définition 2.2. – Un neurone (artificiel) est une fonction définie sur Rd

par

g(x) = σ(∑d

j=1 ajx(j) + a0

)= σ(a · x)

où a = (a0, · · · , ad)t, x = (1, x(1), · · · , x(d))t et σ est une sigmoïde.– Un réseau de neurones à une couche cachée est une fonction f : Rd → R

définie par

f(x) =∑k

j=1 cjσ(aj · x) + c0

où x = (1, x(1), · · · , x(d))t. La sigmoïde σ, le nombre de neurones k et lesparamètres a1, . . . , ak ∈ Rd+1, c0, c1, . . . , ck ∈ R caractérisent le réseau.


Σ

1

a(0)k

a(d)k

a(d)1

a(1)1

a(0)1

x(d)

x(1)

1

ck

c1

c0

c0 + Σkj=1cjσ(aj · x)

x

x

Σ σ

Σ σ

a(1)k

Figure 2. Représentation d’un réseau de neurones à une couche.L’algorithme du réseau de neurones choisit par minimisation durisque empirique les vecteurs a1, . . . , ak et les paramètresc0, c1, . . . , ck.

2.2. Consistance.

Théorème 2.1. Soient (kn) une suite d’entiers et (βn) une suite de réels. SoitFn l’ensemble des réseaux de neurones à une couche tels que k ≤ kn et

∑ki=0 |ci| ≤

βn. L’algorithme f qui produit pour l’ensemble d’apprentissage Zn1 la fonction de

prédiction de Fn minimisant l’erreur quadratique empirique, i.e.

f ∈ argminf∈Fn

∑ni=1[Yi − f(Xi)]

2,

est universellement consistant si kn → +∞, βn → +∞ et

knβ4n ln(knβ

2n)

n −→n→+∞

0.

Démonstration. Voir Chapitre 16 de [6].

2.3. Remarques pratiques. La minimisation de l’erreur quadratique empi-rique est un problème d’optimisation non convexe en raison de la sigmoïde. Parconséquent, il n’existe pas en général d’algorithme permettant d’obtenir systéma-tique le minimum global. Il faut donc avoir recours à des heuristiques pour trouverles meilleurs minima locaux (et éventuellement) un minimum global.

La méthode la plus utilisée (classification) est la rétro-propagation par descentede gradient stochastique définie ci-dessous.

Définition 2.3. Soit f : Rd → R une fonction C1 à minimiser. Soit Dxf ,(∂f∂x1

(x) · · · ∂f∂xd

(x))

le vecteur ligne des dérivées partielles au point x ∈ Rd.– La descente de gradient est la méthode itérative de recherche du minimum

(et de l’arg-minimum) de la fonction f basée sur l’itérationx0 ∈ Rd

xk+1 = xk − η[Dxk

f]t

où x0 ∈ Rd est un point arbitrairement choisi (si possible proche de l’arg-minimum inconnu) et η > 0 doit être bien choisi (si trop petit, convergencetrès lente vers le minimum local ; si trop grand, divergence possible).

3. OUTILS PROBABILISTES 27

– Lorsque la fonction f est une composée de fonctions C1, la rétro-propagationest la méthode calculant les dérivées partielles de f par la relation donnantla différentielle d’une composée de fonctions :

Dxf = Dx(ϕ1 · · · ϕm) = Dϕ2···ϕm(x)ϕ1 ×Dϕ3···ϕm(x)ϕ2 × · · · ×Dxϕm

– Soient W1, . . . ,Wn des v.a. i.i.d. à valeurs dansW. Considérons les fonctionsf telles que

f(x) =∑n

i=1 φ(Wi, x).

pour φ fonction C1 deW×Rd dans R. Soit ∂φ∂x ,

(∂φ∂x1· · · ∂φ

∂xd

). La descente

de gradient stochastique est la méthode itérative de recherche du minimumet de l’arg-minimum de la fonction f basée sur l’itération

x0,0 ∈ Rd

xk,i = xk,i−1 − η[∂φ∂x (Wi, xk,i−1)

]t ∀i ∈ 1, . . . , n et ∀k ≥ 0xk+1,0 = xk,n

De nouveau, le réel η > 0 est un paramètre à bien choisir et x0,0 doit être sipossible choisi près de l’arg-minimum recherché.

Remarque 2.1. L’algorithme des réseaux de neurones est une méthode d’ap-prentissage puissante ayant notamment donné d’excellents résultats sur les pro-blèmes de reconnaissance de visages ([5]) et de reconnaissance de chiffres manus-crits ([11]). Des conseils sur la manière d’implémenter cet algorithme sont donnésdans [8, 7, 11].

3. Outils probabilistes

Pour un rappel de probabilités, vous pouvez vous reporter aux notes manus-crites et/ou aux pages fr.wikipedia.org sur la «fonction de répartition», la «conver-gence de variables aléatoires» et le «théorème de Borel-Cantelli» et/ou votre coursfavori de probabilités.

Définition 3.1. Fonction de répartition d’une variable aléatoire V La fonctionde répartition d’une variable aléatoire V est la fonction FV définie par :

FV : t 7−→ FV (t) = P (V ≤ t).

Propriétés de FV :(i) croissante(ii) partout continue à droite(iii) admet en tout point t0 une limite à gauche, égale à P (V < t0)

(iv) limt→−∞ FV (t) = 0

(v) limt→+∞ FV (t) = 1

Soient W1,W2, . . . ,Wn, . . . des variables aléatoires à valeurs réelles.

Convergence en loi :

WnL−→

n→+∞W ⇔ ∀t ∈ R, tel que FW continue en t, FWn(t) −→

n→+∞FW (t)

⇔ ∀f : R→ R, continue et bornée , Ef(Wn) −→n→+∞

Ef(W )

⇔ ∀t ∈ R , EeitWn −→n→+∞

EeitW (avec i2 = −1)


Convergence en probabilité :

WnP−→

n→+∞W ⇔ ∀ε > 0 , P (|Wn −W | ≥ ε) −→

n→+∞0

Convergence presque sûre (p.s.) :

Wnp.s.−→

n→+∞W ⇔ P (Wn −→

n→+∞W ) = 1

De manière plus explicite, si (Ω,F ,P) désigne l’espace probabilisé :

Wnp.s.−→

n→+∞W ⇔ P

(ω ∈ Ω,Wn(ω) −→

n→+∞W (ω)

)= 1

convergence presque sûre ⇒ convergence en probabilité ⇒ convergence en loiLes réciproques sont fausses. Néanmoins, le théorème suivant montre qu’une

convergence en probabilité «suffisamment forte» implique la convergence presquesûre.

Théorème 3.1. Si pour tout ε > 0,∑

n≥1 P (|Wn −W | > ε) < +∞, alorsWn

p.s.−→n→+∞

W .

Démonstration. On utilise la lemme de Borel-Cantelli.

Théorème 3.2 (Loi Forte des Grands Nombres (L.F.G.N.)). Si V, V1, V2, . . .est une suite de v.a. i.i.d. intégrables, alors

V ,∑n

i=1 Vi

n

p.s.−→n→+∞

EV

Théorème 3.3 (Théorème de la Limite Centrale (T.L.C.)). Si V, V1, V2, . . . estune suite de v.a. i.i.d. de carrés intégrables, alors

√n(V − EV

) L−→n→+∞

N (0,VarV ),

ou de manière équivalente : pour tout réel t,

P√

nVarV

(V − EV

)> t−→

n→+∞

∫ +∞t

e−u2

2√2π

du.

Théorème 3.4 (Inégalité de Markov ). Pour toute v.a.r. X et tout a > 0,

P(|X| ≥ a) ≤ 1aE|X|.

Démonstration. C’est une conséquence directe de |X| ≥ a1I|X|≥a.

Exercice : Soient V1, V2,......,Vn des variables aléatoires i.i.d telles que EV 2 < +∞ , soit V =∑ni=1 Vi

n

1)Montrer que P (∣∣V − EV

∣∣ > ε) ≤ 1ε2

E[(V − EV )2]

2) En déduire la Loi des Grands Nombres : V P−→n→+∞

EV

Correction : 1) ε donné

P (∣∣V − EV

∣∣ > ε) = P (∣∣V − EV

∣∣2 > ε2)

≤1

ε2E[(V − EV )2]


2) Pour Wi = (Vi − EV )/n :

E[(V − EV )2] = E[(∑n

i=1 Wi)2]

= Var (∑n

i=1 Wi)

=∑n

i=1 Var (Wi)

= nVar (V )

n2

=Var (V )

n−→

n→+∞0

Théorème 3.5 (Inégalité de Jensen). Pour toute fonction convexe φ : Rd → Ret toute variable aléatoire X intégrable à valeurs dans Rd :

φ(EX) ≤ Eφ(X). (3.3.17)

Théorème 3.6 (Inégalité de Hoeffding ). Soit V une v.a.r. telle que a ≤ V ≤ bp.s.(1) ∀s ∈ R, Ees(V−EV ) ≤ e

s2(b−a)2

8

(2) Soient V1, . . . , Vn n i.i.d. copies de V . Pour tout t ≥ 0

P(V − EV > t

)≤ e

− 2nt2

(b−a)2 .

Démonstration. (1) s=0 trivial et s < 0 correspond à s > 0 avec V ← −VIntroduisons φ(s) = lnEesV . On a φ′(s) = E[V esV ]

E[esV ]= EPs(dV )V où

Ps(dV ) =esV

EP(dV )esV· P(dV ).

Par définition de cette probabilité, l’espérance de toute fonction continue bornéepar rapport à cette distribution est :

EPs(du)f(u) = EP(du)

[esu

EP(du′)esu′ f(u)

]=

EP(du)[esuf(u)]

EP(du′)esu′ .

On a

φ′′(s) =EV 2esV

EesV− (EV esV )2

(EesV )2= EPs(dV )[V

2]− [EPs(dV )V ]2 = Var Ps(dV )V

Formule de Taylor avec reste intégral : φ(s) = φ(0)+ sφ′(0)+∫ s

0(s− t)φ′′(t)dt. On

en déduit

lnEesV = sEV +

∫ s

0

(s− t)(Var Ps(dV )V )dt.

Pour une v.a.r. W vérifiant a ≤ w ≤ b p.s

VarW ≤ E(W − a+ b

2

)2

≤(b− a

2

)2

=(b− a)2

4.

⇒ lnEesV ≤ sEV +

∫ s

0

(s− t)(b− a)2

4dt

≤ sEV +(b− a)2s2

8


(2) Argument de Chernoff (passer à l’exponentielle, puis inégalité de Markov, puisutilisation de l’indépendance) :

P(V − EV > t) = P(es(V−EV ) > est

)≤ e−stE[es(V−EV )]

= e−stE[e∑n

i=1(Vi−EV )

n ]

= e−stE[e(V −EV )

n ]n

≤ e−st+ s2

nb−a2

8

= e− 2nt2

(b−a)2 par choix de s minimisant la borne précédente.

Définition 3.2. Un résultat probablement approximativement correct (P.A.C.)est une affirmation du type :

∀ 0 < ε ≤ 1, avec probabilité au moins 1− ε, l’événement Aε se produit,

où (Aε) une famille d’événements paramétrés par ε. Si Aε = V ≤ Wε avec V etWε v.a.r., alors on parle de borne P.A.C. pour V .

Par exemple, l’inégalité de Hoeffding mène à une borne P.A.C. sur V :

Posons ε = e− 2nt2

(b−a)2 . On a alors t = (b− a)√

ln(ε−1)2n , et la borne de Hoeffding

s’écrit :

P

(V − EV > (b− a)

√ln(ε−1)

2n

)≤ ε.

Donc pour tout ε > 0, avec probabilité au moins 1− ε,

V ≤ EV + (b− a)√

ln(ε−1)2n .

Théorème 3.7 (Borne de l’union). Version simple : Soient un entier m ≥ 2et des événements E1, . . . , Em. On a

P(E1 ∪ · · · ∪ Em

)≤∑m

j=1 P(Ej).

Version sophistiquée : Soient (A1ε), . . . , (A

mε ) des familles d’événements para-

métrés par ε > 0 vérifiant∀ε > 0, avec probabilité au moins 1− ε, A1

ε se produit...

∀ε > 0, avec probabilité au moins 1− ε, Amε se produit

Alors pour tout ε > 0, avec probabilité au moins 1−mε,

les événements A1ε, . . . , A

mε se produisent simultanément,

autrement dit pour tout ε > 0, avec probabilité au moins 1− ε,

les événements A1ε/m, . . . , Am

ε/m se produisent simultanément,


Démonstration. La version sophistiquée découle de la version simple. Ladémonstration dans le cas de deux évènements Aε et Bε est :

P(Aε ∩Bε) = 1− P((Aε ∩Bε)c) = 1− P(Ac

ε ∪Bcε)

≥ 1− (P(Acε)︸︷︷︸

≤ε

+P(Bcε)︸︷︷︸

≤ε

)

≥ 1− 2ε

Cette démonstration se généralise sans difficulté au cas des m événements.

Exemple : retour sur Hoeffding

Aε =

V − EV ≤ (b− a)

√ln(ε−1)

2n

Bε =

EV − V ≤ (b− a)

√ln(ε−1)

2n

∀ε > 0, avec probabilité ≥ 1− ε , les événements Aε/2 et Bε/2 se produit :∣∣V − EV

∣∣ ≤ (b− a)√

ln(2ε−1)2n . (3.3.18)

Pour raccourcir les notations, aji sera la notation compressée de ai, . . . , aj . Ainsipouvons-nous écrire (a1, . . . , an) = (an1 ) = (ai−1

1 , ai, ani+1).

Théorème 3.8 (Inégalités de Hoeffding-Azuma (version McDiarmid) ). SoientV1, . . . , Vn des v.a. i.i.d. à valeurs dans un ensemble V. Soit g : Vn → R tel quepour c ≥ 0,

supi∈1,...,nvn1 ∈Vn,v∈V

g(vi−11 , vi, v

ni+1)− g(vi−1

1 , v, vni+1) ≤ c.

Alors W = g(V1, . . . , Vn) satisfait pour tout réel λ,

Eeλ(W−EW ) ≤ enλ2c2

8

et pour tout t ≥ 0,

P(W − EW > t

)≤ e−

2t2

nc2

Démonstration admise.

Remarque 3.1. Le théorème précédent généralise le théorème de Hoeffding.Il mène à des bornes P.A.C.. En appliquant le résultat à −W et en utilisant leprincipe de la borne de l’union, nous obtenons que pour tout t ≥ 0,

P(EW −W > t

)≤ e−

2t2

nc2

P(|W − EW | > t

)≤ 2e−

2t2

nc2

.

D’après le Théorème Central Limite, pour Z v.a.r. de loi N(0, 1), on a

P[√

n

VarV(V − EV ) > α

]︸︷︷︸

−→n→+∞

P(Z>α)

≤ e2α2varV(b−a)2 .


Par ailleurs, on prouve relativement aisément : e−α2

2

α√2π

(1− 1α2 ) ≤

∫ +∞α

e−t2

2√2π

dt ≤ e−α2

2

α√2π

Si L(V ) = δa+δb2 (i.e P(V = a) = 1

2 = P(V = b)), alors VarV = (b−a)2

4 et la borne

de Hoeffding donne e−α2

2 . L’exposant de l’exponentielle est donc celui attendu.Lorsque la variance de V est faible, la comparaison du résultat du T.L.C. et de

l’inégalité de Hoeffding montre que cette dernière inégalité est peu précise. On n’apas le bon exposant. L’inégalité suivante doit alors lui être préférée.

Théorème 3.9 (Inégalité de Bernstein ). Soit φ la fonction convexe croissanteet positive définie par φ(u) = (eu− 1−u)/u2 pour u = 0 et φ(0) = 1/2. Soit V unev.a.r. telle que V ≤ b p.s. et b′ = b− EV .

– Pour tout s ≥ 0

lnEes(V−EV ) ≤

φ(sb′)s2VarVφ(sb)s2EV 2 .

– Soient V1, . . . , Vn des i.i.d. copies de V– pour tout ε > 0, avec probabilité au moins 1− ε,

V ≤ EV +√

2 ln(ε−1)EV 2

n + (b ∨ 0) ln(ε−1)

3n

– pour tout ε > 0, avec probabilité au moins 1− ε,

V ≤ EV +√

2 ln(ε−1)VarVn + b′ ln(ε

−1)3n

– pour tout t ≥ 0,

P(V − EV > t

)≤ e

− nt2

2Var V +(2b′t)/3


Théorème 3.10. Pour toute v.a.r. W ≥ 0,

EW =∫ +∞0

P(W > t)dt =∫ +∞0

P(W ≥ t)dt.

En conséquence, pour toute v.a.r. V

EV ≤∫ +∞0

P(V > t)dt =∫ +∞0

P(V ≥ t)dt

Démonstration. La première affirmation s’obtient en utilisant le théorèmede Fubini et

W =

∫ +∞

0

1It<W dt =

∫ +∞

0

1It≤W dt.

La deuxième affirmation se déduit de la première en remarquant que max(V, 0) estune v.a. positive ou nulle et EV ≤ Emax(V, 0).

Théorème 3.11. Soient σ > 0, m ≥ 2, W1, . . . ,Wm v.a.r. tels que pour touts > 0 et tout 1 ≤ i ≤ m, EesWi ≤ e

s2σ2

2 . Alors

E

max1≤i≤m

Wi

≤ σ√2 lnm.

Si en plus pour tout s > 0, Ee−sWi ≤ es2σ2

2 , alors

E

max1≤i≤m

|Wi|≤ σ

√2 ln(2m).


4. ETUDE DE LA PERFORMANCE DE LA MINIMISATION DU RISQUE EMPIRIQUE 33

4. Etude de la performance de la minimisation du risque empirique

Rappelons tout d’abord que le minimiseur du risque empirique sur l’ensemblede fonctions de prédiction G produit une fonction

gMRE ∈ argming∈G

r(g).

Soitg ∈ argmin

g∈GR(g).

On suppose le minimum atteint pour simplifier l’exposé. D’après l’inégalité

R(gMRE) ≥ R(g) ≥ R(g∗),

L’excès de risque de gMRE se décompose en deux termes positifs, appelés erreurd’estimation et erreur d’approximation (ou biais) :

R(gMRE)−R(g∗) = R(gMRE)−R(g)︸︷︷︸erreur d’estimation

+ R(g)−R(g∗)︸︷︷︸erreur d’approximation

,

Cette partie étudie l’erreur d’estimation.Les résultats de consistance sont basés sur l’étude de ER(g), où l’espérance est

prise par rapport à la loi de l’ensemble d’apprentissage. Pour mieux décrire la v.a.R(g), nous allons établir différents types d’inégalités P.A.C. :

(1) Bornes relatives :– R(g) ≤ R(g)+ quantité mesurant la capacité de G indépendant des

données (éventuellement dépendant de P ).– R(g) ≤ R(g)+ quantité empirique (i.e. calculable sur les données)

mesurant la capacité de G(2) Bornes non relatives : R(g) ≤ quantité empirique (typiquement dépendant

du risque empirique de g et de la capacité empirique de G)De ces bornes P.A.C., nous pouvons si nécessaire déduire des majorations de

ER(g) (voir Théorème 3.10). Dans toute cette section, nous supposons que les pertessont bornées au sens où il existe des réels a et b tels que pour tout y, y′

a ≤ ℓ(y, y′) ≤ b.

4.1. Capacité de G = cardinal de G. Lorsque l’ensemble G de fonctionsconsidérées est fini, alors le cardinal de G est une première mesure de complexité(ou capacité) de G.

Théorème 4.1. Pour tout ε > 0, avec probabilité au moins 1− ε,

R(g)−R(g) ≤ (b− a)

√2 ln(2|G|ε−1)

n.

Démonstration. D’après l’inégalité (3.1.16) :

R(g)−R(g) ≤ 2supg∈G|R(g)− r(g)|.

D’après la borne de Hoeffding (3.3.18) : pour tout g ∈ G, pour tout ε > 0, avecprobabilité au moins 1− ε :

|R(g)− r(g)| ≤ (b− a)

√ln(2ε−1)

2n.


En employant la borne de l’union, on en déduit que pour tout ε > 0, avec probabilitéau moins 1 − ε, pour tout g ∈ G (notez bien le changement de position de «pourtout g») :

|R(g)− r(g)| ≤ (b− a)

√ln(2|G|ε−1)

2n,

d’où le résultat annoncé.

4.2. Capacité de G = nombre de Rademacher de la trace de G sur lesdonnées.

Définition 4.1. Pour toute partie A de Rn, le nombre de Rademacher de Aest

Rn(A) = Eσ

1n supa∈A

∑ni=1 σiai

, (3.4.19)

où σ1, . . . , σn sont des v.a. i.i.d. de Rademacher, i.e. prenant comme valeurs +1 et−1 avec probabilité 1/2.

SoitF =

(x, y) 7→ ℓ[y, g(x)] : g ∈ G

un ensemble de fonctions de Z dans R.

La trace de F sur Zn1 est le sous-ensemble de Rn défini par

F(Zn1 ) ,

(f(Z1), . . . , f(Zn)

); f ∈ F

De même, la trace de G sur X1, . . . , Xn est le sous-ensemble de Rn défini par

G(X1, . . . , Xn) ,(

g(X1), . . . , g(Xn)); g ∈ G

.

Théorème 4.2. Sous l’hypothèse que les pertes sont toujours comprises entrea et b,

– avec probabilité au moins 1− 2ε :

R(g) ≤ r(g) + 2Rn

[F(Zn

1 )]+ 3(b− a)

√ln(ε−1)

2n︸︷︷︸calculable sur les données

.

– avec probabilité au moins 1− 3ε :

R(g)−R(g) ≤ 2Rn

[F(Zn

1 )]+ 4(b− a)

√ln(ε−1)

2n︸︷︷︸calculable sur les données

.


4.2.1. Application à la classification binaire et dimension de Vapnik-Cervonenkis.Dans cette section, Y = 0; 1 et l(y, y′) = 1Iy =y′ .

Lemme 4.3. Rn[F(Zn1 )] ≤

√2 ln |G(Xn

1 )|n .


Lemme 4.4 (admis). Soit ρ la distance de Hamming sur 0; 1n : ρ(x, y) =1n

∑ni=1 1Ixi =yi

(= 1

n

∑ni=1 |xi − yi|

). On a

Rn[F(Zn1 )] ≤ 12

∫ 1

0

√ln[2N(r,G(Xn

1 ),ρ)]n dr,

4. ETUDE DE LA PERFORMANCE DE LA MINIMISATION DU RISQUE EMPIRIQUE 35

où N(r,G(Xn1 ), ρ) est la taille du plus petit réseau de rayon r pour la distance ρ

couvrant G, i.e. du plus petit ensemble S ⊂ G tel que G ⊂ ∪s∈SBρ(s, r), avec Bρ(s, r)la boule fermée centrée en s et de rayon r.

Remarque 4.1. La démonstration de ce lemme repose sur une vision télésco-pique de G (zoom arrière), appelée chaînage. Par rapport au Lemme 4.3, le Lemme4.4 est une amélioration pour certains modèles G lorsque n est suffisamment grand(cf. Remarque 4.2, p.35).

Définition 4.2. La dimension de Vapnik-Cervonenkis de G est

VG , maxJ ∈ N : max

x1∈X ,...,xJ∈X|G(x1, . . . , xJ)| = 2J

.

Si VG < +∞, G est appelé classe de Vapnik-Cervonenkis. La dimension de Vapnik-Cervonenkis sur Xn

1 de G est définie par

VG(Xn1 ) = max

J ∈ N : max

x1,...,xJ⊂X1,...,Xn|G(x1, . . . , xJ)| = 2J

.

Lemme 4.5. Si n ≥ VG, alors VG = maxx1∈X ,...,xn∈X

VG(xn1 ).

Lemme 4.6 (Lemme de Sauer (admis) ). Pour tout (x1, . . . , xn) ∈ Xn

|G(xn1 )| ≤

∑VG(xn1 )

k=0 Ckn ≤

(n+ 1)VG(xn

1 ) toujours(en

VG(xn1 )

)VG(xn1 ) si n ≥ VG(x

n1 )

,

où Ckn = n!

k!(n−k)! est le coefficient binomial des entiers n et k.

Lemme 4.7 (Lemme de Haussler (admis)). Pour tout 0 < r ≤ 1, avec lesnotations du Lemme 4.4, on a

N(r,G(Xn1 ), ρ) ≤

(4e

r

)VG(xn1 )

.

Remarque 4.2. Ces deux derniers lemmes appliqués conjointement avec leThéorème 4.2 et respectivement les Lemmes 4.3 et 4.4 donnent respectivement R(g) ≤ r(g) + 2

√2VG(xn

1 ) ln(n+1)n + 3

√ln(ε−1)

2n

R(g)−R(g) ≤ 2

√2VG(xn

1 ) ln(n+1)n + 4

√ln(ε−1)

2n

et R(g) ≤ r(g) + 48

√VG(xn

1 )n + 3

√ln(ε−1)

2n

R(g)−R(g) ≤ 48

√VG(xn

1 )n + 4

√ln(ε−1)

2n (A)

Le chaînage a donc permis la suppression du logarithme au prix d’une constantenettement supérieur. Les bornes théoriques ont toujours des constantes pessimistes.Ces bornes sont d’un intérêt limité en pratique si l’on s’attache à sa valeur numé-rique. Néanmoins, les expériences numériques montrent que les meilleures bornesde la littérature ont la bonne forme : on observe véritablement en faisant varierla dimension de Vapnik-Cervonenkis et la taille de l’ensemble d’apprentissage unevariation proportionnel à

√VG(xn

1 )/n. Par ailleurs, cette borne est optimale (en


termes de dépendance en VG et en n) au sens où une simple application du Théo-rème 6.2 donne que pour toute classe de Vapnik-Cervonenkis et tout algorithmed’apprentissage g, il existe une probabilité générant les données pour laquelle

ER(g)−R(g) ≥ min

(1

8

√VG

n,1−

√n/V

2

).

En particulier, pour n assez grand, i.e., pour n ≥ VG4 , on a ER(g)−R(g) ≥ 1

8

√VGn .

Cette dernière inégalité est à comparer avec l’inégalité suivante qui se déduit (nontrivialement) de l’inégalité (A) et qui est valable pour l’algorithme de minimisationdu risque empirique sur G :

ER(g)−R(g) ≤ 48

√VG(xn

1 )

n+ 4

√ln(3e)

2n

Théorème 4.8. Soit H un espace vectoriel de fonctions de X dans R. SoitG =

x 7→ sgn[h(x)];h ∈ H

. On a

VG = dimH.

Exemple 1. Pour X = Rd et H =x 7→

∑dj=1 ajxj + a0; a0 ∈ R, . . . , ad ∈ R

,

les frontières des fonctions de G associées à H sont des hyperplans. La dimensionde Vapnik-Cervonenkis de G est d+ 1. Cela mène à une borne P.A.C. de la forme

R(g)−R(g) ≤ C(√

d+1n +

√ln(ε−1)

n

)pour une constante C appropriée.

Bibliographie

[1] J.-Y. Audibert. Fast learning rates in statistical inference through aggregation. Ann. Stat.,37 :1591–1646, Sep 2009.

[2] B. Blankertz, K.-R. Mller, G. Curio, T. Vaughan, G. Schalk, J. Wolpaw, A. Schlgl, C. Neu-per, G. Pfurtscheller, T. Hinterberger, M. Schrder, and N. Birbaumer. BCI competition 2003 :Progress and perspectives in detection and discrimination of EEG single trials. IEEE Tran-sactions on Biomedical Engineering, 51(6) :1044–1051, 2004.

[3] D. DeCoste and B. Schölkopf. Training invariant support vector machines. Machine Learning,46 :161–190, 2002.

[4] L. Devroye, L. Györfi, and G. Lugosi. A Probabilistic Theory of Pattern Recognition. Springer-Verlag, 1996.

[5] C. Garcia and M. Delakis. Convolutional face finder : A neural architecture for fast androbust face detection. IEEE Transactions on Pattern Analysis and Machine Intelligence,26(11) :1408–1423, 2004.

[6] L. Györfi, M. Kohler, A. Krzyzak, and H. Walk. A Distribution-Free Theory of NonparametricRegression. Springer, 2004.

[7] Y. LeCun, 2005. Notes de cours, http://www.cs.nyu.edu/~yann/2005f-G22-2565-001/

diglib/lecture09-optim.djvu, nécessite le visualiseur de format djvu : http://djvu.org/download/.

[8] Y. LeCun, L. Bottou, G. Orr, and K. Muller. Efficient backprop. In G. Orr and Muller K.,editors, Neural Networks : Tricks of the trade. Springer, 1998. http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf.

[9] Y. LeCun and C. Cortes. MNIST page. http://yann.lecun.com/exdb/mnist/.

[10] G. Schalk, D. McFarland, T. Hinterberger, N. Birbaumer, and J. Wolpaw. BCI2000 : a general-purpose brain-computer interface system. IEEE Transactions on Biomedical Engineering,51(6) :1034–1043, 2004.

[11] P.Y. Simard, D. Steinkraus, and J. Platt. Best practice for convolutional neural networksapplied to visual document analysis. International Conference on Document Analysis andRecogntion (ICDAR), IEEE Computer Society, pages 958–962, 2003.

37

apprentissage statistique (ens 2010 – 2011)certis.enpc.fr/~audibert/cours1et2.pdf · but de...

Documents