la théorie de l'apprentissage statistique, eldorado des ... · id ees-forces de...

52
La th´ eorie de l’apprentissage statistique, eldorado des math´ ematiques de la pr´ ediction. Nicolas Vayatis CMLA - Ecole Normale Sup´ erieure de Cachan Journ´ ee TIPE ENSTA - UPS 2012

Upload: others

Post on 04-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

La theorie de l’apprentissage statistique,eldorado des mathematiques de la prediction.

Nicolas Vayatis

CMLA - Ecole Normale Superieure de Cachan

Journee TIPE ENSTA - UPS 2012

Page 2: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Programme de l’expose

1 Introduction

I Quelques problemes concrets

I Formalisme de la classification et limites des approches ”classiques”

2 La theorie de l’apprentissage statistique

3 Des mesures de complexite

4 Conclusion

I Quelques sujets d’actualite

I Discussion

Page 3: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

1. Introduction-

Quelques problemes concrets

Page 4: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Exemple I - Le scoring pour l’attribution d’un credit

Page 5: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Credit - nature des donnees

Collecte des donnees par questionnaire

Facteurs socio-economiques et historique bancaire

I ageI code postal residenceI CSPI revenusI anciennete dans l’agence bancaireI ...

Matrice des donnees

I Lignes/Enregistrements : noi de l’emprunteurI Colonnes/Variables : valeurs de la caracteristique j

Decision/Prediction : bon payeur vs. mauvais payeur

Page 6: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Exemple II - Le diagnostic medical

Page 7: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Diagnostic medical - nature des donnees

Realisation de tests medicaux et resultats de questionnaires

Analyses et bilan medical

I ageI pression arterielleI glycemieI ...

Matrice des donnees

I Lignes/Enregistrements : noi du patientI Colonnes/Variables : valeurs de la caracteristique j

Decision/Prediction : sain vs. malade

Page 8: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Exemple III - La reconnaissance de caracteres manuscrits

Base de donnees USPS

Page 9: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Caracteres - nature des donnees

Images digitales noir et blanc 16× 16 pixels

Grands vecteurs binaires dans {0, 1}256

Matrice des donnees

I Lignes/Enregistrements : noi de l’imageI Colonnes/Variables : valeurs binaires du pixel j

Decision/Prediction : un chiffre

Page 10: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Exemple IV - La lutte contre le spam

Page 11: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Spam - nature des donnees

Descripteur du message par ”sac-de-mots”

Frequence/Occurrence de mots (∼ 1000)

I businessI willI moneyI !I freeI ...

Matrice des donnees

I Lignes/Enregistrements : noi de l’emailI Colonnes/Variables : frequences du mot j

Decision/Prediction : spam vs. non-spam

Page 12: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Enjeux de la modelisation aleatoire pour la prevision

Prevoir dans des domaines ou l’expert est demuni

Automatisation pour le traitement de gros volumes de donnees

Coherence/Rationnalisation des processus de prise de decision

Prise en compte de toute l’information disponible

Optimisation de la performance des regles de decision

Page 13: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

1. Introduction-

Cadre de la classification binaire

Page 14: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Formalisme probabiliste pour la classification binaire

(X ,Y ) couple aleatoire de loi de probabilite P

X vecteur aleatoire dans Rd avec d � 1

Y label binaire a valeurs dans {0,+1}

Loi jointe P decrite par (PX ,PY |X )

Loi marginale

PX (A) = P{X ∈ A} , ∀A ∈ B(Rd)

Fonction de regression

η(x) = P{Y = 1 | X = x} , ∀x ∈ Rd

Page 15: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Classifieurs et mesure de qualite

Regles de decision (classifieurs)

g : Rd → {0,+1}

Erreur de classification

L(g) = P {g(X ) 6= Y } = E(I{g(X ) 6= Y })

=

∫Rd×{0,+1}

I{g(x) 6= y} dP(x , y)

= E(η(X ) · I{g(X ) = 0}+ (1− η(X )) · I{g(X ) = 1}

)

Page 16: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Elements optimaux pour l’erreur de classification

Regle de Bayes et erreur de Bayes

g∗(x) = I{η(x) > 1/2} , ∀x ∈ Rd

L∗ := L(g∗) = E{min(η(X ), 1− η(X ))}

On montre facilement que :

L(g)− L∗ = E(| 2η(X )− 1 | ·I{g(X ) 6= g∗(X )}

)≥ 0

Page 17: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

La construction de predicteurs, un probleme statistique

Probleme : loi P inconnue

Echantillon : Dn = {(X1,Y1), . . . , (Xn,Yn)} copies i.i.d. de (X ,Y )

Espace de recherche : famille G de classifieurs

Algorithme/Methode d’apprentissage ⇒ gn(x ,Dn) ∈ G

Objectif : Rendre minimale l’erreur de classification

L(gn) := P{Y 6= gn(X ,Dn) | Dn}

Question statistique : consistance forte au sens du risque de Bayes :

L(gn)− L∗p.s.−−→ 0 , n→∞ ?

Page 18: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Approches parametriques pour la classification binaire

Analyse discriminante lineaire (Fischer, 1936)

I Hypothese de melange gaussienI Estimation par maximum de vraisemblance + algorithme EMI Principe de plug-in

Regression logistique (Berkson, 1944)

log

(ηθ(x)

1− ηθ(x)

)= θT x , ∀x ∈ Rd

puis estimation par maximisation de la vraisemblance + algorithme detype Newton-Raphson

Page 19: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Les limites des approches classiques

Lourdes hypotheses sur la loi sous-jacente

Gestion problematique des facteurs correles

Performance tres sensible aux erreurs de modele

Victimes du mal de Bellman en grande dimension

Page 20: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

”Curse of dimensionality” - Bellman (1961)

Fonction f lipschitzienne de d variables

Domaine [0, 1]d

On vise une erreur de ε

Necessite O(ε−d) evaluations

Page 21: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Geometrie de la boule unite

Volume d’une boule de rayon r dans Rd :

V (r , d) =rdπd/2

dΓ(d/2)

Volume d’un hypercube de cote 2r : v(r , d) = (2r)d

Ratio quand d →∞ :

πd/2

d2dΓ(d/2)→ 0

La masse se concentre dans les coins de l’hypercube...

Page 22: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Une remarque - Le cas des estimateurs plug-in

Estimateur ηn = ηn(·,Dn) de η

Classifieur plug-in : gn(x) = I{ηn(x) > 1/2} , ∀x ∈ Rd

On a, pour tout x tel que gn(x) 6= g∗(x) :

|η(x)− ηn(x)| >∣∣∣∣η(x)− 1

2

∣∣∣∣Donc, pour tout echantillon Dn :

L(gn)− L∗ ≤ 2E(|η(X )− ηn(X )| | Dn)

La classification est un probleme facile !

Page 23: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

2. L’apprentissage statistique

Page 24: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Grandes dates (1)

Algorithmes

I Neurone formel - McCullough& Pitts (1945)I Perceptron - Rosenblatt (1957)I Reseaux de neurones et retropropagation du gradient - Rumelhart,

Hinton & Williams (1986)I Support Vector Machines - Cortes & Vapnik - 1995I Boosting - Freund & Schapire (1990, 1995)I Bagging (1996) + Random Forests (2000) - Breiman

Page 25: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Grandes dates (2)

Theorie

I Theorie des noyaux auto-reproduisants - Aronszajn (1950)I Interpretation geometrique des noyaux - Aizerman, Braverman and

Rozonoer (1964)I Convergence du Perceptron - Novikoff (1962)I Classifieur lineaire a marge optimale - Vapnik and Lerner (1963),

Vapnik & Chervonenkis (1964)I Inegalites probabilistes et concepts combinatoires - Vapnik &

Chervonenkis (1967, 1970, 1971)I Theorie de l’apprentissage statistique - Vapnik (1982, 1995, 1998)I Theorie de l’apprenabilite - Valiant (1984)I Processus empiriques - Pollard (1984), Dudley (1984)I Approximation universelle par RN - Cybenko (1989)I Inegalites de concentration - Ledoux & Talagrand (1991)I Theorie de la classification - Devroye, Gyorfi & Lugosi (1996)

Page 26: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Idees-forces de l’apprentissage statistique

Accent sur la prediction et non sur l’estimation de la loi sous-jacente

Principe de minimisation de fonctionnelles (risques) empiriques

Approche non-parametrique numeriquement plausible en grandedimension

Resultats de convergence et vitesses non-asymptotiques

Caracterisations combinatoires et geometriques des classes defonctions

Page 27: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Principe fondamental - Minimisation du Risque Empirique(MRE)

Donnees : (X1,Y1), . . . , (Xn,Yn) copies i.i.d. de (X ,Y )

Espace de recherche : famille G de classifieurs

Principe de MRE :

Ln(g) :=1

n

n∑i=1

I{g(Xi ) 6= Yi} , gn = argming∈G

Ln(g)

Question statistique : consistance forte au sens du risque de Bayes

L(gn)− L∗p.s.−−→ 0 , n→∞?

Page 28: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Dilemme ”Biais/Variance”

Decomposition de l’exces de risque

L(gn)− L∗ =(L(gn)− inf

g∈GL(g)︸ ︷︷ ︸

”variance”

)+(

infg∈G

L(g)− L∗︸ ︷︷ ︸”biais”

)

Controle de l’erreur d’estimation

L(gn)− infg∈G

L(g) ≤ 2 supg∈G| Ln(g)− L(g) |

Techniques mathematiques :

I lois uniformes des grands nombresI processus empiriquesI inegalites de concentration

Page 29: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Cle du succes : le controle de la complexite de G

S’il n’y a pas de restriction sur g , alors :

supg∈G| Ln(g)− L(g) | p.s.−−→ 1 , n→∞

S’il y a un seul element, alors on a :

| Ln(g)− L(g) | p.s.−−→ 0 , n→∞

d’apres la Loi Forte des Grands Nombres.

Questions : Conditions sur G garantissant la convergence uniforme ?

Page 30: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Statistique de Kolmogorov-Smirnov

Soit Z1, . . . ,Zn v.a. sur R i.i.d. de fdr F continue

Rappel : F (x) = P{X ≤ x} , x ∈ R

On note Fn la fonction de repartition empirique

Statistique de Kolmogorov-Smirnov

Dn(F ) = supx∈R|Fn(x)− F (x)|

Page 31: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Statistique de Kolmogorov-Smirnov (suite)

Loi limite (Kolmogorov, 1936 - Smirnov, 1936)

limn→∞

PF{√nDn(F ) ≤ t} =

k=+∞∑k=−∞

(−1)ke−2k2t2 , ∀t > 0

Inegalite probabiliste (Massart, 1990)

PF

{√n supx∈R|Fn(x)− F (x)| > t

}≤ 2e−2t

2, ∀t > 0

Loi limite et vitesse de convergence universelles

Page 32: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Controle du processus empirique

Processus stochastique : soit Z1, . . . ,Zn i.i.d. de loi P

(C , ω) 7→ (Pωn (C ))− P(C ) :=1

n

n∑i=1

I{Zi (ω) ∈ C} − P(C )

indexe par C ∈ C

Cas fini : |C| < +∞

P{√

n supC∈C|Pn(C )− P(C )| > t

}≤ 2|C|e−2t2 , ∀t > 0

( borne de la reunion + inegalite de Hoeffding (1963) )

Page 33: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Inegalite de concentration (McDiarmid, 1989)

Soit f fonctions aux differences bornees : ∀i , ∃ci tel que

supz1,...,zn,z ′i

|f (z1, . . . , zn)− f (z1, . . . , zi−1, z′i , zi+1, . . . , zn)| ≤ ci

Alors, pour Z1, . . . ,Zn i.i.d et pour tout t > 0 :

P{| f (Z1, . . . ,Zn)− E(f (Z1, . . . ,Zn)) |> t} ≤ 2 exp(−2t2/∑i

c2i )

On applique l’inegalite avec :

f (Z1, . . . ,Zn) = supC∈C|Pn(C )− P(C )|

et on a : ci = 1/n

Page 34: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Borne combinatoire sur l’esperance

Coefficient d’eclatement

s(C, n) = maxz1,...,zn

| {{z1, . . . , zn} ∩ C : C ∈ C} |

Theoreme (Vapnik-Chervonenkis, 1971)

E(

supC∈C|Pn(C )− P(C )|

)≤ 2

√log(2s(C, n)

)n

Corollaire : avec une probabilite superieure a 1− δ,

L(gn)− infg∈G

L(g) ≤ 4

√log(2s(C, n)

)n

+

√log(2/δ)

2n

Page 35: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Etapes de la preuve du theoreme

1 Double symetrisation :

I Z ′1, . . . ,Z

′n i.i.d. de loi P et independants de Z1, . . . ,Zn

I ε1, . . . , εn i.i.d. Rademacher : P(ε1 = ±1) = 1/2I ε1, . . . , εn independants de Z1, . . . ,Zn,Z

′1, . . . ,Z

′n

E(

supC∈C|Pn(C )− P(C )|

)≤ E

(supC∈C

∣∣∣∣∣1nn∑

i=1

εi(I{Zi ∈ C} − I{Z ′i ∈ C}

)∣∣∣∣∣)

2 Denombrement : le vecteur des bi = I{Zi ∈ C} − I{Z ′i ∈ C} peutprendre au plus s(C, n) valeurs

3 Majoration de l’esperance du maximum de N = s(C, n) variablesbornees (donc sous-gaussiennes)

Page 36: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

3. Mesures de complexite

Page 37: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Complexites combinatoires de Vapnik-Chervonenkis (1967,1970, ...)

Vapnik et Chervonenkis a Londres en 1998

Page 38: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Capacite combinatoire : VC dimension

Definition : VC dimension d’une classe C d’ensembles de Rd

V := V (C) = max{n ∈ N : s(C, n) = 2n}

Exemple : demi-plans sur R2, V ≥ 2

Page 39: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Proprietes de la VC dimension

Relation entre VC dimension et coef. d’eclatement

s(C, n) ≤V∑i=0

(ni

)≤ (n + 1)V , ∀n

( Lemme combinatoire de Sauer )

Remarque : Le coefficient d’eclatement subit une transition de phasepour n = V .

Consequence :

E(

supC∈C|Pn(C )− P(C )|

)≤ 2

√V log

(n + 1)

)+ log 2

n

Page 40: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Exemples de VC dimension (1)

Demi-droites sur R : V = 2

Intervalles sur R : V = 2

Demi-espaces dans Rd : V = d + 1

Page 41: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Exemples de VC dimension (2)

Hyperrectangles dans Rd : V = 2d

Polygones convexes dans R2 : V = +∞

C = {{x ∈ [0, 1] : sin(ωx) > 0} : ω ∈ [0, 2π[} sur R : V = +∞

Page 42: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Faiblesses de la VC dimension

Difficile a calculer en general

On a generalement des bornes superieures

Notion ”distribution-free” ⇒ elle surestime la complexite effective

En selection de modele, elle conduit a des choix trop conservatifs(modeles plus simples que necessaire)

Ne capture pas la complexite des classes de fonctions utilisees dansles algorithmes efficaces

Page 43: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Complexites geometriques de Rademacher

Soit F une classe fonctionnelle...

... et les variables aleatoires

I ε1, . . . , εn i.i.d. Rademacher : P(ε1 = ±1) = 1/2I X1, . . . ,Xn independants de ε1, . . . , εn

Complexite de Rademacher :

Rn(F) = E supf ∈F

1

n

∣∣∣∣∣n∑

i=1

εi f (Xi )

∣∣∣∣∣

Page 44: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Exemple 1 - cas du boosting

Agregation lineaire (λ > 0) ou convexe (λ = 1)

F = λ conv(G) ou G famille d’indicatrices de VC dimension V finie

On a :

Rn(F) ≤ λRn(G ) ≤ λ

√V log

(n + 1)

)+ log 2

n

Page 45: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Exemple 2 - cas des familles a noyau

Soit X un ensemble mesurable

K noyau defini sur X × X symetrique et positif

F = { f =∑N

j=1 αjK (xj , ·) : N ≥ 1, x1, . . . , xN ∈ X , ‖f ‖K ≤ λ }

On a :

Rn(F) ≤ λ

nE

√√√√ n∑i=1

K (Xi ,Xi )

d’apres les inegalites de Cauchy-Schwarz et de Kahane-Khinchine

Page 46: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

4. Conclusion

Page 47: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Compromis a realiser entre underfitting et overfitting

Page 48: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Calibration de complexite et courbes en U

Page 49: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Variations autour du meme theme

ERM basee sur des risques convexifies

I Communication des risquesI Principe de contractionI Arguments issus de l’analyse convexe

Selection de modeles par regularisation/validation croisee

I Complexites empiriquesI Inegalites de concentration avanceesI Geometrie des espaces de Banach

Page 50: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Une branche des mathematiques desormais reconnue

Publications dans lesjournaux ”must”

Cours Peccot 2011”Selection de modeles etselection d’estimateurspour l’apprentissagestatistique”par Sylvain Arlot

Session ”Etats de laRecherche” organisee parla SMF a l’IHP en mai2011

Page 51: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Quelques messages

Sur le domaine de recherche

I La statistique mathematique a change !

I Les applications des maths et les donnees reelles ( !) comme sourcesd’inspiration...

I ... mais aussi comme ouverture des maths sur le monde reel

Sur la formation

I Recherche de doubles profils pour animer les projets actuels

I Culture des mathematiques reellement appliquees a l’ENS de Cachan

I Formation M2R ”MVA” Maths-Vision-Apprentissage

Page 52: La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage statistique Accent sur la pr ediction et non sur l’estimation de la loi sous-jacente

Quelques lectures pour aller plus loin...

Apprentissage statistique

I Survey on classification theory, par Boucheron, Bousquet & Lugosi(2005)

Theorie du signal

I Compressed sensing, tutoriel par E. Candes (2006)

Optimisation

I Convex analysis, par Boyd & Vandenberghe (2004)

Methodes spectrales en data mining

I Completion de matrices de rang faible, par Candes et Recht (2009)