apprentissage statistique pour construire des méta-modèles janvier/m... · eléments...

38
Introduction: Qu’est-ce que l’apprentissage automatique ? Problématique de l’apprentissage Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion Apprentissage statistique pour construire des méta-modèles Manuel Samuelides ONERA/ Institut Supérieur de l’Aéronautique et de l’Espace Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Upload: others

Post on 04-Jan-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage statistique pour construire desméta-modèles

Manuel Samuelides

ONERA/ Institut Supérieur de l’Aéronautique et de l’Espace

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 2: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Outline

1 Introduction: Qu’est-ce que l’apprentissage automatique ?

2 Problématique de l’apprentissageApprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

3 Eléments d’apprentissage statistique

4 Sélection de modèles en apprentissage supervisé.

5 Conclusion

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 3: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage automatique ("machine learning")

L’apprentissage automatique fait partie de l’intelligenceartificielle.Il s’agit de doter la machine de capacités d’apprentissage,i.e. capacités d’évoluer en intégrant des données utilesfournies par l’environnement.Exemples: lecture automatique, capacité de mobilité dansun environnement complexe (robotique), exploration duWeb, capacité de réparation (maintenance), analysefinancière (prévision), aide à la personne...Une première piste a été celle de l’apprentissagesymbolique (systèmes experts) consistant à déduire desdonnées un système à base de règles (diagnostic, arbresde décision...).

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 4: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

De l’apprentissage symbolique à l’apprentissagestatistique

L’explosion combinatoire du traitement des problèmesréels a rendu nécessaire la mise en oeuvre de"prétraitements statistiques".L’intégration de ces prétraitements dans le systèmed’apprentissage a conduit à considérer que l’apprentissageautomatique relève de la méthodologie statistique .Modélisation des systèmes naturels et de leur adaptation:

règle de Hebb (1949)perceptron de Rosenblatt (1957)machine de Hopfield (1982)perceptron multi-couche (Y.Le Cun, 1985; Rumelhart, 1986)

Vapnik (apprentissage statistique depuis 1971); Valiant(PAC-learning, 1984)...

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 5: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Outline

1 Introduction: Qu’est-ce que l’apprentissage automatique ?

2 Problématique de l’apprentissageApprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

3 Eléments d’apprentissage statistique

4 Sélection de modèles en apprentissage supervisé.

5 Conclusion

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 6: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Outline

1 Introduction: Qu’est-ce que l’apprentissage automatique ?

2 Problématique de l’apprentissageApprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

3 Eléments d’apprentissage statistique

4 Sélection de modèles en apprentissage supervisé.

5 Conclusion

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 7: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Apprentissage supervisé

ProblèmeModéliser un système entrée sortie f : E → F à partir d’unebase de n exemples L = X × Y avecX = (x1, ..., xn) ∈ En,Y = (y1, ..., yn) ∈ Fn

Le modèle construit est appelé "méta-modèle" ("surrogatemodel") ou modèle "boîte noire" car il n’utilise pas deconnaissances physiques, une fois donnés E et F .L’apprentissage s’impose quand le modèle physique n’estpas disponible ou qu’il est trop complexe pour être mis enoeuvre dans des processus itératifs nécessaires(optimisation): "modèles réduits" ("ROM: reduced order-model").

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 8: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Apprentissage supervisé et statistique

La fonction entrée-sortie du système, modélisée pary = ϕ(x), est une fonction aléatoire de E dans F ,Dans les problèmes stationnaires, l’entrée est supposéeêtre une variable aléatoire à valeurs dans E , dans ce casL = ((X1,Y1), ..., (Xn,Yn)) est un échantillon i.i.id. d’une loide probabilité P sur E × F ,Dans les problèmes de contrôle, les entrées peuvent êtrefournies par un processus aléatoire.

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 9: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Apprentissage supervisé:classification

DéfinitionEn classification, l’ensemble des sorties est un ensemble fini,typiquement pour la classification binaire F = {0,1}

Exemple: Arbres de décision (Quinlan79), (Breiman84) )Construction récursive de tests du type:

variable discrète Xi = ak ,variable continue Xi ≤ a

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 10: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Exemple d’arbre de décision

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 11: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Apprentissage supervisé: arbres de décision

DéfinitionEn classification, l’ensemble des sorties est un ensemble fini,typiquement pour la classification binaire F = {0,1}

Exemple: Arbres de décision (Quinlan79), (Breiman84) )Construction récursive de tests du type:

variable discrète Xi = ak ,variable continue Xi ≤ a

Choisir le test le plus discriminant: critère d’entropiemesurant le gain d’homogénétité dans les sous-arbresCritère d’arrêt

BilanPour: Intelligibilité / Contre: Complexité calculatoire,Extensions possibles (forêt) mais perte d’intelligibilité

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 12: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Apprentissage supervisé: régression

DéfinitionEn régression, l’ensemble des sorties est un sous-ensemblerégulier de Rp.

Exemple: Régression linéaireE = Rp,F = R. On choisit un système libre de prégresseurs de E dans F , {φ1, ..., φp}. On cherche desmodèles paramétrés par w ∈ W = Rp du typef (x ,w) =

∑pk=1 wkφk (x).

On forme la matrice (n,p) des régresseurs ℵ = (φk (xi)).Le méta-modèle w est donné par

w = arg minw‖ Y − ℵ.w ‖= ℵ(−1)Y (1)

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 13: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Apprentissage supervisé et approximation

Les techniques d’apprentissage peuvent être adaptéespour utiliser des connaissances physiques ("boîte grise").L’application de modèles physiques peut être subordonnéeà l’estimation statistique de certains paramètres (recalagede modèles).Des méthodes d’approximation numérique de modèlesphysique peuvent incorporer des techniques statistiques(maillages déstructurés, sparse grids).

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 14: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Outline

1 Introduction: Qu’est-ce que l’apprentissage automatique ?

2 Problématique de l’apprentissageApprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

3 Eléments d’apprentissage statistique

4 Sélection de modèles en apprentissage supervisé.

5 Conclusion

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 15: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Les objectifs de l’apprentissage non-supervisé.

L’apprentissage non supervisé est aussi appelé "analysede données" en statistique et fouille de données "datamining" en informatique".Le but est de faire de la compression de données utiles (nepas prendre en compte des particularités inutiles dans lesdonnées).Il ne s’agit pas seulement d’économiser du temps de calculou de l’espace mémoire mais d’éviter le surapprentissageet d’être robuste.L’apprentissage non-supervisé peut être utilisé commeprétraitement de l’apprentissage supervisé ou demodélisation physique (Galerkin-POD).Il peut aussi être utilisé pour obtenir une visualisationgraphique des données (2d or 3d)

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 16: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Analyse en composantes principales

ProblèmeSoit X = (x1; ...; xn) ∈ En un échantillon de taille n. TrouverU = (u1, ....,uq) q << p un système orthonormal of E solutionde min

∑ni=1 ‖ xi −

∑qj=1(xi | uj)uj ‖2

Solution fournie par l’algorithme SVD ou la décompositionsspectrale de X ∗X (matrice de covariance empirique sur unéchantillon centré).Choix de q (hyperparamètre)Le choix de la métrique de E peut être important (métriquede Mahalanobis: matrice de corrélation)

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 17: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Agrégation de données

On souhaite diviser l’espace des données E en k régionsreprésentatives de l’échantillon XChaque région Sj est représentée par un centroïde uj ∈ EChaque donnée est remplacée par le centroïde le plusproche ce qui induit une partition de E en k régions(partition de Voronoï)Les centroïdes sont choisis pour minimiser l’erreurquadratique totale sur l’échantillon.

ProblèmeTrouver (uj)j∈{1...k} qui minimiseSSE =

∑kj=1∑

i/xi∈Si‖ xi − uj ‖2 où (Sj) est la partition de

Voronoï associée à (uj)

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 18: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Algorithme des k-moyennes

Initialiser les k-moyennes (u0j )j∈{1...k}.

PUIS REPETER JUSQU’A CONVERGENCE1 Effectuer la partition de Voronoï (Sj)

n de X associée à (unj ).

2 Calculer les k-moyennes

∀j = 1...k ,un+1j =

1](Sn

j )

∑ui∈Sn

j

ui

La limite si elle existe vérifie l’équation des k -moyennes

∀j = 1...k ,uj =1

](Sj)

∑ui∈Sj

ui

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 19: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Estimation fonctionnelle

ProblèmeEstimer à partir de l’échantillon i.i.d. X la d.d.p. sous-jacente h

Une solution est donnée par l’algorithme des "fenêtres deParzen" où la loi empirique de l’échantillon est convoluée avecun noyau régularisant kσ:

h(x) =1n

n∑i=1

kσ(x − xi) with kσ(x) =1σ

k(xσ

)L’hyperparamètre σ est choisi en fonction de la taille del’échantillon : Il est petit si la taille de l’échantillon est grande etinversement. ce choix peut être local (voir agorithme à noyau).

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 20: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Outline

1 Introduction: Qu’est-ce que l’apprentissage automatique ?

2 Problématique de l’apprentissageApprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

3 Eléments d’apprentissage statistique

4 Sélection de modèles en apprentissage supervisé.

5 Conclusion

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 21: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Apprentissage par renforcement

La base d’apprentissage n’est pas constituée d’unéchantillon mais des entrées xi et des réponseszi = g(xi , yi) aux décisions yi de l ’apprenant.On combine donc un problème d’apprentissage du modèle(réponse du système) et le problème d’optimisation

φ(x) = arg miny

g(x , y)

Il faut résoudre le dilemme exploration-optimisation parune stratégie d’apprentissage.

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 22: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Outline

1 Introduction: Qu’est-ce que l’apprentissage automatique ?

2 Problématique de l’apprentissageApprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

3 Eléments d’apprentissage statistique

4 Sélection de modèles en apprentissage supervisé.

5 Conclusion

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 23: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Utilisation des méthodologies de l’optimisation

Apprentissage -> optimisation d’un objectif qui dépendd’une probabilité P à partir d’un échantillon X = (xi).Statistique : remplacer P par la loi empiriquePX = 1

n∑n

i=1 δxi

Consistance en statistique asymptotique: faire tendre nvers l’infini et vérifier la convergence de l’estimateurA revoir si la dimensionnalité du problème est granderelativement à la taille de l’échantillon.Les méthodologies de l’optimisation sont donc utilisées:

optimisation différentielle (gradient, second ordre, région deconfiance...)programmation linéaireoptimisation d’ordre 0optimisation stochastique

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 24: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Apprentissage en ligne

La base d’apprentissage peut arriver en flot de données,imposant à l’algorithme d’apprentissage d’être récursif(batch learning vs on-line learning)

xn =1n(x1 + ...+ xn)⇔ xn+1 = xn +

1n + 1

(xn+1 − xn)

L’algorithme de ”gradient stochastique" assure laconvergence d’une descente de gradient calculée en lignesur un échantillon vers un minimum local du risque moyen.L’apprentissage en ligne permet d’être réactif dans le choixdes données de la base d’apprentissage en fonction desrésultats partiels du processus.

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 25: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Outline

1 Introduction: Qu’est-ce que l’apprentissage automatique ?

2 Problématique de l’apprentissageApprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

3 Eléments d’apprentissage statistique

4 Sélection de modèles en apprentissage supervisé.

5 Conclusion

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 26: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Notations de l’apprentissage supervisé à risquequadratique

ProblèmeTrouver arg minw R(w) =

∫L(y , f (x ,w))dP(x , y) à partir de

l’échantillon L = {(xi , yi)i}

Dans le cas du risque quadratique L(y , z) = (y − z)2, on a

R(w) =

∫ {[f (x ,w)− E(Y | X = x)]2 + Var(Y | X = x)

}dPX (x)

On remplace le risque inconnu par le risque empiriqueRL(w) = 1

n∑n

i=1[yi − f (xi ,w)]2 et on obtient l’estimateurwL = arg minw RL(w)

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 27: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Dilemme biais-variance

EL[R(wL)] =∫ {

EL[f (x , wL)− E(Y | X = x)]2 + ...

EL[R(wL)] =∫ {

[EL(f (x , w)L)− E(Y | X = x)]2 + Var(f (x , w)L)) + ...

Le terme de biais | EL(f (x , w)L)− E(Y | X = x)] | diminuequand l’espace des modèles augmente (dimension deW).Le terme de variance Var(f (x , w)L)) augmente avec ladimension deW et diminue quand la taille n del’échantillon augmente

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 28: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Théorie de l’apprentissage et modèles parcimonieux

La théorie de l’apprentissage donne des indications pourrésoudre le dilemme biais-variance.Elle part du principe réaliste que la base d’apprentissageest de taille finie.Les premiers éléments (dimension de Vapnik, capacité dumodèle....) donnent des estimations d’erreur de pire cas.Plus récemment des algorithmes alternatifs de régressionont été étudiés sur un plan théorique (conférence F.Bach,27/01/12, ARF Stochastique).Des recherches dérivées de l’analyse numériquefournissent des espaces de modèles parcimonieux (sparsegrids) alternatifs aux modèles ajustables (RN)Les sélections de modèles par étude empirique etsimulation restent indispensables.

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 29: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Régularisation ( "ridge regression")

DéfinitionL’approche par régularisation de Tikhonov (ou ridge regresson)consiste à pénaliser la norme quadratique du paramètre duméta-modèle. La fonction à minimiser est donc:

F (X ,w) = R(X ,w) + λ ‖ w ‖2

Deux hyperparamètres doivent être choisis:a) la norme de l’hyperparamètre (pas nécessairementisotrope) qui dépend du type de méta-modèle,b) le coefficient λ qui dépend de la taille de l’échantillon

Le dilemme biais-variance est résolu par une estimationbayésienne attribuant à w une distribution a priorigaussienne.

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 30: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Robustesse

La minimisation du risque associé à la fonction de perteL(y , x) =| y − f (x) |2 est l’estimateur du maximum devraisemblance dans le cas d’un bruit additif gaussienOn a f (x) = arg minf

∫L(y , x)dPY |X=x(y) = E(Y | X = x)

La minimisation du risque associé à la fonction de perteL(y , x) =| y − f (x) | est un estimateur plus robuste mais saminimisation est plus longue (dérivée directionnelle)f (x) = arg minf

∫L(y , x)dPY |X=x(y) est la médiane de la loi

conditionnelle : P(Y > f (x) | X = x) = 12

La fonction de perte des SVR est la fonction de perteε-insensitive à queue linéaire:

L(y , x) =| y − f (x) | 1|y−f (x)|≥ε

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 31: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Régression lasso

La régression lasso impose la contrainte de parcimonie‖ w ‖1≤ h qui revient à adopter une fonction derégularisation non partout différentiable.

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 32: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Outline

1 Introduction: Qu’est-ce que l’apprentissage automatique ?

2 Problématique de l’apprentissageApprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

3 Eléments d’apprentissage statistique

4 Sélection de modèles en apprentissage supervisé.

5 Conclusion

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 33: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Validation croisée ("Jacknife")

RL(wL) n’est pas représentatif de R(wL).La seule minimisation de l’erreur d’apprentissage conduitau surajustement des modèles.L’estimation de l’erreur se fait en scindant (jacknife) la basede données en une base d’apprentissage et une base detest T pour estimer l’erreur de généralisation du modèle.Pour considérer une base d’apprentissage suffisante, onsélectionne plusieurs fois des bases de test de taille petite(cross-validation, leave-one-out) et on fait la moyenne.Ce procédé permet de tester la capacité de l’ensemble desmodèles et de dimensionner les hyperparamètres (voirG.Dreyfus)

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 34: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Rééchantillonnage ("Bootstrap")

L’estimation idéale de l’erreur de généralisation dépend dela distribution inconnue P, l’idée du bootstrap est deremplacer dans toutes les estimations P par la distributionempirique PZ associée à l’échantillon disponible Z.L’apprentissage se fait donc sur un échantillon bootstrappéZ∗ de la distribution PZ .L’erreur de généralisation R(wZ) est donc estimée parRZ(wZ∗)

La variance de cette estimation peut être réduite parrépétition de k procédures et moyenne des résultats.

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 35: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Mélange adaptatif de modèles: (Boosting)

Pondérer les exemples par une difficulté d’apprentissageremise à jour sur l’apprentissage précédent à partir d’unindice de sa qualité globale,Reprendre un nouvel apprentissage avec la pondérationmise à jour, soit directement, soit au moyen d’unéchantillon bootstrappé,Agréger les modèles appris en les pondérant par leurindice de qualité.Les mélanges de modèles peuvent ausi être locaux (voirD.Bettebghor EM)

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 36: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Pistes de progrès

La construction de modèles réduits ou méta-modèles s’estdéveloppée en se nourrissant des progrès récents del’optimisation et ses différentes branches (LP, gradient,ordre 0, stochastique).La prise en considération de la taille de l’échantillon, lecaractère adaptatif et actif de l’apprentissage sont desprogrès relativement aux techniques statistiquesclassiques.La multiplicité des modèles, l’interaction croissante desdifférentes phases d’un projet industriel conduit à mettrel’accent sur les techniques d’agrégation des modèlesL’importance croissante des méta-modèles en simulationet en optimisation numérique conduit à approfondir lesrelations entre approximation nmuérique et statistique

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 37: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Appendix For Further Reading

For Further Reading I

Francis Bach.NIPS Tutorial on Sparse methods for machine learning(Theory and algorithms),2009.

Gérard Dreyfus, Jean-Marc Martinez, Manuel Samuelides,Mirta B. Gordon, Fouad Badran, Sylvie ThiriaApprentissage statistique: Réseaux de neurones - Cartestopologiques - Machines à vecteurs supports,Eyrolles, 2008.

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles

Page 38: Apprentissage statistique pour construire des méta-modèles janvier/M... · Eléments d’apprentissage statistique Sélection de modèles en apprentissage supervisé. Conclusion

Appendix For Further Reading

For Further Reading II

M. I. Jordan, L. Xu.Convergence results for the EM approach to mixtures ofexperts architectures,Neural Networks, 8, 1409-1431, 1995.

Joseph K. Bradley, Robert E. SchapireFilterBoost: Regression and classification on largedatasets,Advances in Neural Information Processing Systems 20,2008.

Vladimir VapnikThe nature of statistical learning theorySpringer, 1995.

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles