apprentissage statistique pour construire des méta-modèles janvier/m... · eléments...

Introduction: Qu’est-ce que l’apprentissage automatique ?Problématique de l’apprentissage

Eléments d’apprentissage statistiqueSélection de modèles en apprentissage supervisé.

Conclusion

Apprentissage statistique pour construire desméta-modèles

Manuel Samuelides

ONERA/ Institut Supérieur de l’Aéronautique et de l’Espace

Manuel Samuelides Apprentissage statistique pour construire des méta-modèles



Conclusion

Outline

1 Introduction: Qu’est-ce que l’apprentissage automatique ?

2 Problématique de l’apprentissageApprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

3 Eléments d’apprentissage statistique

4 Sélection de modèles en apprentissage supervisé.

5 Conclusion




Conclusion

Apprentissage automatique ("machine learning")

L’apprentissage automatique fait partie de l’intelligenceartificielle.Il s’agit de doter la machine de capacités d’apprentissage,i.e. capacités d’évoluer en intégrant des données utilesfournies par l’environnement.Exemples: lecture automatique, capacité de mobilité dansun environnement complexe (robotique), exploration duWeb, capacité de réparation (maintenance), analysefinancière (prévision), aide à la personne...Une première piste a été celle de l’apprentissagesymbolique (systèmes experts) consistant à déduire desdonnées un système à base de règles (diagnostic, arbresde décision...).




Conclusion

De l’apprentissage symbolique à l’apprentissagestatistique

L’explosion combinatoire du traitement des problèmesréels a rendu nécessaire la mise en oeuvre de"prétraitements statistiques".L’intégration de ces prétraitements dans le systèmed’apprentissage a conduit à considérer que l’apprentissageautomatique relève de la méthodologie statistique .Modélisation des systèmes naturels et de leur adaptation:

règle de Hebb (1949)perceptron de Rosenblatt (1957)machine de Hopfield (1982)perceptron multi-couche (Y.Le Cun, 1985; Rumelhart, 1986)

Vapnik (apprentissage statistique depuis 1971); Valiant(PAC-learning, 1984)...




Conclusion

Apprentissage superviséApprentissage non superviséApprentissage par renforcementMéthodologies utiles

Outline





5 Conclusion




Conclusion


Apprentissage supervisé

ProblèmeModéliser un système entrée sortie f : E → F à partir d’unebase de n exemples L = X × Y avecX = (x1, ..., xn) ∈ En,Y = (y1, ..., yn) ∈ Fn

Le modèle construit est appelé "méta-modèle" ("surrogatemodel") ou modèle "boîte noire" car il n’utilise pas deconnaissances physiques, une fois donnés E et F .L’apprentissage s’impose quand le modèle physique n’estpas disponible ou qu’il est trop complexe pour être mis enoeuvre dans des processus itératifs nécessaires(optimisation): "modèles réduits" ("ROM: reduced order-model").




Conclusion


Apprentissage supervisé et statistique

La fonction entrée-sortie du système, modélisée pary = ϕ(x), est une fonction aléatoire de E dans F ,Dans les problèmes stationnaires, l’entrée est supposéeêtre une variable aléatoire à valeurs dans E , dans ce casL = ((X1,Y1), ..., (Xn,Yn)) est un échantillon i.i.id. d’une loide probabilité P sur E × F ,Dans les problèmes de contrôle, les entrées peuvent êtrefournies par un processus aléatoire.




Conclusion


Apprentissage supervisé:classification

DéfinitionEn classification, l’ensemble des sorties est un ensemble fini,typiquement pour la classification binaire F = {0,1}

Exemple: Arbres de décision (Quinlan79), (Breiman84) )Construction récursive de tests du type:

variable discrète Xi = ak ,variable continue Xi ≤ a




Conclusion


Exemple d’arbre de décision




Conclusion


Apprentissage supervisé: arbres de décision

DéfinitionEn classification, l’ensemble des sorties est un ensemble fini,typiquement pour la classification binaire F = {0,1}

Exemple: Arbres de décision (Quinlan79), (Breiman84) )Construction récursive de tests du type:

variable discrète Xi = ak ,variable continue Xi ≤ a

Choisir le test le plus discriminant: critère d’entropiemesurant le gain d’homogénétité dans les sous-arbresCritère d’arrêt

BilanPour: Intelligibilité / Contre: Complexité calculatoire,Extensions possibles (forêt) mais perte d’intelligibilité




Conclusion


Apprentissage supervisé: régression

DéfinitionEn régression, l’ensemble des sorties est un sous-ensemblerégulier de Rp.

Exemple: Régression linéaireE = Rp,F = R. On choisit un système libre de prégresseurs de E dans F , {φ1, ..., φp}. On cherche desmodèles paramétrés par w ∈ W = Rp du typef (x ,w) =

∑pk=1 wkφk (x).

On forme la matrice (n,p) des régresseurs ℵ = (φk (xi)).Le méta-modèle w est donné par

w = arg minw‖ Y − ℵ.w ‖= ℵ(−1)Y (1)




Conclusion


Apprentissage supervisé et approximation

Les techniques d’apprentissage peuvent être adaptéespour utiliser des connaissances physiques ("boîte grise").L’application de modèles physiques peut être subordonnéeà l’estimation statistique de certains paramètres (recalagede modèles).Des méthodes d’approximation numérique de modèlesphysique peuvent incorporer des techniques statistiques(maillages déstructurés, sparse grids).




Conclusion


Outline





5 Conclusion




Conclusion


Les objectifs de l’apprentissage non-supervisé.

L’apprentissage non supervisé est aussi appelé "analysede données" en statistique et fouille de données "datamining" en informatique".Le but est de faire de la compression de données utiles (nepas prendre en compte des particularités inutiles dans lesdonnées).Il ne s’agit pas seulement d’économiser du temps de calculou de l’espace mémoire mais d’éviter le surapprentissageet d’être robuste.L’apprentissage non-supervisé peut être utilisé commeprétraitement de l’apprentissage supervisé ou demodélisation physique (Galerkin-POD).Il peut aussi être utilisé pour obtenir une visualisationgraphique des données (2d or 3d)




Conclusion


Analyse en composantes principales

ProblèmeSoit X = (x1; ...; xn) ∈ En un échantillon de taille n. TrouverU = (u1, ....,uq) q << p un système orthonormal of E solutionde min

∑ni=1 ‖ xi −

∑qj=1(xi | uj)uj ‖2

Solution fournie par l’algorithme SVD ou la décompositionsspectrale de X ∗X (matrice de covariance empirique sur unéchantillon centré).Choix de q (hyperparamètre)Le choix de la métrique de E peut être important (métriquede Mahalanobis: matrice de corrélation)




Conclusion


Agrégation de données

On souhaite diviser l’espace des données E en k régionsreprésentatives de l’échantillon XChaque région Sj est représentée par un centroïde uj ∈ EChaque donnée est remplacée par le centroïde le plusproche ce qui induit une partition de E en k régions(partition de Voronoï)Les centroïdes sont choisis pour minimiser l’erreurquadratique totale sur l’échantillon.

ProblèmeTrouver (uj)j∈{1...k} qui minimiseSSE =

∑kj=1∑

i/xi∈Si‖ xi − uj ‖2 où (Sj) est la partition de

Voronoï associée à (uj)




Conclusion


Algorithme des k-moyennes

Initialiser les k-moyennes (u0j )j∈{1...k}.

PUIS REPETER JUSQU’A CONVERGENCE1 Effectuer la partition de Voronoï (Sj)

n de X associée à (unj ).

2 Calculer les k-moyennes

∀j = 1...k ,un+1j =

1](Sn

j )

∑ui∈Sn

j

ui

La limite si elle existe vérifie l’équation des k -moyennes

∀j = 1...k ,uj =1

](Sj)

∑ui∈Sj

ui




Conclusion


Estimation fonctionnelle

ProblèmeEstimer à partir de l’échantillon i.i.d. X la d.d.p. sous-jacente h

Une solution est donnée par l’algorithme des "fenêtres deParzen" où la loi empirique de l’échantillon est convoluée avecun noyau régularisant kσ:

h(x) =1n

n∑i=1

kσ(x − xi) with kσ(x) =1σ

k(xσ

)L’hyperparamètre σ est choisi en fonction de la taille del’échantillon : Il est petit si la taille de l’échantillon est grande etinversement. ce choix peut être local (voir agorithme à noyau).




Conclusion


Outline





5 Conclusion




Conclusion


Apprentissage par renforcement

La base d’apprentissage n’est pas constituée d’unéchantillon mais des entrées xi et des réponseszi = g(xi , yi) aux décisions yi de l ’apprenant.On combine donc un problème d’apprentissage du modèle(réponse du système) et le problème d’optimisation

φ(x) = arg miny

g(x , y)

Il faut résoudre le dilemme exploration-optimisation parune stratégie d’apprentissage.




Conclusion


Outline





5 Conclusion




Conclusion


Utilisation des méthodologies de l’optimisation

Apprentissage -> optimisation d’un objectif qui dépendd’une probabilité P à partir d’un échantillon X = (xi).Statistique : remplacer P par la loi empiriquePX = 1

n∑n

i=1 δxi

Consistance en statistique asymptotique: faire tendre nvers l’infini et vérifier la convergence de l’estimateurA revoir si la dimensionnalité du problème est granderelativement à la taille de l’échantillon.Les méthodologies de l’optimisation sont donc utilisées:

optimisation différentielle (gradient, second ordre, région deconfiance...)programmation linéaireoptimisation d’ordre 0optimisation stochastique




Conclusion


Apprentissage en ligne

La base d’apprentissage peut arriver en flot de données,imposant à l’algorithme d’apprentissage d’être récursif(batch learning vs on-line learning)

xn =1n(x1 + ...+ xn)⇔ xn+1 = xn +

1n + 1

(xn+1 − xn)

L’algorithme de ”gradient stochastique" assure laconvergence d’une descente de gradient calculée en lignesur un échantillon vers un minimum local du risque moyen.L’apprentissage en ligne permet d’être réactif dans le choixdes données de la base d’apprentissage en fonction desrésultats partiels du processus.




Conclusion

Outline





5 Conclusion




Conclusion

Notations de l’apprentissage supervisé à risquequadratique

ProblèmeTrouver arg minw R(w) =

∫L(y , f (x ,w))dP(x , y) à partir de

l’échantillon L = {(xi , yi)i}

Dans le cas du risque quadratique L(y , z) = (y − z)2, on a

R(w) =

∫ {[f (x ,w)− E(Y | X = x)]2 + Var(Y | X = x)

}dPX (x)

On remplace le risque inconnu par le risque empiriqueRL(w) = 1

n∑n

i=1[yi − f (xi ,w)]2 et on obtient l’estimateurwL = arg minw RL(w)




Conclusion

Dilemme biais-variance

EL[R(wL)] =∫ {

EL[f (x , wL)− E(Y | X = x)]2 + ...

EL[R(wL)] =∫ {

[EL(f (x , w)L)− E(Y | X = x)]2 + Var(f (x , w)L)) + ...

Le terme de biais | EL(f (x , w)L)− E(Y | X = x)] | diminuequand l’espace des modèles augmente (dimension deW).Le terme de variance Var(f (x , w)L)) augmente avec ladimension deW et diminue quand la taille n del’échantillon augmente




Conclusion

Théorie de l’apprentissage et modèles parcimonieux

La théorie de l’apprentissage donne des indications pourrésoudre le dilemme biais-variance.Elle part du principe réaliste que la base d’apprentissageest de taille finie.Les premiers éléments (dimension de Vapnik, capacité dumodèle....) donnent des estimations d’erreur de pire cas.Plus récemment des algorithmes alternatifs de régressionont été étudiés sur un plan théorique (conférence F.Bach,27/01/12, ARF Stochastique).Des recherches dérivées de l’analyse numériquefournissent des espaces de modèles parcimonieux (sparsegrids) alternatifs aux modèles ajustables (RN)Les sélections de modèles par étude empirique etsimulation restent indispensables.




Conclusion

Régularisation ( "ridge regression")

DéfinitionL’approche par régularisation de Tikhonov (ou ridge regresson)consiste à pénaliser la norme quadratique du paramètre duméta-modèle. La fonction à minimiser est donc:

F (X ,w) = R(X ,w) + λ ‖ w ‖2

Deux hyperparamètres doivent être choisis:a) la norme de l’hyperparamètre (pas nécessairementisotrope) qui dépend du type de méta-modèle,b) le coefficient λ qui dépend de la taille de l’échantillon

Le dilemme biais-variance est résolu par une estimationbayésienne attribuant à w une distribution a priorigaussienne.




Conclusion

Robustesse

La minimisation du risque associé à la fonction de perteL(y , x) =| y − f (x) |2 est l’estimateur du maximum devraisemblance dans le cas d’un bruit additif gaussienOn a f (x) = arg minf

∫L(y , x)dPY |X=x(y) = E(Y | X = x)

La minimisation du risque associé à la fonction de perteL(y , x) =| y − f (x) | est un estimateur plus robuste mais saminimisation est plus longue (dérivée directionnelle)f (x) = arg minf

∫L(y , x)dPY |X=x(y) est la médiane de la loi

conditionnelle : P(Y > f (x) | X = x) = 12

La fonction de perte des SVR est la fonction de perteε-insensitive à queue linéaire:

L(y , x) =| y − f (x) | 1|y−f (x)|≥ε




Conclusion

Régression lasso

La régression lasso impose la contrainte de parcimonie‖ w ‖1≤ h qui revient à adopter une fonction derégularisation non partout différentiable.




Conclusion

Outline





5 Conclusion




Conclusion

Validation croisée ("Jacknife")

RL(wL) n’est pas représentatif de R(wL).La seule minimisation de l’erreur d’apprentissage conduitau surajustement des modèles.L’estimation de l’erreur se fait en scindant (jacknife) la basede données en une base d’apprentissage et une base detest T pour estimer l’erreur de généralisation du modèle.Pour considérer une base d’apprentissage suffisante, onsélectionne plusieurs fois des bases de test de taille petite(cross-validation, leave-one-out) et on fait la moyenne.Ce procédé permet de tester la capacité de l’ensemble desmodèles et de dimensionner les hyperparamètres (voirG.Dreyfus)




Conclusion

Rééchantillonnage ("Bootstrap")

L’estimation idéale de l’erreur de généralisation dépend dela distribution inconnue P, l’idée du bootstrap est deremplacer dans toutes les estimations P par la distributionempirique PZ associée à l’échantillon disponible Z.L’apprentissage se fait donc sur un échantillon bootstrappéZ∗ de la distribution PZ .L’erreur de généralisation R(wZ) est donc estimée parRZ(wZ∗)

La variance de cette estimation peut être réduite parrépétition de k procédures et moyenne des résultats.




Conclusion

Mélange adaptatif de modèles: (Boosting)

Pondérer les exemples par une difficulté d’apprentissageremise à jour sur l’apprentissage précédent à partir d’unindice de sa qualité globale,Reprendre un nouvel apprentissage avec la pondérationmise à jour, soit directement, soit au moyen d’unéchantillon bootstrappé,Agréger les modèles appris en les pondérant par leurindice de qualité.Les mélanges de modèles peuvent ausi être locaux (voirD.Bettebghor EM)




Conclusion

Pistes de progrès

La construction de modèles réduits ou méta-modèles s’estdéveloppée en se nourrissant des progrès récents del’optimisation et ses différentes branches (LP, gradient,ordre 0, stochastique).La prise en considération de la taille de l’échantillon, lecaractère adaptatif et actif de l’apprentissage sont desprogrès relativement aux techniques statistiquesclassiques.La multiplicité des modèles, l’interaction croissante desdifférentes phases d’un projet industriel conduit à mettrel’accent sur les techniques d’agrégation des modèlesL’importance croissante des méta-modèles en simulationet en optimisation numérique conduit à approfondir lesrelations entre approximation nmuérique et statistique


Appendix For Further Reading

For Further Reading I

Francis Bach.NIPS Tutorial on Sparse methods for machine learning(Theory and algorithms),2009.

Gérard Dreyfus, Jean-Marc Martinez, Manuel Samuelides,Mirta B. Gordon, Fouad Badran, Sylvie ThiriaApprentissage statistique: Réseaux de neurones - Cartestopologiques - Machines à vecteurs supports,Eyrolles, 2008.


Appendix For Further Reading

For Further Reading II

M. I. Jordan, L. Xu.Convergence results for the EM approach to mixtures ofexperts architectures,Neural Networks, 8, 1409-1431, 1995.

Joseph K. Bradley, Robert E. SchapireFilterBoost: Regression and classification on largedatasets,Advances in Neural Information Processing Systems 20,2008.

Vladimir VapnikThe nature of statistical learning theorySpringer, 1995.


apprentissage statistique pour construire des méta-modèles janvier/m... · eléments...

Documents