fabrice rossi telecom paristech mai/juin 2009 · 8 / 122 f. rossi introduction et modélisation...

241
Apprentissage supervisé Fabrice Rossi TELECOM ParisTech Mai/Juin 2009

Upload: others

Post on 01-Jun-2020

10 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Apprentissage supervisé

Fabrice Rossi

TELECOM ParisTech

Mai/Juin 2009

Page 2: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

PlanIntroduction et modélisation mathématique

Apprentissage superviséQualité d’un modèle

RégressionRégression linéaireRégularisationNon linéaire

DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire

Sélection de modèle

2 / 122 F. Rossi

Page 3: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

PlanIntroduction et modélisation mathématique

Apprentissage superviséQualité d’un modèle

RégressionRégression linéaireRégularisationNon linéaire

DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire

Sélection de modèle

3 / 122 F. Rossi Introduction et modélisation mathématique

Page 4: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Apprentissage automatiqueDéfinition informelle

1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle

le tout automatiquement (sans intervention humaine)

Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :

1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.

2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y

4 / 122 F. Rossi Introduction et modélisation mathématique

Page 5: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Apprentissage automatiqueDéfinition informelle

1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle

le tout automatiquement (sans intervention humaine)

Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Z

deux grandes catégories de données :1. cas non supervisé :

• pas de structure interne à z• classification, règles d’association, etc.

2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y

4 / 122 F. Rossi Introduction et modélisation mathématique

Page 6: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Apprentissage automatiqueDéfinition informelle

1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle

le tout automatiquement (sans intervention humaine)

Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :

1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.

2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y

4 / 122 F. Rossi Introduction et modélisation mathématique

Page 7: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Apprentissage automatiqueDéfinition informelle

1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle

le tout automatiquement (sans intervention humaine)

Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :

1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.

2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y

4 / 122 F. Rossi Introduction et modélisation mathématique

Page 8: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Apprentissage supervisédiscrimination/classement :• Y = {1, . . . ,q} : q classes d’objets• prévision : placer une nouvelle observation x dans une des

q classes• applications : diagnostic médical (malade/sain),

reconnaissance de caractères, etc.

ranking/scoring :• apprendre un ordre sur un ensemble d’objets• prévision : donner des objets intéressants (grands au sens

de l’ordre) ; dire si un objet est plus intéressant qu’un autre ;donne un score d’intérêt à un objet

• Y = {0,1} : 1 pour intéressant, 0 pour inintéressant• autres choix possibles pour Y (par ex. R ou tout ensemble

ordonné)• applications : recherche d’informations (page rank de

Google), suggestions (amazon, netflix)

5 / 122 F. Rossi Introduction et modélisation mathématique

Page 9: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Apprentissage supervisédiscrimination/classement :• Y = {1, . . . ,q} : q classes d’objets• prévision : placer une nouvelle observation x dans une des

q classes• applications : diagnostic médical (malade/sain),

reconnaissance de caractères, etc.ranking/scoring :• apprendre un ordre sur un ensemble d’objets• prévision : donner des objets intéressants (grands au sens

de l’ordre) ; dire si un objet est plus intéressant qu’un autre ;donne un score d’intérêt à un objet

• Y = {0,1} : 1 pour intéressant, 0 pour inintéressant• autres choix possibles pour Y (par ex. R ou tout ensemble

ordonné)• applications : recherche d’informations (page rank de

Google), suggestions (amazon, netflix)

5 / 122 F. Rossi Introduction et modélisation mathématique

Page 10: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Apprentissage supervisé

régression :• Y = R ou Y = Rp

• prévision : associer une valeur numérique à une nouvelleobservation

• applications : certaines formes de scoring (note d’un objet,d’un consommateur), prévisions de la valeur future d’uneaction, etc.

sortie structurée :• Y est un ensemble structuré complexe : ensemble de

fonctions, chaînes de caractères, arbres, graphes, etc.• prévision : associer un objet de l’ensemble complexe à une

nouvelle observation• application : inférence grammaticale (associer un arbre de

syntaxe à un texte), traduction automatique, etc.

6 / 122 F. Rossi Introduction et modélisation mathématique

Page 11: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Apprentissage supervisé

régression :• Y = R ou Y = Rp

• prévision : associer une valeur numérique à une nouvelleobservation

• applications : certaines formes de scoring (note d’un objet,d’un consommateur), prévisions de la valeur future d’uneaction, etc.

sortie structurée :• Y est un ensemble structuré complexe : ensemble de

fonctions, chaînes de caractères, arbres, graphes, etc.• prévision : associer un objet de l’ensemble complexe à une

nouvelle observation• application : inférence grammaticale (associer un arbre de

syntaxe à un texte), traduction automatique, etc.

6 / 122 F. Rossi Introduction et modélisation mathématique

Page 12: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Vocabulaire

x : variables explicatives (espace associé X )y : variable à expliquer (espace associé Y)un modèle g : une fonction de X dans Yg(x) est la prédiction/prévision du modèle pour l’entrée xl’ensemble des données à partir desquelles on construit lemodèle est l’ensemble d’apprentissagecollisions Français et Anglais :

Français AnglaisClassification ClusteringClassement Classification ou ranking

Discrimination Classification

7 / 122 F. Rossi Introduction et modélisation mathématique

Page 13: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Buts

buts principaux :• obtenir un « bon » modèle : la prévision obtenue est proche

de la vraie valeur• obtenir rapidement un modèle rapide : temps de

construction du modèle et temps nécessaire à l’obtentiond’une prévision

• pouvoir garantir les performances : avec une probabilité de1− r , la prévision sera bonne à ε près

buts annexes :• obtenir un modèle compréhensible : comment le modèle

prend il une décision ?• obtenir un modèle modifiable : pouvoir prendre en compte

de nouvelles données, s’adapter à un environnementchangeant, etc.

8 / 122 F. Rossi Introduction et modélisation mathématique

Page 14: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Erreur de prédictionQu’est-ce qu’une bonne prédiction ?

on considère une observation z = (x , y) et une prédictiong(x) faite par un modèlela qualité de g(x) peut être mesurée par une dissimilarité ldéfinie sur Y : l(g(x), y) doit être petitl est le critère d’erreur :• régression :

• distances classiques sur Rp

• en général ‖g(x)− y‖2 et parfois |g(x)− y | dans R pour lesméthodes de régression dites robustes

• discrimination :• décompte des erreurs : δg(x) 6=y• matrice des coûts de confusion : par ex. prédire g(x) = 1

alors que y = 0 peut être plus coûteux que prédire g(x) = 0quand y = 1 (diagnostic médical)

9 / 122 F. Rossi Introduction et modélisation mathématique

Page 15: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Erreur d’un modèleQu’est-ce qu’un bon modèle ?

Vision « naïve » :• données d’évaluation TM = (xi , yi )

Mi=1

• l est le critère d’erreur dans Y• l’erreur du modèle g est donnée par

L(g; TM) =1M

M∑i=1

l(g(xi ), yi )

• erreur du modèle : moyenne des erreurs de prédiction• erreur empirique

interprétation intuitive :• exigence raisonnable : ne pas se tromper en moyenne• la moyenne résume bien la dispersion des erreurs

10 / 122 F. Rossi Introduction et modélisation mathématique

Page 16: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Erreur d’un modèleQu’est-ce qu’un bon modèle ?

Vision « naïve » :• données d’évaluation TM = (xi , yi )

Mi=1

• l est le critère d’erreur dans Y• l’erreur du modèle g est donnée par

L(g; TM) =1M

M∑i=1

l(g(xi ), yi )

• erreur du modèle : moyenne des erreurs de prédiction• erreur empirique

interprétation intuitive :• exigence raisonnable : ne pas se tromper en moyenne• la moyenne résume bien la dispersion des erreurs

10 / 122 F. Rossi Introduction et modélisation mathématique

Page 17: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Erreur d’un modèleQu’est-ce qu’un bon modèle ?

modélisation statistique du processus :• on suppose que le phénomène étudié est engendré par

une loi de probabilité P inconnue sur X × Y• chaque couple observé (x , y) est tiré aléatoirement selon P

l’erreur du modèle g est donnée par

L(g) = EP{l(g(x), y)}

c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des donnéesremarque : le calcul exact de L(g) est impossible car P estinconnue

11 / 122 F. Rossi Introduction et modélisation mathématique

Page 18: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Erreur d’un modèleQu’est-ce qu’un bon modèle ?

modélisation statistique du processus :• on suppose que le phénomène étudié est engendré par

une loi de probabilité P inconnue sur X × Y• chaque couple observé (x , y) est tiré aléatoirement selon P

l’erreur du modèle g est donnée par

L(g) = EP{l(g(x), y)}

c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des données

remarque : le calcul exact de L(g) est impossible car P estinconnue

11 / 122 F. Rossi Introduction et modélisation mathématique

Page 19: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Erreur d’un modèleQu’est-ce qu’un bon modèle ?

modélisation statistique du processus :• on suppose que le phénomène étudié est engendré par

une loi de probabilité P inconnue sur X × Y• chaque couple observé (x , y) est tiré aléatoirement selon P

l’erreur du modèle g est donnée par

L(g) = EP{l(g(x), y)}

c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des donnéesremarque : le calcul exact de L(g) est impossible car P estinconnue

11 / 122 F. Rossi Introduction et modélisation mathématique

Page 20: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Justifications

pourquoi de l’aléatoire ?• bruit dans les observations• données incomplètes• variabilité naturelle

pourquoi une distribution P fixée ?• stationnarité• condition nécessaire à l’inférence : si un phénomène

change constamment, on ne peut pas le prédire• extensions possibles aux variations lentes

pourquoi l’espérance ?• naturelle dans un cadre statistique• pour s’affranchir de la variabilité des nouvelles observations

12 / 122 F. Rossi Introduction et modélisation mathématique

Page 21: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Pratique vs statistiquela loi des grands nombres dit que

limN→∞

1N

N∑i=1

Ui = E(U)

quand les Ui sont indépendantes et distribuées comme Usi les données d’évaluation TM = (xi , yi)

Mi=1 sont

distribuées selon P et indépendantes, alors

limM→∞

L(g; TM) = L(g)

indépendance statistique ?• (xi , yi ) est choisie sans rien savoir des tirages précédents• chaque observation (xi , yi ) apporte de nouvelles

informations

13 / 122 F. Rossi Introduction et modélisation mathématique

Page 22: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Pratique vs statistiquela loi des grands nombres dit que

limN→∞

1N

N∑i=1

Ui = E(U)

quand les Ui sont indépendantes et distribuées comme Usi les données d’évaluation TM = (xi , yi)

Mi=1 sont

distribuées selon P et indépendantes, alors

limM→∞

L(g; TM) = L(g)

indépendance statistique ?• (xi , yi ) est choisie sans rien savoir des tirages précédents• chaque observation (xi , yi ) apporte de nouvelles

informations

13 / 122 F. Rossi Introduction et modélisation mathématique

Page 23: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Interprétation

comment interpréter L(g) ?• on considère M observations (xi , yi )

Mi=1

• on calcule

L(g; (xi , yi )Mi=1) =

1M

M∑i=1

l(g(xi ), yi )

• alors pour M « grand », L(g; (xi , yi )Mi=1) ' L(g)

remarque :• en discrimination, Y = {1, . . . ,q}• si l(g(x), y) = δg(x) 6=y , alors la qualité

L(g) = EP{l(g(x), y)} = P(g(x) 6= y)

correspond à la probabilité d’erreur de classement

14 / 122 F. Rossi Introduction et modélisation mathématique

Page 24: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Interprétation

comment interpréter L(g) ?• on considère M observations (xi , yi )

Mi=1

• on calcule

L(g; (xi , yi )Mi=1) =

1M

M∑i=1

l(g(xi ), yi )

• alors pour M « grand », L(g; (xi , yi )Mi=1) ' L(g)

remarque :• en discrimination, Y = {1, . . . ,q}• si l(g(x), y) = δg(x) 6=y , alors la qualité

L(g) = EP{l(g(x), y)} = P(g(x) 6= y)

correspond à la probabilité d’erreur de classement

14 / 122 F. Rossi Introduction et modélisation mathématique

Page 25: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Interprétationpar exemple en discrimination à deux classes, avecL(g) = 0.1 :• la probabilité de se tromper de classe est de 10 %• en moyenne sur un grand nombre d’observations, on se

trompera une fois sur dix• cela n’exclut pas de se tromper 5 fois de suite, la probabilité

est simplement faible :• 1 chance sur cent mille• si on répète de très nombreuses fois le tirage de 5

observations, alors on se trompera sur les 5 observationsseulement dans un cas sur cent mille en moyenne

on peut donner des intervalles de confiance surL(g; (xi , yi)

Mi=1) autour de L(g) en fonction de M de la forme

P{∣∣∣L(g; (xi , yi)

Mi=1)− L(g)

∣∣∣ > ε}< 1− δ

15 / 122 F. Rossi Introduction et modélisation mathématique

Page 26: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Interprétationpar exemple en discrimination à deux classes, avecL(g) = 0.1 :• la probabilité de se tromper de classe est de 10 %• en moyenne sur un grand nombre d’observations, on se

trompera une fois sur dix• cela n’exclut pas de se tromper 5 fois de suite, la probabilité

est simplement faible :• 1 chance sur cent mille• si on répète de très nombreuses fois le tirage de 5

observations, alors on se trompera sur les 5 observationsseulement dans un cas sur cent mille en moyenne

on peut donner des intervalles de confiance surL(g; (xi , yi)

Mi=1) autour de L(g) en fonction de M de la forme

P{∣∣∣L(g; (xi , yi)

Mi=1)− L(g)

∣∣∣ > ε}< 1− δ

15 / 122 F. Rossi Introduction et modélisation mathématique

Page 27: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Généralisation

Définition informelleL’erreur en généralisation d’un modèle est celle des prédictionsobtenues sur des nouvelles observations

notion cruciale en apprentissage supervisémathématiquement, il s’agit simplement de L(g)

problème fondamental : comment estimer l’erreur engénéralisation alors qu’on ne connaît pas P ?loi des grands nombres ?

16 / 122 F. Rossi Introduction et modélisation mathématique

Page 28: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Problème d’estimation

processus d’apprentissage :• ensemble d’apprentissage : N observationsDN = (xi , yi )

Ni=1, distribuées selon P et indépendantes

• l’algorithme choisi construit un modèle g qui dépend de DN

que dire de

L(g; (xi , yi)Ni=1) =

1N

N∑i=1

l(g(xi), yi)

rien (simplement) car la loi des grands nombres nes’applique pas ici :• les (xi , yi ) sont indépendants• mais les l(g(xi ), yi ) ne le sont pas à cause de g

17 / 122 F. Rossi Introduction et modélisation mathématique

Page 29: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Problème d’estimation

processus d’apprentissage :• ensemble d’apprentissage : N observationsDN = (xi , yi )

Ni=1, distribuées selon P et indépendantes

• l’algorithme choisi construit un modèle g qui dépend de DN

que dire de

L(g; (xi , yi)Ni=1) =

1N

N∑i=1

l(g(xi), yi)

rien (simplement) car la loi des grands nombres nes’applique pas ici :• les (xi , yi ) sont indépendants• mais les l(g(xi ), yi ) ne le sont pas à cause de g

17 / 122 F. Rossi Introduction et modélisation mathématique

Page 30: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

K plus proches voisinsalgorithme classique de discrimination/régressionN observations DN = (xi , yi)

Ni=1 et un paramètre K

on suppose que X est muni d’une dissimilarité dalgorithme de calcul de gK (x) :

1. calcul des dissimilarités d(x , xi ) pour 1 ≤ i ≤ N2. tri des dissimilarités tels que d(x , xji ) ≤ d(x , xji+1 )3. gK (x) est

• la classe majoritaire dans les K labels yj1 , . . . , yjk endiscrimination

• le centre de gravité des K vecteurs yj1 , . . . , yjk en régression

on a g1(xi) = yi et donc pour tout critère l raisonnable,

L(g1; (xi , yi)Ni=1) =

1N

N∑i=1

l(g1(xi), yi) = 0

18 / 122 F. Rossi Introduction et modélisation mathématique

Page 31: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

K plus proches voisinsalgorithme classique de discrimination/régressionN observations DN = (xi , yi)

Ni=1 et un paramètre K

on suppose que X est muni d’une dissimilarité dalgorithme de calcul de gK (x) :

1. calcul des dissimilarités d(x , xi ) pour 1 ≤ i ≤ N2. tri des dissimilarités tels que d(x , xji ) ≤ d(x , xji+1 )3. gK (x) est

• la classe majoritaire dans les K labels yj1 , . . . , yjk endiscrimination

• le centre de gravité des K vecteurs yj1 , . . . , yjk en régression

on a g1(xi) = yi et donc pour tout critère l raisonnable,

L(g1; (xi , yi)Ni=1) =

1N

N∑i=1

l(g1(xi), yi) = 0

18 / 122 F. Rossi Introduction et modélisation mathématique

Page 32: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

classement

frontière optimalelinéaire

19 / 122 F. Rossi Introduction et modélisation mathématique

Page 33: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

classement

frontière optimalelinéaire

grille d’évaluation

19 / 122 F. Rossi Introduction et modélisation mathématique

Page 34: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

classement

frontière optimalelinéaire

classement optimal

19 / 122 F. Rossi Introduction et modélisation mathématique

Page 35: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

classement

frontière optimalelinéaire

L(g) ' 0.0968

L(g) = 0

1 voisin

19 / 122 F. Rossi Introduction et modélisation mathématique

Page 36: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

classement

frontière optimalelinéaire

L(g) ' 0.0892

L(g) = 0.065

3 voisins

19 / 122 F. Rossi Introduction et modélisation mathématique

Page 37: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

classement

frontière optimalelinéaire

L(g) ' 0.0524

L(g) = 0.085

5 voisins

19 / 122 F. Rossi Introduction et modélisation mathématique

Page 38: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

classement

frontière optimalelinéaire

L(g) ' 0.0416

L(g) = 0.0875

11 voisins

19 / 122 F. Rossi Introduction et modélisation mathématique

Page 39: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

classement

frontière optimalelinéaire

L(g) ' 0.0404

L(g) = 0.085

15 voisins

19 / 122 F. Rossi Introduction et modélisation mathématique

Page 40: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

classement

frontière optimalelinéaire

L(g) ' 0.0456

L(g) = 0.095

21 voisins

19 / 122 F. Rossi Introduction et modélisation mathématique

Page 41: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Optimisme

l’exemple précédent est très représentatif :• on peut souvent construire g tel que g(xi ) = yi sur DN• pour un critère d’erreur raisonnable, on aura donc

L(g; (xi , yi )Ni=1) = 0

• mais en général, L(g) > 0

l’erreur empirique sur l’ensemble d’apprentissage estgénéralement (très) optimistec’est une mauvaise estimation de l’erreur en généralisation

Point à retenirobtenir une bonne estimation des performances d’un modèleest la principale difficulté de l’apprentissage automatique

20 / 122 F. Rossi Introduction et modélisation mathématique

Page 42: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Résumé

l’apprentissage supervisé• construit un modèle pour prédire y à partir de x• en s’appuyant sur un ensemble d’apprentissage constitué

d’exemples d’associations (x , y)

suite du cours :• quelques modèles et algorithmes associés• méthodologie :

• comment évaluer les performances d’un modèle ?• comment choisir un bon modèle ?

21 / 122 F. Rossi Introduction et modélisation mathématique

Page 43: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

PlanIntroduction et modélisation mathématique

Apprentissage superviséQualité d’un modèle

RégressionRégression linéaireRégularisationNon linéaire

DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire

Sélection de modèle

22 / 122 F. Rossi Régression

Page 44: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Régression linéaire

exemple le plus élémentaire d’apprentissage automatique :• on dispose de N couples de réels (xi , yi ) (l’ensemble

d’apprentissage)• on cherche deux réels a et b tels que yi ' axi + b pour tout

1 ≤ i ≤ N• le modèle est linéaire :

• la fonction qui aux paramètres associe le modèle est linéaire(a, b) 7→ (x 7→ ax + b)

• le modèle lui même est affine

stratégie de construction du modèle :• minimisation de l’erreur des moindres carrés

(a∗,b∗) = arg mina,b

N∑i=1

(axi + b − yi )2

23 / 122 F. Rossi Régression

Page 45: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

ExempleAnalyse spectroscopique de vins

−20 −10 0 10 20 30

810

1214

spectre1

alco

ol

24 / 122 F. Rossi Régression

Page 46: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

ExempleAnalyse spectroscopique de vins

−20 −10 0 10 20 30

810

1214

spectre1

alco

ol

24 / 122 F. Rossi Régression

Page 47: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Résolution

si E(a,b) =∑N

i=1(axi + b − yi)2, on a

∇aE(a,b) = 2

(a

N∑i=1

x2i +

N∑i=1

xi(b − yi)

)

et

∇bE(a,b) = 2N

(b +

1N

N∑i=1

(axi − yi)

)∇E = 0 conduit à une unique solution (a∗,b∗)

25 / 122 F. Rossi Régression

Page 48: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Leçon générale

méthode de construction de la régression linéaire• choix d’une classe de modèles

F ={

f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}

• choix dans la classe du modèle d’erreur empiriqueminimale sur l’ensemble d’apprentissage

f ∗ = arg minf∈F

L(f ; {(x1, y1), . . . , (xN , yN)})

principe de la minimisation du risque empirique :• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste

26 / 122 F. Rossi Régression

Page 49: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Leçon générale

méthode de construction de la régression linéaire• choix d’une classe de modèles

F ={

f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}

• choix dans la classe du modèle d’erreur empiriqueminimale sur l’ensemble d’apprentissage

f ∗ = arg minf∈F

L(f ; {(x1, y1), . . . , (xN , yN)})

principe de la minimisation du risque empirique

:• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste

26 / 122 F. Rossi Régression

Page 50: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Leçon générale

méthode de construction de la régression linéaire• choix d’une classe de modèles

F ={

f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}

• choix dans la classe du modèle d’erreur empiriqueminimale sur l’ensemble d’apprentissage

f ∗ = arg minf∈F

L(f ; {(x1, y1), . . . , (xN , yN)})

principe de la minimisation du risque empirique :• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste

26 / 122 F. Rossi Régression

Page 51: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Régression linéaire multiple

extension à plusieurs variables explicatives :• X = Rp et Y = R• modèles considérés

F =

{f : Rp → R | f (x) = β0 +

p∑i=1

βixi

}

vision apprentissage : minimisation du risque empirique

vision statistique classique :• les Xi sont des variables aléatoires à valeurs dans R• ε est un bruit (aléatoire)• Y est distribuée selon

Y = β0 +

p∑i=1

βiXi + ε

27 / 122 F. Rossi Régression

Page 52: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Régression linéaire multiple

extension à plusieurs variables explicatives :• X = Rp et Y = R• modèles considérés

F =

{f : Rp → R | f (x) = β0 +

p∑i=1

βixi

}

vision apprentissage : minimisation du risque empiriquevision statistique classique :• les Xi sont des variables aléatoires à valeurs dans R• ε est un bruit (aléatoire)• Y est distribuée selon

Y = β0 +

p∑i=1

βiXi + ε

27 / 122 F. Rossi Régression

Page 53: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Moindres carrés

notations simplificatrices :• on ajoute une « variable » x0 toujours égale à 1• on note Y = (y1, . . . , yN)T et X la matrice dont les colonnes

sont les variables :

X =

1 x11 x12 . . . x1p...

. . ....

1 xN1 xN2 . . . xNp

• on cherche alors β = (β0, . . . , βp)T tel que Y ' Xβ

minimisation de l’erreur quadratique

β∗ = arg minβ‖Y − Xβ‖2 = arg min

β

N∑i=1

(Yi − (Xβ)i)2

28 / 122 F. Rossi Régression

Page 54: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Moindres carrés

∇β‖Y − Xβ‖2 = 0 conduit aux équations normales

(X T X )β∗ = X T Y

résolution (coût et stabilité croissants) :• approche directe en O

(p3 + Np2

)β∗ = (X T X )−1X T Y

• décomposition QR en O(Np2

)X = QR avec Q orthogonale et R triangulaire supérieure

• décomposition en valeurs singulières en O(Np2

)X = UDV T avec D diagonale, et U et V orthogonales)

en général, on utilise la décomposition QR

29 / 122 F. Rossi Régression

Page 55: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Maximum de vraisemblance

le modèle probabiliste s’écrit Y = Xβ + ε

hypothèses supplémentaires :• observations statistiquement indépendantes• bruit ε gaussien N (0, σ)

vraisemblance de (xi , yi)1≤i≤N(1√2πσ

)N N∏i=1

exp(− 1

2σ2 (yi − xiβ)2)

maximiser la log vraisemblance revient donc à minimiser

12σ2

N∑i=1

(yi − xiβ)2

30 / 122 F. Rossi Régression

Page 56: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Liens

moindres carrés = maximum de vraisemblance• pour des observations indépendantes• et pour un bruit gaussien

homoscédasticité :• la variance du bruit ne dépend ni de x , ni de y• hypothèse assez forte

modèle probabiliste :• donne plus d’information : distribution des poids,

significativité, etc.• plus souple que les moindres carrés (cf aussi le cas de la

classification)• par exemple : bruit hétéroscédastique (variance non

uniforme)• mais plus complexe à mettre en œuvre

31 / 122 F. Rossi Régression

Page 57: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans le vinen fonction de deuxvariables spectrales

alcool

−20 0 20

810

1214

−20

020

spectre1

8 10 12 14 −20 0 10 30

−20

010

30

spectre2

32 / 122 F. Rossi Régression

Page 58: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans le vinen fonction de deuxvariables spectrales

spectre1spectre2

alcool

32 / 122 F. Rossi Régression

Page 59: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans le vinen fonction de deuxvariables spectrales

spectre1

spectre2

alcool

32 / 122 F. Rossi Régression

Page 60: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans le vinen fonction de deuxvariables spectrales

prédiction vs réalitévisualisation classiquequand p ≥ 2L(g) = 0.54

8 10 12 148

1012

1416

Réalité

Pré

dict

ion

Modèle idéal

32 / 122 F. Rossi Régression

Page 61: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans le vinen fonction de deuxvariables spectrales

prédiction vs réalitévisualisation classiquequand p ≥ 2une variable : L(g) = 0.92

8 10 12 148

1012

1416

Réalité

Pré

dict

ion

Modèle idéal

32 / 122 F. Rossi Régression

Page 62: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Prédictions simultanéesrégression avec y ∈ Rq :• Y est la matrice des variables à prédire (une ligne par

observation)

Y =

y11 . . . y1q...

...yN1 . . . yNq

• β est maintenant une matrice (p + 1)× q

minimisation de l’erreur quadratique (erreur gaussiennehétéroscédastique)

β∗ = arg minβ‖Y − Xβ‖2 = arg min

β

q∑j=1

N∑i=1

(Yij − (Xβ)ij)2

revient à réaliser q régressions linéaires multiples

33 / 122 F. Rossi Régression

Page 63: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

En R

fonction lm du package stats :• modèle linéaire par moindres carrés (méthode QR)• interprétation statistique classique (significativité, etc.)• support des formules (au sens R) :

• données sous forme d’une data.frame• formules du type y∼a+b-1 pour préciser les variables

explicatives (ici a et b) et supprimer le terme constant -1• fonction predict pour les prédictions

nombreuses extensions :• modèles linéaires généralisés• séries temporelles• etc.

34 / 122 F. Rossi Régression

Page 64: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Limites

deux régimes « extrêmes » :• si N est grand devant p :

• beaucoup plus d’observations que de variables• le modèle linéaire n’est généralement pas assez complexe

• si N est petit devant p :• beaucoup plus de variables que d’observations• le modèle linéaire est généralement trop complexe

plage d’utilisation directe : quand N est de l’ordre de αptrois grandes questions :

1. comment augmenter la complexité ?2. comment réduire la complexité ?3. comment choisir la complexité adaptée aux données ?

35 / 122 F. Rossi Régression

Page 65: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Trop simple

60 70 80 90

050

100

150

Temp

Ozo

ne

36 / 122 F. Rossi Régression

Page 66: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Trop simple

60 70 80 90

050

100

150

Temp

Ozo

ne

régression linéaire

36 / 122 F. Rossi Régression

Page 67: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Trop simple

60 70 80 90

050

100

150

Temp

Ozo

ne

méthode non linéaire

36 / 122 F. Rossi Régression

Page 68: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Trop complexe

taux d’alcool dans levin en fonction duspectre complet256 variablesexplicatives ( !)91 observations

37 / 122 F. Rossi Régression

Page 69: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Trop complexe

taux d’alcool dans levin en fonction duspectre complet256 variablesexplicatives ( !)91 observations

prédiction vs réalité sur 30nouvelles observations 10 11 12 13 14

910

1112

1314

Réalité

Pré

dict

ion

Modèle idéal

Modèle linéaire

37 / 122 F. Rossi Régression

Page 70: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Trop complexe

taux d’alcool dans levin en fonction duspectre complet256 variablesexplicatives ( !)91 observations

prédiction vs réalité sur 30nouvelles observations 10 11 12 13 14

1011

1213

14Réalité

Pré

dict

ion

Modèle idéal

Modèle linéaire « réduit »

37 / 122 F. Rossi Régression

Page 71: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Complexité

Définition informellela complexité d’une classe de modèles se mesure par la qualitéprédictive qu’elle peut atteindre sur un ensembled’apprentissage

pas assez complexe :• aucun modèle de la classe ne prédit bien y à partir de x• par exemple y = x2 et régression linéaire• Ozone et température

trop complexe :• certains modèles de la classe ne font aucune erreur sur

l’ensemble d’apprentissage• en général, Y = Xβ a une infinité de solutions quand N est

petit devant p• Alcool et spectre

38 / 122 F. Rossi Régression

Page 72: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Sélection de modèle

approche de base :• choix d’une classe de modèles• puis choix du modèle d’erreur empirique minimale

ne fonctionne pas quand la classe est trop complexe :• exemple : pour la prévision du degré alcoolique en fonction

du spectre, l’erreur empirique est nulle• phénomène de sur-apprentissage (overfitting)

approche hiérarchique :• choix de plusieurs classes de modèles, de complexités

différentes• minimisation de l’erreur empirique dans chaque classe• puis choix du modèle parmi les candidats

• comment ?

39 / 122 F. Rossi Régression

Page 73: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Sélection de modèle

approche de base :• choix d’une classe de modèles• puis choix du modèle d’erreur empirique minimale

ne fonctionne pas quand la classe est trop complexe :• exemple : pour la prévision du degré alcoolique en fonction

du spectre, l’erreur empirique est nulle• phénomène de sur-apprentissage (overfitting)

approche hiérarchique :• choix de plusieurs classes de modèles, de complexités

différentes• minimisation de l’erreur empirique dans chaque classe• puis choix du modèle parmi les candidats• comment ?

39 / 122 F. Rossi Régression

Page 74: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Ensemble de validation

l’erreur empirique sur l’ensemble d’apprentissage est unmauvais choix car :• la loi des grands nombres ne s’applique pas (dépendance)• l’estimation des performances est optimiste

solution élémentaire (solutions plus sophistiquées dans lasuite du cours) :• utiliser d’autres données distribuées aussi selon P• VM = (xi , yi )

Mi=1 : ensemble de validation indépendant

• la loi des grands nombres s’applique : L(g;VM) ' L(g)• point crucial : le modèle doit être construit sans utiliser VM

méthode :• choix de plusieurs classes de modèles• minimisation de l’erreur empirique dans chaque classe• choix du modèle parmi les candidats par minimisation de

l’erreur de validation

40 / 122 F. Rossi Régression

Page 75: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Réduire la complexité

source du problème :• le système Y = Xβ a une infinité de solution quand Y est

dans l’image de X• quand p est grand devant N, c’est très probable :

• moins d’équations (les N observations)• que d’inconnues (les p + 1 poids βj )

attaquer la source du problème :• réduire le nombre de variables• classes de modèles, pour tout S ⊂ {1, . . . ,p} :

FS =

{f : Rp → R | f (x) = β0 +

∑i∈S

βixi

}

• choisir un modèle revient à choisir les variables utilisées

41 / 122 F. Rossi Régression

Page 76: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Réduire la complexité

source du problème :• le système Y = Xβ a une infinité de solution quand Y est

dans l’image de X• quand p est grand devant N, c’est très probable :

• moins d’équations (les N observations)• que d’inconnues (les p + 1 poids βj )

attaquer la source du problème :• réduire le nombre de variables• classes de modèles, pour tout S ⊂ {1, . . . ,p} :

FS =

{f : Rp → R | f (x) = β0 +

∑i∈S

βixi

}

• choisir un modèle revient à choisir les variables utilisées

41 / 122 F. Rossi Régression

Page 77: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Sélection de variables

recherche exhaustive :• faisable quand p est petit : 2p − 1 configurations• accélération par branch and bound : faisable jusqu’à p ' 30

heuristiques d’exploration :• croissante (forward) :

• on ajoute des variables progressivement• S1 = {j1} est la variable qui donne le meilleur modèle

linéaire à une variable• S2 = {j1, j2} est obtenu en trouvant la variable j2 qui donne

avec j1 (fixée) le meilleur modèle linéaire à deux variables• etc.

• décroissante (backward) :• même principe mais en enlevant des variables• on commence donc par considérer le modèle complet

• mélange des deux...

42 / 122 F. Rossi Régression

Page 78: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

1 variable

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 79: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

2 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 80: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

3 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 81: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

4 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 82: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

5 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 83: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

10 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 84: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

12 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 85: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

15 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 86: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

20 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 87: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

30 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 88: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

50 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 89: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

60 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 90: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

75 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 91: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90

8 10 12 14 16

810

1214

90 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

43 / 122 F. Rossi Régression

Page 92: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Choix du modèle

0 20 40 60 80

5e−

055e

−04

5e−

035e

−02

5e−

01

Nombre de variables

Err

eur

empi

rique

apprentissagevalidation

12 variables

44 / 122 F. Rossi Régression

Page 93: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Choix du modèle

courbe classique dusur-apprentissage :

décroissance constante del’erreur empirique surl’ensemble d’apprentissagedécroissance puiscroissance sur l’ensemblede validation

0 20 40 60 80

5e−

055e

−04

5e−

035e

−02

5e−

01

Nombre de variables

Err

eur

empi

rique

apprentissagevalidation

la bonne évaluation des performances est celle fournie parl’ensemble de validation

45 / 122 F. Rossi Régression

Page 94: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Projection

les variables d’origine ne sont pas nécessairement les plusadaptéestechnique de réduction de la complexité (régression surcomposantes principales) :• réaliser une ACP des données• construire des modèles linéaires sur 1, 2, ..., p

composantes principales• choisir le meilleur modèle, c’est-à-dire le bon nombre de

composantesextension :• choisir des composantes orthogonales et corrélées avec la

variable à prédire Y• c’est la régression PLS (Partial Least Squares)

les composantes sont ordonnées : sélection forward parnature

46 / 122 F. Rossi Régression

Page 95: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

1 variable

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 96: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

2 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 97: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

3 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 98: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

4 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 99: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

5 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 100: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

10 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 101: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

20 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 102: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

27 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 103: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

30 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 104: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

40 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 105: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

60 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 106: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP

8 10 12 14 16

810

1214

80 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

47 / 122 F. Rossi Régression

Page 107: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Choix du modèle

0 20 40 60 80

2e−

041e

−03

5e−

035e

−02

5e−

01

Nombre de variables

Err

eur

empi

rique

apprentissagevalidation

27 variables ACP

48 / 122 F. Rossi Régression

Page 108: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Régularisation

limitation de la sélection : tout ou rienapproche concurrente par contrainte de régularité :• idée sous-jacente :

• un bon modèle s’appuie sur la « continuité » de la nature• si u ' v alors g(u) ' g(v)

• dans le cas linéaire :• | 〈u, v〉 | ≤ ‖u‖‖v‖ (Cauchy-Schwarz)• donc | 〈x1, β〉 − 〈x2, β〉 | = | 〈x1 − x2, β〉 | ≤ ‖x1 − x2‖‖β‖• donc ‖β‖ donne une mesure de la régularité d’un modèle

linéaire

classe de modèles

FC =

{f : Rp → R | f (x) = β0 +

N∑i=1

βixi , ‖β‖ ≤ C

}

49 / 122 F. Rossi Régression

Page 109: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Optimisation

résoudreβ∗ = arg min

β, ‖β‖≤C‖Y − Xβ‖2

peut sembler plus complexe qu’en l’absence de lacontraintemais par dualité convexe, il existe un λ tel que β∗ soit aussisolution de

β∗ = arg minβ

(‖Y − Xβ‖2 + λ‖β‖2

)on parle de régression ridge

50 / 122 F. Rossi Régression

Page 110: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Résolution

la résolution est simple car le problème est toujoursquadratique en β∇β(‖Y − Xβ‖2 + λ‖β‖2

)= 0 conduit aux équations

normales modifiées

(X T X + λI)β∗ = X T Y

où I est la matrice identité (de taille p + 1)le conditionnement de X T X + λI s’améliore avec λ

51 / 122 F. Rossi Régression

Page 111: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Mise en œuvrealgorithme :

1. calculer la SVD de X , X = UDV T

2. calculer Z = UT Y3. pour quelques valeurs de λ (par exemple des puissances

de 10) :3.1 calculer la matrice diagonale K (λ) définie par

K (λ)ii = Dii/(D2ii + λ)

3.2 calculerβ∗ = VK (λ)Z

4. choisir le modèle optimal (sur un ensemble de validation)

détails pratiques :• régulariser β0 n’est pas une bonne idée : une bonne valeur

pour β0 est la moyenne des yi• un changement d’échelle des xi change la solution de la

régression ridge pas celle de la régression classique : oncentre et on réduit les données avant traitement

52 / 122 F. Rossi Régression

Page 112: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Mise en œuvrealgorithme :

1. calculer la SVD de X , X = UDV T

2. calculer Z = UT Y3. pour quelques valeurs de λ (par exemple des puissances

de 10) :3.1 calculer la matrice diagonale K (λ) définie par

K (λ)ii = Dii/(D2ii + λ)

3.2 calculerβ∗ = VK (λ)Z

4. choisir le modèle optimal (sur un ensemble de validation)détails pratiques :• régulariser β0 n’est pas une bonne idée : une bonne valeur

pour β0 est la moyenne des yi• un changement d’échelle des xi change la solution de la

régression ridge pas celle de la régression classique : oncentre et on réduit les données avant traitement

52 / 122 F. Rossi Régression

Page 113: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 1e+05

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 114: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 7940

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 115: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 2510

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 116: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 794

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 117: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 79.4

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 118: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 7.94

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 119: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 2.51

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 120: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 0.794

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 121: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 0.251

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 122: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 0.0251

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 123: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 0.000794

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 124: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrerégression ridge

8 10 12 14 16

810

1214

λλ == 1e−05

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

53 / 122 F. Rossi Régression

Page 125: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Choix du modèle

1e−05 1e−02 1e+01 1e+04

1e−

091e

−07

1e−

051e

−03

1e−

01

λλ

Err

eur

empi

rique

apprentissagevalidation

λ ' 0.794

54 / 122 F. Rossi Régression

Page 126: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Évolution des coefficients

1e−05 1e−02 1e+01 1e+04

−0.

050.

000.

050.

10

λλ

ββ

55 / 122 F. Rossi Régression

Page 127: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Comparaison

sélection forward/backward :+ sélection de variables+ très efficace avec une implémentation adaptée : O

(Nk2

)pour une procédure forward naïve jusqu’à k variables

- décisions binairesprojections :

+ sélection de variables+ efficace : O

(Np2

)(avec une implémentation à la forward)

- variables transforméesrégression ridge :

+ souple+ efficace : SVD en O

(Np2

)puis O

(p2 + Np

)par valeur de λ

- pas de sélection de variables

56 / 122 F. Rossi Régression

Page 128: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Régularisation L1

régression ridge : mesure de régularité ‖β‖2méthode « lasso » :• mesure de régularité ‖β‖1 =

∑pi=1 |βi |

• point de vue modèle

FC =

{f : Rp → R | f (x) = β0 +

N∑i=1

βixi ,

p∑i=1

|βi | ≤ C

}

• point de vue optimisation

β∗ = arg minβ

(‖Y − Xβ‖2 + λ

p∑i=1

|βi |

)

• intérêt : produit naturellement des coefficients nuls• résolution par programmation quadratique

57 / 122 F. Rossi Régression

Page 129: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Lasso/Lars

algorithme LARS : Least Angle Regressionidée :• ajout progressif des variables (avec sorties possibles)• mais sans prendre le coefficient optimal associé à la

nouvelle variable• sans sortie : lars ; avec sortie : lasso

même type de coût algorithmique qu’une procédureforward, mais avec plus d’itérationscalcule un chemin :• on montre que l’évolution des paramètres en fonction de λ

est affine par morceaux• l’algorithme trouve tous les points de jonction

58 / 122 F. Rossi Régression

Page 130: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

0 variable

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 131: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

1 variable

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 132: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

2 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 133: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

3 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 134: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

3 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 135: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

3 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 136: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

4 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 137: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

5 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 138: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

5 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 139: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

5 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 140: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

5 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 141: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

8 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 142: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

9 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 143: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

12 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 144: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

29 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 145: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

68 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 146: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

taux d’alcool dans levin en fonction duspectrelasso

8 10 12 14 16

810

1214

89 variables

Réalité

Pré

dict

ion

ApprentissageValidationModèle idéal

59 / 122 F. Rossi Régression

Page 147: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Choix du modèle

0 50 100 150 200 250 300 350

1e−

091e

−07

1e−

051e

−03

1e−

01

Étape

Err

eur

empi

rique

apprentissagevalidation

étape 136, 29 variables actives

60 / 122 F. Rossi Régression

Page 148: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Évolution des coefficients

0 50 100 150 200 250 300 350

−40

−30

−20

−10

010

2030

Étape

ββ

61 / 122 F. Rossi Régression

Page 149: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Évolution des coefficients

0 10 20 30 40

−40

−30

−20

−10

010

2030

Étape

ββ

62 / 122 F. Rossi Régression

Page 150: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

En R

sélection de variables dans le modèle linéaire :• package leaps• fonction regsubsets• propose la recherche exhaustive avec branch and bound et

les recherches heuristiques classiquesprojection :• package pls• fonction pcr pour la régression sur composantes

principales• fonction plsr pour la régression PLS

régression ridge : fonction lm.ridge du package MASS

lasso : fonction lars du package lars

63 / 122 F. Rossi Régression

Page 151: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Résumé

régression linéaire :• méthode simple et efficace pour la régression• à toujours tester en premier !

limitations :• données dans Rp seulement• x 7→ g(x) est affine : insuffisant dans certains cas• quand p est grand par rapport à N, le modèle linéaire peut

être trop puissantlimiter la puissance :• sélection de variables• régularisation

leçons générales :• contrôler la régularité d’un modèle par une pénalité• sélectionner un modèle grâce à un ensemble de validation

64 / 122 F. Rossi Régression

Page 152: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Non linéarité

en régression linéaire, x 7→ g(x) est affine etβ 7→ (x 7→ g(x)) est linéairecertains problèmes ne sont pas linéaires/affines :• non linéarité intrinsèque (emballement d’une réaction

chimique, par ex.)• variables manquantes (inconnues)

corriger le modèle en gardant la linéarité β 7→ g :• lever la limitation sur le modèle• conserver la simplicité du choix de β (optimisation

quadratique)

idée simple : transformer les données

65 / 122 F. Rossi Régression

Page 153: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Transformer les données

principe :• fonction de transformation φ : Rp → Rq

• régression linéaire sur (φ(xi ), yi )1≤i≤N• si φ est bien choisie, on obtient des variables linéairement

indépendantes dans Rq :• N équations à q inconnues pour φ(xi) ' yi

• si q est de l’ordre de N, on trouve toujours une solutionexacte

• x 7→ 〈φ(x), β〉 n’est plus affine !exemple :• φ(x) = (1, x , x2)T

• classe de modèles

F ={

f : R → R | f (x) = β0 + β1x + β2x2}• modèles quadratiques

66 / 122 F. Rossi Régression

Page 154: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Mise en œuvre

q fonctions de base φj : Rp → Rmatrice des prédicteurs

Φ(X ) =

1 φ1(x1) φ2(x1) . . . φq(x1)...

. . ....

1 φ1(xN) φ2(xN) . . . φq(xN)

problème d’optimisation

β∗ = arg minβ∈Rq+1

‖Y − Φ(X )β‖2

équations normales associées

(Φ(X )T Φ(X ))β∗ = Φ(X )T Y

67 / 122 F. Rossi Régression

Page 155: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

60 70 80 90

050

100

150

Temp

Ozo

ne

68 / 122 F. Rossi Régression

Page 156: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

60 70 80 90

050

100

150

degré : 1

Temp

Ozo

ne

68 / 122 F. Rossi Régression

Page 157: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

60 70 80 90

050

100

150

degré : 2

Temp

Ozo

ne

68 / 122 F. Rossi Régression

Page 158: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

60 70 80 90

050

100

150

degré : 3

Temp

Ozo

ne

68 / 122 F. Rossi Régression

Page 159: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

60 70 80 90

050

100

150

degré : 4

Temp

Ozo

ne

68 / 122 F. Rossi Régression

Page 160: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

60 70 80 90

050

100

150

degré : 5

Temp

Ozo

ne

68 / 122 F. Rossi Régression

Page 161: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

60 70 80 90

050

100

150

degré : 6

Temp

Ozo

ne

68 / 122 F. Rossi Régression

Page 162: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

60 70 80 90

050

100

150

degré : 7

Temp

Ozo

ne

68 / 122 F. Rossi Régression

Page 163: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

60 70 80 90

050

100

150

degré : 25

Temp

Ozo

ne

68 / 122 F. Rossi Régression

Page 164: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Limitations

choix de φ :• quand x ∈ R pas de problème particulier : polynômes,

splines, ondelettes, séries de Fourier, etc.• quand x ∈ Rp, explosion combinatoire :

• (p+d)!p!d!

monômes de degré inférieur ou égal à d sur pvariables

• même type de problème pour les autres solutions• solutions par approches gloutonnes : on ajoute

progressivement des φj

coût algorithmique :• la régression linéaire est en O

(Np2

)• si p ' N ⇒ O

(N3)

: réduction du champ d’applicationcontrôle de la puissance :• régularisation• sélection de modèle

69 / 122 F. Rossi Régression

Page 165: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Équations normales

on remarque que si (Φ(X )T Φ(X )) est inversible

β∗ = Φ(X )Tα∗ =N∑

i=1

α∗i φ(xi)

et donc

g(x) = 〈φ(x), β∗〉 =N∑

i=1

α∗i 〈φ(x), φ(xi)〉

de plusα∗ = (Φ(X )Φ(X )T )−1Y

70 / 122 F. Rossi Régression

Page 166: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Transformation implicite

or (Φ(X )Φ(X )T )ij =⟨φ(xi), φ(xj)

⟩pour construire et utiliser le modèle linéaire sur les φ(xi) ilsuffit de connaître les produits scalaires

⟨φ(xi), φ(xj)

⟩impact algorithmique :• u = (u1,u2) and v = (v1, v2)• φ(u) = (1,

√2u1,√

2u2,√

2u1u2,u21 ,u

22) : 3 opérations

• 〈φ(u), φ(v)〉 : 11 opérations• total : 17 opérations

• mais on montre que 〈φ(u), φ(v)〉 =(

1 +∑2

i=1 uivi

)2:

5 opérations• plus généralement 〈φ(u), φ(v)〉 = (1 + 〈u, v〉)d pour une

transformation φ utilisant tous les monômes de degréinférieur à d : temps de calcul en O(p + d)

71 / 122 F. Rossi Régression

Page 167: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Non linéaire efficace

nouvelle version de l’approche :• choisir φ telle que 〈φ(u), φ(v)〉 se calcule efficacement• calculer α∗ = (Φ(X )Φ(X )T )−1Y• utiliser le modèle

x 7→N∑

i=1

α∗i 〈φ(x), φ(xi )〉

une fois Φ(X )Φ(X )T calculée, l’algorithme est en O(N3) :

• intéressant si φ envoie dans Rq avec q > N• mais dans ce cas le modèle est potentiellement trop

puissant• régularisation ridge

72 / 122 F. Rossi Régression

Page 168: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Régularisation ridge

on cherche à contrôler ‖β∗‖2

on a

‖β∗‖2 =N∑

i=1

N∑j=1

α∗i α∗j⟨φ(xi), φ(xj)

⟩on montre que

β∗ = arg minβ∈Rq+1

(‖Y − Φ(X )β‖2 + λ‖β‖2

)correspond à

α∗ =(

Φ(X )Φ(X )T + λI)−1

Y

73 / 122 F. Rossi Régression

Page 169: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Principe du noyau

en fait φ est inutile, seuls les 〈φ(u), φ(v)〉 entre en jeunoyau (kernel) :• fonction K de Rp × Rp → R• symétrique : K (u, v) = K (v ,u)• positive :

∑i,j λiλjK (ui , vj ) ≥ 0

on montre que pour tout noyau K , il existe une fonction φtelle que K (u, v) = 〈φ(u), φ(v)〉 dans un certain espace H :• H peut être très grand (de dimension infinie)• on n’a jamais besoin de calculer explicitement φ

74 / 122 F. Rossi Régression

Page 170: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Noyauxun noyau correspond à un produit scalaire :• peut être vue comme une similarité• peut être défini sur un espace quelconque :

• chaînes de caractères (dénombrement de co-occurrence)• graphes (chemins communs)• etc.

• ⇒ régression régularisée non linéaire sur des donnéesarbitraires

un noyau important dans Rp, le noyau Gaussien :• K (u, v) = exp

(−‖u−v‖2

2σ2

)• σ est un paramètre de sensibilité :

• grand σ : peu sensible, comportement proche du linéaire• petit σ : très sensible, comportement proche des k plus

proches voisins

la matrice noyau Kij = K (xi , xj) remplace Φ(X )Φ(X )T dansles formules

75 / 122 F. Rossi Régression

Page 171: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Kernel Ridge Regression

choisir un noyau et calculer la matrice Kij = K (xi , xj)

algorithme :1. diagonaliser K , K = UT DU2. calculer Z = UY3. pour quelques valeurs de λ (par exemple des puissances

de 10) :3.1 calculer la matrice diagonale V (λ) définie par

V (λ)ii = 1/(Dii + λ)3.2 calculer

α∗ = UT V (λ)Z

4. choisir le modèle optimal (sur un ensemble de validation)

attention, il faut aussi choisir le noyau (ou ses paramètres)sur un ensemble de validation

76 / 122 F. Rossi Régression

Page 172: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Résuméla régression linéaire s’étend facilement au non linéaire :• soit par transformation directe (peu de variables

explicatives)• soit par le biais d’un noyau

l’accroissement de la puissance rend cruciales :• l’utilisation d’une forme de régularisation• une sélection de modèle

outil générique :• la régression ridge à noyau (Kernel Ridge Regression)• coût algorithmique acceptable O

(N3)

• champ d’application énorme grâce aux noyaux : donnéesnon numériques et modèles non linéaires

• implémentation indépendante du noyau

il existe de nombreuses autres méthodes non linéaires(par exemple les k plus proches voisins)

77 / 122 F. Rossi Régression

Page 173: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

PlanIntroduction et modélisation mathématique

Apprentissage superviséQualité d’un modèle

RégressionRégression linéaireRégularisationNon linéaire

DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire

Sélection de modèle

78 / 122 F. Rossi Discrimination

Page 174: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Discriminationrappels :• discrimination à deux classes : Y = {A,B}• critère d’erreur : l(g(x), y) = δg(x)6=y

modèle linéaire en discrimination :• g(x) = 〈x , β〉+ β0 n’est pas directement utilisable• solution simple :

• g(x) = signe(〈x , β〉+ β0)• −1⇒ classe A• 1⇒ classe B

minimisation du risque empirique

β∗ = arg minβ∈Rp

N∑i=1

δsigne(〈xi ,β〉+β0)6=yi

optimisation combinatoire : impossible en pratique

79 / 122 F. Rossi Discrimination

Page 175: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Moindres carrés

solution simple :• faire de la régression• en cherchant à prédire yi = −1 pour la classe A et yi = 1

pour la classe B• attention : l’opération signe n’est pas prise en compte pour

le choix de β

on a donc

β∗ = arg minβ∈Rp

∑xi∈A

(〈xi , β〉+ 1)2 +∑xi∈B

(〈xi , β〉 − 1)2

avec l’augmentation habituelle des x par une variableconstante

80 / 122 F. Rossi Discrimination

Page 176: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Interprétation

approximation convexedu coût

+ facile à optimiser- pénalise un trop bon

classement

−3 −2 −1 0 1 2 3

02

46

8

g(x)l(g

(x),

1)

coût 0/1coût quadratique

Solution acceptable mais limitée

81 / 122 F. Rossi Discrimination

Page 177: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale

82 / 122 F. Rossi Discrimination

Page 178: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale

82 / 122 F. Rossi Discrimination

Page 179: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Plus de deux classes

très mauvaise solution :• numéroter les classes de 1 à K• faire une régression linéaire avec comme cible le numéro

de la classe• ne jamais faire ça :

• induit une fausse structure d’ordre sur les classes• rend la régression plus difficile qu’elle ne devrait l’être• etc.

solutions par combinaisons :• construire K − 1 modèles : 1 contre les autres classes• construire K (K − 1)/2 modèles : 1 contre 1

solution par codage :• représenter l’appartenance à la classe k par un vecteur de

RK contenant K − 1 zéros et un 1 dans la variable k• puis régression classique

83 / 122 F. Rossi Discrimination

Page 180: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Projection

x 7→ 〈x , β〉 est une projection de Rp dans Rcomment optimiser la projection pour bien répartir lesexemples en deux classes ?• bien regrouper les projetés d’une même classe (variance

intra petite)• bien éloigner les projetés de classes différences (variance

inter grande)

analyse discriminante de Fisher : maximisation du ratioentre les variancess’applique à plusieurs classes, C1, . . . ,CK

84 / 122 F. Rossi Discrimination

Page 181: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Variances

décomposition de la covariance :• covariance totale T = 1

N

∑Ni=1(xi − µ)(xi − µ)T (µ moyenne

des x)• covariances intraclasse Wk = 1

Nk

∑i∈Ck

(xi − µk )(xi − µk )T

(µk moyenne des x de la classe Ck )• covariance interclasse B = 1

N

∑Kk=1 Nk (µk − µ)(µk − µ)T

• T = B + W , avec W = 1N

∑Kk=1 Nk Wk

projection = « multiplication » par β• intraclasse : βT Wβ• interclasse : βT Bβ

85 / 122 F. Rossi Discrimination

Page 182: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Critère de Fisher

Critère de Fisher : maximiser βT BββT Wβ

si β maximise le critère, on montre qu’il existe λ tel queBβ = λWβ (problème de valeur propre généralisé)en général W est inversible et β est donc vecteur proprede W−1B (associé à la plus grande valeur propre)algorithme basique (méthode de la puissance itérée) :• β(0) aléatoire• β(t+1) = 1

‖W−1Bβ(t)‖W−1Bβ(t)

• converge vers un vecteur propre associé à la plus grandevaleur propre

puis on ajoute un seuil β0 optimal (sous une hypothèse dedistribution gaussienne)

86 / 122 F. Rossi Discrimination

Page 183: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−2

−1

01

23

87 / 122 F. Rossi Discrimination

Page 184: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−2

−1

01

23

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

87 / 122 F. Rossi Discrimination

Page 185: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−2

−1

01

23

−1 0 1 2 3

0.0

0.2

0.4

0.6

87 / 122 F. Rossi Discrimination

Page 186: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−2

−1

01

23

−4 −2 0 2 4

0.0

0.1

0.2

0.3

87 / 122 F. Rossi Discrimination

Page 187: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale

88 / 122 F. Rossi Discrimination

Page 188: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale

88 / 122 F. Rossi Discrimination

Page 189: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Discussion

cas à deux classes :• on montre facilement que l’analyse discriminante conduit

au même hyperplan séparateur que la régression mais àdes seuils (β0) différents

• les méthodes donnent des résultats strictement identiquessi les deux classes sont de mêmes tailles

cas à trois classes ou plus :• les résultats sont très différents• l’analyse discriminante fonctionne généralement mieux que

la régression

89 / 122 F. Rossi Discrimination

Page 190: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Choix d’un séparateur linéaire

Deux problèmes principaux :1. cas séparable : en général une infinité de solutions,

comment choisir ?• critère additionnel : choix parmi les solutions exactes (avec

aucune erreur)• critère alternatif : optimisation d’une autre grandeur (pas le

nombre d’erreurs)2. cas non séparable : comment minimiser le nombre

d’erreurs ?• algorithme de coût acceptable• critère alternatif (bis)

Question subsidiaire : le cas non linéaire est-il fréquent ?

90 / 122 F. Rossi Discrimination

Page 191: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Maximisation de la marge

Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport

91 / 122 F. Rossi Discrimination

Page 192: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Maximisation de la marge

Données linéairementséparables : une infinitéde choix possibles

Données proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport

91 / 122 F. Rossi Discrimination

Page 193: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Maximisation de la marge

Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesse

Un critère de choixpossible : maximiser lamargeMachine à vecteurs desupport

91 / 122 F. Rossi Discrimination

Page 194: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Maximisation de la marge

Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamarge

Machine à vecteurs desupport

91 / 122 F. Rossi Discrimination

Page 195: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Maximisation de la marge

Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport

91 / 122 F. Rossi Discrimination

Page 196: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Formulation du problèmemarge : distance entre le séparateur et l’observation laplus prochemarge (yi ∈ {−1,1}) :

mini

|〈β, xi〉+ β0|〈β, β〉

= mini

yi(〈β, xi〉+ β0)

〈β, β〉,

en l’absence d’erreur, c.-à-d., avec yi(〈β, xi〉+ β0) > 0normalisation par mini yi(〈β, xi〉+ β0) :

(P0) minβ,β012〈β, β〉,

sous les contraintes yi(〈β, xi〉+ β0) ≥ 1, 1 ≤ i ≤ N.

problème d’optimisation quadratique sous contrainteslinéairesformulation duale plus simple

92 / 122 F. Rossi Discrimination

Page 197: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Formulation duale

(P0) est équivalent à

(D0) maxα∑N

i=1 αi − 12∑N

i=1∑N

j=1 αiαjyiyj〈xi , xj〉sous les contraintes

∑Ni=1 αiyi = 0 et αi ≥ 0

problème plus facile à résoudre :• toujours quadratique• contraintes plus simples

on montre que (yi(〈β, xi〉+ β0)− 1) > 0⇒ αi = 0 :• les observations éloignées du séparateur n’interviennent

pas dans la solution• la solution dépend uniquement des observations « sur la

marge » : les vecteurs de support (contraintes saturées)• on a aussi 〈β, x〉 =

∑αi 6=0 αiyi〈xi , x〉

93 / 122 F. Rossi Discrimination

Page 198: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale

94 / 122 F. Rossi Discrimination

Page 199: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale

94 / 122 F. Rossi Discrimination

Page 200: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale

94 / 122 F. Rossi Discrimination

Page 201: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale

94 / 122 F. Rossi Discrimination

Page 202: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

2.0 2.5 3.0 3.5 4.0

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Largeur Sépale

Long

ueur

Sép

ale

94 / 122 F. Rossi Discrimination

Page 203: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Cas non linéairement séparable

le problème P0 n’a pas de solution : pas de pointadmissibleassouplir les contraintes :• autoriser des erreurs de classement• conserver la notion de marge pour les points bien classés• yi (〈β, xi〉+ β0) ≥ 1− ξi avec ξi ≥ 0• les ξi sont les « variables ressort »

nouveau problème :

(PC) minβ,β0,ξ12〈β, β〉+ C

∑Ni=1 ξi ,

avec yi(〈β, xi〉+ β0) ≥ 1− ξi , 1 ≤ i ≤ N,ξi ≥ 0, 1 ≤ i ≤ N.

variantes possibles (par exemple C∑N

i=1 ξ2i )

95 / 122 F. Rossi Discrimination

Page 204: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Interprétation(PC) s’écrit aussi

(PC) minβ,β0,ξ12〈β, β〉+ C

∑Ni=1 ξi ,

avec ξi ≥ 1− yi(〈β, xi〉+ β0), 1 ≤ i ≤ N,ξi ≥ 0, 1 ≤ i ≤ N.

de façon équivalente :

(PC) minβ,β0

12〈β, β〉+ C

N∑i=1

max (1− yi(〈β, xi〉+ β0),0)

interprétation de C :• compromis entre erreurs et marge, régularisation• C grand : erreurs interdites, au détriment de la marge (le

modèle « colle » aux données)• C petit : marge maximisée, au détriment des erreurs• choix de C : choix de modèle

96 / 122 F. Rossi Discrimination

Page 205: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Autre interprétation

le coûtl(g(x), y) = max (1− yg(x),0)

est appelé le hinge losson remarque que

l(g(x), y) ≥ δsigne(g(x))6=y

le hinge loss est une majoration convexe du coût 0/1

97 / 122 F. Rossi Discrimination

Page 206: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Coût quadratique ou hinge

approximation convexedu coût

+ facile à optimiser

- pénalise un trop bon classe-ment

−3 −2 −1 0 1 2 3

02

46

8

g(x)l(g

(x),

1)

coût 0/1coût quadratique

coût quadratique

98 / 122 F. Rossi Discrimination

Page 207: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Coût quadratique ou hinge

approximation convexedu coût

+ facile à optimiser

+ ne pénalise pas les bons clas-sements

+ n’explose pas−3 −2 −1 0 1 2 3

02

46

8

g(x)l(g

(x),

1)

coût 0/1hinge loss

hinge loss

98 / 122 F. Rossi Discrimination

Page 208: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Problème dual

(PC) est équivalent à

(DC) maxα∑N

i=1 αi − 12∑N

i=1∑N

j=1 αiαjyiyj〈xi , xj〉sous les contraintes

∑Ni=1 αiyi = 0 et 0 ≤ αi ≤ C

seul changement : valeur maximale sur les multiplicateurscoût algorithmique :• algorithme « exact » en O

(N3)

• algorithme plus heuristique en O(N2)

en pratique

99 / 122 F. Rossi Discrimination

Page 209: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−1

01

2

100 / 122 F. Rossi Discrimination

Page 210: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−1

01

2C=0.005, 18 erreurs

100 / 122 F. Rossi Discrimination

Page 211: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−1

01

2C=0.0075, 8 erreurs

100 / 122 F. Rossi Discrimination

Page 212: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−1

01

2C=0.01, 5 erreurs

100 / 122 F. Rossi Discrimination

Page 213: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−1

01

2C=0.1, 5 erreurs

100 / 122 F. Rossi Discrimination

Page 214: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−1

01

2C=1, 6 erreurs

100 / 122 F. Rossi Discrimination

Page 215: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Exemple

−3 −2 −1 0 1 2

−1

01

2C=1e+06, 6 erreurs

100 / 122 F. Rossi Discrimination

Page 216: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Résumé

plusieurs choix pour la discriminationcoût quadratique :• simple à mettre en œuvre• relativement rapide• assez peu adapté au cas multi-classes• résultats mitigés

analyse discriminante :• meilleure justification que le coût quadratique• bien adapté au multi-classes• relativement rapide et simple

machines à vecteurs de support :• solution robuste• extensions complexes au multi-classes• algorithme efficace mais sophistiqué• excellent résultats en pratique

101 / 122 F. Rossi Discrimination

Page 217: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

En R

régression :• fonction lm du package stats• nombreuses extensions associées

analyse discriminante : fonction lda du package MASS

machines à vecteurs de support :• fonction svm du package e1071• fonction ksvm du package kernlab

102 / 122 F. Rossi Discrimination

Page 218: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Linéarité et dimensionRésultats de Thomas Cover (1965)

la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1

2

distribution de plus en plus « piquée » :

6 8 10 12 14

0.0

0.2

0.4

0.6

0.8

1.0

Probabilité d'être linéairement séparable en dimension 5

N

103 / 122 F. Rossi Discrimination

Page 219: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Linéarité et dimensionRésultats de Thomas Cover (1965)

la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1

2

distribution de plus en plus « piquée » :

15 20 25 30

0.0

0.2

0.4

0.6

0.8

1.0

Probabilité d'être linéairement séparable en dimension 10

N

103 / 122 F. Rossi Discrimination

Page 220: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Linéarité et dimensionRésultats de Thomas Cover (1965)

la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1

2

distribution de plus en plus « piquée » :

100 150 200 250 300

0.0

0.2

0.4

0.6

0.8

1.0

Probabilité d'être linéairement séparable en dimension 100

N

103 / 122 F. Rossi Discrimination

Page 221: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Linéarité et dimensionRésultats de Thomas Cover (1965)

la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1

2

distribution de plus en plus « piquée » :

1000 1500 2000 2500 3000

0.0

0.2

0.4

0.6

0.8

1.0

Probabilité d'être linéairement séparable en dimension 1000

N

103 / 122 F. Rossi Discrimination

Page 222: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Conséquences

problèmes « simples » :• p

N � 2 : beaucoup de variables pour peu d’observations• classifieur linéaire :

• généralement une infinité de choix possibles• critère de choix très important• régularisation cruciale

problèmes « difficiles » :• N

p � 2• pas de séparateur linéaire• peu de variables et/ou beaucoup d’observations• données « contradictoires » (classes partiellement

superposées)

la situation est la même qu’en régression

104 / 122 F. Rossi Discrimination

Page 223: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Méthodes non linéaires

même principe d’extension que pour la régressiontransformation explicite des variablestransformation implicite :• passage par un noyau• régression ridge à noyau et erreur quadratique• analyse discriminante de Fisher à noyau• machines à vecteurs de support (MVS) à noyau :

• la formulation duale fait apparaître les 〈xi , xj〉• il suffit de remplacer par un noyau pour obtenir une MVS non

linéaire

comme en régression, la difficulté est le choix du modèle

105 / 122 F. Rossi Discrimination

Page 224: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

PlanIntroduction et modélisation mathématique

Apprentissage superviséQualité d’un modèle

RégressionRégression linéaireRégularisationNon linéaire

DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire

Sélection de modèle

106 / 122 F. Rossi Sélection de modèle

Page 225: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Le modèle parfaitsi les données d’apprentissage ne sont pascontradictoires, il existe un modèle parfaitdonnées contradictoires : xi = xj et yi 6= yjmodèle parfait :• algorithme des plus proches voisins• régression utilisant le noyau gaussien avec σ petit• etc.

le modèle parfait n’a aucun intérêt car il colle au bruit :• apprentissage par cœur• sur-apprentissage

principe du rasoir d’Occam : de deux modèles quiexpliquent aussi bien un phénomène, on choisit le plussimple

Les multiples ne doivent pas être utilisés sansnécessité

107 / 122 F. Rossi Sélection de modèle

Page 226: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Estimation des performancesle problème fondamental est l’estimation de

L(g) = EP{l(g(x), y)}

alors qu’on ne connaît pas P, la distribution des donnéesla loi des grands nombres

limM→∞

1M

M∑i=1

l(g(xi), yi) = L(g)

nécessite des données indépendantes du modèled’où la méthode de l’ensemble de validation :• on découpe les données observées en un ensemble

d’apprentissage et un ensemble de validation• on construit de modèle sur l’apprentissage, on l’évalue sur

la validation

108 / 122 F. Rossi Sélection de modèle

Page 227: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Validation

Avantages :• facile à mettre en œuvre• temps de calcul raisonnable

Inconvénients :• nécessite beaucoup de données :

• au moins deux ensembles• si on veut évaluer un modèle sélectionné sur l’ensemble de

validation, on doit utiliser un troisième ensemble : l’ensemblede test

• sensible au découpage• réduit les données utilisées pour construire le modèle :

résultats moins robustes

109 / 122 F. Rossi Sélection de modèle

Page 228: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Validation croisée

idée principale• échanger les ensembles d’apprentissage et de validation• apprendre un modèle sur D = (xi , yi )1≤i≤N et l’évaluer surD′ = (xi , yi )N+1≤i≤N+M ...

• puis apprendre un modèle sur D′ et l’évaluer sur D ...• et enfin combiner les évaluations

solution générale :1. découpage des données en k sous-ensembles D1, . . . ,Dn2. pour tout i :

2.1 apprentissage sur l’union des Dj avec j 6= i2.2 évaluation sur Di

3. combinaison des évaluations

si k = N on parle de leave-one-out.

110 / 122 F. Rossi Sélection de modèle

Page 229: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Validation croisée

Estimation desperformances

Test

Apprentissage

Test

Apprentissage

111 / 122 F. Rossi Sélection de modèle

Page 230: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Validation croisée

procédure détaillée :• apprentissage sur

⋃j 6=i Dk ⇒ gi

• prédictions sur Di , y (i)l = gi (xl ) pour xl ∈ Di

• donc pour tout xl ∈ D, on a une prédiction y (i)l (pour un

certain i)• évaluation : 1

N

∑Nl=1 In

y (i)l 6=yl

opas de classifieur unique !applications :• évaluation de performances• sélection de modèle :

• évaluation des performances pour chaque configurationchoisie (degré du polynôme, etc.)

• choix de la meilleure configuration• construction d’un classifieur sur l’ensemble des données

112 / 122 F. Rossi Sélection de modèle

Page 231: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Validation croisée

avantages :• facile à mettre en œuvre• utilise toutes les données pour évaluer le modèle

inconvénients :• sensible au découpage et au nombre de blocs• temps de calcul élevé• ne donne pas directement un modèle

solution la plus utilisée aujourd’huine dispense pas du découpage apprentissage/test

113 / 122 F. Rossi Sélection de modèle

Page 232: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Le Bootstrap

Méthode générale d’estimation de la qualité d’un estimateur,basée sur un ré-échantillonnage :

on cherche à estimer θ, une statistique sur lesobservations (les x i )on se donne θ(x1, . . . , xN) un estimateur de θon cherche à déterminer :• le biais de θ• la variance de θ

solution :• fabriquer des échantillons bootstrap• un échantillon bootstrap : (x1

∗ , . . . , xN∗ ) obtenu par tirage

aléatoire uniforme avec remise dans l’échantillond’origine (x1, . . . , xN)

• simule des nouveaux tirages pour les (x1, . . . , xN)

114 / 122 F. Rossi Sélection de modèle

Page 233: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Principe

Monde Réel

Echantillon Bootstrap

Echantillon Bootstrap

(x1∗ , . . . , xN

∗ )→ θ∗

(x1∗ , . . . , xN

∗ )→ θ∗(x1, . . . , xN)→ θ

Echantillon

Tirage Aléatoire

X → θ

Monde Réel

115 / 122 F. Rossi Sélection de modèle

Page 234: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Principe

Tirage Aléatoire

Monde Réel

Echantillon

Monde Réel

(x1, . . . , xN)→ θ

X → θ

Echantillon Bootstrap

Echantillon Bootstrap

(x1∗ , . . . , xN

∗ )→ θ∗

(x1∗ , . . . , xN

∗ )→ θ∗

115 / 122 F. Rossi Sélection de modèle

Page 235: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Estimation du biais

Algorithme :1. pour b allant de 1 à n

1.1 engendrer un échantillon bootstrap (x1∗b, . . . , x

N∗b)

1.2 calculer θ∗b = θ(x1∗b, . . . , x

N∗b)

2. l’estimation du biais est

1n

n∑b=1

θ∗b − θ(x1, . . . , xN)

Idée, remplacer le monde réel par l’échantillon :le premier terme estime l’espérance de l’estimateurle second terme estime l’estimateur

116 / 122 F. Rossi Sélection de modèle

Page 236: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Estimation de la variance

Algorithme :1. pour b allant de 1 à n

1.1 engendrer un échantillon bootstrap (x1∗b, . . . , x

N∗b)

1.2 calculer θ∗b = θ(x1∗b, . . . , x

N∗b)

2. calculer

θ∗ =1b

n∑b=1

θ∗b

3. l’estimation de la variance est

1n − 1

n∑b=1

(θ∗b − θ∗

)2

117 / 122 F. Rossi Sélection de modèle

Page 237: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Application à l’évaluation d’un modèle

Raisonnement :l’évaluation d’un modèle consiste à estimer sesperformancesl’erreur résiduelle sur l’ensemble d’apprentissagesous-estime l’erreur réelleidée, estimer l’ampleur de la sous-estimation parbootstrap :• calculer la sous-estimation pour un échantillon bootstrap• moyenner les sous-estimations pour beaucoup

d’échantillons bootstrap• corriger l’erreur résiduelle en ajoutant la moyenne

118 / 122 F. Rossi Sélection de modèle

Page 238: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Évaluation d’un modèle

Algorithme :1. pour b allant de 1 à n

1.1 engendrer un échantillon bootstrap (x1∗b, . . . , x

N∗b) (à partir

de l’ensemble d’apprentissage)1.2 estimer le modèle optimal pour l’échantillon bootstrap1.3 calculer B∗b comme la différence entre l’erreur résiduelle du

modèle sur l’échantillon d’apprentissage et l’erreurrésiduelle du modèle sur l’échantillon bootstrap

2. estimer l’erreur résiduelle E du modèle optimal surl’ensemble d’apprentissage

3. corriger cette erreur en lui ajoutant 1n∑n

b=1 B∗b

119 / 122 F. Rossi Sélection de modèle

Page 239: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

VariantesEstimation directe de l’erreur du modèle optimal

moyenne empirique de l’erreur commise sur l’ensembled’apprentissage par le modèle construit sur l’échantillonbootstrap (EB)moyenne empirique de l’erreur commise sur lecomplémentaire de l’échantillon bootstrap par le modèleconstruit sur l’échantillon (bootstrap out-of-bag, Eoob)bootstrap 632 : combinaison de l’estimation out-of-bag etde l’estimation naïve (sur l’ensemble d’apprentissage)

E632 = 0.632 Eoob + 0.368 E

Probabilité qu’une observation de l’ensembled’apprentissage soit dans un échantillon bootstrap : 0.632

120 / 122 F. Rossi Sélection de modèle

Page 240: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Bootstrap

Points positifs :• facile à mettre en œuvre• utilise toutes les données• donne des intervalles de confiance

Points négatifs :• temps de calcul très élevé• nombreuses variantes• ne donne pas directement un modèle

ne dispense pas du découpage apprentissage/test

121 / 122 F. Rossi Sélection de modèle

Page 241: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère

Résumé

l’erreur empirique ne donne pas une bonne idée desperformances en généralisationil faut toujours utiliser une méthode valide pour estimer lesperformancesdécoupage et rééchantillonnage :• méthodes classiques et éprouvées• rééchantillonnage (validation croisée et bootstrap) : lent

mais utilise toutes les données• validation (découpage) : rapide mais nécessite beaucoup

de données

122 / 122 F. Rossi Sélection de modèle