fabrice rossi telecom paristech mai/juin 2009 · 8 / 122 f. rossi introduction et modélisation...
TRANSCRIPT
![Page 1: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/1.jpg)
Apprentissage supervisé
Fabrice Rossi
TELECOM ParisTech
Mai/Juin 2009
![Page 2: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/2.jpg)
PlanIntroduction et modélisation mathématique
Apprentissage superviséQualité d’un modèle
RégressionRégression linéaireRégularisationNon linéaire
DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire
Sélection de modèle
2 / 122 F. Rossi
![Page 3: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/3.jpg)
PlanIntroduction et modélisation mathématique
Apprentissage superviséQualité d’un modèle
RégressionRégression linéaireRégularisationNon linéaire
DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire
Sélection de modèle
3 / 122 F. Rossi Introduction et modélisation mathématique
![Page 4: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/4.jpg)
Apprentissage automatiqueDéfinition informelle
1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle
le tout automatiquement (sans intervention humaine)
Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :
1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.
2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y
4 / 122 F. Rossi Introduction et modélisation mathématique
![Page 5: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/5.jpg)
Apprentissage automatiqueDéfinition informelle
1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle
le tout automatiquement (sans intervention humaine)
Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Z
deux grandes catégories de données :1. cas non supervisé :
• pas de structure interne à z• classification, règles d’association, etc.
2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y
4 / 122 F. Rossi Introduction et modélisation mathématique
![Page 6: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/6.jpg)
Apprentissage automatiqueDéfinition informelle
1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle
le tout automatiquement (sans intervention humaine)
Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :
1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.
2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y
4 / 122 F. Rossi Introduction et modélisation mathématique
![Page 7: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/7.jpg)
Apprentissage automatiqueDéfinition informelle
1. observations d’un phénomène2. construction d’un modèle de ce phénomène3. prévisions et analyse du phénomène grâce au modèle
le tout automatiquement (sans intervention humaine)
Modélisation mathématique :observations d’un phénomène⇒ des données zi ∈ Zdeux grandes catégories de données :
1. cas non supervisé :• pas de structure interne à z• classification, règles d’association, etc.
2. cas supervisé :• z = (x , y) ∈ X × Y• modélisation du lien entre x et y• pour faire des prévisions : connaissant x , on prédit y
4 / 122 F. Rossi Introduction et modélisation mathématique
![Page 8: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/8.jpg)
Apprentissage supervisédiscrimination/classement :• Y = {1, . . . ,q} : q classes d’objets• prévision : placer une nouvelle observation x dans une des
q classes• applications : diagnostic médical (malade/sain),
reconnaissance de caractères, etc.
ranking/scoring :• apprendre un ordre sur un ensemble d’objets• prévision : donner des objets intéressants (grands au sens
de l’ordre) ; dire si un objet est plus intéressant qu’un autre ;donne un score d’intérêt à un objet
• Y = {0,1} : 1 pour intéressant, 0 pour inintéressant• autres choix possibles pour Y (par ex. R ou tout ensemble
ordonné)• applications : recherche d’informations (page rank de
Google), suggestions (amazon, netflix)
5 / 122 F. Rossi Introduction et modélisation mathématique
![Page 9: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/9.jpg)
Apprentissage supervisédiscrimination/classement :• Y = {1, . . . ,q} : q classes d’objets• prévision : placer une nouvelle observation x dans une des
q classes• applications : diagnostic médical (malade/sain),
reconnaissance de caractères, etc.ranking/scoring :• apprendre un ordre sur un ensemble d’objets• prévision : donner des objets intéressants (grands au sens
de l’ordre) ; dire si un objet est plus intéressant qu’un autre ;donne un score d’intérêt à un objet
• Y = {0,1} : 1 pour intéressant, 0 pour inintéressant• autres choix possibles pour Y (par ex. R ou tout ensemble
ordonné)• applications : recherche d’informations (page rank de
Google), suggestions (amazon, netflix)
5 / 122 F. Rossi Introduction et modélisation mathématique
![Page 10: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/10.jpg)
Apprentissage supervisé
régression :• Y = R ou Y = Rp
• prévision : associer une valeur numérique à une nouvelleobservation
• applications : certaines formes de scoring (note d’un objet,d’un consommateur), prévisions de la valeur future d’uneaction, etc.
sortie structurée :• Y est un ensemble structuré complexe : ensemble de
fonctions, chaînes de caractères, arbres, graphes, etc.• prévision : associer un objet de l’ensemble complexe à une
nouvelle observation• application : inférence grammaticale (associer un arbre de
syntaxe à un texte), traduction automatique, etc.
6 / 122 F. Rossi Introduction et modélisation mathématique
![Page 11: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/11.jpg)
Apprentissage supervisé
régression :• Y = R ou Y = Rp
• prévision : associer une valeur numérique à une nouvelleobservation
• applications : certaines formes de scoring (note d’un objet,d’un consommateur), prévisions de la valeur future d’uneaction, etc.
sortie structurée :• Y est un ensemble structuré complexe : ensemble de
fonctions, chaînes de caractères, arbres, graphes, etc.• prévision : associer un objet de l’ensemble complexe à une
nouvelle observation• application : inférence grammaticale (associer un arbre de
syntaxe à un texte), traduction automatique, etc.
6 / 122 F. Rossi Introduction et modélisation mathématique
![Page 12: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/12.jpg)
Vocabulaire
x : variables explicatives (espace associé X )y : variable à expliquer (espace associé Y)un modèle g : une fonction de X dans Yg(x) est la prédiction/prévision du modèle pour l’entrée xl’ensemble des données à partir desquelles on construit lemodèle est l’ensemble d’apprentissagecollisions Français et Anglais :
Français AnglaisClassification ClusteringClassement Classification ou ranking
Discrimination Classification
7 / 122 F. Rossi Introduction et modélisation mathématique
![Page 13: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/13.jpg)
Buts
buts principaux :• obtenir un « bon » modèle : la prévision obtenue est proche
de la vraie valeur• obtenir rapidement un modèle rapide : temps de
construction du modèle et temps nécessaire à l’obtentiond’une prévision
• pouvoir garantir les performances : avec une probabilité de1− r , la prévision sera bonne à ε près
buts annexes :• obtenir un modèle compréhensible : comment le modèle
prend il une décision ?• obtenir un modèle modifiable : pouvoir prendre en compte
de nouvelles données, s’adapter à un environnementchangeant, etc.
8 / 122 F. Rossi Introduction et modélisation mathématique
![Page 14: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/14.jpg)
Erreur de prédictionQu’est-ce qu’une bonne prédiction ?
on considère une observation z = (x , y) et une prédictiong(x) faite par un modèlela qualité de g(x) peut être mesurée par une dissimilarité ldéfinie sur Y : l(g(x), y) doit être petitl est le critère d’erreur :• régression :
• distances classiques sur Rp
• en général ‖g(x)− y‖2 et parfois |g(x)− y | dans R pour lesméthodes de régression dites robustes
• discrimination :• décompte des erreurs : δg(x) 6=y• matrice des coûts de confusion : par ex. prédire g(x) = 1
alors que y = 0 peut être plus coûteux que prédire g(x) = 0quand y = 1 (diagnostic médical)
9 / 122 F. Rossi Introduction et modélisation mathématique
![Page 15: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/15.jpg)
Erreur d’un modèleQu’est-ce qu’un bon modèle ?
Vision « naïve » :• données d’évaluation TM = (xi , yi )
Mi=1
• l est le critère d’erreur dans Y• l’erreur du modèle g est donnée par
L(g; TM) =1M
M∑i=1
l(g(xi ), yi )
• erreur du modèle : moyenne des erreurs de prédiction• erreur empirique
interprétation intuitive :• exigence raisonnable : ne pas se tromper en moyenne• la moyenne résume bien la dispersion des erreurs
10 / 122 F. Rossi Introduction et modélisation mathématique
![Page 16: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/16.jpg)
Erreur d’un modèleQu’est-ce qu’un bon modèle ?
Vision « naïve » :• données d’évaluation TM = (xi , yi )
Mi=1
• l est le critère d’erreur dans Y• l’erreur du modèle g est donnée par
L(g; TM) =1M
M∑i=1
l(g(xi ), yi )
• erreur du modèle : moyenne des erreurs de prédiction• erreur empirique
interprétation intuitive :• exigence raisonnable : ne pas se tromper en moyenne• la moyenne résume bien la dispersion des erreurs
10 / 122 F. Rossi Introduction et modélisation mathématique
![Page 17: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/17.jpg)
Erreur d’un modèleQu’est-ce qu’un bon modèle ?
modélisation statistique du processus :• on suppose que le phénomène étudié est engendré par
une loi de probabilité P inconnue sur X × Y• chaque couple observé (x , y) est tiré aléatoirement selon P
l’erreur du modèle g est donnée par
L(g) = EP{l(g(x), y)}
c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des donnéesremarque : le calcul exact de L(g) est impossible car P estinconnue
11 / 122 F. Rossi Introduction et modélisation mathématique
![Page 18: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/18.jpg)
Erreur d’un modèleQu’est-ce qu’un bon modèle ?
modélisation statistique du processus :• on suppose que le phénomène étudié est engendré par
une loi de probabilité P inconnue sur X × Y• chaque couple observé (x , y) est tiré aléatoirement selon P
l’erreur du modèle g est donnée par
L(g) = EP{l(g(x), y)}
c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des données
remarque : le calcul exact de L(g) est impossible car P estinconnue
11 / 122 F. Rossi Introduction et modélisation mathématique
![Page 19: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/19.jpg)
Erreur d’un modèleQu’est-ce qu’un bon modèle ?
modélisation statistique du processus :• on suppose que le phénomène étudié est engendré par
une loi de probabilité P inconnue sur X × Y• chaque couple observé (x , y) est tiré aléatoirement selon P
l’erreur du modèle g est donnée par
L(g) = EP{l(g(x), y)}
c.-à-d. l’espérance de l’erreur de prédiction sous ladistribution des donnéesremarque : le calcul exact de L(g) est impossible car P estinconnue
11 / 122 F. Rossi Introduction et modélisation mathématique
![Page 20: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/20.jpg)
Justifications
pourquoi de l’aléatoire ?• bruit dans les observations• données incomplètes• variabilité naturelle
pourquoi une distribution P fixée ?• stationnarité• condition nécessaire à l’inférence : si un phénomène
change constamment, on ne peut pas le prédire• extensions possibles aux variations lentes
pourquoi l’espérance ?• naturelle dans un cadre statistique• pour s’affranchir de la variabilité des nouvelles observations
12 / 122 F. Rossi Introduction et modélisation mathématique
![Page 21: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/21.jpg)
Pratique vs statistiquela loi des grands nombres dit que
limN→∞
1N
N∑i=1
Ui = E(U)
quand les Ui sont indépendantes et distribuées comme Usi les données d’évaluation TM = (xi , yi)
Mi=1 sont
distribuées selon P et indépendantes, alors
limM→∞
L(g; TM) = L(g)
indépendance statistique ?• (xi , yi ) est choisie sans rien savoir des tirages précédents• chaque observation (xi , yi ) apporte de nouvelles
informations
13 / 122 F. Rossi Introduction et modélisation mathématique
![Page 22: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/22.jpg)
Pratique vs statistiquela loi des grands nombres dit que
limN→∞
1N
N∑i=1
Ui = E(U)
quand les Ui sont indépendantes et distribuées comme Usi les données d’évaluation TM = (xi , yi)
Mi=1 sont
distribuées selon P et indépendantes, alors
limM→∞
L(g; TM) = L(g)
indépendance statistique ?• (xi , yi ) est choisie sans rien savoir des tirages précédents• chaque observation (xi , yi ) apporte de nouvelles
informations
13 / 122 F. Rossi Introduction et modélisation mathématique
![Page 23: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/23.jpg)
Interprétation
comment interpréter L(g) ?• on considère M observations (xi , yi )
Mi=1
• on calcule
L(g; (xi , yi )Mi=1) =
1M
M∑i=1
l(g(xi ), yi )
• alors pour M « grand », L(g; (xi , yi )Mi=1) ' L(g)
remarque :• en discrimination, Y = {1, . . . ,q}• si l(g(x), y) = δg(x) 6=y , alors la qualité
L(g) = EP{l(g(x), y)} = P(g(x) 6= y)
correspond à la probabilité d’erreur de classement
14 / 122 F. Rossi Introduction et modélisation mathématique
![Page 24: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/24.jpg)
Interprétation
comment interpréter L(g) ?• on considère M observations (xi , yi )
Mi=1
• on calcule
L(g; (xi , yi )Mi=1) =
1M
M∑i=1
l(g(xi ), yi )
• alors pour M « grand », L(g; (xi , yi )Mi=1) ' L(g)
remarque :• en discrimination, Y = {1, . . . ,q}• si l(g(x), y) = δg(x) 6=y , alors la qualité
L(g) = EP{l(g(x), y)} = P(g(x) 6= y)
correspond à la probabilité d’erreur de classement
14 / 122 F. Rossi Introduction et modélisation mathématique
![Page 25: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/25.jpg)
Interprétationpar exemple en discrimination à deux classes, avecL(g) = 0.1 :• la probabilité de se tromper de classe est de 10 %• en moyenne sur un grand nombre d’observations, on se
trompera une fois sur dix• cela n’exclut pas de se tromper 5 fois de suite, la probabilité
est simplement faible :• 1 chance sur cent mille• si on répète de très nombreuses fois le tirage de 5
observations, alors on se trompera sur les 5 observationsseulement dans un cas sur cent mille en moyenne
on peut donner des intervalles de confiance surL(g; (xi , yi)
Mi=1) autour de L(g) en fonction de M de la forme
P{∣∣∣L(g; (xi , yi)
Mi=1)− L(g)
∣∣∣ > ε}< 1− δ
15 / 122 F. Rossi Introduction et modélisation mathématique
![Page 26: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/26.jpg)
Interprétationpar exemple en discrimination à deux classes, avecL(g) = 0.1 :• la probabilité de se tromper de classe est de 10 %• en moyenne sur un grand nombre d’observations, on se
trompera une fois sur dix• cela n’exclut pas de se tromper 5 fois de suite, la probabilité
est simplement faible :• 1 chance sur cent mille• si on répète de très nombreuses fois le tirage de 5
observations, alors on se trompera sur les 5 observationsseulement dans un cas sur cent mille en moyenne
on peut donner des intervalles de confiance surL(g; (xi , yi)
Mi=1) autour de L(g) en fonction de M de la forme
P{∣∣∣L(g; (xi , yi)
Mi=1)− L(g)
∣∣∣ > ε}< 1− δ
15 / 122 F. Rossi Introduction et modélisation mathématique
![Page 27: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/27.jpg)
Généralisation
Définition informelleL’erreur en généralisation d’un modèle est celle des prédictionsobtenues sur des nouvelles observations
notion cruciale en apprentissage supervisémathématiquement, il s’agit simplement de L(g)
problème fondamental : comment estimer l’erreur engénéralisation alors qu’on ne connaît pas P ?loi des grands nombres ?
16 / 122 F. Rossi Introduction et modélisation mathématique
![Page 28: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/28.jpg)
Problème d’estimation
processus d’apprentissage :• ensemble d’apprentissage : N observationsDN = (xi , yi )
Ni=1, distribuées selon P et indépendantes
• l’algorithme choisi construit un modèle g qui dépend de DN
que dire de
L(g; (xi , yi)Ni=1) =
1N
N∑i=1
l(g(xi), yi)
rien (simplement) car la loi des grands nombres nes’applique pas ici :• les (xi , yi ) sont indépendants• mais les l(g(xi ), yi ) ne le sont pas à cause de g
17 / 122 F. Rossi Introduction et modélisation mathématique
![Page 29: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/29.jpg)
Problème d’estimation
processus d’apprentissage :• ensemble d’apprentissage : N observationsDN = (xi , yi )
Ni=1, distribuées selon P et indépendantes
• l’algorithme choisi construit un modèle g qui dépend de DN
que dire de
L(g; (xi , yi)Ni=1) =
1N
N∑i=1
l(g(xi), yi)
rien (simplement) car la loi des grands nombres nes’applique pas ici :• les (xi , yi ) sont indépendants• mais les l(g(xi ), yi ) ne le sont pas à cause de g
17 / 122 F. Rossi Introduction et modélisation mathématique
![Page 30: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/30.jpg)
K plus proches voisinsalgorithme classique de discrimination/régressionN observations DN = (xi , yi)
Ni=1 et un paramètre K
on suppose que X est muni d’une dissimilarité dalgorithme de calcul de gK (x) :
1. calcul des dissimilarités d(x , xi ) pour 1 ≤ i ≤ N2. tri des dissimilarités tels que d(x , xji ) ≤ d(x , xji+1 )3. gK (x) est
• la classe majoritaire dans les K labels yj1 , . . . , yjk endiscrimination
• le centre de gravité des K vecteurs yj1 , . . . , yjk en régression
on a g1(xi) = yi et donc pour tout critère l raisonnable,
L(g1; (xi , yi)Ni=1) =
1N
N∑i=1
l(g1(xi), yi) = 0
18 / 122 F. Rossi Introduction et modélisation mathématique
![Page 31: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/31.jpg)
K plus proches voisinsalgorithme classique de discrimination/régressionN observations DN = (xi , yi)
Ni=1 et un paramètre K
on suppose que X est muni d’une dissimilarité dalgorithme de calcul de gK (x) :
1. calcul des dissimilarités d(x , xi ) pour 1 ≤ i ≤ N2. tri des dissimilarités tels que d(x , xji ) ≤ d(x , xji+1 )3. gK (x) est
• la classe majoritaire dans les K labels yj1 , . . . , yjk endiscrimination
• le centre de gravité des K vecteurs yj1 , . . . , yjk en régression
on a g1(xi) = yi et donc pour tout critère l raisonnable,
L(g1; (xi , yi)Ni=1) =
1N
N∑i=1
l(g1(xi), yi) = 0
18 / 122 F. Rossi Introduction et modélisation mathématique
![Page 32: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/32.jpg)
Exemple
classement
frontière optimalelinéaire
19 / 122 F. Rossi Introduction et modélisation mathématique
![Page 33: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/33.jpg)
Exemple
classement
frontière optimalelinéaire
grille d’évaluation
19 / 122 F. Rossi Introduction et modélisation mathématique
![Page 34: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/34.jpg)
Exemple
classement
frontière optimalelinéaire
classement optimal
19 / 122 F. Rossi Introduction et modélisation mathématique
![Page 35: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/35.jpg)
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0968
L(g) = 0
1 voisin
19 / 122 F. Rossi Introduction et modélisation mathématique
![Page 36: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/36.jpg)
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0892
L(g) = 0.065
3 voisins
19 / 122 F. Rossi Introduction et modélisation mathématique
![Page 37: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/37.jpg)
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0524
L(g) = 0.085
5 voisins
19 / 122 F. Rossi Introduction et modélisation mathématique
![Page 38: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/38.jpg)
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0416
L(g) = 0.0875
11 voisins
19 / 122 F. Rossi Introduction et modélisation mathématique
![Page 39: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/39.jpg)
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0404
L(g) = 0.085
15 voisins
19 / 122 F. Rossi Introduction et modélisation mathématique
![Page 40: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/40.jpg)
Exemple
classement
frontière optimalelinéaire
L(g) ' 0.0456
L(g) = 0.095
21 voisins
19 / 122 F. Rossi Introduction et modélisation mathématique
![Page 41: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/41.jpg)
Optimisme
l’exemple précédent est très représentatif :• on peut souvent construire g tel que g(xi ) = yi sur DN• pour un critère d’erreur raisonnable, on aura donc
L(g; (xi , yi )Ni=1) = 0
• mais en général, L(g) > 0
l’erreur empirique sur l’ensemble d’apprentissage estgénéralement (très) optimistec’est une mauvaise estimation de l’erreur en généralisation
Point à retenirobtenir une bonne estimation des performances d’un modèleest la principale difficulté de l’apprentissage automatique
20 / 122 F. Rossi Introduction et modélisation mathématique
![Page 42: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/42.jpg)
Résumé
l’apprentissage supervisé• construit un modèle pour prédire y à partir de x• en s’appuyant sur un ensemble d’apprentissage constitué
d’exemples d’associations (x , y)
suite du cours :• quelques modèles et algorithmes associés• méthodologie :
• comment évaluer les performances d’un modèle ?• comment choisir un bon modèle ?
21 / 122 F. Rossi Introduction et modélisation mathématique
![Page 43: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/43.jpg)
PlanIntroduction et modélisation mathématique
Apprentissage superviséQualité d’un modèle
RégressionRégression linéaireRégularisationNon linéaire
DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire
Sélection de modèle
22 / 122 F. Rossi Régression
![Page 44: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/44.jpg)
Régression linéaire
exemple le plus élémentaire d’apprentissage automatique :• on dispose de N couples de réels (xi , yi ) (l’ensemble
d’apprentissage)• on cherche deux réels a et b tels que yi ' axi + b pour tout
1 ≤ i ≤ N• le modèle est linéaire :
• la fonction qui aux paramètres associe le modèle est linéaire(a, b) 7→ (x 7→ ax + b)
• le modèle lui même est affine
stratégie de construction du modèle :• minimisation de l’erreur des moindres carrés
(a∗,b∗) = arg mina,b
N∑i=1
(axi + b − yi )2
23 / 122 F. Rossi Régression
![Page 45: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/45.jpg)
ExempleAnalyse spectroscopique de vins
−20 −10 0 10 20 30
810
1214
spectre1
alco
ol
24 / 122 F. Rossi Régression
![Page 46: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/46.jpg)
ExempleAnalyse spectroscopique de vins
−20 −10 0 10 20 30
810
1214
spectre1
alco
ol
24 / 122 F. Rossi Régression
![Page 47: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/47.jpg)
Résolution
si E(a,b) =∑N
i=1(axi + b − yi)2, on a
∇aE(a,b) = 2
(a
N∑i=1
x2i +
N∑i=1
xi(b − yi)
)
et
∇bE(a,b) = 2N
(b +
1N
N∑i=1
(axi − yi)
)∇E = 0 conduit à une unique solution (a∗,b∗)
25 / 122 F. Rossi Régression
![Page 48: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/48.jpg)
Leçon générale
méthode de construction de la régression linéaire• choix d’une classe de modèles
F ={
f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}
• choix dans la classe du modèle d’erreur empiriqueminimale sur l’ensemble d’apprentissage
f ∗ = arg minf∈F
L(f ; {(x1, y1), . . . , (xN , yN)})
principe de la minimisation du risque empirique :• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste
26 / 122 F. Rossi Régression
![Page 49: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/49.jpg)
Leçon générale
méthode de construction de la régression linéaire• choix d’une classe de modèles
F ={
f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}
• choix dans la classe du modèle d’erreur empiriqueminimale sur l’ensemble d’apprentissage
f ∗ = arg minf∈F
L(f ; {(x1, y1), . . . , (xN , yN)})
principe de la minimisation du risque empirique
:• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste
26 / 122 F. Rossi Régression
![Page 50: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/50.jpg)
Leçon générale
méthode de construction de la régression linéaire• choix d’une classe de modèles
F ={
f : R → R | ∃(a,b) ∈ R2, f (x) = ax + b}
• choix dans la classe du modèle d’erreur empiriqueminimale sur l’ensemble d’apprentissage
f ∗ = arg minf∈F
L(f ; {(x1, y1), . . . , (xN , yN)})
principe de la minimisation du risque empirique :• méthode centrale de l’apprentissage automatique• lien très fort avec l’optimisation continue• problème associé : L(f ;D) est optimiste
26 / 122 F. Rossi Régression
![Page 51: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/51.jpg)
Régression linéaire multiple
extension à plusieurs variables explicatives :• X = Rp et Y = R• modèles considérés
F =
{f : Rp → R | f (x) = β0 +
p∑i=1
βixi
}
vision apprentissage : minimisation du risque empirique
vision statistique classique :• les Xi sont des variables aléatoires à valeurs dans R• ε est un bruit (aléatoire)• Y est distribuée selon
Y = β0 +
p∑i=1
βiXi + ε
27 / 122 F. Rossi Régression
![Page 52: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/52.jpg)
Régression linéaire multiple
extension à plusieurs variables explicatives :• X = Rp et Y = R• modèles considérés
F =
{f : Rp → R | f (x) = β0 +
p∑i=1
βixi
}
vision apprentissage : minimisation du risque empiriquevision statistique classique :• les Xi sont des variables aléatoires à valeurs dans R• ε est un bruit (aléatoire)• Y est distribuée selon
Y = β0 +
p∑i=1
βiXi + ε
27 / 122 F. Rossi Régression
![Page 53: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/53.jpg)
Moindres carrés
notations simplificatrices :• on ajoute une « variable » x0 toujours égale à 1• on note Y = (y1, . . . , yN)T et X la matrice dont les colonnes
sont les variables :
X =
1 x11 x12 . . . x1p...
. . ....
1 xN1 xN2 . . . xNp
• on cherche alors β = (β0, . . . , βp)T tel que Y ' Xβ
minimisation de l’erreur quadratique
β∗ = arg minβ‖Y − Xβ‖2 = arg min
β
N∑i=1
(Yi − (Xβ)i)2
28 / 122 F. Rossi Régression
![Page 54: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/54.jpg)
Moindres carrés
∇β‖Y − Xβ‖2 = 0 conduit aux équations normales
(X T X )β∗ = X T Y
résolution (coût et stabilité croissants) :• approche directe en O
(p3 + Np2
)β∗ = (X T X )−1X T Y
• décomposition QR en O(Np2
)X = QR avec Q orthogonale et R triangulaire supérieure
• décomposition en valeurs singulières en O(Np2
)X = UDV T avec D diagonale, et U et V orthogonales)
en général, on utilise la décomposition QR
29 / 122 F. Rossi Régression
![Page 55: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/55.jpg)
Maximum de vraisemblance
le modèle probabiliste s’écrit Y = Xβ + ε
hypothèses supplémentaires :• observations statistiquement indépendantes• bruit ε gaussien N (0, σ)
vraisemblance de (xi , yi)1≤i≤N(1√2πσ
)N N∏i=1
exp(− 1
2σ2 (yi − xiβ)2)
maximiser la log vraisemblance revient donc à minimiser
12σ2
N∑i=1
(yi − xiβ)2
30 / 122 F. Rossi Régression
![Page 56: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/56.jpg)
Liens
moindres carrés = maximum de vraisemblance• pour des observations indépendantes• et pour un bruit gaussien
homoscédasticité :• la variance du bruit ne dépend ni de x , ni de y• hypothèse assez forte
modèle probabiliste :• donne plus d’information : distribution des poids,
significativité, etc.• plus souple que les moindres carrés (cf aussi le cas de la
classification)• par exemple : bruit hétéroscédastique (variance non
uniforme)• mais plus complexe à mettre en œuvre
31 / 122 F. Rossi Régression
![Page 57: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/57.jpg)
Exemple
taux d’alcool dans le vinen fonction de deuxvariables spectrales
alcool
−20 0 20
810
1214
−20
020
spectre1
8 10 12 14 −20 0 10 30
−20
010
30
spectre2
32 / 122 F. Rossi Régression
![Page 58: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/58.jpg)
Exemple
taux d’alcool dans le vinen fonction de deuxvariables spectrales
spectre1spectre2
alcool
32 / 122 F. Rossi Régression
![Page 59: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/59.jpg)
Exemple
taux d’alcool dans le vinen fonction de deuxvariables spectrales
spectre1
spectre2
alcool
32 / 122 F. Rossi Régression
![Page 60: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/60.jpg)
Exemple
taux d’alcool dans le vinen fonction de deuxvariables spectrales
prédiction vs réalitévisualisation classiquequand p ≥ 2L(g) = 0.54
8 10 12 148
1012
1416
Réalité
Pré
dict
ion
Modèle idéal
32 / 122 F. Rossi Régression
![Page 61: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/61.jpg)
Exemple
taux d’alcool dans le vinen fonction de deuxvariables spectrales
prédiction vs réalitévisualisation classiquequand p ≥ 2une variable : L(g) = 0.92
8 10 12 148
1012
1416
Réalité
Pré
dict
ion
Modèle idéal
32 / 122 F. Rossi Régression
![Page 62: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/62.jpg)
Prédictions simultanéesrégression avec y ∈ Rq :• Y est la matrice des variables à prédire (une ligne par
observation)
Y =
y11 . . . y1q...
...yN1 . . . yNq
• β est maintenant une matrice (p + 1)× q
minimisation de l’erreur quadratique (erreur gaussiennehétéroscédastique)
β∗ = arg minβ‖Y − Xβ‖2 = arg min
β
q∑j=1
N∑i=1
(Yij − (Xβ)ij)2
revient à réaliser q régressions linéaires multiples
33 / 122 F. Rossi Régression
![Page 63: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/63.jpg)
En R
fonction lm du package stats :• modèle linéaire par moindres carrés (méthode QR)• interprétation statistique classique (significativité, etc.)• support des formules (au sens R) :
• données sous forme d’une data.frame• formules du type y∼a+b-1 pour préciser les variables
explicatives (ici a et b) et supprimer le terme constant -1• fonction predict pour les prédictions
nombreuses extensions :• modèles linéaires généralisés• séries temporelles• etc.
34 / 122 F. Rossi Régression
![Page 64: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/64.jpg)
Limites
deux régimes « extrêmes » :• si N est grand devant p :
• beaucoup plus d’observations que de variables• le modèle linéaire n’est généralement pas assez complexe
• si N est petit devant p :• beaucoup plus de variables que d’observations• le modèle linéaire est généralement trop complexe
plage d’utilisation directe : quand N est de l’ordre de αptrois grandes questions :
1. comment augmenter la complexité ?2. comment réduire la complexité ?3. comment choisir la complexité adaptée aux données ?
35 / 122 F. Rossi Régression
![Page 65: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/65.jpg)
Trop simple
60 70 80 90
050
100
150
Temp
Ozo
ne
36 / 122 F. Rossi Régression
![Page 66: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/66.jpg)
Trop simple
60 70 80 90
050
100
150
Temp
Ozo
ne
régression linéaire
36 / 122 F. Rossi Régression
![Page 67: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/67.jpg)
Trop simple
60 70 80 90
050
100
150
Temp
Ozo
ne
méthode non linéaire
36 / 122 F. Rossi Régression
![Page 68: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/68.jpg)
Trop complexe
taux d’alcool dans levin en fonction duspectre complet256 variablesexplicatives ( !)91 observations
37 / 122 F. Rossi Régression
![Page 69: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/69.jpg)
Trop complexe
taux d’alcool dans levin en fonction duspectre complet256 variablesexplicatives ( !)91 observations
prédiction vs réalité sur 30nouvelles observations 10 11 12 13 14
910
1112
1314
Réalité
Pré
dict
ion
Modèle idéal
Modèle linéaire
37 / 122 F. Rossi Régression
![Page 70: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/70.jpg)
Trop complexe
taux d’alcool dans levin en fonction duspectre complet256 variablesexplicatives ( !)91 observations
prédiction vs réalité sur 30nouvelles observations 10 11 12 13 14
1011
1213
14Réalité
Pré
dict
ion
Modèle idéal
Modèle linéaire « réduit »
37 / 122 F. Rossi Régression
![Page 71: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/71.jpg)
Complexité
Définition informellela complexité d’une classe de modèles se mesure par la qualitéprédictive qu’elle peut atteindre sur un ensembled’apprentissage
pas assez complexe :• aucun modèle de la classe ne prédit bien y à partir de x• par exemple y = x2 et régression linéaire• Ozone et température
trop complexe :• certains modèles de la classe ne font aucune erreur sur
l’ensemble d’apprentissage• en général, Y = Xβ a une infinité de solutions quand N est
petit devant p• Alcool et spectre
38 / 122 F. Rossi Régression
![Page 72: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/72.jpg)
Sélection de modèle
approche de base :• choix d’une classe de modèles• puis choix du modèle d’erreur empirique minimale
ne fonctionne pas quand la classe est trop complexe :• exemple : pour la prévision du degré alcoolique en fonction
du spectre, l’erreur empirique est nulle• phénomène de sur-apprentissage (overfitting)
approche hiérarchique :• choix de plusieurs classes de modèles, de complexités
différentes• minimisation de l’erreur empirique dans chaque classe• puis choix du modèle parmi les candidats
• comment ?
39 / 122 F. Rossi Régression
![Page 73: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/73.jpg)
Sélection de modèle
approche de base :• choix d’une classe de modèles• puis choix du modèle d’erreur empirique minimale
ne fonctionne pas quand la classe est trop complexe :• exemple : pour la prévision du degré alcoolique en fonction
du spectre, l’erreur empirique est nulle• phénomène de sur-apprentissage (overfitting)
approche hiérarchique :• choix de plusieurs classes de modèles, de complexités
différentes• minimisation de l’erreur empirique dans chaque classe• puis choix du modèle parmi les candidats• comment ?
39 / 122 F. Rossi Régression
![Page 74: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/74.jpg)
Ensemble de validation
l’erreur empirique sur l’ensemble d’apprentissage est unmauvais choix car :• la loi des grands nombres ne s’applique pas (dépendance)• l’estimation des performances est optimiste
solution élémentaire (solutions plus sophistiquées dans lasuite du cours) :• utiliser d’autres données distribuées aussi selon P• VM = (xi , yi )
Mi=1 : ensemble de validation indépendant
• la loi des grands nombres s’applique : L(g;VM) ' L(g)• point crucial : le modèle doit être construit sans utiliser VM
méthode :• choix de plusieurs classes de modèles• minimisation de l’erreur empirique dans chaque classe• choix du modèle parmi les candidats par minimisation de
l’erreur de validation
40 / 122 F. Rossi Régression
![Page 75: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/75.jpg)
Réduire la complexité
source du problème :• le système Y = Xβ a une infinité de solution quand Y est
dans l’image de X• quand p est grand devant N, c’est très probable :
• moins d’équations (les N observations)• que d’inconnues (les p + 1 poids βj )
attaquer la source du problème :• réduire le nombre de variables• classes de modèles, pour tout S ⊂ {1, . . . ,p} :
FS =
{f : Rp → R | f (x) = β0 +
∑i∈S
βixi
}
• choisir un modèle revient à choisir les variables utilisées
41 / 122 F. Rossi Régression
![Page 76: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/76.jpg)
Réduire la complexité
source du problème :• le système Y = Xβ a une infinité de solution quand Y est
dans l’image de X• quand p est grand devant N, c’est très probable :
• moins d’équations (les N observations)• que d’inconnues (les p + 1 poids βj )
attaquer la source du problème :• réduire le nombre de variables• classes de modèles, pour tout S ⊂ {1, . . . ,p} :
FS =
{f : Rp → R | f (x) = β0 +
∑i∈S
βixi
}
• choisir un modèle revient à choisir les variables utilisées
41 / 122 F. Rossi Régression
![Page 77: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/77.jpg)
Sélection de variables
recherche exhaustive :• faisable quand p est petit : 2p − 1 configurations• accélération par branch and bound : faisable jusqu’à p ' 30
heuristiques d’exploration :• croissante (forward) :
• on ajoute des variables progressivement• S1 = {j1} est la variable qui donne le meilleur modèle
linéaire à une variable• S2 = {j1, j2} est obtenu en trouvant la variable j2 qui donne
avec j1 (fixée) le meilleur modèle linéaire à deux variables• etc.
• décroissante (backward) :• même principe mais en enlevant des variables• on commence donc par considérer le modèle complet
• mélange des deux...
42 / 122 F. Rossi Régression
![Page 78: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/78.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
1 variable
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 79: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/79.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
2 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 80: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/80.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
3 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 81: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/81.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
4 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 82: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/82.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 83: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/83.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
10 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 84: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/84.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
12 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 85: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/85.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
15 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 86: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/86.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
20 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 87: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/87.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
30 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 88: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/88.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
50 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 89: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/89.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
60 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 90: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/90.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
75 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 91: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/91.jpg)
Exemple
taux d’alcool dans levin en fonction duspectre91 observations⇒aucune erreurquand p = 90
8 10 12 14 16
810
1214
90 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
43 / 122 F. Rossi Régression
![Page 92: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/92.jpg)
Choix du modèle
0 20 40 60 80
5e−
055e
−04
5e−
035e
−02
5e−
01
Nombre de variables
Err
eur
empi
rique
apprentissagevalidation
12 variables
44 / 122 F. Rossi Régression
![Page 93: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/93.jpg)
Choix du modèle
courbe classique dusur-apprentissage :
décroissance constante del’erreur empirique surl’ensemble d’apprentissagedécroissance puiscroissance sur l’ensemblede validation
0 20 40 60 80
5e−
055e
−04
5e−
035e
−02
5e−
01
Nombre de variables
Err
eur
empi
rique
apprentissagevalidation
la bonne évaluation des performances est celle fournie parl’ensemble de validation
45 / 122 F. Rossi Régression
![Page 94: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/94.jpg)
Projection
les variables d’origine ne sont pas nécessairement les plusadaptéestechnique de réduction de la complexité (régression surcomposantes principales) :• réaliser une ACP des données• construire des modèles linéaires sur 1, 2, ..., p
composantes principales• choisir le meilleur modèle, c’est-à-dire le bon nombre de
composantesextension :• choisir des composantes orthogonales et corrélées avec la
variable à prédire Y• c’est la régression PLS (Partial Least Squares)
les composantes sont ordonnées : sélection forward parnature
46 / 122 F. Rossi Régression
![Page 95: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/95.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
1 variable
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 96: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/96.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
2 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 97: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/97.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
3 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 98: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/98.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
4 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 99: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/99.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 100: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/100.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
10 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 101: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/101.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
20 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 102: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/102.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
27 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 103: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/103.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
30 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 104: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/104.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
40 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 105: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/105.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
60 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 106: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/106.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrevariables induitespar l’ACP
8 10 12 14 16
810
1214
80 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
47 / 122 F. Rossi Régression
![Page 107: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/107.jpg)
Choix du modèle
0 20 40 60 80
2e−
041e
−03
5e−
035e
−02
5e−
01
Nombre de variables
Err
eur
empi
rique
apprentissagevalidation
27 variables ACP
48 / 122 F. Rossi Régression
![Page 108: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/108.jpg)
Régularisation
limitation de la sélection : tout ou rienapproche concurrente par contrainte de régularité :• idée sous-jacente :
• un bon modèle s’appuie sur la « continuité » de la nature• si u ' v alors g(u) ' g(v)
• dans le cas linéaire :• | 〈u, v〉 | ≤ ‖u‖‖v‖ (Cauchy-Schwarz)• donc | 〈x1, β〉 − 〈x2, β〉 | = | 〈x1 − x2, β〉 | ≤ ‖x1 − x2‖‖β‖• donc ‖β‖ donne une mesure de la régularité d’un modèle
linéaire
classe de modèles
FC =
{f : Rp → R | f (x) = β0 +
N∑i=1
βixi , ‖β‖ ≤ C
}
49 / 122 F. Rossi Régression
![Page 109: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/109.jpg)
Optimisation
résoudreβ∗ = arg min
β, ‖β‖≤C‖Y − Xβ‖2
peut sembler plus complexe qu’en l’absence de lacontraintemais par dualité convexe, il existe un λ tel que β∗ soit aussisolution de
β∗ = arg minβ
(‖Y − Xβ‖2 + λ‖β‖2
)on parle de régression ridge
50 / 122 F. Rossi Régression
![Page 110: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/110.jpg)
Résolution
la résolution est simple car le problème est toujoursquadratique en β∇β(‖Y − Xβ‖2 + λ‖β‖2
)= 0 conduit aux équations
normales modifiées
(X T X + λI)β∗ = X T Y
où I est la matrice identité (de taille p + 1)le conditionnement de X T X + λI s’améliore avec λ
51 / 122 F. Rossi Régression
![Page 111: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/111.jpg)
Mise en œuvrealgorithme :
1. calculer la SVD de X , X = UDV T
2. calculer Z = UT Y3. pour quelques valeurs de λ (par exemple des puissances
de 10) :3.1 calculer la matrice diagonale K (λ) définie par
K (λ)ii = Dii/(D2ii + λ)
3.2 calculerβ∗ = VK (λ)Z
4. choisir le modèle optimal (sur un ensemble de validation)
détails pratiques :• régulariser β0 n’est pas une bonne idée : une bonne valeur
pour β0 est la moyenne des yi• un changement d’échelle des xi change la solution de la
régression ridge pas celle de la régression classique : oncentre et on réduit les données avant traitement
52 / 122 F. Rossi Régression
![Page 112: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/112.jpg)
Mise en œuvrealgorithme :
1. calculer la SVD de X , X = UDV T
2. calculer Z = UT Y3. pour quelques valeurs de λ (par exemple des puissances
de 10) :3.1 calculer la matrice diagonale K (λ) définie par
K (λ)ii = Dii/(D2ii + λ)
3.2 calculerβ∗ = VK (λ)Z
4. choisir le modèle optimal (sur un ensemble de validation)détails pratiques :• régulariser β0 n’est pas une bonne idée : une bonne valeur
pour β0 est la moyenne des yi• un changement d’échelle des xi change la solution de la
régression ridge pas celle de la régression classique : oncentre et on réduit les données avant traitement
52 / 122 F. Rossi Régression
![Page 113: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/113.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 1e+05
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 114: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/114.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 7940
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 115: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/115.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 2510
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 116: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/116.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 794
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 117: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/117.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 79.4
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 118: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/118.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 7.94
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 119: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/119.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 2.51
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 120: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/120.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 0.794
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 121: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/121.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 0.251
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 122: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/122.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 0.0251
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 123: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/123.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 0.000794
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 124: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/124.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrerégression ridge
8 10 12 14 16
810
1214
λλ == 1e−05
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
53 / 122 F. Rossi Régression
![Page 125: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/125.jpg)
Choix du modèle
1e−05 1e−02 1e+01 1e+04
1e−
091e
−07
1e−
051e
−03
1e−
01
λλ
Err
eur
empi
rique
apprentissagevalidation
λ ' 0.794
54 / 122 F. Rossi Régression
![Page 126: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/126.jpg)
Évolution des coefficients
1e−05 1e−02 1e+01 1e+04
−0.
050.
000.
050.
10
λλ
ββ
55 / 122 F. Rossi Régression
![Page 127: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/127.jpg)
Comparaison
sélection forward/backward :+ sélection de variables+ très efficace avec une implémentation adaptée : O
(Nk2
)pour une procédure forward naïve jusqu’à k variables
- décisions binairesprojections :
+ sélection de variables+ efficace : O
(Np2
)(avec une implémentation à la forward)
- variables transforméesrégression ridge :
+ souple+ efficace : SVD en O
(Np2
)puis O
(p2 + Np
)par valeur de λ
- pas de sélection de variables
56 / 122 F. Rossi Régression
![Page 128: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/128.jpg)
Régularisation L1
régression ridge : mesure de régularité ‖β‖2méthode « lasso » :• mesure de régularité ‖β‖1 =
∑pi=1 |βi |
• point de vue modèle
FC =
{f : Rp → R | f (x) = β0 +
N∑i=1
βixi ,
p∑i=1
|βi | ≤ C
}
• point de vue optimisation
β∗ = arg minβ
(‖Y − Xβ‖2 + λ
p∑i=1
|βi |
)
• intérêt : produit naturellement des coefficients nuls• résolution par programmation quadratique
57 / 122 F. Rossi Régression
![Page 129: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/129.jpg)
Lasso/Lars
algorithme LARS : Least Angle Regressionidée :• ajout progressif des variables (avec sorties possibles)• mais sans prendre le coefficient optimal associé à la
nouvelle variable• sans sortie : lars ; avec sortie : lasso
même type de coût algorithmique qu’une procédureforward, mais avec plus d’itérationscalcule un chemin :• on montre que l’évolution des paramètres en fonction de λ
est affine par morceaux• l’algorithme trouve tous les points de jonction
58 / 122 F. Rossi Régression
![Page 130: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/130.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
0 variable
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 131: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/131.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
1 variable
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 132: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/132.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
2 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 133: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/133.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
3 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 134: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/134.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
3 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 135: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/135.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
3 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 136: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/136.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
4 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 137: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/137.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 138: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/138.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 139: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/139.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 140: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/140.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
5 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 141: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/141.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
8 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 142: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/142.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
9 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 143: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/143.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
12 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 144: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/144.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
29 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 145: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/145.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
68 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 146: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/146.jpg)
Exemple
taux d’alcool dans levin en fonction duspectrelasso
8 10 12 14 16
810
1214
89 variables
Réalité
Pré
dict
ion
ApprentissageValidationModèle idéal
59 / 122 F. Rossi Régression
![Page 147: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/147.jpg)
Choix du modèle
0 50 100 150 200 250 300 350
1e−
091e
−07
1e−
051e
−03
1e−
01
Étape
Err
eur
empi
rique
apprentissagevalidation
étape 136, 29 variables actives
60 / 122 F. Rossi Régression
![Page 148: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/148.jpg)
Évolution des coefficients
0 50 100 150 200 250 300 350
−40
−30
−20
−10
010
2030
Étape
ββ
61 / 122 F. Rossi Régression
![Page 149: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/149.jpg)
Évolution des coefficients
0 10 20 30 40
−40
−30
−20
−10
010
2030
Étape
ββ
62 / 122 F. Rossi Régression
![Page 150: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/150.jpg)
En R
sélection de variables dans le modèle linéaire :• package leaps• fonction regsubsets• propose la recherche exhaustive avec branch and bound et
les recherches heuristiques classiquesprojection :• package pls• fonction pcr pour la régression sur composantes
principales• fonction plsr pour la régression PLS
régression ridge : fonction lm.ridge du package MASS
lasso : fonction lars du package lars
63 / 122 F. Rossi Régression
![Page 151: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/151.jpg)
Résumé
régression linéaire :• méthode simple et efficace pour la régression• à toujours tester en premier !
limitations :• données dans Rp seulement• x 7→ g(x) est affine : insuffisant dans certains cas• quand p est grand par rapport à N, le modèle linéaire peut
être trop puissantlimiter la puissance :• sélection de variables• régularisation
leçons générales :• contrôler la régularité d’un modèle par une pénalité• sélectionner un modèle grâce à un ensemble de validation
64 / 122 F. Rossi Régression
![Page 152: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/152.jpg)
Non linéarité
en régression linéaire, x 7→ g(x) est affine etβ 7→ (x 7→ g(x)) est linéairecertains problèmes ne sont pas linéaires/affines :• non linéarité intrinsèque (emballement d’une réaction
chimique, par ex.)• variables manquantes (inconnues)
corriger le modèle en gardant la linéarité β 7→ g :• lever la limitation sur le modèle• conserver la simplicité du choix de β (optimisation
quadratique)
idée simple : transformer les données
65 / 122 F. Rossi Régression
![Page 153: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/153.jpg)
Transformer les données
principe :• fonction de transformation φ : Rp → Rq
• régression linéaire sur (φ(xi ), yi )1≤i≤N• si φ est bien choisie, on obtient des variables linéairement
indépendantes dans Rq :• N équations à q inconnues pour φ(xi) ' yi
• si q est de l’ordre de N, on trouve toujours une solutionexacte
• x 7→ 〈φ(x), β〉 n’est plus affine !exemple :• φ(x) = (1, x , x2)T
• classe de modèles
F ={
f : R → R | f (x) = β0 + β1x + β2x2}• modèles quadratiques
66 / 122 F. Rossi Régression
![Page 154: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/154.jpg)
Mise en œuvre
q fonctions de base φj : Rp → Rmatrice des prédicteurs
Φ(X ) =
1 φ1(x1) φ2(x1) . . . φq(x1)...
. . ....
1 φ1(xN) φ2(xN) . . . φq(xN)
problème d’optimisation
β∗ = arg minβ∈Rq+1
‖Y − Φ(X )β‖2
équations normales associées
(Φ(X )T Φ(X ))β∗ = Φ(X )T Y
67 / 122 F. Rossi Régression
![Page 155: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/155.jpg)
Exemple
60 70 80 90
050
100
150
Temp
Ozo
ne
68 / 122 F. Rossi Régression
![Page 156: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/156.jpg)
Exemple
60 70 80 90
050
100
150
degré : 1
Temp
Ozo
ne
68 / 122 F. Rossi Régression
![Page 157: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/157.jpg)
Exemple
60 70 80 90
050
100
150
degré : 2
Temp
Ozo
ne
68 / 122 F. Rossi Régression
![Page 158: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/158.jpg)
Exemple
60 70 80 90
050
100
150
degré : 3
Temp
Ozo
ne
68 / 122 F. Rossi Régression
![Page 159: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/159.jpg)
Exemple
60 70 80 90
050
100
150
degré : 4
Temp
Ozo
ne
68 / 122 F. Rossi Régression
![Page 160: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/160.jpg)
Exemple
60 70 80 90
050
100
150
degré : 5
Temp
Ozo
ne
68 / 122 F. Rossi Régression
![Page 161: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/161.jpg)
Exemple
60 70 80 90
050
100
150
degré : 6
Temp
Ozo
ne
68 / 122 F. Rossi Régression
![Page 162: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/162.jpg)
Exemple
60 70 80 90
050
100
150
degré : 7
Temp
Ozo
ne
68 / 122 F. Rossi Régression
![Page 163: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/163.jpg)
Exemple
60 70 80 90
050
100
150
degré : 25
Temp
Ozo
ne
68 / 122 F. Rossi Régression
![Page 164: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/164.jpg)
Limitations
choix de φ :• quand x ∈ R pas de problème particulier : polynômes,
splines, ondelettes, séries de Fourier, etc.• quand x ∈ Rp, explosion combinatoire :
• (p+d)!p!d!
monômes de degré inférieur ou égal à d sur pvariables
• même type de problème pour les autres solutions• solutions par approches gloutonnes : on ajoute
progressivement des φj
coût algorithmique :• la régression linéaire est en O
(Np2
)• si p ' N ⇒ O
(N3)
: réduction du champ d’applicationcontrôle de la puissance :• régularisation• sélection de modèle
69 / 122 F. Rossi Régression
![Page 165: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/165.jpg)
Équations normales
on remarque que si (Φ(X )T Φ(X )) est inversible
β∗ = Φ(X )Tα∗ =N∑
i=1
α∗i φ(xi)
et donc
g(x) = 〈φ(x), β∗〉 =N∑
i=1
α∗i 〈φ(x), φ(xi)〉
de plusα∗ = (Φ(X )Φ(X )T )−1Y
70 / 122 F. Rossi Régression
![Page 166: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/166.jpg)
Transformation implicite
or (Φ(X )Φ(X )T )ij =⟨φ(xi), φ(xj)
⟩pour construire et utiliser le modèle linéaire sur les φ(xi) ilsuffit de connaître les produits scalaires
⟨φ(xi), φ(xj)
⟩impact algorithmique :• u = (u1,u2) and v = (v1, v2)• φ(u) = (1,
√2u1,√
2u2,√
2u1u2,u21 ,u
22) : 3 opérations
• 〈φ(u), φ(v)〉 : 11 opérations• total : 17 opérations
• mais on montre que 〈φ(u), φ(v)〉 =(
1 +∑2
i=1 uivi
)2:
5 opérations• plus généralement 〈φ(u), φ(v)〉 = (1 + 〈u, v〉)d pour une
transformation φ utilisant tous les monômes de degréinférieur à d : temps de calcul en O(p + d)
71 / 122 F. Rossi Régression
![Page 167: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/167.jpg)
Non linéaire efficace
nouvelle version de l’approche :• choisir φ telle que 〈φ(u), φ(v)〉 se calcule efficacement• calculer α∗ = (Φ(X )Φ(X )T )−1Y• utiliser le modèle
x 7→N∑
i=1
α∗i 〈φ(x), φ(xi )〉
une fois Φ(X )Φ(X )T calculée, l’algorithme est en O(N3) :
• intéressant si φ envoie dans Rq avec q > N• mais dans ce cas le modèle est potentiellement trop
puissant• régularisation ridge
72 / 122 F. Rossi Régression
![Page 168: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/168.jpg)
Régularisation ridge
on cherche à contrôler ‖β∗‖2
on a
‖β∗‖2 =N∑
i=1
N∑j=1
α∗i α∗j⟨φ(xi), φ(xj)
⟩on montre que
β∗ = arg minβ∈Rq+1
(‖Y − Φ(X )β‖2 + λ‖β‖2
)correspond à
α∗ =(
Φ(X )Φ(X )T + λI)−1
Y
73 / 122 F. Rossi Régression
![Page 169: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/169.jpg)
Principe du noyau
en fait φ est inutile, seuls les 〈φ(u), φ(v)〉 entre en jeunoyau (kernel) :• fonction K de Rp × Rp → R• symétrique : K (u, v) = K (v ,u)• positive :
∑i,j λiλjK (ui , vj ) ≥ 0
on montre que pour tout noyau K , il existe une fonction φtelle que K (u, v) = 〈φ(u), φ(v)〉 dans un certain espace H :• H peut être très grand (de dimension infinie)• on n’a jamais besoin de calculer explicitement φ
74 / 122 F. Rossi Régression
![Page 170: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/170.jpg)
Noyauxun noyau correspond à un produit scalaire :• peut être vue comme une similarité• peut être défini sur un espace quelconque :
• chaînes de caractères (dénombrement de co-occurrence)• graphes (chemins communs)• etc.
• ⇒ régression régularisée non linéaire sur des donnéesarbitraires
un noyau important dans Rp, le noyau Gaussien :• K (u, v) = exp
(−‖u−v‖2
2σ2
)• σ est un paramètre de sensibilité :
• grand σ : peu sensible, comportement proche du linéaire• petit σ : très sensible, comportement proche des k plus
proches voisins
la matrice noyau Kij = K (xi , xj) remplace Φ(X )Φ(X )T dansles formules
75 / 122 F. Rossi Régression
![Page 171: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/171.jpg)
Kernel Ridge Regression
choisir un noyau et calculer la matrice Kij = K (xi , xj)
algorithme :1. diagonaliser K , K = UT DU2. calculer Z = UY3. pour quelques valeurs de λ (par exemple des puissances
de 10) :3.1 calculer la matrice diagonale V (λ) définie par
V (λ)ii = 1/(Dii + λ)3.2 calculer
α∗ = UT V (λ)Z
4. choisir le modèle optimal (sur un ensemble de validation)
attention, il faut aussi choisir le noyau (ou ses paramètres)sur un ensemble de validation
76 / 122 F. Rossi Régression
![Page 172: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/172.jpg)
Résuméla régression linéaire s’étend facilement au non linéaire :• soit par transformation directe (peu de variables
explicatives)• soit par le biais d’un noyau
l’accroissement de la puissance rend cruciales :• l’utilisation d’une forme de régularisation• une sélection de modèle
outil générique :• la régression ridge à noyau (Kernel Ridge Regression)• coût algorithmique acceptable O
(N3)
• champ d’application énorme grâce aux noyaux : donnéesnon numériques et modèles non linéaires
• implémentation indépendante du noyau
il existe de nombreuses autres méthodes non linéaires(par exemple les k plus proches voisins)
77 / 122 F. Rossi Régression
![Page 173: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/173.jpg)
PlanIntroduction et modélisation mathématique
Apprentissage superviséQualité d’un modèle
RégressionRégression linéaireRégularisationNon linéaire
DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire
Sélection de modèle
78 / 122 F. Rossi Discrimination
![Page 174: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/174.jpg)
Discriminationrappels :• discrimination à deux classes : Y = {A,B}• critère d’erreur : l(g(x), y) = δg(x)6=y
modèle linéaire en discrimination :• g(x) = 〈x , β〉+ β0 n’est pas directement utilisable• solution simple :
• g(x) = signe(〈x , β〉+ β0)• −1⇒ classe A• 1⇒ classe B
minimisation du risque empirique
β∗ = arg minβ∈Rp
N∑i=1
δsigne(〈xi ,β〉+β0)6=yi
optimisation combinatoire : impossible en pratique
79 / 122 F. Rossi Discrimination
![Page 175: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/175.jpg)
Moindres carrés
solution simple :• faire de la régression• en cherchant à prédire yi = −1 pour la classe A et yi = 1
pour la classe B• attention : l’opération signe n’est pas prise en compte pour
le choix de β
on a donc
β∗ = arg minβ∈Rp
∑xi∈A
(〈xi , β〉+ 1)2 +∑xi∈B
(〈xi , β〉 − 1)2
avec l’augmentation habituelle des x par une variableconstante
80 / 122 F. Rossi Discrimination
![Page 176: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/176.jpg)
Interprétation
approximation convexedu coût
+ facile à optimiser- pénalise un trop bon
classement
−3 −2 −1 0 1 2 3
02
46
8
g(x)l(g
(x),
1)
coût 0/1coût quadratique
Solution acceptable mais limitée
81 / 122 F. Rossi Discrimination
![Page 177: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/177.jpg)
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
82 / 122 F. Rossi Discrimination
![Page 178: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/178.jpg)
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
82 / 122 F. Rossi Discrimination
![Page 179: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/179.jpg)
Plus de deux classes
très mauvaise solution :• numéroter les classes de 1 à K• faire une régression linéaire avec comme cible le numéro
de la classe• ne jamais faire ça :
• induit une fausse structure d’ordre sur les classes• rend la régression plus difficile qu’elle ne devrait l’être• etc.
solutions par combinaisons :• construire K − 1 modèles : 1 contre les autres classes• construire K (K − 1)/2 modèles : 1 contre 1
solution par codage :• représenter l’appartenance à la classe k par un vecteur de
RK contenant K − 1 zéros et un 1 dans la variable k• puis régression classique
83 / 122 F. Rossi Discrimination
![Page 180: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/180.jpg)
Projection
x 7→ 〈x , β〉 est une projection de Rp dans Rcomment optimiser la projection pour bien répartir lesexemples en deux classes ?• bien regrouper les projetés d’une même classe (variance
intra petite)• bien éloigner les projetés de classes différences (variance
inter grande)
analyse discriminante de Fisher : maximisation du ratioentre les variancess’applique à plusieurs classes, C1, . . . ,CK
84 / 122 F. Rossi Discrimination
![Page 181: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/181.jpg)
Variances
décomposition de la covariance :• covariance totale T = 1
N
∑Ni=1(xi − µ)(xi − µ)T (µ moyenne
des x)• covariances intraclasse Wk = 1
Nk
∑i∈Ck
(xi − µk )(xi − µk )T
(µk moyenne des x de la classe Ck )• covariance interclasse B = 1
N
∑Kk=1 Nk (µk − µ)(µk − µ)T
• T = B + W , avec W = 1N
∑Kk=1 Nk Wk
projection = « multiplication » par β• intraclasse : βT Wβ• interclasse : βT Bβ
85 / 122 F. Rossi Discrimination
![Page 182: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/182.jpg)
Critère de Fisher
Critère de Fisher : maximiser βT BββT Wβ
si β maximise le critère, on montre qu’il existe λ tel queBβ = λWβ (problème de valeur propre généralisé)en général W est inversible et β est donc vecteur proprede W−1B (associé à la plus grande valeur propre)algorithme basique (méthode de la puissance itérée) :• β(0) aléatoire• β(t+1) = 1
‖W−1Bβ(t)‖W−1Bβ(t)
• converge vers un vecteur propre associé à la plus grandevaleur propre
puis on ajoute un seuil β0 optimal (sous une hypothèse dedistribution gaussienne)
86 / 122 F. Rossi Discrimination
![Page 183: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/183.jpg)
Exemple
−3 −2 −1 0 1 2
−2
−1
01
23
87 / 122 F. Rossi Discrimination
![Page 184: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/184.jpg)
Exemple
−3 −2 −1 0 1 2
−2
−1
01
23
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
87 / 122 F. Rossi Discrimination
![Page 185: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/185.jpg)
Exemple
−3 −2 −1 0 1 2
−2
−1
01
23
−1 0 1 2 3
0.0
0.2
0.4
0.6
87 / 122 F. Rossi Discrimination
![Page 186: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/186.jpg)
Exemple
−3 −2 −1 0 1 2
−2
−1
01
23
−4 −2 0 2 4
0.0
0.1
0.2
0.3
87 / 122 F. Rossi Discrimination
![Page 187: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/187.jpg)
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
88 / 122 F. Rossi Discrimination
![Page 188: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/188.jpg)
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
88 / 122 F. Rossi Discrimination
![Page 189: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/189.jpg)
Discussion
cas à deux classes :• on montre facilement que l’analyse discriminante conduit
au même hyperplan séparateur que la régression mais àdes seuils (β0) différents
• les méthodes donnent des résultats strictement identiquessi les deux classes sont de mêmes tailles
cas à trois classes ou plus :• les résultats sont très différents• l’analyse discriminante fonctionne généralement mieux que
la régression
89 / 122 F. Rossi Discrimination
![Page 190: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/190.jpg)
Choix d’un séparateur linéaire
Deux problèmes principaux :1. cas séparable : en général une infinité de solutions,
comment choisir ?• critère additionnel : choix parmi les solutions exactes (avec
aucune erreur)• critère alternatif : optimisation d’une autre grandeur (pas le
nombre d’erreurs)2. cas non séparable : comment minimiser le nombre
d’erreurs ?• algorithme de coût acceptable• critère alternatif (bis)
Question subsidiaire : le cas non linéaire est-il fréquent ?
90 / 122 F. Rossi Discrimination
![Page 191: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/191.jpg)
Maximisation de la marge
Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport
91 / 122 F. Rossi Discrimination
![Page 192: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/192.jpg)
Maximisation de la marge
Données linéairementséparables : une infinitéde choix possibles
Données proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport
91 / 122 F. Rossi Discrimination
![Page 193: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/193.jpg)
Maximisation de la marge
Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesse
Un critère de choixpossible : maximiser lamargeMachine à vecteurs desupport
91 / 122 F. Rossi Discrimination
![Page 194: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/194.jpg)
Maximisation de la marge
Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamarge
Machine à vecteurs desupport
91 / 122 F. Rossi Discrimination
![Page 195: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/195.jpg)
Maximisation de la marge
Données linéairementséparables : une infinitéde choix possiblesDonnées proches duséparateur : petite« marge »⇒ faiblerobustesseUn critère de choixpossible : maximiser lamargeMachine à vecteurs desupport
91 / 122 F. Rossi Discrimination
![Page 196: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/196.jpg)
Formulation du problèmemarge : distance entre le séparateur et l’observation laplus prochemarge (yi ∈ {−1,1}) :
mini
|〈β, xi〉+ β0|〈β, β〉
= mini
yi(〈β, xi〉+ β0)
〈β, β〉,
en l’absence d’erreur, c.-à-d., avec yi(〈β, xi〉+ β0) > 0normalisation par mini yi(〈β, xi〉+ β0) :
(P0) minβ,β012〈β, β〉,
sous les contraintes yi(〈β, xi〉+ β0) ≥ 1, 1 ≤ i ≤ N.
problème d’optimisation quadratique sous contrainteslinéairesformulation duale plus simple
92 / 122 F. Rossi Discrimination
![Page 197: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/197.jpg)
Formulation duale
(P0) est équivalent à
(D0) maxα∑N
i=1 αi − 12∑N
i=1∑N
j=1 αiαjyiyj〈xi , xj〉sous les contraintes
∑Ni=1 αiyi = 0 et αi ≥ 0
problème plus facile à résoudre :• toujours quadratique• contraintes plus simples
on montre que (yi(〈β, xi〉+ β0)− 1) > 0⇒ αi = 0 :• les observations éloignées du séparateur n’interviennent
pas dans la solution• la solution dépend uniquement des observations « sur la
marge » : les vecteurs de support (contraintes saturées)• on a aussi 〈β, x〉 =
∑αi 6=0 αiyi〈xi , x〉
93 / 122 F. Rossi Discrimination
![Page 198: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/198.jpg)
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
94 / 122 F. Rossi Discrimination
![Page 199: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/199.jpg)
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
94 / 122 F. Rossi Discrimination
![Page 200: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/200.jpg)
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
94 / 122 F. Rossi Discrimination
![Page 201: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/201.jpg)
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
94 / 122 F. Rossi Discrimination
![Page 202: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/202.jpg)
Exemple
2.0 2.5 3.0 3.5 4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
Largeur Sépale
Long
ueur
Sép
ale
94 / 122 F. Rossi Discrimination
![Page 203: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/203.jpg)
Cas non linéairement séparable
le problème P0 n’a pas de solution : pas de pointadmissibleassouplir les contraintes :• autoriser des erreurs de classement• conserver la notion de marge pour les points bien classés• yi (〈β, xi〉+ β0) ≥ 1− ξi avec ξi ≥ 0• les ξi sont les « variables ressort »
nouveau problème :
(PC) minβ,β0,ξ12〈β, β〉+ C
∑Ni=1 ξi ,
avec yi(〈β, xi〉+ β0) ≥ 1− ξi , 1 ≤ i ≤ N,ξi ≥ 0, 1 ≤ i ≤ N.
variantes possibles (par exemple C∑N
i=1 ξ2i )
95 / 122 F. Rossi Discrimination
![Page 204: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/204.jpg)
Interprétation(PC) s’écrit aussi
(PC) minβ,β0,ξ12〈β, β〉+ C
∑Ni=1 ξi ,
avec ξi ≥ 1− yi(〈β, xi〉+ β0), 1 ≤ i ≤ N,ξi ≥ 0, 1 ≤ i ≤ N.
de façon équivalente :
(PC) minβ,β0
12〈β, β〉+ C
N∑i=1
max (1− yi(〈β, xi〉+ β0),0)
interprétation de C :• compromis entre erreurs et marge, régularisation• C grand : erreurs interdites, au détriment de la marge (le
modèle « colle » aux données)• C petit : marge maximisée, au détriment des erreurs• choix de C : choix de modèle
96 / 122 F. Rossi Discrimination
![Page 205: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/205.jpg)
Autre interprétation
le coûtl(g(x), y) = max (1− yg(x),0)
est appelé le hinge losson remarque que
l(g(x), y) ≥ δsigne(g(x))6=y
le hinge loss est une majoration convexe du coût 0/1
97 / 122 F. Rossi Discrimination
![Page 206: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/206.jpg)
Coût quadratique ou hinge
approximation convexedu coût
+ facile à optimiser
- pénalise un trop bon classe-ment
−3 −2 −1 0 1 2 3
02
46
8
g(x)l(g
(x),
1)
coût 0/1coût quadratique
coût quadratique
98 / 122 F. Rossi Discrimination
![Page 207: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/207.jpg)
Coût quadratique ou hinge
approximation convexedu coût
+ facile à optimiser
+ ne pénalise pas les bons clas-sements
+ n’explose pas−3 −2 −1 0 1 2 3
02
46
8
g(x)l(g
(x),
1)
coût 0/1hinge loss
hinge loss
98 / 122 F. Rossi Discrimination
![Page 208: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/208.jpg)
Problème dual
(PC) est équivalent à
(DC) maxα∑N
i=1 αi − 12∑N
i=1∑N
j=1 αiαjyiyj〈xi , xj〉sous les contraintes
∑Ni=1 αiyi = 0 et 0 ≤ αi ≤ C
seul changement : valeur maximale sur les multiplicateurscoût algorithmique :• algorithme « exact » en O
(N3)
• algorithme plus heuristique en O(N2)
en pratique
99 / 122 F. Rossi Discrimination
![Page 209: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/209.jpg)
Exemple
−3 −2 −1 0 1 2
−1
01
2
100 / 122 F. Rossi Discrimination
![Page 210: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/210.jpg)
Exemple
−3 −2 −1 0 1 2
−1
01
2C=0.005, 18 erreurs
100 / 122 F. Rossi Discrimination
![Page 211: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/211.jpg)
Exemple
−3 −2 −1 0 1 2
−1
01
2C=0.0075, 8 erreurs
100 / 122 F. Rossi Discrimination
![Page 212: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/212.jpg)
Exemple
−3 −2 −1 0 1 2
−1
01
2C=0.01, 5 erreurs
100 / 122 F. Rossi Discrimination
![Page 213: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/213.jpg)
Exemple
−3 −2 −1 0 1 2
−1
01
2C=0.1, 5 erreurs
100 / 122 F. Rossi Discrimination
![Page 214: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/214.jpg)
Exemple
−3 −2 −1 0 1 2
−1
01
2C=1, 6 erreurs
100 / 122 F. Rossi Discrimination
![Page 215: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/215.jpg)
Exemple
−3 −2 −1 0 1 2
−1
01
2C=1e+06, 6 erreurs
100 / 122 F. Rossi Discrimination
![Page 216: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/216.jpg)
Résumé
plusieurs choix pour la discriminationcoût quadratique :• simple à mettre en œuvre• relativement rapide• assez peu adapté au cas multi-classes• résultats mitigés
analyse discriminante :• meilleure justification que le coût quadratique• bien adapté au multi-classes• relativement rapide et simple
machines à vecteurs de support :• solution robuste• extensions complexes au multi-classes• algorithme efficace mais sophistiqué• excellent résultats en pratique
101 / 122 F. Rossi Discrimination
![Page 217: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/217.jpg)
En R
régression :• fonction lm du package stats• nombreuses extensions associées
analyse discriminante : fonction lda du package MASS
machines à vecteurs de support :• fonction svm du package e1071• fonction ksvm du package kernlab
102 / 122 F. Rossi Discrimination
![Page 218: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/218.jpg)
Linéarité et dimensionRésultats de Thomas Cover (1965)
la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1
2
distribution de plus en plus « piquée » :
6 8 10 12 14
0.0
0.2
0.4
0.6
0.8
1.0
Probabilité d'être linéairement séparable en dimension 5
N
103 / 122 F. Rossi Discrimination
![Page 219: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/219.jpg)
Linéarité et dimensionRésultats de Thomas Cover (1965)
la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1
2
distribution de plus en plus « piquée » :
15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
Probabilité d'être linéairement séparable en dimension 10
N
103 / 122 F. Rossi Discrimination
![Page 220: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/220.jpg)
Linéarité et dimensionRésultats de Thomas Cover (1965)
la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1
2
distribution de plus en plus « piquée » :
100 150 200 250 300
0.0
0.2
0.4
0.6
0.8
1.0
Probabilité d'être linéairement séparable en dimension 100
N
103 / 122 F. Rossi Discrimination
![Page 221: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/221.jpg)
Linéarité et dimensionRésultats de Thomas Cover (1965)
la « linéarité » d’un problème dépend de la dimensionl’espérance du nombre maximum de points linéairementséparable en dimension p est 2pl’espérance du nombre minimal de variables nécessairespour séparer linéairement N point est N+1
2
distribution de plus en plus « piquée » :
1000 1500 2000 2500 3000
0.0
0.2
0.4
0.6
0.8
1.0
Probabilité d'être linéairement séparable en dimension 1000
N
103 / 122 F. Rossi Discrimination
![Page 222: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/222.jpg)
Conséquences
problèmes « simples » :• p
N � 2 : beaucoup de variables pour peu d’observations• classifieur linéaire :
• généralement une infinité de choix possibles• critère de choix très important• régularisation cruciale
problèmes « difficiles » :• N
p � 2• pas de séparateur linéaire• peu de variables et/ou beaucoup d’observations• données « contradictoires » (classes partiellement
superposées)
la situation est la même qu’en régression
104 / 122 F. Rossi Discrimination
![Page 223: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/223.jpg)
Méthodes non linéaires
même principe d’extension que pour la régressiontransformation explicite des variablestransformation implicite :• passage par un noyau• régression ridge à noyau et erreur quadratique• analyse discriminante de Fisher à noyau• machines à vecteurs de support (MVS) à noyau :
• la formulation duale fait apparaître les 〈xi , xj〉• il suffit de remplacer par un noyau pour obtenir une MVS non
linéaire
comme en régression, la difficulté est le choix du modèle
105 / 122 F. Rossi Discrimination
![Page 224: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/224.jpg)
PlanIntroduction et modélisation mathématique
Apprentissage superviséQualité d’un modèle
RégressionRégression linéaireRégularisationNon linéaire
DiscriminationMoindres carrésAnalyse discriminanteMaximisation de la margeNon linéaire
Sélection de modèle
106 / 122 F. Rossi Sélection de modèle
![Page 225: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/225.jpg)
Le modèle parfaitsi les données d’apprentissage ne sont pascontradictoires, il existe un modèle parfaitdonnées contradictoires : xi = xj et yi 6= yjmodèle parfait :• algorithme des plus proches voisins• régression utilisant le noyau gaussien avec σ petit• etc.
le modèle parfait n’a aucun intérêt car il colle au bruit :• apprentissage par cœur• sur-apprentissage
principe du rasoir d’Occam : de deux modèles quiexpliquent aussi bien un phénomène, on choisit le plussimple
Les multiples ne doivent pas être utilisés sansnécessité
107 / 122 F. Rossi Sélection de modèle
![Page 226: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/226.jpg)
Estimation des performancesle problème fondamental est l’estimation de
L(g) = EP{l(g(x), y)}
alors qu’on ne connaît pas P, la distribution des donnéesla loi des grands nombres
limM→∞
1M
M∑i=1
l(g(xi), yi) = L(g)
nécessite des données indépendantes du modèled’où la méthode de l’ensemble de validation :• on découpe les données observées en un ensemble
d’apprentissage et un ensemble de validation• on construit de modèle sur l’apprentissage, on l’évalue sur
la validation
108 / 122 F. Rossi Sélection de modèle
![Page 227: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/227.jpg)
Validation
Avantages :• facile à mettre en œuvre• temps de calcul raisonnable
Inconvénients :• nécessite beaucoup de données :
• au moins deux ensembles• si on veut évaluer un modèle sélectionné sur l’ensemble de
validation, on doit utiliser un troisième ensemble : l’ensemblede test
• sensible au découpage• réduit les données utilisées pour construire le modèle :
résultats moins robustes
109 / 122 F. Rossi Sélection de modèle
![Page 228: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/228.jpg)
Validation croisée
idée principale• échanger les ensembles d’apprentissage et de validation• apprendre un modèle sur D = (xi , yi )1≤i≤N et l’évaluer surD′ = (xi , yi )N+1≤i≤N+M ...
• puis apprendre un modèle sur D′ et l’évaluer sur D ...• et enfin combiner les évaluations
solution générale :1. découpage des données en k sous-ensembles D1, . . . ,Dn2. pour tout i :
2.1 apprentissage sur l’union des Dj avec j 6= i2.2 évaluation sur Di
3. combinaison des évaluations
si k = N on parle de leave-one-out.
110 / 122 F. Rossi Sélection de modèle
![Page 229: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/229.jpg)
Validation croisée
Estimation desperformances
Test
Apprentissage
Test
Apprentissage
111 / 122 F. Rossi Sélection de modèle
![Page 230: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/230.jpg)
Validation croisée
procédure détaillée :• apprentissage sur
⋃j 6=i Dk ⇒ gi
• prédictions sur Di , y (i)l = gi (xl ) pour xl ∈ Di
• donc pour tout xl ∈ D, on a une prédiction y (i)l (pour un
certain i)• évaluation : 1
N
∑Nl=1 In
y (i)l 6=yl
opas de classifieur unique !applications :• évaluation de performances• sélection de modèle :
• évaluation des performances pour chaque configurationchoisie (degré du polynôme, etc.)
• choix de la meilleure configuration• construction d’un classifieur sur l’ensemble des données
112 / 122 F. Rossi Sélection de modèle
![Page 231: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/231.jpg)
Validation croisée
avantages :• facile à mettre en œuvre• utilise toutes les données pour évaluer le modèle
inconvénients :• sensible au découpage et au nombre de blocs• temps de calcul élevé• ne donne pas directement un modèle
solution la plus utilisée aujourd’huine dispense pas du découpage apprentissage/test
113 / 122 F. Rossi Sélection de modèle
![Page 232: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/232.jpg)
Le Bootstrap
Méthode générale d’estimation de la qualité d’un estimateur,basée sur un ré-échantillonnage :
on cherche à estimer θ, une statistique sur lesobservations (les x i )on se donne θ(x1, . . . , xN) un estimateur de θon cherche à déterminer :• le biais de θ• la variance de θ
solution :• fabriquer des échantillons bootstrap• un échantillon bootstrap : (x1
∗ , . . . , xN∗ ) obtenu par tirage
aléatoire uniforme avec remise dans l’échantillond’origine (x1, . . . , xN)
• simule des nouveaux tirages pour les (x1, . . . , xN)
114 / 122 F. Rossi Sélection de modèle
![Page 233: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/233.jpg)
Principe
Monde Réel
Echantillon Bootstrap
Echantillon Bootstrap
(x1∗ , . . . , xN
∗ )→ θ∗
(x1∗ , . . . , xN
∗ )→ θ∗(x1, . . . , xN)→ θ
Echantillon
Tirage Aléatoire
X → θ
Monde Réel
115 / 122 F. Rossi Sélection de modèle
![Page 234: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/234.jpg)
Principe
Tirage Aléatoire
Monde Réel
Echantillon
Monde Réel
(x1, . . . , xN)→ θ
X → θ
Echantillon Bootstrap
Echantillon Bootstrap
(x1∗ , . . . , xN
∗ )→ θ∗
(x1∗ , . . . , xN
∗ )→ θ∗
115 / 122 F. Rossi Sélection de modèle
![Page 235: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/235.jpg)
Estimation du biais
Algorithme :1. pour b allant de 1 à n
1.1 engendrer un échantillon bootstrap (x1∗b, . . . , x
N∗b)
1.2 calculer θ∗b = θ(x1∗b, . . . , x
N∗b)
2. l’estimation du biais est
1n
n∑b=1
θ∗b − θ(x1, . . . , xN)
Idée, remplacer le monde réel par l’échantillon :le premier terme estime l’espérance de l’estimateurle second terme estime l’estimateur
116 / 122 F. Rossi Sélection de modèle
![Page 236: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/236.jpg)
Estimation de la variance
Algorithme :1. pour b allant de 1 à n
1.1 engendrer un échantillon bootstrap (x1∗b, . . . , x
N∗b)
1.2 calculer θ∗b = θ(x1∗b, . . . , x
N∗b)
2. calculer
θ∗ =1b
n∑b=1
θ∗b
3. l’estimation de la variance est
1n − 1
n∑b=1
(θ∗b − θ∗
)2
117 / 122 F. Rossi Sélection de modèle
![Page 237: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/237.jpg)
Application à l’évaluation d’un modèle
Raisonnement :l’évaluation d’un modèle consiste à estimer sesperformancesl’erreur résiduelle sur l’ensemble d’apprentissagesous-estime l’erreur réelleidée, estimer l’ampleur de la sous-estimation parbootstrap :• calculer la sous-estimation pour un échantillon bootstrap• moyenner les sous-estimations pour beaucoup
d’échantillons bootstrap• corriger l’erreur résiduelle en ajoutant la moyenne
118 / 122 F. Rossi Sélection de modèle
![Page 238: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/238.jpg)
Évaluation d’un modèle
Algorithme :1. pour b allant de 1 à n
1.1 engendrer un échantillon bootstrap (x1∗b, . . . , x
N∗b) (à partir
de l’ensemble d’apprentissage)1.2 estimer le modèle optimal pour l’échantillon bootstrap1.3 calculer B∗b comme la différence entre l’erreur résiduelle du
modèle sur l’échantillon d’apprentissage et l’erreurrésiduelle du modèle sur l’échantillon bootstrap
2. estimer l’erreur résiduelle E du modèle optimal surl’ensemble d’apprentissage
3. corriger cette erreur en lui ajoutant 1n∑n
b=1 B∗b
119 / 122 F. Rossi Sélection de modèle
![Page 239: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/239.jpg)
VariantesEstimation directe de l’erreur du modèle optimal
moyenne empirique de l’erreur commise sur l’ensembled’apprentissage par le modèle construit sur l’échantillonbootstrap (EB)moyenne empirique de l’erreur commise sur lecomplémentaire de l’échantillon bootstrap par le modèleconstruit sur l’échantillon (bootstrap out-of-bag, Eoob)bootstrap 632 : combinaison de l’estimation out-of-bag etde l’estimation naïve (sur l’ensemble d’apprentissage)
E632 = 0.632 Eoob + 0.368 E
Probabilité qu’une observation de l’ensembled’apprentissage soit dans un échantillon bootstrap : 0.632
120 / 122 F. Rossi Sélection de modèle
![Page 240: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/240.jpg)
Bootstrap
Points positifs :• facile à mettre en œuvre• utilise toutes les données• donne des intervalles de confiance
Points négatifs :• temps de calcul très élevé• nombreuses variantes• ne donne pas directement un modèle
ne dispense pas du découpage apprentissage/test
121 / 122 F. Rossi Sélection de modèle
![Page 241: Fabrice Rossi TELECOM ParisTech Mai/Juin 2009 · 8 / 122 F. Rossi Introduction et modélisation mathématique. Erreur de prédiction Qu’est-ce qu’une bonne prédiction? on considère](https://reader031.vdocuments.fr/reader031/viewer/2022011823/5edb162109ac2c67fa68c938/html5/thumbnails/241.jpg)
Résumé
l’erreur empirique ne donne pas une bonne idée desperformances en généralisationil faut toujours utiliser une méthode valide pour estimer lesperformancesdécoupage et rééchantillonnage :• méthodes classiques et éprouvées• rééchantillonnage (validation croisée et bootstrap) : lent
mais utilise toutes les données• validation (découpage) : rapide mais nécessite beaucoup
de données
122 / 122 F. Rossi Sélection de modèle