exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf ·...

25
Exemple d’analyse de données Fabrice Rossi Université Paris 1

Upload: others

Post on 26-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Exemple d’analyse de données

Fabrice Rossi

Université Paris 1

Page 2: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Présentation des données

ContexteI spectres proche infrarouge d’échantillons de vinI but pratique : calculer le taux d’alcool dans le vin à partir du

spectre

CaractéristiquesI 124 spectres, dont 30 réservés à l’évaluation finaleI 256 variables : nombre d’onde compris entre 400 et 4000 cm−1

AnalyseI trop de variables : 256 variables contre 94 objets (pour

l’apprentissage)I modèle linéaire simplifié

Page 3: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Spectres

0 50 100 150 200 250

−0.

20.

00.

20.

40.

6

abso

rban

ce

⇒ Quelques spectres atypiques

Page 4: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Spectres

0 50 100 150 200 250

−0.

20.

00.

20.

40.

6

abso

rban

ce

⇒ Trois spectres atypiques

Page 5: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Spectres « propres »

0 50 100 150 200 250

−0.

20.

00.

20.

40.

6

abso

rban

ce

On conserve les spectres atypiques les moins extrêmes

Page 6: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Variable à prédire

6 8 10 12 14 16

0.00

0.05

0.10

0.15

0.20

0.25

Densité estimée de la variable à prédire

Alcool

Den

sité

Quelques valeurs extrêmes : peuvent être utiles pour l’apprentissage

Page 7: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Lien variable à prédire / variables explicatives

−0.055 −0.050 −0.045 −0.040 −0.035

810

1214

X1

Alc

ool

Page 8: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Lien variable à prédire / variables explicatives

0.045 0.050 0.055 0.060 0.065 0.070

810

1214

X128

Alc

ool

Page 9: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Lien variable à prédire / variables explicatives

−0.020 −0.015 −0.010 −0.005

810

1214

X256

Alc

ool

Page 10: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Lien variable à prédire / variables explicatives

alcool

−0.055 −0.040 −0.020 −0.010

810

1214

−0.

055

−0.

040

spectre1

spectre128

0.04

50.

060

8 10 12 14

−0.

020

−0.

010

0.045 0.060

spectre256

Page 11: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Modèle linéaire simple

−0.055 −0.050 −0.045 −0.040 −0.035

810

1214

X1

Alc

ool

Modèle linéaire simple : Alcool = αX1 + β

Page 12: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Modèle linéaire simple : prévisions

−0.050 −0.045 −0.040 −0.035 −0.030

1011

1213

14

X1

Alc

ool

Prévisions du modèle

Page 13: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Représentation universelle

10 11 12 13 14

1011

1213

14

Cible

Pré

visi

on

Page 14: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Représentation des erreurs

0 5 10 15 20 25 30

−1.

0−

0.5

0.0

0.5

Observation

Err

eur

de p

révi

sion

Page 15: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Modèle linéaire plus riche

10 11 12 13 14

1112

1314

Cible

Pré

visi

on

3 variables1 variable

Page 16: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Modèle linéaire plus riche

0 5 10 15 20 25 30

−1.

0−

0.5

0.0

0.5

Observation

Err

eur

de p

révi

sion

3 variables1 variable

Page 17: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Choix du modèle

CandidatsI modèle linéaire réduit : choix des variablesI modèle linéaire régularisé ridgeI modèle linéaire régularisé lasso

MéthodeI validation croisée (3 blocs, par exemple)I choix du meilleur modèleI et choix du paramètre du modèle (nombre de variables,

paramètre de compromis)I construction du modèle completI évaluation sur l’ensemble de test

Page 18: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Choix de variables

0 10 20 30 40 50 60

1e−

021e

−01

1e+

001e

+01

1e+

02

Nombre de variables

Err

eur

quad

ratiq

ue to

tale

Validation croiséeApprentissage

Page 19: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Choix de variables

0 10 20 30 40 50 60

1e−

021e

−01

1e+

001e

+01

1e+

02

Nombre de variables

Err

eur

quad

ratiq

ue to

tale

Validation croiséeApprentissageTest

Page 20: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Remarques

Validation croiséeI chaque bloc correspond à un ordre spécifique pour les variablesI on agrège des prévisions pas des modèlesI on sélectionne une classe de modèles (des paramètres) pas un

modèleI on doit construire un modèle dans la classe après sélectionI le modèle final dépend de toutes les données d’apprentissage :

on ne peut pas estimer ses performances sur l’ensembled’apprentissage

Ensemble de testI données indépendantes pour l’évaluation finaleI ne doit jamais être utilisé pour autre choseI en particulier le choix du modèle final est fait sans utiliser

l’ensemble de test

Page 21: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Meilleur modèle30 variables

9 10 11 12 13 14 15

910

1112

1314

15

Cible

Pré

visi

on

testapprentissage

Page 22: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Meilleur modèle (tricherie)12 variables

9 10 11 12 13 14 15

910

1112

1314

15

Cible

Pré

visi

on

testapprentissage

Page 23: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Modèle trop faible3 variables

9 10 11 12 13 14 15

910

1112

1314

15

Cible

Pré

visi

on

testapprentissage

Page 24: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Modèle trop puissant90 variables

9 10 11 12 13 14 15

910

1112

1314

15

Cible

Pré

visi

on

testapprentissage

Page 25: Exemple d'analyse de donnéesapiacoa.org/publications/teaching/data-mining/exemple-wine.pdf · I modèle linéaire simpli ... paramètre de compromis) I construction du modèle complet

Meilleur modèle30 variables

1 2 3 4 5 6 7 8 9 11 13 15 17 19 21 23 25 27 29

Observation

Err

eur

de p

révi

sion

−0.

4−

0.2

0.0

0.2

0.4