fabrice rossi télécom paristech - .histogramme boxplot et statistiques variables nominales...

Download Fabrice Rossi Télécom ParisTech - .Histogramme Boxplot et statistiques Variables nominales Analyses

Post on 12-Sep-2018

215 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • Analyse exploratoire de donnes

    Fabrice Rossi

    Tlcom ParisTech

  • PlanIntroduction

    ExplorationModlisationModle des donnes

    Analyses univariesVariables numriques

    HistogrammeBoxplot et statistiques

    Variables nominales

    Analyses multivariesDiagramme de dispersionMatrice de corrlationDiagramme mosaiqueCoordonnes paralllesInteraction

    2 / 41 F. Rossi

  • PlanIntroduction

    ExplorationModlisationModle des donnes

    Analyses univariesVariables numriques

    HistogrammeBoxplot et statistiques

    Variables nominales

    Analyses multivariesDiagramme de dispersionMatrice de corrlationDiagramme mosaiqueCoordonnes paralllesInteraction

    3 / 41 F. Rossi Introduction

  • Exploiter des donnes

    Que faire dun paquet de donnes ?Comment exploiter le contenu dun entrept de donnes ?

    recensement32561personnes15 attributspar personne

    Volume classique : milliers millions de lignes, dizaine centaines de colonnesExploration systmatique impossible (mme pour de petitspaquets de donnes)

    4 / 41 F. Rossi Introduction

  • Exploiter des donnes

    Que faire dun paquet de donnes ?Comment exploiter le contenu dun entrept de donnes ?

    recensement32561personnes15 attributspar personne

    Volume classique : milliers millions de lignes, dizaine centaines de colonnesExploration systmatique impossible (mme pour de petitspaquets de donnes)

    4 / 41 F. Rossi Introduction

  • Exploiter des donnes

    Que faire dun paquet de donnes ?Comment exploiter le contenu dun entrept de donnes ?

    recensement32561personnes15 attributspar personne

    Volume classique : milliers millions de lignes, dizaine centaines de colonnesExploration systmatique impossible (mme pour de petitspaquets de donnes)

    4 / 41 F. Rossi Introduction

  • Outils dexploitation

    Support informatique et mathmatique : outils dexploitation des donnes but : diminuer la charge cognitive pour lanalyste

    Deux grandes classes doutils :1. exploration

    pas dide a priori sur les donnes recherche de rgularit (dpendances, groupes homognes,

    etc.)

    2. modlisation

    ide prcise sur les donnes construction de modles prdictifs

    outil utilis : R (http://R-project.org/)

    5 / 41 F. Rossi Introduction

    http://R-project.org/

  • Outils dexploitation

    Support informatique et mathmatique : outils dexploitation des donnes but : diminuer la charge cognitive pour lanalyste

    Deux grandes classes doutils :1. exploration

    pas dide a priori sur les donnes recherche de rgularit (dpendances, groupes homognes,

    etc.)2. modlisation

    ide prcise sur les donnes construction de modles prdictifs

    outil utilis : R (http://R-project.org/)

    5 / 41 F. Rossi Introduction

    http://R-project.org/

  • Outils dexploitation

    Support informatique et mathmatique : outils dexploitation des donnes but : diminuer la charge cognitive pour lanalyste

    Deux grandes classes doutils :1. exploration

    pas dide a priori sur les donnes recherche de rgularit (dpendances, groupes homognes,

    etc.)2. modlisation

    ide prcise sur les donnes construction de modles prdictifs

    outil utilis : R (http://R-project.org/)

    5 / 41 F. Rossi Introduction

    http://R-project.org/

  • Outils dexploitation

    Support informatique et mathmatique : outils dexploitation des donnes but : diminuer la charge cognitive pour lanalyste

    Deux grandes classes doutils :1. exploration

    pas dide a priori sur les donnes recherche de rgularit (dpendances, groupes homognes,

    etc.)2. modlisation

    ide prcise sur les donnes construction de modles prdictifs

    outil utilis : R (http://R-project.org/)

    5 / 41 F. Rossi Introduction

    http://R-project.org/

  • Analyse exploratoireObjectifs :

    obtenir une vision globale dun jeu de donnes dcouvrir des formes de rgularit

    Moyens : reprsentations visuelles (et interactives) des donnes recherche automatique de rgularits :

    corrlation et dpendance entre variables groupes homognes (classification) schmas frquents

    020

    4060

    8010

    0

    Hei

    ght

    6 4 2 0 2 4

    20

    24

    6

    PC1

    PC

    2

    6 / 41 F. Rossi Introduction

  • Analyse exploratoireObjectifs :

    obtenir une vision globale dun jeu de donnes dcouvrir des formes de rgularit

    Moyens : reprsentations visuelles (et interactives) des donnes recherche automatique de rgularits :

    corrlation et dpendance entre variables groupes homognes (classification) schmas frquents

    020

    4060

    8010

    0

    Hei

    ght

    6 4 2 0 2 4

    20

    24

    6

    PC1

    PC

    2

    6 / 41 F. Rossi Introduction

  • ModlisationObjectifs :

    infrer des informations inconnues prdire lvolution des donnes

    Moyens : donnes dapprentissage :

    connatre lvolution dune grandeur dans le pass pourprdire son volution future (donnes historiques)

    connatre une proprit de certains objets (par exemple lesalaire de certains clients) pour infrer sa valeur pour lesautres objets

    mthodes dapprentissage : construire un modle partirdes donnes dapprentissage

    Stratgie : analyse exploratoire formulation dhypothses construction de modles pour valider les hypothses

    7 / 41 F. Rossi Introduction

  • ModlisationObjectifs :

    infrer des informations inconnues prdire lvolution des donnes

    Moyens : donnes dapprentissage :

    connatre lvolution dune grandeur dans le pass pourprdire son volution future (donnes historiques)

    connatre une proprit de certains objets (par exemple lesalaire de certains clients) pour infrer sa valeur pour lesautres objets

    mthodes dapprentissage : construire un modle partirdes donnes dapprentissage

    Stratgie : analyse exploratoire formulation dhypothses construction de modles pour valider les hypothses

    7 / 41 F. Rossi Introduction

  • Modle mathmatique

    On a N observations, les zi ZModle statistique/probabiliste

    il existe une distribution PZ sur Z inconnue les zi sont des ralisations de variables alatoires avec

    cette distribution les variables alatoires sont indpendantes (en gnral)

    En gnral Z = Pp=1Zp : P variables pour dcrire chaque objet quand Zp R : variable numrique (ou ordonne) quand Zp = {a, b, . . .} : variable nominale (un nombre fini

    de valeurs possibles non ordonnes)

    8 / 41 F. Rossi Introduction

  • Modle mathmatique

    On a N observations, les zi ZModle statistique/probabiliste

    il existe une distribution PZ sur Z inconnue les zi sont des ralisations de variables alatoires avec

    cette distribution les variables alatoires sont indpendantes (en gnral)

    En gnral Z = Pp=1Zp : P variables pour dcrire chaque objet quand Zp R : variable numrique (ou ordonne) quand Zp = {a, b, . . .} : variable nominale (un nombre fini

    de valeurs possibles non ordonnes)

    8 / 41 F. Rossi Introduction

  • PlanIntroduction

    ExplorationModlisationModle des donnes

    Analyses univariesVariables numriques

    HistogrammeBoxplot et statistiques

    Variables nominales

    Analyses multivariesDiagramme de dispersionMatrice de corrlationDiagramme mosaiqueCoordonnes paralllesInteraction

    9 / 41 F. Rossi Analyses univaries

  • Analyses lmentairesPremire tape dune analyse exploratoire

    travailler variable par variable numriquement et graphiquement

    Variable numrique valeurs dans R statistiques classiques : moyenne, variance, mdiane, etc. reprsentations associes : histogramme, boxplot

    Variable ge : numrique

    Histogram of age

    age

    Den

    sity

    0 20 40 60 80 100

    0.00

    00.

    010

    0.02

    0

    10 / 41 F. Rossi Analyses univaries

  • Analyses lmentairesPremire tape dune analyse exploratoire

    travailler variable par variable numriquement et graphiquement

    Variable numrique valeurs dans R statistiques classiques : moyenne, variance, mdiane, etc. reprsentations associes : histogramme, boxplot

    Variable ge : numrique

    Histogram of age

    age

    Den

    sity

    0 20 40 60 80 100

    0.00

    00.

    010

    0.02

    0

    10 / 41 F. Rossi Analyses univaries

  • Analyses lmentairesPremire tape dune analyse exploratoire

    travailler variable par variable numriquement et graphiquement

    Variable numrique valeurs dans R statistiques classiques : moyenne, variance, mdiane, etc. reprsentations associes : histogramme, boxplot

    Variable ge : numrique

    Histogram of age

    age

    Den

    sity

    0 20 40 60 80 100

    0.00

    00.

    010

    0.02

    0

    10 / 41 F. Rossi Analyses univaries

  • HistogrammeUn histogramme reprsente une estimation de ladistribution dune variablePrincipe de construction :

    division de lintervalle [min, max] en K sous-intervalles(diverses rgles pour K , par exemple log N)

    dnombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles

    reprsentation par des barres de surfaces proportionnellesaux dcomptes

    Attention aux intervalles de longueurs diffrentes

    11 / 41 F. Rossi Analyses univaries

  • HistogrammeUn histogramme reprsente une estimation de ladistribution dune variablePrincipe de construction :

    division de lintervalle [min, max] en K sous-intervalles(diverses rgles pour K , par exemple log N)

    dnombrement des objets pour lesquels la valeur de lavariable tombe dans chacun des intervalles

    reprsentation par des barres de surfaces proportionnellesaux dcomptes

    Attention aux intervalles de longueurs diff

Recommended

View more >