stat2350 : data-mining sujet : Étude de data mining en utilisant sas:em année académique 2009 –...

16
STAT2350 : STAT2350 : DATA-MINING DATA-MINING Sujet : Étude de Data Sujet : Étude de Data Mining en utilisant Mining en utilisant SAS:EM SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean- Denis Mitskos Christina

Upload: yvette-dubois

Post on 04-Apr-2015

111 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

STAT2350 :STAT2350 :DATA-MININGDATA-MINING

Sujet : Étude de Data Mining en Sujet : Étude de Data Mining en utilisant SAS:EMutilisant SAS:EM

 Année académique 2009 – 2010

UNIVERSITE CATHOLIQUE DE LOUVAIN

Spinel Jean-Denis

Mitskos Christina

Page 2: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

PlanPlan

Objectif et méthodologieObjectif et méthodologie

Les différents nodesLes différents nodes

Les différends modèles Les différends modèles

Résultats obtenuRésultats obtenu

Page 3: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

Objectif:Objectif:

TargetTarget

Modèles prédictifsModèles prédictifs

Variables PertinentesVariables Pertinentes

Page 4: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

Méthodologie :Méthodologie :

Page 5: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

Node : Input Data Node : Input Data

!!: Surentrainement!!: Surentrainement

Entrainement, Validation, TestEntrainement, Validation, Test

Note: Cross-Validation ?Note: Cross-Validation ?

Page 6: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

Node : Transform VariableNode : Transform Variable

Page 7: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

Node : ReplacementNode : Replacement

Si binaire Si binaire 00

Si !FinanceSi !Finance MoyenneMoyenne

SinonSinon Tree InputationTree Inputation

Page 8: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

Node: Variable SelectionNode: Variable Selection

Sans:Sans: Avec:Avec:

Page 9: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

Node : Filter Outlier Node : Filter Outlier

Sans:Sans: AvecAvec

Page 10: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

ModèleS ModèleS

Arbres de DécisionsArbres de Décisions

Régressions LogistiquesRégressions Logistiques

Réseau de NeuroneRéseau de Neurone

Page 11: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

Exemple : le Neural Network Exemple : le Neural Network

Page 12: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

Comparaison des modèle Comparaison des modèle

TreeTree RégressionRégression NNNN

Page 13: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

Variables SignificativesVariables Significatives

Page 14: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

OversamplingOversampling

TreeTree RégressionRégression NNNN

Page 15: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

ConclusionConclusion

Meilleur modèle = NNMeilleur modèle = NN

Oversampling < Donnée brute ?Oversampling < Donnée brute ?

DouteDoute

Page 16: STAT2350 : DATA-MINING Sujet : Étude de Data Mining en utilisant SAS:EM Année académique 2009 – 2010 UNIVERSITE CATHOLIQUE DE LOUVAIN Spinel Jean-Denis

BibliographieBibliographie

TUFFERY (S.), TUFFERY (S.), Data Mining et statistique Data Mining et statistique décisionneldécisionnel, Paris, Technip, 2007, 366 p., Paris, Technip, 2007, 366 p.

http://www.stat.ucl.ac.be/cours/stat2350/SAhttp://www.stat.ucl.ac.be/cours/stat2350/SAS_EM_4_3.pdfS_EM_4_3.pdf

http://www.stat.ucl.ac.be/cours/stat2350/http://www.stat.ucl.ac.be/cours/stat2350/SAS_EM_case_study_approach.pdfSAS_EM_case_study_approach.pdf

http://eric.univ-lyon2.fr/publications/files/Thehttp://eric.univ-lyon2.fr/publications/files/TheseSimonMarcellin.pdfseSimonMarcellin.pdf