data mining - cours.polymtl.cacours.polymtl.ca/mth6301/mth8302/2020-mth8302-ch06...définir le...

7
1 MTH8302 plan du cours 2 Chapitre 6 Introduction page Définitions 4 Éléments 8 Exemples 13 Implantation 20 Data Miner Recipes 22 Références 24 Chapitre 6 : Introduction Chapitre 7 : Multivariate Adaptative Regression Splines (MARS) Chapitre 8 : Classification and Reg.ression Trees Chapitre 9 : Random Forest (RF) Chapitre 10 : Artificial Neural Networks (ANN) MTH8302 - Analyse de régression et analyse de variance STATISTICA data mining CRT Classification Regression Tree ANN Artificial Neural Netwoork vues dans ces notes 3 MARS Multivariate Adaptive Regression Splines RF Random Forest voir après les 4 méthodes : Data Miner Recipes https://www.datasciencecentral.com/profiles/blogs/supervised-learning-vs-unsupervised-in-one-picture non vues car apprentissage non supervisé MTH8302 = apprentissage supervisé Data Mining fouille de données, extraction de connaissances KDD = Knowledge Data Discovery est un nouveau champ d’application à l’interface de la statistique et des technologies de l’information (bases de données, intelligence artificielle, apprentissage ,etc.) DÉFINITIONS du DATA MINING U.M.Fayyad , G.Piatetski-Shapiro « the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data » D.J.Hand « the discovery of interesting, unexpected, or valuable structures in large data sets » 4

Upload: others

Post on 17-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Mining - cours.polymtl.cacours.polymtl.ca/mth6301/mth8302/2020-MTH8302-ch06...Définir le problème 2. Identifier et préparer les données 3.Construire le modèle et le tester

1

MT

H8

30

2 p

lan

du

cou

rs

2

Cha

pitr

e6

In

trod

uctio

npa

geD

éfin

ition

s4

Élém

ents

8Ex

empl

es13

Impl

anta

tion

20

Dat

a M

iner

Rec

ipes

2

2R

éfér

ence

s24

Cha

pitr

e 6

: In

trod

uctio

nC

hapi

tre

7 :

Mul

tivar

iate

Adap

tativ

eR

egre

ssio

nSp

lines

(MAR

S)C

hapi

tre

8 :

Cla

ssifi

catio

n an

d R

eg.re

ssio

nTr

ees

Cha

pitr

e 9

: R

ando

mFo

rest

(RF)

Cha

pitr

e 10

: Ar

tific

ialN

eura

l Net

wor

ks (

ANN

)

MTH

8302

-An

alys

e de

régr

essi

on e

t ana

lyse

de

varia

nce

STAT

ISTI

CA

data

min

ing

CR

TC

lass

ifica

tion

Reg

ress

ion

Tree

ANN

A

rtifi

cial

Neu

ral

Net

woo

rk

vues

dan

s

ces

note

s

3

MAR

S M

ultiv

aria

teAd

aptiv

eR

egre

ssio

nSp

lines

RF

Ran

dom

Fore

st

voir

aprè

s le

s 4

mét

hode

s : D

ata

Min

er R

ecip

es

http

s://w

ww

.dat

asci

ence

cent

ral.c

om/p

rofil

es/b

logs

/sup

ervi

sed-

lear

ning

-vs-

unsu

perv

ised

-in-o

ne-p

ictu

re

non

vues

car

app

rent

issa

ge n

on s

uper

visé

MTH

8302

= a

ppre

ntis

sage

sup

ervi

Dat

a M

inin

gfo

uille

de

donn

ées,

ext

ract

ion

de c

onna

issa

nces

KD

D =

Kno

wle

dge

Dat

a D

isco

very

est u

n no

uvea

u ch

amp

d’ap

plic

atio

n à

l’int

erfa

ce d

e la

stat

istiq

ue e

t des

tec

hnol

ogie

s de

l’in

form

atio

n(b

ases

de

donn

ées,

inte

llige

nce

artif

icie

lle, a

ppre

ntis

sage

,etc

.)

DÉF

INIT

ION

S d

u D

ATA

MIN

ING

U.M

.Fay

yad,

G.P

iate

tski

-Sha

piro

«th

eno

ntriv

ial p

roce

ss o

f ide

ntify

ing

valid

, nov

el, p

oten

tially

usef

ul, a

nd u

ltim

atel

y un

ders

tand

able

pat

tern

s in

dat

a »

D.J

.Han

the

disc

over

y of

inte

rest

ing,

une

xpec

ted,

or v

alua

ble

stru

ctur

es in

larg

e da

ta s

ets

»

4

Page 2: Data Mining - cours.polymtl.cacours.polymtl.ca/mth6301/mth8302/2020-MTH8302-ch06...Définir le problème 2. Identifier et préparer les données 3.Construire le modèle et le tester

DÉF

INIT

ION

S d

u D

ATA

MIN

ING

Expl

orat

ion

d’un

e gr

ande

qua

ntité

de

donn

ées

(cen

tain

es d

e va

riabl

es/m

illie

rs d

’obs

erva

tions

)en

vue

de re

cher

cher

de

s m

odèl

es re

latio

nnel

s en

tre

des

varia

bles

et e

nsui

te d

e va

lider

ces

m

odèl

es e

n le

s ap

pliq

uant

sur

de

nouv

elle

s do

nnée

s.Ar

t et l

a sc

ienc

e d’

obte

nir d

e la

con

nais

sanc

e à

part

ir de

s do

nnée

sO

B J

E C

T I

F S

–id

entif

ier d

es s

truc

ture

s, g

roup

es, c

lust

ers,

str

ates

, ou

dim

ensi

ons

dans

les

donn

ées

qui n

e se

mbl

ent p

as a

voir

de s

truc

ture

s év

iden

tes

n

on s

uper

visé

–id

entif

ier d

es fa

cteu

rs q

ui s

ont r

elié

s à

un ré

sulta

t d’in

térê

t(r

eche

rche

d’u

n sy

stèm

e de

cau

ses)

non

sup

ervi

sé–

préd

ire d

es v

aria

bles

d’in

térê

t(va

riabl

es d

e ré

pons

e):

nouv

eaux

clie

nts,

nou

veau

x ap

pliq

uant

s,et

cda

ta m

inin

gpr

édic

tif o

u s

uper

visé

(var

out

put Y

)

Proc

essu

s de

«to

rtur

e de

s do

nnée

s»ju

squ’

à la

«co

nfes

sion

»

5

Dat

a M

inin

g =

for

age

(fou

ille)

des

don

nées

6

LES

DO

NN

ÉES

SO

NT

PAR

TOU

T ! :

on

estd

ans

l’air

du B

IG D

ATA

Bas

e do

nnée

s re

latio

nnel

les

—co

mm

odité

de

tout

e en

trep

rise

Con

stru

ctio

n d’

imm

ense

ent

repô

t de

donn

ées

(dat

a w

areh

ouse

s)B

ase

de d

onné

es tr

ansa

ctio

nelle

s: p

oint

de

vent

e (P

oint

Of S

ale)

Bas

e de

don

nées

orie

ntée

s ob

jet,

rela

tionn

elle

s, d

istr

ibué

es,

hété

rogè

nes

et h

isto

rique

sB

ase

de d

onné

es s

patia

les

(GIS

), re

mot

ese

nsin

gB

ase

de d

onné

es s

cien

tifiq

ues

/ ing

énie

rieD

onné

es te

mpo

relle

s (e

.g.,

tran

sact

ions

bou

rsiè

res)

Text

(doc

umen

ts, e

mai

ls),

base

de

donn

ées

mul

timed

iaW

EB: i

mm

ense

, hyp

erlie

ns, d

ynam

ique

, sys

tèm

e d’

info

rmat

ion

glob

al

Web

Min

ing

Min

er c

e qu

e le

s en

gins

de

rech

erch

e tr

ouve

nt

Cla

ssifi

catio

n au

tom

atiq

ue d

es d

ocum

ents

Web

Déc

ouve

rtes

de

page

s W

eb d

e ré

fére

nce

auto

ritai

re

Anal

yse

des

stru

ctur

es W

eb e

t ré

seau

x7

QU

ELQ

UES

ÉL

ÉMEN

TS

DIS

TIN

CTI

FS

La m

étap

hore

du

Dat

a M

inin

gsi

gnifi

e qu

’il y

a d

es tr

ésor

s ou

pépi

tes

cach

és s

ous

des

mon

tagn

es d

e do

nnée

s qu

e l’o

n pe

utdé

couv

rir a

vec

des

outil

s sp

écia

lisés

.

Le D

ata

Min

ing

anal

yse

des s

donn

ées

recu

eilli

es à

d’a

utre

s fin

s:c’

est u

ne a

naly

se s

econ

daire

de

base

s de

don

nées

, sou

vent

conç

ues

pou

r la

gest

ion

de d

onné

es in

divi

duel

les.

Le D

ata

Min

ing

ne s

e pr

éocc

upe

pas

de c

olle

cter

des

don

nées

de m

aniè

re e

ffici

ente

et e

ffica

ce (

sond

ages

, pla

ns d

’exp

érie

nces

).

Rec

herc

he d

e m

odèl

es

ou

pa

ttern

s (c

ompo

rtem

ents

)ex

empl

e :

-ni

che

de c

onso

mm

ateu

rs à

fort

e va

leur

-con

som

mat

eurs

à h

aut r

isqu

e (d

omai

ne b

anca

ire)

Préd

ictif

(sup

ervi

sé)

ou

exp

lora

toire

(non

sup

ervi

sé)

Pas

d’es

timat

ion

/ tes

ts

mai

s dé

couv

erte

à l’

aide

d’a

lgor

ithm

es:

arbr

e de

déc

isio

n, ré

seau

x de

neu

rone

s, S

VM, r

ésea

uxba

yesi

ens,

cla

ssifi

catio

n, c

arte

s de

Koh

onen

, règ

les

d’as

soci

atio

n, e

tc 8

Page 3: Data Mining - cours.polymtl.cacours.polymtl.ca/mth6301/mth8302/2020-MTH8302-ch06...Définir le problème 2. Identifier et préparer les données 3.Construire le modèle et le tester

QU

ELQ

UES

ÉL

ÉMEN

TS

DIS

TIN

CTI

FS

L’in

fére

nce

stat

istiq

ue c

lass

ique

ne

fonc

tionn

e pl

us p

our l

es tr

ès

gran

ds e

nsem

bles

de

donn

ées:

tout

e hy

poth

èse

nulle

est

reje

tée.

Il fa

ut re

mpl

acer

les

test

s de

sig

nific

atio

n pa

r de

la v

alid

atio

n

croi

sée

: on

test

era

si u

ne s

truc

ture

rest

e va

labl

e da

ns u

ne

autr

e pa

rtie

des

don

nées

que

cel

le q

ui a

été

exp

loré

e po

ur la

défin

ir. C

ritèr

es d

éfin

is p

lus

loin

.

Les

stru

ctur

es s

ont-e

lles

valid

es?

Vérif

ier l

’util

ité d

e ce

que

l’on

déc

ouvr

e:co

rrél

atio

n n’

est p

as c

ausa

lité

!

Enje

u m

ajeu

r: l

a qu

alité

des

don

nées

, don

nées

man

quan

tes,

donn

ées

aber

rant

es (o

utlie

rs) ,

bia

is ,

. .

.

9

NAI

SSAN

CE

du

DAT

A M

ININ

G

L’év

olut

ion

des

SGBD

ver

sl’i

nfor

mat

ique

déc

isio

nnel

leav

ecle

s en

trepô

ts d

e do

nnée

s (D

ata

War

ehou

se).

La c

onst

itutio

n de

gig

a ba

ses

de d

onné

es :

trans

actio

ns d

e ca

rtes

de c

rédi

t, ap

pels

télé

phon

ique

s, fa

ctur

es d

e su

perm

arch

és:

tera

byte

s d

e do

nnée

s re

cuei

llies

auto

mat

ique

men

t. Dé

velo

ppem

entd

e la

Ges

tion

de la

Rel

atio

n Cl

ient

(CRM

) m

arke

ting

clie

nt a

u lie

u de

mar

ketin

g pr

odui

t,

attr

ition

, sat

isfa

ctio

n, fi

délis

atio

n, e

ffica

cité

des

cam

pagn

esde

pro

mot

ion

etc.

Rec

herc

hes

en In

telli

genc

e ar

tific

ielle

(IA)

appr

entis

sage

, ex

tract

ion

de c

onna

issa

nces

10

Data

Min

ing

tech

nolo

gie

base

de

donn

ées

mét

hode

ssta

tistiq

ues

autre

sdi

scip

lines

Info

rmat

ion

Scie

nce

Mac

hine

Lear

ning

&

Inte

llige

nce

Artif

iciel

le(A

I)

visu

alisa

tion

ordi

nate

urs

puiss

ants

11D

ATA

SC

IEN

CE

Dat

a M

inin

g co

nver

genc

e d

e p

lusi

eurs

disc

iplin

es

Cop

yrig

ht

© G

énis

tat

Con

seil

s In

c., 2

020, M

on

tréa

l, C

anad

a

Dat

a M

inin

gM

étho

des s

tatis

tique

sIn

telli

genc

e ar

tific

ielle

Rec

herc

he d

e rè

gles

de

cla

ssem

ent

-Mét

hode

s de

disc

rimin

atio

n-

Rés

eaux

de

neur

onne

s-

Segm

enta

tion

App

rent

issa

ge su

perv

isé/

ex.

-règ

les

-d'ar

bre

de d

écis

ion

-rai

sonn

emen

t à b

ase

de c

asR

égre

ssio

n-

Mét

hode

s de

régr

essi

on-

Rés

eaux

de

neur

onne

s_

Cla

ssifi

catio

n au

tom

atiq

ue-

Cla

ssifi

catio

nau

tom

atiq

ue

hiér

arch

ique

-Pa

rtitio

nnem

ent

-R

ésea

ux d

e ne

uron

nes

App

rent

issa

ge n

on su

perv

isé

-Cla

ssifi

catio

n°co

ncep

tuel

le

Des

crip

tion

synt

hétiq

ueSt

at. É

lém

enta

ire (h

isto

gram

me,

m

oy, é

cart-

type

)O

utils

d'in

terp

rét°

de

clas

ses

Mét

hode

s fac

torie

lles (

AC

P)

App

rent

issa

ge n

on su

perv

isé

-Gén

éral

isat

ion

Rec

herc

he d

e dé

pend

ance

sC

orré

latio

nsA

naly

se fa

ctor

ielle

s des

cor

r. (A

FC)

Rés

eaux

bay

ésie

ns

App

rent

issa

ge n

on su

perv

isé

-Gén

éral

isat

ion

-Rec

herc

he d

'asso

ciat

ions

Dét

ectio

n de

viat

ions

Test

stat

sur l

es é

carts

_

12

Dat

a M

inin

g co

nver

genc

e d

e p

lusi

eurs

disc

iplin

es

Page 4: Data Mining - cours.polymtl.cacours.polymtl.ca/mth6301/mth8302/2020-MTH8302-ch06...Définir le problème 2. Identifier et préparer les données 3.Construire le modèle et le tester

Exem

ples

d’a

pplic

atio

ns

-D

étec

ter d

es p

atte

rns

frau

dule

ux d

ans

les

tran

sact

ions

sur c

arte

de

créd

it

Ana

lyse

r les

com

port

emen

ts d

e cl

ient

s af

in d

e pr

opos

erde

s ac

hats

pot

entie

ls (e

x. a

chat

de

couc

hes

et d

e bi

ère

!)

Iden

tifie

r des

str

atég

ies

pour

acq

uérir

de

nouv

eaux

clie

nts

Opt

imis

er la

per

form

ance

de

proc

édés

man

ufac

turie

rs c

ompl

exes

Dét

erm

iner

des

rela

tions

dan

s le

s ba

nque

s de

don

nées

de to

ute

orga

nisa

tion

de p

rodu

ctio

n de

bie

ns o

u se

rvic

es

13

AA PP PP LL II CC AA TT II OO NN S

site

le p

lus

reco

nnu

enD

ata

Min

ing

:ht

tp://

ww

w.k

dnug

gets

.com

appl

icat

ions

rece

nsée

s (2

003)

bank

ing

bioi

nfor

mat

ics

/bio

tech

dire

ct m

arke

ting

e-co

mm

erce

/ w

eb

ente

rtai

nem

ent

frau

dde

tect

ion

assu

ranc

e

inve

stis

emen

t/ s

tock

s

man

ufac

turin

g

med

ical

/pha

rmac

eutic

als

reta

il

scie

ntifi

cda

ta

secu

rity

supp

lych

ain

anal

ysis

tele

com

mun

icat

ion

trav

el

Kan

tard

zic

et Z

urad

a(2

005)

appl

icat

ions

réce

ntes

du

Dat

a M

inin

gau

tres

dom

aine

s qu

e m

arke

ting

/ ven

tes

Min

ing

Waf

er F

abric

atio

nD

amag

e D

etec

tion

Sens

orAr

ray

Dat

a Pr

oces

sing

Car

Driv

er A

sses

smen

tD

isco

very

of P

atte

rns

in E

arth

Sci

ence

Det

ectio

n in

Dig

ital

Imag

ery

Expe

rienc

es in

Min

ing

from

Com

pute

r Sim

ulat

ion

Gen

e M

appi

ngM

icro

arra

y D

ata

Anal

ysis

Gen

e Ex

pres

sion

Pro

files

for t

heD

iagn

osis

of

Dis

ease

sPa

ttern

Rec

ogni

tion

for

Bio

mar

ker D

isco

very

Min

ing

the

Cys

tic F

ibro

sis

Dat

aLe

arni

ng S

trat

egie

s fo

r Web

Cra

wlin

gD

ata

Min

ing

for C

rime

Figh

ting

Dat

a M

inin

g fo

r Int

rusi

on D

etec

tion

Usi

ng F

ract

als

in D

ata

Min

ing

14

Rob

otic

sPa

ttern

reco

gniti

onIm

age

and

spee

ch a

naly

sis

Med

ical

dia

gnos

tics

and

mon

itorin

gLo

an o

r cre

dit s

olic

itatio

ns

Bes

oins

déc

isio

nnel

s :

exem

ple

d’ap

plic

atio

n : d

omai

ne b

anca

ire

Déc

ouve

rte

dete

ndan

ces

cach

ées,

règl

essi

gnifi

cativ

es

Con

nais

sanc

eet

prév

isio

n

Req

uête

surd

es

donn

ées

de

déta

il

Visu

alis

atio

n

Anal

yse,

déte

ctio

nde

pr

oblè

mes

et

oppo

rtun

ités

Ana

lyse

Com

bien

de

mou

vem

ents

ch

aque

clie

nt a

-t-il

effe

ctué

au

cour

s du

der

nier

moi

s?

Que

lle e

st l’

évol

utio

n su

r 5 a

ns d

u no

mbr

e m

ensu

el d

e m

ouve

-m

ents

pour

cha

que

caté

gorie

de

clie

nts?

Que

ls c

lient

s cl

ôtur

eron

t leu

r co

mpt

e au

cou

rs

des

6 pr

ocha

ins

moi

s?

«ch

urni

ng»

Inte

rrog

atio

nra

ppor

tsO

LAP

Dat

a M

inin

g

15

On

Line

Appl

icat

ion

Proc

ess

•En

trep

rise

: b

anqu

e•

Act

ivité

:

p

rêts

hyp

othé

caire

s•

Prob

lèm

e :

acc

epte

r ou

refu

ser u

nede

man

de d

e cr

édit?

•So

lutio

n ac

tuel

leév

alua

tion

de la

sol

vabi

lité

du c

lient

sur l

a b

ase

de c

ritèr

es d

éfin

is p

ar d

es

gest

ionn

aire

s ex

périm

enté

s

Bes

oins

déc

isio

nnel

s :

exem

ple

d’ap

plic

atio

n do

mai

ne b

anca

ire

16

Page 5: Data Mining - cours.polymtl.cacours.polymtl.ca/mth6301/mth8302/2020-MTH8302-ch06...Définir le problème 2. Identifier et préparer les données 3.Construire le modèle et le tester

Une

aut

re a

ltern

ativ

e:

gest

ionn

aire

s ex

périm

enté

s

Dat

a M

inin

g

Ana

lyse

r les

don

nées

his

toriq

ues:

solv

abili

té o

bser

vée

lors

des

anc

iens

cré

dits

créd

itsan

cien

s

pour

pré

voir

la s

olva

bilit

é de

s de

man

deur

s de

cré

dit

dem

ande

sde

cré

dit

17

mod

èle

donn

ées

hist

oriq

ues

Mon

tant

créd

itTa

uxcé

dit(

%)

prof

essi

onÉt

atci

vil

reve

nus

solv

abili

100

000

7,5

ense

igna

ntM

arié

98 0

00O

ui

200

000

9,4

empl

oyé

Mar

ié10

8 00

0N

on

250

000

8,1

ouvr

ier

Cél

ibat

120

000

Oui

220

000

5,3

cadr

eM

arié

160

000

Oui

300

000

8,1

ouvr

ier

Mar

ié15

0 00

0N

on

190

000

6,1

prof

. lib

éral

eD

écéd

é21

0 00

0O

ui

420

000

6,9

cadr

eM

arié

180

000

Oui

nouv

elle

sdo

nnée

s21

0 00

08,

2em

ploy

éC

élib

at12

0 00

0

190

000

7,4

empl

oyé

Mar

ié17

0 00

0

330

000

6,9

prof

.lib.

Cél

ibat

190

000

170

000

7,0

cadr

eM

arié

205

000

310

000

7,3

ouvr

ier

Mar

ié12

0 00

0

240

000

6,9

fonc

tion

Mar

ié11

0 00

0

400

000

7,1

cadr

eM

ari.

190

000

18

solv

abilit

é de

s de

man

deur

s de

cré

dit

180

000

Oui

120

000

170

000

190

000

205

000

120

000

110

000

190

000

18

?

19

solv

abilit

é de

s de

man

deur

s de

cré

dit

Exem

ple

-fic

hier

Cre

ditS

corin

gde

Sta

tistic

a : 1

000

obs.

x 2

0 va

r

……

……

……

……

……

……

……

……

……

……

……

……

……

……

……

……

……

……

. ..

20

CR

ISP

Euro

pean

con

sort

ium

of c

ompa

nies

stan

dard

pro

cess

mod

el fo

r dat

a m

inin

g

SEM

MA

(SAS

Inst

itute

)

SE

MM

Asse

ss

MO

DÈL

ES

D’IM

PLA

NTA

TIO

N

Page 6: Data Mining - cours.polymtl.cacours.polymtl.ca/mth6301/mth8302/2020-MTH8302-ch06...Définir le problème 2. Identifier et préparer les données 3.Construire le modèle et le tester

21

Étap

es d

u pr

oces

sus

DAT

A M

ININ

G

1.D

éfin

ir le

pro

blèm

e2.

Iden

tifie

r et p

répa

rer l

es

donn

ées

3.C

onst

ruire

le m

odèl

e et

le te

ster

4.Év

alue

r le

mod

èle

et c

hois

irla

tech

niqu

e o

ptim

ale

PUIS

appl

ique

r (dé

ploy

er) l

e m

odèl

eau

x do

nnée

s ré

cent

es e

tIn

terp

réte

r les

résu

ltats

Dat

aMin

erR

ecep

iede

Sta

tistic

a

22

23

Dat

aMin

erR

ecep

iede

Sta

tistic

aM

onog

raph

ies

& A

rtic

les

(pas

à jo

ur …

.)

Ber

ry, M

., J.

, A.,

& L

inof

f, G

., S.

, (20

00).

Mas

terin

g D

ata

Min

ing.

New

Yor

k: W

iley

D.H

and

(199

9): W

hy d

ata

min

ing

is m

ore

than

sta

tistic

s w

rite

larg

e,IS

I,Hel

sink

i,

http

://w

ww

.sta

t.fi/i

si99

/inde

x.ht

ml

D.H

and

(200

0): M

etho

dolo

gica

l Iss

ues

in D

ata

Min

ing,

in C

omps

tat 2

000,

Phy

sica

-Ver

lag,

77-

85, 2

000

Edel

stei

n, H

., A.

(199

9 ). I

ntro

duct

ion

to D

ata

Min

ing

and

Kno

wle

dge

Dis

cove

ry (3

rd e

d). P

otom

ac, M

D: T

wo

Cro

ws

Cor

p.

Fayy

ad, U

. M.,

Piat

etsk

y-Sh

apiro

, G.,

Smyt

h, P

., &

Uth

urus

amy,

R. (

1996

). A

dvan

ces

In K

now

ledg

e D

isco

very

& D

ata

Min

ing.

Cam

brid

ge, M

A: M

IT P

ress

.

Frie

dman

J. (

1997

): D

ata

Min

ing

and

Stat

istic

s, W

hat’s

the

Con

nect

ion?

http

://w

ww

-sta

t.sta

nfor

d.ed

u/~j

hf/ft

p/dm

-sta

t.ps

Frie

dman

J. (

1999

): Th

e ro

le o

f Sta

tistic

s in

Dat

a R

evol

utio

n, IS

I, H

elsi

nki,

http

://w

ww

.sta

t.fi/i

si99

/inde

x.ht

ml

Frie

dman

J. (

2009

): pr

emiè

re h

eure

du

cour

sST

AT31

5B (S

tanf

ord

Uni

v.) s

ur le

Dat

a M

inin

g (d

onné

àl’h

iver

2009

)ttp

://m

yvid

eos.

stan

ford

.edu

/pla

yer/s

lpla

yer.a

spx?

cour

se=S

TATS

315B

&p=

true

Gau

dard

, M. R

amse

y, P

., St

ephe

ns, M

. ((2

006)

. Int

erac

tive

Dat

a M

inin

g an

d D

esig

n of

Exp

erim

ents

:

The

JMP

Part

ition

and

Cus

tom

Des

ign

Plat

form

s. N

orth

Hav

en G

roup

, LLC

Giu

dici

, P. (

2003

). A

pplie

d D

ata

Min

ing:

Sta

tistic

al M

etho

ds fo

r Ind

ustr

y, J

ohn

Wile

y &

Son

s.H

an, J

., K

ambe

r, M

. (20

00).

Dat

a M

inin

g: C

once

pts

and

Tech

niqu

es. N

ew Y

ork:

Mor

gan-

Kau

fman

.

Has

tie, T

., Ti

bshi

rani

, R.,

& F

riedm

an, J

. H. (

2001

). Th

e el

emen

ts o

f Sta

tistic

al L

earn

ing

: Dat

a M

inin

g, In

fere

nce,

and

Pred

ictio

n. N

ew Y

ork:

Spr

inge

r.

Kan

tard

zic,

M.M

., Zu

rada

, J. (

edito

rs) (

2005

). N

ext G

ener

atio

n of

Dat

a-M

inin

g A

pplic

atio

ns.J

ohn

Wile

y &

Son

s,C

opyr

ight

the

Inst

itute

of e

lect

rical

and

Ele

ctro

nic

Engi

neer

s (IE

EE).

Laro

se, D

anie

l T, (

2005

) Dis

cove

ring

Kno

wle

dge

in D

ata

: An

Intr

oduc

tion

to D

ata

Min

ing

. Joh

n W

iley

& S

ons.

Nis

betR

., El

der,

J., M

iner

, G. (

2009

) Han

dboo

k of

Sta

tistic

al A

naly

sis

& D

ata

Min

ing

Apl

licat

ions

,

Acad

emic

Pre

ss. I

SBN

978

-0-1

2-37

4765

-5Pr

egib

on, D

. (19

97).

Dat

a M

inin

g. S

tatis

tical

Com

putin

g an

d G

raph

ics,

7, 8

. St

atSo

ft:

35 v

idéo

sde

8-1

0 m

inut

es s

urYo

uTub

e

ht

tp://

ww

w.s

tats

oft.c

om/s

uppo

rt/do

wnl

oad/

vide

o-tu

toria

ls/

Tuffé

ry, S

. (20

07).

Dat

a M

inin

g et

sta

tistiq

uedé

cisi

onne

lle,É

ditio

nsTE

CH

NIP

, Par

is.

Wei

ss, S

. M.,

& In

durk

hya,

N. (

1997

). Pr

edic

tive

Dat

a M

inin

g: A

pra

ctic

al G

uide

. New

Yor

k: M

orga

n-K

aufm

an.

Wes

tpha

l, C

., B

laxt

on, T

. (19

98).

Dat

a M

inin

g So

lutio

ns. N

ew Y

ork:

Wile

y.W

itten

, I. H

., &

Fra

nk, E

. (20

00).

Dat

a M

inin

g. N

ew Y

ork:

Mor

gan-

Kauf

man

n.24

Page 7: Data Mining - cours.polymtl.cacours.polymtl.ca/mth6301/mth8302/2020-MTH8302-ch06...Définir le problème 2. Identifier et préparer les données 3.Construire le modèle et le tester

Mon

ogra

phie

s su

r les

rése

aux

de n

euro

nes

25

Bis

hop,

C. (

1995

). N

eura

l Net

wor

ks fo

r Pat

tern

Rec

ogni

tion.

Oxf

ord:

Uni

vers

ityPr

ess.

Car

ling,

A. (

1992

). In

trod

ucin

gN

eura

l Net

wor

ks.W

ilmsl

ow, U

K: S

igm

a Pr

ess.

Faus

ett,

L. (1

994)

. Fun

dam

enta

ls o

f Neu

ral N

etw

orks

. New

Yor

k: P

rent

ice

Hal

l.H

ayki

n, S

. (19

94).

Neu

ral N

etw

orks

: A C

ompr

ehen

sive

Foun

datio

n. N

ew Y

ork:

Mac

mill

an P

ublis

hing

.K

ohon

en, T

. (19

82).

Self-

orga

nize

dfo

rmat

ion

of to

polo

gica

llyco

rrec

t fea

ture

map

s.B

iolo

gica

lCyb

erne

tics,

43:

59-6

9.Pa

tters

on, D

. (19

96).

Art

ifici

alN

eura

l Net

wor

ks. S

inga

pore

: Pre

ntic

eH

all.

Rip

ley,

B.D

. (19

96).

Patte

rn R

ecog

nitio

n an

d N

eura

l Net

wor

ks. C

ambr

idge

Uni

vers

ityPr

ess.

Rum

elha

rt, D

.E.,

and

J.L.

McC

lella

nd(1

986)

, Par

alle

lDis

trib

uted

Proc

essi

ng,

Volu

me

1. T

he M

IT P

ress

.Fou

ndat

ions

.

http

://w

ww

.kdn

ugge

ts.c

om/

http

://w

ww

.ccs

u.ed

u/da

tam

inin

g/ht

tp://

ww

w.m

ath.

ccsu

.edu

/dm

/dm

%20

reso

urce

s.ht

mht

tp://

ww

w.d

mre

view

.com

http

://w

ww

.scd

.uca

r.edu

/hps

/GR

OU

PS/d

m/d

m.h

tml

http

://w

ww

.info

goal

.com

/dm

c/dm

cdw

h.ht

m

Site

s In

tern

et