11장 연관분석(associations...

17
11 연관분석 ( Associations Mining )

Upload: others

Post on 09-Mar-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

11장연관분석(AssociationsMining)

Page 2: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

AssociationRuleMining

§ Given:

•상품 구매 기록으로부터 상품간의 연관성을 측정하여 함께 거

래될 가능성을 규칙으로 표현

일명: 장바구니 분석

Page 3: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

연관분석이란?

3

패턴발견

빵과 과자를 사는 사람의 80%는 우유를 같이 산다분유와 기저귀를 사는 사람의 74%는 맥주를 같이 산다

의사결정

맥주 소비는 분유와 기저귀 소비에 영향을 미침빵과 과자 가격 인상은 우유 소비에 영향을 미침

상품 진열대에 (빵, 과자, 우유), (분유, 기저귀, 맥주)를 같이 진열우유 소비를 조절하기 위해 빵,과자 가격을 조정

업무적용

Page 4: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

Apriori algorithm

[○○△☓]

[○□△]

[☆□]

[○☆☓△]

[○△]

Page 5: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

Apriori algorithm

5

Page 6: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

연관규칙 마이닝 (AssociationMining)§ Basket(Transaction)data

§ 측정치 (X->Y)– Support (지지도) :전체 레코드에서 상품 X,Y에 대한 거래를 모두 포함하는 비율

Supp(X,Y)

– Confidence(신뢰도) :상품 X를 구매한 거래가 발생했을 경우 그 거래가 상품 Y를 포함하는조건부 확률 Conf (X->Y)=Supp(X,Y)/Supp(X)

– Lift(향상도) :상품 X를 구매한 경우,그 거래가 상품 Y를 포함하는 경우와 상품 Y가 상품 X에 관계없이 구매된 경우의 비율

=>Lift(X->Y)=Supp(X,Y)/(Supp(X)·Supp(Y))= Conf(X->Y)/Supp(Y)->1이 넘으면 의미 있음

§ 측정치 예– {Milk,Diaper}=>Beer:Supp=2/5,Conf=2/3, Lift=(2/3)/(3/5)=1.1167

6

Transaction ID Iterms

1 Chips, Milk

2 Chips, Diaper, Beer, Cornflakes

3 Milk, Diaper, Beer, Pepsi

4 Chips, Milk, Diaper, Beer

5 Chips, Milk, Diaper, pepsi

Page 7: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

연관분석

§ 데이터 전처리– DVD대여 데이터

7

ID Items

1 Sixth Sense, LOTR1, Harry Potter1, Green Mile, LOTR2

2 Gladiator, Patriot, Braveheart

3 LOTR1, LOTR2

4 Gladiator, Patriot, Sixth Sense

5 ...

transaction 테이블의 구성dvdtrans.csv

Page 8: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

연관분석

8

Page 9: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

연관분석

§ Transaction테이블의 시각화

9

image(dvd.trans)

Page 10: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

연관분석

§ Apriori알고리즘의 적용– 연관규칙 개수를 조절 또는 의미 있는 연관규칙을 선별하기 위해

support,confidence값을 입력

10

Page 11: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

연관규칙의 시각화

§ arulesViz패키지 설치해야 함

11

plot(dvd.rules)plot(dvd.rules, measure=c("confidence", "lift"))

Page 12: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

연관규칙의 시각화

12

plot(dvd.rules, method = "grouped")

원의 크기 : Support색상 진하기: Lift 연관규칙의 개수

Page 13: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

연관규칙의 시각화

13

plot(dvd.rules, method = "graph", control=list(type= " itemsets ", alpha=1))

연관규칙의 중심에Gladiator, 6th Sense,

Patriot 이 있음

Item Set

Page 14: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

연관규칙의 시각화

14

plot(dvd.rules, method = "graph", control=list(alpha=1))

원 : 연관 관계원의 크기 : Support색상진하기: Lift

Page 15: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

예제 2§ 원본 데이터

15

Page 16: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

예제 2

16

Page 17: 11장 연관분석(Associations Mining)datamining.uos.ac.kr/wp-content/uploads/2016/09/11...연관분석 § 데이터전처리 – DVD 대여 데이터 7 ID Items 1 Sixth Sense, LOTR1,

예제 2

17

와인->오렌지주스에 대한지지율은 0.166, 신뢰도는 0.25, 향상도는 0.75

향상도가 0.75라는 것은와인과 오렌지주스가서로 음의 상관관계

와인을 산 사람들은오히려 오렌지주스를사지 않는다.